青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

學著站在巨人的肩膀上

金融數學,InformationSearch,Compiler,OS,

  C++博客 :: 首頁 :: 新隨筆 :: 聯系 :: 聚合  :: 管理 ::
  12 隨筆 :: 0 文章 :: 8 評論 :: 0 Trackbacks

不好意思讓大家久等了,前一陣一直在忙考試,終于結束了。呵呵!廢話不多說了下面我們開始吧!

TSE用的是將抓取回來的網頁文檔全部裝入一個大文檔,讓后對這一個大文檔內的數據整體統一的建索引,其中包含了幾個步驟。

view plaincopy to clipboardprint?
1.  The document index (Doc.idx) keeps information about each document.  
 
It is a fixed width ISAM (Index sequential access mode) index, orderd by docID.  
 
The information stored in each entry includes a pointer into the repository,  
 
a document length, a document checksum.  
 
 
 
//Doc.idx  文檔編號 文檔長度    checksum hash碼  
 
0   0   bc9ce846d7987c4534f53d423380ba70  
 
1   76760   4f47a3cad91f7d35f4bb6b2a638420e5  
 
2   141624  d019433008538f65329ae8e39b86026c  
 
3   142350  5705b8f58110f9ad61b1321c52605795  
 
//Doc.idx   end  
 
 
 
  The url index (url.idx) is used to convert URLs into docIDs.  
 
 
 
//url.idx  
 
5c36868a9c5117eadbda747cbdb0725f    0 
 
3272e136dd90263ee306a835c6c70d77    1 
 
6b8601bb3bb9ab80f868d549b5c5a5f3    2 
 
3f9eba99fa788954b5ff7f35a5db6e1f    3 
 
//url.idx   end  
 
 
 
It is a list of URL checksums with their corresponding docIDs and is sorted by  
 
checksum. In order to find the docID of a particular URL, the URL's checksum  
 
is computed and a binary search is performed on the checksums file to find its  
 
docID.  
 
 
 
    ./DocIndex  
 
        got Doc.idx, Url.idx, DocId2Url.idx //Data文件夾中的Doc.idx DocId2Url.idx和Doc.idx中  
 
 
 
//DocId2Url.idx  
 
0   http://*.*.edu.cn/index.aspx  
 
1   http://*.*.edu.cn/showcontent1.jsp?NewsID=118  
 
2   http://*.*.edu.cn/0102.html  
 
3   http://*.*.edu.cn/0103.html  
 
//DocId2Url.idx end  
 
 
 
2.  sort Url.idx|uniq > Url.idx.sort_uniq    //Data文件夾中的Url.idx.sort_uniq  
 
 
 
//Url.idx.sort_uniq  
 
//對hash值進行排序  
 
000bfdfd8b2dedd926b58ba00d40986b    1111 
 
000c7e34b653b5135a2361c6818e48dc    1831 
 
0019d12f438eec910a06a606f570fde8    366 
 
0033f7c005ec776f67f496cd8bc4ae0d    2103 
 
 
 
3. Segment document to terms, (with finding document according to the url)  
 
    ./DocSegment Tianwang.raw.2559638448        //Tianwang.raw.2559638448為爬回來的文件 ,每個頁面包含http頭  
 
        got Tianwang.raw.2559638448.seg       
 
 
 
//Tianwang.raw.2559638448   爬取的原始網頁文件在文檔內部每一個文檔之間應該是通過version,</html>和回車做標志位分割的  
 
version: 1.0 
 
url: http://***.105.138.175/Default2.asp?lang=gb  
 
origin: http://***.105.138.175/  
 
date: Fri, 23 May 2008 20:01:36 GMT  
 
ip: 162.105.138.175 
 
length: 38413 
 
 
 
HTTP/1.1 200 OK  
 
Server: Microsoft-IIS/5.0 
 
Date: Fri, 23 May 2008 11:17:49 GMT  
 
Connection: keep-alive  
 
Connection: Keep-Alive  
 
Content-Length: 38088 
 
Content-Type: text/html; Charset=gb2312  
 
Expires: Fri, 23 May 2008 11:17:49 GMT  
 
Set-Cookie: ASPSESSIONIDSSTRDCAB=IMEOMBIAIPDFCKPAEDJFHOIH; path=/  
 
Cache-control: private 
 
 
 
 
 
 
 
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" 
 
" 
<html>  
 
<head>  
 
<title>Apabi數字資源平臺</title>  
 
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">  
 
<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">  
 
<META NAME="DESCRIPTION" CONTENT="數字圖書館 方正數字圖書館 電子圖書 電子書 ebook e書 Apabi 數字資源平臺">  
 
<link rel="stylesheet" type="text/css" href="css\common.css">  
 
 
 
<style type="text/css">  
 
<!--  
 
.style4 {color: #666666}  
 
-->  
 
</style>  
 
 
 
<script LANGUAGE="vbscript">  
 
...  
 
</script>  
 
 
 
<Script Language="javascript">  
 
...  
 
</Script>  
 
</head>  
 
<body leftmargin="0" topmargin="0">  
 
</body>  
 
</html>  
 
//Tianwang.raw.2559638448   end  
 
 
 
//Tianwang.raw.2559638448.seg   將每個頁面分成一行如下(注意中間沒有回車作為分隔)  
 

 
...  
 
...  
 
...  
 

 
...  
 
...  
 
...  
 
//Tianwang.raw.2559638448.seg   end  
 
 
 
//下是 Tiny search 非必須因素  
 
4. Create forward index (docic-->termid)     //建立正向索引  
 
    ./CrtForwardIdx Tianwang.raw.2559638448.seg > moon.fidx  
 
 
 
//Tianwang.raw.2559638448.seg 將每個頁面分成一行如下<BR>//分詞   DocID<BR>1<BR>三星/  s/  手機/  論壇/  ,/  手機/  鈴聲/  下載/  ,/  手機/  圖片/  下載/  ,/  手機/<BR>2<BR>...<BR>...<BR>... 

1.  The document index (Doc.idx) keeps information about each document.

It is a fixed width ISAM (Index sequential access mode) index, orderd by docID.

The information stored in each entry includes a pointer into the repository,

a document length, a document checksum.

 

//Doc.idx  文檔編號 文檔長度 checksum hash碼

0 0 bc9ce846d7987c4534f53d423380ba70

1 76760 4f47a3cad91f7d35f4bb6b2a638420e5

2 141624 d019433008538f65329ae8e39b86026c

3 142350 5705b8f58110f9ad61b1321c52605795

//Doc.idx end

 

  The url index (url.idx) is used to convert URLs into docIDs.

 

//url.idx

5c36868a9c5117eadbda747cbdb0725f 0

3272e136dd90263ee306a835c6c70d77 1

6b8601bb3bb9ab80f868d549b5c5a5f3 2

3f9eba99fa788954b5ff7f35a5db6e1f 3

//url.idx end

 

It is a list of URL checksums with their corresponding docIDs and is sorted by

checksum. In order to find the docID of a particular URL, the URL's checksum

is computed and a binary search is performed on the checksums file to find its

docID.

 

 ./DocIndex

  got Doc.idx, Url.idx, DocId2Url.idx //Data文件夾中的Doc.idx DocId2Url.idx和Doc.idx中

 

//DocId2Url.idx

http://*.*.edu.cn/index.aspx

http://*.*.edu.cn/showcontent1.jsp?NewsID=118

http://*.*.edu.cn/0102.html

http://*.*.edu.cn/0103.html

//DocId2Url.idx end

 

2.  sort Url.idx|uniq > Url.idx.sort_uniq //Data文件夾中的Url.idx.sort_uniq

 

//Url.idx.sort_uniq

//對hash值進行排序

000bfdfd8b2dedd926b58ba00d40986b 1111

000c7e34b653b5135a2361c6818e48dc 1831

0019d12f438eec910a06a606f570fde8 366

0033f7c005ec776f67f496cd8bc4ae0d 2103

 

3. Segment document to terms, (with finding document according to the url)

 ./DocSegment Tianwang.raw.2559638448  //Tianwang.raw.2559638448為爬回來的文件 ,每個頁面包含http頭

  got Tianwang.raw.2559638448.seg  

 

//Tianwang.raw.2559638448 爬取的原始網頁文件在文檔內部每一個文檔之間應該是通過version,</html>和回車做標志位分割的

version: 1.0

url: http://***.105.138.175/Default2.asp?lang=gb

origin: http://***.105.138.175/

date: Fri, 23 May 2008 20:01:36 GMT

ip: 162.105.138.175

length: 38413

 

HTTP/1.1 200 OK

Server: Microsoft-IIS/5.0

Date: Fri, 23 May 2008 11:17:49 GMT

Connection: keep-alive

Connection: Keep-Alive

Content-Length: 38088

Content-Type: text/html; Charset=gb2312

Expires: Fri, 23 May 2008 11:17:49 GMT

Set-Cookie: ASPSESSIONIDSSTRDCAB=IMEOMBIAIPDFCKPAEDJFHOIH; path=/

Cache-control: private

 

 

 

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"

"

<html>

<head>

<title>Apabi數字資源平臺</title>

<meta http-equiv="Content-Type" content="text/html; charset=gb2312">

<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">

<META NAME="DESCRIPTION" CONTENT="數字圖書館 方正數字圖書館 電子圖書 電子書 ebook e書 Apabi 數字資源平臺">

<link rel="stylesheet" type="text/css" href="css\common.css">

 

<style type="text/css">

<!--

.style4 {color: #666666}

-->

</style>

 

<script LANGUAGE="vbscript">

...

</script>

 

<Script Language="javascript">

...

</Script>

</head>

<body leftmargin="0" topmargin="0">

</body>

</html>

//Tianwang.raw.2559638448 end

 

//Tianwang.raw.2559638448.seg 將每個頁面分成一行如下(注意中間沒有回車作為分隔)

1

...

...

...

2

...

...

...

//Tianwang.raw.2559638448.seg end

 

//下是 Tiny search 非必須因素

4. Create forward index (docic-->termid)  //建立正向索引

 ./CrtForwardIdx Tianwang.raw.2559638448.seg > moon.fidx

 

//Tianwang.raw.2559638448.seg 將每個頁面分成一行如下//分詞   DocID1三星/  s/  手機/  論壇/  ,/  手機/  鈴聲/  下載/  ,/  手機/  圖片/  下載/  ,/  手機/2.........view plaincopy to clipboardprint?
//Tianwang.raw.2559638448.seg end  
 
 
//moon.fidx  
 
//每篇文檔號對應文檔內分出來的    分詞  DocID  
 
都會  2391 
 
使   2391 
 
那些  2391 
 
擁有  2391 
 
它   2391 
 
的   2391 
 
人   2391 
 
的   2391 
 
視野  2391 
 
變   2391 
 
窄   2391 
 
在   2180 
 
研究生部    2180 
 
主頁  2180 
 
培養  2180 
 
管理  2180 
 
欄目  2180 
 
下載  2180 
 
)   2180 
 
、   2180 
 
關于  2180 
 
做好  2180 
 
年   2180 
 
國家  2180 
 
公派  2180 
 
研究生 2180 
 
項目  2180 
 
//moon.fidx end  
 
 
 
5.# set | grep "LANG" 
 
LANG=en; export LANG;  
 
sort moon.fidx > moon.fidx.sort  
 
 
 
6. Create inverted index (termid-->docid)    //建立倒排索引  
 
    ./CrtInvertedIdx moon.fidx.sort > sun.iidx  
 
 
 
//sun.iidx  //文件規模大概減少1/2  
 
花工   236 
 
花海   2103 
 
花卉   1018 1061 1061 1061 1730 1730 1730 1730 1730 1852 949 949 
 
花蕾   447 447 
 
花木   1061 
 
花呢   1430 
 
花期   447 447 447 447 447 525 
 
花錢   174 236 
 
花色   1730 1730 
 
花色品種     1660 
 
花生   450 526 
 
花式   1428 1430 1430 1430 
 
花紋   1430 1430 
 
花序   447 447 447 447 447 450 
 
花絮   136 137 
 
花芽   450 450 
 
//sun.iidx  end  
 
 
 
TSESearch   CGI program for query  
 
Snapshot    CGI program for page snapshot  
 
 
<P>  
author:http://hi.baidu.com/jrckkyy  
 
author:http://blog.csdn.net/jrckkyy  
</P> 

 

posted on 2009-12-10 22:55 學者站在巨人的肩膀上 閱讀(1321) 評論(1)  編輯 收藏 引用 所屬分類: 中文文本信息處理

評論

# re: 自頂向下學搜索引擎——北大天網搜索引擎TSE分析及完全注釋[5]倒排索引的建立及文件介紹 2009-12-12 13:18 淘寶皇冠大全
阿呆搜地哦的  回復  更多評論
  

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            欧美日韩在线三级| 日韩视频在线免费| 9人人澡人人爽人人精品| 亚洲精品影院在线观看| 一本色道久久综合狠狠躁篇的优点| 亚洲黄色尤物视频| 亚洲精选在线观看| 亚洲午夜在线| 久久蜜桃资源一区二区老牛| 农村妇女精品| 日韩亚洲欧美成人| 欧美有码在线视频| 欧美成人精品1314www| 欧美日韩成人激情| 国产日韩av一区二区| 亚洲经典自拍| 欧美亚洲日本一区| 亚洲高清免费| 在线亚洲自拍| 免费成人网www| 欧美日本簧片| 国产午夜精品理论片a级大结局| 在线看片第一页欧美| 亚洲视频观看| 欧美成人精品1314www| 亚洲精品自在久久| 欧美中文字幕在线观看| 欧美噜噜久久久xxx| 国产在线视频欧美| 亚洲私拍自拍| 亚洲高清123| 欧美一区永久视频免费观看| 欧美精品久久久久久| 国产亚洲一区二区精品| 国产精品99久久不卡二区| 噜噜爱69成人精品| 亚洲免费在线| 欧美日韩国产小视频在线观看| 国内精品久久国产| 亚洲欧美国产精品va在线观看| 亚洲第一主播视频| 久久精品成人欧美大片古装| 国产精品久久久久久模特| 亚洲精品免费一二三区| 久久亚洲高清| 欧美一级午夜免费电影| 国产精品毛片一区二区三区 | 在线亚洲高清视频| 欧美成人精品激情在线观看| 欧美一区二区三区在线免费观看| 欧美性大战xxxxx久久久| 亚洲乱码国产乱码精品精天堂| 久久综合色婷婷| 久久国产精品网站| 国产一区清纯| 久久亚洲欧洲| 久久夜色精品国产亚洲aⅴ | 一区二区三区视频在线看| 欧美高清视频www夜色资源网| 欧美怡红院视频一区二区三区| 国产精品热久久久久夜色精品三区| 亚洲手机成人高清视频| 日韩一级欧洲| 国产精品免费久久久久久| 国产精品99久久久久久人| 亚洲免费成人av| 欧美三级乱码| 性伦欧美刺激片在线观看| 亚洲性视频h| 国产亚洲精品一区二555| 久久一区二区精品| 久久天天躁狠狠躁夜夜爽蜜月| 精品成人免费| 亚洲福利视频网站| 欧美日韩在线第一页| 久久久久久久久综合| 欧美日韩精品免费观看视频| 夜夜爽www精品| 日韩一级成人av| 国产精品乱码一区二区三区| 欧美一区二区私人影院日本| 欧美伊人久久久久久久久影院 | 亚洲精品少妇30p| 亚洲精品久久久蜜桃| 欧美日韩网址| 亚洲欧美中文日韩在线| 性视频1819p久久| 亚洲第一久久影院| 亚洲精品乱码久久久久久蜜桃麻豆 | 99视频超级精品| 亚洲色在线视频| 狠狠综合久久av一区二区小说 | 亚洲国产欧美一区二区三区久久 | 久久精品最新地址| 美女国产精品| 亚洲欧美成aⅴ人在线观看| 欧美一级专区免费大片| 亚洲国产成人精品久久久国产成人一区 | 国产免费观看久久| 久久久亚洲一区| 欧美日韩国产精品一区二区亚洲| 欧美呦呦网站| 欧美日韩国产三区| 久久久久一区| 欧美色欧美亚洲另类七区| 久久精品视频网| 欧美日韩国产精品| 蜜桃av一区| 国产精品私人影院| 欧美激情亚洲激情| 狠狠色综合色区| 亚洲一区三区视频在线观看| 亚洲全部视频| 久久精品国产精品亚洲综合| 亚洲欧美日韩成人| 欧美理论电影网| 蜜桃久久精品乱码一区二区| 国产精品久久久久一区二区三区共| 欧美sm视频| 国模私拍一区二区三区| 亚洲一区二区三区乱码aⅴ蜜桃女| 亚洲韩日在线| 久久人人爽爽爽人久久久| 久久激情网站| 国产精品美腿一区在线看| 日韩视频一区二区三区在线播放 | 亚洲第一区中文99精品| 亚洲欧美自拍偷拍| 性色一区二区三区| 欧美性天天影院| 亚洲理伦电影| 一本大道久久精品懂色aⅴ| 美女精品在线| 欧美激情一区二区三区蜜桃视频| 今天的高清视频免费播放成人 | 亚洲人体1000| 亚洲国产成人久久综合一区| 久久精品一级爱片| 久热re这里精品视频在线6| 国产亚洲欧美中文| 欧美一区三区二区在线观看| 久久aⅴ国产紧身牛仔裤| 国产精品一区二区在线观看网站 | 欧美日韩精品三区| 亚洲精品老司机| 正在播放欧美视频| 欧美偷拍一区二区| 亚洲欧美国产毛片在线| 久久精品亚洲| 精品二区久久| 欧美韩国日本综合| 一本色道综合亚洲| 欧美在线影院| 在线不卡免费欧美| 欧美激情aⅴ一区二区三区| 亚洲麻豆av| 久久成人18免费网站| 1000部精品久久久久久久久| 欧美成人性生活| 99综合精品| 久久久午夜视频| 一本色道88久久加勒比精品| 国产精品青草久久| 久久久精品一品道一区| 亚洲狠狠婷婷| 欧美一区二区性| 91久久中文字幕| 国产精品日韩精品欧美在线| 久久精品综合| 一本一本久久| 欧美高清成人| 欧美一区二区三区另类| 亚洲国产专区| 国产精品素人视频| 欧美不卡一卡二卡免费版| 亚洲一区图片| 亚洲高清久久网| 久久精品99国产精品酒店日本| 亚洲日本欧美日韩高观看| 国产美女一区| 欧美日韩精品一区二区在线播放| 欧美夜福利tv在线| 亚洲精选在线| 欧美激情2020午夜免费观看| 先锋影音久久久| 一区二区三区欧美在线| 亚洲成色www久久网站| 国产欧美在线视频| 欧美无砖砖区免费| 欧美激情中文字幕在线| 久久免费少妇高潮久久精品99| 午夜视频在线观看一区| 欧美视频网站| 乱中年女人伦av一区二区| 亚洲影院色无极综合| 日韩亚洲欧美在线观看| 亚洲国产婷婷综合在线精品| 免费观看欧美在线视频的网站| 久久成人一区| 欧美一区二区在线免费播放|