青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

學(xué)著站在巨人的肩膀上

金融數(shù)學(xué),InformationSearch,Compiler,OS,

  C++博客 :: 首頁 :: 新隨筆 :: 聯(lián)系 :: 聚合  :: 管理 ::
  12 隨筆 :: 0 文章 :: 8 評論 :: 0 Trackbacks

不好意思讓大家久等了,前一陣一直在忙考試,終于結(jié)束了。呵呵!廢話不多說了下面我們開始吧!

TSE用的是將抓取回來的網(wǎng)頁文檔全部裝入一個(gè)大文檔,讓后對這一個(gè)大文檔內(nèi)的數(shù)據(jù)整體統(tǒng)一的建索引,其中包含了幾個(gè)步驟。

view plaincopy to clipboardprint?
1.  The document index (Doc.idx) keeps information about each document.  
 
It is a fixed width ISAM (Index sequential access mode) index, orderd by docID.  
 
The information stored in each entry includes a pointer into the repository,  
 
a document length, a document checksum.  
 
 
 
//Doc.idx  文檔編號 文檔長度    checksum hash碼  
 
0   0   bc9ce846d7987c4534f53d423380ba70  
 
1   76760   4f47a3cad91f7d35f4bb6b2a638420e5  
 
2   141624  d019433008538f65329ae8e39b86026c  
 
3   142350  5705b8f58110f9ad61b1321c52605795  
 
//Doc.idx   end  
 
 
 
  The url index (url.idx) is used to convert URLs into docIDs.  
 
 
 
//url.idx  
 
5c36868a9c5117eadbda747cbdb0725f    0 
 
3272e136dd90263ee306a835c6c70d77    1 
 
6b8601bb3bb9ab80f868d549b5c5a5f3    2 
 
3f9eba99fa788954b5ff7f35a5db6e1f    3 
 
//url.idx   end  
 
 
 
It is a list of URL checksums with their corresponding docIDs and is sorted by  
 
checksum. In order to find the docID of a particular URL, the URL's checksum  
 
is computed and a binary search is performed on the checksums file to find its  
 
docID.  
 
 
 
    ./DocIndex  
 
        got Doc.idx, Url.idx, DocId2Url.idx //Data文件夾中的Doc.idx DocId2Url.idx和Doc.idx中  
 
 
 
//DocId2Url.idx  
 
0   http://*.*.edu.cn/index.aspx  
 
1   http://*.*.edu.cn/showcontent1.jsp?NewsID=118  
 
2   http://*.*.edu.cn/0102.html  
 
3   http://*.*.edu.cn/0103.html  
 
//DocId2Url.idx end  
 
 
 
2.  sort Url.idx|uniq > Url.idx.sort_uniq    //Data文件夾中的Url.idx.sort_uniq  
 
 
 
//Url.idx.sort_uniq  
 
//對hash值進(jìn)行排序  
 
000bfdfd8b2dedd926b58ba00d40986b    1111 
 
000c7e34b653b5135a2361c6818e48dc    1831 
 
0019d12f438eec910a06a606f570fde8    366 
 
0033f7c005ec776f67f496cd8bc4ae0d    2103 
 
 
 
3. Segment document to terms, (with finding document according to the url)  
 
    ./DocSegment Tianwang.raw.2559638448        //Tianwang.raw.2559638448為爬回來的文件 ,每個(gè)頁面包含http頭  
 
        got Tianwang.raw.2559638448.seg       
 
 
 
//Tianwang.raw.2559638448   爬取的原始網(wǎng)頁文件在文檔內(nèi)部每一個(gè)文檔之間應(yīng)該是通過version,</html>和回車做標(biāo)志位分割的  
 
version: 1.0 
 
url: http://***.105.138.175/Default2.asp?lang=gb  
 
origin: http://***.105.138.175/  
 
date: Fri, 23 May 2008 20:01:36 GMT  
 
ip: 162.105.138.175 
 
length: 38413 
 
 
 
HTTP/1.1 200 OK  
 
Server: Microsoft-IIS/5.0 
 
Date: Fri, 23 May 2008 11:17:49 GMT  
 
Connection: keep-alive  
 
Connection: Keep-Alive  
 
Content-Length: 38088 
 
Content-Type: text/html; Charset=gb2312  
 
Expires: Fri, 23 May 2008 11:17:49 GMT  
 
Set-Cookie: ASPSESSIONIDSSTRDCAB=IMEOMBIAIPDFCKPAEDJFHOIH; path=/  
 
Cache-control: private 
 
 
 
 
 
 
 
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" 
 
" 
<html>  
 
<head>  
 
<title>Apabi數(shù)字資源平臺</title>  
 
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">  
 
<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">  
 
<META NAME="DESCRIPTION" CONTENT="數(shù)字圖書館 方正數(shù)字圖書館 電子圖書 電子書 ebook e書 Apabi 數(shù)字資源平臺">  
 
<link rel="stylesheet" type="text/css" href="css\common.css">  
 
 
 
<style type="text/css">  
 
<!--  
 
.style4 {color: #666666}  
 
-->  
 
</style>  
 
 
 
<script LANGUAGE="vbscript">  
 
...  
 
</script>  
 
 
 
<Script Language="javascript">  
 
...  
 
</Script>  
 
</head>  
 
<body leftmargin="0" topmargin="0">  
 
</body>  
 
</html>  
 
//Tianwang.raw.2559638448   end  
 
 
 
//Tianwang.raw.2559638448.seg   將每個(gè)頁面分成一行如下(注意中間沒有回車作為分隔)  
 

 
...  
 
...  
 
...  
 

 
...  
 
...  
 
...  
 
//Tianwang.raw.2559638448.seg   end  
 
 
 
//下是 Tiny search 非必須因素  
 
4. Create forward index (docic-->termid)     //建立正向索引  
 
    ./CrtForwardIdx Tianwang.raw.2559638448.seg > moon.fidx  
 
 
 
//Tianwang.raw.2559638448.seg 將每個(gè)頁面分成一行如下<BR>//分詞   DocID<BR>1<BR>三星/  s/  手機(jī)/  論壇/  ,/  手機(jī)/  鈴聲/  下載/  ,/  手機(jī)/  圖片/  下載/  ,/  手機(jī)/<BR>2<BR>...<BR>...<BR>... 

1.  The document index (Doc.idx) keeps information about each document.

It is a fixed width ISAM (Index sequential access mode) index, orderd by docID.

The information stored in each entry includes a pointer into the repository,

a document length, a document checksum.

 

//Doc.idx  文檔編號 文檔長度 checksum hash碼

0 0 bc9ce846d7987c4534f53d423380ba70

1 76760 4f47a3cad91f7d35f4bb6b2a638420e5

2 141624 d019433008538f65329ae8e39b86026c

3 142350 5705b8f58110f9ad61b1321c52605795

//Doc.idx end

 

  The url index (url.idx) is used to convert URLs into docIDs.

 

//url.idx

5c36868a9c5117eadbda747cbdb0725f 0

3272e136dd90263ee306a835c6c70d77 1

6b8601bb3bb9ab80f868d549b5c5a5f3 2

3f9eba99fa788954b5ff7f35a5db6e1f 3

//url.idx end

 

It is a list of URL checksums with their corresponding docIDs and is sorted by

checksum. In order to find the docID of a particular URL, the URL's checksum

is computed and a binary search is performed on the checksums file to find its

docID.

 

 ./DocIndex

  got Doc.idx, Url.idx, DocId2Url.idx //Data文件夾中的Doc.idx DocId2Url.idx和Doc.idx中

 

//DocId2Url.idx

http://*.*.edu.cn/index.aspx

http://*.*.edu.cn/showcontent1.jsp?NewsID=118

http://*.*.edu.cn/0102.html

http://*.*.edu.cn/0103.html

//DocId2Url.idx end

 

2.  sort Url.idx|uniq > Url.idx.sort_uniq //Data文件夾中的Url.idx.sort_uniq

 

//Url.idx.sort_uniq

//對hash值進(jìn)行排序

000bfdfd8b2dedd926b58ba00d40986b 1111

000c7e34b653b5135a2361c6818e48dc 1831

0019d12f438eec910a06a606f570fde8 366

0033f7c005ec776f67f496cd8bc4ae0d 2103

 

3. Segment document to terms, (with finding document according to the url)

 ./DocSegment Tianwang.raw.2559638448  //Tianwang.raw.2559638448為爬回來的文件 ,每個(gè)頁面包含http頭

  got Tianwang.raw.2559638448.seg  

 

//Tianwang.raw.2559638448 爬取的原始網(wǎng)頁文件在文檔內(nèi)部每一個(gè)文檔之間應(yīng)該是通過version,</html>和回車做標(biāo)志位分割的

version: 1.0

url: http://***.105.138.175/Default2.asp?lang=gb

origin: http://***.105.138.175/

date: Fri, 23 May 2008 20:01:36 GMT

ip: 162.105.138.175

length: 38413

 

HTTP/1.1 200 OK

Server: Microsoft-IIS/5.0

Date: Fri, 23 May 2008 11:17:49 GMT

Connection: keep-alive

Connection: Keep-Alive

Content-Length: 38088

Content-Type: text/html; Charset=gb2312

Expires: Fri, 23 May 2008 11:17:49 GMT

Set-Cookie: ASPSESSIONIDSSTRDCAB=IMEOMBIAIPDFCKPAEDJFHOIH; path=/

Cache-control: private

 

 

 

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"

"

<html>

<head>

<title>Apabi數(shù)字資源平臺</title>

<meta http-equiv="Content-Type" content="text/html; charset=gb2312">

<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">

<META NAME="DESCRIPTION" CONTENT="數(shù)字圖書館 方正數(shù)字圖書館 電子圖書 電子書 ebook e書 Apabi 數(shù)字資源平臺">

<link rel="stylesheet" type="text/css" href="css\common.css">

 

<style type="text/css">

<!--

.style4 {color: #666666}

-->

</style>

 

<script LANGUAGE="vbscript">

...

</script>

 

<Script Language="javascript">

...

</Script>

</head>

<body leftmargin="0" topmargin="0">

</body>

</html>

//Tianwang.raw.2559638448 end

 

//Tianwang.raw.2559638448.seg 將每個(gè)頁面分成一行如下(注意中間沒有回車作為分隔)

1

...

...

...

2

...

...

...

//Tianwang.raw.2559638448.seg end

 

//下是 Tiny search 非必須因素

4. Create forward index (docic-->termid)  //建立正向索引

 ./CrtForwardIdx Tianwang.raw.2559638448.seg > moon.fidx

 

//Tianwang.raw.2559638448.seg 將每個(gè)頁面分成一行如下//分詞   DocID1三星/  s/  手機(jī)/  論壇/  ,/  手機(jī)/  鈴聲/  下載/  ,/  手機(jī)/  圖片/  下載/  ,/  手機(jī)/2.........view plaincopy to clipboardprint?
//Tianwang.raw.2559638448.seg end  
 
 
//moon.fidx  
 
//每篇文檔號對應(yīng)文檔內(nèi)分出來的    分詞  DocID  
 
都會  2391 
 
使   2391 
 
那些  2391 
 
擁有  2391 
 
它   2391 
 
的   2391 
 
人   2391 
 
的   2391 
 
視野  2391 
 
變   2391 
 
窄   2391 
 
在   2180 
 
研究生部    2180 
 
主頁  2180 
 
培養(yǎng)  2180 
 
管理  2180 
 
欄目  2180 
 
下載  2180 
 
)   2180 
 
、   2180 
 
關(guān)于  2180 
 
做好  2180 
 
年   2180 
 
國家  2180 
 
公派  2180 
 
研究生 2180 
 
項(xiàng)目  2180 
 
//moon.fidx end  
 
 
 
5.# set | grep "LANG" 
 
LANG=en; export LANG;  
 
sort moon.fidx > moon.fidx.sort  
 
 
 
6. Create inverted index (termid-->docid)    //建立倒排索引  
 
    ./CrtInvertedIdx moon.fidx.sort > sun.iidx  
 
 
 
//sun.iidx  //文件規(guī)模大概減少1/2  
 
花工   236 
 
花海   2103 
 
花卉   1018 1061 1061 1061 1730 1730 1730 1730 1730 1852 949 949 
 
花蕾   447 447 
 
花木   1061 
 
花呢   1430 
 
花期   447 447 447 447 447 525 
 
花錢   174 236 
 
花色   1730 1730 
 
花色品種     1660 
 
花生   450 526 
 
花式   1428 1430 1430 1430 
 
花紋   1430 1430 
 
花序   447 447 447 447 447 450 
 
花絮   136 137 
 
花芽   450 450 
 
//sun.iidx  end  
 
 
 
TSESearch   CGI program for query  
 
Snapshot    CGI program for page snapshot  
 
 
<P>  
author:http://hi.baidu.com/jrckkyy  
 
author:http://blog.csdn.net/jrckkyy  
</P> 

 

posted on 2009-12-10 22:55 學(xué)者站在巨人的肩膀上 閱讀(1321) 評論(1)  編輯 收藏 引用 所屬分類: 中文文本信息處理

評論

# re: 自頂向下學(xué)搜索引擎——北大天網(wǎng)搜索引擎TSE分析及完全注釋[5]倒排索引的建立及文件介紹 2009-12-12 13:18 淘寶皇冠大全
阿呆搜地哦的  回復(fù)  更多評論
  

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            日韩小视频在线观看| 欧美另类69精品久久久久9999| 国内精品久久久久久久影视蜜臀| 亚洲久久视频| 日韩视频永久免费| 久久躁狠狠躁夜夜爽| 久久久天天操| 国产主播精品在线| 久久精品官网| 免费一区二区三区| 亚洲国产婷婷香蕉久久久久久99| 免播放器亚洲| 亚洲片国产一区一级在线观看| 亚洲高清av| 欧美成人精精品一区二区频| 欧美搞黄网站| 夜久久久久久| 国产精品男gay被猛男狂揉视频| 亚洲调教视频在线观看| 午夜精品福利一区二区蜜股av| 国产精品呻吟| 久久久91精品国产一区二区精品| 美女脱光内衣内裤视频久久网站| 在线观看亚洲一区| 欧美精品乱人伦久久久久久| 日韩一级大片在线| 欧美在线国产| 亚洲国产综合91精品麻豆| 欧美精品色网| 亚洲欧美另类在线| 欧美aⅴ99久久黑人专区| 亚洲精选国产| 国产人妖伪娘一区91| 久久视频在线看| 日韩性生活视频| 久久精品一级爱片| 亚洲精选久久| 国产一区深夜福利| 欧美精品一二三| 午夜精品久久久久久久99樱桃| 欧美成人黄色小视频| 亚洲一区二区三区精品在线观看| 国产一区二区三区无遮挡| 欧美激情导航| 久久av一区二区三区漫画| 亚洲国产美女精品久久久久∴| 亚洲欧美精品在线| 亚洲激情一区二区| 国产精品综合av一区二区国产馆| 久久久伊人欧美| 久久在线91| 国产色婷婷国产综合在线理论片a| 蜜桃久久av一区| 国产精品嫩草99av在线| 久久久人成影片一区二区三区| 亚洲人成在线观看一区二区| 欧美一级片久久久久久久| 亚洲欧洲美洲综合色网| 国产精品中文字幕欧美| 欧美成人激情在线| 久久福利电影| 99视频有精品| 欧美国产精品中文字幕| 欧美一区二区三区婷婷月色| 亚洲精品美女| 在线播放不卡| 国产农村妇女精品一二区| 欧美大片在线观看一区| 久久精品1区| 在线一区亚洲| 亚洲美女一区| 亚洲国产清纯| 欧美好吊妞视频| 久久全球大尺度高清视频| 亚洲女与黑人做爰| 在线综合亚洲| 日韩一级不卡| 亚洲精品美女久久久久| 亚洲第一级黄色片| 黄色精品一区二区| 国产日韩欧美一区二区三区四区| 欧美日韩高清在线观看| 欧美sm重口味系列视频在线观看| 欧美一区在线直播| 亚洲欧美日韩中文视频| 国产精品99久久久久久久女警| 亚洲破处大片| 亚洲人成网在线播放| 欧美激情中文字幕一区二区| 久久久久久电影| 久久精品国产精品亚洲综合| 亚洲欧美日韩系列| 亚洲欧美日韩精品久久久| 中文网丁香综合网| 亚洲一区二区三区高清| 亚洲午夜av在线| 亚洲淫片在线视频| 亚洲一区综合| 欧美一区国产一区| 久久九九国产精品| 久久综合九色| 你懂的国产精品永久在线| 免费观看在线综合| 欧美激情久久久久久| 欧美激情精品久久久久久大尺度| 欧美国产视频日韩| 亚洲欧洲三级电影| 9i看片成人免费高清| 亚洲视频在线观看免费| 亚洲欧美日韩国产综合| 欧美一区二区三区视频| 久久久久久久久久久久久9999| 久久久之久亚州精品露出| 麻豆精品传媒视频| 欧美喷水视频| 国产精品美女久久久浪潮软件 | 亚洲精一区二区三区| 日韩视频免费观看| 亚洲午夜91| 欧美在线播放| 欧美福利视频| 国产精品国产一区二区| 国产日韩视频一区二区三区| 韩国欧美一区| 日韩视频二区| 欧美一级成年大片在线观看| 激情91久久| 亚洲大片精品永久免费| 亚洲免费高清| 欧美影视一区| 欧美顶级大胆免费视频| 日韩视频在线观看国产| 午夜欧美大尺度福利影院在线看| 久久久av网站| 欧美三日本三级三级在线播放| 国产精品有限公司| 亚洲国产日韩欧美在线动漫| 亚洲图片欧洲图片av| 久久午夜羞羞影院免费观看| 亚洲国产日韩一级| 午夜精品久久久久影视| 你懂的网址国产 欧美| 国产精品麻豆欧美日韩ww| 永久555www成人免费| 亚洲一区二区三区中文字幕在线| 久久久久久久波多野高潮日日| 亚洲国产一区二区三区a毛片 | 久久精品国产久精国产一老狼| 蜜桃久久av一区| 亚洲一区二区三区精品动漫| 久久久五月天| 国产精品一二一区| 亚洲精品乱码久久久久久久久| 欧美专区亚洲专区| 日韩视频专区| 久久综合给合久久狠狠色| 国产精品美女久久久久av超清| 亚洲福利国产| 久久久www成人免费毛片麻豆| 亚洲精品国产精品乱码不99按摩| 欧美一区二区三区在线播放| 欧美精品亚洲一区二区在线播放| 黑人操亚洲美女惩罚| 亚洲综合精品四区| 亚洲国产高潮在线观看| 久久国产88| 国产伦理精品不卡| 亚洲午夜免费福利视频| 亚洲国产天堂久久综合网| 久久精品国内一区二区三区| 国产精品久久久久天堂| 亚洲美女色禁图| 欧美成人精品在线观看| 欧美一级视频一区二区| 欧美三级特黄| 国产精品99久久久久久白浆小说| 欧美成在线观看| 久久久水蜜桃| 狠狠色丁香婷婷综合| 欧美在线视频一区| 亚洲性图久久| 国产精品每日更新| 亚洲综合另类| 中日韩午夜理伦电影免费| 欧美日韩少妇| 宅男在线国产精品| 久久久999成人| 在线观看中文字幕不卡| 欧美亚洲尤物久久| 亚洲裸体视频| 欧美日本一区二区视频在线观看| 在线欧美日韩国产| 美日韩精品免费观看视频| 午夜一区不卡| 国产日韩欧美中文在线播放| 亚洲欧美日韩国产综合在线| 一区二区三区av| 国产精品国产三级国产aⅴ入口 | 欧美视频一区二区三区…| 一区二区三区视频在线看|