青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

學著站在巨人的肩膀上

金融數學,InformationSearch,Compiler,OS,

  C++博客 :: 首頁 :: 新隨筆 :: 聯系 :: 聚合  :: 管理 ::
  12 隨筆 :: 0 文章 :: 8 評論 :: 0 Trackbacks

不好意思讓大家久等了,前一陣一直在忙考試,終于結束了。呵呵!廢話不多說了下面我們開始吧!

TSE用的是將抓取回來的網頁文檔全部裝入一個大文檔,讓后對這一個大文檔內的數據整體統一的建索引,其中包含了幾個步驟。

view plaincopy to clipboardprint?
1.  The document index (Doc.idx) keeps information about each document.  
 
It is a fixed width ISAM (Index sequential access mode) index, orderd by docID.  
 
The information stored in each entry includes a pointer into the repository,  
 
a document length, a document checksum.  
 
 
 
//Doc.idx  文檔編號 文檔長度    checksum hash碼  
 
0   0   bc9ce846d7987c4534f53d423380ba70  
 
1   76760   4f47a3cad91f7d35f4bb6b2a638420e5  
 
2   141624  d019433008538f65329ae8e39b86026c  
 
3   142350  5705b8f58110f9ad61b1321c52605795  
 
//Doc.idx   end  
 
 
 
  The url index (url.idx) is used to convert URLs into docIDs.  
 
 
 
//url.idx  
 
5c36868a9c5117eadbda747cbdb0725f    0 
 
3272e136dd90263ee306a835c6c70d77    1 
 
6b8601bb3bb9ab80f868d549b5c5a5f3    2 
 
3f9eba99fa788954b5ff7f35a5db6e1f    3 
 
//url.idx   end  
 
 
 
It is a list of URL checksums with their corresponding docIDs and is sorted by  
 
checksum. In order to find the docID of a particular URL, the URL's checksum  
 
is computed and a binary search is performed on the checksums file to find its  
 
docID.  
 
 
 
    ./DocIndex  
 
        got Doc.idx, Url.idx, DocId2Url.idx //Data文件夾中的Doc.idx DocId2Url.idx和Doc.idx中  
 
 
 
//DocId2Url.idx  
 
0   http://*.*.edu.cn/index.aspx  
 
1   http://*.*.edu.cn/showcontent1.jsp?NewsID=118  
 
2   http://*.*.edu.cn/0102.html  
 
3   http://*.*.edu.cn/0103.html  
 
//DocId2Url.idx end  
 
 
 
2.  sort Url.idx|uniq > Url.idx.sort_uniq    //Data文件夾中的Url.idx.sort_uniq  
 
 
 
//Url.idx.sort_uniq  
 
//對hash值進行排序  
 
000bfdfd8b2dedd926b58ba00d40986b    1111 
 
000c7e34b653b5135a2361c6818e48dc    1831 
 
0019d12f438eec910a06a606f570fde8    366 
 
0033f7c005ec776f67f496cd8bc4ae0d    2103 
 
 
 
3. Segment document to terms, (with finding document according to the url)  
 
    ./DocSegment Tianwang.raw.2559638448        //Tianwang.raw.2559638448為爬回來的文件 ,每個頁面包含http頭  
 
        got Tianwang.raw.2559638448.seg       
 
 
 
//Tianwang.raw.2559638448   爬取的原始網頁文件在文檔內部每一個文檔之間應該是通過version,</html>和回車做標志位分割的  
 
version: 1.0 
 
url: http://***.105.138.175/Default2.asp?lang=gb  
 
origin: http://***.105.138.175/  
 
date: Fri, 23 May 2008 20:01:36 GMT  
 
ip: 162.105.138.175 
 
length: 38413 
 
 
 
HTTP/1.1 200 OK  
 
Server: Microsoft-IIS/5.0 
 
Date: Fri, 23 May 2008 11:17:49 GMT  
 
Connection: keep-alive  
 
Connection: Keep-Alive  
 
Content-Length: 38088 
 
Content-Type: text/html; Charset=gb2312  
 
Expires: Fri, 23 May 2008 11:17:49 GMT  
 
Set-Cookie: ASPSESSIONIDSSTRDCAB=IMEOMBIAIPDFCKPAEDJFHOIH; path=/  
 
Cache-control: private 
 
 
 
 
 
 
 
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" 
 
" 
<html>  
 
<head>  
 
<title>Apabi數字資源平臺</title>  
 
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">  
 
<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">  
 
<META NAME="DESCRIPTION" CONTENT="數字圖書館 方正數字圖書館 電子圖書 電子書 ebook e書 Apabi 數字資源平臺">  
 
<link rel="stylesheet" type="text/css" href="css\common.css">  
 
 
 
<style type="text/css">  
 
<!--  
 
.style4 {color: #666666}  
 
-->  
 
</style>  
 
 
 
<script LANGUAGE="vbscript">  
 
...  
 
</script>  
 
 
 
<Script Language="javascript">  
 
...  
 
</Script>  
 
</head>  
 
<body leftmargin="0" topmargin="0">  
 
</body>  
 
</html>  
 
//Tianwang.raw.2559638448   end  
 
 
 
//Tianwang.raw.2559638448.seg   將每個頁面分成一行如下(注意中間沒有回車作為分隔)  
 

 
...  
 
...  
 
...  
 

 
...  
 
...  
 
...  
 
//Tianwang.raw.2559638448.seg   end  
 
 
 
//下是 Tiny search 非必須因素  
 
4. Create forward index (docic-->termid)     //建立正向索引  
 
    ./CrtForwardIdx Tianwang.raw.2559638448.seg > moon.fidx  
 
 
 
//Tianwang.raw.2559638448.seg 將每個頁面分成一行如下<BR>//分詞   DocID<BR>1<BR>三星/  s/  手機/  論壇/  ,/  手機/  鈴聲/  下載/  ,/  手機/  圖片/  下載/  ,/  手機/<BR>2<BR>...<BR>...<BR>... 

1.  The document index (Doc.idx) keeps information about each document.

It is a fixed width ISAM (Index sequential access mode) index, orderd by docID.

The information stored in each entry includes a pointer into the repository,

a document length, a document checksum.

 

//Doc.idx  文檔編號 文檔長度 checksum hash碼

0 0 bc9ce846d7987c4534f53d423380ba70

1 76760 4f47a3cad91f7d35f4bb6b2a638420e5

2 141624 d019433008538f65329ae8e39b86026c

3 142350 5705b8f58110f9ad61b1321c52605795

//Doc.idx end

 

  The url index (url.idx) is used to convert URLs into docIDs.

 

//url.idx

5c36868a9c5117eadbda747cbdb0725f 0

3272e136dd90263ee306a835c6c70d77 1

6b8601bb3bb9ab80f868d549b5c5a5f3 2

3f9eba99fa788954b5ff7f35a5db6e1f 3

//url.idx end

 

It is a list of URL checksums with their corresponding docIDs and is sorted by

checksum. In order to find the docID of a particular URL, the URL's checksum

is computed and a binary search is performed on the checksums file to find its

docID.

 

 ./DocIndex

  got Doc.idx, Url.idx, DocId2Url.idx //Data文件夾中的Doc.idx DocId2Url.idx和Doc.idx中

 

//DocId2Url.idx

http://*.*.edu.cn/index.aspx

http://*.*.edu.cn/showcontent1.jsp?NewsID=118

http://*.*.edu.cn/0102.html

http://*.*.edu.cn/0103.html

//DocId2Url.idx end

 

2.  sort Url.idx|uniq > Url.idx.sort_uniq //Data文件夾中的Url.idx.sort_uniq

 

//Url.idx.sort_uniq

//對hash值進行排序

000bfdfd8b2dedd926b58ba00d40986b 1111

000c7e34b653b5135a2361c6818e48dc 1831

0019d12f438eec910a06a606f570fde8 366

0033f7c005ec776f67f496cd8bc4ae0d 2103

 

3. Segment document to terms, (with finding document according to the url)

 ./DocSegment Tianwang.raw.2559638448  //Tianwang.raw.2559638448為爬回來的文件 ,每個頁面包含http頭

  got Tianwang.raw.2559638448.seg  

 

//Tianwang.raw.2559638448 爬取的原始網頁文件在文檔內部每一個文檔之間應該是通過version,</html>和回車做標志位分割的

version: 1.0

url: http://***.105.138.175/Default2.asp?lang=gb

origin: http://***.105.138.175/

date: Fri, 23 May 2008 20:01:36 GMT

ip: 162.105.138.175

length: 38413

 

HTTP/1.1 200 OK

Server: Microsoft-IIS/5.0

Date: Fri, 23 May 2008 11:17:49 GMT

Connection: keep-alive

Connection: Keep-Alive

Content-Length: 38088

Content-Type: text/html; Charset=gb2312

Expires: Fri, 23 May 2008 11:17:49 GMT

Set-Cookie: ASPSESSIONIDSSTRDCAB=IMEOMBIAIPDFCKPAEDJFHOIH; path=/

Cache-control: private

 

 

 

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"

"

<html>

<head>

<title>Apabi數字資源平臺</title>

<meta http-equiv="Content-Type" content="text/html; charset=gb2312">

<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">

<META NAME="DESCRIPTION" CONTENT="數字圖書館 方正數字圖書館 電子圖書 電子書 ebook e書 Apabi 數字資源平臺">

<link rel="stylesheet" type="text/css" href="css\common.css">

 

<style type="text/css">

<!--

.style4 {color: #666666}

-->

</style>

 

<script LANGUAGE="vbscript">

...

</script>

 

<Script Language="javascript">

...

</Script>

</head>

<body leftmargin="0" topmargin="0">

</body>

</html>

//Tianwang.raw.2559638448 end

 

//Tianwang.raw.2559638448.seg 將每個頁面分成一行如下(注意中間沒有回車作為分隔)

1

...

...

...

2

...

...

...

//Tianwang.raw.2559638448.seg end

 

//下是 Tiny search 非必須因素

4. Create forward index (docic-->termid)  //建立正向索引

 ./CrtForwardIdx Tianwang.raw.2559638448.seg > moon.fidx

 

//Tianwang.raw.2559638448.seg 將每個頁面分成一行如下//分詞   DocID1三星/  s/  手機/  論壇/  ,/  手機/  鈴聲/  下載/  ,/  手機/  圖片/  下載/  ,/  手機/2.........view plaincopy to clipboardprint?
//Tianwang.raw.2559638448.seg end  
 
 
//moon.fidx  
 
//每篇文檔號對應文檔內分出來的    分詞  DocID  
 
都會  2391 
 
使   2391 
 
那些  2391 
 
擁有  2391 
 
它   2391 
 
的   2391 
 
人   2391 
 
的   2391 
 
視野  2391 
 
變   2391 
 
窄   2391 
 
在   2180 
 
研究生部    2180 
 
主頁  2180 
 
培養  2180 
 
管理  2180 
 
欄目  2180 
 
下載  2180 
 
)   2180 
 
、   2180 
 
關于  2180 
 
做好  2180 
 
年   2180 
 
國家  2180 
 
公派  2180 
 
研究生 2180 
 
項目  2180 
 
//moon.fidx end  
 
 
 
5.# set | grep "LANG" 
 
LANG=en; export LANG;  
 
sort moon.fidx > moon.fidx.sort  
 
 
 
6. Create inverted index (termid-->docid)    //建立倒排索引  
 
    ./CrtInvertedIdx moon.fidx.sort > sun.iidx  
 
 
 
//sun.iidx  //文件規模大概減少1/2  
 
花工   236 
 
花海   2103 
 
花卉   1018 1061 1061 1061 1730 1730 1730 1730 1730 1852 949 949 
 
花蕾   447 447 
 
花木   1061 
 
花呢   1430 
 
花期   447 447 447 447 447 525 
 
花錢   174 236 
 
花色   1730 1730 
 
花色品種     1660 
 
花生   450 526 
 
花式   1428 1430 1430 1430 
 
花紋   1430 1430 
 
花序   447 447 447 447 447 450 
 
花絮   136 137 
 
花芽   450 450 
 
//sun.iidx  end  
 
 
 
TSESearch   CGI program for query  
 
Snapshot    CGI program for page snapshot  
 
 
<P>  
author:http://hi.baidu.com/jrckkyy  
 
author:http://blog.csdn.net/jrckkyy  
</P> 

 

posted on 2009-12-10 22:55 學者站在巨人的肩膀上 閱讀(1325) 評論(1)  編輯 收藏 引用 所屬分類: 中文文本信息處理

評論

# re: 自頂向下學搜索引擎——北大天網搜索引擎TSE分析及完全注釋[5]倒排索引的建立及文件介紹 2009-12-12 13:18 淘寶皇冠大全
阿呆搜地哦的  回復  更多評論
  

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            亚洲伦理在线免费看| 亚洲人成绝费网站色www| 亚洲综合三区| 正在播放欧美视频| 国产精品久久综合| 午夜一区二区三区在线观看| 亚洲自拍偷拍网址| 国产无遮挡一区二区三区毛片日本| 午夜在线精品偷拍| 久久国产精品久久精品国产| 精品不卡一区| 亚洲激情黄色| 欧美午夜视频在线| 久久久久久香蕉网| 免费欧美日韩| 亚洲午夜久久久久久久久电影网| 亚洲少妇一区| 精品二区久久| 亚洲精品视频啊美女在线直播| 欧美午夜性色大片在线观看| 久久成人亚洲| 欧美激情亚洲精品| 午夜精品久久久久99热蜜桃导演| 性18欧美另类| 日韩网站在线观看| 亚洲一区日韩在线| 亚洲国产va精品久久久不卡综合| 亚洲国产成人久久综合一区| 欧美三级午夜理伦三级中文幕 | 国产精品午夜视频| 美国成人直播| 欧美午夜精品久久久久免费视| 久久久久.com| 欧美午夜无遮挡| 欧美激情视频在线免费观看 欧美视频免费一 | 亚洲国产欧美另类丝袜| 国产精品欧美精品| 亚洲高清视频在线观看| 国产精品亚洲综合天堂夜夜| 欧美国产日韩在线| 国产日韩亚洲| 夜夜躁日日躁狠狠久久88av| 亚洲盗摄视频| 欧美一区二区三区婷婷月色 | 亚洲天堂视频在线观看| 久久久精品动漫| 亚洲欧美日韩人成在线播放| 美女在线一区二区| 久久精品国产综合精品| 欧美手机在线视频| 亚洲成人在线视频播放| 国产精品美女久久久久av超清| 亚洲国产99精品国自产| 伊人狠狠色j香婷婷综合| 亚洲一区二区三区涩| 亚洲视频在线观看网站| 欧美巨乳在线观看| 欧美高清自拍一区| 有坂深雪在线一区| 久久久久高清| 久久裸体艺术| 韩日欧美一区二区三区| 午夜欧美不卡精品aaaaa| 亚洲欧美国产日韩天堂区| 欧美绝品在线观看成人午夜影视 | 亚洲男同1069视频| 欧美区高清在线| 91久久中文字幕| 99视频精品全部免费在线| 欧美国产日本| 99热这里只有成人精品国产| 一区二区三区国产在线| 欧美日韩视频一区二区| 99精品视频免费观看视频| 亚洲午夜精品国产| 国产精品美女久久久久久2018| 亚洲图片激情小说| 久久精品免费看| 亚洲电影在线看| 免费人成网站在线观看欧美高清| 亚洲电影在线播放| 在线亚洲观看| 国产精品一区2区| 久久精品综合网| 亚洲高清二区| 亚洲欧美精品伊人久久| 国产亚洲一区二区三区| 久久久久久久999精品视频| 欧美成年人视频| 日韩亚洲视频在线| 国产精品亚洲人在线观看| 性久久久久久久久| 欧美国产亚洲另类动漫| 亚洲深爱激情| 好吊妞**欧美| 欧美日韩亚洲一区二区三区在线观看| 亚洲手机视频| 欧美高清视频www夜色资源网| aa级大片欧美| 国产综合欧美在线看| 欧美aaaaaaaa牛牛影院| 亚洲午夜精品一区二区三区他趣| 久久婷婷影院| 亚洲女同同性videoxma| 狠狠色丁香婷综合久久| 欧美色中文字幕| 久久综合色播五月| 国产精品99久久久久久www| 两个人的视频www国产精品| 一本色道久久综合| 黄色成人在线| 国产精品九色蝌蚪自拍| 美女诱惑一区| 欧美在线视频a| 一区二区黄色| 亚洲国产另类久久久精品极度| 午夜精品影院| 一本色道**综合亚洲精品蜜桃冫 | 狠狠v欧美v日韩v亚洲ⅴ| 欧美激情第一页xxx| 久久激情中文| 亚洲欧美成人在线| 亚洲欧洲视频| 欧美成人精品| 久久精品日产第一区二区三区| av72成人在线| 亚洲精品国产精品国自产观看| 国产在线精品自拍| 国产精品久久婷婷六月丁香| 欧美+日本+国产+在线a∨观看| 久久精品成人| 性欧美8khd高清极品| 亚洲色无码播放| 一区二区三区色| 夜夜夜久久久| 一区二区欧美在线| 亚洲美女在线视频| 亚洲国产人成综合网站| 久久一区亚洲| 久久这里有精品15一区二区三区| 欧美一级黄色网| 午夜久久tv| 欧美一级理论性理论a| 亚洲特级毛片| 午夜精品久久久久久久| 亚洲女性裸体视频| 亚洲欧美制服另类日韩| 亚洲免费在线| 久久国产一区| 久久亚洲欧美| 欧美.日韩.国产.一区.二区| 老司机成人网| 欧美激情一区二区在线| 亚洲高清中文字幕| 最新国产精品拍自在线播放| 亚洲国产精品一区二区www| 亚洲高清免费视频| 99re8这里有精品热视频免费| 99视频精品全国免费| 在线性视频日韩欧美| 亚洲先锋成人| 小处雏高清一区二区三区| 久久国产主播| 欧美成人免费播放| 欧美天天影院| 国内在线观看一区二区三区| 国内精品亚洲| 亚洲久久成人| 午夜日韩视频| 欧美高清视频在线| 日韩一区二区久久| 午夜精品久久久久99热蜜桃导演| 久久er精品视频| 欧美国产成人在线| 国产精品一区二区在线观看不卡| 红桃av永久久久| 夜夜精品视频一区二区| 欧美一区二区视频在线观看| 麻豆久久婷婷| 一区二区三区久久网| 久久成人精品| 欧美日韩精品免费看| 国产亚洲福利| 中文av一区特黄| 久久午夜av| 99热免费精品| 免费影视亚洲| 国产亚洲成av人在线观看导航| 亚洲精品国精品久久99热| 篠田优中文在线播放第一区| 欧美高清视频www夜色资源网| 中文一区二区| 欧美日本高清视频| 国产一区二区三区久久悠悠色av| 亚洲精品综合精品自拍| 久久久精品免费视频| 日韩一级黄色av| 免费成人在线观看视频| 国产视频综合在线| 亚洲手机视频|