青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

學著站在巨人的肩膀上

金融數學,InformationSearch,Compiler,OS,

  C++博客 :: 首頁 :: 新隨筆 :: 聯系 :: 聚合  :: 管理 ::
  12 隨筆 :: 0 文章 :: 8 評論 :: 0 Trackbacks

不好意思讓大家久等了,前一陣一直在忙考試,終于結束了。呵呵!廢話不多說了下面我們開始吧!

TSE用的是將抓取回來的網頁文檔全部裝入一個大文檔,讓后對這一個大文檔內的數據整體統一的建索引,其中包含了幾個步驟。

view plaincopy to clipboardprint?
1.  The document index (Doc.idx) keeps information about each document.  
 
It is a fixed width ISAM (Index sequential access mode) index, orderd by docID.  
 
The information stored in each entry includes a pointer into the repository,  
 
a document length, a document checksum.  
 
 
 
//Doc.idx  文檔編號 文檔長度    checksum hash碼  
 
0   0   bc9ce846d7987c4534f53d423380ba70  
 
1   76760   4f47a3cad91f7d35f4bb6b2a638420e5  
 
2   141624  d019433008538f65329ae8e39b86026c  
 
3   142350  5705b8f58110f9ad61b1321c52605795  
 
//Doc.idx   end  
 
 
 
  The url index (url.idx) is used to convert URLs into docIDs.  
 
 
 
//url.idx  
 
5c36868a9c5117eadbda747cbdb0725f    0 
 
3272e136dd90263ee306a835c6c70d77    1 
 
6b8601bb3bb9ab80f868d549b5c5a5f3    2 
 
3f9eba99fa788954b5ff7f35a5db6e1f    3 
 
//url.idx   end  
 
 
 
It is a list of URL checksums with their corresponding docIDs and is sorted by  
 
checksum. In order to find the docID of a particular URL, the URL's checksum  
 
is computed and a binary search is performed on the checksums file to find its  
 
docID.  
 
 
 
    ./DocIndex  
 
        got Doc.idx, Url.idx, DocId2Url.idx //Data文件夾中的Doc.idx DocId2Url.idx和Doc.idx中  
 
 
 
//DocId2Url.idx  
 
0   http://*.*.edu.cn/index.aspx  
 
1   http://*.*.edu.cn/showcontent1.jsp?NewsID=118  
 
2   http://*.*.edu.cn/0102.html  
 
3   http://*.*.edu.cn/0103.html  
 
//DocId2Url.idx end  
 
 
 
2.  sort Url.idx|uniq > Url.idx.sort_uniq    //Data文件夾中的Url.idx.sort_uniq  
 
 
 
//Url.idx.sort_uniq  
 
//對hash值進行排序  
 
000bfdfd8b2dedd926b58ba00d40986b    1111 
 
000c7e34b653b5135a2361c6818e48dc    1831 
 
0019d12f438eec910a06a606f570fde8    366 
 
0033f7c005ec776f67f496cd8bc4ae0d    2103 
 
 
 
3. Segment document to terms, (with finding document according to the url)  
 
    ./DocSegment Tianwang.raw.2559638448        //Tianwang.raw.2559638448為爬回來的文件 ,每個頁面包含http頭  
 
        got Tianwang.raw.2559638448.seg       
 
 
 
//Tianwang.raw.2559638448   爬取的原始網頁文件在文檔內部每一個文檔之間應該是通過version,</html>和回車做標志位分割的  
 
version: 1.0 
 
url: http://***.105.138.175/Default2.asp?lang=gb  
 
origin: http://***.105.138.175/  
 
date: Fri, 23 May 2008 20:01:36 GMT  
 
ip: 162.105.138.175 
 
length: 38413 
 
 
 
HTTP/1.1 200 OK  
 
Server: Microsoft-IIS/5.0 
 
Date: Fri, 23 May 2008 11:17:49 GMT  
 
Connection: keep-alive  
 
Connection: Keep-Alive  
 
Content-Length: 38088 
 
Content-Type: text/html; Charset=gb2312  
 
Expires: Fri, 23 May 2008 11:17:49 GMT  
 
Set-Cookie: ASPSESSIONIDSSTRDCAB=IMEOMBIAIPDFCKPAEDJFHOIH; path=/  
 
Cache-control: private 
 
 
 
 
 
 
 
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" 
 
" 
<html>  
 
<head>  
 
<title>Apabi數字資源平臺</title>  
 
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">  
 
<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">  
 
<META NAME="DESCRIPTION" CONTENT="數字圖書館 方正數字圖書館 電子圖書 電子書 ebook e書 Apabi 數字資源平臺">  
 
<link rel="stylesheet" type="text/css" href="css\common.css">  
 
 
 
<style type="text/css">  
 
<!--  
 
.style4 {color: #666666}  
 
-->  
 
</style>  
 
 
 
<script LANGUAGE="vbscript">  
 
...  
 
</script>  
 
 
 
<Script Language="javascript">  
 
...  
 
</Script>  
 
</head>  
 
<body leftmargin="0" topmargin="0">  
 
</body>  
 
</html>  
 
//Tianwang.raw.2559638448   end  
 
 
 
//Tianwang.raw.2559638448.seg   將每個頁面分成一行如下(注意中間沒有回車作為分隔)  
 

 
...  
 
...  
 
...  
 

 
...  
 
...  
 
...  
 
//Tianwang.raw.2559638448.seg   end  
 
 
 
//下是 Tiny search 非必須因素  
 
4. Create forward index (docic-->termid)     //建立正向索引  
 
    ./CrtForwardIdx Tianwang.raw.2559638448.seg > moon.fidx  
 
 
 
//Tianwang.raw.2559638448.seg 將每個頁面分成一行如下<BR>//分詞   DocID<BR>1<BR>三星/  s/  手機/  論壇/  ,/  手機/  鈴聲/  下載/  ,/  手機/  圖片/  下載/  ,/  手機/<BR>2<BR>...<BR>...<BR>... 

1.  The document index (Doc.idx) keeps information about each document.

It is a fixed width ISAM (Index sequential access mode) index, orderd by docID.

The information stored in each entry includes a pointer into the repository,

a document length, a document checksum.

 

//Doc.idx  文檔編號 文檔長度 checksum hash碼

0 0 bc9ce846d7987c4534f53d423380ba70

1 76760 4f47a3cad91f7d35f4bb6b2a638420e5

2 141624 d019433008538f65329ae8e39b86026c

3 142350 5705b8f58110f9ad61b1321c52605795

//Doc.idx end

 

  The url index (url.idx) is used to convert URLs into docIDs.

 

//url.idx

5c36868a9c5117eadbda747cbdb0725f 0

3272e136dd90263ee306a835c6c70d77 1

6b8601bb3bb9ab80f868d549b5c5a5f3 2

3f9eba99fa788954b5ff7f35a5db6e1f 3

//url.idx end

 

It is a list of URL checksums with their corresponding docIDs and is sorted by

checksum. In order to find the docID of a particular URL, the URL's checksum

is computed and a binary search is performed on the checksums file to find its

docID.

 

 ./DocIndex

  got Doc.idx, Url.idx, DocId2Url.idx //Data文件夾中的Doc.idx DocId2Url.idx和Doc.idx中

 

//DocId2Url.idx

http://*.*.edu.cn/index.aspx

http://*.*.edu.cn/showcontent1.jsp?NewsID=118

http://*.*.edu.cn/0102.html

http://*.*.edu.cn/0103.html

//DocId2Url.idx end

 

2.  sort Url.idx|uniq > Url.idx.sort_uniq //Data文件夾中的Url.idx.sort_uniq

 

//Url.idx.sort_uniq

//對hash值進行排序

000bfdfd8b2dedd926b58ba00d40986b 1111

000c7e34b653b5135a2361c6818e48dc 1831

0019d12f438eec910a06a606f570fde8 366

0033f7c005ec776f67f496cd8bc4ae0d 2103

 

3. Segment document to terms, (with finding document according to the url)

 ./DocSegment Tianwang.raw.2559638448  //Tianwang.raw.2559638448為爬回來的文件 ,每個頁面包含http頭

  got Tianwang.raw.2559638448.seg  

 

//Tianwang.raw.2559638448 爬取的原始網頁文件在文檔內部每一個文檔之間應該是通過version,</html>和回車做標志位分割的

version: 1.0

url: http://***.105.138.175/Default2.asp?lang=gb

origin: http://***.105.138.175/

date: Fri, 23 May 2008 20:01:36 GMT

ip: 162.105.138.175

length: 38413

 

HTTP/1.1 200 OK

Server: Microsoft-IIS/5.0

Date: Fri, 23 May 2008 11:17:49 GMT

Connection: keep-alive

Connection: Keep-Alive

Content-Length: 38088

Content-Type: text/html; Charset=gb2312

Expires: Fri, 23 May 2008 11:17:49 GMT

Set-Cookie: ASPSESSIONIDSSTRDCAB=IMEOMBIAIPDFCKPAEDJFHOIH; path=/

Cache-control: private

 

 

 

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"

"

<html>

<head>

<title>Apabi數字資源平臺</title>

<meta http-equiv="Content-Type" content="text/html; charset=gb2312">

<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">

<META NAME="DESCRIPTION" CONTENT="數字圖書館 方正數字圖書館 電子圖書 電子書 ebook e書 Apabi 數字資源平臺">

<link rel="stylesheet" type="text/css" href="css\common.css">

 

<style type="text/css">

<!--

.style4 {color: #666666}

-->

</style>

 

<script LANGUAGE="vbscript">

...

</script>

 

<Script Language="javascript">

...

</Script>

</head>

<body leftmargin="0" topmargin="0">

</body>

</html>

//Tianwang.raw.2559638448 end

 

//Tianwang.raw.2559638448.seg 將每個頁面分成一行如下(注意中間沒有回車作為分隔)

1

...

...

...

2

...

...

...

//Tianwang.raw.2559638448.seg end

 

//下是 Tiny search 非必須因素

4. Create forward index (docic-->termid)  //建立正向索引

 ./CrtForwardIdx Tianwang.raw.2559638448.seg > moon.fidx

 

//Tianwang.raw.2559638448.seg 將每個頁面分成一行如下//分詞   DocID1三星/  s/  手機/  論壇/  ,/  手機/  鈴聲/  下載/  ,/  手機/  圖片/  下載/  ,/  手機/2.........view plaincopy to clipboardprint?
//Tianwang.raw.2559638448.seg end  
 
 
//moon.fidx  
 
//每篇文檔號對應文檔內分出來的    分詞  DocID  
 
都會  2391 
 
使   2391 
 
那些  2391 
 
擁有  2391 
 
它   2391 
 
的   2391 
 
人   2391 
 
的   2391 
 
視野  2391 
 
變   2391 
 
窄   2391 
 
在   2180 
 
研究生部    2180 
 
主頁  2180 
 
培養  2180 
 
管理  2180 
 
欄目  2180 
 
下載  2180 
 
)   2180 
 
、   2180 
 
關于  2180 
 
做好  2180 
 
年   2180 
 
國家  2180 
 
公派  2180 
 
研究生 2180 
 
項目  2180 
 
//moon.fidx end  
 
 
 
5.# set | grep "LANG" 
 
LANG=en; export LANG;  
 
sort moon.fidx > moon.fidx.sort  
 
 
 
6. Create inverted index (termid-->docid)    //建立倒排索引  
 
    ./CrtInvertedIdx moon.fidx.sort > sun.iidx  
 
 
 
//sun.iidx  //文件規模大概減少1/2  
 
花工   236 
 
花海   2103 
 
花卉   1018 1061 1061 1061 1730 1730 1730 1730 1730 1852 949 949 
 
花蕾   447 447 
 
花木   1061 
 
花呢   1430 
 
花期   447 447 447 447 447 525 
 
花錢   174 236 
 
花色   1730 1730 
 
花色品種     1660 
 
花生   450 526 
 
花式   1428 1430 1430 1430 
 
花紋   1430 1430 
 
花序   447 447 447 447 447 450 
 
花絮   136 137 
 
花芽   450 450 
 
//sun.iidx  end  
 
 
 
TSESearch   CGI program for query  
 
Snapshot    CGI program for page snapshot  
 
 
<P>  
author:http://hi.baidu.com/jrckkyy  
 
author:http://blog.csdn.net/jrckkyy  
</P> 

 

posted on 2009-12-10 22:55 學者站在巨人的肩膀上 閱讀(1325) 評論(1)  編輯 收藏 引用 所屬分類: 中文文本信息處理

評論

# re: 自頂向下學搜索引擎——北大天網搜索引擎TSE分析及完全注釋[5]倒排索引的建立及文件介紹 2009-12-12 13:18 淘寶皇冠大全
阿呆搜地哦的  回復  更多評論
  

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            99这里有精品| 一本色道久久综合亚洲精品高清| 在线视频欧美日韩精品| 欧美黑人多人双交| 亚洲三级国产| 亚洲人体1000| 欧美国产在线视频| 日韩亚洲成人av在线| 亚洲国产综合视频在线观看| 久久字幕精品一区| 91久久精品国产91久久性色| 亚洲国产美国国产综合一区二区| 欧美精品久久久久久久久久| 在线视频日韩| 欧美亚洲视频一区二区| 精品福利免费观看| 亚洲夫妻自拍| 国产精品国产a| 久久久久久久久蜜桃| 久久永久免费| 亚洲私人影院| 久久不见久久见免费视频1| 亚洲国产精品欧美一二99| 日韩网站免费观看| 国产小视频国产精品| 亚洲国产精品久久精品怡红院 | 久久精视频免费在线久久完整在线看| 欧美一区二区黄色| 亚洲精品欧美在线| 欧美一级一区| 洋洋av久久久久久久一区| 午夜精品久久久久久久男人的天堂| 狠狠爱www人成狠狠爱综合网 | 亚洲综合不卡| 久久蜜桃资源一区二区老牛 | 国产精品一区二区欧美| 你懂的视频欧美| 国产精品swag| 亚洲国产精品国自产拍av秋霞| 国产精品老牛| 亚洲精品一区二区三区四区高清| 国产一区二区三区四区在线观看 | 一区二区三区高清视频在线观看| 韩日视频一区| 日韩一区二区免费高清| 亚洲盗摄视频| 久久不射电影网| 亚洲女爱视频在线| 欧美激情网友自拍| 欧美成年人视频网站| 国产欧美日本| 亚洲尤物在线| 亚洲一区久久| 欧美久久久久久久久| 欧美成人免费在线| 国产一区清纯| 亚洲一区二区高清| 一区二区三区 在线观看视频| 久久―日本道色综合久久| 久久精品国产99精品国产亚洲性色| 欧美日韩中文另类| 亚洲人成免费| 99热免费精品在线观看| 可以看av的网站久久看| 久久深夜福利免费观看| 国产一区二区视频在线观看| 亚洲专区欧美专区| 亚洲欧美日韩中文播放| 国产精品99免费看| 亚洲视频一二| 性久久久久久久| 国产欧美 在线欧美| 亚洲综合三区| 久久疯狂做爰流白浆xx| 国产欧美日韩麻豆91| 亚洲欧美国产制服动漫| 小嫩嫩精品导航| 国产欧美丝祙| 久久久久国产精品一区| 麻豆精品在线观看| 亚洲第一偷拍| 欧美激情亚洲自拍| 日韩视频久久| 欧美亚洲一级片| 狠狠噜噜久久| 免费视频久久| 日韩亚洲欧美高清| 欧美自拍偷拍午夜视频| 狠狠狠色丁香婷婷综合激情| 久久五月天婷婷| 亚洲日本精品国产第一区| 亚洲一区二区在线看| 国产日韩欧美在线| 免费观看久久久4p| 一卡二卡3卡四卡高清精品视频| 亚洲欧美日韩国产综合精品二区 | 免费成人av在线| 亚洲精品乱码| 欧美亚洲一级| 亚洲欧洲综合另类| 国产精品久久97| 久久久噜久噜久久综合| 亚洲毛片一区| 久久先锋影音| 一区二区三区波多野结衣在线观看| 国产精品国产自产拍高清av| 午夜亚洲影视| 亚洲免费观看高清在线观看 | 亚洲综合精品自拍| 一区二区三区在线免费观看| 欧美另类极品videosbest最新版本| 亚洲香蕉网站| 亚洲国产精品123| 欧美在线免费观看视频| 亚洲卡通欧美制服中文| 国产综合精品| 国产精品区一区| 欧美福利专区| 久久久久久久综合狠狠综合| 一区二区三区你懂的| 欧美黄色一区二区| 久久精品论坛| 亚洲自拍偷拍网址| 99热精品在线| 亚洲欧洲三级电影| 一区二区在线视频| 国产农村妇女毛片精品久久麻豆| 欧美日本国产视频| 免费在线看成人av| 久久久久国产一区二区| 午夜欧美精品| 亚洲一区二区三区精品在线| 亚洲精品小视频在线观看| 免费观看国产成人| 久久深夜福利免费观看| 久久精品观看| 亚洲欧美日韩另类| 一区二区三区视频在线看| 亚洲精品影视在线观看| 亚洲欧洲日韩女同| 亚洲高清av| 伊人久久大香线| 一区三区视频| 狠狠色狠狠色综合日日五 | 久久久久久999| 欧美一区国产二区| 欧美影院精品一区| 欧美在线日韩| 久久精品国产99国产精品| 久久电影一区| 久久影院午夜片一区| 久久婷婷亚洲| 欧美黑人国产人伦爽爽爽| 欧美黄色免费| 欧美日韩国内| 国产精品乱码人人做人人爱| 国产精品久久久久久久第一福利 | 久久久久.com| 老司机午夜精品视频在线观看| 久久免费黄色| 欧美aⅴ一区二区三区视频| 欧美激情免费观看| 欧美视频一区二| 国产欧美日韩一区二区三区在线观看 | 久久超碰97人人做人人爱| 久久精品免费电影| 欧美va天堂在线| 欧美电影资源| 日韩一级免费观看| 亚洲欧美日韩国产中文在线| 欧美一区二区三区免费在线看| 久久久久国产精品一区| 欧美激情免费在线| 国产精品久久久一区二区三区| 国产午夜精品美女毛片视频| 激情综合色综合久久| 亚洲乱码日产精品bd| 午夜免费在线观看精品视频| 久久一区欧美| 亚洲精品欧洲精品| 欧美一区二区三区四区在线观看| 麻豆久久久9性大片| 欧美日韩精品高清| 国产一区免费视频| 亚洲精品在线一区二区| 欧美影院午夜播放| 亚洲高清久久网| 午夜日韩在线观看| 欧美精品激情在线| 国产午夜一区二区三区| 9人人澡人人爽人人精品| 久久精品国产69国产精品亚洲| 亚洲黄色小视频| 欧美一区二区三区视频免费| 欧美久久婷婷综合色| 国产综合网站| 亚洲免费视频网站| 亚洲国产精品久久久久| 久久久99爱| 国产精品视频免费|