青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

學著站在巨人的肩膀上

金融數學,InformationSearch,Compiler,OS,

  C++博客 :: 首頁 :: 新隨筆 :: 聯系 :: 聚合  :: 管理 ::
  12 隨筆 :: 0 文章 :: 8 評論 :: 0 Trackbacks

不好意思讓大家久等了,前一陣一直在忙考試,終于結束了。呵呵!廢話不多說了下面我們開始吧!

TSE用的是將抓取回來的網頁文檔全部裝入一個大文檔,讓后對這一個大文檔內的數據整體統一的建索引,其中包含了幾個步驟。

view plaincopy to clipboardprint?
1.  The document index (Doc.idx) keeps information about each document.  
 
It is a fixed width ISAM (Index sequential access mode) index, orderd by docID.  
 
The information stored in each entry includes a pointer into the repository,  
 
a document length, a document checksum.  
 
 
 
//Doc.idx  文檔編號 文檔長度    checksum hash碼  
 
0   0   bc9ce846d7987c4534f53d423380ba70  
 
1   76760   4f47a3cad91f7d35f4bb6b2a638420e5  
 
2   141624  d019433008538f65329ae8e39b86026c  
 
3   142350  5705b8f58110f9ad61b1321c52605795  
 
//Doc.idx   end  
 
 
 
  The url index (url.idx) is used to convert URLs into docIDs.  
 
 
 
//url.idx  
 
5c36868a9c5117eadbda747cbdb0725f    0 
 
3272e136dd90263ee306a835c6c70d77    1 
 
6b8601bb3bb9ab80f868d549b5c5a5f3    2 
 
3f9eba99fa788954b5ff7f35a5db6e1f    3 
 
//url.idx   end  
 
 
 
It is a list of URL checksums with their corresponding docIDs and is sorted by  
 
checksum. In order to find the docID of a particular URL, the URL's checksum  
 
is computed and a binary search is performed on the checksums file to find its  
 
docID.  
 
 
 
    ./DocIndex  
 
        got Doc.idx, Url.idx, DocId2Url.idx //Data文件夾中的Doc.idx DocId2Url.idx和Doc.idx中  
 
 
 
//DocId2Url.idx  
 
0   http://*.*.edu.cn/index.aspx  
 
1   http://*.*.edu.cn/showcontent1.jsp?NewsID=118  
 
2   http://*.*.edu.cn/0102.html  
 
3   http://*.*.edu.cn/0103.html  
 
//DocId2Url.idx end  
 
 
 
2.  sort Url.idx|uniq > Url.idx.sort_uniq    //Data文件夾中的Url.idx.sort_uniq  
 
 
 
//Url.idx.sort_uniq  
 
//對hash值進行排序  
 
000bfdfd8b2dedd926b58ba00d40986b    1111 
 
000c7e34b653b5135a2361c6818e48dc    1831 
 
0019d12f438eec910a06a606f570fde8    366 
 
0033f7c005ec776f67f496cd8bc4ae0d    2103 
 
 
 
3. Segment document to terms, (with finding document according to the url)  
 
    ./DocSegment Tianwang.raw.2559638448        //Tianwang.raw.2559638448為爬回來的文件 ,每個頁面包含http頭  
 
        got Tianwang.raw.2559638448.seg       
 
 
 
//Tianwang.raw.2559638448   爬取的原始網頁文件在文檔內部每一個文檔之間應該是通過version,</html>和回車做標志位分割的  
 
version: 1.0 
 
url: http://***.105.138.175/Default2.asp?lang=gb  
 
origin: http://***.105.138.175/  
 
date: Fri, 23 May 2008 20:01:36 GMT  
 
ip: 162.105.138.175 
 
length: 38413 
 
 
 
HTTP/1.1 200 OK  
 
Server: Microsoft-IIS/5.0 
 
Date: Fri, 23 May 2008 11:17:49 GMT  
 
Connection: keep-alive  
 
Connection: Keep-Alive  
 
Content-Length: 38088 
 
Content-Type: text/html; Charset=gb2312  
 
Expires: Fri, 23 May 2008 11:17:49 GMT  
 
Set-Cookie: ASPSESSIONIDSSTRDCAB=IMEOMBIAIPDFCKPAEDJFHOIH; path=/  
 
Cache-control: private 
 
 
 
 
 
 
 
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" 
 
" 
<html>  
 
<head>  
 
<title>Apabi數字資源平臺</title>  
 
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">  
 
<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">  
 
<META NAME="DESCRIPTION" CONTENT="數字圖書館 方正數字圖書館 電子圖書 電子書 ebook e書 Apabi 數字資源平臺">  
 
<link rel="stylesheet" type="text/css" href="css\common.css">  
 
 
 
<style type="text/css">  
 
<!--  
 
.style4 {color: #666666}  
 
-->  
 
</style>  
 
 
 
<script LANGUAGE="vbscript">  
 
...  
 
</script>  
 
 
 
<Script Language="javascript">  
 
...  
 
</Script>  
 
</head>  
 
<body leftmargin="0" topmargin="0">  
 
</body>  
 
</html>  
 
//Tianwang.raw.2559638448   end  
 
 
 
//Tianwang.raw.2559638448.seg   將每個頁面分成一行如下(注意中間沒有回車作為分隔)  
 

 
...  
 
...  
 
...  
 

 
...  
 
...  
 
...  
 
//Tianwang.raw.2559638448.seg   end  
 
 
 
//下是 Tiny search 非必須因素  
 
4. Create forward index (docic-->termid)     //建立正向索引  
 
    ./CrtForwardIdx Tianwang.raw.2559638448.seg > moon.fidx  
 
 
 
//Tianwang.raw.2559638448.seg 將每個頁面分成一行如下<BR>//分詞   DocID<BR>1<BR>三星/  s/  手機/  論壇/  ,/  手機/  鈴聲/  下載/  ,/  手機/  圖片/  下載/  ,/  手機/<BR>2<BR>...<BR>...<BR>... 

1.  The document index (Doc.idx) keeps information about each document.

It is a fixed width ISAM (Index sequential access mode) index, orderd by docID.

The information stored in each entry includes a pointer into the repository,

a document length, a document checksum.

 

//Doc.idx  文檔編號 文檔長度 checksum hash碼

0 0 bc9ce846d7987c4534f53d423380ba70

1 76760 4f47a3cad91f7d35f4bb6b2a638420e5

2 141624 d019433008538f65329ae8e39b86026c

3 142350 5705b8f58110f9ad61b1321c52605795

//Doc.idx end

 

  The url index (url.idx) is used to convert URLs into docIDs.

 

//url.idx

5c36868a9c5117eadbda747cbdb0725f 0

3272e136dd90263ee306a835c6c70d77 1

6b8601bb3bb9ab80f868d549b5c5a5f3 2

3f9eba99fa788954b5ff7f35a5db6e1f 3

//url.idx end

 

It is a list of URL checksums with their corresponding docIDs and is sorted by

checksum. In order to find the docID of a particular URL, the URL's checksum

is computed and a binary search is performed on the checksums file to find its

docID.

 

 ./DocIndex

  got Doc.idx, Url.idx, DocId2Url.idx //Data文件夾中的Doc.idx DocId2Url.idx和Doc.idx中

 

//DocId2Url.idx

http://*.*.edu.cn/index.aspx

http://*.*.edu.cn/showcontent1.jsp?NewsID=118

http://*.*.edu.cn/0102.html

http://*.*.edu.cn/0103.html

//DocId2Url.idx end

 

2.  sort Url.idx|uniq > Url.idx.sort_uniq //Data文件夾中的Url.idx.sort_uniq

 

//Url.idx.sort_uniq

//對hash值進行排序

000bfdfd8b2dedd926b58ba00d40986b 1111

000c7e34b653b5135a2361c6818e48dc 1831

0019d12f438eec910a06a606f570fde8 366

0033f7c005ec776f67f496cd8bc4ae0d 2103

 

3. Segment document to terms, (with finding document according to the url)

 ./DocSegment Tianwang.raw.2559638448  //Tianwang.raw.2559638448為爬回來的文件 ,每個頁面包含http頭

  got Tianwang.raw.2559638448.seg  

 

//Tianwang.raw.2559638448 爬取的原始網頁文件在文檔內部每一個文檔之間應該是通過version,</html>和回車做標志位分割的

version: 1.0

url: http://***.105.138.175/Default2.asp?lang=gb

origin: http://***.105.138.175/

date: Fri, 23 May 2008 20:01:36 GMT

ip: 162.105.138.175

length: 38413

 

HTTP/1.1 200 OK

Server: Microsoft-IIS/5.0

Date: Fri, 23 May 2008 11:17:49 GMT

Connection: keep-alive

Connection: Keep-Alive

Content-Length: 38088

Content-Type: text/html; Charset=gb2312

Expires: Fri, 23 May 2008 11:17:49 GMT

Set-Cookie: ASPSESSIONIDSSTRDCAB=IMEOMBIAIPDFCKPAEDJFHOIH; path=/

Cache-control: private

 

 

 

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"

"

<html>

<head>

<title>Apabi數字資源平臺</title>

<meta http-equiv="Content-Type" content="text/html; charset=gb2312">

<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">

<META NAME="DESCRIPTION" CONTENT="數字圖書館 方正數字圖書館 電子圖書 電子書 ebook e書 Apabi 數字資源平臺">

<link rel="stylesheet" type="text/css" href="css\common.css">

 

<style type="text/css">

<!--

.style4 {color: #666666}

-->

</style>

 

<script LANGUAGE="vbscript">

...

</script>

 

<Script Language="javascript">

...

</Script>

</head>

<body leftmargin="0" topmargin="0">

</body>

</html>

//Tianwang.raw.2559638448 end

 

//Tianwang.raw.2559638448.seg 將每個頁面分成一行如下(注意中間沒有回車作為分隔)

1

...

...

...

2

...

...

...

//Tianwang.raw.2559638448.seg end

 

//下是 Tiny search 非必須因素

4. Create forward index (docic-->termid)  //建立正向索引

 ./CrtForwardIdx Tianwang.raw.2559638448.seg > moon.fidx

 

//Tianwang.raw.2559638448.seg 將每個頁面分成一行如下//分詞   DocID1三星/  s/  手機/  論壇/  ,/  手機/  鈴聲/  下載/  ,/  手機/  圖片/  下載/  ,/  手機/2.........view plaincopy to clipboardprint?
//Tianwang.raw.2559638448.seg end  
 
 
//moon.fidx  
 
//每篇文檔號對應文檔內分出來的    分詞  DocID  
 
都會  2391 
 
使   2391 
 
那些  2391 
 
擁有  2391 
 
它   2391 
 
的   2391 
 
人   2391 
 
的   2391 
 
視野  2391 
 
變   2391 
 
窄   2391 
 
在   2180 
 
研究生部    2180 
 
主頁  2180 
 
培養  2180 
 
管理  2180 
 
欄目  2180 
 
下載  2180 
 
)   2180 
 
、   2180 
 
關于  2180 
 
做好  2180 
 
年   2180 
 
國家  2180 
 
公派  2180 
 
研究生 2180 
 
項目  2180 
 
//moon.fidx end  
 
 
 
5.# set | grep "LANG" 
 
LANG=en; export LANG;  
 
sort moon.fidx > moon.fidx.sort  
 
 
 
6. Create inverted index (termid-->docid)    //建立倒排索引  
 
    ./CrtInvertedIdx moon.fidx.sort > sun.iidx  
 
 
 
//sun.iidx  //文件規模大概減少1/2  
 
花工   236 
 
花海   2103 
 
花卉   1018 1061 1061 1061 1730 1730 1730 1730 1730 1852 949 949 
 
花蕾   447 447 
 
花木   1061 
 
花呢   1430 
 
花期   447 447 447 447 447 525 
 
花錢   174 236 
 
花色   1730 1730 
 
花色品種     1660 
 
花生   450 526 
 
花式   1428 1430 1430 1430 
 
花紋   1430 1430 
 
花序   447 447 447 447 447 450 
 
花絮   136 137 
 
花芽   450 450 
 
//sun.iidx  end  
 
 
 
TSESearch   CGI program for query  
 
Snapshot    CGI program for page snapshot  
 
 
<P>  
author:http://hi.baidu.com/jrckkyy  
 
author:http://blog.csdn.net/jrckkyy  
</P> 

 

posted on 2009-12-10 22:55 學者站在巨人的肩膀上 閱讀(1321) 評論(1)  編輯 收藏 引用 所屬分類: 中文文本信息處理

評論

# re: 自頂向下學搜索引擎——北大天網搜索引擎TSE分析及完全注釋[5]倒排索引的建立及文件介紹 2009-12-12 13:18 淘寶皇冠大全
阿呆搜地哦的  回復  更多評論
  

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            欧美激情精品久久久久久大尺度 | 亚洲福利国产| 久久久www成人免费无遮挡大片 | 性一交一乱一区二区洋洋av| 国产精品二区三区四区| 亚洲欧美中日韩| 午夜精品福利一区二区三区av| 国产精品久久久久久影视| 午夜精品久久久久久久99水蜜桃| 亚洲一区免费视频| 国产一区二区三区成人欧美日韩在线观看 | 欧美午夜激情视频| 久久精品成人| 久久五月激情| 一本色道久久88精品综合| 亚洲精品美女91| 欧美三区在线| 老妇喷水一区二区三区| 欧美成人午夜视频| 亚洲一区欧美二区| 久久国产天堂福利天堂| 99riav久久精品riav| 亚洲免费人成在线视频观看| 又紧又大又爽精品一区二区| 亚洲日本精品国产第一区| 国产精品乱码一区二三区小蝌蚪 | 一区二区免费在线视频| 一区二区三区久久| 在线观看日韩av先锋影音电影院| 亚洲精品影院| 伊人婷婷久久| 亚洲一区二区四区| 亚洲欧洲精品一区二区| 亚洲在线不卡| 亚洲精品欧美极品| 欧美亚洲一级| 亚洲尤物在线视频观看| 蜜桃av一区| 久久免费国产| 欧美三级午夜理伦三级中视频| 久久午夜电影网| 国产精品久久久久久久免费软件| 蜜臀av性久久久久蜜臀aⅴ| 国产精品国产成人国产三级| 免费成人av在线| 国产婷婷一区二区| 一区二区高清视频在线观看| 亚洲精品1234| 久久久久久综合| 久久九九久精品国产免费直播| 欧美精品久久天天躁| 欧美fxxxxxx另类| 一区二区三区在线免费视频| 亚洲欧美清纯在线制服| 亚洲免费小视频| 欧美日韩成人免费| 91久久精品一区二区别| 一区二区在线视频| 欧美在线观看日本一区| 久久精品日韩欧美| 国产精品无人区| 亚洲欧美日韩在线| 欧美亚洲综合网| 国产精品日韩欧美一区二区三区| 日韩天天综合| 亚洲一级黄色| 欧美日韩美女在线观看| 99re视频这里只有精品| 一区二区三区免费观看| 欧美国产免费| 亚洲伦理自拍| 亚洲女同同性videoxma| 国产精品色在线| 午夜精品一区二区在线观看| 欧美在线观看一区二区| 国产综合香蕉五月婷在线| 欧美一区二区三区在线观看| 久久久噜噜噜久久| 尤物精品在线| 欧美黄免费看| 中文在线不卡视频| 久久精品人人做人人爽| 狠狠色综合网| 欧美不卡三区| 一区二区三区精品久久久| 午夜精品福利在线观看| 国外成人在线视频网站| 蜜桃av一区二区在线观看| 亚洲激情专区| 欧美一区二区三区在线免费观看| 国产啪精品视频| 鲁大师影院一区二区三区| 亚洲激情午夜| 欧美淫片网站| 亚洲毛片视频| 国产精品日韩专区| 久久一日本道色综合久久| 亚洲精品欧洲| 久久大香伊蕉在人线观看热2| 伊人激情综合| 欧美丝袜第一区| 久久久久久成人| 99精品欧美一区二区三区综合在线 | 欧美日在线观看| 日韩一级大片| 久久久久久一区| 日韩一级黄色片| 国产一区亚洲| 欧美三级免费| 久久一区激情| 午夜精彩国产免费不卡不顿大片| 免费不卡在线观看| 亚洲欧美日韩另类| 亚洲国产美女精品久久久久∴| 欧美色网一区二区| 麻豆国产va免费精品高清在线| 一区二区三区欧美在线观看| 免费欧美视频| 欧美亚洲日本国产| 亚洲美女视频网| 一区在线观看| 国产精品呻吟| 欧美日韩免费观看一区三区| 麻豆国产va免费精品高清在线| 久久不射中文字幕| 久久夜色精品国产噜噜av| 亚洲精品一区二区在线观看| 国产日韩精品一区| 欧美日韩三级电影在线| 美日韩精品免费| 久久国产精品久久久久久久久久 | 久久婷婷综合激情| 亚洲欧美日韩精品在线| 99v久久综合狠狠综合久久| 国语自产精品视频在线看8查询8| 欧美视频一区在线观看| 欧美a级片网站| 久久精品国产999大香线蕉| 亚洲欧美日韩中文在线制服| 亚洲三级电影全部在线观看高清| 欧美成人中文| 欧美激情国产高清| 欧美成人69av| 国产一区二区欧美日韩| 亚洲精品视频在线观看网站| 久久综合五月天婷婷伊人| 欧美在线综合| 久久高清免费观看| 午夜一级久久| 亚洲欧美日韩精品久久奇米色影视| 一区二区欧美亚洲| 日韩一区二区久久| 一区二区精品在线观看| 在线视频你懂得一区| 亚洲一卡久久| 欧美在线视频一区| 久久嫩草精品久久久久| 狂野欧美性猛交xxxx巴西| 女人天堂亚洲aⅴ在线观看| 亚洲第一狼人社区| 亚洲国产成人高清精品| 亚洲日本成人在线观看| 99在线|亚洲一区二区| 一本不卡影院| 欧美一区二区三区在线播放| 久久久久成人精品免费播放动漫| 久久婷婷av| 欧美日韩国产高清| 欧美一区二区三区四区在线| 亚洲无毛电影| 久久精品一区二区三区不卡| 久久精品在线播放| 欧美久色视频| 国产精品视区| 136国产福利精品导航| 一本色道久久综合亚洲91| 午夜视频在线观看一区二区| 久久久久国产精品人| 欧美成人官网二区| 一区二区三区精密机械公司 | 久久精品中文字幕一区| 另类春色校园亚洲| 亚洲免费观看| 欧美一区二区三区四区在线观看 | 亚洲精品美女久久久久| 亚洲欧美日韩国产综合精品二区| 久久久久国产精品www| 欧美日韩亚洲高清一区二区| 国内精品一区二区| 亚洲影音先锋| 欧美激情乱人伦| 亚洲欧美一区二区原创| 欧美精品久久天天躁| 狠狠干成人综合网| 亚洲综合精品四区| 欧美激情aⅴ一区二区三区| 国产欧美一区二区在线观看| 亚洲乱码国产乱码精品精天堂 | 欧美一区二区成人6969| 亚洲欧洲精品一区二区|