青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

學著站在巨人的肩膀上

金融數學,InformationSearch,Compiler,OS,

  C++博客 :: 首頁 :: 新隨筆 :: 聯系 :: 聚合  :: 管理 ::
  12 隨筆 :: 0 文章 :: 8 評論 :: 0 Trackbacks

不好意思讓大家久等了,前一陣一直在忙考試,終于結束了。呵呵!廢話不多說了下面我們開始吧!

TSE用的是將抓取回來的網頁文檔全部裝入一個大文檔,讓后對這一個大文檔內的數據整體統一的建索引,其中包含了幾個步驟。

view plaincopy to clipboardprint?
1.  The document index (Doc.idx) keeps information about each document.  
 
It is a fixed width ISAM (Index sequential access mode) index, orderd by docID.  
 
The information stored in each entry includes a pointer into the repository,  
 
a document length, a document checksum.  
 
 
 
//Doc.idx  文檔編號 文檔長度    checksum hash碼  
 
0   0   bc9ce846d7987c4534f53d423380ba70  
 
1   76760   4f47a3cad91f7d35f4bb6b2a638420e5  
 
2   141624  d019433008538f65329ae8e39b86026c  
 
3   142350  5705b8f58110f9ad61b1321c52605795  
 
//Doc.idx   end  
 
 
 
  The url index (url.idx) is used to convert URLs into docIDs.  
 
 
 
//url.idx  
 
5c36868a9c5117eadbda747cbdb0725f    0 
 
3272e136dd90263ee306a835c6c70d77    1 
 
6b8601bb3bb9ab80f868d549b5c5a5f3    2 
 
3f9eba99fa788954b5ff7f35a5db6e1f    3 
 
//url.idx   end  
 
 
 
It is a list of URL checksums with their corresponding docIDs and is sorted by  
 
checksum. In order to find the docID of a particular URL, the URL's checksum  
 
is computed and a binary search is performed on the checksums file to find its  
 
docID.  
 
 
 
    ./DocIndex  
 
        got Doc.idx, Url.idx, DocId2Url.idx //Data文件夾中的Doc.idx DocId2Url.idx和Doc.idx中  
 
 
 
//DocId2Url.idx  
 
0   http://*.*.edu.cn/index.aspx  
 
1   http://*.*.edu.cn/showcontent1.jsp?NewsID=118  
 
2   http://*.*.edu.cn/0102.html  
 
3   http://*.*.edu.cn/0103.html  
 
//DocId2Url.idx end  
 
 
 
2.  sort Url.idx|uniq > Url.idx.sort_uniq    //Data文件夾中的Url.idx.sort_uniq  
 
 
 
//Url.idx.sort_uniq  
 
//對hash值進行排序  
 
000bfdfd8b2dedd926b58ba00d40986b    1111 
 
000c7e34b653b5135a2361c6818e48dc    1831 
 
0019d12f438eec910a06a606f570fde8    366 
 
0033f7c005ec776f67f496cd8bc4ae0d    2103 
 
 
 
3. Segment document to terms, (with finding document according to the url)  
 
    ./DocSegment Tianwang.raw.2559638448        //Tianwang.raw.2559638448為爬回來的文件 ,每個頁面包含http頭  
 
        got Tianwang.raw.2559638448.seg       
 
 
 
//Tianwang.raw.2559638448   爬取的原始網頁文件在文檔內部每一個文檔之間應該是通過version,</html>和回車做標志位分割的  
 
version: 1.0 
 
url: http://***.105.138.175/Default2.asp?lang=gb  
 
origin: http://***.105.138.175/  
 
date: Fri, 23 May 2008 20:01:36 GMT  
 
ip: 162.105.138.175 
 
length: 38413 
 
 
 
HTTP/1.1 200 OK  
 
Server: Microsoft-IIS/5.0 
 
Date: Fri, 23 May 2008 11:17:49 GMT  
 
Connection: keep-alive  
 
Connection: Keep-Alive  
 
Content-Length: 38088 
 
Content-Type: text/html; Charset=gb2312  
 
Expires: Fri, 23 May 2008 11:17:49 GMT  
 
Set-Cookie: ASPSESSIONIDSSTRDCAB=IMEOMBIAIPDFCKPAEDJFHOIH; path=/  
 
Cache-control: private 
 
 
 
 
 
 
 
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" 
 
" 
<html>  
 
<head>  
 
<title>Apabi數字資源平臺</title>  
 
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">  
 
<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">  
 
<META NAME="DESCRIPTION" CONTENT="數字圖書館 方正數字圖書館 電子圖書 電子書 ebook e書 Apabi 數字資源平臺">  
 
<link rel="stylesheet" type="text/css" href="css\common.css">  
 
 
 
<style type="text/css">  
 
<!--  
 
.style4 {color: #666666}  
 
-->  
 
</style>  
 
 
 
<script LANGUAGE="vbscript">  
 
...  
 
</script>  
 
 
 
<Script Language="javascript">  
 
...  
 
</Script>  
 
</head>  
 
<body leftmargin="0" topmargin="0">  
 
</body>  
 
</html>  
 
//Tianwang.raw.2559638448   end  
 
 
 
//Tianwang.raw.2559638448.seg   將每個頁面分成一行如下(注意中間沒有回車作為分隔)  
 

 
...  
 
...  
 
...  
 

 
...  
 
...  
 
...  
 
//Tianwang.raw.2559638448.seg   end  
 
 
 
//下是 Tiny search 非必須因素  
 
4. Create forward index (docic-->termid)     //建立正向索引  
 
    ./CrtForwardIdx Tianwang.raw.2559638448.seg > moon.fidx  
 
 
 
//Tianwang.raw.2559638448.seg 將每個頁面分成一行如下<BR>//分詞   DocID<BR>1<BR>三星/  s/  手機/  論壇/  ,/  手機/  鈴聲/  下載/  ,/  手機/  圖片/  下載/  ,/  手機/<BR>2<BR>...<BR>...<BR>... 

1.  The document index (Doc.idx) keeps information about each document.

It is a fixed width ISAM (Index sequential access mode) index, orderd by docID.

The information stored in each entry includes a pointer into the repository,

a document length, a document checksum.

 

//Doc.idx  文檔編號 文檔長度 checksum hash碼

0 0 bc9ce846d7987c4534f53d423380ba70

1 76760 4f47a3cad91f7d35f4bb6b2a638420e5

2 141624 d019433008538f65329ae8e39b86026c

3 142350 5705b8f58110f9ad61b1321c52605795

//Doc.idx end

 

  The url index (url.idx) is used to convert URLs into docIDs.

 

//url.idx

5c36868a9c5117eadbda747cbdb0725f 0

3272e136dd90263ee306a835c6c70d77 1

6b8601bb3bb9ab80f868d549b5c5a5f3 2

3f9eba99fa788954b5ff7f35a5db6e1f 3

//url.idx end

 

It is a list of URL checksums with their corresponding docIDs and is sorted by

checksum. In order to find the docID of a particular URL, the URL's checksum

is computed and a binary search is performed on the checksums file to find its

docID.

 

 ./DocIndex

  got Doc.idx, Url.idx, DocId2Url.idx //Data文件夾中的Doc.idx DocId2Url.idx和Doc.idx中

 

//DocId2Url.idx

http://*.*.edu.cn/index.aspx

http://*.*.edu.cn/showcontent1.jsp?NewsID=118

http://*.*.edu.cn/0102.html

http://*.*.edu.cn/0103.html

//DocId2Url.idx end

 

2.  sort Url.idx|uniq > Url.idx.sort_uniq //Data文件夾中的Url.idx.sort_uniq

 

//Url.idx.sort_uniq

//對hash值進行排序

000bfdfd8b2dedd926b58ba00d40986b 1111

000c7e34b653b5135a2361c6818e48dc 1831

0019d12f438eec910a06a606f570fde8 366

0033f7c005ec776f67f496cd8bc4ae0d 2103

 

3. Segment document to terms, (with finding document according to the url)

 ./DocSegment Tianwang.raw.2559638448  //Tianwang.raw.2559638448為爬回來的文件 ,每個頁面包含http頭

  got Tianwang.raw.2559638448.seg  

 

//Tianwang.raw.2559638448 爬取的原始網頁文件在文檔內部每一個文檔之間應該是通過version,</html>和回車做標志位分割的

version: 1.0

url: http://***.105.138.175/Default2.asp?lang=gb

origin: http://***.105.138.175/

date: Fri, 23 May 2008 20:01:36 GMT

ip: 162.105.138.175

length: 38413

 

HTTP/1.1 200 OK

Server: Microsoft-IIS/5.0

Date: Fri, 23 May 2008 11:17:49 GMT

Connection: keep-alive

Connection: Keep-Alive

Content-Length: 38088

Content-Type: text/html; Charset=gb2312

Expires: Fri, 23 May 2008 11:17:49 GMT

Set-Cookie: ASPSESSIONIDSSTRDCAB=IMEOMBIAIPDFCKPAEDJFHOIH; path=/

Cache-control: private

 

 

 

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"

"

<html>

<head>

<title>Apabi數字資源平臺</title>

<meta http-equiv="Content-Type" content="text/html; charset=gb2312">

<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">

<META NAME="DESCRIPTION" CONTENT="數字圖書館 方正數字圖書館 電子圖書 電子書 ebook e書 Apabi 數字資源平臺">

<link rel="stylesheet" type="text/css" href="css\common.css">

 

<style type="text/css">

<!--

.style4 {color: #666666}

-->

</style>

 

<script LANGUAGE="vbscript">

...

</script>

 

<Script Language="javascript">

...

</Script>

</head>

<body leftmargin="0" topmargin="0">

</body>

</html>

//Tianwang.raw.2559638448 end

 

//Tianwang.raw.2559638448.seg 將每個頁面分成一行如下(注意中間沒有回車作為分隔)

1

...

...

...

2

...

...

...

//Tianwang.raw.2559638448.seg end

 

//下是 Tiny search 非必須因素

4. Create forward index (docic-->termid)  //建立正向索引

 ./CrtForwardIdx Tianwang.raw.2559638448.seg > moon.fidx

 

//Tianwang.raw.2559638448.seg 將每個頁面分成一行如下//分詞   DocID1三星/  s/  手機/  論壇/  ,/  手機/  鈴聲/  下載/  ,/  手機/  圖片/  下載/  ,/  手機/2.........view plaincopy to clipboardprint?
//Tianwang.raw.2559638448.seg end  
 
 
//moon.fidx  
 
//每篇文檔號對應文檔內分出來的    分詞  DocID  
 
都會  2391 
 
使   2391 
 
那些  2391 
 
擁有  2391 
 
它   2391 
 
的   2391 
 
人   2391 
 
的   2391 
 
視野  2391 
 
變   2391 
 
窄   2391 
 
在   2180 
 
研究生部    2180 
 
主頁  2180 
 
培養  2180 
 
管理  2180 
 
欄目  2180 
 
下載  2180 
 
)   2180 
 
、   2180 
 
關于  2180 
 
做好  2180 
 
年   2180 
 
國家  2180 
 
公派  2180 
 
研究生 2180 
 
項目  2180 
 
//moon.fidx end  
 
 
 
5.# set | grep "LANG" 
 
LANG=en; export LANG;  
 
sort moon.fidx > moon.fidx.sort  
 
 
 
6. Create inverted index (termid-->docid)    //建立倒排索引  
 
    ./CrtInvertedIdx moon.fidx.sort > sun.iidx  
 
 
 
//sun.iidx  //文件規模大概減少1/2  
 
花工   236 
 
花海   2103 
 
花卉   1018 1061 1061 1061 1730 1730 1730 1730 1730 1852 949 949 
 
花蕾   447 447 
 
花木   1061 
 
花呢   1430 
 
花期   447 447 447 447 447 525 
 
花錢   174 236 
 
花色   1730 1730 
 
花色品種     1660 
 
花生   450 526 
 
花式   1428 1430 1430 1430 
 
花紋   1430 1430 
 
花序   447 447 447 447 447 450 
 
花絮   136 137 
 
花芽   450 450 
 
//sun.iidx  end  
 
 
 
TSESearch   CGI program for query  
 
Snapshot    CGI program for page snapshot  
 
 
<P>  
author:http://hi.baidu.com/jrckkyy  
 
author:http://blog.csdn.net/jrckkyy  
</P> 

 

posted on 2009-12-10 22:55 學者站在巨人的肩膀上 閱讀(1321) 評論(1)  編輯 收藏 引用 所屬分類: 中文文本信息處理

評論

# re: 自頂向下學搜索引擎——北大天網搜索引擎TSE分析及完全注釋[5]倒排索引的建立及文件介紹 2009-12-12 13:18 淘寶皇冠大全
阿呆搜地哦的  回復  更多評論
  

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            亚洲激情在线观看视频免费| 一本色道久久88综合亚洲精品ⅰ | 欧美日韩卡一卡二| 久久久99久久精品女同性| 亚洲女人天堂成人av在线| 一区二区三区四区五区精品视频 | 尤物网精品视频| 激情久久影院| 精品不卡一区| 亚洲日本视频| 亚洲视频综合| 欧美一区视频| 毛片一区二区| 欧美黄色一区| 9久草视频在线视频精品| 亚洲午夜性刺激影院| 欧美一区二区三区视频免费播放| 久久国产精彩视频| 欧美va亚洲va香蕉在线| 欧美精品一区二区三| 国产精品久久久久久久久搜平片 | 免费看黄裸体一级大秀欧美| 欧美激情小视频| 99一区二区| 欧美在线观看视频一区二区| 欧美 日韩 国产在线| 欧美午夜电影完整版| 国产一区深夜福利| 99综合电影在线视频| 久久超碰97中文字幕| 欧美不卡福利| 亚洲一区二区三区高清 | 99re热这里只有精品视频| 亚洲欧美国产精品va在线观看| 久久久亚洲精品一区二区三区 | 欧美午夜宅男影院在线观看| 国产一区在线免费观看| 伊人激情综合| 亚洲在线网站| 亚洲成人直播| 欧美一区二粉嫩精品国产一线天| 久久一区免费| 国产麻豆一精品一av一免费| 久久国产福利国产秒拍| 久久成人免费| 欧美精品一区二区三区在线播放 | 国内精品美女av在线播放| 亚洲三级电影在线观看| 久久久国产亚洲精品| 亚洲精品在线免费观看视频| 六十路精品视频| 激情亚洲成人| 久久精品1区| 亚洲无限av看| 国产精品成人av性教育| 亚洲精品一区久久久久久| 免费成人网www| 欧美一二三区精品| 欧美亚男人的天堂| 亚洲精品国产精品国自产观看浪潮| 亚洲欧美偷拍卡通变态| 亚洲精品一区二区三区樱花| 免费久久精品视频| 亚洲影院色无极综合| 欧美国产日韩精品| 精品1区2区| 欧美一区视频| 在线视频精品一区| 午夜天堂精品久久久久| 欧美调教视频| 亚洲欧美一区二区在线观看| 亚洲精品1区2区| 久久黄色影院| 国产伦精品一区二区三区在线观看| 日韩视频在线你懂得| 美女日韩欧美| 久久精品一区蜜桃臀影院| 国产九九视频一区二区三区| 一区二区三区四区五区精品| 亚洲综合国产| 欧美国产三区| 久久久亚洲高清| 黄色av一区| 久久久久久久网站| 欧美一区二区在线免费播放| 国产深夜精品| 久久久久国产精品午夜一区| 性视频1819p久久| 国产日本欧美一区二区| 亚洲国产清纯| 亚洲成人在线网站| 欧美va天堂| 亚洲人成绝费网站色www| 久久综合久久久久88| 久久久久久久久久久一区 | 午夜精品三级视频福利| 久久国产精品高清| 亚洲资源av| 国产精品久久久久久久电影| 日韩一级免费| 99re6热在线精品视频播放速度| 欧美另类videos死尸| 一区二区三区四区蜜桃| av成人免费观看| 国产精品日韩一区| 日韩视频不卡中文| 亚洲免费成人| 国产麻豆精品视频| 久久精品亚洲| 久久在线免费观看视频| 亚洲精品五月天| 在线亚洲欧美| 国产综合自拍| 亚洲第一福利社区| 欧美偷拍一区二区| 久久大香伊蕉在人线观看热2| 久久电影一区| 99视频有精品| 性亚洲最疯狂xxxx高清| 亚洲福利视频一区| 最新亚洲视频| 国产伦精品一区二区三区免费| 免费在线看一区| 国产精品捆绑调教| 欧美成人免费va影院高清| 欧美激情中文字幕在线| 欧美影院成年免费版| 久久一区视频| 亚洲影视中文字幕| 久久精品国产v日韩v亚洲 | 久久久久国产一区二区三区| 亚洲精品欧美极品| 亚洲欧美国产视频| 日韩午夜在线视频| 久久成人精品| 中文日韩欧美| 久久青青草综合| 亚洲欧美成aⅴ人在线观看| 久久国产精品第一页| 亚洲一区二区在线看| 美女日韩欧美| 久久九九99| 国产精品高潮呻吟久久av无限 | 久久久久久久久综合| 国产精品国产福利国产秒拍| 亚洲国产导航| 伊人婷婷久久| 久久国产精品久久久| 激情久久久久久| 亚洲视频在线观看视频| 韩国精品一区二区三区| 欧美日韩国产成人在线| 久久久久久精| 国产精品久久9| 亚洲精品一区二区三区蜜桃久| 伊人影院久久| 香蕉久久精品日日躁夜夜躁| 亚洲欧美日韩国产成人精品影院| 亚洲专区一二三| 欧美中文在线视频| 国产精品扒开腿做爽爽爽软件| 欧美va亚洲va香蕉在线| 国产一区二区三区四区老人| 午夜精品亚洲| 久久国产欧美日韩精品| 国产欧美一区二区视频| 欧美亚洲系列| 日韩视频免费观看高清在线视频| 欧美主播一区二区三区美女 久久精品人 | 欧美二区在线看| 亚洲夫妻自拍| 美玉足脚交一区二区三区图片| 欧美本精品男人aⅴ天堂| 亚洲破处大片| 欧美视频中文在线看 | 国产亚洲成精品久久| 欧美一区二区高清| 久久久视频精品| 精品成人国产在线观看男人呻吟| 欧美综合77777色婷婷| 麻豆精品国产91久久久久久| 亚洲电影第三页| 免费欧美在线| 一区二区三区视频在线| 欧美一区二区福利在线| 极品少妇一区二区三区| 欧美高清视频一区二区| 亚洲一级网站| 亚洲国产小视频在线观看| 欧美精品久久久久久久| 亚洲欧美一区二区精品久久久| 免费久久精品视频| 亚洲欧美高清| 亚洲大片在线| 国产精品成人免费| 噜噜爱69成人精品| 午夜精品久久久久久久久| 欧美国产高清| 性欧美1819性猛交| 精品成人久久|