青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

學著站在巨人的肩膀上

金融數學,InformationSearch,Compiler,OS,

  C++博客 :: 首頁 :: 新隨筆 :: 聯系 :: 聚合  :: 管理 ::
  12 隨筆 :: 0 文章 :: 8 評論 :: 0 Trackbacks

不好意思讓大家久等了,前一陣一直在忙考試,終于結束了。呵呵!廢話不多說了下面我們開始吧!

TSE用的是將抓取回來的網頁文檔全部裝入一個大文檔,讓后對這一個大文檔內的數據整體統一的建索引,其中包含了幾個步驟。

view plaincopy to clipboardprint?
1.  The document index (Doc.idx) keeps information about each document.  
 
It is a fixed width ISAM (Index sequential access mode) index, orderd by docID.  
 
The information stored in each entry includes a pointer into the repository,  
 
a document length, a document checksum.  
 
 
 
//Doc.idx  文檔編號 文檔長度    checksum hash碼  
 
0   0   bc9ce846d7987c4534f53d423380ba70  
 
1   76760   4f47a3cad91f7d35f4bb6b2a638420e5  
 
2   141624  d019433008538f65329ae8e39b86026c  
 
3   142350  5705b8f58110f9ad61b1321c52605795  
 
//Doc.idx   end  
 
 
 
  The url index (url.idx) is used to convert URLs into docIDs.  
 
 
 
//url.idx  
 
5c36868a9c5117eadbda747cbdb0725f    0 
 
3272e136dd90263ee306a835c6c70d77    1 
 
6b8601bb3bb9ab80f868d549b5c5a5f3    2 
 
3f9eba99fa788954b5ff7f35a5db6e1f    3 
 
//url.idx   end  
 
 
 
It is a list of URL checksums with their corresponding docIDs and is sorted by  
 
checksum. In order to find the docID of a particular URL, the URL's checksum  
 
is computed and a binary search is performed on the checksums file to find its  
 
docID.  
 
 
 
    ./DocIndex  
 
        got Doc.idx, Url.idx, DocId2Url.idx //Data文件夾中的Doc.idx DocId2Url.idx和Doc.idx中  
 
 
 
//DocId2Url.idx  
 
0   http://*.*.edu.cn/index.aspx  
 
1   http://*.*.edu.cn/showcontent1.jsp?NewsID=118  
 
2   http://*.*.edu.cn/0102.html  
 
3   http://*.*.edu.cn/0103.html  
 
//DocId2Url.idx end  
 
 
 
2.  sort Url.idx|uniq > Url.idx.sort_uniq    //Data文件夾中的Url.idx.sort_uniq  
 
 
 
//Url.idx.sort_uniq  
 
//對hash值進行排序  
 
000bfdfd8b2dedd926b58ba00d40986b    1111 
 
000c7e34b653b5135a2361c6818e48dc    1831 
 
0019d12f438eec910a06a606f570fde8    366 
 
0033f7c005ec776f67f496cd8bc4ae0d    2103 
 
 
 
3. Segment document to terms, (with finding document according to the url)  
 
    ./DocSegment Tianwang.raw.2559638448        //Tianwang.raw.2559638448為爬回來的文件 ,每個頁面包含http頭  
 
        got Tianwang.raw.2559638448.seg       
 
 
 
//Tianwang.raw.2559638448   爬取的原始網頁文件在文檔內部每一個文檔之間應該是通過version,</html>和回車做標志位分割的  
 
version: 1.0 
 
url: http://***.105.138.175/Default2.asp?lang=gb  
 
origin: http://***.105.138.175/  
 
date: Fri, 23 May 2008 20:01:36 GMT  
 
ip: 162.105.138.175 
 
length: 38413 
 
 
 
HTTP/1.1 200 OK  
 
Server: Microsoft-IIS/5.0 
 
Date: Fri, 23 May 2008 11:17:49 GMT  
 
Connection: keep-alive  
 
Connection: Keep-Alive  
 
Content-Length: 38088 
 
Content-Type: text/html; Charset=gb2312  
 
Expires: Fri, 23 May 2008 11:17:49 GMT  
 
Set-Cookie: ASPSESSIONIDSSTRDCAB=IMEOMBIAIPDFCKPAEDJFHOIH; path=/  
 
Cache-control: private 
 
 
 
 
 
 
 
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" 
 
" 
<html>  
 
<head>  
 
<title>Apabi數字資源平臺</title>  
 
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">  
 
<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">  
 
<META NAME="DESCRIPTION" CONTENT="數字圖書館 方正數字圖書館 電子圖書 電子書 ebook e書 Apabi 數字資源平臺">  
 
<link rel="stylesheet" type="text/css" href="css\common.css">  
 
 
 
<style type="text/css">  
 
<!--  
 
.style4 {color: #666666}  
 
-->  
 
</style>  
 
 
 
<script LANGUAGE="vbscript">  
 
...  
 
</script>  
 
 
 
<Script Language="javascript">  
 
...  
 
</Script>  
 
</head>  
 
<body leftmargin="0" topmargin="0">  
 
</body>  
 
</html>  
 
//Tianwang.raw.2559638448   end  
 
 
 
//Tianwang.raw.2559638448.seg   將每個頁面分成一行如下(注意中間沒有回車作為分隔)  
 

 
...  
 
...  
 
...  
 

 
...  
 
...  
 
...  
 
//Tianwang.raw.2559638448.seg   end  
 
 
 
//下是 Tiny search 非必須因素  
 
4. Create forward index (docic-->termid)     //建立正向索引  
 
    ./CrtForwardIdx Tianwang.raw.2559638448.seg > moon.fidx  
 
 
 
//Tianwang.raw.2559638448.seg 將每個頁面分成一行如下<BR>//分詞   DocID<BR>1<BR>三星/  s/  手機/  論壇/  ,/  手機/  鈴聲/  下載/  ,/  手機/  圖片/  下載/  ,/  手機/<BR>2<BR>...<BR>...<BR>... 

1.  The document index (Doc.idx) keeps information about each document.

It is a fixed width ISAM (Index sequential access mode) index, orderd by docID.

The information stored in each entry includes a pointer into the repository,

a document length, a document checksum.

 

//Doc.idx  文檔編號 文檔長度 checksum hash碼

0 0 bc9ce846d7987c4534f53d423380ba70

1 76760 4f47a3cad91f7d35f4bb6b2a638420e5

2 141624 d019433008538f65329ae8e39b86026c

3 142350 5705b8f58110f9ad61b1321c52605795

//Doc.idx end

 

  The url index (url.idx) is used to convert URLs into docIDs.

 

//url.idx

5c36868a9c5117eadbda747cbdb0725f 0

3272e136dd90263ee306a835c6c70d77 1

6b8601bb3bb9ab80f868d549b5c5a5f3 2

3f9eba99fa788954b5ff7f35a5db6e1f 3

//url.idx end

 

It is a list of URL checksums with their corresponding docIDs and is sorted by

checksum. In order to find the docID of a particular URL, the URL's checksum

is computed and a binary search is performed on the checksums file to find its

docID.

 

 ./DocIndex

  got Doc.idx, Url.idx, DocId2Url.idx //Data文件夾中的Doc.idx DocId2Url.idx和Doc.idx中

 

//DocId2Url.idx

http://*.*.edu.cn/index.aspx

http://*.*.edu.cn/showcontent1.jsp?NewsID=118

http://*.*.edu.cn/0102.html

http://*.*.edu.cn/0103.html

//DocId2Url.idx end

 

2.  sort Url.idx|uniq > Url.idx.sort_uniq //Data文件夾中的Url.idx.sort_uniq

 

//Url.idx.sort_uniq

//對hash值進行排序

000bfdfd8b2dedd926b58ba00d40986b 1111

000c7e34b653b5135a2361c6818e48dc 1831

0019d12f438eec910a06a606f570fde8 366

0033f7c005ec776f67f496cd8bc4ae0d 2103

 

3. Segment document to terms, (with finding document according to the url)

 ./DocSegment Tianwang.raw.2559638448  //Tianwang.raw.2559638448為爬回來的文件 ,每個頁面包含http頭

  got Tianwang.raw.2559638448.seg  

 

//Tianwang.raw.2559638448 爬取的原始網頁文件在文檔內部每一個文檔之間應該是通過version,</html>和回車做標志位分割的

version: 1.0

url: http://***.105.138.175/Default2.asp?lang=gb

origin: http://***.105.138.175/

date: Fri, 23 May 2008 20:01:36 GMT

ip: 162.105.138.175

length: 38413

 

HTTP/1.1 200 OK

Server: Microsoft-IIS/5.0

Date: Fri, 23 May 2008 11:17:49 GMT

Connection: keep-alive

Connection: Keep-Alive

Content-Length: 38088

Content-Type: text/html; Charset=gb2312

Expires: Fri, 23 May 2008 11:17:49 GMT

Set-Cookie: ASPSESSIONIDSSTRDCAB=IMEOMBIAIPDFCKPAEDJFHOIH; path=/

Cache-control: private

 

 

 

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"

"

<html>

<head>

<title>Apabi數字資源平臺</title>

<meta http-equiv="Content-Type" content="text/html; charset=gb2312">

<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">

<META NAME="DESCRIPTION" CONTENT="數字圖書館 方正數字圖書館 電子圖書 電子書 ebook e書 Apabi 數字資源平臺">

<link rel="stylesheet" type="text/css" href="css\common.css">

 

<style type="text/css">

<!--

.style4 {color: #666666}

-->

</style>

 

<script LANGUAGE="vbscript">

...

</script>

 

<Script Language="javascript">

...

</Script>

</head>

<body leftmargin="0" topmargin="0">

</body>

</html>

//Tianwang.raw.2559638448 end

 

//Tianwang.raw.2559638448.seg 將每個頁面分成一行如下(注意中間沒有回車作為分隔)

1

...

...

...

2

...

...

...

//Tianwang.raw.2559638448.seg end

 

//下是 Tiny search 非必須因素

4. Create forward index (docic-->termid)  //建立正向索引

 ./CrtForwardIdx Tianwang.raw.2559638448.seg > moon.fidx

 

//Tianwang.raw.2559638448.seg 將每個頁面分成一行如下//分詞   DocID1三星/  s/  手機/  論壇/  ,/  手機/  鈴聲/  下載/  ,/  手機/  圖片/  下載/  ,/  手機/2.........view plaincopy to clipboardprint?
//Tianwang.raw.2559638448.seg end  
 
 
//moon.fidx  
 
//每篇文檔號對應文檔內分出來的    分詞  DocID  
 
都會  2391 
 
使   2391 
 
那些  2391 
 
擁有  2391 
 
它   2391 
 
的   2391 
 
人   2391 
 
的   2391 
 
視野  2391 
 
變   2391 
 
窄   2391 
 
在   2180 
 
研究生部    2180 
 
主頁  2180 
 
培養  2180 
 
管理  2180 
 
欄目  2180 
 
下載  2180 
 
)   2180 
 
、   2180 
 
關于  2180 
 
做好  2180 
 
年   2180 
 
國家  2180 
 
公派  2180 
 
研究生 2180 
 
項目  2180 
 
//moon.fidx end  
 
 
 
5.# set | grep "LANG" 
 
LANG=en; export LANG;  
 
sort moon.fidx > moon.fidx.sort  
 
 
 
6. Create inverted index (termid-->docid)    //建立倒排索引  
 
    ./CrtInvertedIdx moon.fidx.sort > sun.iidx  
 
 
 
//sun.iidx  //文件規模大概減少1/2  
 
花工   236 
 
花海   2103 
 
花卉   1018 1061 1061 1061 1730 1730 1730 1730 1730 1852 949 949 
 
花蕾   447 447 
 
花木   1061 
 
花呢   1430 
 
花期   447 447 447 447 447 525 
 
花錢   174 236 
 
花色   1730 1730 
 
花色品種     1660 
 
花生   450 526 
 
花式   1428 1430 1430 1430 
 
花紋   1430 1430 
 
花序   447 447 447 447 447 450 
 
花絮   136 137 
 
花芽   450 450 
 
//sun.iidx  end  
 
 
 
TSESearch   CGI program for query  
 
Snapshot    CGI program for page snapshot  
 
 
<P>  
author:http://hi.baidu.com/jrckkyy  
 
author:http://blog.csdn.net/jrckkyy  
</P> 

 

posted on 2009-12-10 22:55 學者站在巨人的肩膀上 閱讀(1321) 評論(1)  編輯 收藏 引用 所屬分類: 中文文本信息處理

評論

# re: 自頂向下學搜索引擎——北大天網搜索引擎TSE分析及完全注釋[5]倒排索引的建立及文件介紹 2009-12-12 13:18 淘寶皇冠大全
阿呆搜地哦的  回復  更多評論
  

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            欧美大片一区| 国产精品久久久久久av下载红粉| 国产一区二区三区高清| 久久国产精品亚洲va麻豆| 亚洲自拍三区| 狠狠色综合网| 欧美激情一区二区三区| 欧美欧美午夜aⅴ在线观看| 日韩视频在线免费观看| 一本色道88久久加勒比精品 | 久久亚洲一区| 女同性一区二区三区人了人一| 亚洲国产1区| 日韩午夜av| 国产欧美日韩一区二区三区在线 | 亚洲福利视频三区| 亚洲黄色av| 欧美性色综合| 久久精品一二三| 欧美黑人一区二区三区| 亚洲宅男天堂在线观看无病毒| 亚洲欧美日韩成人| 91久久国产自产拍夜夜嗨| 99伊人成综合| 在线播放日韩| 一区二区三区四区国产| 精品av久久707| 99re在线精品| 在线成人中文字幕| 亚洲色诱最新| 亚洲福利一区| 欧美一进一出视频| 一本色道久久综合亚洲精品婷婷 | 性色av一区二区三区在线观看| 尤物99国产成人精品视频| 日韩视频二区| 亚洲第一页在线| 亚洲欧美激情视频在线观看一区二区三区 | 一本色道久久综合一区| 精品福利免费观看| 亚洲欧美电影院| 一本一本久久a久久精品综合麻豆| 欧美一区二区视频网站| 亚洲女爱视频在线| 欧美高清不卡| 欧美大片免费久久精品三p | 国产模特精品视频久久久久 | 免费成人激情视频| 国产欧美日韩不卡| 一区二区三区精品国产| 亚洲免费观看高清在线观看| 久久久久久穴| 久久久久久久91| 国产日韩欧美日韩大片| 在线午夜精品自拍| 宅男精品视频| 欧美日韩在线不卡一区| 亚洲精品久久久久久久久| 亚洲国产精品久久人人爱蜜臀| 久久精品一区四区| 久久影视精品| 影音先锋日韩有码| 久久视频国产精品免费视频在线| 久久久久久穴| 一区二区三区在线视频播放| 久久国产精品99久久久久久老狼| 久久精品国产久精国产思思| 国产乱码精品一区二区三| 亚洲一区日本| 欧美一区二区播放| 国产日韩在线一区| 久久精品二区亚洲w码| 久久一区欧美| 亚洲欧洲中文日韩久久av乱码| 欧美成人精品激情在线观看| 亚洲第一页中文字幕| 日韩一级二级三级| 欧美性一二三区| 亚洲欧美99| 久久久久久欧美| 亚洲国产免费看| 欧美日韩国产高清视频| 国产精品99久久久久久白浆小说| 亚洲一区综合| 韩日欧美一区二区| 欧美成人自拍| 亚洲一区二区3| 久久综合九色综合久99| 亚洲精品一区二区三区婷婷月 | 国产欧美一区二区精品秋霞影院 | 欧美国产日韩精品| 99精品福利视频| 国产精品推荐精品| 久久亚洲精品中文字幕冲田杏梨| 亚洲国产经典视频| 欧美亚洲一区三区| 亚洲激情在线观看| 国产精品乱子久久久久| 久久久欧美一区二区| 日韩视频在线免费| 亚洲免费电影在线| 久久精品亚洲乱码伦伦中文| 亚洲久久视频| 国产欧美日韩精品一区| 欧美第一黄色网| 亚洲欧美日韩一区二区在线| 亚洲大片一区二区三区| 欧美一区二区三区久久精品| 亚洲激情影院| 国产一区二区三区高清在线观看| 欧美freesex8一10精品| 香蕉尹人综合在线观看| 亚洲人成网站777色婷婷| 久久国产黑丝| 亚洲一区成人| 91久久嫩草影院一区二区| 国产日韩高清一区二区三区在线| 欧美激情亚洲精品| 久久精品国产久精国产一老狼| 亚洲精品你懂的| 欧美大片91| 久久美女艺术照精彩视频福利播放| 一区二区三区欧美在线观看| 在线观看日韩精品| 国产午夜精品久久| 国产精品人人做人人爽 | 亚洲欧美国产精品桃花| 亚洲精选在线| 亚洲韩国一区二区三区| 老牛嫩草一区二区三区日本| 欧美在线观看视频一区二区三区 | 亚洲一级影院| 99在线|亚洲一区二区| 亚洲国产精品久久久久婷婷老年| 国产一区二区三区不卡在线观看 | 欧美乱妇高清无乱码| 农夫在线精品视频免费观看| 久久久.com| 久久成人免费日本黄色| 香蕉免费一区二区三区在线观看 | 欧美精品成人在线| 欧美国产激情二区三区| 免费成年人欧美视频| 免费观看亚洲视频大全| 老司机午夜免费精品视频| 久久久久久久久伊人| 久久久精品国产免大香伊| 久久精品在线播放| 久久理论片午夜琪琪电影网| 久久久久久电影| 久久综合电影一区| 欧美寡妇偷汉性猛交| 欧美日韩第一区| 欧美视频日韩| 国产日产精品一区二区三区四区的观看方式 | 久久久久久夜精品精品免费| 久久久国产精品亚洲一区| 久久久久欧美精品| 欧美电影免费观看| 亚洲国产一区二区三区在线播 | 亚洲精品国产精品乱码不99按摩| 91久久一区二区| 亚洲免费成人av电影| 亚洲一区在线观看免费观看电影高清| 亚洲夜间福利| 久久精品视频免费| 母乳一区在线观看| 欧美色一级片| 国产亚洲精品v| 亚洲激情视频在线观看| 一区二区三区高清在线观看| 午夜久久tv| 欧美va天堂va视频va在线| 亚洲精品在线免费| 先锋影音网一区二区| 免费亚洲网站| 国产精品人人做人人爽人人添| 黄色av成人| 亚洲一级网站| 欧美电影免费观看| 亚洲在线国产日韩欧美| 美女视频一区免费观看| 欧美午夜三级| 亚洲国产一区二区三区高清| 亚洲欧美精品一区| 亚洲国产成人久久| 性伦欧美刺激片在线观看| 欧美激情亚洲激情| 精品电影在线观看| 亚洲图中文字幕| 欧美激情性爽国产精品17p| 亚洲一区三区视频在线观看| 欧美jizz19性欧美| 国产永久精品大片wwwapp| 一本大道久久精品懂色aⅴ| 久久综合网hezyo| 亚洲一区二区高清视频| 欧美精品一区二区视频| 一区二区视频免费完整版观看| 亚洲尤物在线|