青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

  C++博客 :: 首頁 :: 新隨筆 ::  ::  :: 管理
自己動手寫一個搜索引擎,想想這有多 cool:在界面上輸入關(guān)鍵詞,點擊搜索,得到自己想要的結(jié)果;那么它還可以做什么呢?也許是自己的網(wǎng)站需要一個站內(nèi)搜索功能,抑或是對于硬盤中文檔的搜索 —— 最重要的是,是不是覺得眾多 IT 公司都在向你招手呢?如果你心動了,那么,Let's Go!
這里首先要說明使用 Java 語言而不是 C/C++ 等其它語言的原因,因為 Java 中提供了對于網(wǎng)絡(luò)編程眾多的基礎(chǔ)包和類,比如 URL 類、InetAddress 類、正則表達式,這為我們的搜索引擎實現(xiàn)提供了良好的基礎(chǔ),使我們可以專注于搜索引擎本身的實現(xiàn),而不需要因為這些基礎(chǔ)類的實現(xiàn)而分心。
這個分三部分的系列將逐步說明如何設(shè)計和實現(xiàn)一個搜索引擎。在第一部分中,您將首先學習搜索引擎的工作原理,同時了解其體系結(jié)構(gòu),之后將講解如何實現(xiàn)搜索引擎的第一部分,網(wǎng)絡(luò)爬蟲模塊,即完成網(wǎng)頁搜集功能。在系列的第二部分中,將介紹預(yù)處理模塊,即如何處理收集來的網(wǎng)頁,整理、分詞以及索引的建立都在這部分之中。在系列的第三部分中,將介紹信息查詢服務(wù)的實現(xiàn),主要是查詢界面的建立、查詢結(jié)果的返回以及快照的實現(xiàn)。
dySE 的整體結(jié)構(gòu)
在開始學習搜索引擎的模塊實現(xiàn)之前,您需要了解 dySE 的整體結(jié)構(gòu)以及數(shù)據(jù)傳輸?shù)牧鞒獭J聦嵣希阉饕娴娜齻€部分是相互獨立的,三個部分分別工作,主要的關(guān)系體現(xiàn)在前一部分得到的數(shù)據(jù)結(jié)果為后一部分提供原始數(shù)據(jù)。三者的關(guān)系如下圖所示:

圖 
1. 搜索引擎三段式工作流程
 
在介紹搜索引擎的整體結(jié)構(gòu)之前,我們借鑒《計算機網(wǎng)絡(luò)——自頂向下的方法描述因特網(wǎng)特色》一書的敘事方法,從普通用戶使用搜索引擎的角度來介紹搜索引擎的具體工作流程。
自頂向下的方法描述搜索引擎執(zhí)行過程:
用戶通過瀏覽器提交查詢的詞或者短語 P,搜索引擎根據(jù)用戶的查詢返回匹配的網(wǎng)頁信息列表 L;
上述過程涉及到兩個問題,如何匹配用戶的查詢以及網(wǎng)頁信息列表從何而來,根據(jù)什么而排序?用戶的查詢 P 經(jīng)過分詞器被切割成小詞組 
<p1,p2 … pn> 并被剔除停用詞 ( 的、了、啊等字 ),根據(jù)系統(tǒng)維護的一個倒排索引可以查詢某個詞 pi 在哪些網(wǎng)頁中出現(xiàn)過,匹配那些 <p1,p2 … pn> 都出現(xiàn)的網(wǎng)頁集即可作為初始結(jié)果,更進一步,返回的初始網(wǎng)頁集通過計算與查詢詞的相關(guān)度從而得到網(wǎng)頁排名,即 Page Rank,按照網(wǎng)頁的排名順序即可得到最終的網(wǎng)頁列表;
假設(shè)分詞器和網(wǎng)頁排名的計算公式都是既定的,那么倒排索引以及原始網(wǎng)頁集從何而來?原始網(wǎng)頁集在之前的數(shù)據(jù)流程的介紹中,可以得知是由爬蟲 spider 爬取網(wǎng)頁并且保存在本地的,而倒排索引,即詞組到網(wǎng)頁的映射表是建立在正排索引的基礎(chǔ)上的,后者是分析了網(wǎng)頁的內(nèi)容并對其內(nèi)容進行分詞后,得到的網(wǎng)頁到詞組的映射表,將正排索引倒置即可得到倒排索引;
網(wǎng)頁的分析具體做什么呢?由于爬蟲收集來的原始網(wǎng)頁中包含很多信息,比如 html 表單以及一些垃圾信息比如廣告,網(wǎng)頁分析去除這些信息,并抽取其中的正文信息作為后續(xù)的基礎(chǔ)數(shù)據(jù)。
在有了上述的分析之后,我們可以得到搜索引擎的整體結(jié)構(gòu)如下圖:

圖 
2. 搜索引擎整體結(jié)構(gòu)
 
爬蟲從 Internet 中爬取眾多的網(wǎng)頁作為原始網(wǎng)頁庫存儲于本地,然后網(wǎng)頁分析器抽取網(wǎng)頁中的主題內(nèi)容交給分詞器進行分詞,得到的結(jié)果用索引器建立正排和倒排索引,這樣就得到了索引數(shù)據(jù)庫,用戶查詢時,在通過分詞器切割輸入的查詢詞組并通過檢索器在索引數(shù)據(jù)庫中進行查詢,得到的結(jié)果返回給用戶。
無論搜索引擎的規(guī)模大小,其主要結(jié)構(gòu)都是由這幾部分構(gòu)成的,并沒有大的差別,搜索引擎的好壞主要是決定于各部分的內(nèi)部實現(xiàn)。
有了上述的對與搜索引擎的整體了解,我們來學習 dySE 中爬蟲模塊的具體設(shè)計和實現(xiàn)。
回頁首
Spider 的設(shè)計
網(wǎng)頁收集的過程如同圖的遍歷,其中網(wǎng)頁就作為圖中的節(jié)點,而網(wǎng)頁中的超鏈接則作為圖中的邊,通過某網(wǎng)頁的超鏈接 得到其他網(wǎng)頁的地址,從而可以進一步的進行網(wǎng)頁收集;圖的遍歷分為廣度優(yōu)先和深度優(yōu)先兩種方法,網(wǎng)頁的收集過程也是如此。綜上,Spider 收集網(wǎng)頁的過程如下:從初始 URL 集合獲得目標網(wǎng)頁地址,通過網(wǎng)絡(luò)連接接收網(wǎng)頁數(shù)據(jù),將獲得的網(wǎng)頁數(shù)據(jù)添加到網(wǎng)頁庫中并且分析該網(wǎng)頁中的其他 URL 鏈接,放入未訪問 URL 集合用于網(wǎng)頁收集。下圖表示了這個過程:

圖 
3. Spider 工作流程
 
回頁首
Spider 的具體實現(xiàn)
網(wǎng)頁收集器 Gather
網(wǎng)頁收集器通過一個 URL 來獲取該 URL 對應(yīng)的網(wǎng)頁數(shù)據(jù),其實現(xiàn)主要是利用 Java 中的 URLConnection 類來打開 URL 對應(yīng)頁面的網(wǎng)絡(luò)連接,然后通過 I
/O 流讀取其中的數(shù)據(jù),BufferedReader 提供讀取數(shù)據(jù)的緩沖區(qū)提高數(shù)據(jù)讀取的效率以及其下定義的 readLine() 行讀取函數(shù)。代碼如下 ( 省略了異常處理部分 ):

清單 
1. 網(wǎng)頁數(shù)據(jù)抓取
                
URL url 
= new URL(“http://www.xxx.com”); 
URLConnection conn = url.openConnection(); 
BufferedReader reader 
= new BufferedReader(new InputStreamReader(conn.getInputStream())); 
String line 
= null
while((line = reader.readLine()) != null
    document.append(line 
+ "\n"); 

使用 Java 語言的好處是不需要自己處理底層的連接操作,喜歡或者精通 Java 網(wǎng)絡(luò)編程的讀者也可以不用上述的方法,自己實現(xiàn) URL 類及相關(guān)操作,這也是一種很好的鍛煉。
網(wǎng)頁處理
收集到的單個網(wǎng)頁,需要進行兩種不同的處理,一種是放入網(wǎng)頁庫,作為后續(xù)處理的原始數(shù)據(jù);另一種是被分析之后,抽取其中的 URL 連接,放入 URL 池等待對應(yīng)網(wǎng)頁的收集。
網(wǎng)頁的保存需要按照一定的格式,以便以后數(shù)據(jù)的批量處理。這里介紹一種存儲數(shù)據(jù)格式,該格式從北大天網(wǎng)的存儲格式簡化而來:
網(wǎng)頁庫由若干記錄組成,每個記錄包含一條網(wǎng)頁數(shù)據(jù)信息,記錄的存放為順序添加;
一條記錄由數(shù)據(jù)頭、數(shù)據(jù)、空行組成,順序為:頭部 
+ 空行 + 數(shù)據(jù) + 空行;
頭部由若干屬性組成,有:版本號,日期,IP 地址,數(shù)據(jù)長度,按照屬性名和屬性值的方式排列,中間加冒號,每個屬性占用一行;
數(shù)據(jù)即為網(wǎng)頁數(shù)據(jù)。
需要說明的是,添加數(shù)據(jù)收集日期的原因,由于許多網(wǎng)站的內(nèi)容都是動態(tài)變化的,比如一些大型門戶網(wǎng)站的首頁內(nèi)容,這就意味著如果不是當天爬取的網(wǎng)頁數(shù)據(jù),很可能發(fā)生數(shù)據(jù)過期的問題,所以需要添加日期信息加以識別。
URL 的提取分為兩步,第一步是 URL 識別,第二步再進行 URL 的整理,分兩步走主要是因為有些網(wǎng)站的鏈接是采用相對路徑,如果不整理會產(chǎn)生錯誤。URL 的識別主要是通過正則表達式來匹配,過程首先設(shè)定一個字符串作為匹配的字符串模式,然后在 Pattern 中編譯后即可使用 Matcher 類來進行相應(yīng)字符串的匹配。實現(xiàn)代碼如下:

清單 
2. URL 識別
                
public ArrayList<URL> urlDetector(String htmlDoc){
    
final String patternString = "<[a|A]\\s+href=([^>]*\\s*>)";           
    Pattern pattern 
= Pattern.compile(patternString,Pattern.CASE_INSENSITIVE);   
    ArrayList
<URL> allURLs = new ArrayList<URL>();
    Matcher matcher 
= pattern.matcher(htmlDoc);
    String tempURL;
    
//初次匹配到的url是形如:<a href="http://bbs.life.xxx.com.cn/" target="_blank">
    
//為此,需要進行下一步的處理,把真正的url抽取出來,
    
//可以對于前兩個"之間的部分進行記錄得到url
    while(matcher.find()){
        
try {
            tempURL 
= matcher.group();            
            tempURL 
= tempURL.substring(tempURL.indexOf("\"")+1);        
            if(!tempURL.contains("\""))
                continue;
            tempURL 
= tempURL.substring(0, tempURL.indexOf("\""));        
        }
 catch (MalformedURLException e) {
            e.printStackTrace();
        }

    }

    
return allURLs;    
}


按照“
<[a|A]\\s+href=([^>]*\\s*>)”這個正則表達式可以匹配出 URL 所在的整個標簽,形如“<a href="http://bbs.life.xxx.com.cn/" target="_blank">”,所以在循環(huán)獲得整個標簽之后,需要進一步提取出真正的 URL,我們可以通過截取標簽中前兩個引號中間的內(nèi)容來獲得這段內(nèi)容。如此之后,我們可以得到一個初步的屬于該網(wǎng)頁的 URL 集合。
接下來我們進行第二步操作,URL 的整理,即對之前獲得的整個頁面中 URL 集合進行篩選和整合。整合主要是針對網(wǎng)頁地址是相對鏈接的部分,由于我們可以很容易的獲得當前網(wǎng)頁的 URL,所以,相對鏈接只需要在當前網(wǎng)頁的 URL 上添加相對鏈接的字段即可組成完整的 URL,從而完成整合。另一方面,在頁面中包含的全面 URL 中,有一些網(wǎng)頁比如廣告網(wǎng)頁是我們不想爬取的,或者不重要的,這里我們主要針對于頁面中的廣告進行一個簡單處理。一般網(wǎng)站的廣告連接都有相應(yīng)的顯示表達,比如連接中含有“ad”等表達時,可以將該鏈接的優(yōu)先級降低,這樣就可以一定程度的避免廣告鏈接的爬取。
經(jīng)過這兩步操作時候,可以把該網(wǎng)頁的收集到的 URL 放入 URL 池中,接下來我們處理爬蟲的 URL 的派分問題。
Dispatcher 分配器
分配器管理 URL,負責保存著 URL 池并且在 Gather 取得某一個網(wǎng)頁之后派分新的 URL,還要避免網(wǎng)頁的重復(fù)收集。分配器采用設(shè)計模式中的單例模式編碼,負責提供給 Gather 新的 URL,因為涉及到之后的多線程改寫,所以單例模式顯得尤為重要。
重復(fù)收集是指物理上存在的一個網(wǎng)頁,在沒有更新的前提下,被 Gather 重復(fù)訪問,造成資源的浪費,主要原因是沒有清楚的記錄已經(jīng)訪問的 URL 而無法辨別。所以,Dispatcher 維護兩個列表 ,“已訪問表”,和“未訪問表”。每個 URL 對應(yīng)的頁面被抓取之后,該 URL 放入已訪問表中,而從該頁面提取出來的 URL 則放入未訪問表中;當 Gather 向 Dispatcher 請求 URL 的時候,先驗證該 URL 是否在已訪問表中,然后再給 Gather 進行作業(yè)。
Spider 啟動多個 Gather 線程
現(xiàn)在 Internet 中的網(wǎng)頁數(shù)量數(shù)以億計,而單獨的一個 Gather 來進行網(wǎng)頁收集顯然效率不足,所以我們需要利用多線程的方法來提高效率。Gather 的功能是收集網(wǎng)頁,我們可以通過 Spider 類來開啟多個 Gather 線程,從而達到多線程的目的。代碼如下:
/** 
* 啟動線程 gather,然后開始收集網(wǎng)頁資料
*/
 
public void start() 
    Dispatcher disp 
= Dispatcher.getInstance(); 
    
for(int i = 0; i < gatherNum; i++)
        Thread gather 
= new Thread(new Gather(disp)); 
        gather.start(); 
    }

}


在開啟線程之后,網(wǎng)頁收集器開始作業(yè)的運作,并在一個作業(yè)完成之后,向 Dispatcher 申請下一個作業(yè),因為有了多線程的 Gather,為了避免線程不安全,需要對 Dispatcher 進行互斥訪問,在其函數(shù)之中添加 
synchronized 關(guān)鍵詞,從而達到線程的安全訪問。
回頁首
小結(jié)
Spider 是整個搜索引擎的基礎(chǔ),為后續(xù)的操作提供原始網(wǎng)頁資料,所以了解 Spider 的編寫以及網(wǎng)頁庫的組成結(jié)構(gòu)為后續(xù)預(yù)處理模塊打下基礎(chǔ)。同時 Spider 稍加修改之后也可以單獨用于某類具體信息的搜集,比如某個網(wǎng)站的圖片爬取等。
回頁首
后續(xù)內(nèi)容
在本系列的第 
2 部分中,您將了解到爬蟲獲取的網(wǎng)頁庫如何被預(yù)處理模塊逐步提取內(nèi)容信息,通過分詞并建成倒排索引;而在第 3 部分中,您將了解到,如何編寫網(wǎng)頁來提供查詢服務(wù),并且如何顯示的返回的結(jié)果和完成快照的功能。
青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            久久夜色精品国产噜噜av| 亚洲日韩成人| 日韩视频在线观看免费| 永久域名在线精品| 亚洲欧美日韩电影| 亚洲一区免费| 欧美日韩在线观看一区二区| 欧美黄色精品| 狠狠色噜噜狠狠色综合久 | 亚洲激情中文1区| 国产午夜精品视频| 亚洲一区二区三区免费视频| 国产精品99久久久久久久女警| 蘑菇福利视频一区播放| 免费亚洲婷婷| 亚洲观看高清完整版在线观看| 久久精品亚洲一区二区| 久久久久久网站| 狠狠色狠狠色综合系列| 久久精品国产一区二区电影| 久久亚洲一区| 在线日韩av永久免费观看| 久久久久九九视频| 奶水喷射视频一区| 亚洲国产高清视频| 免费亚洲电影在线| 91久久精品国产91久久| 亚洲九九爱视频| 欧美日韩一区二区国产| 一本大道久久a久久精二百| 亚洲午夜精品一区二区| 国产精品国产三级国产普通话三级 | 亚洲电影免费观看高清| 久久久精品国产一区二区三区 | 欧美一区二区日韩| 国产九九精品| 久久国产精品72免费观看| 久久天天躁狠狠躁夜夜av| 激情综合亚洲| 欧美精品粉嫩高潮一区二区 | 欧美日韩成人综合在线一区二区| 亚洲欧洲一区二区在线播放 | 日韩视频在线观看| 欧美偷拍另类| 欧美一二三视频| 欧美电影免费观看网站| 一区二区三区色| 国产麻豆综合| 女仆av观看一区| 亚洲午夜激情| 免费在线观看精品| 在线视频免费在线观看一区二区| 国产精品色午夜在线观看| 久久黄色级2电影| 亚洲精品国偷自产在线99热| 午夜性色一区二区三区免费视频 | 亚洲美女啪啪| 国产精品综合不卡av | 久久久久www| 日韩一二三区视频| 久久这里只有| 亚洲视频在线免费观看| 国产一区二区按摩在线观看| 欧美1区免费| 亚洲欧美综合v| 亚洲国产mv| 久久精品99国产精品酒店日本| 亚洲精品免费在线| 国产一二三精品| 欧美视频你懂的| 久久色在线观看| 亚洲制服丝袜在线| 最近中文字幕日韩精品 | 欧美 日韩 国产精品免费观看| 一本色道久久综合| 欧美成人免费在线观看| 性欧美1819sex性高清| 日韩视频免费观看| 黄色av一区| 国产精品丝袜白浆摸在线| 欧美成ee人免费视频| 欧美一区激情| 一区二区三区久久| 91久久综合亚洲鲁鲁五月天| 久久亚洲高清| 欧美在线一二三四区| 亚洲一区三区视频在线观看| 亚洲精品日韩综合观看成人91| 狠狠久久综合婷婷不卡| 国产欧美三级| 国产精品揄拍500视频| 欧美性理论片在线观看片免费| 欧美顶级大胆免费视频| 久久免费黄色| 久久天堂av综合合色| 久久精品国产99国产精品| 先锋资源久久| 翔田千里一区二区| 午夜国产精品影院在线观看| 亚洲一区日韩在线| 亚洲免费婷婷| 午夜亚洲伦理| 欧美一区三区三区高中清蜜桃| 亚洲在线日韩| 午夜精品久久久久| 欧美一区二区三区免费看| 先锋影院在线亚洲| 久久国产色av| 久久久美女艺术照精彩视频福利播放| 欧美一区日韩一区| 久久狠狠久久综合桃花| 久久久99免费视频| 六月婷婷久久| 欧美激情第3页| 欧美日韩a区| 欧美日韩在线不卡一区| 国产精品美女一区二区| 国产欧美亚洲一区| 国语自产精品视频在线看| 亚洲第一在线视频| 亚洲精品在线免费| 亚洲中字在线| 久久狠狠一本精品综合网| 久久―日本道色综合久久| 免费在线观看日韩欧美| 亚洲国产成人一区| 一本色道久久加勒比精品| 亚洲欧美国产三级| 久久免费视频网站| 欧美日韩高清不卡| 国产精品自拍在线| 亚洲国产精品va| 亚洲一区久久| 老鸭窝亚洲一区二区三区| 欧美顶级艳妇交换群宴| 一本久道久久久| 久久激情视频| 欧美日韩国产一区| 国产一区二区久久精品| 亚洲精品视频在线观看网站| 中文精品视频| 久久青青草综合| 日韩视频一区二区三区| 久久国产精品99国产精| 欧美日韩视频| 一区在线影院| 亚洲一级黄色av| 裸体一区二区| 亚洲一区二区久久| 欧美成人综合一区| 国产欧美一区二区三区久久| 亚洲欧洲在线免费| 久久精品成人一区二区三区| 亚洲国产另类久久久精品极度| 亚洲自拍偷拍一区| 欧美理论大片| 亚洲第一在线综合在线| 欧美一区二区三区在| 91久久国产综合久久| 久久久高清一区二区三区| 国产精品久久久久久模特 | 亚洲视频在线免费观看| 美女啪啪无遮挡免费久久网站| 国产精品视频xxxx| 一本色道88久久加勒比精品| 美女主播一区| 性欧美videos另类喷潮| 国产精品国产三级国产aⅴ9色| 亚洲国产日韩欧美| 毛片一区二区| 欧美一区二区在线| 国产精品久久久久久av福利软件| 最新日韩精品| 蜜臀99久久精品久久久久久软件| 午夜在线观看免费一区| 国产精品福利在线观看| 夜夜精品视频| 亚洲三级电影全部在线观看高清| 久久免费国产精品| 精品va天堂亚洲国产| 久久成人综合视频| 亚洲综合不卡| 国产精品久久一区二区三区| 亚洲天堂免费观看| 99国产精品99久久久久久粉嫩| 欧美精品二区三区四区免费看视频| 亚洲高清一区二| 欧美激情aaaa| 欧美本精品男人aⅴ天堂| 亚洲日本久久| 亚洲日本无吗高清不卡| 欧美片在线播放| 中国av一区| 亚洲夜晚福利在线观看| 国产精品视频一区二区高潮| 亚洲在线观看免费视频| 国产精品99久久久久久人| 国产噜噜噜噜噜久久久久久久久| 欧美伊人久久大香线蕉综合69| 小黄鸭精品aⅴ导航网站入口|