欧美成人免费va影院高清,亚洲区免费影片,一区在线播放

二、網(wǎng)絡抓蟲

網(wǎng)頁頁面劃分為5個部分：

1、已下載

2、已過期

3、待下載

4、可知網(wǎng)頁集合，未下載，但可索引

5、不可知網(wǎng)頁集合，暗網(wǎng)網(wǎng)頁

爬蟲分三種類型：

1、批量型：有明確的抓取范圍和目標，當達到這個目標后停止抓取

2、增量型：不斷抓取，抓取到以后定期更新

3、垂直型：抓取特定行業(yè)網(wǎng)頁

優(yōu)秀爬蟲的特性：高性能、可擴展（良好的并發(fā)性）、健壯性、友好性（遵守Robot協(xié)議）

評價爬蟲質(zhì)量的標準：覆蓋率，時新性，重要性

抓取策略：優(yōu)先選擇重要網(wǎng)頁進行抓取

1、寬度優(yōu)先遍歷策略，雖然機械，但是效果好，隱含了一些網(wǎng)頁優(yōu)秀級的假設

2、非完全PageRank策略，對已下載網(wǎng)頁集合，加上待抓取URL，形成網(wǎng)頁集合，進行PageRank計算，將待抓取按得分進行排序

3、OCIP策略，在線頁面重要性計算，待下載頁面都分配相同的cash，下載后把頁面擁有的現(xiàn)金平分給包含的鏈接，

待抓取URL則根據(jù)手頭現(xiàn)金排序，優(yōu)先下載最充裕網(wǎng)頁。計算速度快，適合實時計算，效果略優(yōu)于寬度優(yōu)先

4、大站優(yōu)先策略，哪個網(wǎng)站等等下載的頁面最多，則優(yōu)先下載這些鏈接，效果略優(yōu)于寬度優(yōu)先

網(wǎng)頁更新策略

1、歷史參考策略，過去頻繁更新的網(wǎng)頁，將來也會頻繁更新，利用泊松過程

抓取策略應該忽略掉廣告或?qū)Ш降确侵匾獏^(qū)域的頻繁變化，集中在主題內(nèi)容的變化探測和建模

2、用戶體驗策略，對搜索結(jié)果排名靠前，更新以后對搜索質(zhì)量（排名）的影響較大的頁面進行更新

3、聚類抽樣策略，先對網(wǎng)頁進行聚類，對同一類網(wǎng)頁采用相同的更新頻率

聚類特征：

靜態(tài)特征，頁面的內(nèi)容，圖片數(shù)量，頁面大小，鏈接深度，PageRank值

動態(tài)特征，隨著時間的變化，靜態(tài)特征的變化情況

聚類抽樣策略效果好于前述兩種，但是對億計網(wǎng)頁進行聚類，難度較大

暗網(wǎng)抓取

將暗網(wǎng)數(shù)據(jù)從數(shù)據(jù)庫中挖掘出來，百度的“阿拉丁”計劃就是解決此問題

查詢組合：Google提出富含信息查詢模板技術，使用富含信息查詢模板進行查詢，獲取有效的網(wǎng)頁結(jié)果

富含信息查詢模板：對于某固定的查詢模板來說，如果給模板內(nèi)每個屬性都賦值，形成不同的查詢組合，其返回內(nèi)容差異較大，則這個查詢模板為富含信息查詢模板

分布式爬蟲

主從分布式：URL服務器容易成為整個系統(tǒng)的瓶頸

對等分布式：沒有URL服務器存在，每臺抓取服務器的分工成為問題，對網(wǎng)址的主域名進行哈希計算，之后對m服務器數(shù)量取模，把計算后的模和抓取服務器號匹配

一致性哈希算法：將網(wǎng)站主域名進行哈希，映射到0~2^32之間某個數(shù)值，抓取服務器負責這個環(huán)狀序列的一個片段的抓取，抓取內(nèi)容由上一個服務器進行循環(huán)轉(zhuǎn)發(fā)

posted on 2013-09-13 11:10 胡滿超閱讀(604) 評論(0) 編輯收藏引用所屬分類: 搜索引擎

只有注冊用戶登錄后才能發(fā)表評論。
【推薦】100%開源！大型工業(yè)跨平臺軟件C++源碼提供，建模，組態(tài)！

相關文章: 深入淺出LSH 這就是搜索引擎－筆試6-鏈接分析這就是搜索引擎－筆試5-檢索模型與搜索排序這就是搜索引擎－筆試4-索引壓縮這就是搜索引擎－筆試3-搜索引擎索引這就是搜索引擎－筆試2 這就是搜索引擎－筆試1 轉(zhuǎn): 怎樣量化評價搜索引擎的結(jié)果質(zhì)量

網(wǎng)站導航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

隨筆分類(56)