二、網(wǎng)絡抓蟲
網(wǎng)頁頁面劃分為5個部分:
1、已下載
2、已過期
3、待下載
4、可知網(wǎng)頁集合,未下載,但可索引
5、不可知網(wǎng)頁集合,暗網(wǎng)網(wǎng)頁
爬蟲分三種類型:
1、批量型:有明確的抓取范圍和目標,當達到這個目標后停止抓取
2、增量型:不斷抓取,抓取到以后定期更新
3、垂直型:抓取特定行業(yè)網(wǎng)頁
優(yōu)秀爬蟲的特性:高性能、可擴展(良好的并發(fā)性)、健壯性、友好性(遵守Robot協(xié)議)
評價爬蟲質(zhì)量的標準:覆蓋率,時新性,重要性
抓取策略:優(yōu)先選擇重要網(wǎng)頁進行抓取
1、寬度優(yōu)先遍歷策略,雖然機械,但是效果好,隱含了一些網(wǎng)頁優(yōu)秀級的假設
2、非完全PageRank策略,對已下載網(wǎng)頁集合,加上待抓取URL,形成網(wǎng)頁集合,進行PageRank計算,將待抓取按得分進行排序
3、OCIP策略,在線頁面重要性計算,待下載頁面都分配相同的cash,下載后把頁面擁有的現(xiàn)金平分給包含的鏈接,
待抓取URL則根據(jù)手頭現(xiàn)金排序,優(yōu)先下載最充裕網(wǎng)頁。計算速度快,適合實時計算,效果略優(yōu)于寬度優(yōu)先
4、大站優(yōu)先策略,哪個網(wǎng)站等等下載的頁面最多,則優(yōu)先下載這些鏈接,效果略優(yōu)于寬度優(yōu)先
網(wǎng)頁更新策略
1、歷史參考策略,過去頻繁更新的網(wǎng)頁,將來也會頻繁更新,利用泊松過程
抓取策略應該忽略掉廣告或?qū)Ш降确侵匾獏^(qū)域的頻繁變化,集中在主題內(nèi)容的變化探測和建模
2、用戶體驗策略,對搜索結(jié)果排名靠前,更新以后對搜索質(zhì)量(排名)的影響較大的頁面進行更新
3、聚類抽樣策略,先對網(wǎng)頁進行聚類,對同一類網(wǎng)頁采用相同的更新頻率
聚類特征:
靜態(tài)特征,頁面的內(nèi)容,圖片數(shù)量,頁面大小,鏈接深度,PageRank值
動態(tài)特征,隨著時間的變化 ,靜態(tài)特征的變化情況
聚類抽樣策略效果好于前述兩種,但是對億計網(wǎng)頁進行聚類,難度較大
暗網(wǎng)抓取
將暗網(wǎng)數(shù)據(jù)從數(shù)據(jù)庫中挖掘出來,百度的“阿拉丁”計劃就是解決此問題
查詢組合:Google提出富含信息查詢模板技術,使用富含信息查詢模板進行查詢,獲取有效的網(wǎng)頁結(jié)果
富含信息查詢模板:對于某固定的查詢模板來說,如果給模板內(nèi)每個屬性都賦值,形成不同的查詢組合,其返回內(nèi)容差異較大,則這個查詢模板為富含信息查詢模板
分布式爬蟲
主從分布式:URL服務器容易成為整個系統(tǒng)的瓶頸
對等分布式:沒有URL服務器存在,每臺抓取服務器的分工成為問題,對網(wǎng)址的主域名進行哈希計算,之后對m服務器數(shù)量取模,把計算后的模和抓取服務器號匹配
一致性哈希算法:將網(wǎng)站主域名進行哈希,映射到0~2^32之間某個數(shù)值,抓取服務器負責這個環(huán)狀序列的一個片段的抓取,抓取內(nèi)容由上一個服務器進行循環(huán)轉(zhuǎn)發(fā)
posted on 2013-09-13 11:10
胡滿超 閱讀(604)
評論(0) 編輯 收藏 引用 所屬分類:
搜索引擎