青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

  C++博客 :: 首頁 :: 新隨筆 ::  ::  :: 管理

Spider概述

Posted on 2010-09-16 19:29 Kevin_Zhang 閱讀(891) 評論(0)  編輯 收藏 引用 所屬分類: 搜索引擎

Spider概述

Spider即網絡爬蟲 ,其定義有廣義和狹義之分。狹義上指遵循標準的 http協議利用超鏈接和 Web文檔檢索的方法遍歷萬維網信息空間的軟件程序 ;而廣義的定義則是所有能遵循 http協議檢索 Web文檔的軟件都稱之為網絡爬蟲。

Spider是一個功能很強的自動提取網頁的程序 ,它為搜索引擎從萬維網上下載網頁 ,是搜索引擎的重要組成 .它通過請求站點上的 HTML文檔訪問某一站點。它遍歷 Web空間 ,不斷從一個站點移動到另一個站點 ,自動建立索引 ,并加入到網頁數據庫中。網絡爬蟲進入某個超級文本時 ,它利用 HTML語言的標記結構來搜索信息及獲取指向其他超級文本的 URL地址 ,可以完全不依賴用戶干預實現網絡上的自動爬行和搜索。

Spider的隊列

(1)等待隊列 :新發現的 URL被加入到這個隊列 ,等待被 Spider程序處理 ;

(2)處理隊列 :要被處理的 URL被傳送到這個隊列。為了避免同一個 URL被多次處理 ,當一個 URL被處理過后 ,它將被轉移到完成隊列或者錯誤隊列 (如果發生錯誤 )。

(3)錯誤隊列 :如果在下載網頁是發生錯誤 ,該 URL將被加入 到錯誤隊列。

(4)完成隊列 :如果在處理網頁沒有發生錯誤 ,該 URL將被加入到完成隊列。

網絡爬蟲搜索策略

在抓取網頁的時候 ,目前網絡爬蟲一般有兩種策略 :無主題搜索與基于某特定主體的專業智能搜索。其中前者主要包括 :廣度優先和深度優先。廣度優先是指網絡爬蟲會先抓取起始網頁中鏈接的所有網頁 ,然后再選擇其中的一個鏈接網頁 ,繼續抓取在此網頁中鏈接的所有網頁。這是最常用的方式,因為這個方法可以讓網絡爬蟲并行處理 ,提高其抓取速度。深度優先是指網絡爬蟲會從起始頁開始 ,一個鏈接一個鏈接跟蹤下去 ,處理完這條線路之后再轉入下一個起始頁 ,繼續跟蹤鏈接。這個方法有個優點是網絡爬蟲在設計的時候比較容易。大多數網頁爬行器采用寬度優先搜索策略或者是對這種策略的某些改進。

在專業搜索引擎中 ,網絡爬蟲的任務是獲取 Web頁面和決定鏈接的訪問順序 ,它通常從一個 “種子集 ”(如用戶查詢、種子鏈接或種子頁面 )發,以迭代的方式訪問頁面和提取鏈接。搜索過程中 ,未訪問的鏈接被暫存在一個稱為 “搜索前沿 ”(Spider Frontier)的隊列中 ,網絡爬蟲根據搜索前沿中鏈接的 “重要程度 ”決定下一個要訪問的鏈接。如何評價和預測鏈接的 “重要程度 ”(或稱價值 )是決定網絡爬蟲搜索策略的關鍵。

眾多的網絡爬蟲設計各不相同 ,但歸根結底是采用不同的鏈接價值評價標準。

常用開源網絡爬蟲介紹及其比較

Nutch

開發語言:Java

http://lucene.apache.org/nutch/

簡介:

Apache的子項目之一,屬于Lucene項目下的子項目。

Nutch是一個基于Lucene,類似Google的完整網絡搜索引擎解決方案,基于Hadoop的分布式處理模型保證了系統的性能,類似Eclipse的插件機制保證了系統的可客戶化,而且很容易集成到自己的應用之中。

Larbin

開發語言:C++

http://larbin.sourceforge.net/index-eng.html

簡介

  larbin是一種開源的網絡爬蟲/網絡蜘蛛,由法國的年輕人 Sébastien Ailleret獨立開發。larbin目的是能夠跟蹤頁面的url進行擴展的抓取,最后為搜索引擎提供廣泛的數據來源。

  Larbin只是一個爬蟲,也就是說larbin只抓取網頁,至于如何parse的事情則由用戶自己完成。另外,如何存儲到數據庫以及建立索引的事情 larbin也不提供。

  latbin最初的設計也是依據設計簡單但是高度可配置性的原則,因此我們可以看到,一個簡單的larbin的爬蟲可以每天獲取500萬的網頁,非常高效。

Heritrix

開發語言:Java

http://crawler.archive.org/

簡介

與Nutch比較

和 Nutch。二者均為Java開源框架,Heritrix 是 SourceForge上的開源產品,Nutch為Apache的一個子項目,它們都稱作網絡爬蟲/蜘蛛( Web Crawler),它們實現的原理基本一致:深度遍歷網站的資源,將這些資源抓取到本地,使用的方法都是分析網站每一個有效的URI,并提交Http請求,從而獲得相應結果,生成本地文件及相應的日志信息等。

Heritrix 是個 "archival crawler" -- 用來獲取完整的、精確的、站點內容的深度復制。包括獲取圖像以及其他非文本內容。抓取并存儲相關的內容。對內容來者不拒,不對頁面進行內容上的修改。重新爬行對相同的URL不針對先前的進行替換。爬蟲通過Web用戶界面啟動、監控、調整,允許彈性的定義要獲取的URL。

二者的差異:

Nutch 只獲取并保存可索引的內容。Heritrix則是照單全收。力求保存頁面原貌

Nutch 可以修剪內容,或者對內容格式進行轉換。

Nutch 保存內容為數據庫優化格式便于以后索引;刷新替換舊的內容。而Heritrix 是添加(追加)新的內容。

Nutch 從命令行運行、控制。Heritrix 有 Web 控制管理界面。

Nutch 的定制能力不夠強,不過現在已經有了一定改進。Heritrix 可控制的參數更多。

Heritrix提供的功能沒有nutch多,有點整站下載的味道。既沒有索引又沒有解析,甚至對于重復爬取URL都處理不是很好。

Heritrix的功能強大 但是配置起來卻有點麻煩。

三者的比較

一、從功能方面來說,Heritrix與Larbin的功能類似。都是一個純粹的網絡爬蟲,提供網站的鏡像下載。而Nutch是一個網絡搜索引擎框架,爬取網頁只是其功能的一部分。

二、從分布式處理來說,Nutch支持分布式處理,而另外兩個好像尚且還沒有支持。

三、從爬取的網頁存儲方式來說,Heritrix和 Larbin都是將爬取下來的內容保存為原始類型的內容。而Nutch是將內容保存到其特定格式的segment中去。

四,對于爬取下來的內容的處理來說,Heritrix和 Larbin都是將爬取下來的內容不經處理直接保存為原始內容。而Nutch對文本進行了包括鏈接分析、正文提取、建立索引(Lucene索引)等處理。

五,從爬取的效率來說,Larbin效率較高,因為其是使用c++實現的并且功能單一。

表 3種爬蟲的比較

crawler

開發語言

功能單一

支持分布式爬取

效率

鏡像保存

Nutch

Java

×

×

Larbin

C++

×

Heritrix

Java

×

其他網絡爬蟲介紹:

Heritrix
Heritrix是一個開源,可擴展的web爬蟲項目。Heritrix設計成嚴格按照robots.txt文件的排除指示和META robots標簽。
http://crawler.archive.org/

WebSPHINX
WebSPHINX是一個Java類包和Web爬蟲的交互式開發環境。Web爬蟲(也叫作機器人或蜘蛛)是可以自動瀏覽與處理Web頁面的程序。WebSPHINX由兩部分組成:爬蟲工作平臺和WebSPHINX類包。
http://www.cs.cmu.edu/~rcm/websphinx/

WebLech
WebLech是一個功能強大的Web站點下載與鏡像工具。它支持按功能需求來下載web站點并能夠盡可能模仿標準Web瀏覽器的行為。WebLech有一個功能控制臺并采用多線程操作。
http://weblech.sourceforge.net/
Arale
Arale主要為個人使用而設計,而沒有像其它爬蟲一樣是關注于頁面索引。Arale能夠下載整個web站點或來自web站點的某些資源。Arale還能夠把動態頁面映射成靜態頁面。
http://web.tiscali.it/_flat/arale.jsp.html

J-Spider
J-Spider:是一個完全可配置和定制的Web Spider引擎.你可以利用它來檢查網站的錯誤(內在的服務器錯誤等),網站內外部鏈接檢查,分析網站的結構(可創建一個網站地圖),下載整個Web站點,你還可以寫一個JSpider插件來擴展你所需要的功能。
http://j-spider.sourceforge.net/

spindle
spindle 是一個構建在Lucene工具包之上的Web索引/搜索工具.它包括一個用于創建索引的HTTP spider和一個用于搜索這些索引的搜索類。spindle項目提供了一組JSP標簽庫使得那些基于JSP的站點不需要開發任何Java類就能夠增加搜索功能。
http://www.bitmechanic.com/projects/spindle/

Arachnid
Arachnid: 是一個基于Java的web spider框架.它包含一個簡單的HTML剖析器能夠分析包含HTML內容的輸入流.通過實現Arachnid的子類就能夠開發一個簡單的Web spiders并能夠在Web站上的每個頁面被解析之后增加幾行代碼調用。 Arachnid的下載包中包含兩個spider應用程序例子用于演示如何使用該框架。
http://arachnid.sourceforge.net/

LARM
LARM能夠為Jakarta Lucene搜索引擎框架的用戶提供一個純Java的搜索解決方案。它包含能夠為文件,數據庫表格建立索引的方法和為Web站點建索引的爬蟲。
http://larm.sourceforge.net/

JoBo
JoBo 是一個用于下載整個Web站點的簡單工具。它本質是一個Web Spider。與其它下載工具相比較它的主要優勢是能夠自動填充form(如:自動登錄)和使用cookies來處理session。JoBo還有靈活的下載規則(如:通過網頁的URL,大小,MIME類型等)來限制下載。
http://www.matuschek.net/software/jobo/index.html

snoics-reptile
snoics -reptile是用純Java開發的,用來進行網站鏡像抓取的工具,可以使用配制文件中提供的URL入口,把這個網站所有的能用瀏覽器通過GET的方式獲取到的資源全部抓取到本地,包括網頁和各種類型的文件,如:圖片、flash、mp3、zip、rar、exe等文件。可以將整個網站完整地下傳至硬盤內,并能保持原有的網站結構精確不變。只需要把抓取下來的網站放到web服務器(如:Apache)中,就可以實現完整的網站鏡像。
http://www.blogjava.net/snoics


Web-Harvest
Web-Harvest是一個Java開源Web數據抽取工具。它能夠收集指定的Web頁面并從這些頁面中提取有用的數據。Web-Harvest主要是運用了像XSLT,XQuery,正則表達式等這些技術來實現對text/xml的操作。
http://web-harvest.sourceforge.net

spiderpy
spiderpy是一個基于Python編碼的一個開源web爬蟲工具,允許用戶收集文件和搜索網站,并有一個可配置的界面。
http://pyspider.sourceforge.net/

The Spider Web Network Xoops Mod Team
pider Web Network Xoops Mod是一個Xoops下的模塊,完全由PHP語言實現。
http://www.tswn.com/

larbin
larbin是個基于C++的web爬蟲工具,擁有易于操作的界面,不過只能跑在LINUX下,在一臺普通PC下larbin每天可以爬5百萬個頁面(當然啦,需要擁有良好的網絡)
http://larbin.sourceforge.net/index-eng.html

爬蟲存在的問題

1. robots.txt

robots.txt是一個純文本文件,在這個文件中網站管理者可以聲明該網站中不想被robots訪問的部分,或者指定搜索引擎只收錄指定的內容。

當一個搜索機器人(有的叫搜索蜘蛛)訪問一個站點時,它會首先檢查該站點根目錄下是否存在robots.txt,如果存在,搜索機器人就會按照該文件中的內容來確定訪問的范圍;如果該文件不存在,那么搜索機器人就沿著鏈接抓取。

另外,robots.txt必須放置在一個站點的根目錄下,而且文件名必須全部小寫。

2. 有些類型的網頁難以爬取。例如,使用javascript調用的頁面、需要注冊才能訪問的頁面等。

網絡爬蟲的相關研究工作

有些類型的網頁難以爬取。例如,使用javascript調用的頁面、需要注冊才能訪問的頁面等,對于這些網絡的爬取被歸結為深層網絡的挖掘。這些網頁可歸結為如下幾類:(1)通過

填寫表單形成對后臺再現數據庫查詢得到的動態頁面。(2)由于缺乏被指向的超鏈接而沒有被索引到的頁面。(3)需要注冊或其他限制訪問的頁面。(4)可訪問的非網頁文件。在曾偉輝等人的文章中,對這類問題進行了綜述。在王映等人的文章中,提出了使用一個嵌入式的JavaScript引擎來進行動態網頁采集的方法。

1. 有些非靜態的Web2.0網站的內容動態生成,數據量巨大,難以抓取,例如論壇等網站。在2008年SIGIR中,Yida Wang等提出了一種爬取論壇的爬取方法。

2. 有些網站會限制網絡爬蟲的爬取,Analia G. Lourenco, Orlando O. Belo 在2006年提出來使用查詢日志的方法限制網絡爬蟲的活動以減輕服務器壓力。

3. 網絡上的網頁數量太大,在爬取時需要考慮爬取的時間及效率等問題,UCLA的Junghoo Cho等提出了使用并行的crawler的方法。

4.

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            亚洲经典在线| 欧美日韩成人在线观看| 麻豆成人精品| 在线成人av| 欧美激情1区2区3区| 亚洲九九九在线观看| 亚洲欧美日韩成人| 国产亚洲欧美一区| 麻豆精品一区二区综合av| 亚洲精品美女在线观看| 亚洲字幕一区二区| 韩国精品久久久999| 欧美成人网在线| 亚洲一区二区视频| 另类亚洲自拍| 亚洲午夜成aⅴ人片| 国产午夜精品理论片a级探花 | 久久免费偷拍视频| 亚洲国产裸拍裸体视频在线观看乱了| 在线视频精品一| 国产一区视频观看| 欧美激情综合五月色丁香| 亚洲在线视频免费观看| 欧美大片一区| 亚洲免费在线视频| 亚洲国产精品尤物yw在线观看| 欧美色欧美亚洲另类七区| 欧美中文字幕第一页| 亚洲美女av网站| 久久在线免费观看视频| 亚洲一区二区在线视频| 在线观看日韩av| 国产精品久久久一区麻豆最新章节| 久久久精品视频成人| 这里只有精品视频| 亚洲黄色在线看| 久久综合狠狠| 欧美一区2区三区4区公司二百| 亚洲日本中文字幕区| 国产在线精品一区二区夜色| 欧美性猛交视频| 欧美黄色aaaa| 久久综合五月天婷婷伊人| 性色av一区二区怡红| 日韩一本二本av| 亚洲高清一二三区| 久久综合狠狠综合久久综青草| 亚洲女人av| 亚洲视频香蕉人妖| 亚洲精品视频一区| 亚洲国产精品成人| 国内久久婷婷综合| 国产精品免费观看视频| 欧美日韩精品在线观看| 免费永久网站黄欧美| 久久综合999| 久久久久久亚洲精品中文字幕 | 久久精品亚洲一区| 亚洲在线国产日韩欧美| 一区二区三区四区五区在线| 亚洲精品视频啊美女在线直播| 欧美激情久久久久| 毛片精品免费在线观看| 久久综合伊人77777尤物| 久久久久久久久久久久久女国产乱| 校园春色综合网| 午夜精品久久久久久久男人的天堂| 一区二区三区视频在线播放| 一本大道av伊人久久综合| 一本色道久久综合亚洲二区三区| 日韩视频一区二区在线观看| 亚洲美女91| 一本大道久久a久久精二百| 日韩亚洲精品视频| 99成人精品| 一区二区三区回区在观看免费视频 | 伊人久久av导航| 亚洲国产三级网| 日韩午夜av在线| 亚洲一区二区三区欧美| 欧美一级欧美一级在线播放| 久久狠狠一本精品综合网| 久久久久久久国产| 免费日韩成人| 亚洲精品视频在线| 99视频热这里只有精品免费| 亚洲宅男天堂在线观看无病毒| 亚洲欧美视频在线观看| 久久久久久免费| 欧美国产日韩一二三区| 国产精品激情偷乱一区二区∴| 国产精品一区视频网站| 黄色av成人| 一本久道久久综合狠狠爱| 亚洲一区三区视频在线观看| 欧美在线亚洲在线| 欧美jizzhd精品欧美巨大免费| 亚洲黄色成人| 亚洲欧美在线x视频| 久久永久免费| 国产精品99免视看9| 国内久久婷婷综合| 999在线观看精品免费不卡网站| 亚洲综合视频一区| 免费日韩精品中文字幕视频在线| 亚洲美女精品久久| 欧美亚洲专区| 欧美激情一区二区久久久| 国产精品乱子久久久久| 在线看不卡av| 亚洲欧美日韩在线观看a三区 | 久久精品二区亚洲w码| 欧美91大片| 国产精品大片wwwwww| 在线观看的日韩av| 亚洲一区二区少妇| 免费成人av在线| 亚洲一级在线观看| 欧美成人精品福利| 国产欧美91| 一区二区三区高清在线| 母乳一区在线观看| 亚洲欧美成人精品| 欧美精品一区在线播放| 国色天香一区二区| 亚洲天堂激情| 亚洲国产精品久久久久秋霞蜜臀| 亚洲一区二区少妇| 欧美日韩国产bt| 亚洲激情网站| 久久综合色婷婷| 亚洲一区综合| 欧美日韩一区二区三区免费看 | 欧美成人tv| 狠狠色丁香久久综合频道| 亚洲欧美国产高清va在线播| 91久久一区二区| 久久综合亚州| 亚洲第一在线综合在线| 久久精品视频免费| 亚洲午夜激情免费视频| 欧美日韩一区二区在线观看| 亚洲黄色毛片| 免费成人av| 久久久久欧美| 国语自产精品视频在线看一大j8| 午夜精品理论片| 亚洲视频日本| 国产精品高潮呻吟| 亚洲一区二区免费| 一区二区三区 在线观看视频| 欧美精品91| 亚洲最快最全在线视频| 亚洲精品极品| 欧美精品一区二区三区久久久竹菊| 亚洲国产天堂久久国产91| 老牛嫩草一区二区三区日本 | 国产欧美精品| 久久精品日韩欧美| 欧美一区二区精品| 国产一区久久| 久久久夜夜夜| 久久人人爽人人爽爽久久| 精品盗摄一区二区三区| 看欧美日韩国产| 久久亚洲午夜电影| 亚洲日韩成人| 一道本一区二区| 国产精品亚洲综合一区在线观看| 午夜欧美大尺度福利影院在线看| 亚洲综合日韩| 韩国三级电影一区二区| 老色批av在线精品| 久热成人在线视频| 一本久道久久综合婷婷鲸鱼| 一区二区三区成人| 国产欧美精品va在线观看| 久久久久久久一区二区三区| 久久阴道视频| 亚洲一区二区三区四区在线观看| 亚洲视频一区二区在线观看| 国产日韩欧美综合精品| 看欧美日韩国产| 欧美剧在线观看| 久久福利精品| 农夫在线精品视频免费观看| 一区二区不卡在线视频 午夜欧美不卡在| 洋洋av久久久久久久一区| 国产日本欧美一区二区三区在线 | 午夜精品电影| 久久久夜精品| 亚洲五月六月| 久久免费一区| 亚洲一区二区三区涩| 久久成人免费电影| 日韩午夜在线观看视频| 亚洲欧美日韩国产成人精品影院| 伊人精品成人久久综合软件| 亚洲精品综合在线| 国产字幕视频一区二区|