我就在這里對larbin做一個簡單的介紹。因為相對于復雜的系統來講,larbin具有高度的可配置性,和良好的工作效率。1]larbin的簡介
larbin是一種開源的網絡爬蟲/網絡蜘蛛,由法國的年輕人 Sébastien Ailleret獨立開發。larbin目的是能夠跟蹤頁面的url進行擴展的抓取,最后為搜索引擎提供廣泛的數據來源。
Larbin只是一個爬蟲,也就是說larbin只抓取網頁,至于如何parse的事情則由用戶自己完成。另外,如何存儲到數據庫以及建立索引的事情 larbin也不提供。
latbin最初的設計也是依據設計簡單但是高度可配置性的原則,因此我們可以看到,一個簡單的larbin的爬蟲可以每天獲取500萬的網頁,實在是非常高效。
2] Larbin的性能特征
高效是我對 larbin 的評價。
今年四月份的時候我對larbin的性能做過一個測試,luliang.dhs.org是我自己常用的服務器,CPU 為1G,內存512,其它的性能一般,因為是三年前購置的。
我將我自己的網頁 六翼作為入口,運行larbin進行5層內的url的抓取。
當時紀錄的一些數據:
Internet IO: 500-700k/per second (我想大約我的網絡下載的瓶頸了吧)
CPU top: 5%-15%
disk consume: 1M/s ,基本上一個小時爬 3個G 的網頁。差不多20萬的頁面
url 解析: 200萬-300萬每小時
3] larbin 的作用
很多人初見 larbin 不知道從哪里下手,那么我來簡單介紹一下 larbin 的功能和實際應用。
1. larbin 獲取單個、確定網站的所有聯結,甚至可以鏡像一個網站。
2. larbin建立 url 列表群,例如針對所有的網頁進行 url retrive后,進行xml的聯結的獲取。或者是 mp3 。
3. larbin 定制后可以作為搜索引擎的信息的來源(例如可以將抓取下來的網頁每2000一組存放在一系列的目錄結構里面)。
總歸,larbin應當是一個被廣大搜索引擎愛好者應當引起注意的一個產品,雖然其功能逐漸被 Nutch 所接受和替代,但是其在爬蟲上的優美設計的確值得稱道。