inwind

posts - 12, comments - 4, trackbacks - 0, articles - 36

Larbin 一種高效的搜索引擎爬蟲工具

Posted on 2005-12-07 13:38 inwind 閱讀(1071) 評論(0) 編輯收藏引用所屬分類: 搜索引擎

http://larbin.sourceforge.net/index-eng.html
這是larbin的主頁，感情又是sourceforge上的開源項目啊。
開源就是好，前輩們的代碼，經驗，可以為后來者鋪平道路，同時，開源又是練手的最佳途徑。這一段時間太忙了，等空下來，也要去看看sourceforg上面有沒有合適的項目，參加參加

１］larbin的簡介
larbin是一種開源的網絡爬蟲/網絡蜘蛛，由法國的年輕人 Sébastien Ailleret獨立開發。larbin目的是能夠跟蹤頁面的url進行擴展的抓取，最后為搜索引擎提供廣泛的數據來源。

Larbin只是一個爬蟲，也就是說larbin只抓取網頁，至于如何parse的事情則由用戶自己完成。另外，如何存儲到數據庫以及建立索引的事情 larbin也不提供。

latbin最初的設計也是依據設計簡單但是高度可配置性的原則，因此我們可以看到，一個簡單的larbin的爬蟲可以每天獲取５００萬的網頁，實在是非常高效。

2] Larbin的性能特征
高效是我對 larbin 的評價。
今年四月份的時候我對larbin的性能做過一個測試，luliang.dhs.org是我自己常用的服務器，CPU 為1G，內存512，其它的性能一般，因為是三年前購置的。

我將我自己的網頁六翼作為入口，運行larbin進行５層內的url的抓取。

當時紀錄的一些數據：
Internet IO: 500-700k/per second （我想大約我的網絡下載的瓶頸了吧）
CPU top: 5%-15%
disk consume: 1M/s ，基本上一個小時爬 3個G 的網頁。差不多20萬的頁面
url 解析: 200萬－300萬每小時

3] larbin 的作用
很多人初見 larbin 不知道從哪里下手，那么我來簡單介紹一下 larbin 的功能和實際應用。
1. larbin 獲取單個、確定網站的所有聯結，甚至可以鏡像一個網站。
1. larbin 獲取單個、確定網站的所有聯結，甚至可以鏡像一個網站。
2. larbin建立 url 列表群，例如針對所有的網頁進行 url retrive后，進行xml的聯結的獲取。或者是 mp3 。
3. larbin 定制后可以作為搜索引擎的信息的來源（例如可以將抓取下來的網頁每2000一組存放在一系列的目錄結構里面）。

總歸，larbin應當是一個被廣大搜索引擎愛好者應當引起注意的一個產品，雖然其功能逐漸被 Nutch 所接受和替代，但是其在爬蟲上的優美設計的確值得稱道。

Posted at December 24, 2004 02:35 AM by Liang at 02

只有注冊用戶登錄后才能發表評論。


相關文章: Google 招聘的21道題目 Larbin 一種高效的搜索引擎爬蟲工具羊群效應：搜索引擎暗規則之四 (zz) 破窗理論：搜索引擎暗規則之三 (zz) 20 80 法則：搜索引擎暗規則之二(zz) 馬太效應：搜索引擎暗規則之一(zz) Google的啟示搜索引擎的緩存機制zz Google網頁加速器的工作原理集中/分布式搜索引擎的4種設計方案zz

網站導航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

inwind

導航

常用鏈接

留言簿(1)

隨筆分類

隨筆檔案

文章分類

文章檔案

收藏夾

C++

Linux

數據挖掘與文本分類

搜索引擎

搜索

最新評論

閱讀排行榜

評論排行榜

Larbin 一種高效的搜索引擎爬蟲工具