woaidongmao

文章均收錄自他人博客，但不喜標題前加-[轉(zhuǎn)貼]，因其丑陋，見諒！~

隨筆 - 1469, 文章 - 0, 評論 - 661, 引用 - 0

數(shù)據(jù)加載中……

Larbin 一種高效的搜索引擎爬蟲工具

我就在這里對larbin做一個簡單的介紹。因為相對于復(fù)雜的系統(tǒng)來講，larbin具有高度的可配置性，和良好的工作效率。１］larbin的簡介
larbin是一種開源的網(wǎng)絡(luò)爬蟲/網(wǎng)絡(luò)蜘蛛，由法國的年輕人 Sébastien Ailleret獨立開發(fā)。larbin目的是能夠跟蹤頁面的url進行擴展的抓取，最后為搜索引擎提供廣泛的數(shù)據(jù)來源。

Larbin只是一個爬蟲，也就是說larbin只抓取網(wǎng)頁，至于如何parse的事情則由用戶自己完成。另外，如何存儲到數(shù)據(jù)庫以及建立索引的事情 larbin也不提供。

latbin最初的設(shè)計也是依據(jù)設(shè)計簡單但是高度可配置性的原則，因此我們可以看到，一個簡單的larbin的爬蟲可以每天獲取５００萬的網(wǎng)頁，實在是非常高效。

2] Larbin的性能特征
高效是我對 larbin 的評價。
今年四月份的時候我對larbin的性能做過一個測試，luliang.dhs.org是我自己常用的服務(wù)器，CPU 為1G，內(nèi)存512，其它的性能一般，因為是三年前購置的。

我將我自己的網(wǎng)頁六翼作為入口，運行larbin進行５層內(nèi)的url的抓取。

當時紀錄的一些數(shù)據(jù)：
Internet IO: 500-700k/per second （我想大約我的網(wǎng)絡(luò)下載的瓶頸了吧）
CPU top: 5%-15%
disk consume: 1M/s ，基本上一個小時爬 3個G 的網(wǎng)頁。差不多20萬的頁面
url 解析: 200萬－300萬每小時

3] larbin 的作用
很多人初見 larbin 不知道從哪里下手，那么我來簡單介紹一下 larbin 的功能和實際應(yīng)用。
1. larbin 獲取單個、確定網(wǎng)站的所有聯(lián)結(jié)，甚至可以鏡像一個網(wǎng)站。
2. larbin建立 url 列表群，例如針對所有的網(wǎng)頁進行 url retrive后，進行xml的聯(lián)結(jié)的獲取。或者是 mp3 。
3. larbin 定制后可以作為搜索引擎的信息的來源（例如可以將抓取下來的網(wǎng)頁每2000一組存放在一系列的目錄結(jié)構(gòu)里面）。

總歸，larbin應(yīng)當是一個被廣大搜索引擎愛好者應(yīng)當引起注意的一個產(chǎn)品，雖然其功能逐漸被 Nutch 所接受和替代，但是其在爬蟲上的優(yōu)美設(shè)計的確值得稱道。

posted on 2009-01-04 14:12 肥仔閱讀(4533) 評論(2) 編輯收藏引用所屬分類: Web-后臺

# re: Larbin 一種高效的搜索引擎爬蟲工具回復(fù) 更多評論

你這樣描述，雖然對這個larbin有了進一步的了解，但是對于像我這樣的linux初學者，對這個larbin還是一籌莫展，要是可以制作個使用教程該多好呀，呵呵。
另外問下這個larbin是不是增量式的爬蟲呢？謝謝~

2010-03-07 16:58 | 一段匯編

# re: Larbin 一種高效的搜索引擎爬蟲工具 回復(fù) 更多評論

文章均收錄自他人博客，但不喜標題前加-[轉(zhuǎn)貼]，因其丑陋，見諒！~
汗，那起碼也要加上原文出處呀~ 譬如此文呢？

2010-03-07 17:01 | 一段匯編

刷新評論列表

只有注冊用戶登錄后才能發(fā)表評論。


相關(guān)文章: Godaddy的DNS被屏蔽的解決辦法淺談URL最后帶斜杠對SEO優(yōu)化的影響 URL 重定向. HTTP 301 理解HTTP協(xié)議中的"Transfer-Encoding: chunked" Nginx 源碼分析 ---- Fastcgi 模塊(上)/(下) FastCGI中文規(guī)范 Fastcgi協(xié)議定義解釋與說明 FastCGI協(xié)議報文的分析從 RoR部署看緩沖原理及fastcgi解析 Fast CGI 工作原理

網(wǎng)站導(dǎo)航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

# re: Larbin 一種高效的搜索引擎爬蟲工具回復(fù) 更多評論

# re: Larbin 一種高效的搜索引擎爬蟲工具 回復(fù) 更多評論

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

woaidongmao

Larbin 一種高效的搜索引擎爬蟲工具

評論

導(dǎo)航

常用鏈接

留言簿(10)

隨筆分類

隨筆檔案

搜索

最新評論

閱讀排行榜

評論排行榜

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

woaidongmao

Larbin 一種高效的搜索引擎爬蟲工具

評論

# re: Larbin 一種高效的搜索引擎爬蟲工具 回復(fù) 更多評論

# re: Larbin 一種高效的搜索引擎爬蟲工具 回復(fù) 更多評論

導(dǎo)航

常用鏈接

留言簿(10)

隨筆分類

隨筆檔案

搜索

最新評論

閱讀排行榜

評論排行榜

# re: Larbin 一種高效的搜索引擎爬蟲工具回復(fù) 更多評論

# re: Larbin 一種高效的搜索引擎爬蟲工具回復(fù) 更多評論