Posted on 2005-12-07 13:38
inwind 閱讀(1050)
評論(0) 編輯 收藏 引用 所屬分類:
搜索引擎
http://larbin.sourceforge.net/index-eng.html
這是larbin的主頁,感情又是sourceforge上的開源項(xiàng)目啊。
開源就是好,前輩們的代碼,經(jīng)驗(yàn),可以為后來者鋪平道路,同時(shí),開源又是練手的最佳途徑。這一段時(shí)間太忙了,等空下來,也要去看看sourceforg上面有沒有合適的項(xiàng)目,參加參加
1]larbin的簡介
larbin是一種開源的網(wǎng)絡(luò)爬蟲/網(wǎng)絡(luò)蜘蛛,由法國的年輕人 Sébastien Ailleret獨(dú)立開發(fā)。larbin目的是能夠跟蹤頁面的url進(jìn)行擴(kuò)展的抓取,最后為搜索引擎提供廣泛的數(shù)據(jù)來源。
Larbin只是一個(gè)爬蟲,也就是說larbin只抓取網(wǎng)頁,至于如何parse的事情則由用戶自己完成。另外,如何存儲到數(shù)據(jù)庫以及建立索引的事情 larbin也不提供。
latbin最初的設(shè)計(jì)也是依據(jù)設(shè)計(jì)簡單但是高度可配置性的原則,因此我們可以看到,一個(gè)簡單的larbin的爬蟲可以每天獲取500萬的網(wǎng)頁,實(shí)在是非常高效。
2] Larbin的性能特征
高效是我對 larbin 的評價(jià)。
今年四月份的時(shí)候我對larbin的性能做過一個(gè)測試,luliang.dhs.org是我自己常用的服務(wù)器,CPU 為1G,內(nèi)存512,其它的性能一般,因?yàn)槭侨昵百徶玫摹?/P>
我將我自己的網(wǎng)頁 六翼作為入口,運(yùn)行l(wèi)arbin進(jìn)行5層內(nèi)的url的抓取。
當(dāng)時(shí)紀(jì)錄的一些數(shù)據(jù):
Internet IO: 500-700k/per second (我想大約我的網(wǎng)絡(luò)下載的瓶頸了吧)
CPU top: 5%-15%
disk consume: 1M/s ,基本上一個(gè)小時(shí)爬 3個(gè)G 的網(wǎng)頁。差不多20萬的頁面
url 解析: 200萬-300萬每小時(shí)
3] larbin 的作用
很多人初見 larbin 不知道從哪里下手,那么我來簡單介紹一下 larbin 的功能和實(shí)際應(yīng)用。
1. larbin 獲取單個(gè)、確定網(wǎng)站的所有聯(lián)結(jié),甚至可以鏡像一個(gè)網(wǎng)站。
1. larbin 獲取單個(gè)、確定網(wǎng)站的所有聯(lián)結(jié),甚至可以鏡像一個(gè)網(wǎng)站。
2. larbin建立 url 列表群,例如針對所有的網(wǎng)頁進(jìn)行 url retrive后,進(jìn)行xml的聯(lián)結(jié)的獲取。或者是 mp3 。
3. larbin 定制后可以作為搜索引擎的信息的來源(例如可以將抓取下來的網(wǎng)頁每2000一組存放在一系列的目錄結(jié)構(gòu)里面)。
總歸,larbin應(yīng)當(dāng)是一個(gè)被廣大搜索引擎愛好者應(yīng)當(dāng)引起注意的一個(gè)產(chǎn)品,雖然其功能逐漸被 Nutch 所接受和替代,但是其在爬蟲上的優(yōu)美設(shè)計(jì)的確值得稱道。
Posted at December 24, 2004 02:35 AM by Liang at 02