• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>

            woaidongmao

            文章均收錄自他人博客,但不喜標(biāo)題前加-[轉(zhuǎn)貼],因其丑陋,見諒!~
            隨筆 - 1469, 文章 - 0, 評論 - 661, 引用 - 0
            數(shù)據(jù)加載中……

            Larbin 一種高效的搜索引擎爬蟲工具

            我就在這里對larbin做一個簡單的介紹。因為相對于復(fù)雜的系統(tǒng)來講,larbin具有高度的可配置性,和良好的工作效率。1]larbin的簡介
            larbin
            是一種開源的網(wǎng)絡(luò)爬蟲/網(wǎng)絡(luò)蜘蛛,由法國的年輕人 Sébastien Ailleret獨立開發(fā)。larbin目的是能夠跟蹤頁面的url進行擴展的抓取,最后為搜索引擎提供廣泛的數(shù)據(jù)來源。

            Larbin只是一個爬蟲,也就是說larbin只抓取網(wǎng)頁,至于如何parse的事情則由用戶自己完成。另外,如何存儲到數(shù)據(jù)庫以及建立索引的事情 larbin也不提供。

            latbin最初的設(shè)計也是依據(jù)設(shè)計簡單但是高度可配置性的原則,因此我們可以看到,一個簡單的larbin的爬蟲可以每天獲取500萬的網(wǎng)頁,實在是非常高效。

            2] Larbin的性能特征
            高效是我對 larbin 的評價。
            今年四月份的時候我對larbin的性能做過一個測試,luliang.dhs.org是我自己常用的服務(wù)器,CPU 1G,內(nèi)存512,其它的性能一般,因為是三年前購置的。

            我將我自己的網(wǎng)頁 六翼作為入口,運行larbin進行5層內(nèi)的url的抓取。

            當(dāng)時紀錄的一些數(shù)據(jù):
            Internet IO: 500-700k/per second
            (我想大約我的網(wǎng)絡(luò)下載的瓶頸了吧)
            CPU top: 5%-15%
            disk consume: 1M/s
            ,基本上一個小時爬 3G 的網(wǎng)頁。差不多20萬的頁面
            url
            解析: 200萬-300萬每小時

            3] larbin 的作用
            很多人初見 larbin 不知道從哪里下手,那么我來簡單介紹一下 larbin 的功能和實際應(yīng)用。
            1. larbin
            獲取單個、確定網(wǎng)站的所有聯(lián)結(jié),甚至可以鏡像一個網(wǎng)站。
            2. larbin
            建立 url 列表群,例如針對所有的網(wǎng)頁進行 url retrive后,進行xml的聯(lián)結(jié)的獲取。或者是 mp3
            3. larbin
            定制后可以作為搜索引擎的信息的來源(例如可以將抓取下來的網(wǎng)頁每2000一組存放在一系列的目錄結(jié)構(gòu)里面)。

            總歸,larbin應(yīng)當(dāng)是一個被廣大搜索引擎愛好者應(yīng)當(dāng)引起注意的一個產(chǎn)品,雖然其功能逐漸被 Nutch 所接受和替代,但是其在爬蟲上的優(yōu)美設(shè)計的確值得稱道。

             

            posted on 2009-01-04 14:12 肥仔 閱讀(4518) 評論(2)  編輯 收藏 引用 所屬分類: Web-后臺

            評論

            # re: Larbin 一種高效的搜索引擎爬蟲工具  回復(fù)  更多評論   

            你這樣描述,雖然對這個larbin有了進一步的了解,但是對于像我這樣的linux初學(xué)者,對這個larbin還是一籌莫展,要是可以制作個使用教程該多好呀,呵呵。
            另外問下這個larbin是不是增量式的爬蟲呢?謝謝~
            2010-03-07 16:58 | 一段匯編

            # re: Larbin 一種高效的搜索引擎爬蟲工具  回復(fù)  更多評論   

            文章均收錄自他人博客,但不喜標(biāo)題前加-[轉(zhuǎn)貼],因其丑陋,見諒!~
            汗,那起碼也要加上原文出處呀~ 譬如此文呢?
            2010-03-07 17:01 | 一段匯編
            久久99精品久久久久久动态图| 精品水蜜桃久久久久久久| 久久精品国产亚洲Aⅴ香蕉| 青青草国产精品久久| 久久超碰97人人做人人爱| 精品蜜臀久久久久99网站| 久久综合噜噜激激的五月天| 日韩AV无码久久一区二区| 亚洲国产精品久久电影欧美| 亚洲国产精品无码久久| 婷婷久久香蕉五月综合加勒比| 无码超乳爆乳中文字幕久久| 日产精品久久久一区二区| 久久国产精品99精品国产| 99久久精品国产麻豆| 青青草原综合久久大伊人精品| 青青青国产精品国产精品久久久久| 久久精品国产精品国产精品污| 91精品国产91久久久久久青草 | 日韩电影久久久被窝网| 综合久久精品色| 日韩久久久久久中文人妻| 国内精品久久久久久野外| 久久久久噜噜噜亚洲熟女综合| 成人综合久久精品色婷婷| 久久综合狠狠综合久久| 日本精品久久久久中文字幕| 久久亚洲中文字幕精品一区四| 亚洲AV无码久久| 国产精品免费久久久久久久久 | 国产精品成人久久久| 久久水蜜桃亚洲av无码精品麻豆| 久久96国产精品久久久| 久久综合久久综合亚洲| 97久久超碰成人精品网站| 日本久久久久久久久久| 97r久久精品国产99国产精| 久久亚洲天堂| 青青草原综合久久| 久久久久久人妻无码| 久久久久久A亚洲欧洲AV冫|