青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

woaidongmao

文章均收錄自他人博客,但不喜標題前加-[轉貼],因其丑陋,見諒!~
隨筆 - 1469, 文章 - 0, 評論 - 661, 引用 - 0
數據加載中……

larbin結構分析

互聯網是一個龐大的非結構化的數據庫,將數據有效的檢索并組織呈現出來有著巨大的應用前景,尤其是類似RSS的以XML為基礎的結構化的數據越來越多,內
容的組織方式越來越靈活,檢索組織并呈現會有著越來越廣泛的應用范圍,同時在時效性和可讀性上也會有越來越高的要求。這一切的基礎是爬蟲,信息的來源入
口。一個高效,靈活可擴展的爬蟲對以上應用都有著無可替代的重要意義。
       
要設計一個爬蟲,首先需要考慮的效率。對于網絡而言,基于TCP/IP的通信編程有幾種方法。
第一種是單線程阻塞,這是最簡單也最容易實現的一種,一個例子:在Shell中通過curlpcregrep等一系統命令可以直接實現一個簡單的
爬蟲,但同時它的效率問題也顯而易見:由于是阻塞方式讀取,dns解析,建立連接,寫入請求,讀取結果這些步驟上都會產生時間的延遲,從而無法有效的利用
服務器的全部資源。
第二種是多線程阻塞。建立多個阻塞的線程,分別請求不同的url。相對于第一種方法,它可以更有效的利用機器的資源,特別是網絡資源,因為無數線程
在同時工作,所以網絡會比較充分的利用,但同時對機器CPU資源的消耗也是比較大,在用戶級多線程間的頻繁切換對于性能的影響已經值得我們考慮。
第三種是單線程非阻塞。這是目前使用的比較多的一種做法,無論在client還是server都有著廣泛的應用。在一個線程內打開多個非阻塞的連
接,通過poll/epoll/select對連接狀態進行判斷,在第一時間響應請求,不但充分利用了網絡資源,同時也將本機CPU資源的消耗降至最低。
這種方法需要對dns請求,連接,讀寫操作都采用異步非阻塞操作,其中第一種比較復雜,可以采用adns作為解決方案,后面三個操作相對簡單可以直接在程
序內實現。
效率問題解決后就需要考慮具體的設計問題了。
url
肯定需要一個單獨的類進行處理,包括顯示,分析url,得到主機,端口,文件數據。
然后需要對url進行排重,需要一個比較大的url Hash表。
如果還要對網頁內容進行排重,則還需要一個Document Hash表。
爬過的url需要記錄下來,由于量比較大,我們將它寫到磁盤上,所以還需要一個FIFO的類(記作urlsDisk)
現在需要爬的url同樣需要一個FIFO類來處理,重新開始時,url會從定時從爬過的url
FIFO
里取出來,寫到這個FIFO里。正在運行的爬蟲需要從這個FIFO里讀數據出來,加入到主機類的url列表里。當然,也會從前一個FIFO里直接
url出來,不過優先級應該比這個里面出來的url低,畢竟是已經爬過的。
爬蟲一般是對多個網站進行爬取,但在同時站點內dns的請求可以只做一次,這就需要將主機名獨立于url,單獨有一個類進行處理。
主機名解析完成后需要有一個解析完成的IP類與之應用,用于connect的時候使用。
HTML
文檔的解析類也要有一個,用來分析網頁,取出里面的url,加入到urlsDisk
再加上一些字符串,調度類,一個簡單的爬蟲基本上就完成了。
以上基本上是Larbin的設計思路,Larbin在具體實現上還有一些特殊的處理,例如帶了一個webserver,以及對特殊文件的處理。
Larbin
有一點設計不不太好,就是慢的訪問會越來越多,占用大量的連接,需要改進,另外如果對于大規模的爬蟲,這僅僅實現了抓取的部分,要分布式的擴
展還需要增加url的集中管理與調度以及前臺spider的分布式算法。
Larbin
網站爬蟲簡明使用說明
larbin
是一種爬蟲工具,我也是前段時間網上看到 Larbin 一種高效的搜索引擎爬蟲工具 一文時才知道有這么個東西,初步認定,我比較喜歡這個
工具(比起nutchcrawl來說),因為它是C++寫的,類似C嘛,我熟,可以自己改改,順便學習一下C++(幾年來的經驗告訴我說:改別人的東西
來學一種技術比從頭寫helloworld快很多)。于是開始了我艱辛的larbin試用之旅。
  回頭看看自己遇到的問題都是由于沒認真看文檔引起的,唉,老毛病了。下次即使是E文的也得好好看,不能盲目的試,浪費時間。 
  larbin官方地址:http://larbin.sourceforge.net/index-eng.html



  一,編譯 
  這也好說,whahahaha,那是!因為從官方網站下下來的代碼不能編譯通過(linux gcc)



  ./configure 
  make



  gcc -O3 -Wall -D_REENTRANT -c -o parse.o parse.c 
  parse.c:115: error: conflicting types for ’adns__parse_domain’ 



  internal.h:571: error: previous declaration of ’adns__parse_domain’ was here



  parse.c:115: error: conflicting types for ’adns__parse_domain’
  internal.h:571: error: previous declaration of ’adns__parse_domain’ was here 



  gmake[1]: *** [parse.o] 錯誤
  gmake[1]: Leaving directory `/home/leo/leo/larbin-2.6.3/adns’
  make: *** [all] 錯誤
  函數原型和定義不一致這個好改:



  打開./adns/internal.h文件,把568571行直接注釋掉就行了。  
  二,運行 
  這個就不說了,./larbin就運行了,larbin.conf中先進行配置就可以了,這個配置就不說了。。 
  運行后可以http://host:8081 看運行狀態,不錯的想法。 larbin.conf中有個:inputPort 1976配置,
就是可以運行時增加要抓取的URL,這個想法非常好,可是?怎么加呢?象起初那樣:http://host:1976那樣是不行的,報錯???試了好久沒
結果,最后GDB跟蹤了一下,唉,原來直接telnet host 1976進行增加就可以了。后來看到文檔里寫的親親楚楚,暈倒。。。。。 



  三,結果
  哈哈,下班后找了臺機子跑了起來,那晚睡覺的時候都夢見自己的搜索引擎趕GOOGLEBAIDU了,那個興奮啊。



  第二天上班的時候取看結果,發現目錄下除了些fifo*文件外什么都沒有,那個郁悶。沒辦法啊,再看文檔 How to customize Larbin 發現這么段說明: 
  The first thing you can define is the module you want to use for
ouput. This defines what you want to do with the pages larbin gets.
Here are the different options :



  DEFAULT_OUTPUT : This module mainly does nothing, except statistics. 
  SIMPLE_SAVE : This module saves pages on disk. It stores 2000 files per directory (with an index).



  MIRROR_SAVE : This module saves pages on disk with the hierarchy of the site they come from. It uses one directory per site. 
  STATS_OUTPUT : This modules makes some stats on the pages. In
order to see the results, see http://localhost:8081/output.html. 
  靠,默認什么都沒輸出,于是認真的看了官方網站上僅有的兩個文檔,修改了options.h再編譯,終于有結果了。



  我的option中改了:



  SIMPLE_SAVE 簡單輸出一個目錄兩千個文件,包含索引。 
  CGILEVEL0 處理服務器端程序,也就是但url中包含? & = 之類的querString時也處理。 
  NO_DUP



  其余可根據各自需要修改,詳見: How to customize Larbin 一文。



  四,問題



  在使用過程中發現,在抓網頁的時候,如果URL中包含未編碼(encodurl)中文時,無法抓取,簡單的看了一下在:
src/utils/url.cc
中的fileNormalize 有涉及。于是寫了個encodurl函數加在url類的構造函數里,問題就解決了。



  由于需要比較好的可定制性,這個工具似乎還不大滿足我的需求,最終我沒使用她,而是自己用perlWWW:SimpleRobot的基礎上搞了個適合我的。。再說了perl在字符竄處理上應該不比C++慢,總的來說那個小工具性能還不錯。。呵呵。



  不過還是把這些寫出來,給沒看文檔的朋友(希望很少),也警示自己一定要認真看文檔。

posted on 2009-01-04 14:10 肥仔 閱讀(2213) 評論(5)  編輯 收藏 引用 所屬分類: Web-后臺

評論

# re: larbin結構分析  回復  更多評論   

Everyone at school would follow your best data connected with this topic to compose the high quality <a href="http://www.manyessays.com">book reports</a> or even <a href="http://www.manyessays.com/essays/asia">asia essays paper</a>.
2010-07-09 02:17 | LuciaCURTIS

# re: larbin結構分析  回復  更多評論   

Hazing Prevention Week, which occurred from Monday, Sept. 20, through Friday, Sept. 24, on campus, encouraged students to be mindful of the University of Dayton's steps to prevent hazing.
http://www.thomassabosalecharm.com/
2010-11-08 15:07 | huanghuang
青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            欧美日韩一区不卡| 欧美激情aaaa| 激情av一区| 影音先锋中文字幕一区| 一区二区三区在线视频播放| 娇妻被交换粗又大又硬视频欧美| 一区国产精品| 日韩视频一区二区在线观看 | 999亚洲国产精| 中文精品99久久国产香蕉| 香蕉免费一区二区三区在线观看| 久久精品一本| 亚洲激情在线观看视频免费| 亚洲精品久久久久久久久久久久| 亚洲香蕉在线观看| 久久久久久久一区二区三区| 欧美激情中文字幕乱码免费| 欧美午夜一区| 亚洲国产99精品国自产| 亚洲亚洲精品在线观看 | 在线精品视频一区二区三四| a4yy欧美一区二区三区| 久久精品女人的天堂av| 亚洲激情视频在线观看| 欧美亚洲在线| 欧美三级免费| 在线视频成人| 欧美在线1区| 亚洲精品免费在线播放| 久久激情一区| 国产精品一区二区在线| 亚洲精品免费网站| 久久九九国产精品| 在线亚洲精品| 欧美经典一区二区三区| 黄色精品一区二区| 欧美一区二区视频免费观看| 亚洲精品午夜| 亚洲第一精品电影| 亚洲视频一区在线| 欧美一区二区三区婷婷月色| 亚洲欧洲免费视频| 久久久久久穴| 国产偷国产偷亚洲高清97cao| 一区二区不卡在线视频 午夜欧美不卡在 | 六月天综合网| 激情自拍一区| 久久午夜电影网| 欧美亚洲网站| 国产欧美精品久久| 欧美一区二区三区在线观看| 亚洲精品乱码久久久久久按摩观| 麻豆成人在线| 亚洲国产日韩一级| 免费欧美日韩| 久久久天天操| 亚洲国产精品第一区二区| 久久久久久久精| 久久久99国产精品免费| 精品1区2区| 欧美成人精品一区| 久热精品在线视频| 亚洲国产一二三| 亚洲激情校园春色| 欧美日韩在线播放一区| 亚洲在线成人精品| 亚洲欧美一区二区视频| 国产午夜亚洲精品理论片色戒| 久久精品日产第一区二区| 久久精品成人一区二区三区| 一色屋精品视频免费看| 欧美激情第六页| 欧美日韩伦理在线免费| 亚洲一区二区伦理| 亚洲影院免费观看| 国产亚洲欧美日韩一区二区| 久久久之久亚州精品露出| 久久看片网站| aa国产精品| 亚洲欧美一区二区原创| 一色屋精品视频免费看| 亚洲人成网站在线观看播放| 欧美日韩另类丝袜其他| 久久成人免费日本黄色| 久久影音先锋| 亚洲自拍偷拍视频| 久久久www成人免费无遮挡大片| 1024国产精品| 一区二区精品| 亚洲成色777777女色窝| av不卡在线观看| 好吊一区二区三区| 亚洲精品国产欧美| 国模精品娜娜一二三区| 亚洲美女在线视频| 狠狠色狠狠色综合| 一本一本久久a久久精品综合麻豆| 国产婷婷精品| 日韩一区二区高清| 久久久精品午夜少妇| 欧美三级午夜理伦三级中文幕 | 欧美大片在线看免费观看| 欧美日韩另类丝袜其他| 免费久久精品视频| 国产精品国产自产拍高清av王其| 蜜臀av性久久久久蜜臀aⅴ四虎| 欧美午夜精品理论片a级按摩| 嫩草伊人久久精品少妇av杨幂| 欧美涩涩视频| 91久久夜色精品国产网站| 国内精品久久久久影院优| 一区电影在线观看| 亚洲久久视频| 麻豆精品在线播放| 久久久久一区二区| 国产伦精品一区二区三区免费 | 亚洲一区二区三区免费观看| 噜噜噜噜噜久久久久久91| 久久久精品国产免费观看同学| 欧美日韩在线视频首页| 亚洲国产精品一区二区久| 国产综合香蕉五月婷在线| 亚洲特级毛片| 亚洲天堂成人在线观看| 欧美精品在线一区| 亚洲黄色有码视频| 91久久国产综合久久| 久久午夜电影| 蜜桃久久精品一区二区| 国产综合av| 久久激情网站| 免费亚洲一区二区| 亚洲国产岛国毛片在线| 免费欧美电影| 亚洲精品国精品久久99热一| 日韩亚洲不卡在线| 欧美金8天国| 日韩小视频在线观看专区| 一区二区三区成人精品| 欧美日韩精品欧美日韩精品 | 美女尤物久久精品| 欧美电影在线播放| 亚洲高清免费在线| 乱码第一页成人| 亚洲韩日在线| 亚洲一区二区三| 国产精品亚洲综合| 久久成人羞羞网站| 欧美成人第一页| 亚洲精品网站在线播放gif| 欧美激情一区二区三区高清视频| 亚洲精品日韩在线| 欧美一级理论性理论a| 国精产品99永久一区一区| 蜜乳av另类精品一区二区| 91久久精品一区二区别| 在线一区二区三区四区五区| 国产精品成人一区二区网站软件| 亚洲一区二区三区在线视频| 久热精品视频在线免费观看 | 一本色道久久| 亚洲理伦电影| 久久综合九色九九| 久久久久久欧美| 曰韩精品一区二区| 欧美电影免费观看| 欧美精品导航| 小黄鸭精品密入口导航| 亚洲综合成人婷婷小说| 激情久久综合| 日韩视频免费观看高清完整版| 欧美精品一区二区三区久久久竹菊 | 亚洲欧洲偷拍精品| 欧美日韩国产电影| 欧美主播一区二区三区| 免费不卡亚洲欧美| 久久久视频精品| 欧美日韩国产在线播放网站| 麻豆av一区二区三区久久| 国产精品久久久久免费a∨大胸| 久久精品99无色码中文字幕 | 亚洲天堂成人在线视频| 一区精品在线播放| 午夜欧美精品久久久久久久| 日韩一级裸体免费视频| 久久综合九九| 欧美伊人久久| 国产精品视频免费观看| 亚洲精选视频免费看| 亚洲理伦在线| 欧美午夜一区| 这里只有精品在线播放| 欧美激情一区二区三区在线| 合欧美一区二区三区| 欧美一区二区三区在线看| 欧美国产视频在线| 亚洲精品欧美日韩| 夜久久久久久| 国产伦一区二区三区色一情| 一区二区三区不卡视频在线观看|