青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

woaidongmao

文章均收錄自他人博客,但不喜標題前加-[轉(zhuǎn)貼],因其丑陋,見諒!~
隨筆 - 1469, 文章 - 0, 評論 - 661, 引用 - 0
數(shù)據(jù)加載中……

larbin結(jié)構(gòu)分析

互聯(lián)網(wǎng)是一個龐大的非結(jié)構(gòu)化的數(shù)據(jù)庫,將數(shù)據(jù)有效的檢索并組織呈現(xiàn)出來有著巨大的應(yīng)用前景,尤其是類似RSS的以XML為基礎(chǔ)的結(jié)構(gòu)化的數(shù)據(jù)越來越多,內(nèi)
容的組織方式越來越靈活,檢索組織并呈現(xiàn)會有著越來越廣泛的應(yīng)用范圍,同時在時效性和可讀性上也會有越來越高的要求。這一切的基礎(chǔ)是爬蟲,信息的來源入
口。一個高效,靈活可擴展的爬蟲對以上應(yīng)用都有著無可替代的重要意義。
       
要設(shè)計一個爬蟲,首先需要考慮的效率。對于網(wǎng)絡(luò)而言,基于TCP/IP的通信編程有幾種方法。
第一種是單線程阻塞,這是最簡單也最容易實現(xiàn)的一種,一個例子:在Shell中通過curl,pcregrep等一系統(tǒng)命令可以直接實現(xiàn)一個簡單的
爬蟲,但同時它的效率問題也顯而易見:由于是阻塞方式讀取,dns解析,建立連接,寫入請求,讀取結(jié)果這些步驟上都會產(chǎn)生時間的延遲,從而無法有效的利用
服務(wù)器的全部資源。
第二種是多線程阻塞。建立多個阻塞的線程,分別請求不同的url。相對于第一種方法,它可以更有效的利用機器的資源,特別是網(wǎng)絡(luò)資源,因為無數(shù)線程
在同時工作,所以網(wǎng)絡(luò)會比較充分的利用,但同時對機器CPU資源的消耗也是比較大,在用戶級多線程間的頻繁切換對于性能的影響已經(jīng)值得我們考慮。
第三種是單線程非阻塞。這是目前使用的比較多的一種做法,無論在client還是server都有著廣泛的應(yīng)用。在一個線程內(nèi)打開多個非阻塞的連
接,通過poll/epoll/select對連接狀態(tài)進行判斷,在第一時間響應(yīng)請求,不但充分利用了網(wǎng)絡(luò)資源,同時也將本機CPU資源的消耗降至最低。
這種方法需要對dns請求,連接,讀寫操作都采用異步非阻塞操作,其中第一種比較復(fù)雜,可以采用adns作為解決方案,后面三個操作相對簡單可以直接在程
序內(nèi)實現(xiàn)。
效率問題解決后就需要考慮具體的設(shè)計問題了。
url
肯定需要一個單獨的類進行處理,包括顯示,分析url,得到主機,端口,文件數(shù)據(jù)。
然后需要對url進行排重,需要一個比較大的url Hash表。
如果還要對網(wǎng)頁內(nèi)容進行排重,則還需要一個Document Hash表。
爬過的url需要記錄下來,由于量比較大,我們將它寫到磁盤上,所以還需要一個FIFO的類(記作urlsDisk)。
現(xiàn)在需要爬的url同樣需要一個FIFO類來處理,重新開始時,url會從定時從爬過的url
FIFO
里取出來,寫到這個FIFO里。正在運行的爬蟲需要從這個FIFO里讀數(shù)據(jù)出來,加入到主機類的url列表里。當然,也會從前一個FIFO里直接
url出來,不過優(yōu)先級應(yīng)該比這個里面出來的url低,畢竟是已經(jīng)爬過的。
爬蟲一般是對多個網(wǎng)站進行爬取,但在同時站點內(nèi)dns的請求可以只做一次,這就需要將主機名獨立于url,單獨有一個類進行處理。
主機名解析完成后需要有一個解析完成的IP類與之應(yīng)用,用于connect的時候使用。
HTML
文檔的解析類也要有一個,用來分析網(wǎng)頁,取出里面的url,加入到urlsDisk
再加上一些字符串,調(diào)度類,一個簡單的爬蟲基本上就完成了。
以上基本上是Larbin的設(shè)計思路,Larbin在具體實現(xiàn)上還有一些特殊的處理,例如帶了一個webserver,以及對特殊文件的處理。
Larbin
有一點設(shè)計不不太好,就是慢的訪問會越來越多,占用大量的連接,需要改進,另外如果對于大規(guī)模的爬蟲,這僅僅實現(xiàn)了抓取的部分,要分布式的擴
展還需要增加url的集中管理與調(diào)度以及前臺spider的分布式算法。
Larbin
網(wǎng)站爬蟲簡明使用說明
larbin
是一種爬蟲工具,我也是前段時間網(wǎng)上看到 Larbin 一種高效的搜索引擎爬蟲工具 一文時才知道有這么個東西,初步認定,我比較喜歡這個
工具(比起nutchcrawl來說),因為它是C++寫的,類似C嘛,我熟,可以自己改改,順便學習一下C++(幾年來的經(jīng)驗告訴我說:改別人的東西
來學一種技術(shù)比從頭寫helloworld快很多)。于是開始了我艱辛的larbin試用之旅。
  回頭看看自己遇到的問題都是由于沒認真看文檔引起的,唉,老毛病了。下次即使是E文的也得好好看,不能盲目的試,浪費時間。 
  larbin官方地址:http://larbin.sourceforge.net/index-eng.html



  一,編譯 
  這也好說,whahahaha,那是!因為從官方網(wǎng)站下下來的代碼不能編譯通過(linux gcc)



  ./configure 
  make



  gcc -O3 -Wall -D_REENTRANT -c -o parse.o parse.c 
  parse.c:115: error: conflicting types for ’adns__parse_domain’ 



  internal.h:571: error: previous declaration of ’adns__parse_domain’ was here



  parse.c:115: error: conflicting types for ’adns__parse_domain’
  internal.h:571: error: previous declaration of ’adns__parse_domain’ was here 



  gmake[1]: *** [parse.o] 錯誤
  gmake[1]: Leaving directory `/home/leo/leo/larbin-2.6.3/adns’
  make: *** [all] 錯誤
  函數(shù)原型和定義不一致這個好改:



  打開./adns/internal.h文件,把568571行直接注釋掉就行了。  
  二,運行 
  這個就不說了,./larbin就運行了,larbin.conf中先進行配置就可以了,這個配置就不說了。。 
  運行后可以http://host:8081 看運行狀態(tài),不錯的想法。 larbin.conf中有個:inputPort 1976配置,
就是可以運行時增加要抓取的URL,這個想法非常好,可是?怎么加呢?象起初那樣:http://host:1976那樣是不行的,報錯???試了好久沒
結(jié)果,最后GDB跟蹤了一下,唉,原來直接telnet host 1976進行增加就可以了。后來看到文檔里寫的親親楚楚,暈倒。。。。。 



  三,結(jié)果
  哈哈,下班后找了臺機子跑了起來,那晚睡覺的時候都夢見自己的搜索引擎趕GOOGLEBAIDU了,那個興奮啊。



  第二天上班的時候取看結(jié)果,發(fā)現(xiàn)目錄下除了些fifo*文件外什么都沒有,那個郁悶。沒辦法啊,再看文檔 How to customize Larbin 發(fā)現(xiàn)這么段說明: 
  The first thing you can define is the module you want to use for
ouput. This defines what you want to do with the pages larbin gets.
Here are the different options :



  DEFAULT_OUTPUT : This module mainly does nothing, except statistics. 
  SIMPLE_SAVE : This module saves pages on disk. It stores 2000 files per directory (with an index).



  MIRROR_SAVE : This module saves pages on disk with the hierarchy of the site they come from. It uses one directory per site. 
  STATS_OUTPUT : This modules makes some stats on the pages. In
order to see the results, see http://localhost:8081/output.html. 
  靠,默認什么都沒輸出,于是認真的看了官方網(wǎng)站上僅有的兩個文檔,修改了options.h再編譯,終于有結(jié)果了。



  我的option中改了:



  SIMPLE_SAVE 簡單輸出一個目錄兩千個文件,包含索引。 
  CGILEVEL0 處理服務(wù)器端程序,也就是但url中包含? & = 之類的querString時也處理。 
  NO_DUP



  其余可根據(jù)各自需要修改,詳見: How to customize Larbin 一文。



  四,問題



  在使用過程中發(fā)現(xiàn),在抓網(wǎng)頁的時候,如果URL中包含未編碼(encodurl)中文時,無法抓取,簡單的看了一下在:
src/utils/url.cc
中的fileNormalize 有涉及。于是寫了個encodurl函數(shù)加在url類的構(gòu)造函數(shù)里,問題就解決了。



  由于需要比較好的可定制性,這個工具似乎還不大滿足我的需求,最終我沒使用她,而是自己用perlWWW:SimpleRobot的基礎(chǔ)上搞了個適合我的。。再說了perl在字符竄處理上應(yīng)該不比C++慢,總的來說那個小工具性能還不錯。。呵呵。



  不過還是把這些寫出來,給沒看文檔的朋友(希望很少),也警示自己一定要認真看文檔。

posted on 2009-01-04 14:10 肥仔 閱讀(2213) 評論(5)  編輯 收藏 引用 所屬分類: Web-后臺

評論

# re: larbin結(jié)構(gòu)分析  回復(fù)  更多評論   

Everyone at school would follow your best data connected with this topic to compose the high quality <a href="http://www.manyessays.com">book reports</a> or even <a href="http://www.manyessays.com/essays/asia">asia essays paper</a>.
2010-07-09 02:17 | LuciaCURTIS

# re: larbin結(jié)構(gòu)分析  回復(fù)  更多評論   

Hazing Prevention Week, which occurred from Monday, Sept. 20, through Friday, Sept. 24, on campus, encouraged students to be mindful of the University of Dayton's steps to prevent hazing.
http://www.thomassabosalecharm.com/
2010-11-08 15:07 | huanghuang
青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            99视频热这里只有精品免费| 国产一区99| 亚洲午夜一区二区三区| 欧美国产精品劲爆| 欧美大片网址| 欧美高清在线视频观看不卡| 亚洲国产专区| 另类综合日韩欧美亚洲| 久久久久国产精品一区| 欧美一区二视频| 久久精品av麻豆的观看方式| 欧美中文字幕视频在线观看| 欧美一级二区| 欧美成人自拍| 中文在线不卡| 午夜免费电影一区在线观看| 久久久久国产一区二区三区四区 | 亚洲欧洲综合| 韩国av一区二区三区在线观看| 欧美激情第3页| 国产精品观看| 国产乱肥老妇国产一区二| 一区视频在线看| 亚洲青色在线| 欧美影院在线| 欧美激情一区二区三区在线 | 国产香蕉久久精品综合网| 欧美金8天国| 国产视频久久久久| 伊人久久亚洲美女图片| 亚洲一级黄色| 欧美亚洲视频在线观看| 亚洲国产乱码最新视频| 蜜臀99久久精品久久久久久软件| 日韩系列欧美系列| 亚洲字幕在线观看| 欧美片第一页| 国语自产偷拍精品视频偷| 亚洲黑丝在线| 午夜国产精品视频免费体验区| 久久亚洲捆绑美女| 亚洲国产婷婷香蕉久久久久久| 久久精品视频在线| 国产日产欧美精品| 亚洲免费观看视频| 免费91麻豆精品国产自产在线观看| 亚洲国产美国国产综合一区二区| 欧美在线啊v一区| 欧美日韩精品一本二本三本| 亚洲一区二区精品在线观看| 亚洲在线一区| 国产精品国产成人国产三级| 亚洲成人资源网| 亚洲影视九九影院在线观看| 亚洲国产乱码最新视频| 欧美一级片久久久久久久| 欧美四级剧情无删版影片| 在线看视频不卡| 老色批av在线精品| 亚洲欧美一区二区三区极速播放| 国产精品久久久久久久电影 | 中文网丁香综合网| 久久一二三区| 久久精品国产欧美激情| 国产精品夜夜嗨| 亚洲在线观看| 亚洲精品一区二区三| 欧美精品一区二区三区蜜臀| 伊人男人综合视频网| 久色婷婷小香蕉久久| 午夜日韩视频| 狠狠入ady亚洲精品| 亚洲女ⅴideoshd黑人| 中文精品视频| 欧美日韩国产一中文字不卡 | 国产精品久久久久影院色老大 | 亚洲一区二区三区四区视频| 美女网站久久| 亚洲毛片在线看| 欧美激情成人在线| 欧美片在线观看| 亚洲午夜av在线| 亚洲视频精品| 国产精品白丝av嫩草影院| 新片速递亚洲合集欧美合集| 在线中文字幕一区| 国产一区高清视频| 老司机精品视频一区二区三区| 美日韩在线观看| 日韩一级黄色片| 亚洲综合精品自拍| 国产精品一区视频网站| 久久男女视频| 欧美成人激情在线| 篠田优中文在线播放第一区| 午夜精品视频在线| 91久久精品日日躁夜夜躁欧美| 亚洲第一色在线| 国产精品久久久久久模特| 欧美在线视频一区二区| 母乳一区在线观看| 99精品免费| 欧美在线观看一区二区三区| 国产精品国产福利国产秒拍| 免费欧美视频| 国产精品h在线观看| 国产主播一区二区| 亚洲人妖在线| 亚洲在线免费| 在线成人性视频| 亚洲剧情一区二区| 国产精品久久久久久久app| 亚洲性视频网址| 亚洲美女在线视频| 国产有码一区二区| 亚洲精品综合精品自拍| 国产精品一卡二| 亚洲免费不卡| 国产日韩欧美在线一区| 日韩网站免费观看| 影音先锋中文字幕一区| 亚洲淫性视频| 99精品欧美一区| 欧美3dxxxxhd| 久久精品夜色噜噜亚洲aⅴ| 国产精品国产| 亚洲精品一级| 一本一本a久久| 亚洲欧美国产精品专区久久| 亚洲精品乱码久久久久久| 久久精品一区二区国产| 亚洲一区二区精品视频| 欧美色图麻豆| 亚洲国产精品视频| 亚洲国产成人在线| 午夜精品偷拍| 久久久福利视频| 国产精品三区www17con| 亚洲色在线视频| 伊大人香蕉综合8在线视| 性欧美超级视频| 久久精品欧洲| 国产精品三级视频| 亚洲欧美日韩在线观看a三区 | 久久aⅴ国产欧美74aaa| 欧美在线视频a| 欧美视频在线观看免费| 9色精品在线| 99av国产精品欲麻豆| 欧美成年人视频| 制服丝袜激情欧洲亚洲| 亚洲一区中文字幕在线观看| 国产精品福利在线| 亚洲精品日日夜夜| 亚洲一区二区黄| 欧美日韩妖精视频| 亚洲午夜av| 欧美一区二视频在线免费观看| 好吊妞这里只有精品| 日韩午夜在线| 欧美在线播放| 在线看视频不卡| 欧美 日韩 国产在线| 亚洲精品一二三| 亚洲影院色在线观看免费| 国产精品私房写真福利视频| 亚洲精品一区二区三区婷婷月| 欧美久久精品午夜青青大伊人| 91久久久亚洲精品| 欧美日韩亚洲免费| 亚洲精品中文字幕女同| 欧美在线免费一级片| 国产亚洲一区二区在线观看| 麻豆精品一区二区av白丝在线| 久久人人看视频| 一本色道久久综合亚洲二区三区 | 欧美大片在线观看| 国产欧美一区二区三区视频| 久久综合色天天久久综合图片| 日韩亚洲精品电影| 久久精品123| 一区二区国产日产| 欧美日韩国产bt| 久久久精品tv| 亚洲福利视频专区| 欧美在线不卡视频| 欧美中文字幕| 亚洲黄色成人久久久| 欧美一区=区| 亚洲国产日韩欧美| 国产伦精品一区二区三区四区免费| 午夜精品剧场| 亚洲狠狠丁香婷婷综合久久久| 亚洲日本视频| 国产亚洲精品福利| 国产精品久久久久免费a∨大胸| 久久久xxx| 久久高清福利视频| 亚洲国产美女| 免费的成人av|