尤物yw午夜国产精品视频明星,欧美日韩网址,夜夜嗨av一区二区三区四区

一個(gè)輕量級(jí)家用爬蟲

最近需要收集資料，在瀏覽器上用另存為的方式實(shí)在是很麻煩，而且不利于存儲(chǔ)和檢索。所以自己寫了一個(gè)小爬蟲，在網(wǎng)上爬東西，迄今為止，已經(jīng)爬了近百萬張網(wǎng)頁(yè)。
現(xiàn)在正在想辦法著手處理這些數(shù)據(jù)。

爬蟲的結(jié)構(gòu)：
爬蟲的原理其實(shí)很簡(jiǎn)單，就是分析下載的頁(yè)面，找出其中的連接，然后再下載這些鏈接，再分析再下載，周而復(fù)始。在數(shù)據(jù)存儲(chǔ)方面，數(shù)據(jù)庫(kù)是首選，便于檢索，而開發(fā)語言，只要支持正則表達(dá)式就可以了，數(shù)據(jù)庫(kù)我選擇了mysql，所以，開發(fā)腳本我選擇了php。它支持perl兼容正則表達(dá)式，連接mysql很方便，支持http下載，而且windows系統(tǒng)和linux系統(tǒng)都可以部署。

正則表達(dá)式:
正則表達(dá)式是處理文字的基本工具，要取出html中的鏈接和圖片，使用的正則表達(dá)式如下。

"#<a[^>]+href=(['\"])(.+)\\1#isU" 處理鏈接
"#<img[^>]+src=(['\"])(.+)\\1#isU" 處理圖片

其他問題:
寫爬蟲還需要注意的一個(gè)問題是，對(duì)于已經(jīng)下載過的url，不能重復(fù)進(jìn)行下載，而有些網(wǎng)頁(yè)的鏈接會(huì)形成環(huán)路，所以需要處理這個(gè)問題，我的處理方法是計(jì)算已經(jīng)處理的url的MD5 值，并存入數(shù)據(jù)庫(kù)，這樣就可以檢驗(yàn)是否已經(jīng)下載過。當(dāng)然還有更好的算法，有興趣的話，可以在網(wǎng)上找一下。

相關(guān)協(xié)議:
爬蟲也有自己的協(xié)議，有個(gè)robots.txt文件定義了那些是網(wǎng)站允許遍歷的，但是由于我的時(shí)間有限，沒有實(shí)現(xiàn)這個(gè)功能。

其他說明:
php支持類編程,我寫的爬蟲主要的類.
1.url處理web_site_info，主要用處理url，分析域名等。
2.數(shù)據(jù)庫(kù)操作mysql_insert.php,處理和數(shù)據(jù)庫(kù)相關(guān)的操作。
3.歷史記錄處理，記錄已經(jīng)處理的url。
4.爬蟲類。

存在的問題和不足

這個(gè)爬蟲在小數(shù)據(jù)量的情況下，運(yùn)行良好，但是在大數(shù)據(jù)量的情況下，歷史記錄處理類的效率就不是很高，通過在數(shù)據(jù)庫(kù)結(jié)構(gòu)中，對(duì)相關(guān)字段進(jìn)行了索引，速度有了提高，但是需要不斷得讀取數(shù)據(jù)，可能和php本身的array實(shí)現(xiàn)有關(guān)系，如果一次加載10萬條歷史記錄，速度非常慢。
不支持多線程，每次只能處理一個(gè)url。
php運(yùn)行本身有內(nèi)存使用量限制，有一次在抓取深度為20的頁(yè)面的時(shí)候，內(nèi)存用盡程序被殺。

下面的url是源碼下載。

http://www.shnenglu.com/Files/hdqqq/net_spider.rar

使用的時(shí)候，先在mysql中創(chuàng)建net_spider數(shù)據(jù)庫(kù)，然后用db.sql創(chuàng)建相關(guān)表。再在config.php中設(shè)置mysql的用戶名口令。
最后
php -f spider.php 深度(數(shù)值) url
就可以開始工作。如

php -f spider.php 20 http://news.sina.com.cn

現(xiàn)在感覺下來，其實(shí)做個(gè)爬蟲沒那么復(fù)雜，難的是數(shù)據(jù)的存儲(chǔ)和檢索。我現(xiàn)在的數(shù)據(jù)庫(kù)，最大一個(gè)數(shù)據(jù)表已經(jīng)15G，正在想辦處理這些數(shù)據(jù)，mysql進(jìn)行查詢已經(jīng)感覺有點(diǎn)力不從心了。這點(diǎn)上還真佩服google。

posted on 2008-05-09 14:09 hdqqq 閱讀(21731) 評(píng)論(7) 編輯收藏引用所屬分類: 其他開發(fā)語言

評(píng)論

# re: 一個(gè)輕量級(jí)家用爬蟲 2008-05-13 08:27 mm

我不會(huì)這方面的技術(shù)，不過看了還是蠻佩服的回復(fù) 更多評(píng)論

# re: 一個(gè)輕量級(jí)家用爬蟲 2008-05-13 21:57 merlinfang

爬蟲還是很復(fù)雜的,你這個(gè)太簡(jiǎn)單了.就比如連接來說吧,你只處理了<a href>的,還有其他類型的,腳本的等等.
再比如排重吧,你只是避免同一url的訪問,但是同一url也要多次訪問的，因?yàn)閮?nèi)容會(huì)變化的,策略上有考慮.再考慮分布式多線程,排重就更難了回復(fù) 更多評(píng)論

# re: 一個(gè)輕量級(jí)家用爬蟲[未登錄] 2008-05-14 11:36 hdqqq

是的,那些在javascript中的url比較難用正則表達(dá)式概括出來,因?yàn)檫€可能是根據(jù)變量生成的,所以就直接過濾了.

至于排重的問題,因?yàn)槲矣?jì)算的是url的md5,而不是整個(gè)html的md5,所以在碰到頁(yè)面更新而url不變的時(shí)候,會(huì)有問題.這個(gè)我在測(cè)試新浪新聞首頁(yè)的時(shí)候,發(fā)現(xiàn)盡管新浪新聞首頁(yè)的url不變,內(nèi)容會(huì)變,但是具體到其中的某條新聞,都是有單獨(dú)的url的.碰到這種情況,只要周期的運(yùn)行一下爬蟲就可以了,我現(xiàn)在的機(jī)器上就是用crontab 定時(shí)運(yùn)行的.

這個(gè)也和爬蟲的目的有關(guān)系,有的可能更關(guān)注某個(gè)具體站點(diǎn),有的也許想多爬一些站點(diǎn),這個(gè)是深度和廣度的關(guān)系,和使用者的策略有關(guān).

我現(xiàn)在用的是一張表記錄歷史記錄,在百萬數(shù)量記錄下,效率不是最好的,建立更小的的分布存儲(chǔ)表可能會(huì)更好一些. 這些可以部署架構(gòu)方面進(jìn)行改進(jìn). 回復(fù) 更多評(píng)論

# re: 一個(gè)輕量級(jí)家用爬蟲 2008-05-19 11:50 苦惱

我是一個(gè)本科畢業(yè)生，這次畢業(yè)設(shè)計(jì)是網(wǎng)絡(luò)爬蟲，我用java沒編出來，
看到您寫的東西，想讓您指點(diǎn)一下。看有沒有事件回復(fù) 更多評(píng)論

# re: 一個(gè)輕量級(jí)家用爬蟲 2008-05-19 11:51 苦惱

我的QQ271244426
能不能留下您的QQ？回復(fù) 更多評(píng)論

# re: 一個(gè)輕量級(jí)家用爬蟲[未登錄] 2008-05-19 14:50 hdqqq

@苦惱
我寫的爬蟲,主要的幾個(gè)類都在代碼里面了,你用java開發(fā)的話,關(guān)鍵還是找到對(duì)應(yīng)的功能,象map或者h(yuǎn)ash map, http下載, 正則表達(dá)式等功能的類或者庫(kù),還有就是處理數(shù)據(jù)庫(kù)的模塊,應(yīng)該可以實(shí)現(xiàn)的. 回復(fù) 更多評(píng)論

# re: 一個(gè)輕量級(jí)家用爬蟲 2008-11-10 21:35 李玉

厲害！能認(rèn)識(shí)你嗎？我一直想學(xué)習(xí)一下，郵箱：heiseqilinlyf@163.com
這個(gè)不常用，常用的不便公開，能給我發(fā)個(gè)郵件，我給你發(fā)那個(gè)郵箱，麻煩了！
回復(fù) 更多評(píng)論

刷新評(píng)論列表

只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。
【推薦】100%開源！大型工業(yè)跨平臺(tái)軟件C++源碼提供，建模，組態(tài)！

相關(guān)文章: VIM實(shí)現(xiàn)自動(dòng)添加新行一個(gè)NERD_tree的改進(jìn) 一個(gè)輕量級(jí)家用爬蟲

網(wǎng)站導(dǎo)航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

hdqqq

公告

常用鏈接

留言簿(4)

隨筆分類(31)

隨筆檔案(35)

文章分類

相冊(cè)

另外的BLOG

其它鏈接

搜索

積分與排名

最新評(píng)論

閱讀排行榜

評(píng)論排行榜

評(píng)論