欧美成人午夜激情视频,欧美日韩在线不卡一区,亚洲黄色小视频

一個輕量級家用爬蟲

最近需要收集資料，在瀏覽器上用另存為的方式實在是很麻煩，而且不利于存儲和檢索。所以自己寫了一個小爬蟲，在網(wǎng)上爬東西，迄今為止，已經(jīng)爬了近百萬張網(wǎng)頁。
現(xiàn)在正在想辦法著手處理這些數(shù)據(jù)。

爬蟲的結(jié)構(gòu)：
爬蟲的原理其實很簡單，就是分析下載的頁面，找出其中的連接，然后再下載這些鏈接，再分析再下載，周而復始。在數(shù)據(jù)存儲方面，數(shù)據(jù)庫是首選，便于檢索，而開發(fā)語言，只要支持正則表達式就可以了，數(shù)據(jù)庫我選擇了mysql，所以，開發(fā)腳本我選擇了php。它支持perl兼容正則表達式，連接mysql很方便，支持http下載，而且windows系統(tǒng)和linux系統(tǒng)都可以部署。

正則表達式:
正則表達式是處理文字的基本工具，要取出html中的鏈接和圖片，使用的正則表達式如下。

"#<a[^>]+href=(['\"])(.+)\\1#isU" 處理鏈接
"#<img[^>]+src=(['\"])(.+)\\1#isU" 處理圖片

其他問題:
寫爬蟲還需要注意的一個問題是，對于已經(jīng)下載過的url，不能重復進行下載，而有些網(wǎng)頁的鏈接會形成環(huán)路，所以需要處理這個問題，我的處理方法是計算已經(jīng)處理的url的MD5 值，并存入數(shù)據(jù)庫，這樣就可以檢驗是否已經(jīng)下載過。當然還有更好的算法，有興趣的話，可以在網(wǎng)上找一下。

相關(guān)協(xié)議:
爬蟲也有自己的協(xié)議，有個robots.txt文件定義了那些是網(wǎng)站允許遍歷的，但是由于我的時間有限，沒有實現(xiàn)這個功能。

其他說明:
php支持類編程,我寫的爬蟲主要的類.
1.url處理web_site_info，主要用處理url，分析域名等。
2.數(shù)據(jù)庫操作mysql_insert.php,處理和數(shù)據(jù)庫相關(guān)的操作。
3.歷史記錄處理，記錄已經(jīng)處理的url。
4.爬蟲類。

存在的問題和不足

這個爬蟲在小數(shù)據(jù)量的情況下，運行良好，但是在大數(shù)據(jù)量的情況下，歷史記錄處理類的效率就不是很高，通過在數(shù)據(jù)庫結(jié)構(gòu)中，對相關(guān)字段進行了索引，速度有了提高，但是需要不斷得讀取數(shù)據(jù)，可能和php本身的array實現(xiàn)有關(guān)系，如果一次加載10萬條歷史記錄，速度非常慢。
不支持多線程，每次只能處理一個url。
php運行本身有內(nèi)存使用量限制，有一次在抓取深度為20的頁面的時候，內(nèi)存用盡程序被殺。

下面的url是源碼下載。

http://www.shnenglu.com/Files/hdqqq/net_spider.rar

使用的時候，先在mysql中創(chuàng)建net_spider數(shù)據(jù)庫，然后用db.sql創(chuàng)建相關(guān)表。再在config.php中設置mysql的用戶名口令。
最后
php -f spider.php 深度(數(shù)值) url
就可以開始工作。如

php -f spider.php 20 http://news.sina.com.cn

現(xiàn)在感覺下來，其實做個爬蟲沒那么復雜，難的是數(shù)據(jù)的存儲和檢索。我現(xiàn)在的數(shù)據(jù)庫，最大一個數(shù)據(jù)表已經(jīng)15G，正在想辦處理這些數(shù)據(jù)，mysql進行查詢已經(jīng)感覺有點力不從心了。這點上還真佩服google。

posted on 2008-05-09 14:09 hdqqq 閱讀(21740) 評論(7) 編輯收藏引用所屬分類: 其他開發(fā)語言

爬蟲還是很復雜的,你這個太簡單了.就比如連接來說吧,你只處理了<a href>的,還有其他類型的,腳本的等等.
再比如排重吧,你只是避免同一url的訪問,但是同一url也要多次訪問的，因為內(nèi)容會變化的,策略上有考慮.再考慮分布式多線程,排重就更難了回復更多評論

# re: 一個輕量級家用爬蟲[未登錄] 2008-05-14 11:36 hdqqq

是的,那些在javascript中的url比較難用正則表達式概括出來,因為還可能是根據(jù)變量生成的,所以就直接過濾了.

至于排重的問題,因為我計算的是url的md5,而不是整個html的md5,所以在碰到頁面更新而url不變的時候,會有問題.這個我在測試新浪新聞首頁的時候,發(fā)現(xiàn)盡管新浪新聞首頁的url不變,內(nèi)容會變,但是具體到其中的某條新聞,都是有單獨的url的.碰到這種情況,只要周期的運行一下爬蟲就可以了,我現(xiàn)在的機器上就是用crontab 定時運行的.

這個也和爬蟲的目的有關(guān)系,有的可能更關(guān)注某個具體站點,有的也許想多爬一些站點,這個是深度和廣度的關(guān)系,和使用者的策略有關(guān).

我現(xiàn)在用的是一張表記錄歷史記錄,在百萬數(shù)量記錄下,效率不是最好的,建立更小的的分布存儲表可能會更好一些. 這些可以部署架構(gòu)方面進行改進. 回復更多評論

# re: 一個輕量級家用爬蟲 2008-05-19 11:50 苦惱

我是一個本科畢業(yè)生，這次畢業(yè)設計是網(wǎng)絡爬蟲，我用java沒編出來，
看到您寫的東西，想讓您指點一下。看有沒有事件回復更多評論

# re: 一個輕量級家用爬蟲 2008-05-19 11:51 苦惱

我的QQ271244426
能不能留下您的QQ？回復更多評論

# re: 一個輕量級家用爬蟲[未登錄] 2008-05-19 14:50 hdqqq

@苦惱
我寫的爬蟲,主要的幾個類都在代碼里面了,你用java開發(fā)的話,關(guān)鍵還是找到對應的功能,象map或者hash map, http下載, 正則表達式等功能的類或者庫,還有就是處理數(shù)據(jù)庫的模塊,應該可以實現(xiàn)的. 回復更多評論

# re: 一個輕量級家用爬蟲 2008-11-10 21:35 李玉

厲害！能認識你嗎？我一直想學習一下，郵箱：heiseqilinlyf@163.com
這個不常用，常用的不便公開，能給我發(fā)個郵件，我給你發(fā)那個郵箱，麻煩了！
回復更多評論

刷新評論列表

只有注冊用戶登錄后才能發(fā)表評論。
【推薦】100%開源！大型工業(yè)跨平臺軟件C++源碼提供，建模，組態(tài)！

相關(guān)文章: VIM實現(xiàn)自動添加新行一個NERD_tree的改進一個輕量級家用爬蟲

網(wǎng)站導航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

hdqqq

公告

常用鏈接

留言簿(4)

隨筆分類(31)

隨筆檔案(35)

文章分類

相冊

另外的BLOG

其它鏈接

搜索

積分與排名

最新評論

閱讀排行榜

評論排行榜

評論