欧美护士18xxxxhd,一本色道久久综合精品竹菊,亚洲精品欧美激情

最近需要收集資料，在瀏覽器上用另存為的方式實在是很麻煩，而且不利于存儲和檢索。所以自己寫了一個小爬蟲，在網上爬東西，迄今為止，已經爬了近百萬張網頁。
現在正在想辦法著手處理這些數據。

爬蟲的結構：
爬蟲的原理其實很簡單，就是分析下載的頁面，找出其中的連接，然后再下載這些鏈接，再分析再下載，周而復始。在數據存儲方面，數據庫是首選，便于檢索，而開發語言，只要支持正則表達式就可以了，數據庫我選擇了mysql，所以，開發腳本我選擇了php。它支持perl兼容正則表達式，連接mysql很方便，支持http下載，而且windows系統和linux系統都可以部署。

正則表達式:
正則表達式是處理文字的基本工具，要取出html中的鏈接和圖片，使用的正則表達式如下。

"#<a[^>]+href=(['\"])(.+)\\1#isU" 處理鏈接
"#<img[^>]+src=(['\"])(.+)\\1#isU" 處理圖片

其他問題:
寫爬蟲還需要注意的一個問題是，對于已經下載過的url，不能重復進行下載，而有些網頁的鏈接會形成環路，所以需要處理這個問題，我的處理方法是計算已經處理的url的MD5 值，并存入數據庫，這樣就可以檢驗是否已經下載過。當然還有更好的算法，有興趣的話，可以在網上找一下。

相關協議:
爬蟲也有自己的協議，有個robots.txt文件定義了那些是網站允許遍歷的，但是由于我的時間有限，沒有實現這個功能。

其他說明:
php支持類編程,我寫的爬蟲主要的類.
1.url處理web_site_info，主要用處理url，分析域名等。
2.數據庫操作mysql_insert.php,處理和數據庫相關的操作。
3.歷史記錄處理，記錄已經處理的url。
4.爬蟲類。

存在的問題和不足

這個爬蟲在小數據量的情況下，運行良好，但是在大數據量的情況下，歷史記錄處理類的效率就不是很高，通過在數據庫結構中，對相關字段進行了索引，速度有了提高，但是需要不斷得讀取數據，可能和php本身的array實現有關系，如果一次加載10萬條歷史記錄，速度非常慢。
不支持多線程，每次只能處理一個url。
php運行本身有內存使用量限制，有一次在抓取深度為20的頁面的時候，內存用盡程序被殺。

下面的url是源碼下載。

http://www.shnenglu.com/Files/hdqqq/net_spider.rar

使用的時候，先在mysql中創建net_spider數據庫，然后用db.sql創建相關表。再在config.php中設置mysql的用戶名口令。
最后
php -f spider.php 深度(數值) url
就可以開始工作。如

php -f spider.php 20 http://news.sina.com.cn

現在感覺下來，其實做個爬蟲沒那么復雜，難的是數據的存儲和檢索。我現在的數據庫，最大一個數據表已經15G，正在想辦處理這些數據，mysql進行查詢已經感覺有點力不從心了。這點上還真佩服google。

posted on 2008-05-09 14:09 hdqqq 閱讀(21731) 評論(7) 編輯收藏引用所屬分類: 其他開發語言

爬蟲還是很復雜的,你這個太簡單了.就比如連接來說吧,你只處理了<a href>的,還有其他類型的,腳本的等等.
再比如排重吧,你只是避免同一url的訪問,但是同一url也要多次訪問的，因為內容會變化的,策略上有考慮.再考慮分布式多線程,排重就更難了回復更多評論

# re: 一個輕量級家用爬蟲[未登錄] 2008-05-14 11:36 hdqqq

是的,那些在javascript中的url比較難用正則表達式概括出來,因為還可能是根據變量生成的,所以就直接過濾了.

至于排重的問題,因為我計算的是url的md5,而不是整個html的md5,所以在碰到頁面更新而url不變的時候,會有問題.這個我在測試新浪新聞首頁的時候,發現盡管新浪新聞首頁的url不變,內容會變,但是具體到其中的某條新聞,都是有單獨的url的.碰到這種情況,只要周期的運行一下爬蟲就可以了,我現在的機器上就是用crontab 定時運行的.

這個也和爬蟲的目的有關系,有的可能更關注某個具體站點,有的也許想多爬一些站點,這個是深度和廣度的關系,和使用者的策略有關.

我現在用的是一張表記錄歷史記錄,在百萬數量記錄下,效率不是最好的,建立更小的的分布存儲表可能會更好一些. 這些可以部署架構方面進行改進. 回復更多評論

# re: 一個輕量級家用爬蟲 2008-05-19 11:50 苦惱

我是一個本科畢業生，這次畢業設計是網絡爬蟲，我用java沒編出來，
看到您寫的東西，想讓您指點一下。看有沒有事件回復更多評論

# re: 一個輕量級家用爬蟲 2008-05-19 11:51 苦惱

我的QQ271244426
能不能留下您的QQ？回復更多評論

# re: 一個輕量級家用爬蟲[未登錄] 2008-05-19 14:50 hdqqq

@苦惱
我寫的爬蟲,主要的幾個類都在代碼里面了,你用java開發的話,關鍵還是找到對應的功能,象map或者hash map, http下載, 正則表達式等功能的類或者庫,還有就是處理數據庫的模塊,應該可以實現的. 回復更多評論

# re: 一個輕量級家用爬蟲 2008-11-10 21:35 李玉

厲害！能認識你嗎？我一直想學習一下，郵箱：heiseqilinlyf@163.com
這個不常用，常用的不便公開，能給我發個郵件，我給你發那個郵箱，麻煩了！
回復更多評論

刷新評論列表

只有注冊用戶登錄后才能發表評論。
【推薦】100%開源！大型工業跨平臺軟件C++源碼提供，建模，組態！

相關文章: VIM實現自動添加新行一個NERD_tree的改進一個輕量級家用爬蟲

網站導航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

hdqqq

公告

常用鏈接

留言簿(4)

隨筆分類(31)

隨筆檔案(35)

文章分類

相冊

另外的BLOG

其它鏈接

搜索

積分與排名

最新評論

閱讀排行榜

評論排行榜

評論