青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

posts - 297,  comments - 15,  trackbacks - 0

這里是維基百科對網(wǎng)絡(luò)爬蟲的詞條頁面。網(wǎng)絡(luò)爬蟲以叫網(wǎng)絡(luò)蜘蛛,網(wǎng)絡(luò)機器人,這是一個程序,其會自動的通過網(wǎng)絡(luò)抓取互聯(lián)網(wǎng)上的網(wǎng)頁,這種技術(shù)一般可能用來檢查你的站點上所有的鏈接是否是都是有效的。當(dāng)然,更為高級的技術(shù)是把網(wǎng)頁中的相關(guān)數(shù)據(jù)保存下來,可以成為搜索引擎。

從技相來說,實現(xiàn)抓取網(wǎng)頁可能并不是一件很困難的事情,困難的事情是對網(wǎng)頁的分析和整理,那是一件需要有輕量智能,需要大量數(shù)學(xué)計算的程序才能做的事情。下面一個簡單的流程:

 

在這里,我們只是說一下如何寫一個網(wǎng)頁抓取程序。

首先我們先看一下,如何使用命令行的方式來找開網(wǎng)頁。

telnet somesite.com 80
GET /index.html HTTP/1.0
按回車兩次

使用telnet就是告訴你其實這是一個socket的技術(shù),并且使用HTTP的協(xié)議,如 GET方法來獲得網(wǎng)頁,當(dāng)然,接下來的事你就需要解析HTML文法,甚至還需要解析Javascript,因為現(xiàn)在的網(wǎng)頁使用Ajax的越來越多了,而很多網(wǎng)頁內(nèi)容都是通過Ajax技術(shù)加載的,因為,只是簡單地解析HTML文件在未來會遠(yuǎn)遠(yuǎn)不夠。當(dāng)然,在這里,只是展示一個非常簡單的抓取,簡單到只能做為一個例子,下面這個示例的偽代碼:

取網(wǎng)頁
for each 鏈接 in 當(dāng)前網(wǎng)頁所有的鏈接
{
if(如果本鏈接是我們想要的 || 這個鏈接從未訪問過)
{
處理對本鏈接
把本鏈接設(shè)置為已訪問
}
}
require “rubygems”
require “mechanize”
class Crawler < WWW::Mechanize
attr_accessor :callback
INDEX = 0
DOWNLOAD = 1
PASS = 2
def initialize
super
init
@first = true
self.user_agent_alias = “Windows IE 6″
end
def init
@visited = []
end
def remember(link)
@visited << link
end
def perform_index(link)
self.get(link)
if(self.page.class.to_s == “WWW::Mechanize::Page”)
links = self.page.links.map {|link| link.href } - @visited
links.each do |alink|
start(alink)
end
end
end
def start(link)
return if link.nil?
if(!@visited.include?(link))
action = @callback.call(link)
if(@first)
@first = false
perform_index(link)
end
case action
when INDEX
perform_index(link)
when DOWNLOAD
self.get(link).save_as(File.basename(link))
when PASS
puts “passing on #{link}”
end
end
end
def get(site)
begin
puts “getting #{site}”
@visited << site
super(site)
rescue
puts “error getting #{site}”
end
end
end

上面的代碼就不必多說了,大家可以去試試。下面是如何使用上面的代碼:

require “crawler”
x = Crawler.new
callback = lambda do |link|
if(link =~/\\.(zip|rar|gz|pdf|doc)
x.remember(link)
return Crawler::PASS
elsif(link =~/\\.(jpg|jpeg)/)
return Crawler::DOWNLOAD
end
return Crawler::INDEX;
end
x.callback = callback
x.start(”http://somesite.com”)

下面是一些和網(wǎng)絡(luò)爬蟲相關(guān)的開源網(wǎng)絡(luò)項目

from:
http://coolshell.cn/?p=27

posted on 2010-02-18 21:54 chatler 閱讀(716) 評論(0)  編輯 收藏 引用 所屬分類: SearchEngine

只有注冊用戶登錄后才能發(fā)表評論。
網(wǎng)站導(dǎo)航: 博客園   IT新聞   BlogJava   博問   Chat2DB   管理


<2025年9月>
31123456
78910111213
14151617181920
21222324252627
2829301234
567891011

常用鏈接

留言簿(10)

隨筆分類(307)

隨筆檔案(297)

algorithm

Books_Free_Online

C++

database

Linux

Linux shell

linux socket

misce

  • cloudward
  • 感覺這個博客還是不錯,雖然做的東西和我不大相關(guān),覺得看看還是有好處的

network

OSS

  • Google Android
  • Android is a software stack for mobile devices that includes an operating system, middleware and key applications. This early look at the Android SDK provides the tools and APIs necessary to begin developing applications on the Android platform using the Java programming language.
  • os161 file list

overall

搜索

  •  

最新評論

閱讀排行榜

評論排行榜

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            欧美.日韩.国产.一区.二区| 国产精品99久久久久久久vr| 久久久欧美精品| 欧美伊人影院| 在线看日韩av| 亚洲日本va午夜在线电影| 久久永久免费| 99热这里只有成人精品国产| 国产精品白丝jk黑袜喷水| 国产精品久久久免费| 99精品国产高清一区二区 | 精品盗摄一区二区三区| 麻豆精品国产91久久久久久| 欧美777四色影视在线| 亚洲伊人一本大道中文字幕| 亚洲欧美一区二区三区久久 | 久热国产精品视频| 正在播放日韩| 欧美一区二区视频97| 亚洲欧洲精品一区二区三区不卡 | 一区二区三区视频在线观看| 国产日韩精品在线| 亚洲福利视频一区| 国产精品人成在线观看免费 | 欧美在线视频免费观看| 欧美国产精品日韩| 香蕉精品999视频一区二区| 久久青青草综合| 亚洲欧美在线免费观看| 老司机午夜免费精品视频| 香蕉成人啪国产精品视频综合网| 米奇777在线欧美播放| 午夜老司机精品| 欧美欧美全黄| 美国十次了思思久久精品导航| 欧美日韩国产精品| 欧美fxxxxxx另类| 国产精品一区二区你懂的| 欧美激情影院| 在线欧美亚洲| 欧美有码视频| 欧美怡红院视频| 欧美日韩综合视频| 欧美高清一区| 影音先锋一区| 性欧美18~19sex高清播放| 一二三四社区欧美黄| 美日韩精品视频| 久久综合99re88久久爱| 国产精品尤物| 亚洲特色特黄| 亚洲一区国产精品| 欧美日韩另类综合| 亚洲高清免费在线| 亚洲高清av| 久久综合久久88| 欧美高清视频一区二区三区在线观看 | 午夜激情久久久| 亚洲欧美激情四射在线日| 欧美久久一级| 99视频精品在线| 亚洲一区二区三区乱码aⅴ| 欧美日韩国产首页在线观看| 亚洲人永久免费| 亚洲婷婷综合久久一本伊一区| 亚洲国产精品第一区二区三区| 亚洲小视频在线| 国产午夜精品一区二区三区欧美| 中文亚洲免费| 亚洲你懂的在线视频| 欧美视频在线观看| 9人人澡人人爽人人精品| av不卡在线看| 国产精品久久久久久福利一牛影视 | 久久精品亚洲一区二区| 国产三级欧美三级日产三级99| 销魂美女一区二区三区视频在线| 欧美在线网址| 亚洲第一黄网| 欧美片第一页| 亚洲影视在线| 免费成人黄色av| 洋洋av久久久久久久一区| 欧美午夜在线观看| 午夜在线视频观看日韩17c| 麻豆av一区二区三区| 亚洲欧洲在线免费| 国产精品久久久久久久久果冻传媒| 亚洲小说欧美另类婷婷| 麻豆精品网站| 宅男66日本亚洲欧美视频 | 久久精品国产免费观看| 欧美a级一区| 亚洲在线观看免费| 国外成人性视频| 欧美日韩视频一区二区| 欧美一区二区三区久久精品| 亚洲国产精品久久久久久女王| 亚洲一区二区三区乱码aⅴ| 黑丝一区二区| 国产精品99免费看 | 久久一区二区三区av| 99精品视频免费观看| 久久久视频精品| 99在线视频精品| 狠狠色狠狠色综合日日tαg| 欧美日韩免费观看一区三区| 欧美亚洲视频在线观看| 亚洲三级电影全部在线观看高清| 久久成人免费电影| 一区二区日韩精品| 18成人免费观看视频| 国产精品久久久久久久久婷婷 | 亚洲男人的天堂在线| 亚洲国产福利在线| 久久免费观看视频| 亚洲一区二区在线观看视频| 91久久在线播放| 国产欧美三级| 欧美性jizz18性欧美| 欧美成人一区二区三区在线观看| 欧美一区三区二区在线观看| 一区二区三区导航| 亚洲人午夜精品免费| 欧美激情在线| 欧美刺激午夜性久久久久久久| 免费不卡在线视频| 久久综合激情| 亚洲桃色在线一区| 99亚洲伊人久久精品影院红桃| 欧美激情亚洲自拍| 鲁大师成人一区二区三区| 久久国产精品72免费观看| 亚洲午夜未删减在线观看| 一本不卡影院| 一区二区三区日韩| 一区二区三区四区精品| 99成人在线| 在线中文字幕一区| 亚洲午夜在线视频| 亚洲一级影院| 亚洲午夜一级| 欧美一区二区三区成人| 亚洲欧美国产视频| 欧美尤物巨大精品爽| 欧美在线在线| 久久久久se| 欧美不卡福利| 亚洲片国产一区一级在线观看| 亚洲激情欧美| 亚洲视频欧美视频| 亚洲综合色自拍一区| 欧美一级理论性理论a| 欧美影院在线播放| 裸体一区二区| 欧美日本韩国一区| 国产精品每日更新| 红桃av永久久久| 亚洲国产欧美久久| 亚洲午夜激情| 久久成人av少妇免费| 女女同性精品视频| 亚洲人成在线播放网站岛国| 日韩视频永久免费| 午夜精品久久久久久| 久久午夜精品| 欧美日韩精选| 国产亚洲精品自拍| 亚洲国产另类久久精品| 亚洲天堂网在线观看| 久久国产夜色精品鲁鲁99| 欧美 日韩 国产精品免费观看| 亚洲激情国产精品| 亚洲免费中文| 欧美大片18| 国产午夜精品理论片a级大结局 | 久久男人资源视频| 亚洲人线精品午夜| 欧美一区二视频| 欧美精品日本| 国产综合久久| 国产精品99久久久久久www| 久久综合影音| 亚洲男女毛片无遮挡| 欧美成人自拍| 黄色综合网站| 亚洲午夜三级在线| 欧美国产日韩精品| 午夜欧美精品| 欧美性jizz18性欧美| 亚洲国产91精品在线观看| 午夜视频一区二区| 91久久精品国产| 久久成人精品视频| 国产精品久久久91| 日韩亚洲欧美一区| 欧美成人午夜视频| 久久成人一区二区| 国产精品亚洲片夜色在线| 99精品国产热久久91蜜凸|