青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

posts - 297,  comments - 15,  trackbacks - 0

這里是維基百科對網絡爬蟲的詞條頁面。網絡爬蟲以叫網絡蜘蛛,網絡機器人,這是一個程序,其會自動的通過網絡抓取互聯網上的網頁,這種技術一般可能用來檢查你的站點上所有的鏈接是否是都是有效的。當然,更為高級的技術是把網頁中的相關數據保存下來,可以成為搜索引擎。

從技相來說,實現抓取網頁可能并不是一件很困難的事情,困難的事情是對網頁的分析和整理,那是一件需要有輕量智能,需要大量數學計算的程序才能做的事情。下面一個簡單的流程:

 

在這里,我們只是說一下如何寫一個網頁抓取程序。

首先我們先看一下,如何使用命令行的方式來找開網頁。

telnet somesite.com 80
GET /index.html HTTP/1.0
按回車兩次

使用telnet就是告訴你其實這是一個socket的技術,并且使用HTTP的協議,如 GET方法來獲得網頁,當然,接下來的事你就需要解析HTML文法,甚至還需要解析Javascript,因為現在的網頁使用Ajax的越來越多了,而很多網頁內容都是通過Ajax技術加載的,因為,只是簡單地解析HTML文件在未來會遠遠不夠。當然,在這里,只是展示一個非常簡單的抓取,簡單到只能做為一個例子,下面這個示例的偽代碼:

取網頁
for each 鏈接 in 當前網頁所有的鏈接
{
if(如果本鏈接是我們想要的 || 這個鏈接從未訪問過)
{
處理對本鏈接
把本鏈接設置為已訪問
}
}
require “rubygems”
require “mechanize”
class Crawler < WWW::Mechanize
attr_accessor :callback
INDEX = 0
DOWNLOAD = 1
PASS = 2
def initialize
super
init
@first = true
self.user_agent_alias = “Windows IE 6″
end
def init
@visited = []
end
def remember(link)
@visited << link
end
def perform_index(link)
self.get(link)
if(self.page.class.to_s == “WWW::Mechanize::Page”)
links = self.page.links.map {|link| link.href } - @visited
links.each do |alink|
start(alink)
end
end
end
def start(link)
return if link.nil?
if(!@visited.include?(link))
action = @callback.call(link)
if(@first)
@first = false
perform_index(link)
end
case action
when INDEX
perform_index(link)
when DOWNLOAD
self.get(link).save_as(File.basename(link))
when PASS
puts “passing on #{link}”
end
end
end
def get(site)
begin
puts “getting #{site}”
@visited << site
super(site)
rescue
puts “error getting #{site}”
end
end
end

上面的代碼就不必多說了,大家可以去試試。下面是如何使用上面的代碼:

require “crawler”
x = Crawler.new
callback = lambda do |link|
if(link =~/\\.(zip|rar|gz|pdf|doc)
x.remember(link)
return Crawler::PASS
elsif(link =~/\\.(jpg|jpeg)/)
return Crawler::DOWNLOAD
end
return Crawler::INDEX;
end
x.callback = callback
x.start(”http://somesite.com”)

下面是一些和網絡爬蟲相關的開源網絡項目

from:
http://coolshell.cn/?p=27

posted on 2010-02-18 21:54 chatler 閱讀(716) 評論(0)  編輯 收藏 引用 所屬分類: SearchEngine
<2025年9月>
31123456
78910111213
14151617181920
21222324252627
2829301234
567891011

常用鏈接

留言簿(10)

隨筆分類(307)

隨筆檔案(297)

algorithm

Books_Free_Online

C++

database

Linux

Linux shell

linux socket

misce

  • cloudward
  • 感覺這個博客還是不錯,雖然做的東西和我不大相關,覺得看看還是有好處的

network

OSS

  • Google Android
  • Android is a software stack for mobile devices that includes an operating system, middleware and key applications. This early look at the Android SDK provides the tools and APIs necessary to begin developing applications on the Android platform using the Java programming language.
  • os161 file list

overall

搜索

  •  

最新評論

閱讀排行榜

評論排行榜

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            亚洲视频在线观看视频| 国产日韩欧美黄色| 亚洲精品一区二区三区在线观看 | 欧美人与禽性xxxxx杂性| 亚洲国产欧美不卡在线观看| 亚洲成在线观看| 欧美久久视频| 欧美一级日韩一级| 久久久久一区| 一区二区成人精品| 亚洲欧美怡红院| 亚洲国产精品一区在线观看不卡 | 欧美有码在线视频| 欧美一区二区三区播放老司机| 黄色欧美日韩| 亚洲国产导航| 国产精品视频999| 欧美成人高清| 国产精品久久久久国产a级| 久久久久久久高潮| 欧美激情精品久久久久久| 羞羞视频在线观看欧美| 久久综合亚洲社区| 亚洲欧美日韩一区二区在线| 久久久视频精品| 国产精品99久久久久久白浆小说 | 欧美激情精品久久久六区热门 | 一区二区三区精品视频在线观看| 亚洲一级片在线看| 亚洲人成网在线播放| 先锋影音一区二区三区| 亚洲每日在线| 久久婷婷国产综合国色天香| 亚洲欧美电影院| 欧美韩国日本综合| 麻豆免费精品视频| 国产日韩久久| 亚洲视频网在线直播| 亚洲精品在线看| 久久尤物电影视频在线观看| 午夜精品免费在线| 欧美日韩亚洲天堂| 亚洲国产一区视频| 亚洲丶国产丶欧美一区二区三区| 亚洲手机成人高清视频| 一区二区激情小说| 欧美激情综合| 欧美日韩精品免费观看视一区二区| 亚洲一区二区三区中文字幕 | 欧美国产一区在线| 韩日成人av| 欧美一区二区三区精品| 午夜天堂精品久久久久| 国产精品久久久久影院亚瑟| 91久久国产综合久久91精品网站| 亚洲国产导航| 久久先锋资源| 欧美激情小视频| 亚洲欧洲精品一区二区三区波多野1战4 | 欧美精选午夜久久久乱码6080| 蜜臀久久久99精品久久久久久 | 欧美另类女人| 亚洲精选在线观看| 亚洲色在线视频| 欧美日韩精品一区二区天天拍小说| 亚洲电影视频在线| 日韩亚洲成人av在线| 欧美精品高清视频| 日韩午夜免费视频| 亚洲综合视频在线| 国产精品毛片在线| 午夜精品在线| 久久亚洲精选| 亚洲精品久久久蜜桃| 欧美日韩999| 亚洲一区二区三区欧美| 欧美在线免费播放| 伊人精品久久久久7777| 老妇喷水一区二区三区| 91久久精品美女| 亚洲女同性videos| 韩国av一区二区| 嫩草伊人久久精品少妇av杨幂| 亚洲国产一区二区精品专区| 亚洲综合成人婷婷小说| 国产日韩欧美a| 老司机午夜精品视频| 亚洲精品国产日韩| 欧美一区2区视频在线观看| 激情婷婷亚洲| 欧美精品午夜| 羞羞视频在线观看欧美| 欧美69wwwcom| 午夜久久久久久| 亚洲电影在线观看| 国产精品国产三级国产专区53| 欧美诱惑福利视频| 亚洲精品国产精品久久清纯直播| 欧美一区二区三区的| 亚洲国产欧美另类丝袜| 国产精品捆绑调教| 欧美成人精品在线观看| 亚洲一本视频| 亚洲黄色免费| 久久中文欧美| 午夜精品三级视频福利| 亚洲日韩视频| 韩国三级电影一区二区| 欧美色偷偷大香| 免播放器亚洲一区| 欧美一区国产一区| 久久久精品动漫| 免费不卡在线观看| 亚洲免费在线视频| 亚洲精选一区二区| 欧美国产欧美亚洲国产日韩mv天天看完整 | 久久免费视频一区| 亚洲欧美在线看| 一区二区激情视频| 1769国产精品| 国产在线日韩| 国产精品一区免费观看| 欧美日本不卡视频| 牛人盗摄一区二区三区视频| 欧美一区=区| 亚洲欧美精品在线| 国产精品99久久久久久宅男 | 久久综合免费视频影院| 性18欧美另类| 亚洲一区二区三区四区中文| 亚洲乱码国产乱码精品精| 在线观看成人小视频| 国产一区美女| 国产一区二区三区四区在线观看| 国产精品每日更新| 国产精品视频专区| 国产精品久久久久久妇女6080| 欧美三级电影网| 欧美日韩久久久久久| 欧美连裤袜在线视频| 欧美日韩日本国产亚洲在线| 欧美日韩1区2区| 欧美日韩一卡| 国产精品视频自拍| 国产日韩精品视频一区二区三区| 国产精品一区在线观看| 国产欧美在线看| 国产综合久久| 亚洲国产精品电影在线观看| 亚洲片在线资源| 99精品免费视频| 中文一区二区在线观看| 亚洲综合视频1区| 久久精品免费看| 久久综合五月天婷婷伊人| 欧美国产日韩一二三区| 亚洲精品小视频| 亚洲欧美一区在线| 久久久成人精品| 欧美日韩国产亚洲一区| 国产精品剧情在线亚洲| 精品盗摄一区二区三区| 亚洲精品乱码久久久久久蜜桃91| 99视频一区| 久久精品一区二区| 欧美激情国产精品| 99pao成人国产永久免费视频| 亚洲一区视频在线| 狂野欧美性猛交xxxx巴西| 欧美日韩亚洲国产精品| 国产又爽又黄的激情精品视频| 亚洲国产成人精品视频| 亚洲小说欧美另类社区| 久久一区中文字幕| 亚洲人成7777| 久久激情五月激情| 欧美美女bbbb| 国内精品视频在线播放| 一区二区三区免费看| 艳妇臀荡乳欲伦亚洲一区| 篠田优中文在线播放第一区| 奶水喷射视频一区| 国产精品人人做人人爽 | 国产精品sss| 亚洲国产你懂的| 久久久国产视频91| 亚洲人在线视频| 久久久久久久综合狠狠综合| 国产精品第2页| 亚洲国产日韩一级| 久久久久久久久伊人| 一区二区三区四区蜜桃| 欧美91精品| 激情懂色av一区av二区av| 亚洲综合成人在线| 亚洲精品网址在线观看| 美女国内精品自产拍在线播放| 国产午夜精品在线| 亚洲欧美成人综合| 99伊人成综合|