青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

posts - 297,  comments - 15,  trackbacks - 0

這里是維基百科對網絡爬蟲的詞條頁面。網絡爬蟲以叫網絡蜘蛛,網絡機器人,這是一個程序,其會自動的通過網絡抓取互聯網上的網頁,這種技術一般可能用來檢查你的站點上所有的鏈接是否是都是有效的。當然,更為高級的技術是把網頁中的相關數據保存下來,可以成為搜索引擎。

從技相來說,實現抓取網頁可能并不是一件很困難的事情,困難的事情是對網頁的分析和整理,那是一件需要有輕量智能,需要大量數學計算的程序才能做的事情。下面一個簡單的流程:

 

在這里,我們只是說一下如何寫一個網頁抓取程序。

首先我們先看一下,如何使用命令行的方式來找開網頁。

telnet somesite.com 80
GET /index.html HTTP/1.0
按回車兩次

使用telnet就是告訴你其實這是一個socket的技術,并且使用HTTP的協議,如 GET方法來獲得網頁,當然,接下來的事你就需要解析HTML文法,甚至還需要解析Javascript,因為現在的網頁使用Ajax的越來越多了,而很多網頁內容都是通過Ajax技術加載的,因為,只是簡單地解析HTML文件在未來會遠遠不夠。當然,在這里,只是展示一個非常簡單的抓取,簡單到只能做為一個例子,下面這個示例的偽代碼:

取網頁
for each 鏈接 in 當前網頁所有的鏈接
{
if(如果本鏈接是我們想要的 || 這個鏈接從未訪問過)
{
處理對本鏈接
把本鏈接設置為已訪問
}
}
require “rubygems”
require “mechanize”
class Crawler < WWW::Mechanize
attr_accessor :callback
INDEX = 0
DOWNLOAD = 1
PASS = 2
def initialize
super
init
@first = true
self.user_agent_alias = “Windows IE 6″
end
def init
@visited = []
end
def remember(link)
@visited << link
end
def perform_index(link)
self.get(link)
if(self.page.class.to_s == “WWW::Mechanize::Page”)
links = self.page.links.map {|link| link.href } - @visited
links.each do |alink|
start(alink)
end
end
end
def start(link)
return if link.nil?
if(!@visited.include?(link))
action = @callback.call(link)
if(@first)
@first = false
perform_index(link)
end
case action
when INDEX
perform_index(link)
when DOWNLOAD
self.get(link).save_as(File.basename(link))
when PASS
puts “passing on #{link}”
end
end
end
def get(site)
begin
puts “getting #{site}”
@visited << site
super(site)
rescue
puts “error getting #{site}”
end
end
end

上面的代碼就不必多說了,大家可以去試試。下面是如何使用上面的代碼:

require “crawler”
x = Crawler.new
callback = lambda do |link|
if(link =~/\\.(zip|rar|gz|pdf|doc)
x.remember(link)
return Crawler::PASS
elsif(link =~/\\.(jpg|jpeg)/)
return Crawler::DOWNLOAD
end
return Crawler::INDEX;
end
x.callback = callback
x.start(”http://somesite.com”)

下面是一些和網絡爬蟲相關的開源網絡項目

from:
http://coolshell.cn/?p=27

posted on 2010-02-18 21:54 chatler 閱讀(726) 評論(0)  編輯 收藏 引用 所屬分類: SearchEngine

只有注冊用戶登錄后才能發表評論。
網站導航: 博客園   IT新聞   BlogJava   博問   Chat2DB   管理


<2010年11月>
31123456
78910111213
14151617181920
21222324252627
2829301234
567891011

常用鏈接

留言簿(10)

隨筆分類(307)

隨筆檔案(297)

algorithm

Books_Free_Online

C++

database

Linux

Linux shell

linux socket

misce

  • cloudward
  • 感覺這個博客還是不錯,雖然做的東西和我不大相關,覺得看看還是有好處的

network

OSS

  • Google Android
  • Android is a software stack for mobile devices that includes an operating system, middleware and key applications. This early look at the Android SDK provides the tools and APIs necessary to begin developing applications on the Android platform using the Java programming language.
  • os161 file list

overall

搜索

  •  

最新評論

閱讀排行榜

評論排行榜

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            欧美精品久久99| 欧美日韩专区在线| 国产一区成人| 久久精品国产精品亚洲精品| 亚洲欧美在线播放| 国产农村妇女毛片精品久久莱园子 | 亚洲剧情一区二区| 欧美日韩不卡视频| 亚洲欧洲av一区二区| 欧美一级精品大片| 在线观看欧美成人| 91久久夜色精品国产网站| 欧美日本一区二区视频在线观看| 亚洲欧美另类综合偷拍| 篠田优中文在线播放第一区| 亚洲高清三级视频| 亚洲精品韩国| 国产日韩欧美在线看| 欧美成人精品高清在线播放| 欧美伦理一区二区| 欧美制服第一页| 欧美va亚洲va香蕉在线| 亚洲欧美韩国| 久久综合99re88久久爱| 亚洲一区国产一区| 久久久一二三| 亚洲欧美国产视频| 猛男gaygay欧美视频| 亚洲欧美日本另类| 美女精品视频一区| 欧美与欧洲交xxxx免费观看| 欧美国产激情| 久久精品视频免费观看| 欧美久久99| 另类春色校园亚洲| 国产欧美一区二区三区在线老狼| 欧美激情欧美激情在线五月| 国产日本欧美一区二区三区| 亚洲经典一区| 亚洲国产二区| 久久成人一区二区| 性欧美精品高清| 欧美日韩不卡一区| 亚洲电影中文字幕| 很黄很黄激情成人| 亚洲免费在线观看| 亚洲亚洲精品在线观看 | 玖玖精品视频| 欧美一区不卡| 欧美私人网站| 亚洲老板91色精品久久| 亚洲国产高清自拍| 久久精品av麻豆的观看方式 | 亚洲国产精品黑人久久久| 亚洲一区二区视频在线| 在线亚洲精品福利网址导航| 欧美14一18处毛片| 欧美成人免费观看| 精品二区视频| 久久久久久亚洲精品中文字幕| 欧美一区二区视频97| 国产精品久久久久天堂| 中文一区二区在线观看| 亚洲素人在线| 欧美午夜不卡| 亚洲无毛电影| 午夜精品视频在线观看| 国产精品久久久一区二区| 一区二区三区 在线观看视频| 国产精品99久久久久久久久久久久 | 亚洲专区一区| 久久超碰97人人做人人爱| 国产精品任我爽爆在线播放| 亚洲一区二区三| 欧美影院午夜播放| 国产午夜精品一区理论片飘花| 性欧美暴力猛交69hd| 久久久精品国产一区二区三区| 国产在线拍揄自揄视频不卡99| 久久精品一本| 亚洲福利视频网站| 亚洲天堂av在线免费| 国产精品一卡二卡| 欧美影院成人| 亚洲电影在线| 亚洲欧美一区二区三区久久| 国产区精品视频| 久久夜色精品一区| 日韩视频不卡| 久久成人精品电影| 在线欧美一区| 欧美日韩一区自拍| 欧美一区二区网站| 欧美成在线视频| 亚洲影音一区| 伊人成人在线| 欧美三级视频在线播放| 欧美一区二区三区男人的天堂| 你懂的一区二区| 亚洲欧美激情一区二区| 激情久久婷婷| 国产精品毛片一区二区三区 | 欧美一区免费视频| 欧美黄色片免费观看| 亚洲一区亚洲| 亚洲高清视频在线| 国产精品视频自拍| 榴莲视频成人在线观看| 亚洲一区区二区| 亚洲电影网站| 久久久久久久久久久久久女国产乱| 91久久亚洲| 国产自产2019最新不卡| 欧美色欧美亚洲另类二区| 久久久久免费视频| 亚洲男人的天堂在线观看| 亚洲激情午夜| 麻豆精品91| 欧美影院视频| 亚洲影院免费观看| 99re8这里有精品热视频免费 | 国产精品亚洲综合一区在线观看| 美女主播一区| 久久精品天堂| 午夜在线视频观看日韩17c| 亚洲日本aⅴ片在线观看香蕉| 久久久久一区二区三区| 午夜欧美不卡精品aaaaa| 亚洲肉体裸体xxxx137| 国外成人免费视频| 国产麻豆精品在线观看| 欧美手机在线视频| 欧美激情亚洲一区| 免费观看在线综合色| 久久久久欧美精品| 久久电影一区| 久久九九久久九九| 欧美在线国产| 欧美在线亚洲一区| 欧美一区二区高清| 性欧美video另类hd性玩具| 亚洲一区二区三区中文字幕在线 | 久久国产高清| 欧美在线观看一区二区| 欧美在线观看网站| 欧美一进一出视频| 久久经典综合| 久久久久国产一区二区| 久久久久久91香蕉国产| 久久全球大尺度高清视频| 久久久国际精品| 免费短视频成人日韩| 欧美成人免费网| 亚洲高清免费在线| 亚洲精品国产视频| 亚洲私拍自拍| 欧美影院成年免费版| 麻豆91精品91久久久的内涵| 老司机一区二区| 欧美精品v日韩精品v韩国精品v | 国产欧美一区二区视频| 国产一区二区三区不卡在线观看| 狠狠久久亚洲欧美专区| 亚洲国产福利在线| 一区二区三区高清在线 | 黄色一区二区三区| 亚洲激情午夜| 亚洲一区二区三区四区中文| 欧美一区二区| 蜜臀av国产精品久久久久| 亚洲黄色天堂| 亚洲一区二区三区三| 久久精视频免费在线久久完整在线看| 久久人人爽人人| 欧美午夜不卡视频| 激情五月***国产精品| 亚洲精品免费一二三区| 亚洲欧美制服另类日韩| 美国十次成人| 一本色道久久加勒比88综合| 欧美一区二区高清| 欧美伦理视频网站| 黄色亚洲网站| 亚洲免费视频网站| 欧美成人综合在线| 亚洲淫片在线视频| 欧美sm视频| 国产综合久久久久久| 一二三四社区欧美黄| 久久躁狠狠躁夜夜爽| 亚洲视频视频在线| 欧美高清视频在线播放| 国产一区二区三区高清在线观看| 99riav国产精品| 久久综合综合久久综合| 亚洲午夜精品久久| 欧美国产欧美亚洲国产日韩mv天天看完整| 国产精品久久久久一区二区三区共| 亚洲国产精品va在看黑人| 久久av一区二区|