青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

posts - 297,  comments - 15,  trackbacks - 0

這里是維基百科對網絡爬蟲的詞條頁面。網絡爬蟲以叫網絡蜘蛛,網絡機器人,這是一個程序,其會自動的通過網絡抓取互聯網上的網頁,這種技術一般可能用來檢查你的站點上所有的鏈接是否是都是有效的。當然,更為高級的技術是把網頁中的相關數據保存下來,可以成為搜索引擎。

從技相來說,實現抓取網頁可能并不是一件很困難的事情,困難的事情是對網頁的分析和整理,那是一件需要有輕量智能,需要大量數學計算的程序才能做的事情。下面一個簡單的流程:

 

在這里,我們只是說一下如何寫一個網頁抓取程序。

首先我們先看一下,如何使用命令行的方式來找開網頁。

telnet somesite.com 80
GET /index.html HTTP/1.0
按回車兩次

使用telnet就是告訴你其實這是一個socket的技術,并且使用HTTP的協議,如 GET方法來獲得網頁,當然,接下來的事你就需要解析HTML文法,甚至還需要解析Javascript,因為現在的網頁使用Ajax的越來越多了,而很多網頁內容都是通過Ajax技術加載的,因為,只是簡單地解析HTML文件在未來會遠遠不夠。當然,在這里,只是展示一個非常簡單的抓取,簡單到只能做為一個例子,下面這個示例的偽代碼:

取網頁
for each 鏈接 in 當前網頁所有的鏈接
{
if(如果本鏈接是我們想要的 || 這個鏈接從未訪問過)
{
處理對本鏈接
把本鏈接設置為已訪問
}
}
require “rubygems”
require “mechanize”
class Crawler < WWW::Mechanize
attr_accessor :callback
INDEX = 0
DOWNLOAD = 1
PASS = 2
def initialize
super
init
@first = true
self.user_agent_alias = “Windows IE 6″
end
def init
@visited = []
end
def remember(link)
@visited << link
end
def perform_index(link)
self.get(link)
if(self.page.class.to_s == “WWW::Mechanize::Page”)
links = self.page.links.map {|link| link.href } - @visited
links.each do |alink|
start(alink)
end
end
end
def start(link)
return if link.nil?
if(!@visited.include?(link))
action = @callback.call(link)
if(@first)
@first = false
perform_index(link)
end
case action
when INDEX
perform_index(link)
when DOWNLOAD
self.get(link).save_as(File.basename(link))
when PASS
puts “passing on #{link}”
end
end
end
def get(site)
begin
puts “getting #{site}”
@visited << site
super(site)
rescue
puts “error getting #{site}”
end
end
end

上面的代碼就不必多說了,大家可以去試試。下面是如何使用上面的代碼:

require “crawler”
x = Crawler.new
callback = lambda do |link|
if(link =~/\\.(zip|rar|gz|pdf|doc)
x.remember(link)
return Crawler::PASS
elsif(link =~/\\.(jpg|jpeg)/)
return Crawler::DOWNLOAD
end
return Crawler::INDEX;
end
x.callback = callback
x.start(”http://somesite.com”)

下面是一些和網絡爬蟲相關的開源網絡項目

from:
http://coolshell.cn/?p=27

posted on 2010-02-18 21:54 chatler 閱讀(726) 評論(0)  編輯 收藏 引用 所屬分類: SearchEngine

只有注冊用戶登錄后才能發表評論。
網站導航: 博客園   IT新聞   BlogJava   博問   Chat2DB   管理


<2009年2月>
25262728293031
1234567
891011121314
15161718192021
22232425262728
1234567

常用鏈接

留言簿(10)

隨筆分類(307)

隨筆檔案(297)

algorithm

Books_Free_Online

C++

database

Linux

Linux shell

linux socket

misce

  • cloudward
  • 感覺這個博客還是不錯,雖然做的東西和我不大相關,覺得看看還是有好處的

network

OSS

  • Google Android
  • Android is a software stack for mobile devices that includes an operating system, middleware and key applications. This early look at the Android SDK provides the tools and APIs necessary to begin developing applications on the Android platform using the Java programming language.
  • os161 file list

overall

搜索

  •  

最新評論

閱讀排行榜

評論排行榜

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            国产性色一区二区| 欧美亚洲日本网站| 午夜精彩国产免费不卡不顿大片| 国产精品成人久久久久| 午夜日韩在线| 欧美14一18处毛片| 99国产麻豆精品| 国产精品视频成人| 久久蜜桃av一区精品变态类天堂| 亚洲激情电影中文字幕| 亚洲一品av免费观看| 国内偷自视频区视频综合| 美女视频网站黄色亚洲| 在线亚洲美日韩| 老司机67194精品线观看| 亚洲精一区二区三区| 国产精品三级久久久久久电影| 久久先锋影音| 一区二区三区国产在线观看| 久久午夜精品| 在线一区亚洲| 精品91久久久久| 欧美先锋影音| 毛片基地黄久久久久久天堂| 亚洲一区二区三区视频播放| 欧美成人视屏| 欧美一区三区二区在线观看| 亚洲精品免费在线播放| 国产欧美日韩视频一区二区三区| 欧美成人一区二免费视频软件| 亚洲欧美在线网| 亚洲美女在线一区| 蜜臀av性久久久久蜜臀aⅴ| 亚洲欧美视频一区二区三区| 亚洲精品久久久蜜桃| 国产一区二区三区在线免费观看 | 亚洲人成在线观看一区二区| 国产精品嫩草久久久久| 免费中文字幕日韩欧美| 欧美伊人影院| 亚洲一区二区不卡免费| 最新亚洲视频| 欧美aa国产视频| 久久精品99国产精品酒店日本| 99香蕉国产精品偷在线观看| 激情欧美国产欧美| 国产毛片精品国产一区二区三区| 欧美精品少妇一区二区三区| 久久午夜av| 久久久国产精品一区| 亚洲欧美日韩一区二区在线| 一本久久综合亚洲鲁鲁| 亚洲人午夜精品| 亚洲福利国产| 欧美高清视频一区二区| 麻豆91精品| 久久一综合视频| 久久激情五月婷婷| 欧美一二三区精品| 午夜在线精品偷拍| 午夜精品久久久久久久| 亚洲影院高清在线| 午夜精品福利视频| 亚洲免费视频在线观看| 亚洲淫性视频| 亚洲欧美日产图| 欧美亚洲午夜视频在线观看| 亚洲欧美日韩国产成人精品影院| 亚洲一区二区四区| 亚洲一区视频| 午夜日本精品| 欧美伊人久久久久久午夜久久久久 | 久久综合伊人77777蜜臀| 久久久中精品2020中文| 久久久天天操| 嫩草国产精品入口| 欧美精品日韩一本| 欧美日韩精品福利| 国产精品久线观看视频| 国产精品一区二区三区久久| 国产亚洲精品激情久久| 激情综合网址| 亚洲精品乱码久久久久久蜜桃麻豆| 亚洲乱码一区二区| 亚洲色无码播放| 欧美一级专区免费大片| 久久全球大尺度高清视频| 女人天堂亚洲aⅴ在线观看| 亚洲国产成人tv| a4yy欧美一区二区三区| 亚洲欧美视频在线| 久久免费99精品久久久久久| 欧美r片在线| 欧美视频在线观看 亚洲欧| 国产精品综合色区在线观看| 韩国av一区二区三区四区| 亚洲高清资源综合久久精品| 夜夜爽www精品| 欧美一区三区二区在线观看| 免费一级欧美在线大片| 亚洲精品视频免费| 欧美一区二区高清| 欧美不卡三区| 国产伦精品一区二区三| 亚洲黄色精品| 亚洲欧美清纯在线制服| 欧美成人视屏| 国产精品99久久久久久www| 久久久免费精品视频| 欧美日韩理论| 国外成人在线| 亚洲午夜精品久久久久久app| 久久久久久久久久久久久9999| 亚洲国内精品| 久久成人国产精品| 欧美日韩免费观看一区三区| 国产原创一区二区| 亚洲午夜视频在线| 蜜桃视频一区| 亚洲综合欧美日韩| 欧美精品123区| 韩国一区二区三区美女美女秀| 日韩一二在线观看| 久久综合国产精品| 亚洲小少妇裸体bbw| 欧美成人一区二区在线| 国内伊人久久久久久网站视频| 亚洲图片欧美一区| 亚洲国产成人精品视频| 久久国产一区二区| 国产精品亚洲综合色区韩国| 亚洲狼人综合| 欧美超级免费视 在线| 亚洲嫩草精品久久| 欧美私人啪啪vps| 亚洲免费高清视频| 欧美电影专区| 久久久久九九九| 国产一区久久久| 欧美一级大片在线免费观看| 日韩写真在线| 欧美激情第1页| 亚洲福利在线观看| 卡一卡二国产精品| 欧美综合国产| 国产午夜久久久久| 久久成人精品一区二区三区| 亚洲视频专区在线| 国产精品成人免费精品自在线观看| 亚洲伦理精品| 亚洲精品国产视频| 免费日本视频一区| 亚洲激情女人| 欧美成年人在线观看| 老司机精品导航| 亚洲国产二区| 欧美高清免费| 欧美肥婆在线| 亚洲精品免费在线| 亚洲精品色婷婷福利天堂| 欧美激情女人20p| 一区二区三区日韩精品| 亚洲精品裸体| 国产精品久久97| 欧美亚洲专区| 久久av红桃一区二区小说| 狠狠色丁香婷婷综合久久片| 久久午夜电影网| 蜜桃av综合| 99av国产精品欲麻豆| 一区二区高清在线观看| 国产精品免费看片| 久久久99精品免费观看不卡| 久久精品国产v日韩v亚洲| 在线观看免费视频综合| 亚洲黄色高清| 欧美午夜精品一区二区三区| 亚洲欧洲av一区二区三区久久| 午夜精品久久久久影视| 激情av一区二区| 亚洲福利国产精品| 国产精品第一区| 久久久久久久久一区二区| 理论片一区二区在线| 99视频超级精品| 亚洲自拍电影| 在线观看中文字幕不卡| 99riav国产精品| 国产偷久久久精品专区| 欧美第十八页| 国产精品伦一区| 免费成人av在线| 欧美三级电影网| 久久频这里精品99香蕉| 欧美激情按摩| 欧美综合第一页| 欧美成人午夜激情| 亚欧成人在线| 欧美1区2区视频| 欧美一区二区黄色|