青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

posts - 297,  comments - 15,  trackbacks - 0

這里是維基百科對網絡爬蟲的詞條頁面。網絡爬蟲以叫網絡蜘蛛,網絡機器人,這是一個程序,其會自動的通過網絡抓取互聯網上的網頁,這種技術一般可能用來檢查你的站點上所有的鏈接是否是都是有效的。當然,更為高級的技術是把網頁中的相關數據保存下來,可以成為搜索引擎。

從技相來說,實現抓取網頁可能并不是一件很困難的事情,困難的事情是對網頁的分析和整理,那是一件需要有輕量智能,需要大量數學計算的程序才能做的事情。下面一個簡單的流程:

 

在這里,我們只是說一下如何寫一個網頁抓取程序。

首先我們先看一下,如何使用命令行的方式來找開網頁。

telnet somesite.com 80
GET /index.html HTTP/1.0
按回車兩次

使用telnet就是告訴你其實這是一個socket的技術,并且使用HTTP的協議,如 GET方法來獲得網頁,當然,接下來的事你就需要解析HTML文法,甚至還需要解析Javascript,因為現在的網頁使用Ajax的越來越多了,而很多網頁內容都是通過Ajax技術加載的,因為,只是簡單地解析HTML文件在未來會遠遠不夠。當然,在這里,只是展示一個非常簡單的抓取,簡單到只能做為一個例子,下面這個示例的偽代碼:

取網頁
for each 鏈接 in 當前網頁所有的鏈接
{
if(如果本鏈接是我們想要的 || 這個鏈接從未訪問過)
{
處理對本鏈接
把本鏈接設置為已訪問
}
}
require “rubygems”
require “mechanize”
class Crawler < WWW::Mechanize
attr_accessor :callback
INDEX = 0
DOWNLOAD = 1
PASS = 2
def initialize
super
init
@first = true
self.user_agent_alias = “Windows IE 6″
end
def init
@visited = []
end
def remember(link)
@visited << link
end
def perform_index(link)
self.get(link)
if(self.page.class.to_s == “WWW::Mechanize::Page”)
links = self.page.links.map {|link| link.href } - @visited
links.each do |alink|
start(alink)
end
end
end
def start(link)
return if link.nil?
if(!@visited.include?(link))
action = @callback.call(link)
if(@first)
@first = false
perform_index(link)
end
case action
when INDEX
perform_index(link)
when DOWNLOAD
self.get(link).save_as(File.basename(link))
when PASS
puts “passing on #{link}”
end
end
end
def get(site)
begin
puts “getting #{site}”
@visited << site
super(site)
rescue
puts “error getting #{site}”
end
end
end

上面的代碼就不必多說了,大家可以去試試。下面是如何使用上面的代碼:

require “crawler”
x = Crawler.new
callback = lambda do |link|
if(link =~/\\.(zip|rar|gz|pdf|doc)
x.remember(link)
return Crawler::PASS
elsif(link =~/\\.(jpg|jpeg)/)
return Crawler::DOWNLOAD
end
return Crawler::INDEX;
end
x.callback = callback
x.start(”http://somesite.com”)

下面是一些和網絡爬蟲相關的開源網絡項目

from:
http://coolshell.cn/?p=27

posted on 2010-02-18 21:54 chatler 閱讀(724) 評論(0)  編輯 收藏 引用 所屬分類: SearchEngine

只有注冊用戶登錄后才能發表評論。
網站導航: 博客園   IT新聞   BlogJava   博問   Chat2DB   管理


<2025年11月>
2627282930311
2345678
9101112131415
16171819202122
23242526272829
30123456

常用鏈接

留言簿(10)

隨筆分類(307)

隨筆檔案(297)

algorithm

Books_Free_Online

C++

database

Linux

Linux shell

linux socket

misce

  • cloudward
  • 感覺這個博客還是不錯,雖然做的東西和我不大相關,覺得看看還是有好處的

network

OSS

  • Google Android
  • Android is a software stack for mobile devices that includes an operating system, middleware and key applications. This early look at the Android SDK provides the tools and APIs necessary to begin developing applications on the Android platform using the Java programming language.
  • os161 file list

overall

搜索

  •  

最新評論

閱讀排行榜

評論排行榜

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            欧美日韩免费一区二区三区| 伊人久久综合97精品| 激情小说亚洲一区| 国产欧美va欧美不卡在线| 久久亚洲国产精品日日av夜夜| 在线欧美一区| 亚洲人成人一区二区三区| aa级大片欧美三级| 在线视频日韩| 欧美 亚欧 日韩视频在线| 亚洲激情一区| 亚洲精品专区| 亚洲天堂网在线观看| 亚洲一区免费| 亚洲欧美久久| 美女诱惑一区| 99这里只有久久精品视频| 亚洲欧美成人网| 农村妇女精品| 黄色精品一二区| 欧美激情亚洲视频| 国产一区二区在线免费观看| 日韩一级黄色av| 美女黄色成人网| 激情伊人五月天久久综合| 欧美成人免费观看| 在线视频国内自拍亚洲视频| 亚洲自拍偷拍麻豆| 亚洲电影自拍| 久久亚洲一区二区| 国产一区二区三区久久久| 亚洲一区二区三区久久| 亚洲三级影院| 亚洲国产精品久久人人爱蜜臀 | 欧美永久精品| 日韩视频一区二区三区| 亚洲国产天堂网精品网站| 亚洲国产视频一区二区| 欧美成人一区在线| 免费亚洲网站| 一本色道久久88综合亚洲精品ⅰ | 91久久久在线| 一本色道久久综合亚洲二区三区 | 欧美激情日韩| 欧美岛国在线观看| 亚洲人成网站精品片在线观看 | 欧美大片91| 麻豆久久婷婷| 99精品欧美一区二区三区| 99综合精品| 亚洲人精品午夜| 亚洲影院在线观看| 在线观看亚洲视频| 亚洲精品网站在线播放gif| 国产精品夜夜夜| 国产精品一区免费观看| 免费日韩av| 欧美色中文字幕| 亚洲高清一区二区三区| 欧美三区在线| 欧美在线观看天堂一区二区三区 | 美日韩精品视频免费看| 亚洲一区二区三区在线视频| 久久综合九色综合欧美就去吻| 亚洲欧美日本国产有色| 久久精品成人| 欧美在线黄色| 亚洲毛片一区二区| 亚洲高清视频中文字幕| 久久精品青青大伊人av| 久久成人免费网| 亚洲自拍偷拍福利| 亚洲一区亚洲| 欧美亚洲网站| 你懂的国产精品永久在线| 亚洲国产日韩欧美| 一本色道久久综合亚洲精品不卡| 亚洲美女毛片| 欧美午夜精品久久久久久超碰| 妖精成人www高清在线观看| 一本久道久久久| 国产女人精品视频| 久久久xxx| 欧美激情二区三区| 亚洲桃色在线一区| 国产精品视频专区| 久热这里只精品99re8久| 在线观看欧美| 国产精品白丝av嫩草影院| 亚洲一区二区三区在线| 亚洲成色777777女色窝| 亚洲自拍16p| 夜久久久久久| 亚洲午夜精品久久久久久浪潮| 国产精品嫩草久久久久| 久久精品三级| 午夜精品视频一区| 亚洲成色精品| 久久婷婷国产综合国色天香| 中文精品视频| 亚洲免费成人| 亚洲激情在线视频| 国产综合在线视频| 亚洲午夜激情| 亚洲精品乱码久久久久久| 久久久综合网站| 久久不射2019中文字幕| 亚洲专区一区二区三区| 99国产麻豆精品| 亚洲欧美日韩直播| 国产精品久久夜| 国产精品免费久久久久久| 女女同性精品视频| 免费成人在线观看视频| 久久综合狠狠综合久久激情| 午夜在线播放视频欧美| 欧美中文字幕视频| 久久国产高清| 欧美福利电影在线观看| 欧美日韩国产大片| 亚洲性av在线| 午夜精品一区二区三区在线播放 | 宅男噜噜噜66国产日韩在线观看| 欧美精品久久一区二区| 亚洲一区一卡| 欧美大片免费久久精品三p | 国产日韩在线一区| 精品成人免费| 亚洲午夜91| 免费欧美电影| 亚洲男人天堂2024| 玖玖玖免费嫩草在线影院一区| 欧美日韩一区二区在线观看视频 | 久久精品视频99| 男人插女人欧美| 韩国一区二区三区美女美女秀| 亚洲精选在线| 蜜桃久久精品一区二区| 香蕉久久精品日日躁夜夜躁| 欧美va亚洲va日韩∨a综合色| 国产日韩欧美在线看| 亚洲视频在线视频| 一区二区三区日韩精品视频| 亚洲开发第一视频在线播放| 亚洲免费在线电影| 亚洲制服丝袜在线| 日韩午夜高潮| 欧美日韩综合视频| 老牛国产精品一区的观看方式| 国产日韩在线视频| 久久久99爱| 另类av一区二区| 亚洲黄色免费网站| 亚洲国产va精品久久久不卡综合| 欧美亚洲免费电影| 在线综合亚洲| 亚洲日本国产| 国产精品免费一区豆花| 久久国产精品一区二区三区四区| 久久精品天堂| 亚洲乱码国产乱码精品精| 亚洲精品在线观| 国产欧美在线看| 欧美777四色影视在线| 欧美激情一二三区| 欧美一区二区三区在线观看| 久久国产免费看| 欧美极品一区| 娇妻被交换粗又大又硬视频欧美| 一区二区三区久久| 亚洲精品人人| 亚洲欧美成人| 欧美 日韩 国产精品免费观看| 亚洲深夜激情| 国产精品a久久久久久| 欧美国产精品v| 亚洲精品国产精品乱码不99| 浪潮色综合久久天堂| 宅男精品导航| 欧美连裤袜在线视频| 99re66热这里只有精品4| 亚洲欧美一区二区视频| 狠狠色丁香婷婷综合久久片| 性久久久久久久久| 欧美一区二区三区的| 国产精品视频网站| 一本色道久久综合亚洲精品小说| 亚洲最黄网站| 欧美激情国产日韩| 亚洲欧洲精品一区| 一本大道久久精品懂色aⅴ| 欧美手机在线视频| 亚洲色无码播放| 美女国内精品自产拍在线播放| 亚洲国产欧美在线人成| 欧美国产日韩一区二区三区| 欧美成人亚洲成人| 在线一区二区三区做爰视频网站| 欧美激情综合在线| 亚洲一区国产精品|