青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

posts - 297,  comments - 15,  trackbacks - 0

這里是維基百科對網(wǎng)絡(luò)爬蟲的詞條頁面。網(wǎng)絡(luò)爬蟲以叫網(wǎng)絡(luò)蜘蛛,網(wǎng)絡(luò)機器人,這是一個程序,其會自動的通過網(wǎng)絡(luò)抓取互聯(lián)網(wǎng)上的網(wǎng)頁,這種技術(shù)一般可能用來檢查你的站點上所有的鏈接是否是都是有效的。當(dāng)然,更為高級的技術(shù)是把網(wǎng)頁中的相關(guān)數(shù)據(jù)保存下來,可以成為搜索引擎。

從技相來說,實現(xiàn)抓取網(wǎng)頁可能并不是一件很困難的事情,困難的事情是對網(wǎng)頁的分析和整理,那是一件需要有輕量智能,需要大量數(shù)學(xué)計算的程序才能做的事情。下面一個簡單的流程:

 

在這里,我們只是說一下如何寫一個網(wǎng)頁抓取程序。

首先我們先看一下,如何使用命令行的方式來找開網(wǎng)頁。

telnet somesite.com 80
GET /index.html HTTP/1.0
按回車兩次

使用telnet就是告訴你其實這是一個socket的技術(shù),并且使用HTTP的協(xié)議,如 GET方法來獲得網(wǎng)頁,當(dāng)然,接下來的事你就需要解析HTML文法,甚至還需要解析Javascript,因為現(xiàn)在的網(wǎng)頁使用Ajax的越來越多了,而很多網(wǎng)頁內(nèi)容都是通過Ajax技術(shù)加載的,因為,只是簡單地解析HTML文件在未來會遠(yuǎn)遠(yuǎn)不夠。當(dāng)然,在這里,只是展示一個非常簡單的抓取,簡單到只能做為一個例子,下面這個示例的偽代碼:

取網(wǎng)頁
for each 鏈接 in 當(dāng)前網(wǎng)頁所有的鏈接
{
if(如果本鏈接是我們想要的 || 這個鏈接從未訪問過)
{
處理對本鏈接
把本鏈接設(shè)置為已訪問
}
}
require “rubygems”
require “mechanize”
class Crawler < WWW::Mechanize
attr_accessor :callback
INDEX = 0
DOWNLOAD = 1
PASS = 2
def initialize
super
init
@first = true
self.user_agent_alias = “Windows IE 6″
end
def init
@visited = []
end
def remember(link)
@visited << link
end
def perform_index(link)
self.get(link)
if(self.page.class.to_s == “WWW::Mechanize::Page”)
links = self.page.links.map {|link| link.href } - @visited
links.each do |alink|
start(alink)
end
end
end
def start(link)
return if link.nil?
if(!@visited.include?(link))
action = @callback.call(link)
if(@first)
@first = false
perform_index(link)
end
case action
when INDEX
perform_index(link)
when DOWNLOAD
self.get(link).save_as(File.basename(link))
when PASS
puts “passing on #{link}”
end
end
end
def get(site)
begin
puts “getting #{site}”
@visited << site
super(site)
rescue
puts “error getting #{site}”
end
end
end

上面的代碼就不必多說了,大家可以去試試。下面是如何使用上面的代碼:

require “crawler”
x = Crawler.new
callback = lambda do |link|
if(link =~/\\.(zip|rar|gz|pdf|doc)
x.remember(link)
return Crawler::PASS
elsif(link =~/\\.(jpg|jpeg)/)
return Crawler::DOWNLOAD
end
return Crawler::INDEX;
end
x.callback = callback
x.start(”http://somesite.com”)

下面是一些和網(wǎng)絡(luò)爬蟲相關(guān)的開源網(wǎng)絡(luò)項目

from:
http://coolshell.cn/?p=27

posted on 2010-02-18 21:54 chatler 閱讀(724) 評論(0)  編輯 收藏 引用 所屬分類: SearchEngine

只有注冊用戶登錄后才能發(fā)表評論。
網(wǎng)站導(dǎo)航: 博客園   IT新聞   BlogJava   博問   Chat2DB   管理


<2025年11月>
2627282930311
2345678
9101112131415
16171819202122
23242526272829
30123456

常用鏈接

留言簿(10)

隨筆分類(307)

隨筆檔案(297)

algorithm

Books_Free_Online

C++

database

Linux

Linux shell

linux socket

misce

  • cloudward
  • 感覺這個博客還是不錯,雖然做的東西和我不大相關(guān),覺得看看還是有好處的

network

OSS

  • Google Android
  • Android is a software stack for mobile devices that includes an operating system, middleware and key applications. This early look at the Android SDK provides the tools and APIs necessary to begin developing applications on the Android platform using the Java programming language.
  • os161 file list

overall

搜索

  •  

最新評論

閱讀排行榜

評論排行榜

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            欧美激情按摩| 亚洲精品一区二区三区不| 欧美一区国产一区| 欧美一区二区三区精品| 亚洲综合社区| 亚洲欧美卡通另类91av| 久久成人这里只有精品| 久久免费视频这里只有精品| 免费黄网站欧美| 欧美日韩免费一区二区三区视频| 欧美性大战久久久久久久| 国产精品午夜在线| 伊大人香蕉综合8在线视| 亚洲美女免费精品视频在线观看| 亚洲免费视频中文字幕| 久久精品首页| 91久久亚洲| 一区二区日韩伦理片| 亚洲一区二区免费视频| 久热国产精品视频| 欧美日韩午夜激情| 一区二区在线免费观看| 日韩视频在线一区二区三区| 午夜精品亚洲| 亚洲高清色综合| 亚洲图片自拍偷拍| 免费久久99精品国产自| 国产欧美婷婷中文| 日韩一级免费| 狼人天天伊人久久| 亚洲网站啪啪| 欧美日韩国产精品一卡| 激情视频一区二区| 午夜在线观看免费一区| 免费观看亚洲视频大全| 亚洲视频一区在线观看| 美女国产一区| 极品尤物一区二区三区| 欧美理论大片| 极品少妇一区二区三区| 午夜精品视频在线观看| 亚洲精品欧美日韩| 久久久久久久久伊人| 欧美性感一类影片在线播放| 136国产福利精品导航网址| 欧美专区在线| 亚洲天堂成人| 国产精品v欧美精品∨日韩| 亚洲日本在线观看| 嫩草伊人久久精品少妇av杨幂| 欧美亚洲一区在线| 国产精品久久国产精麻豆99网站| 日韩视频一区二区在线观看| 你懂的国产精品永久在线| 西西人体一区二区| 国产日韩免费| 久久欧美肥婆一二区| 久久精品女人天堂| 激情成人在线视频| 老司机成人网| 久久久久久噜噜噜久久久精品| 国产亚洲欧洲997久久综合| 欧美综合激情网| 亚洲一区二区三区在线看| 欧美香蕉大胸在线视频观看| 亚洲午夜久久久久久久久电影院| 亚洲欧洲精品天堂一级| 欧美成人a视频| 亚洲区国产区| 正在播放亚洲一区| 国产日韩综合| 欧美成人国产一区二区| 久久婷婷国产综合精品青草| 91久久中文| 日韩一级黄色大片| 国产欧美精品xxxx另类| 老司机精品视频网站| 欧美黄在线观看| 亚洲图片自拍偷拍| 亚洲欧美韩国| 亚洲精品1区| 国产噜噜噜噜噜久久久久久久久| 久久久精品2019中文字幕神马| 久久国产精品亚洲va麻豆| 在线免费观看日韩欧美| 亚洲激情电影在线| 国产欧美三级| 亚洲精品免费一二三区| 国产亚洲毛片| 日韩视频免费观看| 国内精品**久久毛片app| 亚洲国产老妈| 国内精品美女在线观看| 亚洲美女电影在线| 好吊成人免视频| 亚洲美女毛片| 在线看片第一页欧美| 亚洲午夜免费视频| 亚洲国产日韩欧美| 午夜精品福利一区二区三区av | 国产精品私人影院| 欧美高清免费| 国产精品青草久久| 欧美激情二区三区| 国产欧美日韩精品丝袜高跟鞋| 亚洲福利专区| 国内偷自视频区视频综合| av成人黄色| 亚洲免费av电影| 久久久噜噜噜久久| 欧美一区二区三区四区在线观看地址 | 亚洲午夜一二三区视频| 久久久久久久波多野高潮日日 | 亚洲精品免费一二三区| 国产亚洲制服色| 亚洲一区二区动漫| 亚洲视频视频在线| 欧美激情国产日韩| 欧美国产91| 在线看一区二区| 欧美亚洲在线| 香蕉久久一区二区不卡无毒影院| 欧美日韩国产在线看| 女女同性女同一区二区三区91| 国产色综合久久| 亚洲专区免费| 欧美一级久久| 国产精品久久久亚洲一区 | 一区二区av| 99国产精品久久久久久久成人热 | 国产精品美女久久久久久2018| 欧美大片在线影院| 在线观看日韩av电影| 久久精品综合一区| 久久久久国产一区二区三区四区| 国产欧美日韩一区二区三区在线| 亚洲一区二区欧美日韩| 亚洲欧美区自拍先锋| 国产精品一区视频| 欧美在线视频观看免费网站| 久久精品国产第一区二区三区最新章节| 国产精品免费久久久久久| 亚洲调教视频在线观看| 欧美亚洲视频| 在线成人中文字幕| 欧美理论电影在线观看| 亚洲美女av黄| 欧美日韩在线高清| 亚洲欧美日韩精品久久奇米色影视| 亚洲欧美日韩综合一区| 国产日韩欧美黄色| 久久av老司机精品网站导航| 久久免费午夜影院| 日韩亚洲国产精品| 国产精品久久久久久久久| 亚洲欧美成人| 欧美国产精品va在线观看| 一本大道久久精品懂色aⅴ| 欧美手机在线| 久久久久久噜噜噜久久久精品| 亚洲精品久久久久久久久久久| 亚洲视频一区在线| 国产一区二区三区久久 | 欧美韩日精品| 亚洲一区二区日本| 国产一区视频在线看| 欧美大片在线观看一区| 亚洲欧美日韩成人| 亚洲国产高清视频| 午夜一区二区三区在线观看| 激情久久五月| 欧美午夜在线一二页| 久久亚洲春色中文字幕| 亚洲天堂av在线免费| 欧美www视频| 亚欧成人精品| 亚洲桃色在线一区| 影音国产精品| 国产欧美日韩免费| 欧美三级韩国三级日本三斤| 久久亚洲春色中文字幕| 亚洲综合不卡| 日韩亚洲欧美一区| 欧美黑人在线播放| 久久久免费精品| 欧美一区二区三区的| 正在播放日韩| 亚洲三级国产| 亚洲大胆av| 黄色成人在线免费| 国产色综合久久| 国产免费成人在线视频| 国产精品久久久久影院色老大| 欧美日韩mp4| 欧美激情精品久久久六区热门| 久久久青草青青国产亚洲免观| 亚洲欧美综合精品久久成人| 中文日韩在线| 亚洲色诱最新| 亚洲午夜精品网|