青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

socketref,再見!高德

https://github.com/adoggie

  C++博客 :: 首頁 :: 聯(lián)系 :: 聚合  :: 管理
  246 Posts :: 4 Stories :: 312 Comments :: 0 Trackbacks

常用鏈接

留言簿(54)

我參與的團(tuán)隊(duì)

搜索

  •  

最新評論

閱讀排行榜

評論排行榜

幾個(gè)性能問題: 
  1. 商品圖像信息加入pgsql, 字段類型: model.BinaryField  (django 1.6) 
  2. django1.6提供數(shù)據(jù)庫長連接功能  
CONN_MAX_AGE 參數(shù),可加快訪問速度
  3. gevent.spawn() 創(chuàng)建所有task,將導(dǎo)致進(jìn)程被直接Kill掉,因?yàn)閮?nèi)存瘋長,所涉及的資源達(dá)到頂端將被OS殺死,包括:內(nèi)存overload,file handle...
      使用 gevent.pool.Pool控制并發(fā)數(shù)量
   4. postgresql.conf 修改max_connections參數(shù)到300并發(fā)數(shù)
  5. 導(dǎo)入數(shù)據(jù)時(shí),可先去除Table的索引,加快插入速度 
  
6 . django關(guān)閉DEBUG模式(會導(dǎo)致內(nèi)存泄露不釋放) 





#
--coding:utf-8--


'''
    yixun_crawler - 易迅網(wǎng)站商品信息收集器
    author: scott
    date:

    目前僅考慮單點(diǎn)設(shè)備登錄

    lxml 的xpath還存在部分問題(還是自己沒完全領(lǐng)會呢?)

    source-code and db-sample:
           http://114.215.178.29/static/projects/crawler/
'''

import imp
imp.load_source('init','../init_script.py')
import gevent
import os,os.path,sys,struct,time,traceback,signal,threading,copy,base64,datetime

# from django.db import connection
#
 from django.db.models import Sum
from django.db import transaction

import yixun.models as  yixun

from bson.objectid import ObjectId
import lxml.etree as etree

import urllib2,urlparse

dbfile = 'goods.txt'

fdbfile = open(dbfile,'wb')

class ResourceItem:
    def __init__(self,text,href=None,tag=None,parent=None):
        self.text = text
        self.tag=tag
        self.href=href
        self.children=[]
        self.parent = parent


def scrape_page(url,pageIndex,cat1,cat2,cat3):
    print 'scrape_page:',url

    req = urllib2.urlopen(url)
    data = req.read()
    # savefile(data)
    html = etree.HTML(data.decode('utf-8'))

    #page size

    curPage = 0
    r = html.xpath('//*[@id="list"]/div[5]/div[2]/span/b/text()')
    if not r: return False
    curPage = r[0]
    r = html.xpath('//*[@id="list"]/div[5]/div[2]/span/text()')
    if not r : return False
    pageNum = int(r[0][1:])
    print pageNum,curPage

    #有一種情況,傳入大于總page數(shù)量的值,server會返回第一個(gè)page

    if pageIndex > pageNum:
        return False


    #檢索品牌
    goods = html.xpath(u"//div[@class='mod_goods']")
    if not goods:
        print 'skipped..'
        return False
    for g in goods:
        for e in g.getchildren():
            if e.get('class') ==  'mod_goods_info':    #一下search動(dòng)作用xpath無法實(shí)現(xiàn),所以只好挨個(gè)查找
                name = ''
                price =None
                link = ''
                for  p in e.getchildren():
                    if p.get('class')=='mod_goods_tit':
                        a= p.getchildren()[0]
                        name =  a.text.encode('utf-8')
                        link = a.get('href')

                    if p.get('class')=='mod_goods_price':
                        price = p.getchildren()[0].getchildren()[1].text.encode('utf-8')
                if name and price and link:
                    # print name , price ,link
                    text = "%s || %s || %s || %s || %s || %s\n"%(cat1,cat2,cat3,name,price,link.strip())

                    print text

                    gitem = yixun.GoodsItem()
                    gitem.cat1 = cat1
                    gitem.cat2 = cat2
                    gitem.cat3 = cat3
                    gitem.name = name
                    gitem.cat5 =  link

                    try:
                        gitem.price = float(price)
                    except:
                        pass
                    gitem.save()

                    # fdbfile.write(text)
                    # fdbfile.flush()


    return True

    # ss= p.xpath('..//dd/a')

'''
http://searchex.yixun.com/705740t705741-1-/?YTAG=2.1738456040037
http://searchex.yixun.com/html?path=705740t705741&area=1&sort=0&show=0&page=2&size=40&pf=0&as=0&charset=utf-8&YTAG=2.1738456040037#list
http://searchex.yixun.com/html?path=705740t705741&area=1&sort=0&show=0&page=1&size=40&pf=0&as=0&charset=utf-8&YTAG=2.1738456040037#list
'''
def scrape_cat(cat,yPageId,yPageLevel,tag,cat1,cat2,cat3):
    try:
        print cat.href
        #parse url
        url = cat.href
        fs =  urlparse.urlparse(url)
        path,qs=fs[2],fs[4]
        cat_idx =  path[1:].split('-')[0]
        # tag = qs.split('=')[1]
        tag = "%s.%s%s"%(yPageLevel,yPageId,tag)
        #make path url
        for page in range(1,500):
            url = "http://searchex.yixun.com/html?path=%s&area=1&sort=0&show=0&page=%s&size=40&pf=0&as=0&charset=utf-8&YTAG=%s#list"%(cat_idx,page,tag)
            if not scrape_page(url,page,cat1,cat2,cat3):
                break

        return


    except:
        traceback.print_exc()
        # print 'page is null,skipped..'

def savefile(d,filename='sample.html'):
    f = open(filename,'w')
    f.write(d)
    f.close()

def test():
    try:
        url = 'http://searchex.yixun.com/705740t705741-1-/?YTAG=2.1738456040037'
        fs =  urlparse.urlparse(url)
        path,qs=fs[2],fs[4]
        cat_idx =  path[1:].split('-')[0]
        tag = qs.split('=')[1]
        print cat_idx,tag

        return

        all_url = 'http://searchex.yixun.com/html?YTAG=3.705766287001&path=705882t705893'
        req = urllib2.urlsplit(all_url)
        html = req.read()
        savefile(html)

        dom = etree.HTML(html.decode('utf-8'))
        p = dom.xpath(u"//div[@title='品牌']")[0]
        ss= p.xpath('..//dd/a')
        print ss[0].text.encode('utf-8')

    except:
        traceback.print_exc()

def craw_start():
    import re
    try:
        all_url = 'http://searchex.yixun.com/?YTAG=2.1738456090000'
        req = urllib2.urlopen(all_url)
        html = req.read()

        # group = re.search("window\.yPageId ='(.*?)'",html)
        yPageId = re.search("window\.yPageId\s*=\s*'(\d+?)'",html).group(1)
        yPageLevel = re.search("window\.yPageLevel\s*=\s*'(\d+?)'",html).group(1)
        print yPageId,yPageLevel

        dom = etree.HTML(html.decode('gb2312'))
        all_cats=[]
        cat1_list = dom.xpath("//div[@class='m_classbox']")
        for cat in cat1_list:
            cat1_text = cat.xpath('h3/text()')[0]
            cat1_e = ResourceItem(cat1_text)
            all_cats.append(cat1_e)
            print cat1_e.text.encode('utf-8')
            div = cat.xpath("div")[0]
            for dl in  div.xpath('dl'):
                cat2 = dl.xpath('dt/a')[0]
                cat2_e = ResourceItem(cat2.text,href=cat2.attrib['href'],tag=cat2.attrib['ytag'],parent=cat1_e)
                cat1_e.children.append(cat2_e)
                print ' '*4,cat1_e.text.encode('utf-8'),cat2_e.href,cat2_e.tag
                for cat3 in dl.xpath('dd/a'):
                    cat3_e = ResourceItem(cat3.text,href=cat3.attrib['href'],tag=cat3.attrib['ytag'],parent=cat2_e)
                    cat2_e.children.append(cat3_e)
                    print ' '*8,cat3_e.text.encode('utf-8'),cat3_e.href,cat3_e.tag
        tasks =[]
        for e1 in all_cats:
            print '-'*1,e1.text.encode('utf-8')
            for e2 in e1.children:
                print '  '*2    ,e2.text.encode('utf-8')
                for e3 in e2.children:
                    print '  '*4,e3.text.encode('utf-8')
                    task = gevent.spawn(scrape_cat,e3,yPageId,yPageLevel,e2.tag,e1.text.encode('utf-8'),e2.text.encode('utf-8'),e3.text.encode('utf-8'))
                    tasks.append(task)
                    # scrape_cat(e3,yPageId,yPageLevel,e2.tag,e1.text.encode('utf-8'),e2.text.encode('utf-8'),e3.text.encode('utf-8'))
                    # return
        gevent.joinall(tasks)
    except:
        traceback.print_exc()


if __name__ == '__main__':
    craw_start()
    # test()
    pass
posted on 2014-05-20 11:33 放屁阿狗 閱讀(17182) 評論(0)  編輯 收藏 引用

只有注冊用戶登錄后才能發(fā)表評論。
網(wǎng)站導(dǎo)航: 博客園   IT新聞   BlogJava   博問   Chat2DB   管理


青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            久久免费观看视频| 国产亚洲欧美一区在线观看| 亚洲国产精品一区二区三区| 久久精品视频在线观看| 亚洲一区国产精品| 国产精品一页| 久久久亚洲一区| 久久亚洲精品一区二区| 在线观看欧美一区| 欧美激情a∨在线视频播放| 欧美成人日本| 亚洲一区二区三区四区在线观看| 黑人一区二区三区四区五区| 久久免费高清视频| 欧美大片免费久久精品三p| 一区二区日韩欧美| 亚洲欧美日韩综合一区| 在线精品国产欧美| 最新高清无码专区| 欧美精品日韩一本| 久久成人在线| 久久视频在线看| 亚洲欧美国内爽妇网| 久久久国产一区二区| 亚洲精品视频在线播放| 国产精品久久久久av| 久久久久天天天天| 欧美高清一区二区| 久久狠狠亚洲综合| 欧美激情精品久久久久久蜜臀| 亚洲欧美激情四射在线日| 欧美一区二区女人| 一区二区高清在线| 久久精品国产99国产精品澳门| 亚洲精品欧美激情| 欧美一区二区视频在线| 日韩一本二本av| 欧美在线中文字幕| 亚洲淫性视频| 亚洲一区二区动漫| 久久久www成人免费无遮挡大片| 亚洲欧美日韩一区二区在线 | 在线亚洲美日韩| 最近中文字幕mv在线一区二区三区四区| 日韩一区二区福利| 亚洲人成网站精品片在线观看| 亚洲与欧洲av电影| 9人人澡人人爽人人精品| 久久国产欧美精品| 欧美影院在线| 国产精品成人观看视频免费| 欧美黄色视屏| 在线观看精品视频| 欧美在线观看视频在线| 亚洲女同在线| 欧美视频在线不卡| 亚洲日本久久| 亚洲国产精品电影| 久久天天躁狠狠躁夜夜爽蜜月| 欧美一区视频| 国产欧美日韩亚州综合| 在线视频亚洲一区| 亚洲伊人一本大道中文字幕| 欧美精品一区三区| 亚洲黄色有码视频| 亚洲欧洲一区二区在线观看| 久久综合999| 麻豆成人在线观看| 在线观看视频一区二区欧美日韩| 亚洲一区激情| 久久久久99精品国产片| 国产一区自拍视频| 久久精品一二三区| 快she精品国产999| 亚洲国产另类精品专区| 免费成人在线观看视频| 欧美承认网站| 日韩一级片网址| 欧美激情第1页| 亚洲乱码国产乱码精品精天堂| 一区二区三区欧美亚洲| 欧美日韩一二三区| 亚洲午夜激情| 久久久久久97三级| 亚洲国产精品电影| 欧美极品影院| 亚洲午夜电影网| 久久综合网色—综合色88| 亚洲福利国产| 欧美日韩亚洲一区二区三区在线 | 欧美日韩亚洲天堂| 亚洲特级片在线| 久久精品系列| 亚洲国产精品热久久| 欧美另类在线播放| 亚洲欧美精品中文字幕在线| 久久亚洲精选| av成人手机在线| 国产欧美 在线欧美| 久久久久久久久久久一区| 欧美高潮视频| 亚洲欧美在线免费| 91久久久久久国产精品| 国产精品麻豆欧美日韩ww | 亚洲永久免费av| 欧美国产另类| 欧美在线一二三| 亚洲免费电影在线| 国产一区二区三区黄视频| 欧美精品亚洲一区二区在线播放| 欧美亚洲一区二区三区| 亚洲美女av在线播放| 葵司免费一区二区三区四区五区| 亚洲午夜一区二区三区| 91久久在线观看| 国内精品久久久久影院优| 欧美亚州一区二区三区| 免费成人小视频| 久久久久九九九九| 亚洲一区欧美激情| 亚洲人线精品午夜| 亚洲午夜电影网| 国产在线高清精品| 久久精品国产一区二区电影| 亚洲视频一区二区免费在线观看| 亚洲欧美中文在线视频| 久久一区亚洲| 午夜久久美女| 亚洲黄页视频免费观看| 亚洲一区在线看| 韩国美女久久| 红桃视频欧美| 欧美日韩一区二区视频在线 | 欧美在线免费| 亚洲国产日韩欧美| 欧美日韩一区免费| 久久久综合精品| 欧美不卡高清| 亚洲自拍偷拍视频| 亚洲福利专区| 国产精品日韩欧美一区二区| 美女视频一区免费观看| 久久蜜桃香蕉精品一区二区三区| 亚洲毛片一区二区| 欧美在线亚洲在线| 亚洲天堂免费观看| 午夜精品久久久久久99热软件| 伊人久久亚洲热| 国产精品日韩欧美一区二区三区 | 欧美日韩国语| 欧美伊人久久大香线蕉综合69| 一本一本久久a久久精品综合妖精 一本一本久久a久久精品综合麻豆 | 香蕉乱码成人久久天堂爱免费| 欧美国产日韩精品| 欧美一区永久视频免费观看| 日韩天堂在线观看| 亚洲电影免费观看高清完整版在线| 国产精品日本欧美一区二区三区| 免费成人av| 亚洲午夜精品网| 性欧美大战久久久久久久免费观看 | 久久国产精品久久精品国产| 欧美a级大片| 亚洲人屁股眼子交8| 欧美激情久久久久久| 久久精品1区| 一区二区三区精品在线| 亚洲黄色免费电影| 在线免费不卡视频| 激情综合网址| 99re热这里只有精品免费视频| 亚洲第一在线综合在线| 国产真实久久| 浪潮色综合久久天堂| 欧美日韩高清免费| 欧美日韩免费在线| 欧美激情精品久久久久久变态| 久久久久免费观看| 亚洲人成精品久久久久| 亚洲欧美国产77777| 亚洲精品看片| 亚洲无线视频| 欧美一级夜夜爽| 欧美区一区二区三区| 欧美片第1页综合| 欧美午夜a级限制福利片| 欧美性jizz18性欧美| 欧美日韩一区二区在线视频| 欧美日韩999| 国产精品自拍三区| 日韩午夜激情电影| 男人的天堂亚洲| 欧美日本韩国一区二区三区| 欧美性理论片在线观看片免费| 欧美日韩免费看| 国产九九视频一区二区三区| 日韩视频免费大全中文字幕| 一区二区三区欧美在线| 米奇777超碰欧美日韩亚洲| 免播放器亚洲|