• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>

            大漠落日

            while(!dead) study++;
            posts - 46, comments - 126, trackbacks - 0, articles - 0
              C++博客 :: 首頁(yè) :: 新隨筆 :: 聯(lián)系 :: 聚合  :: 管理

            天涯帖子快捕

            Posted on 2011-03-12 16:03 亂78糟 閱讀(3373) 評(píng)論(12)  編輯 收藏 引用 所屬分類: 免費(fèi)小軟件開(kāi)源

            閑暇之余,小哥我愛(ài)泡在天涯論壇上看帖,最常逛的就是煮酒論史和經(jīng)濟(jì)雜談。

            天涯就像一個(gè)熱鬧的大茶館,泡上一杯熱茶,放著自己喜歡的音樂(lè),悠然的點(diǎn)開(kāi)自己關(guān)注的帖子。巴特,廣告,吵雜的頂貼讓小哥我悠閑的心情大打折扣。

            從開(kāi)始的無(wú)視,到后來(lái)的忍受,到最后的爆發(fā),小哥我終于憤怒了——難道就沒(méi)有一款好用的工具嗎?

            百度、谷歌、必硬之,結(jié)果都不滿意。

            奶奶的,咱好歹也是一寫程序的,不就是一個(gè)抓帖子的小軟件嗎?小哥自己搗鼓一個(gè)!

            經(jīng)過(guò)5天的分析,編碼,測(cè)試,終于,小哥我滿意的笑了。





            抓貼截圖:



            這里提供下載,希望能夠幫助同是天涯客一點(diǎn)小忙。如果發(fā)現(xiàn)了BUG,或者有好的建議,一定要告訴小哥我哦,呵呵。

            已經(jīng)在XP,2003,WIN7下測(cè)試過(guò),解壓即可運(yùn)行。

            最新版本:1.0 beta3   (圖不再更新了,等v1.0正式版推出,代碼一并提供)

            點(diǎn)擊下載

            既然有人想要代碼,那么等程序版本穩(wěn)定了,代碼一定奉上,到時(shí)候別嫌小哥我代碼寫的臭哈,呵呵。


            =======================[2011.3.28]=============================

            額,實(shí)在是抱歉,大腦一發(fā)熱這玩意就整出來(lái)了,可是熱情一消散,加上最近挺忙,小哥立即跟泄了氣的皮球一樣,再也不想去碰這東西。

            其實(shí)在使用的時(shí)候也發(fā)現(xiàn)不少BUG,還有不少網(wǎng)友提出很多頗有建設(shè)性的建議和意見(jiàn),我覺(jué)得都很好,但是,整個(gè)人就是懶得去修復(fù)和新增新的功能,1.0正式版也不會(huì)再出(至少是在我手上不會(huì)出了)。

            不少網(wǎng)友想要代碼,其實(shí)代碼的原理和流程非常簡(jiǎn)單,小哥覺(jué)得說(shuō)破了就是哄人的小把戲,可能大家沒(méi)有忘這方面想把:)。


            我想我還是在提供代碼之前就代碼原理和路程先啰嗦幾句吧:

            1)利用IHTMLDocument2獲取網(wǎng)頁(yè)信息;

            2)根據(jù)天涯帖子的格式內(nèi)容(分析網(wǎng)頁(yè)得出),解析、獲取、修改需要網(wǎng)頁(yè)信息內(nèi)容,移除不需要的內(nèi)容比如廣告之類;

            3)將已經(jīng)重新構(gòu)造的html數(shù)據(jù)流保存為相應(yīng)的文件(html或者txt)。


            整理出來(lái)的一些還未實(shí)現(xiàn)的新功能和有待改善的地方:

            1)指定頁(yè)面抓取(很簡(jiǎn)單,含有頁(yè)面跳轉(zhuǎn)按鈕時(shí)你會(huì)發(fā)現(xiàn)天涯的程序員把所有分頁(yè)的鏈接全部按順序隱藏到了html代碼里,稍加遍歷就可得到)

            2)分頁(yè)合并,將多個(gè)分頁(yè)的內(nèi)容合并到一個(gè)分頁(yè)里面

            3)自動(dòng)跟蹤抓取,記錄用戶已經(jīng)抓取的帖子和頁(yè)數(shù),以后從這個(gè)地方自動(dòng)抓取,很實(shí)用的功能吧:)

            4)刪除回復(fù)某人的帖子冗余內(nèi)容(比如,LZ回復(fù)某用戶通常是:

            作者:xxxx 回復(fù)日期:2011-02-11 14:47:36  
            LZ這帖子寫的也忒好了!

            =========

            謝謝)

            5)自動(dòng)回帖,這個(gè)功能太邪惡鳥(niǎo),其實(shí)實(shí)現(xiàn)起來(lái)也灰常簡(jiǎn)單(原理不透露也不要問(wèn)我,自己慢慢琢磨和分析天涯的html的代碼就明白了)

            6)多線程抓取,當(dāng)前為一個(gè)線程抓,貌似有點(diǎn)慢- -

            7)。。。很多細(xì)微的功能,不一一道出了,感興趣的拿到代碼自己嘗試去吧。


            已經(jīng)發(fā)現(xiàn)的BUG:

            1)極少數(shù)帖子會(huì)導(dǎo)致無(wú)法抓取,原因是IHTMLDocument2無(wú)法順利下載頁(yè)面,程序無(wú)法收到FINISH消息,導(dǎo)致掛死,只能終止程序,原因小哥還沒(méi)弄清楚,熱切盼望懂的哥們給個(gè)解答,感激涕零!!

            2)部分帖子,比如上了紅黑板的(就是標(biāo)題顏色為紅臉或者黑臉,而且前面還有相顏色的小人笑臉標(biāo)記的帖子),HTML格式和通常的不一樣,導(dǎo)致抓取不到帖子實(shí)質(zhì)內(nèi)容,很好改的

            3)IE6內(nèi)核的瀏覽器脫機(jī)瀏覽抓取的帖子會(huì)變形,CSS文件導(dǎo)致,也比較好改

            目前發(fā)現(xiàn)的就這么多。


            廢話了這么多,希望的就是有能力有時(shí)間有興趣的同學(xué)可以搞個(gè)好用的抓取工具來(lái),我也好偷懶享享福:)。

            代碼倉(cāng)促完成,里面有大段C-V的重復(fù)代碼,也懶得改了,畢竟這是一個(gè)小玩具而已,對(duì)吧?


            代碼已經(jīng)提交到在googlecode上,注意,svn checkout需要密碼,而獲取密碼那個(gè)鏈接被Q掉了,記得先翻Q把密碼搞到手(qiang在c++ blog上盡然是一個(gè)違禁字,OMG, 偉大的天……朝!)。

            代碼本來(lái)想隨便用的,國(guó)人對(duì)版權(quán)木有概念,后來(lái)想想,算了,還是GPL吧,共同學(xué)習(xí)而已,感興趣的同學(xué)可以修改維護(hù)該代碼,你可以聯(lián)系我: yzljlss#126.com,我把你加到開(kāi)發(fā)者列表里。你也可以自己另起爐灶,公不公布源代碼木有關(guān)系,記得好用的工具給我郵一個(gè)呀:)

            google code 主頁(yè):http://code.google.com/p/ty-bbs-capture/

            代碼版權(quán):GPL 


            最后de呼喚:有好用的抓取工具記得一定要給小哥我U一個(gè)!

            Feedback

            # re: 天涯帖子快捕[未登錄](méi)  回復(fù)  更多評(píng)論   

            2011-03-12 17:04 by uniker
            好強(qiáng),用了一下,好用~

            # re: 天涯帖子快捕[未登錄](méi)  回復(fù)  更多評(píng)論   

            2011-03-12 17:07 by uniker
            抓取該地址http://www.tianya.cn/publicforum/content/develop/1/218143.shtml
            出現(xiàn)錯(cuò)誤提示
            RunTime Error!

            # re: 天涯帖子快捕  回復(fù)  更多評(píng)論   

            2011-03-12 21:45 by ccsdu2009
            我最喜歡看煮酒和情感2個(gè)
            哈哈

            # re: 天涯帖子快捕[未登錄](méi)  回復(fù)  更多評(píng)論   

            2011-03-13 01:50 by sand
            代碼一起貼出來(lái)?

            # re: 天涯帖子快捕[未登錄](méi)  回復(fù)  更多評(píng)論   

            2011-03-13 07:45 by fireemissary
            我還以為有代碼呢

            # re: 天涯帖子快捕  回復(fù)  更多評(píng)論   

            2011-03-14 17:54 by Soli
            求代碼。。。

            # re: 天涯帖子快捕  回復(fù)  更多評(píng)論   

            2011-03-15 17:38 by 亂78糟
            @uniker
            我試了一下,發(fā)現(xiàn)是抓取圖片的時(shí)候剛好那個(gè)圖片不存在無(wú)法被抓取,崩潰了,非常感謝反饋,我已經(jīng)修復(fù),beta3馬上發(fā)布,正式版公布的時(shí)候一并提供代碼,到時(shí)候,大家別嫌我代碼寫的臭哈。
            請(qǐng)持續(xù)關(guān)注~~呵呵

            # re: 天涯帖子快捕  回復(fù)  更多評(píng)論   

            2011-04-29 11:16 by SinoTOP
            感謝你,能抓圖的天涯帖子下載工具,真不多,你這個(gè)是最好用的。

            # re: 天涯帖子快捕  回復(fù)  更多評(píng)論   

            2011-08-04 16:15 by user
            我抓一個(gè)天涯旅游中的帖子,很不幸,圖片全都是同一個(gè)假圖片“tianya_content_original.gif”。怎么辦?

            # re: 天涯帖子快捕  回復(fù)  更多評(píng)論   

            2011-09-19 09:38 by 點(diǎn)點(diǎn)滴滴
            人家VB就搞定了
            http://www.newhua.com/soft/117669.htm

            # re: 天涯帖子快捕  回復(fù)  更多評(píng)論   

            2012-04-10 20:47 by ddd
            現(xiàn)在貌似不能用了..

            # re: 天涯帖子快捕  回復(fù)  更多評(píng)論   

            2012-07-10 18:54 by yahle
            因?yàn)樘煅牡奶訄D片通過(guò)js改為按需下載(頁(yè)面滾動(dòng)后才顯示),因此下載圖片基本是錯(cuò)誤的。
            如果大家有條件,自己上code.google.com下載代碼做修正。
            在TianyaParse.cpp文件的1041行


            _bstr_t t("src");
            改為
            _bstr_t t("original");

            就能下載到圖片了。
            不過(guò)在跑的時(shí)候,經(jīng)常會(huì)發(fā)生下載錯(cuò)誤(403沒(méi)有權(quán)限)
            原因是在設(shè)置下載圖片的 referer 時(shí),傳入的 pApp->m_pageWrap.currentURL 有誤,暫時(shí)沒(méi)發(fā)現(xiàn)哪個(gè)地方造成的,但
            通常多下載幾次就可以將圖片下載下來(lái),也就懶得幫他修正了。
            香港aa三级久久三级| 免费精品久久天干天干| 亚洲午夜久久久影院| 久久se精品一区二区影院| 久久福利青草精品资源站免费| 亚洲精品国产字幕久久不卡| 97香蕉久久夜色精品国产| 色欲综合久久躁天天躁| 久久亚洲高清综合| 久久亚洲国产最新网站| 欧美激情一区二区久久久| 亚洲精品乱码久久久久久蜜桃图片 | 色综合久久综精品| 国产高潮国产高潮久久久91| 99热成人精品免费久久| 亚洲v国产v天堂a无码久久| 色婷婷噜噜久久国产精品12p| 久久受www免费人成_看片中文 | 成人妇女免费播放久久久| 久久综合综合久久狠狠狠97色88| 超级碰久久免费公开视频| 久久精品国产99久久久香蕉| 99久久香蕉国产线看观香| 日本久久久久亚洲中字幕| 国产成人久久激情91| 深夜久久AAAAA级毛片免费看| 99久久精品免费看国产一区二区三区 | 国产激情久久久久影院小草 | 久久精品国产秦先生| 久久人人爽人人爽AV片| 亚洲va中文字幕无码久久| 久久精品视频免费| 伊人久久精品影院| 久久精品国产免费一区| 久久久久久精品久久久久| 亚洲综合婷婷久久| 久久中文字幕人妻丝袜| 国产精品成人久久久久久久| 狠狠色狠狠色综合久久| 久久国产福利免费| 99国产欧美久久久精品蜜芽 |