欧美一二区视频,国产一区二区三区四区三区四,一区二区三区在线高清

libtidy是一個開源的用來診斷,分析,生成html文檔的一個庫
下面的例子是使用libtidy獲取頁面鏈接的例子
代碼如下:

#ifndef PARSEPAGE_HPP
#define PARFSPAGE_HPP
#include <string>
#include <vector>
#include <tidy/buffio.h>
#include <tidy/fileio.h>
#include <tidy/tidy.h>
#include <tidy/tidyenum.h>
#include <tidy/platform.h>

//! 解析html頁面
class ParsePage
{
public:
    typedef std::vector<std::string> String;
public:
    ParsePage(int rank = 0,const std::string& cur = ""):rank(rank),cur(cur)
    {
        doc = tidyCreate();
        root = tidyGetRoot(doc);
    }
    ~ParsePage()
    {
        tidyRelease(doc);
    }
public:
    //! 解析給定文件
    bool LoadFile(const char* file)
    {
        return 1 == tidyParseFile(doc,file);
    }
    //!解析給定內存
    bool LoadBuffer(const char* buffer)
    {
        return 1 == tidyParseString(doc,buffer);
    }
    //! 內容解析
    void Check()
    {
        CheckHref(root);
    }
    //! 獲取鏈接
    int GetLinkNumber()const{return links.size();}
    std::string GetLinkByIndex(int index){return links.at(index);}
private:
    void DoHref(TidyAttr attr);
    void CheckHref(TidyNode node);
private:
    TidyDoc     doc;
    TidyNode    root;
    std::string cur;
    int         rank;
    String      links;
};

#endif
//! ccsdu2004

實現:

#include <boost/algorithm/string.hpp>
#include "parsepage.hpp"

void ParsePage::DoHref(TidyAttr attr)
{
    std::string href(tidyAttrValue(attr));
    //! 郵箱地址
    if(boost::algorithm::starts_with(href,"mailto:"))
    {
    }
    //! 鏈接地址
    else
    {
        if(boost::algorithm::starts_with(href,"http:"))
        {
            size_t itr = href.find_last_of('#');
            if(itr != std::string::npos)
            {
                href = href.substr(0,itr);
            }
        }
        else
        {
            if(boost::algorithm::contains(href,"#"))
                return;
        }

        links.push_back(href);
    }
}

void ParsePage::CheckHref(TidyNode node)
{
    TidyNode child;
    for(child = tidyGetChild(node);child;child = tidyGetNext(child))
    {
        TidyAttr attr = tidyAttrGetHREF(child);
        if(attr)
        {
            DoHref(attr);
        }
        CheckHref(child);
    }
}

這個對象比較簡單
調用Check之后所有的頁面鏈接在links中

posted on 2011-03-11 19:29 ccsdu2009 閱讀(2042) 評論(0) 編輯收藏引用所屬分類: 雜項

只有注冊用戶登錄后才能發表評論。


相關文章: 自己做的股票量化軟件 -蝸牛股票量化分析軟件 MACD計算代碼新做一個選股軟件計算力驚人使用libcurl上傳文件到sftp服務器 ms server插入數據庫返回自動生成ID的C#例子 js顯示2015-07-10 12:24:03時間格式 2014年軟件開發計劃 C語言調用python腳本3 C#使用c語言編寫dll的例子使用libao+mpeg123播放mp3的例子

網站導航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

導航

常用鏈接

留言簿(26)

隨筆分類(335)

隨筆檔案(379)

文章檔案(2)

XYZ

程序員

積分與排名

最新隨筆

最新評論

閱讀排行榜

評論排行榜