• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            Cpper
            C/C++高級(jí)工程師 Android高級(jí)軟件工程師 IT集成工程師 音頻工程師 熟悉c,c++,java,c#,py,js,asp等多種語(yǔ)言 程序猿
            libtidy是一個(gè)開(kāi)源的用來(lái)診斷,分析,生成html文檔的一個(gè)庫(kù)
            下面的例子是使用libtidy獲取頁(yè)面鏈接的例子
            代碼如下:
            #ifndef PARSEPAGE_HPP
            #define PARFSPAGE_HPP
            #include 
            <string>
            #include 
            <vector>
            #include 
            <tidy/buffio.h>
            #include 
            <tidy/fileio.h>
            #include 
            <tidy/tidy.h>
            #include 
            <tidy/tidyenum.h>
            #include 
            <tidy/platform.h>

            //! 解析html頁(yè)面 
            class ParsePage
            {
            public:
                typedef std::vector
            <std::string> String;
            public:
                ParsePage(
            int rank = 0,const std::string& cur = ""):rank(rank),cur(cur)
                {
                    doc 
            = tidyCreate();
                    root 
            = tidyGetRoot(doc);
                }
                
            ~ParsePage()
                {
                    tidyRelease(doc);
                }
            public:
                
            //! 解析給定文件
                bool LoadFile(const char* file)
                {    
                    
            return 1 == tidyParseFile(doc,file);
                }
                
            //!解析給定內(nèi)存
                bool LoadBuffer(const char* buffer)
                {   
                    
            return 1 == tidyParseString(doc,buffer);
                }
                
            //! 內(nèi)容解析
                void Check()
                {   
                    CheckHref(root);
                }
                
            //! 獲取鏈接
                int GetLinkNumber()const{return links.size();}
                std::
            string GetLinkByIndex(int index){return links.at(index);} 
            private:
                
            void DoHref(TidyAttr attr);
                
            void CheckHref(TidyNode node);
            private:
                TidyDoc     doc;
                TidyNode    root;
                std::
            string cur;
                
            int         rank;
                String      links;
            };

            #endif
            //! ccsdu2004
            實(shí)現(xiàn):
            #include <boost/algorithm/string.hpp>
            #include 
            "parsepage.hpp"

            void ParsePage::DoHref(TidyAttr attr)
            {
                std::
            string href(tidyAttrValue(attr));
                
            //! 郵箱地址
                if(boost::algorithm::starts_with(href,"mailto:"))
                {
                }
                
            //! 鏈接地址
                else
                {
                    
            if(boost::algorithm::starts_with(href,"http:"))
                    {
                        size_t itr 
            = href.find_last_of('#');
                        
            if(itr != std::string::npos)
                        {
                            href 
            = href.substr(0,itr);
                        }
                    }
                    
            else
                    {   
                        
            if(boost::algorithm::contains(href,"#"))
                            
            return;
                    }
                
                    links.push_back(href);
                }
            }

            void ParsePage::CheckHref(TidyNode node)
            {
                TidyNode child;
                
            for(child = tidyGetChild(node);child;child = tidyGetNext(child))
                {
                    TidyAttr attr 
            = tidyAttrGetHREF(child);
                    
            if(attr)
                    {
                        DoHref(attr);
                    }
                    CheckHref(child);
                }
            }
            這個(gè)對(duì)象比較簡(jiǎn)單
            調(diào)用Check之后所有的頁(yè)面鏈接在links中

            posted on 2011-03-11 19:29 ccsdu2009 閱讀(2028) 評(píng)論(0)  編輯 收藏 引用 所屬分類: 雜項(xiàng)
             
            久久青青草原精品影院| 日韩久久久久中文字幕人妻 | 91亚洲国产成人久久精品| 久久不见久久见免费视频7| 韩国无遮挡三级久久| 精品人妻伦九区久久AAA片69| 久久精品国产一区二区| 一97日本道伊人久久综合影院| 97精品国产97久久久久久免费| 99久久久精品| 久久久久久午夜精品| 久久美女网站免费| 久久久国产视频| 99久久精品国产综合一区 | 亚洲精品成人久久久| 久久亚洲欧美国产精品| 久久精品无码专区免费 | 久久综合亚洲鲁鲁五月天| 精品一区二区久久| 亚洲色欲久久久综合网东京热| 久久精品国产一区二区电影| 精品国产乱码久久久久久郑州公司| 久久久久九九精品影院| 九九99精品久久久久久| 久久久久亚洲av无码专区| 性做久久久久久久久浪潮| 国产福利电影一区二区三区久久久久成人精品综合 | 亚洲精品美女久久久久99小说| 日韩亚洲欧美久久久www综合网| 久久精品国产免费观看三人同眠| 国产精品久久久久一区二区三区| 久久国产乱子伦免费精品| 一本久久免费视频| 亚洲一级Av无码毛片久久精品| 女同久久| 久久笫一福利免费导航| 精品久久久久久久久免费影院| 欧美激情精品久久久久久久九九九 | 91精品婷婷国产综合久久| 久久精品国产99国产精品澳门| 99久久超碰中文字幕伊人|