• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>

            Codejie's C++ Space

            Using C++

            LingosHook:自己造的輪子對路面要求太高了~


                為了搞定HTML,這幾天在學(xué)著用Tidylib,終于搞明白了,喜滋滋地合并到代碼中一測試,傻眼了--字符集問題。。。
                Tidylib的輸入流似乎只支持const char*, 因此不的不將std::wstring從‘寬字節(jié)’轉(zhuǎn)換為‘多字節(jié)。轉(zhuǎn)換了幾次,時(shí)好時(shí)壞,搞到半夜才發(fā)現(xiàn)自己所用的幾個(gè)測試HTML頁面都各種包含著不同的字符集,于是字符集問題就出來了,也搞死我了~最后一咬牙,一跺腳,老子我不轉(zhuǎn)了,都用‘RAW’數(shù)據(jù)好了,‘寬’到‘多’直接用UTF8了。。。于是就有了下面的代碼。

            int CHtmlTidyObject::Tidy(const std::wstring &input, std::wstring &output)
            {
                
            int codepage = CP_UTF8;//54936;//CP_UTF8;

                
            int ret = -1;

                TidyDoc tdoc 
            = tidyCreate();
                
            if(tidyOptSetBool(tdoc, TidyMark, no) != yes)
                    
            return -1;
                
            if(tidyOptSetInt(tdoc, TidyDoctypeMode, TidyDoctypeOmit) != yes)
                    
            return -1;
                
            if(tidyOptSetBool(tdoc, TidyHideComments, yes) != yes)
                    
            return -1;
                
            if(tidyOptSetInt(tdoc, TidyWrapLen, 0!= yes)
                    
            return -1;
                
            //if(tidyOptSetBool(tdoc, TidyMakeClean, yes) != yes)//css
                
            //    return -1;
              
                
            if(tidyOptSetBool(tdoc, TidyUpperCaseTags, yes) != yes)
                    
            return -1;
                
            if(tidyOptSetBool(tdoc, TidyHtmlOut, yes) != yes)
                    
            return -1;
                
            if(tidySetCharEncoding(tdoc, "raw"!= 0)
                    
            return -1;
                
                
            if(tidyOptSetBool(tdoc, TidyShowWarnings, no) != yes)
                    
            return -1;
                
            if(tidyOptSetInt(tdoc, TidyShowErrors, 0!= yes)
                    
            return -1;

                
            if(tidyOptSetBool(tdoc, TidyForceOutput, yes) != yes)
                    
            return -1;

                
            int sz = WideCharToMultiByte(codepage, 0, input.c_str(), input.size(), NULL, 0, NULL, NULL);
                
            if(sz == -1)
                    
            return -1;
                
            char* buf = new char[sz + 1];
                sz 
            = WideCharToMultiByte(codepage, 0, input.c_str(), input.size(), buf, sz, NULL, NULL);
                
                
            if(tidyParseString(tdoc, buf) >= 0)
                
            {
                    
            //TidyBuffer errbuf = {0};
                    
            //tidySetErrorBuffer( tdoc, &errbuf );
                    if(tidyCleanAndRepair(tdoc) >= 0)
                    
            {
                        
            //tidyRunDiagnostics( tdoc ); 

                        TidyBuffer outbuf 
            = 0 };
                        
            if(tidySaveBuffer(tdoc, &outbuf) >= 0)
                        
            {
                            
            //std::cout << "OUTPUT->\n" << outbuf.bp << std::endl;
                            int wsz = MultiByteToWideChar(codepage, 0, (const char*)outbuf.bp, outbuf.size, NULL, 0);
                            wchar_t
            * wbuf = new wchar_t[wsz + 1];
                            wsz 
            = MultiByteToWideChar(codepage, 0, (const char*)outbuf.bp, outbuf.size, wbuf, wsz);
                            output 
            = wbuf;
                            delete [] wbuf;
                            ret 
            = 0;
                        }

                        tidyBufFree(
            &outbuf);
                    }

                    
            //std::cout << "ERROR->\n" << errbuf.bp << std::endl;
                    
            //tidyBufFree(&errbuf);
                }


                delete [] buf;

                tidyRelease(tdoc);

                
            return ret;
            }


                感覺還有問題,但經(jīng)過Tidy處理,TinyHtmlParser確實(shí)能解析原來解不開的HTML數(shù)據(jù)了,就先放著吧,測試看看先~唉,HTML從頭到尾都是最影響LingosHook的部分,早知道應(yīng)該多好好找找穩(wěn)定的Parser,自己造的輪子對路面要求太高了。。。

            posted on 2010-05-12 18:06 codejie 閱讀(532) 評論(2)  編輯 收藏 引用 所屬分類: C++LingosHook

            評論

            # re: LingosHook:自己造的輪子對路面要求太高了~ 2010-05-13 11:42 陳梓瀚(vczh)

            HTML這種一個(gè)字符串可以由多個(gè)字符集構(gòu)成的東西,根本就是結(jié)構(gòu)化的二進(jìn)制文件,而不是文本文件……  回復(fù)  更多評論   

            # re: LingosHook:自己造的輪子對路面要求太高了~ 2010-05-13 12:12 codejie

            @陳梓瀚(vczh)
            這個(gè)‘結(jié)構(gòu)化’放到XML文件上比較合適,HTML就不合適了。。不然哪有‘瀏覽器容錯(cuò)能力‘之說呢。。所以,還是當(dāng)文本處理比較方便點(diǎn)。  回復(fù)  更多評論   

            公告

            Using C++

            導(dǎo)航

            統(tǒng)計(jì)

            留言簿(73)

            隨筆分類(513)

            積分與排名

            最新評論

            閱讀排行榜

            評論排行榜

            久久婷婷五月综合色99啪ak| 久久久无码精品亚洲日韩蜜臀浪潮| 国产精品九九九久久九九| 国内精品伊人久久久久av一坑 | 伊人久久亚洲综合影院| 中文国产成人精品久久不卡| 97久久国产露脸精品国产| 久久精品九九亚洲精品天堂| 天天影视色香欲综合久久| 亚洲国产精品成人久久| 久久精品二区| 国产亚洲美女精品久久久久狼| 欧美精品福利视频一区二区三区久久久精品 | 久久天天躁狠狠躁夜夜不卡 | 久久久久99精品成人片| 久久香综合精品久久伊人| 免费观看久久精彩视频| 国产亚洲精久久久久久无码77777 国产亚洲精品久久久久秋霞 | 国内精品久久久久久久久| 亚洲愉拍99热成人精品热久久| 一级做a爱片久久毛片| 久久久久亚洲AV无码观看| 国产精品99久久不卡| 99久久777色| 久久久免费精品re6| 狠狠色综合网站久久久久久久高清 | 色婷婷综合久久久久中文一区二区| 久久久WWW免费人成精品| 亚洲成色999久久网站| 国产精品福利一区二区久久| 人妻精品久久久久中文字幕69 | av午夜福利一片免费看久久| 伊人久久大香线蕉AV一区二区| 亚洲国产精品久久久久久| 国产91色综合久久免费分享| 久久九九兔免费精品6| 亚洲午夜精品久久久久久浪潮 | 久久久久久无码国产精品中文字幕| 久久亚洲综合色一区二区三区| 久久国产成人精品麻豆| aaa级精品久久久国产片|