• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>

            鳳之焚的博客

            靜者,無瀾也.凈者,無貪也.無貪無瀾者,海納百川也!
            posts - 2, comments - 5, trackbacks - 0, articles - 0
              C++博客 :: 首頁 :: 新隨筆 :: 聯(lián)系 :: 聚合  :: 管理

            網(wǎng)頁源碼過濾

            Posted on 2006-08-29 16:43 鳳之焚 閱讀(3925) 評論(2)  編輯 收藏 引用 所屬分類: IE相關(guān)

            本例通過Mime filter技術(shù)對網(wǎng)頁源碼進(jìn)行過濾,本文部分摘自《HTML代碼過濾技術(shù)》

                   要實(shí)現(xiàn)HTML代碼過濾必需注冊一個(gè)或多個(gè)MIME過濾器(Pluggable MIME Filter)。MIME過濾器是一個(gè)COM對象,必需實(shí)現(xiàn)IInternetProtocolSink和IInternetProtocol接口。
                   在實(shí)現(xiàn)MIME過濾器對象之前,先看一下《Pluggable Protocols Overview》一文中關(guān)于MIME過濾器與WEB處理器(transaction handler,即urlmon.dll)之間接口的調(diào)用的描述(注:urlmon.dll內(nèi)部實(shí)現(xiàn)了IInternetProtocol和IInternetProtocolSink接口):
             
            1、 WEB處理器調(diào)用MIME過濾器的IInternetProtocolRoot::Start方法(IInternetProtocol從IInternetProtocolRoot派生);
            2、 WEB處理器先后調(diào)用MIME過濾器的IInternetProtocolSink::ReportProgress 和IInternetProtocolSink::ReportData方法;
            3、        MIME過濾器調(diào)用WEB處理器的IInternetProtocol::Read方法;
            4、 MIME過濾器調(diào)用WEB處理器的IInternetProtocolSink::ReportData方法;
            5、 WEB處理器調(diào)用MIME過濾器的IInternetProtoco::Read方法;
             
            因此,要實(shí)現(xiàn)MIME過濾器,有幾個(gè)重要的方法:
            1、IInternetProtocolRoot::Start方法:
            HRESULT Start(
                [in] LPCWSTR szUrl,
                [in] IInternetProtocolSink *pOIProtSink,
                [in] IInternetBindInfo *pOIBindInfo,
                [in] DWORD grfPI,
                [in] DWORD dwReserved
            );
            作為MIME過濾對象,szUrl傳入的是MIME的類型(如果是name space handlers對象,則該參數(shù)為一個(gè)即將下載或解析的URL)。若是你想得到URL,可以通過pOIBindInfo 接口得到,下面是示例:
                   LPOLESTR pwzUrl ;           
                   ULONG uElFetched ;
                   pIBindInfo->GetBindString( BINDSTRING_URL , &pwzUrl , 1 , &uElFetched )
            pOIProtSink是由urlmon.dll提供的IInternetProtocolSink接口,因?yàn)樵诤竺娴奶幚磉^程中,需要調(diào)用到該接口,所以要將它保存;
            grfPI是一個(gè)枚舉變量,必需包含PI_FILTER_MODE標(biāo)志,表示該對象運(yùn)行在filter模式中。
            dwReserved是一個(gè)指向PROTOCOLFILTERDATA結(jié)構(gòu)的指針,該結(jié)構(gòu)的pProtocol成員是由urlmon.dll提供的IInternetProtocol接口,因?yàn)樵诤竺娴奶幚磉^程中需要調(diào)用到該接口,所以要將它保存。實(shí)際上該接口也可以通過pOIProtSink參數(shù)調(diào)用QueryInterface得到,同樣PROTOCOLFILTERDATA結(jié)構(gòu)的pProtocolSink與pOIProtSink都是指向同一個(gè)接口。
                   在Start方法中,我們必需做的實(shí)際上只是保存urlmon.dll提供的IInternetProtocolSink
            和IInternetProtocol接口。
             
            2、IInternetProtocolSink::ReportProgress方法:
            HRESULT ReportProgress(
                [in] ULONG ulStatusCode,
                [in] LPCWSTR szStatusText
            作為MIME過濾器,ulStatusCode一般都是BINDSTATUS_CACHEFILENAMEAVAILABLE , 當(dāng)ulStatusCode為BINDSTATUS_CACHEFILENAMEAVAILABLE時(shí),szStatusText為臨時(shí)緩存文件的路徑名稱,但有一些網(wǎng)頁并不寫到緩存里,所以szStatusText可能為空字符串。
             
            3、IInternetProtocolSink::ReportData方法:
            HRESULT ReportData(
                [in] DWORD grfBSCF,
                [in] ULONG ulProgress,
                [in] ULONG ulProgressMax
            );
            IE下載文件過程中或下載完畢時(shí)會(huì)調(diào)用MIME過濾器的ReportData方法,ulProgressMax為文件總是數(shù)據(jù)量,ulProgress為下載進(jìn)度,理論上當(dāng)文件全部下載完后,ulProgress應(yīng)等于ulProgressMax(實(shí)際上,當(dāng)網(wǎng)頁文件不是很大時(shí),即使ulProgress不等于ulProgressMax時(shí),文件也可能全部下載下來),還有一個(gè)反應(yīng)文件下載情況的參數(shù)是grfBSCF。有時(shí),ReportData方法會(huì)被Web處理器調(diào)用多次。
                ReportData是過濾網(wǎng)頁內(nèi)容或修改網(wǎng)頁內(nèi)容比較合適的地方。在此地,可以將網(wǎng)頁內(nèi)容通過調(diào)用Read保存到自已的緩存或流中并做適當(dāng)?shù)奶幚恚ㄗ⒁鈾z查字符的編碼)。
            最后,別忘了調(diào)用Web處理器的IInternetProtocolSink::ReportData方法,向它匯報(bào)數(shù)據(jù)下載的情況。Web處理器得到此通知后,就會(huì)調(diào)用MIME過濾器的IInternetProtocol::Read,此時(shí),你就可以將修改后的數(shù)據(jù)交給WEB處理器。
                下面的代碼示例了如何在ReportData中調(diào)用Web處理器的Read預(yù)先保存數(shù)據(jù):
                                 CString Ts("");
                   char p[1024];
                   HRESULT hr;
                   ULONG Readtotal;
                   do
                   {
                          memset(p,0,sizeof(p));
                          hr = UrlMonProtocol->Read(p, sizeof(p)-1, &Readtotal);
                          CString pTemp(p);
                          Ts=Ts+pTemp;
            }while((hr != S_FALSE) && (hr != INET_E_DOWNLOAD_FAILURE) && (hr != INET_E_DATA_NOT_AVAILABLE));
             
            Read成功取得數(shù)據(jù)一般只返回S_OK或S_FALSE ,返回S_OK表示還有數(shù)據(jù),而S_FALSE
            表示數(shù)據(jù)已讀取完畢,因此循環(huán)的條件設(shè)為 hr==S_OK。那A處的條件判斷為什么不是
            if( hr == S_OK || hr == S_FALSE ) 呢, 因?yàn)槲野l(fā)現(xiàn)某些情況下,Read可能返回其
            它值,但仍然有成功讀取一部分?jǐn)?shù)據(jù)出來,數(shù)據(jù)的大小就是Readtotal指定的值。如果將
            那部分?jǐn)?shù)據(jù)遺落,網(wǎng)頁將無法正常解析。
                   下列代碼建立臨時(shí)文件:
            if (CacheFileName == "")
                   {
                                 TCHAR FName[512];
            CreateUrlCacheEntry(OLE2T(Url), Ts.GetLength(), _T("htm"), FName, 0);
                                 CFile hFile;
                                 hFile.Open(FName, CFile::modeCreate|CFile::modeWrite);
                                 hFile.Write(Ts,Ts.GetLength()); 
                                 ReportProgress(BINDSTATUS_CACHEFILENAMEAVAILABLE, T2W(FName));
                   }
                   修改網(wǎng)頁代碼:
            Ts.Replace(_T("百度"),_T("千度"));
                   為瀏覽器準(zhǔn)備好數(shù)據(jù):
            TotalSize= Ts.GetLength() ;
                          CreateStreamOnHGlobal(0, true, &DataStream);
                          const char * pTs = Ts.GetBuffer(Ts.GetLength());
                          ULONG cbWritten;
                          DataStream->Write(pTs,Ts.GetLength(),&cbWritten);
                          Ts.ReleaseBuffer();
                          pTs = NULL;
             
                          ULARGE_INTEGER Dummy;
                          _LARGE_INTEGER zero;
                          zero.QuadPart =0;
                          DataStream->Seek ( zero, STREAM_SEEK_SET, &Dummy);
             
            4、IInternetProtocol::Read方法
                該方法由WEB處理器調(diào)用來取得瀏覽器要解析的數(shù)據(jù)。在上一方法ReportData中
            我們已經(jīng)將所有數(shù)據(jù)緩存到流中,因此,這里只需將流中的數(shù)據(jù)返回給WEB處理器。
            下面的代碼示例了Read中的簡單處理:
                              DataStream->Read(pv, cb, pcbRead);
                   Written+=*pcbRead;
                   if (Written == TotalSize)
                   {
                          return S_FALSE;
                   }
                   else
                   {
                          return S_OK;
                   }
                千萬注意,在數(shù)據(jù)已讀取完畢時(shí)要返回S_FALSE , 不然可能導(dǎo)致Read被無窮循環(huán)調(diào)用。處理完這幾個(gè)方法后,基本是大功造成,其它一些方法處理十分簡單,可以參考上面提到的例子。 

            源代碼下載

            Feedback

            # re: 網(wǎng)頁源碼過濾  回復(fù)  更多評論   

            2006-11-22 17:20 by lael
            請問怎么知道是iframe還是主框架呢?

            # re: 網(wǎng)頁源碼過濾  回復(fù)  更多評論   

            2014-03-03 15:27 by mrdrag
            正好看到這個(gè),不錯(cuò)的文章
            久久免费大片| 久久99热这里只有精品国产| 久久无码专区国产精品发布| 色8久久人人97超碰香蕉987| 国产精品久久久久无码av| 国産精品久久久久久久| 久久精品一区二区三区AV| 97超级碰碰碰久久久久| 久久午夜无码鲁丝片午夜精品| 久久久无码精品亚洲日韩按摩 | 亚洲欧美精品伊人久久| 欧美亚洲日本久久精品| 久久99国产精品尤物| 亚洲国产精品综合久久网络| 久久久久久久99精品免费观看| 亚洲婷婷国产精品电影人久久| 久久99国产精品一区二区| 久久亚洲AV无码精品色午夜| 精品久久久久久国产三级| 久久精品夜夜夜夜夜久久| 精品久久久久久久国产潘金莲 | 伊色综合久久之综合久久| 国产日产久久高清欧美一区| 久久精品国产免费观看三人同眠| 久久精品国内一区二区三区| 亚洲国产精品一区二区久久hs| 久久精品夜色噜噜亚洲A∨| 2021精品国产综合久久| 日韩人妻无码一区二区三区久久| 亚洲国产天堂久久久久久| 很黄很污的网站久久mimi色| 伊人色综合久久| 久久免费线看线看| 久久久精品免费国产四虎| 狠狠色丁香婷婷综合久久来| 国产午夜久久影院| 97久久超碰国产精品2021| 狠狠色丁香久久综合婷婷| 99久久99久久精品国产片| 品成人欧美大片久久国产欧美| 国产精品成人无码久久久久久 |