要實現HTML代碼過濾必需注冊一個或多個MIME過濾器(Pluggable MIME Filter)。MIME過濾器是一個COM對象,必需實現IInternetProtocolSink和IInternetProtocol接口。
在實現MIME過濾器對象之前,先看一下《Pluggable Protocols Overview》一文中關于MIME過濾器與WEB處理器(transaction handler,即urlmon.dll)之間接口的調用的描述(注:urlmon.dll內部實現了IInternetProtocol和IInternetProtocolSink接口):
1、 WEB處理器調用MIME過濾器的IInternetProtocolRoot::Start方法(IInternetProtocol從IInternetProtocolRoot派生);
2、 WEB處理器先后調用MIME過濾器的IInternetProtocolSink::ReportProgress 和IInternetProtocolSink::ReportData方法;
3、 MIME過濾器調用WEB處理器的IInternetProtocol::Read方法;
4、 MIME過濾器調用WEB處理器的IInternetProtocolSink::ReportData方法;
5、 WEB處理器調用MIME過濾器的IInternetProtoco::Read方法;
因此,要實現MIME過濾器,有幾個重要的方法:
1、IInternetProtocolRoot::Start方法:
HRESULT Start(
[in] LPCWSTR szUrl,
[in] IInternetProtocolSink *pOIProtSink,
[in] IInternetBindInfo *pOIBindInfo,
[in] DWORD grfPI,
[in] DWORD dwReserved
);
作為MIME過濾對象,szUrl傳入的是MIME的類型(如果是name space handlers對象,則該參數為一個即將下載或解析的URL)。若是你想得到URL,可以通過pOIBindInfo 接口得到,下面是示例:
LPOLESTR pwzUrl ;
ULONG uElFetched ;
pIBindInfo->GetBindString( BINDSTRING_URL , &pwzUrl , 1 , &uElFetched ) ;
pOIProtSink是由urlmon.dll提供的IInternetProtocolSink接口,因為在后面的處理過程中,需要調用到該接口,所以要將它保存;
grfPI是一個枚舉變量,必需包含PI_FILTER_MODE標志,表示該對象運行在filter模式中。
dwReserved是一個指向PROTOCOLFILTERDATA結構的指針,該結構的pProtocol成員是由urlmon.dll提供的IInternetProtocol接口,因為在后面的處理過程中需要調用到該接口,所以要將它保存。實際上該接口也可以通過pOIProtSink參數調用QueryInterface得到,同樣PROTOCOLFILTERDATA結構的pProtocolSink與pOIProtSink都是指向同一個接口。
在Start方法中,我們必需做的實際上只是保存urlmon.dll提供的IInternetProtocolSink
和IInternetProtocol接口。
2、IInternetProtocolSink::ReportProgress方法:
HRESULT ReportProgress(
[in] ULONG ulStatusCode,
[in] LPCWSTR szStatusText )
作為MIME過濾器,ulStatusCode一般都是BINDSTATUS_CACHEFILENAMEAVAILABLE , 當ulStatusCode為BINDSTATUS_CACHEFILENAMEAVAILABLE時,szStatusText為臨時緩存文件的路徑名稱,但有一些網頁并不寫到緩存里,所以szStatusText可能為空字符串。
3、IInternetProtocolSink::ReportData方法:
HRESULT ReportData(
[in] DWORD grfBSCF,
[in] ULONG ulProgress,
[in] ULONG ulProgressMax
);
IE下載文件過程中或下載完畢時會調用MIME過濾器的ReportData方法,ulProgressMax為文件總是數據量,ulProgress為下載進度,理論上當文件全部下載完后,ulProgress應等于ulProgressMax(實際上,當網頁文件不是很大時,即使ulProgress不等于ulProgressMax時,文件也可能全部下載下來),還有一個反應文件下載情況的參數是grfBSCF。有時,ReportData方法會被Web處理器調用多次。
ReportData是過濾網頁內容或修改網頁內容比較合適的地方。在此地,可以將網頁內容通過調用Read保存到自已的緩存或流中并做適當的處理(注意檢查字符的編碼)。
最后,別忘了調用Web處理器的IInternetProtocolSink::ReportData方法,向它匯報數據下載的情況。Web處理器得到此通知后,就會調用MIME過濾器的IInternetProtocol::Read,此時,你就可以將修改后的數據交給WEB處理器。
下面的代碼示例了如何在ReportData中調用Web處理器的Read預先保存數據:
CString Ts("");
char p[1024];
HRESULT hr;
ULONG Readtotal;
do
{
memset(p,0,sizeof(p));
hr = UrlMonProtocol->Read(p, sizeof(p)-1, &Readtotal);
CString pTemp(p);
Ts=Ts+pTemp;
}while((hr != S_FALSE) && (hr != INET_E_DOWNLOAD_FAILURE) && (hr != INET_E_DATA_NOT_AVAILABLE));
Read成功取得數據一般只返回S_OK或S_FALSE ,返回S_OK表示還有數據,而S_FALSE
表示數據已讀取完畢,因此循環的條件設為 hr==S_OK。那A處的條件判斷為什么不是
if( hr == S_OK || hr == S_FALSE ) 呢, 因為我發現某些情況下,Read可能返回其
它值,但仍然有成功讀取一部分數據出來,數據的大小就是Readtotal指定的值。如果將
那部分數據遺落,網頁將無法正常解析。
下列代碼建立臨時文件:
if (CacheFileName == "")
{
TCHAR FName[512];
CreateUrlCacheEntry(OLE2T(Url), Ts.GetLength(), _T("htm"), FName, 0);
CFile hFile;
hFile.Open(FName, CFile::modeCreate|CFile::modeWrite);
hFile.Write(Ts,Ts.GetLength());
ReportProgress(BINDSTATUS_CACHEFILENAMEAVAILABLE, T2W(FName));
}
修改網頁代碼:
Ts.Replace(_T("百度"),_T("千度"));
為瀏覽器準備好數據:
TotalSize= Ts.GetLength() ;
CreateStreamOnHGlobal(0, true, &DataStream);
const char * pTs = Ts.GetBuffer(Ts.GetLength());
ULONG cbWritten;
DataStream->Write(pTs,Ts.GetLength(),&cbWritten);
Ts.ReleaseBuffer();
pTs = NULL;
ULARGE_INTEGER Dummy;
_LARGE_INTEGER zero;
zero.QuadPart =0;
DataStream->Seek ( zero, STREAM_SEEK_SET, &Dummy);
4、IInternetProtocol::Read方法
該方法由WEB處理器調用來取得瀏覽器要解析的數據。在上一方法ReportData中
我們已經將所有數據緩存到流中,因此,這里只需將流中的數據返回給WEB處理器。
下面的代碼示例了Read中的簡單處理:
DataStream->Read(pv, cb, pcbRead);
Written+=*pcbRead;
if (Written == TotalSize)
{
return S_FALSE;
}
else
{
return S_OK;
}
千萬注意,在數據已讀取完畢時要返回S_FALSE , 不然可能導致Read被無窮循環調用。處理完這幾個方法后,基本是大功造成,其它一些方法處理十分簡單,可以參考上面提到的例子。
源代碼下載