SAX2解析器讀XML文檔,然后產(chǎn)生基于特殊符號(hào)的事件。SAX2解析器實(shí)際上并不為該文檔在內(nèi)存中創(chuàng)建一棵樹結(jié)構(gòu),它序列的處理一個(gè)文檔的內(nèi)容并產(chǎn)生相關(guān)的事件。
比如,當(dāng)你進(jìn)行基于事件的編程的時(shí)候,你可以創(chuàng)建函數(shù)來(lái)響應(yīng)用戶定義的事件(比如OnClick事件)。在利用SAX進(jìn)行編程的時(shí)候,需要注意的是,是解析器而不是用戶產(chǎn)生事件。
比如考慮下面一個(gè)簡(jiǎn)單的文檔。
?。?xml version="1.0"?>
?。紁arts>
<part>TurboWidget</part>
?。?parts>
當(dāng)SAX2在處理這個(gè)文檔的時(shí)候,它產(chǎn)生如下的一系列的事件:
StartDocument( )
StartElement( "parts" )
StartElement( "part" )
Characters( "TurboWidget" )
EndElement( "part" )
EndElement( "parts" )
EndDocument( )
可以把SAX2看成是一個(gè)有拉特點(diǎn)(PUSH)的解析器,SAX2產(chǎn)生事件,然后你可以自己去處理些事件。實(shí)際上,當(dāng)SAX2在解析一個(gè)文檔的時(shí)候,SAXXMLReader讀該文檔并產(chǎn)生一系列的事件,你可以選擇一些事件進(jìn)行處理。
創(chuàng)建一個(gè)應(yīng)用SAX的應(yīng)用程序框架
SAX2產(chǎn)生的事件包括如下的種類:
¨ 和XML文檔內(nèi)容相關(guān)的事件(ISAXContentHandler)
¨ 和DTD相關(guān)的事件(ISAXDTDHandler)
¨ 出現(xiàn)錯(cuò)誤時(shí)發(fā)生的事件(ISAXErrorHandler)
為了處理這些事件,你需要實(shí)現(xiàn)一個(gè)相關(guān)的處理類,該處理類需要包含一些方法來(lái)處理相關(guān)的事件。你必須對(duì)你想要處理的事件實(shí)現(xiàn)相關(guān)的處理。如果你不想處理某一個(gè)事件的話,只需要簡(jiǎn)單的忽略它就可以。在實(shí)際應(yīng)用中,我們首先要繼承這些接口,用C++我們可以創(chuàng)建一個(gè)類,在這個(gè)類的方法中,我們可以告訴應(yīng)用程序在接收到一個(gè)事件的時(shí)候如何進(jìn)行處理。下面是建立一個(gè)基于SAX的應(yīng)用的基本步驟:
1. 創(chuàng)建頭文件當(dāng)使用SAX2的時(shí)候,我們需要用到動(dòng)態(tài)連接庫(kù)MSXML.DLL,為了使用MSXML中包含的SAX2接口,你必須在程序的頭文件(一般在stdafx.h中)中包含下列的代碼:
#import raw_interfaces_only
using namespace MSXML2;
2. 建立具體的操作(handler)類,SAX2主要定義了三個(gè)基本的操作類,它們分別是ISAXContentHandler,ISAXDTDHandler和ISAXErrorHandler。
ISAXContentHandler是用來(lái)處理SAX2解析器對(duì)文檔內(nèi)容進(jìn)行解析時(shí)所產(chǎn)生的消息的,ISAXXMLReader通過(guò)方法putContentHandler來(lái)注冊(cè)這個(gè)實(shí)例。而ISAXDTDHandler是用來(lái)處理和DTD相關(guān)的基本的消息的,ISAXXMLReader通過(guò)方法putDTDHandler來(lái)注冊(cè)這個(gè)實(shí)例。ISAXErrorHandler提供了對(duì)在解析過(guò)程中遇到錯(cuò)誤時(shí)產(chǎn)生的錯(cuò)誤事件的處理,ISAXXMLReader通過(guò)方法putErrorHandler來(lái)注冊(cè)這個(gè)實(shí)例
因?yàn)檫@三個(gè)類都是用來(lái)對(duì)事件進(jìn)行處理的,并且需要在接口ISAXXMLReader中進(jìn)行注冊(cè)。但是它們的基本使用方法類似,所以我們這里只詳細(xì)描述對(duì)接口ISAXContentHandler 的操作。
ISAXContentHandler接口接收關(guān)于文檔的內(nèi)容變化的事件,這是實(shí)現(xiàn)SAX應(yīng)用所需要的最重要的接口,如果應(yīng)用在遇到基本的解析事件的時(shí)候需要被通知的話,ISAXXMLReader通過(guò)方法putContentHandler來(lái)注冊(cè)這個(gè)實(shí)例,然后ISAXXMLReader就使用這個(gè)實(shí)例來(lái)報(bào)告基于文檔的事件,比如元素的開始,元素的結(jié)束和相關(guān)的字符串?dāng)?shù)據(jù)等等。ISAXContentHandler 包括了很多的方法:比如startDocument,endDocument,startElement,endElement等等。實(shí)際上它包含了好接個(gè)startXXX和endXXX對(duì)來(lái)建立不同的信息集合的抽象。比如startDocument方法在文檔信息開始的時(shí)候被調(diào)用,而在startDocument以后被調(diào)用的方法就被認(rèn)為是文檔信息項(xiàng)(item)的子項(xiàng)。在文檔信息內(nèi)容結(jié)束的時(shí)候endDocument就被調(diào)用,表示文檔信息的結(jié)束。 實(shí)際上是SAX2在解析文檔的時(shí)候,當(dāng)處于文檔某一位置的時(shí)候,會(huì)激發(fā)相應(yīng)的方法,比如當(dāng)一個(gè)文檔開始的時(shí)候,就會(huì)激發(fā)startDocument方法,在實(shí)際實(shí)現(xiàn)的時(shí)候,我們可以在我們繼承ISAXContentHandler類的實(shí)現(xiàn)類中,重載該方法,實(shí)現(xiàn)我們自己想要的處理。我們可以把這些方法看成是ISAXContentHandler接口提供給我們的。需要注意的是事件被處理的順序和信息在文檔中的位置是一致的。
同時(shí)需要注意的是,如果我們需要在我們的應(yīng)用中對(duì)這些消息進(jìn)行處理的話,我們就要繼承處理這些消息的類,比如我們只需要對(duì)文檔內(nèi)容進(jìn)行處理,而忽略對(duì)DTD和解析過(guò)程中錯(cuò)誤(Error)的處理,那么我們只需要?jiǎng)?chuàng)建一個(gè)新的類,該類繼承ISAXContentHandler接口,因?yàn)镮SAXContentHandler中定義了很多的事件處理方法,而事實(shí)上我們只需要對(duì)我們所關(guān)心事件的處理方法進(jìn)行重載,對(duì)我們不關(guān)心的事件可以簡(jiǎn)單的忽略它。
比如我們只關(guān)心startElement和endElement事件,而且我們假設(shè)我們建立的類的名稱為CXMLContentDeal,我們的類就可以如下面所示:
class CXMLContentDeal : public ISAXContentHandler
{
public:
CXMLContentDeal();
virtual CXMLContentDeal ();
virtual HRESULT STDMETHODCALLTYPE startElement(
/* [in] */ wchar_t __RPC_FAR *pwchNamespaceUri,
/* [in] */ int cchNamespaceUri,
/* [in] */ wchar_t __RPC_FAR *pwchLocalName,
/* [in] */ int cchLocalName,
/* [in] */ wchar_t __RPC_FAR *pwchRawName,
/* [in] */ int cchRawName,
/* [in] */ ISAXAttributes __RPC_FAR *pAttributes);
virtual HRESULT STDMETHODCALLTYPE endElement(
/* [in] */ wchar_t __RPC_FAR *pwchNamespaceUri,
/* [in] */ int cchNamespaceUri,
/* [in] */ wchar_t __RPC_FAR *pwchLocalName,
/* [in] */ int cchLocalName,
/* [in] */ wchar_t __RPC_FAR *pwchRawName,
/* [in] */ int cchRawName);
}
然后我們可以重載方法startElement和endElement來(lái)進(jìn)行和應(yīng)用相關(guān)的特殊的處理。
3. 通過(guò)接口ISAXXMLReader創(chuàng)建一個(gè)解析器。XMLReader是SAX應(yīng)用實(shí)現(xiàn)的主要的接口,XMLReader的作用是這樣的。 首先,XML的開發(fā)人員使用這個(gè)接口來(lái)注冊(cè)他們對(duì)其他SAX接口的實(shí)現(xiàn)(比如ContentHandler,DTDHandler,ErrorHandler等等),另外,XMLREADER通過(guò)setFeature和setProperty兩個(gè)方法來(lái)配置SAX解析器的行為,最后,XMLReader封裝了解析的功能。示例代碼如下:
ISAXXMLReader* pRdr = NULL;
HRESULT hr = CoCreateInstance(
__uuidof(SAXXMLReader),
NULL,
CLSCTX_ALL,
__uuidof(ISAXXMLReader),
(void **)&pRdr);
4. 創(chuàng)建相應(yīng)的事件(handler)處理類,這里不妨假設(shè)我們只處理和文檔內(nèi)容相關(guān)的事件。示例代碼如下:
CXMLContentDeal * pMc = new CXMLContentDeal();
注意這里CXMLContentDeal是繼承接口ISAXContentHandler的類。
5.在解析器中注冊(cè)事件處理類,示例代碼如下:
hr = pRdr->putContentHandler(pMc);
6.開始進(jìn)行文檔的解析,示例代碼如下
hr = pRdr->parseURL(URL); file://這里的URL是指一個(gè)具體XML文檔的位置
7.釋放解析器對(duì)象
pRdr->Release();
以上就是基于SAX的應(yīng)用程序的框架結(jié)構(gòu),我們可以看到,實(shí)際的事件處理是在我們的繼承類CXMLContentDeal中實(shí)現(xiàn)的,在我們這個(gè)示例代碼中,每當(dāng)文檔中一個(gè)新的元素開始的時(shí)候,都會(huì)激活方法startElement,每當(dāng)一個(gè)元素結(jié)束的時(shí)候,都會(huì)激活方法endElement。我們可以在startElement和endElement中寫入和應(yīng)用相關(guān)的特定的代碼。