原文轉自:
http://www.shnenglu.com/tx7do/archive/2006/04/24/6146.html 張弛 <zhangchi@china.com>
一、 TinyXml 的特點
TinyXml 是一個基于 DOM 模型的、非驗證的輕量級 C++ 解釋器。
1. SAX 和 DOM
目前 XML 的解析主要有兩大模型: SAX 和 DOM 。
其中 SAX 是基于事件的,其基本工作流程是分析 XML 文檔,當發(fā)現(xiàn)了一個新的元素時,產(chǎn)生一個對應事件,并調用相應的用戶處理函數(shù)。這種方式占用內存少,速度快,但用戶程序相應得會比較復雜。
而 DOM (文檔對象模型),則是在分析時,一次性的將整個 XML 文檔進行分析,并在內存中形成對應的樹結構,同時,向用戶提供一系列的接口來訪問和編輯該樹結構。這種方式占用內存大,速度往往慢于 SAX ,但可以給用戶提供一個面向對象的訪問接口,對用戶更為友好。
另據(jù)說,一些同時提供了 SAX 和 DOM 接口的庫,是在底層先實現(xiàn) SAX ,再在 SAX 的基礎上實現(xiàn) DOM 。
目前我知道的 XML 解析庫有下面幾個:
名稱 | 訪問接口 | 是否支持驗證 | 備注 |
Expat | SAX/Local | 不清楚 | Local 指它還有一套自己訪問模型 |
LibXML2 | SAX/DOM | 是 | |
TinyXml | DOM | 否 | |
XML4C | SAX/DOM | 是 | 和 Xerces-C 是一家,不過用了 ICU ,國際化似乎更好 |
Xerces-C | SAX/DOM | 是 | |
XML Booster | Local | 不清楚 | 這個庫不是特別了解,好像是類似 yacc 那樣,可以生成一個特定的解析器,估計效率應該很高(看名字也像)。 |
2. 驗證和非驗證
對于一個特定的 XML 文檔而言,其正確性分為兩個層次。首先是其格式應該符合 XML 的基本格式要求,比如第一行要有聲明,標簽的嵌套層次必須前后一致等等,符合這些要求的文件,就是一個合格的 XML 文件,稱作 well-formatted 。但除此之外,一個 XML 文檔因其內容的不同還必須在語義上符合相應的標準,這些標準由相應的 DTD 文件或者 Schema 文件來定義,符合了這些定義要求的 XML 文件,稱作 valid 。
因此,解析器也分為兩種,一種是驗證的,即會跟據(jù) XML 文件中的聲明,用相應的 DTD 文件對 XML 文件進行校驗,檢查它是否滿足 DTD 文件的要求。另一種是忽略 DTD 文件,只要基本格式正確,就可以進行解析。
就我所知,驗證的解析器通常都是比較重量級的。 TinyXml 不支持驗證,但是體積很小,用在解析格式較為簡單的 XML 文件,比如配置文件時,特別的合適。
二、 TinyXml 的構建和使用
1. 獲取
TinyXml 首頁在 http://www.grinninglizard.com/tinyxml/index.html ,從這里可以找到最新版本的源代碼,目前的版本是 2.3.4 。
2. 構建
TinyXml 在構建時可以選擇是否支持 STL ,選擇的話,則可以使用 std::string ,所以通常應該打開這個選項。
在 Windows 上, TinyXml 的源碼包里提供了 VC6 的工程文件,直接用它就可以生成兩個靜態(tài)庫(帶 STL 和不帶 STL ),非常容易。唯一需要注意的是,默認生成的庫是單線程的,如果用在多線程的項目中,需要改動一下配置,生成相應的多線程庫。
在 Unix 平臺上, TinyXml 的源碼包里只提供了一個 Makefile ,對于典型的 Linux 系統(tǒng),或裝了 gcc 和 gmake 的其他 Unix ,這個 Makefile 足夠用了,我在 RH9 和 RHEL4 上測試,簡單的 make 就成功了。需要注意的有以下幾點:默認的編譯是不支持 STL 的,可以通過編輯 Makefile 的 TINYXML_USE_STL := NO 那一行,把 NO 改成 YES 就可以支持 STL 了;還有默認只生成了一個測試程序,沒有生成任何庫,如果要生成靜態(tài)庫的話,可以用ar 命令,將生成的幾個目標文件打包就行了,如果要生成動態(tài)庫,則需要加上 -fpic 參數(shù)重新編譯。
3. 使用
構建了相應的庫之后,在使用了它們的工程中,只要在連接時把他們連上就行了。需要注意的是,如果需要 STL 支持,在編譯用到了 TinyXml 的文件時,需要定義一個宏 TIXML_USE_STL ,對 gcc ,可以使用參數(shù) -DTIXML_USE_STL ,對 cl.exe ( VC ),可以使用參數(shù) /DTIXML_USE_STL ,如果嫌麻煩,可以直接定義在 tinyxml.h 文件里。
三、 TinyXml 的編程模型
1. 類之間的關系
TinyXml 實現(xiàn)的時 DOM 訪問模型,因此提供了一系列的類對應 XML 文件中的各個節(jié)點。主要類間的關系如下圖所示:
TiXmlBase :其他類的基類,是個抽象類
TiXmlNode :表示一個節(jié)點,包含節(jié)點的一般方法,如訪問自節(jié)點、兄弟節(jié)點、編輯自身、編輯子節(jié)電
TiXmlDocument :表示整個 XML 文檔,不對應其中某個特定的節(jié)點。
TiXmlElement :表示元素節(jié)點,可以包含子節(jié)點和 TiXmlAttribute
TiXmlComment :表示注釋
TiXmlDeclaration :表示聲明
TiXmlText :表示文本節(jié)點
TiXmlUnknown :表示未知節(jié)點,通常是出錯了
TiXmlAttribute :表示一個元素的屬性
下面是一個簡單的例子:
<?xml version="1.0" encoding="utf-8" ?>
<!-This is only a sample-->
<book>
<name>TinyXml How To</name>
<price unit=”RMB”>20</price>
<description>Some words…</description>
</ book >
整個文檔,對應 TiXmlDocument
book,name,price , description ,都對應 TiXmlElement
第一行對應一個 TiXmlDeclaration
第二行對應一個 TiXmlComment
“TinyXml How To” 對應一個 TiXmlText
unit 則是 price 的一個 TiXmlAttribute
這些類與 XML 文件中的相應元素都有很好的對應關系,因此相信參照 TinyXml 的文檔,可以很容易的掌握各個方法的使用。
2. 需要注意的問題
各類之間的轉換
由于各個節(jié)點類都從 TiXmlNode 繼承,在使用時常常需要將 TiXmlNode * 類型的指針轉換為其派生類的指針,在進行這種轉換時,應該首先使用由 TiXmlNode 類提供的一系列轉換函數(shù),如 ToElement (void) ,而不是 c++的 dynamic_cast
檢查返回值
由于 TinyXml 是一個非校驗的解析器,因此當解析一個文件時,很可能文件并不包含我們預期的某個節(jié)點,在這種情況下, TinyXml 將返回空指針。因此,必須要對返回值進行檢查,否則將很容易出現(xiàn)內存訪問的錯誤。
如何重頭建立一個 XML 文件
先建立一個 TiXmlDocument 對象,然后,載入某個模板,或者直接插入一個節(jié)點作為根節(jié)點,接著就可以像打開一個已有的 XML 文件那樣對它進行操作了。
四、 總結
TinyXml 最大的特點就是它很小,可以很方便的靜態(tài)連接到程序里。對于像配置文件、簡單的數(shù)據(jù)文件這類文件的解析,它很適合。但是由于它是非驗證的,因此需要在程序里做許多檢查工做,加重了程序編寫的負擔。因此對于復雜的 XML 文件,我覺得最好還是用驗證的解析器來處理。