TinyXML是個好東西,這個不用我多說了,我用它做過好幾個項目,但這幾個項目都只是從xml文件中獲取信息,沒有涉及到寫文件,最近需要生成xml的配置文件,才注意到這個問題,那就是TinyXML似乎不能保存文件為UTF-8格式。
我用UltraEdit打開生成的xml文件,UltraEdit把它識別為ASCII格式的文本文件,而通過二進制查看,也確實如此,我看了下幫助文檔,也沒具體提及到這個問題。但后來我仔細整理了一下思路后,發覺這個其實不算什么問題,分析如下。
文檔上就說明了,TinyXML是完全支持UTF-8的,可以嘗試load一個UTF-8格式的xml文件,完全沒有問題,那現在問題是load了一個UTF-8文件后,文件中的字符串,在TiXmlDocument對象中,到底是什么格式?TinyXML在load它之后會不會直接把UTF-8格式轉為Unicode格式?——不會,為什么?因為TinyXML在編寫的時候是把自己定位為一個比較單純的C++ Lib,它沒有使用任何Windows相關的API,包括很重要的兩個編碼轉換函數WideCharToMultiByte和MultiByteToWideChar,它都沒用,對不同平臺,編碼轉換函數可能是不同的,因此TinyXML不會畫蛇添足地提供這個轉換,也就是說,如果你的xml文件(UTF-8格式)中如果有中文的話,用TinyXML加載進來之后,依舊是UTF-8的,不經過轉換直接print出來的話,就是亂碼了,所以要經過一個UTF-8到Unicode的轉換,轉換代碼我這里就不寫了。再說一下,TinyXML聲稱對UTF-8的支持表示它認識UTF-8的xml文件,但并不表示它自動對UTF-8的文本進行轉換。
好,再回到保存的問題上,其實你差不多想到了,應該怎么做,因為整個TinyXML其實并不計較內存中的文本究竟是什么內容,它都可以把文本當做是UTF-8(當然了,實際上把文本轉為UTF-8然后交給TinyXML的工作是我們的程序去完成),那我們可不可以說保存的xml文件其實就已經是UTF-8格式的?——答案是肯定的。而UTF-8的格式標志其實就是文件頭的三個字節:0xEF,0xBB,0xBF。有了這個頭,用UltraEdit打開這個xml,UltraEdit就把它認為是一個UTF-8的文本文件了。

這個改動非常簡單,稍微瀏覽下TinyXML的代碼就知道怎么改了,我下載的TinyXML是2.6.1版本的(我沒記錯的話),在tinyxml.cpp文件中搜索“useMicrosoftBOM”,把“useMicrosoftBOM = false;”這個語句改為“useMicrosoftBOM = true;”就可以了,好像一共才三處地方,十分簡單,代碼一看就懂,不多說了。