一、XML的讀寫
對XML文件的讀和寫,我所知道的是,標準的讀寫方式有兩種,DOM和SAX。其中,SAX需要把整個XML文件先讀進來,然后才允許你對這個文件進行讀寫,它的優點是操作方便,真的很方便;缺點就是效率上不好,因為它要先把整個文件讀近來么。DOM則是把XML文件的元素看作流來處理,一個一個讀進來,它的優點就是效率很好,因為DOM方式是讀一點就可以處理一點,這個效率方面,應該和普通的文件處理沒太大的區別;缺點就是操作不方便,這個不方便的程度,應該和普通的文件處理比能好那么一點點而已。性能和操作,不可兼得——多希望有兼得的那么一天啊!
所以對小的XML文件,盡管用SAX好了;要是這XML文件大小超過了1M,最好用DOM;如果超過了10M你還用SAX,那您可是有點想故意搗亂了。
二、XML的格式
說起來XML的格式真的挺簡單,不是說了么XML的目標是讓任何一個計算機碩士畢業的人可以在四個星期內完成一個XML解析器(不知道DOM接口SAX效率的解析器算不算),說實話,我覺得本科的就可以了。如果會用正則表達式,可能兩個星期就足夠了(包括一個星期休假時間)。
但是也有不簡單的地方。
一個可以被解析器讀入的XML文件,僅僅是合格的XML文件(Well-formated),要做到這一點很容易,你只要通過任何一個正確的XML解析器(包括計算機碩士用四個星期寫的)采取SAX方式生成一個XML文件,那一定是合格的XML文件——想錯你都沒機會。
但是合格的XML文件未必就是合用的。
比如我今天在公司設計我們模塊的XML文件格式,下星期有朋自遠方來。原來我覺得這太簡單了,很快就可以做完。確實我很快就做完了,但是馬上發現問題了,因為在另外一個模塊,德方提出了要求實現的格式,和我的完全不一樣。比如表示設計模式這本書的信息,我是這樣寫的:
<book index = "1">
<name value = "Design Pattern"/>
<author value = "GOF"/>
</book>
而如果按照德方提出的要求,就應該這樣寫:
<book>
<name>Design Pattern</name>
<author>GOF</author>
</book>
也就是說,我把所有的數據都寫到了屬性里,而德方卻要求把大部分的數據放在子節點里。那么誰的做法是對的呢?顯然我們都是合格的。
這就涉及到一個XML標簽的定義和使用的問題了。就我舉的例子而言,比較好的做法是創建一個book的節點,然后把名字、作者、價格都作為屬性而寫上去。我們的都不好。但是在我們公司里的那種情況下,確實是德國人的做法好。我的做法寫出來的文件,僅僅在IE里瀏覽的時候很漂亮,一目了然。德國人給的方案在IE里看起來,好丑,不過符合XML文件描述的數據的邏輯結構。
如果你學過數據庫,那是不是覺得,就定義和使用XML標簽這個問題上看,XML很類似與數據庫的設計呢?要解決這個問題,就需要今天的最后一個主角:DTD出場了。
三、DTD的簡單介紹
XML大家恐怕都是耳熟能詳了,DTD就有點鮮為人知了。至少我一聽到這東西的時候,總是把它和TDD弄混。所以在這里,我也就是能給DTD來點簡單的介紹而已了。
DTD是Document Type Definition的縮寫(我最討厭縮寫,特別是最近看一本CMMI的書,老天爺,全是縮寫!)。它的作用是確保XML文件的正確性,具體而言,就是確保XML文件中的標簽、元素是否是按照正確的方式使用的。比如上文中,一個人把所有的屬性獨立成一個個元素,然后再在元素里面加屬性,另一個卻把所有的屬性都做成了元素,誰的誰錯?誰都對了,但是這樣對下去,我表示書的XML文件,就不能讓德國人用,德國人表示書的XML文件我也不能用,XML就失去意義了。那就需要大家約定一個DTD文件了,我們雙方都遵守這個DTD文件的約定,就不會出現這種問題了。而且,一個XML數據解析器在讀一個XML文件的時候,可以先檢查一下,這個XML文件是否符合約定的DTD標準,以此來判斷這個XML文件是不是自己需要的數據。
DTD和XML結合在一起,有很多著名的應用,比如MathML,就是利用XML和DTD結合,制定出來用來描述數學表達式的一個標準。如果沒有DTD,那么這樣的標準是不可能推出的,當年牛頓和萊布尼茨兩個人就搞出來兩套微積分符號,現在這么多數學家,一定會這邊要求如此寫XML,那邊要求如彼寫XML,非亂套不可。
但是DTD的應用,恐怕不會太多了,這是因為DTD是有一些明顯缺陷的。首先,它不符合XML語法,它是自成體系的另一套語法,相當的煩瑣;其次,它是ASCII格式的,這不構成致命缺陷,但是XML文件完全是Unicode的情況下,它還保持古老的ASCII格式,就相當不協調了。還有其他缺陷,本池水淺學疏,還不知道,那就列到這里,給DTD個面子。
水深的人很多,所以他們提出了很多避免或者取代DTD的方法,比如XSLT,好象在CSDN的論壇,用的就是XML+XSLT吧?我保存了很多CSDN論壇的貼子,都不能看,非要我再保存一另外一個文件才能看。最著名的DTD取代者,當然是XML Schema了!XML Schema不僅僅沒有DTD的缺陷,還有很多強大的優點——這個,本池又一次水淺學疏~