開始用FLEX做詞法分析,然后在此基礎(chǔ)上稍微做些符號(hào)匹配(實(shí)在稱不上語(yǔ)法分析),即完成了XML
文件的簡(jiǎn)單解析。
我把XML文件拆分成:<, >, />, </, =, ID, STRING 等token。這樣一整理,用FLEX直接生成詞法
分析程序。每一次getToken就返回這些token。上層的語(yǔ)法匹配就變得比較簡(jiǎn)單。例如當(dāng)?shù)玫?/>"token
時(shí),我就可以判斷這是一個(gè)節(jié)點(diǎn)的結(jié)束;當(dāng)?shù)玫絀D token時(shí),就可以推測(cè)下一個(gè)token為"=",再下一個(gè)
是個(gè)STRING。不過(guò)對(duì)于部分token,也需要做一兩個(gè)token的回溯,例如當(dāng)遇到"<"時(shí),并不一定表示一個(gè)
新節(jié)點(diǎn)的開始,它可能是新節(jié)點(diǎn)的開始,同樣也可能是上一個(gè)節(jié)點(diǎn)的結(jié)束("</")。
以我薄弱的編譯原理知識(shí)來(lái)看,解析XML變得非常容易。除此之外,還需要寫一些上層代碼來(lái)保存
XML結(jié)構(gòu),以方面更上層代碼獲取XML文件的配置信息。因?yàn)槲掖蛩阌眉僀來(lái)寫這個(gè)東西,所以數(shù)據(jù)結(jié)構(gòu)方
面只有自己處理。這里我以一種變相的樹結(jié)構(gòu)來(lái)保存:每一個(gè)節(jié)點(diǎn)有兩個(gè)域:first child, sibling。
其實(shí)這樣做是一個(gè)很明顯的通用做法,因?yàn)閄ML種每一個(gè)節(jié)點(diǎn)都可能擁有不定數(shù)量的children節(jié)點(diǎn),如果
讓parent直接去保存,顯然很笨。例如:
<Resource>
<bmp file="1.bmp"/>
<bmp file="2.bmp"/>
</Resource>
可以使用這樣的數(shù)據(jù)結(jié)構(gòu)來(lái)存儲(chǔ):
struct xmlNode
{
...
struct xmlNode *child;
struct xmlNode *sibling;
};
對(duì)于Resource這個(gè)node而言,其child域指向第一個(gè)bmp節(jié)點(diǎn)(file屬性為1.bmp那個(gè)節(jié)點(diǎn));對(duì)于第一
個(gè)bmp節(jié)點(diǎn)而言,其sibling域則指向了第二個(gè)bmp節(jié)點(diǎn)。
這個(gè)簡(jiǎn)單的xml解析器是在公司外網(wǎng)機(jī)器上寫的,沒(méi)有VC,沒(méi)有任何IDE。代碼我是用VIM敲的,敲好
后寫makefile,用mingw里的gcc、make來(lái)生成程序,用gdb來(lái)調(diào)試程序。這算是第一次離開VC寫的一個(gè)非
練習(xí)程序(起碼用makefile來(lái)組織工程)。- -| makefile寫的比較爛,gdb用得很不熟,不過(guò)好歹調(diào)試出來(lái)
了。越來(lái)越想換個(gè)平臺(tái),只可惜工作還是得在windows vc下,很掃興。
后來(lái)發(fā)覺(jué)詞法分析也很簡(jiǎn)單,用FLEX的時(shí)候正則表達(dá)式都寫出來(lái)了。前段時(shí)間一直在看編譯原理,雖然不
用功。但是就這里而言,基本可以直接根據(jù)正則表達(dá)式畫出DFA。終于不用接觸那惡心的從NFA轉(zhuǎn)DFA的
過(guò)程,因?yàn)槲抑两癫粫?huì),更不會(huì)寫代碼轉(zhuǎn)。- - 總而言之,自己手寫了詞法分析。邊寫邊參考編譯原理
與實(shí)踐中附帶的tiny-c編譯器的詞法分析部分,最終發(fā)現(xiàn)我抄了一遍。MD,一點(diǎn)技術(shù)含量都沒(méi)有。
附上全部源代碼(對(duì)于代碼我還是比較滿意的:D),下載