摘要
經(jīng)過(guò)前面章節(jié)的準(zhǔn)備,到目前為止一個(gè)完整的C++應(yīng)用框架已經(jīng)完整的搭建 起來(lái)了。現(xiàn)在的事情就是考慮如何利用這個(gè)框架來(lái)實(shí)現(xiàn)自己的目的功能程
序了。在這一章并不涉及到實(shí)際的開(kāi)發(fā)而是先學(xué)習(xí)一下簡(jiǎn)單的理論知識(shí)。 本章將會(huì)根據(jù)我的個(gè)人開(kāi)發(fā)經(jīng)驗(yàn)來(lái)說(shuō)明一下開(kāi)發(fā)Lex和Yacc程序的一般開(kāi)發(fā)
步驟,這里的內(nèi)容也會(huì)隨著后續(xù)的開(kāi)發(fā)逐漸的完善起來(lái),當(dāng)在后續(xù)的開(kāi)發(fā) 中遇到不明白的地方可以回到這一章來(lái)看一看,也許就明白了:)
就我在開(kāi)發(fā)Lex和Yacc程序的經(jīng)驗(yàn)來(lái)說(shuō),如果要解析一個(gè)文件,那么必須經(jīng)過(guò) 下面的步驟才能夠?qū)懗稣_的語(yǔ)法分析文件和詞法分析文件:
-
將被解析的文本進(jìn)行分類(lèi)。
-
由分類(lèi)構(gòu)成program。
-
將類(lèi)及子類(lèi)分解為標(biāo)記。
-
完成了上面的所有步驟之后,我們就已經(jīng)將被解析文本分解成功了,剩下的 事情就是為保存這些分解出來(lái)的信息而準(zhǔn)備好一個(gè)樹(shù)形數(shù)據(jù)結(jié)構(gòu),在這個(gè)時(shí) 候使用C++的優(yōu)勢(shì)就顯現(xiàn)出來(lái)了,我們可以借用STL里面的很多容器和算法的 。
將被解析的文本進(jìn)行分類(lèi),實(shí)際上是一件非常重要的事情,分類(lèi)的好壞直接影響 到了后續(xù)的開(kāi)發(fā),分類(lèi)分的好能夠使得保存信息的數(shù)據(jù)結(jié)構(gòu)簡(jiǎn)單明了和高效,但 是如果分得不好,可能導(dǎo)致冗余數(shù)據(jù)結(jié)構(gòu),大量得冗余信息以及需要全部修改代 碼。
先舉個(gè)實(shí)際的例子吧:C/C++源代碼。怎樣把C/C++源代碼中的語(yǔ)法元素用最少并
且能夠保存全部信息的數(shù)據(jù)結(jié)構(gòu)來(lái)表示,這本身就是一種挑戰(zhàn)。在C/C++的發(fā)展歷
程中也經(jīng)歷過(guò)大大小小的變動(dòng),這說(shuō)明要想對(duì)C/C++源代碼中的語(yǔ)法元素進(jìn)行分類(lèi)
是一件非常煩雜的事情,不過(guò)對(duì)于我們來(lái)說(shuō),這些語(yǔ)法元素已經(jīng)存在了好多年了, 我們不需要從來(lái)開(kāi)始,而是可以直接利用已經(jīng)存在的知識(shí)來(lái)加快我們的開(kāi)發(fā)。
C/C++的源代碼中的每一個(gè)語(yǔ)法元素可以作為一個(gè)分類(lèi),例如:關(guān)鍵字、預(yù)處理宏 、函數(shù)、變量、語(yǔ)句、結(jié)構(gòu)體、類(lèi)、聯(lián)合體等等。
但是,并不是說(shuō)這里的開(kāi)發(fā)是一帆風(fēng)順的,在本類(lèi)文檔的后續(xù)章節(jié)中也許會(huì)對(duì)這里
的類(lèi)容進(jìn)行修正,這只能說(shuō)明我們對(duì)于C/C++的語(yǔ)法構(gòu)成還是存在誤區(qū)而不是C/C++
語(yǔ)法本身有問(wèn)題。對(duì)我們熟悉的問(wèn)題尚且如此,那么對(duì)于我們不熟悉的問(wèn)題更加如
此了,所以后續(xù)的開(kāi)發(fā)中對(duì)前述代碼的修正也就難免了,這就是重構(gòu),使得代碼越 來(lái)越合理,越來(lái)越高效。
3. 第二步:由分類(lèi)構(gòu)成program
對(duì)于上一步已經(jīng)做好了的分類(lèi),最終的目的就是要用這些分類(lèi)來(lái)成功的構(gòu)成最終的
C/C++源代碼。通過(guò)前面的章節(jié)的學(xué)習(xí),我們知道這里的program表達(dá)的就是C/C++
源代碼內(nèi)容,當(dāng)然你也可以用你自己喜歡的任何名字,例如“source”,這個(gè)就看 個(gè)人的喜好了,Lex和Yacc對(duì)這個(gè)沒(méi)有特別的要求。
這里我們采用program代表C/C++源代碼。上面的C/C++分類(lèi):關(guān)鍵字、預(yù)處理宏
、函數(shù)、變量、語(yǔ)句、結(jié)構(gòu)體、類(lèi)、聯(lián)合體等等。在這一步里面就是考慮如何利
用這些分類(lèi)來(lái)構(gòu)成完整的C/C++源代碼。這一步也充滿了挑戰(zhàn),但是相對(duì)于第一步
來(lái)說(shuō)就容易多了,因?yàn)橛袚?jù)可尋啊。我們可以遵循Lex和Yacc規(guī)范來(lái)一步一步的 將上面的分類(lèi)組合起來(lái)構(gòu)成C/C++源代碼。
常見(jiàn)的問(wèn)題包括:
-
如何用有限的分類(lèi)來(lái)構(gòu)成無(wú)限數(shù)量的文本(C/C++源代碼)
-
如何避免移進(jìn)和規(guī)約沖突
-
如何設(shè)置標(biāo)記(tokens)
上面的概念暫時(shí)只需要初步的了解,所謂的標(biāo)記就是能夠直接表示文本文檔(C/C++
源代碼)其中內(nèi)容的概念,例如關(guān)鍵字類(lèi)可以通過(guò)int,long,char等等直接表示,那
么int,long,char就是標(biāo)記的值,標(biāo)記就是代表這些值的一個(gè)標(biāo)志而已,在Lex和
Yacc中就是用C宏來(lái)表示標(biāo)記的例如用INT宏表示int,LONG宏表示long,CHAR宏表示
char等等,但是INT宏,LONG宏和CHAR宏并不是直接定義為對(duì)應(yīng)的int,long,char
的,而僅僅只是一個(gè)整數(shù);另外還需要強(qiáng)調(diào)的是這里的INT宏,LONG宏和CHAR宏是自
己定義的,而不是Lex和Yacc內(nèi)置的,因此可以隨心所欲的定義,你完全可以用INT
表示char,LONG表示int,CHAR表示long等,但是這樣做并不好。關(guān)于這里的概念的 詳細(xì)內(nèi)容會(huì)在后續(xù)的開(kāi)發(fā)中進(jìn)行詳細(xì)的解釋。
4. 第三步:將類(lèi)分解為標(biāo)記
在對(duì)文本(C/C++源代碼)進(jìn)行了分類(lèi)之后能否直接用標(biāo)記表達(dá)出來(lái)呢?一部分分類(lèi)
可以用標(biāo)記直接表達(dá)出來(lái)了,還有一部分就不能或者不容易用標(biāo)記表達(dá)出來(lái)。對(duì)于
這些不能或者不容易用標(biāo)記表達(dá)出來(lái)的分類(lèi)就還需要細(xì)分,這樣最終的目的就是將 所有的類(lèi)都能夠用標(biāo)記表達(dá)出來(lái)。
舉個(gè)例子:在上面的C/C++源代碼分類(lèi)中就有“語(yǔ)句”類(lèi),那么語(yǔ)句其實(shí)還可以細(xì)分 為空語(yǔ)句、簡(jiǎn)單語(yǔ)句和復(fù)合語(yǔ)句三種,而且簡(jiǎn)單語(yǔ)句和符合語(yǔ)句也還要通過(guò)其他的 標(biāo)記(標(biāo)識(shí)符,運(yùn)算符等等)進(jìn)一步表達(dá)。
當(dāng)所有的類(lèi)以及子類(lèi)都被標(biāo)記表達(dá)出來(lái)之后,Lex和Yacc程序也可以說(shuō)完成了,但是
這僅僅只是在程序內(nèi)部將文本分析完成了,對(duì)于我們?nèi)藖?lái)說(shuō)并沒(méi)有什么實(shí)際的作用
,我們最最希望的就是能夠?qū)⑦@些分析出來(lái)的信息保存為另外一種方便閱讀和理解 的方式。因此就需要自己另外設(shè)計(jì)數(shù)據(jù)結(jié)構(gòu)來(lái)保存這些信息了,通常的情況
就是為每一個(gè)分類(lèi)設(shè)計(jì)一個(gè)C++類(lèi),這樣就可以將文本的內(nèi)容以及結(jié)構(gòu)信息完整的保 存下來(lái)啦。
通常的做法就是將這些內(nèi)容和結(jié)構(gòu)信息以簡(jiǎn)單的文本形式直接輸出,實(shí)際上真正的
應(yīng)用還需要對(duì)這些信息進(jìn)行認(rèn)真的處理之后再輸出。常見(jiàn)的應(yīng)用有:語(yǔ)法高亮,流
程圖自動(dòng)生成,VC中的類(lèi)瀏覽,從C++源代碼自動(dòng)重新生成UML文檔,從源程序的注
釋自動(dòng)生成程序文檔(javadoc,doxygen)等等都是將分析出來(lái)的結(jié)構(gòu)信息和內(nèi)容
深入處理之后才輸出的。呵呵,不過(guò)當(dāng)您學(xué)會(huì)了Lex和Yacc之后,上面的這些應(yīng)用 對(duì)于您來(lái)說(shuō)也不是什么大不了的事情啦:)
從上面的討論可以看出“分類(lèi)”這一步是非常重要的步驟,占用的開(kāi)發(fā)時(shí)間也是 非常多的,但是為了保證開(kāi)發(fā)的正確性以及能夠保質(zhì)保量的完成任務(wù),就需要認(rèn) 真的重視這一步驟的重要性,多花些時(shí)間也是值得的。
好了,在這一章里面我討論了開(kāi)發(fā)Lex和Yacc的一般步驟,但是算不上特別詳細(xì), 因?yàn)楸绢?lèi)文章主要考慮的是一個(gè)應(yīng)用問(wèn)題,強(qiáng)調(diào)的是應(yīng)用,對(duì)于那些特別理論的 東西我就在這里不多講了,如果需要深入的了解可以參看編譯原理相關(guān)書(shū)籍。
在后續(xù)的章節(jié)里面將會(huì)詳細(xì)的分析C/C++源文檔,采用的方法都是這里所陳述的 方法和步驟,如果在后續(xù)的章節(jié)中發(fā)現(xiàn)不太理解的地方可以參看這一章。
另外還需要格外說(shuō)明的就是,因?yàn)槲覀兎治龅氖荂/C++源代碼,所以這里的分類(lèi)就 已經(jīng)完成了,如果不太清楚可以參看C/C++語(yǔ)法說(shuō)明。在后續(xù)的文檔中將會(huì)按照問(wèn) 題的需要來(lái)組織文檔的結(jié)構(gòu)了:) 敬請(qǐng)關(guān)注!