摘要
經過前面章節的準備,到目前為止一個完整的C++應用框架已經完整的搭建 起來了。現在的事情就是考慮如何利用這個框架來實現自己的目的功能程
序了。在這一章并不涉及到實際的開發而是先學習一下簡單的理論知識。 本章將會根據我的個人開發經驗來說明一下開發Lex和Yacc程序的一般開發
步驟,這里的內容也會隨著后續的開發逐漸的完善起來,當在后續的開發 中遇到不明白的地方可以回到這一章來看一看,也許就明白了:)
就我在開發Lex和Yacc程序的經驗來說,如果要解析一個文件,那么必須經過 下面的步驟才能夠寫出正確的語法分析文件和詞法分析文件:
-
將被解析的文本進行分類。
-
由分類構成program。
-
將類及子類分解為標記。
-
完成了上面的所有步驟之后,我們就已經將被解析文本分解成功了,剩下的 事情就是為保存這些分解出來的信息而準備好一個樹形數據結構,在這個時 候使用C++的優勢就顯現出來了,我們可以借用STL里面的很多容器和算法的 。
將被解析的文本進行分類,實際上是一件非常重要的事情,分類的好壞直接影響 到了后續的開發,分類分的好能夠使得保存信息的數據結構簡單明了和高效,但 是如果分得不好,可能導致冗余數據結構,大量得冗余信息以及需要全部修改代 碼。
先舉個實際的例子吧:C/C++源代碼。怎樣把C/C++源代碼中的語法元素用最少并
且能夠保存全部信息的數據結構來表示,這本身就是一種挑戰。在C/C++的發展歷
程中也經歷過大大小小的變動,這說明要想對C/C++源代碼中的語法元素進行分類
是一件非常煩雜的事情,不過對于我們來說,這些語法元素已經存在了好多年了, 我們不需要從來開始,而是可以直接利用已經存在的知識來加快我們的開發。
C/C++的源代碼中的每一個語法元素可以作為一個分類,例如:關鍵字、預處理宏 、函數、變量、語句、結構體、類、聯合體等等。
但是,并不是說這里的開發是一帆風順的,在本類文檔的后續章節中也許會對這里
的類容進行修正,這只能說明我們對于C/C++的語法構成還是存在誤區而不是C/C++
語法本身有問題。對我們熟悉的問題尚且如此,那么對于我們不熟悉的問題更加如
此了,所以后續的開發中對前述代碼的修正也就難免了,這就是重構,使得代碼越 來越合理,越來越高效。
對于上一步已經做好了的分類,最終的目的就是要用這些分類來成功的構成最終的
C/C++源代碼。通過前面的章節的學習,我們知道這里的program表達的就是C/C++
源代碼內容,當然你也可以用你自己喜歡的任何名字,例如“source”,這個就看 個人的喜好了,Lex和Yacc對這個沒有特別的要求。
這里我們采用program代表C/C++源代碼。上面的C/C++分類:關鍵字、預處理宏
、函數、變量、語句、結構體、類、聯合體等等。在這一步里面就是考慮如何利
用這些分類來構成完整的C/C++源代碼。這一步也充滿了挑戰,但是相對于第一步
來說就容易多了,因為有據可尋啊。我們可以遵循Lex和Yacc規范來一步一步的 將上面的分類組合起來構成C/C++源代碼。
常見的問題包括:
-
如何用有限的分類來構成無限數量的文本(C/C++源代碼)
-
如何避免移進和規約沖突
-
如何設置標記(tokens)
上面的概念暫時只需要初步的了解,所謂的標記就是能夠直接表示文本文檔(C/C++
源代碼)其中內容的概念,例如關鍵字類可以通過int,long,char等等直接表示,那
么int,long,char就是標記的值,標記就是代表這些值的一個標志而已,在Lex和
Yacc中就是用C宏來表示標記的例如用INT宏表示int,LONG宏表示long,CHAR宏表示
char等等,但是INT宏,LONG宏和CHAR宏并不是直接定義為對應的int,long,char
的,而僅僅只是一個整數;另外還需要強調的是這里的INT宏,LONG宏和CHAR宏是自
己定義的,而不是Lex和Yacc內置的,因此可以隨心所欲的定義,你完全可以用INT
表示char,LONG表示int,CHAR表示long等,但是這樣做并不好。關于這里的概念的 詳細內容會在后續的開發中進行詳細的解釋。
在對文本(C/C++源代碼)進行了分類之后能否直接用標記表達出來呢?一部分分類
可以用標記直接表達出來了,還有一部分就不能或者不容易用標記表達出來。對于
這些不能或者不容易用標記表達出來的分類就還需要細分,這樣最終的目的就是將 所有的類都能夠用標記表達出來。
舉個例子:在上面的C/C++源代碼分類中就有“語句”類,那么語句其實還可以細分 為空語句、簡單語句和復合語句三種,而且簡單語句和符合語句也還要通過其他的 標記(標識符,運算符等等)進一步表達。
當所有的類以及子類都被標記表達出來之后,Lex和Yacc程序也可以說完成了,但是
這僅僅只是在程序內部將文本分析完成了,對于我們人來說并沒有什么實際的作用
,我們最最希望的就是能夠將這些分析出來的信息保存為另外一種方便閱讀和理解 的方式。因此就需要自己另外設計數據結構來保存這些信息了,通常的情況
就是為每一個分類設計一個C++類,這樣就可以將文本的內容以及結構信息完整的保 存下來啦。
通常的做法就是將這些內容和結構信息以簡單的文本形式直接輸出,實際上真正的
應用還需要對這些信息進行認真的處理之后再輸出。常見的應用有:語法高亮,流
程圖自動生成,VC中的類瀏覽,從C++源代碼自動重新生成UML文檔,從源程序的注
釋自動生成程序文檔(javadoc,doxygen)等等都是將分析出來的結構信息和內容
深入處理之后才輸出的。呵呵,不過當您學會了Lex和Yacc之后,上面的這些應用 對于您來說也不是什么大不了的事情啦:)
從上面的討論可以看出“分類”這一步是非常重要的步驟,占用的開發時間也是 非常多的,但是為了保證開發的正確性以及能夠保質保量的完成任務,就需要認 真的重視這一步驟的重要性,多花些時間也是值得的。
好了,在這一章里面我討論了開發Lex和Yacc的一般步驟,但是算不上特別詳細, 因為本類文章主要考慮的是一個應用問題,強調的是應用,對于那些特別理論的 東西我就在這里不多講了,如果需要深入的了解可以參看編譯原理相關書籍。
在后續的章節里面將會詳細的分析C/C++源文檔,采用的方法都是這里所陳述的 方法和步驟,如果在后續的章節中發現不太理解的地方可以參看這一章。
另外還需要格外說明的就是,因為我們分析的是C/C++源代碼,所以這里的分類就 已經完成了,如果不太清楚可以參看C/C++語法說明。在后續的文檔中將會按照問 題的需要來組織文檔的結構了:) 敬請關注!