[總結]中間/目標代碼生成
語法制導翻譯、中間代碼生成、目標代碼生成在很多時候并不存在嚴格的劃分。對于目標
代碼是某個簡單的虛擬機代碼而言,中間代碼完全可以就是目標代碼。中間代碼生成中結
合了語法制導翻譯,講述了大部分常規的編程語言結構是怎樣被翻譯成一種接近目標代碼
的形式(所謂的中間代碼形式)。本身,匯編代碼就是對應于機器碼的一種字符表示形式,
而中間代碼的大部分表示形式--三地址碼,也是一種接近匯編代碼的形式。
簡單來說,詞法分析階段將字符整理為單詞;語法分析則將這些代碼整理為一種層次結構
(識別了程序代碼要表達的意思);那么,在接下來的階段里,則是將這些層次結構翻譯
為線性結構。也就是類似于匯編代碼這種格式。這種格式容易被機器識別:機器只需要順
序地一條一條地取指令并執行之即可。這種簡單直接性也使得要實現類似的虛擬機變得容
易。
翻譯過程并不需要先生成語法樹,在語法分析階段的語法識別過程中,即可以對應地翻譯。
因為無論是自頂向下還是自底向上的語法分析,都可以先去識別葉子節點。在自頂向下中,
可以使用語法樹(并不真實存在)的后續遍歷,使得葉子節點先于父節點翻譯;而在自底
向上的分析中,因為其本身就是先識別葉子節點(所謂的規約),所以可以更自然地翻譯。
因為我也是想實踐下這些東西,所以還是使用lex/yacc來進行練習,省得自己去寫詞法和
語法分析。不過在使用yacc的過程中,經常會出現一些shift/reduce conflicts的警告/錯
誤,解決這些問題也費了不少時間。不過,也可能是我對LALR細節不熟悉,加之于文法本
身寫的有問題,才弄得如此折騰。現在我覺得上下文無關文法在整個編譯原理理論中非常
重要。一個好的文法可以準確無誤地描述一種編程語言的語法,還可以指導編譯器的開發。
當然,大部分常規的語言都可以找到現成的文法。
例子程序構造了一個簡單的翻譯程序,支持簡單的算術表達式、整數變量、if、while、以
及僅用于if和while的邏輯表達式。為了省力,虛擬機用的是《編譯原理與實踐》中現成的。
目標代碼也就直接是該虛擬機對應的代碼。該虛擬機主要有5個寄存器:指令指針寄存器、
2個累加寄存器、全局變量基址寄存器、臨時變量基址寄存器。這里的臨時變量不同于編
程語言說的臨時變量,它是表達式計算的臨時值,例如a+b+c,a+b的結果值就可以被實現
為存儲到一個臨時值中。
對于算術表達式,其實翻譯起來很簡單。主要是if/while和邏輯表達式的翻譯。邏輯表達
式的翻譯例子中我甚至沒有處理短路代碼:a && func(1)中如果已經計算出a為false了,
就沒必要計算func(1)了。這可能是受限于yacc,暫不深究。對于if和while,則主要涉及
到所謂的“回填”技術。
回填主要是應對向前跳轉這種問題。例如在if的代碼生成中,需要測試if的邏輯表達式的
真假,如果為假,則需要跳轉到then-part之后。這里的then-part也就是if為真時要執行
的代碼序列。而這個跳轉指令具體要跳到哪里,則需要在生成完then-part之后才能確定。
回填的解決方法,就是預留下這個跳轉指令的位置,等到then-part生成完了,得到了具
體的跳轉位置,再回去填寫那個跳轉指令。
在這個問題上,yacc也讓我折騰了一番。在if文法中:
selection_statement
: IF '(' logical_or_expr ')' {
// 本來想在這里預留這個跳轉指令的位置
} statement %prec IFX {
}
結果,yacc又給我conflicts和never reduced之類的警告,并且最終生成的代碼也不正常
(果然是無法忽略的警告)。看起來,yacc似乎不支持在文法內部添加action。通過一個
空文法符號效果一樣。對于這個問題,我甚至莫名其妙地在某個晚上的夢里當面問了yacc
的作者。他肯定地告訴我:支持,當然支持(中文)。今天仔細地在yacc文檔里找了下,
還真支持。而且對于空符號的使用,似乎也有些規則:$Sign: {action }。
后來解決這個問題的方法,算是我取巧了:
selection_statement
: IF '(' logical_or_expr IfBracket statement %prec IFX { ....}
IfBracket
: ')' {
// 邪惡地利用了這個括號
}
另外,因為需要支持嵌套的if/while,還專門使用了一個棧,用于保存這些需要回填的預留地址。
posted on 2010-04-09 20:22 Kevin Lynx 閱讀(8123) 評論(2) 編輯 收藏 引用 所屬分類: 編譯原理