可擴(kuò)展編譯器架構(gòu)的構(gòu)想是最近幾天在洗澡的時(shí)候才最終完成的。我在思考如何開(kāi)發(fā)一個(gè)可以同時(shí)給C、Pascal、Basic、Fortran和未知的
類(lèi)似語(yǔ)言使用的前端+后端。這只是VL++3.0的其中一個(gè)小部分,我把語(yǔ)言歸為幾類(lèi),C一類(lèi),C#一類(lèi),Javascript一類(lèi),還有其他的等等。這些類(lèi)型會(huì)分別提供不同的前端支持。在設(shè)計(jì)第一類(lèi)的編譯器期間遇到了點(diǎn)困難。
第一個(gè)困難是語(yǔ)法樹(shù)很難統(tǒng)一。其實(shí)這并不是說(shuō)那些語(yǔ)言完全不同,而是在于我想讓這N種語(yǔ)言的區(qū)別只有從字符串到語(yǔ)法樹(shù)的部分,從語(yǔ)法樹(shù)開(kāi)始都執(zhí)行相同的代碼來(lái)編譯。這就遇到了點(diǎn)麻煩。在語(yǔ)法分析的過(guò)程中,對(duì)于Pascal我不知道Name(Param)究竟是函數(shù)調(diào)用還是強(qiáng)制類(lèi)型轉(zhuǎn)換,對(duì)于Basic來(lái)說(shuō)我不知道Name(Param)是函數(shù)調(diào)用還是數(shù)組下標(biāo)。還有Pascal和Basic的and等操作符可以同時(shí)作用于整數(shù)和布爾型(C使用了&&和&,而且它們?cè)趯?shí)現(xiàn)上有巨大差別)。Pascal自己還擴(kuò)展了一些類(lèi)型譬如說(shuō)set,Pascal和Basic還有字符串。所以在語(yǔ)法分析的時(shí)候很難構(gòu)直接造出FunctionInvokeExpression、SubscribeExpression和TypeCastExpression。
第二個(gè)困難是擴(kuò)展的類(lèi)型。上面提到了Pascal有自己的set,我如何讓我的編譯器從前端開(kāi)始就可以應(yīng)付一門(mén)類(lèi)似的未知語(yǔ)言他自己的新東西。譬如說(shuō)未知的set類(lèi)型,他也有自己的操作符(連已經(jīng)存在的操作符operator+也可以用的),代碼生成的時(shí)候還有自己的方法。這不僅要求語(yǔ)法樹(shù)是可擴(kuò)展的,接下來(lái)的一切包括符號(hào)表、語(yǔ)義分析、代碼生成等所有部分都需要可擴(kuò)展的。
第三個(gè)困難是C自己造成的,他有一個(gè)十分討厭的地方。當(dāng)我得到ABC*DEF;的時(shí)候,語(yǔ)義分析沒(méi)開(kāi)始,我不可能知道這是乘法還是定義一個(gè)變量。
思考了許久,得出一個(gè)大概的方案:我先定義一門(mén)比較嚴(yán)格的語(yǔ)言,然后讓C、Pascal、Basic和Fortran來(lái)定義自己
與該語(yǔ)言的不同之處,從而盡可能復(fù)用編譯器其余相同的部分。想到這里我得到一個(gè)比較奇怪的做法:
第一個(gè)做法是在語(yǔ)義分析的時(shí)候修改語(yǔ)法樹(shù)。對(duì)于C語(yǔ)言的ABC*DEF;,這是一個(gè)statement。我給出一個(gè)接口,這個(gè)接口在語(yǔ)義分析的過(guò)程中被調(diào)用。語(yǔ)義分析產(chǎn)生了大量的信息全部傳遞過(guò)去,然后再第一次接觸到一個(gè)statement的時(shí)候,調(diào)用其中的ReplaceStatement函數(shù)。這個(gè)時(shí)候接口的ReplaceStatement可以通過(guò)語(yǔ)義分析的結(jié)果看看需不需要修改這個(gè)節(jié)點(diǎn)。如果上下文是int a,b;,那么a*b;就會(huì)被替換為乘法表達(dá)式。如果上下文是typedef int a;,那么a*b;保持不變(因?yàn)槲夷J(rèn)是優(yōu)先看成變量聲明)。ReplaceStatement對(duì)于同一個(gè)statement只會(huì)調(diào)用一次。至于Pascal的集合操作也可以通過(guò)這個(gè)來(lái)完成。對(duì)于a+b,可以在ReplaceExpression里面查看a和b是不是集合類(lèi)型,如果是的話(huà)替換成自己的PascalSetBinaryExpression。這個(gè)小技巧解決了語(yǔ)法分析的時(shí)候遇到的歧義問(wèn)題。這也是沒(méi)有辦法的辦法,因?yàn)檫@一次設(shè)計(jì)出來(lái)的結(jié)構(gòu)的目的是為了讓新的語(yǔ)言可以用很小的代價(jià)來(lái)實(shí)現(xiàn)。
第二個(gè)做法是語(yǔ)法樹(shù)的所有部分譬如Type、Expression、Statement和Declaration都存在一個(gè)ExtendedType、ExtendedExpression、ExtendedStatement和ExtendedDeclaration,語(yǔ)言可以通過(guò)繼承這四個(gè)“擴(kuò)展類(lèi)”來(lái)提供未知的東西,當(dāng)然這個(gè)時(shí)候就要連帶提供所有操作了,譬如說(shuō)根據(jù)語(yǔ)義分析的上下文來(lái)判斷他自己的ExtendedExpression的返回類(lèi)型啦。
至于符號(hào)表的可擴(kuò)展性,我設(shè)計(jì)了一個(gè)可以應(yīng)付絕大多數(shù)情況的通用符號(hào)表,因此隨時(shí)加入新的東西還是比較容易的。
最新的代碼可以在
http://vlpp.codeplex.com/這里獲得。
posted on 2010-01-31 00:13
陳梓瀚(vczh) 閱讀(2459)
評(píng)論(5) 編輯 收藏 引用 所屬分類(lèi):
VL++3.0開(kāi)發(fā)紀(jì)事