上一篇文章提到了我開發了可配置語法分析器之后做了一個FpMacro用來生成C++有規律的代碼。這一篇文章就從FpMacro入手,分析可配置語法分析器所需要具備的功能。首先讓我們來了解一下什么是FpMacro。
FpMacro主要用來產生用C++宏很難容易產生的代碼(譬如BOOST那個宏)。當你需要重復產生一些區別很小但是又不能用模板解決的代碼的時候,用宏就不是一個好的選擇,因為這種宏對于輸入的東西都有很多限制。譬如說因為宏展開的順序的問題,你把另一個宏當成高階函數傳進去,過不了幾輪遞歸就會被解釋成不知道什么東西了。于是我開發了FpMacro來解決這個問題。首先考慮一下FpMacro需要支持的功能:
1、根據參數的不同選擇分支
2、循環產生代碼
3、能方便地在里面寫C++的宏(雖然不解釋,但是不能造成語法上的沖突)
4、方便使用C++的各種符號(譬如說括號和逗號這種要命的東西)
其實第四條也就是說,在調用FpMacro宏的時候,逗號和括號跟一般的文本是有不同的解釋的,在不調用FpMacro宏的時候,括號和逗號用來產生括號和逗號,不是語法的一部分。這會讓我們做語法分析的時候遇到很大的困難。當然如何方便的解決這種事情也就是可配置語法分析器要解決的事情了。
于是我們可以開始設計FpMacro了:
1、單行宏:
1 $$define $NAME($param1,$param2) expression
2、多行宏:
1 $$define $NAME($param1,$param2) $$begin
2 expression
3 
4 $$define
.
5 $$end
3、宏調用:
1 $NAME(arg_expression_1,arg_expression_2,..)
4、數組:
$[elem1,elem2,..]
從上面的語法我們可以知道$$define是可以嵌套的,也就是說你可以在一個函數里面定義子函數,然后還能將子函數傳入另一個宏的參數讓它調用(就跟函數指針一樣)。于是我們知道,FpMacro宏其實就是一些高階函數,根據各種參數,字符串也好,函數也好,返回字符串的。
語法的另一個要求也能很明顯的看出來,不能跟C++里面的#define和括號逗號什么的混淆,除了$NAME(a,b,c)這些東西以外,括號和逗號都必須是用來產生代碼的東西,這也是FpMacro之所以能夠真正使用的一個地方。如果所有的逗號都不被解釋成普通的文本,都用轉義$(,)的話,寫出來的代碼會很難看的,因為C++本身逗號也很多。
于是我們可以得到FpMacro的文法定義:
1 PLAIN_TEXT = rgx(L"[^/$/[/](), /t/r/n]+");
2 BRACKET_OPEN = str(L"(");
3 BRACKET_CLOSE = str(L")");
4 ARRAY_OPEN = str(L"$[");
5 ARRAY_CLOSE = str(L"]");
6 NAME = rgx(L"/$[a-zA-Z_]/w*");
7 COMMA = str(L",");
8 COMMENT = rgx(L"(////[^/r/n]*|///*([^*]|/*+[^*//])*/*+//)");
9 STRING = rgx(L"\"([^\\\\\"]|\\\\\\.)*\"");
10 NEW_LINE = str(L"\r\n");
11 ESCAPE = rgx(L"/$/(/./)");
12 SPACE = rgx(L"[ /t]+");
13
14 exp_list = list(opt(exp_nc + *(COMMA >> exp_nc)));
15 name_list = list(opt(NAME + *(*SPACE >> COMMA >> *SPACE >> NAME)));
16 def_list = list(+(*NEW_LINE >> def << *NEW_LINE));
17 ref_head = ((str(L"$$define")>>*SPACE>>NAME) + (*SPACE>>(BRACKET_OPEN >> name_list << BRACKET_CLOSE)))[ToRefDefHead]<<*SPACE;
18
19 text_exp_nc = (PLAIN_TEXT | ARRAY_OPEN | ARRAY_CLOSE | COMMENT | STRING | ESCAPE | SPACE)[ToText];
20 unit_exp_nc = invoke_exp | array_exp | reference_exp | text_exp_nc | str(L"()")[ToText] | (BRACKET_OPEN >> opt(exp + opt(BRACKET_CLOSE)))[ToBracket];
21 concat_exp_nc = list(+unit_exp_nc)[ToConcat];
22 exp_nc = concat_exp_nc;
23
24 array_exp = (ARRAY_OPEN >> exp_list << ARRAY_CLOSE)[ToArray];
25 reference_exp = NAME[ToReference];
26 text_exp = (PLAIN_TEXT | ARRAY_OPEN | ARRAY_CLOSE | COMMA | COMMENT | STRING | ESCAPE | SPACE)[ToText];
27 invoke_exp = (reference_exp + (BRACKET_OPEN >> exp_list << BRACKET_CLOSE))[ToInvoke];
28 unit_exp = invoke_exp | array_exp | reference_exp | text_exp | str(L"()")[ToText] | (BRACKET_OPEN >> opt(exp + opt(BRACKET_CLOSE)))[ToBracket];
29 concat_exp = list(+unit_exp)[ToConcat];
30 exp = concat_exp;
31
32 exp_def = exp[ToExpDef];
33 ref_def = (ref_head + (list(loop(exp_def, 1, 1)) | (str(L"$$begin") >> def_list << str(L"$$end"))))[ToRefDef];
34 def = exp_def | ref_def;
35
36 macro_start = def_list[ToMacro];
上面的代碼即是文法也是C++代碼。可配置文法分析器被設計成你可以在C++里面寫文法,然后就可以直接用文法對容器或者字符串進行分析了。這里稍微解釋一下符號的意義:
每一條 文法都是有類型的。組合在一起的文法輸入同樣的東西,但是返回類型各不相同。這里讓a返回int,b返回WString:
連接1:a+b。規定a后面接著b,然后返回ParsingPair<int, WString>
連接2:a>>b。規定a后面接著b,然后返回b(a的返回結果被忽視)
連接3:a<<b。跟上面反過來。
循環:+a,*a,opt(a)。分別代表一次或多次、零次或多次、零次或一次循環。我這里還提供了一個函數loop(Rule, min, max)用來控制循環次數,當max==-1的時候代表沒有上限。這里返回ParsingList<int>。
分支:a|b。規定a或者b其中一個匹配都可以,但是要求是a和b返回的類型要一致。
返回值轉換:a[f]。f是一個函數,接受a的結果,返回一個新結果。你可以用這種技巧來將記號轉換成表達式對象樹。
錯誤恢復:a(f)。f是一個函數,當a發生錯誤的時候,f可以替換或添加錯誤信息,還能決定要不要返回一個對象讓分析可以繼續下去。這里f的結果必須跟a的類型一致。這是錯誤回復跟返回值轉換不同的地方。
還有其他雜項函數用來把處理結果跟VL++3.0的其他基礎類庫連接起來,譬如rgx用正則表達式產生一個接受字符串,匹配前綴并返回前綴的分析器,等等。
這批文章先介紹到這里。下一篇文章我將給出FpMacro的語法樹的代碼。可配置語法分析器的使命就是將一個字符串或者容器翻譯成語法樹,或者直接計算出結果。有了語法樹之后,我們就可以得到可配置語法分析器的一些需求,然后再根據這些需求來開發出一個可配置語法分析器,讓你可以在C++里面直接寫文法得到結果。
可配置語法分析器跟boost::spirit不同的一點就是文法是有類型的,譬如說*a+*b返回結果ParsingPair<ParsingList<int>,ParsingList<WString>>,從而你可以知道a和b一共有多少個。boost::spirit根據了解(我并沒有非常詳細地閱讀它的細節),返回給你的是一個記號的迭代器,而且還很難用很
漂亮的代碼將結果轉換成我們需要的東西(當然還是能轉的,就是寫出來的代碼不好看,特別是他上面那些例子……)。
posted on 2009-11-27 21:21
陳梓瀚(vczh) 閱讀(3245)
評論(3) 編輯 收藏 引用 所屬分類:
VL++3.0開發紀事