隨筆-341 評論-2670 文章-0 trackbacks-0

昨天剛剛完備了Vczh Library++3.0對于基本的分析器的支持。分析器主要有兩部分組成，第一部分是語法分析器。這個分析器通過程序員直接寫在C++里面的語法來分析一個輸入。第二部分是詞法分析器，這是通過實現一個正則表達式引擎來完成的。為了讓分析其更加靈活，分析器使用模板來寫，輸入只要滿足一定的接口就可以了。Vczh Library++3.0內置字符串輸入、迭代器輸入和列表輸入。于是在單元測試里面就寫了兩段代碼來分析一個四則運算式子，第一個沒有詞法分析器，第二個用了詞法分析器。

我們先來分析一下四則運算式子的一般做法。總的來說我們會先寫一個不包含左遞歸的文法：

1 FACTOR = NUM | ( EXP )
2 TERM = FACTOR (MUL FACTOR)*
3 EXP = TERM (ADD TERM)*

從EXP開始，我們就可以將一個四則運算式子的結構表達出來了。我們先用Vczh Library++3.0提供的庫，通過直接分析輸入的字符串來拆解一個四則運算式子并將其結果計算出來：

首先我們需要一個函數，這個函數輸入兩個整數和一個字符（代表操作符）來計算出結果。當然因為分析其本身的要求，操作符和右操作數是一個pair：

1 int cal(const int& first, const ParsingPair<wchar_t, int>& second)
2 {
3     int result=first;
4     switch(second.First())
5     {
6         case L'+':
7             result+=second.Second();
8             break;
9         case L'-':
10             result-=second.Second();
11             break;
12         case L'*':
13             result*=second.Second();
14             break;
15         case L'/':
16             result/=second.Second();
17             break;
18     }
19     return result;
20 }

接下來，我們要在C++里面寫一個文法：

1     typedef Rule<StringInput<wchar_t>, int> _Rule;
2     typedef Node<StringInput<wchar_t>, int> _Node;
3
4     _Rule FACTOR, TERM, EXP;
5     FACTOR = rgx(L"/d+")[wtoi] | (ch(L'(')>>EXP<<ch(L')'));
6     TERM = lrec(FACTOR + *(chs(L"*/") + FACTOR), cal);
7     EXP = lrec(TERM + *(chs(L"+-") + TERM), cal);

    是不是比較直觀捏。現在來解釋一下里面的內容。

    首先對于FACTOR = rgx(L"/d+")[wtoi] | (ch(L'(') >> EXP << ch(L')'));，我們知道這其實就是FACTOR = NUM | ( EXP )。這里rgx是一個正則表達式的輸入檢查，如果輸入的字符串是整數那么就走左邊的，如果輸入的第一個字符是括號就走右邊的。a >> b << c的意思是輸入必須是先a后b后c，然后拋棄a和c的分析結果只留下b。這個很好理解，分析完我們只需要那個EXP不需要兩個括號的。a[b]的意思是把a的分析結果用b函數轉換一下。rgx的結果自然是一個字符串，會告訴你輸入的整數究竟是什么，然后通過函數wtoi將字符串轉換成整數。

    剩下兩條都比較像。我們知道左遞歸的寫法是：TERM = FACTOR | TERM MUL FACTOR，因為我的分析器不能直接支持左遞歸，所以需要一個變換：TERM = FACTOR (MUL FACTOR)*，但是這樣計算函數寫起來會很麻煩，所以我提供了一個lrec組合子將非左遞歸的模式在計算完成之后，重新轉成左遞歸，然后調用那個cal函數。因此cal函數才需要三個參數，如果不用lrec的話，cal將是一個整數，還有一個操作符和整數的列表，寫起來比較麻煩。

    最后就剩下分析了：

1     {
2         Types<StringInput<wchar_t>>::GlobalInfo info;
3         StringInput<wchar_t> input=L"(1+2)*(3+4)";
4         ParsingResult<int> result=EXP.Parse(input, info);
5         TEST_ASSERT(result);
6         TEST_ASSERT(result.Value()==21);
7         TEST_ASSERT(info.errors.Count()==0);
8     }
9     {
10         TEST_ASSERT(EXP.Parse(L"(10+20)*(30+40)", false)==2100);
11     }

Vczh Library++3.0提供了兩種分析方法，分別對于需要知道詳細的錯誤信息和不需要知道詳細的錯誤信息來做。如果程序員可以假定輸入正確，或者說不需要報告那么詳細的輸入錯誤信息的話，使用第二種方法就行了，一行代碼搞定。

那么接下來看第二種。第二種我們走傳統道路，先詞法分析后語法分析。詞法分析把輸入分成了5種記號，分別是整數、左括號、右括號、加法和乘法，用正則表達式來描述：

1     typedef Rule<TokenInput<RegexToken>, int> _Rule;
2     typedef Node<TokenInput<RegexToken>, RegexToken> _Node;
3
4     List<WString> tokens;
5     tokens.Add(L"/d+");
6     tokens.Add(L"/(");
7     tokens.Add(L"/)");
8     tokens.Add(L"/+|-");
9     tokens.Add(L"/*|//");
10
11     RegexLexer lexer(tokens.Wrap());
12
13     _Node NUM=tk(0);
14     _Node OPEN=tk(1);
15     _Node CLOSE=tk(2);
16     _Node ADD=tk(3);
17     _Node MUL=tk(4);

因此我們的cal函數就要變一變了，同時還要提供一個tval函數將RegexLexer分析出的一個記號RegexToken轉成整數：

1 int tcal(const int& first, const ParsingPair<RegexToken, int>& second)
2 {
3     int result=first;
4     int value=second.Second();
5     switch(*second.First().reading)
6     {
7         case L'+':
8             result+=value;
9             break;
10         case L'-':
11             result-=value;
12             break;
13         case L'*':
14             result*=value;
15             break;
16         case L'/':
17             result/=value;
18             break;
19     }
20     return result;
21 }
22
23 int tval(const RegexToken& input)
24 {
25     return wtoi(WString(input.reading, input.length));
26 }

至此剩下的都差不多了。我相信看懂了第一種做法的人可以直接看懂第二種做法，因為只是換了一個輸入類型而已，剩下的內容都是一樣的：

1     _Rule FACTOR, TERM, EXP;
2     FACTOR = NUM[tval] | (OPEN >> EXP << CLOSE);
3     TERM = lrec(FACTOR + *(MUL + FACTOR), tcal);
4     EXP = lrec(TERM + *(ADD + FACTOR), tcal);
5
6     {
7         WString code=L"(1+2)*(3+4)";
8         List<RegexToken> tokens;
9         CopyFrom(tokens.Wrap(), lexer.Parse(code));
10         Types<TokenInput<RegexToken>>::GlobalInfo info;
11         TokenInput<RegexToken> input(&tokens[0], tokens.Count());
12         ParsingResult<int> result=EXP.Parse(input, info);
13         TEST_ASSERT(result);
14         TEST_ASSERT(result.Value()==21);
15         TEST_ASSERT(info.errors.Count()==0);
16     }
17     {
18         WString code=L"(10+20)*(30+40)";
19         List<RegexToken> tokens;
20         CopyFrom(tokens.Wrap(), lexer.Parse(code));
21         TokenInput<RegexToken> input(&tokens[0], tokens.Count());
22         TEST_ASSERT(EXP.Parse(input, false)==2100);
23     }

這里需要注意的是由于lexer.Parse返回的記號里面只保存了wchar_t*，所以變量code有必要存活下來，不然那個指針就會被釋放掉。此法的過程還是比較麻煩的，要多寫四行。這里并沒有過濾空格，如果需要過濾空格的話，用一下linq：

1 bool DiscardBlank(const RegexToken& token)
2 {
3 //如果token有定義返回true，空格沒有定義會返回false。
4 return token.token!=-1;
5 }

然后把CopyFrom那行改成：CopyFrom(tokens.Wrap(), lexer.Parser(code)>>Where(DiscardBlank));就完了。linq萬歲！

至此兩種方法就介紹完了，上面的測試代碼和分析器的源代碼都可以在Vczh Library++3.0找到。

posted on 2010-03-06 21:02 陳梓瀚(vczh) 閱讀(2641) 評論(2) 編輯收藏引用所屬分類: VL++3.0開發紀事

評論:

# re: Vczh Library++3.0之計算四則運算式子的兩種方法。 2010-03-07 05:08 | radar

真難得回復更多評論

# re: Vczh Library++3.0之計算四則運算式子的兩種方法。 2010-03-08 18:13 | 凡客優惠卷

很好回復更多評論

刷新評論列表

只有注冊用戶登錄后才能發表評論。


相關文章: 淺談面向對象語言的類型運算 Vczh Library++3.0之ManagedX語言檢查類型的可見性 Vczh Library++3.0之山寨mscorlib.dll Vczh Library++3.0之如何把C#屬性parse出來的超長pair鏈表賦值到語法書上 Vczhl Library++3.0之Parser Combinator為常見的語法結構做優化 Vczh Library++3.0托管語言語法樹完成 Vczh Library++3.0第一階段宣告結束 Vczh Library++3.0開發紀事之流式xml和json讀寫 Vczh Library++3.0第一個Release提供下載！ Vczh Library++ 3.0之烏龜畫圖Demo接近完工

網站導航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

留言簿(70)

隨筆分類(347)

好友博客

Graphixer
何詠師弟的圖形學網站
jetricy
Jetricy的技術博客
KlayGE游戲引擎
叛叛大神
Lomox UI框架
Lomox UI框架
MiGL
Tyeah的博客
vczh的百度空間
vczh的百度空間
YMK的后花園
YMK的技術博客
德利菲
德利菲的技術博客
怪盜KID的游戲開發博客
怪盜KID的游戲開發博客
華工微軟俱樂部
華南理工大學微軟俱樂部科技部博客
開發視界
開發視界 - 移動開發社區
老趙點滴
趙姐夫的.net博客
臨淵羨魚，不如退而山寨
另一個SOS團的C++程序員……
某白食(Lyt)
某白食的C++博客
歲月流轉，往昔空明
空明流轉的blog
微軟一站式實例代碼庫
500個經典示例，速學速用，效率倍增。
我在博客園的blog
我在博客園的blog
一個不靠譜的程序員
JeffChen的技術博客

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

留言簿(70)

隨筆分類(347)

好友博客

搜索

最新評論

閱讀排行榜

評論排行榜