• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            隨筆-341  評論-2670  文章-0  trackbacks-0
                昨天剛剛完備了Vczh Library++3.0對于基本的分析器的支持。分析器主要有兩部分組成,第一部分是語法分析器。這個分析器通過程序員直接寫在C++里面的語法來分析一個輸入。第二部分是詞法分析器,這是通過實現一個正則表達式引擎來完成的。為了讓分析其更加靈活,分析器使用模板來寫,輸入只要滿足一定的接口就可以了。Vczh Library++3.0內置字符串輸入、迭代器輸入和列表輸入。于是在單元測試里面就寫了兩段代碼來分析一個四則運算式子,第一個沒有詞法分析器,第二個用了詞法分析器。

                我們先來分析一下四則運算式子的一般做法。總的來說我們會先寫一個不包含左遞歸的文法:
            1 FACTOR = NUM | ( EXP )
            2 TERM = FACTOR (MUL FACTOR)*
            3 EXP = TERM (ADD TERM)*

                從EXP開始,我們就可以將一個四則運算式子的結構表達出來了。我們先用Vczh Library++3.0提供的庫,通過直接分析輸入的字符串來拆解一個四則運算式子并將其結果計算出來:

                首先我們需要一個函數,這個函數輸入兩個整數和一個字符(代表操作符)來計算出結果。當然因為分析其本身的要求,操作符和右操作數是一個pair:
             1 int cal(const int& first, const ParsingPair<wchar_t, int>& second)
             2 {
             3     int result=first;
             4     switch(second.First())
             5     {
             6         case L'+':
             7             result+=second.Second();
             8             break;
             9         case L'-':
            10             result-=second.Second();
            11             break;
            12         case L'*':
            13             result*=second.Second();
            14             break;
            15         case L'/':
            16             result/=second.Second();
            17             break;
            18     }
            19     return result;
            20 }

                接下來,我們要在C++里面寫一個文法:
            1     typedef Rule<StringInput<wchar_t>int> _Rule;
            2     typedef Node<StringInput<wchar_t>int> _Node;
            3 
            4     _Rule FACTOR, TERM, EXP;
            5     FACTOR = rgx(L"/d+")[wtoi] | (ch(L'(')>>EXP<<ch(L')'));
            6     TERM = lrec(FACTOR + *(chs(L"*/"+ FACTOR), cal);
            7     EXP = lrec(TERM + *(chs(L"+-"+ TERM), cal);

                是不是比較直觀捏。現在來解釋一下里面的內容。

                首先對于FACTOR = rgx(L"/d+")[wtoi] | (ch(L'(') >> EXP << ch(L')'));,我們知道這其實就是FACTOR = NUM | ( EXP )。這里rgx是一個正則表達式的輸入檢查,如果輸入的字符串是整數那么就走左邊的,如果輸入的第一個字符是括號就走右邊的。a >> b << c的意思是輸入必須是先a后b后c,然后拋棄a和c的分析結果只留下b。這個很好理解,分析完我們只需要那個EXP不需要兩個括號的。a[b]的意思是把a的分析結果用b函數轉換一下。rgx的結果自然是一個字符串,會告訴你輸入的整數究竟是什么,然后通過函數wtoi將字符串轉換成整數。

                剩下兩條都比較像。我們知道左遞歸的寫法是:TERM = FACTOR | TERM MUL FACTOR,因為我的分析器不能直接支持左遞歸,所以需要一個變換:TERM = FACTOR (MUL FACTOR)*,但是這樣計算函數寫起來會很麻煩,所以我提供了一個lrec組合子將非左遞歸的模式在計算完成之后,重新轉成左遞歸,然后調用那個cal函數。因此cal函數才需要三個參數,如果不用lrec的話,cal將是一個整數,還有一個操作符和整數的列表,寫起來比較麻煩。

                最后就剩下分析了:
             1     {
             2         Types<StringInput<wchar_t>>::GlobalInfo info;
             3         StringInput<wchar_t> input=L"(1+2)*(3+4)";
             4         ParsingResult<int> result=EXP.Parse(input, info);
             5         TEST_ASSERT(result);
             6         TEST_ASSERT(result.Value()==21);
             7         TEST_ASSERT(info.errors.Count()==0);
             8     }
             9     {
            10         TEST_ASSERT(EXP.Parse(L"(10+20)*(30+40)"false)==2100);
            11     }

                Vczh Library++3.0提供了兩種分析方法,分別對于需要知道詳細的錯誤信息和不需要知道詳細的錯誤信息來做。如果程序員可以假定輸入正確,或者說不需要報告那么詳細的輸入錯誤信息的話,使用第二種方法就行了,一行代碼搞定。

                那么接下來看第二種。第二種我們走傳統道路,先詞法分析后語法分析。詞法分析把輸入分成了5種記號,分別是整數、左括號、右括號、加法和乘法,用正則表達式來描述:
             1     typedef Rule<TokenInput<RegexToken>int> _Rule;
             2     typedef Node<TokenInput<RegexToken>, RegexToken> _Node;
             3 
             4     List<WString> tokens;
             5     tokens.Add(L"/d+");
             6     tokens.Add(L"/(");
             7     tokens.Add(L"/)");
             8     tokens.Add(L"/+|-");
             9     tokens.Add(L"/*|//");
            10 
            11     RegexLexer lexer(tokens.Wrap());
            12 
            13     _Node NUM=tk(0);
            14     _Node OPEN=tk(1);
            15     _Node CLOSE=tk(2);
            16     _Node ADD=tk(3);
            17     _Node MUL=tk(4);

                因此我們的cal函數就要變一變了,同時還要提供一個tval函數將RegexLexer分析出的一個記號RegexToken轉成整數:
             1 int tcal(const int& first, const ParsingPair<RegexToken, int>& second)
             2 {
             3     int result=first;
             4     int value=second.Second();
             5     switch(*second.First().reading)
             6     {
             7         case L'+':
             8             result+=value;
             9             break;
            10         case L'-':
            11             result-=value;
            12             break;
            13         case L'*':
            14             result*=value;
            15             break;
            16         case L'/':
            17             result/=value;
            18             break;
            19     }
            20     return result;
            21 }
            22 
            23 int tval(const RegexToken& input)
            24 {
            25     return wtoi(WString(input.reading, input.length));
            26 }

                至此剩下的都差不多了。我相信看懂了第一種做法的人可以直接看懂第二種做法,因為只是換了一個輸入類型而已,剩下的內容都是一樣的:
             1     _Rule FACTOR, TERM, EXP;
             2     FACTOR = NUM[tval] | (OPEN >> EXP << CLOSE);
             3     TERM = lrec(FACTOR + *(MUL + FACTOR), tcal);
             4     EXP = lrec(TERM + *(ADD + FACTOR), tcal);
             5 
             6     {
             7         WString code=L"(1+2)*(3+4)";
             8         List<RegexToken> tokens;
             9         CopyFrom(tokens.Wrap(), lexer.Parse(code));
            10         Types<TokenInput<RegexToken>>::GlobalInfo info;
            11         TokenInput<RegexToken> input(&tokens[0], tokens.Count());
            12         ParsingResult<int> result=EXP.Parse(input, info);
            13         TEST_ASSERT(result);
            14         TEST_ASSERT(result.Value()==21);
            15         TEST_ASSERT(info.errors.Count()==0);
            16     }
            17     {
            18         WString code=L"(10+20)*(30+40)";
            19         List<RegexToken> tokens;
            20         CopyFrom(tokens.Wrap(), lexer.Parse(code));
            21         TokenInput<RegexToken> input(&tokens[0], tokens.Count());
            22         TEST_ASSERT(EXP.Parse(input, false)==2100);
            23     }

                這里需要注意的是由于lexer.Parse返回的記號里面只保存了wchar_t*,所以變量code有必要存活下來,不然那個指針就會被釋放掉。此法的過程還是比較麻煩的,要多寫四行。這里并沒有過濾空格,如果需要過濾空格的話,用一下linq:

            1 bool DiscardBlank(const RegexToken& token)
            2 {
            3   //如果token有定義返回true,空格沒有定義會返回false。
            4   return token.token!=-1;
            5 }

                然后把CopyFrom那行改成:CopyFrom(tokens.Wrap(), lexer.Parser(code)>>Where(DiscardBlank));就完了。linq萬歲!

                至此兩種方法就介紹完了,上面的測試代碼和分析器的源代碼都可以在Vczh Library++3.0找到。
            posted on 2010-03-06 21:02 陳梓瀚(vczh) 閱讀(2624) 評論(2)  編輯 收藏 引用 所屬分類: VL++3.0開發紀事

            評論:
            # re: Vczh Library++3.0之計算四則運算式子的兩種方法。 2010-03-07 05:08 | radar
            真難得  回復  更多評論
              
            # re: Vczh Library++3.0之計算四則運算式子的兩種方法。 2010-03-08 18:13 | 凡客優惠卷
            很好  回復  更多評論
              
            亚洲AV无码久久精品狠狠爱浪潮| 中文字幕久久欲求不满| 无码8090精品久久一区| 日韩人妻无码一区二区三区久久99 | 国产福利电影一区二区三区久久久久成人精品综合 | 国产精品久久久久久久app| 久久综合给合久久国产免费 | 久久免费的精品国产V∧| 国产A级毛片久久久精品毛片| 亚洲人成电影网站久久| 99久久伊人精品综合观看| 久久天天躁狠狠躁夜夜不卡| 国产精品免费久久久久电影网| 色8久久人人97超碰香蕉987| 久久久无码精品午夜| www久久久天天com| AV无码久久久久不卡蜜桃| 久久精品无码av| 88久久精品无码一区二区毛片| 久久久久人妻一区二区三区| 久久无码一区二区三区少妇| 777久久精品一区二区三区无码| 亚洲va久久久噜噜噜久久| 久久久久国色AV免费看图片| 亚洲国产成人久久精品动漫| 99久久这里只有精品| 久久国产精品77777| 久久亚洲精品无码AV红樱桃| 狠狠精品久久久无码中文字幕| 亚洲国产婷婷香蕉久久久久久| 久久国产V一级毛多内射| 久久综合丝袜日本网| 九九久久99综合一区二区| 久久精品成人国产午夜| 久久精品国产免费| 99热热久久这里只有精品68| 久久99精品久久久久久9蜜桃| 久久国产成人| 久久无码高潮喷水| 人妻精品久久无码区| 97久久超碰国产精品旧版|