• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            隨筆-341  評論-2670  文章-0  trackbacks-0
                這篇短文的Idea來源于一篇論文。這篇論文的題目是Higier-Order Functions for Parsing,Graham Hutton寫的。論文中使用了一種叫Miranda的函數式語言來講述如何使用高階函數開發語法分析器。

                高階函數很多語言都支持,譬如JavaScript啊,C#的lambda expression啊,或者是我自己做的語言Vczh Free Script 2.0。不過Miranda是惰性計算的語言,我們常用的語言都不具有惰性計算的特性。因此我閱讀了這篇文章之后,自己用Vczh Free Script 2.0寫了一個等價的小規模的語法分析器。結構跟論文中所提到的那個有所區別,不過相同的經驗可以直接應用在JavaScript里面或其它語言(例如Python等)的lambda expression里。C#我不知道行不行,沒去考證。

                這里首先要解決一個問題,就是如何引用沒被定義的名字的問題。譬如如下文法:

                Term=<number> | "(" Exp ")"
                Factor=[ Factor ("*" | "/") ] Term
                Exp=[Exp ("+" | "-") ] Factor

                如果我們直接把這些東西寫進代碼的話,那就會遇到Exp沒有定義的問題。因此每一個小parser我都定義為一個數組,這個數組只有一個元素。在運算的時候每次都把元素取出來執行,就可以模擬惰性計算在這里起到的作用了。

                好了,現在我們開始制作。我對Parser的定義是這樣的。一個Parser是一個只有一個函數的數組。這個函數接受一個輸入,返回一個結果的數組。因為語法可能有歧義,所以返回多個結果是允許的。每一個結果由兩部分組成,第一部分是分析的結果,第二部分是分析到這里為止還剩下的字符串。

                首先,我們需要一個Fail,這個Fail無論輸入什么都返回空:
            1 Fail=[func(Input)
            2 {
            3   return [];
            4 }];
            5 

                然后,我們需要一個Ch來檢查輸入的前綴是否跟定義的一樣:
             1 Ch=func(c)
             2 {
             3   return [func(Input)
             4   {
             5     if(#Input>=#c)
             6       if(Input[0:#c]==c)
             7         return [[c,Input[#c:#Input-#c]]];
             8     return Fail[0](Input);
             9   }];
            10 };
                Ch的使用方法是這樣的:Ch(字符串)。譬如Ch("vczh")就返回了一個parser,這個parser在輸入"vczh123"的時候返回[ ["vczh" , "123"] ]。原因是這樣的。因為Ch("vczh")是沒有歧義的,所以返回包含一個結果的數組。這個結果又是一個數組,數組的兩個元素分別是分析的結果("vczh")和剩余的字符串("123")。

                為了方便,我們建立一個Regex來檢查輸入的前綴是否滿足一個正則表達式:
             1 Regex=func(Expression)
             2 {
             3   Expression=regexppure(Expression);
             4   return [func(Input)
             5   {
             6     local Match=matchhead(Expression,Input);
             7     if(Match!=null)
             8       return [[text(Match),Input[#text(Match):#Input-#text(Match)]]];
             9     else
            10       return [];
            11   }];
            12 };
                Regex與Ch是類似的。實際上Regex可以用其他的手段組合起來。因為我們現在制作的分析器是可以分析Type-2文法的,遠遠比正則表達式所能表達的Type-3文法強大很多。不過為了使用方便這么做也不是壞事。

                接下來我們定義了一個Seq來表示多個parser串聯:
             1 Seq=func({}Parsers)
             2 {
             3   return [func(Input)
             4   {
             5     local Result=[[[],Input]];
             6     for(p in Parsers)
             7     {
             8       local NewResult=[];
             9       for(r in Result)
            10       {
            11         for(pr in p[0](r[1]))
            12           NewResult=NewResult++[[r[0]++[pr[0]],pr[1]]];
            13       }
            14       Result=NewResult;
            15     }
            16     return Result;
            17   }];
            18 };
                串聯的意思其實很簡單。Seq(Ch("1") , Ch("2") , Ch("3"))就等于說輸入必須由Ch("1")、Ch("2")和Ch("3")構成。為什么要這么做呢,因為Seq跟循環和分支配合起來的話會非常強大,詳見下文。

                好了,有了Seq我們就需要Alt:
             1 Alt=func({}Parsers)
             2 {
             3   return [func(Input)
             4   {
             5     local Result=[];
             6     for(p in Parsers)
             7       Result=Result++p[0](Input);
             8     return Result;
             9   }];
            10 };
                Alt是分支的意思,譬如Alt(Ch("1") , Ch("2") , Ch("3")的意思是輸入可以是Ch("1")或Ch("2")或Ch("3")。

                然后我們就需要循環Any:
             1 Any=func(Parser,Max)
             2 {
             3   return [func(Input)
             4   {
             5     local Result=[[[],Input]];
             6     local Current=0;
             7     do
             8     {
             9       Produce=0;
            10       if(#Result[Current][0]!=Max)
            11         for(r in Parser[0](Result[Current][1]))
            12         {
            13           Result=Result++[[Result[Current][0]++[r[0]],r[1]]];
            14         }
            15       Current=Current+1;
            16     }
            17     while(Current<#Result);
            18     return Result;
            19   }];
            20 };
                Any的第一個參數是Parser,第二個參數是最大循環次數,-1代表無限循環。這樣的話,Any(Ch("1"),4)就可以接受""、"1"、"11"、"111"和"1111"了。如果4改為-1的話,那么多少個1都行了。如果要限制最少循環次數怎么辦呢?嘿嘿,用Seq(X,X,X,Any(X,-1))吧,最少就3次了。如果你嫌麻煩的話可以再開發一個函數去簡化這個過程。在這里我就不詳細討論了。

                為了方便,我們讓Rep(X)=Any(X,-1),Opt(X)=Any(X,1):
            1 Opt=func(Parser)
            2 {
            3   return Any(Parser,1);
            4 };
            5 
            6 Rep=func(Parser)
            7 {
            8   return Any(Parser,-1);
            9 };

                最后我們需要一個Using:
             1 Using=func(Parser,Handler)
             2 {
             3   return [func(Input)
             4   {
             5     local Result=Parser[0](Input);
             6     for(r in Result)
             7       r[0]=Handler(r[0]);
             8     return Result;
             9   }];
            10 };
                Using很好理解的,給他一個Parser和一個函數Handler,當Parser完成以后會把結果送給Handler進行轉換(譬如進行四則運算的求值),然后把Handler函數的執行結果當成Parser的分析結果返回。

                說到這里如果還不是很清楚的話,有兩個辦法。
                1:自己使用JavaScript或者其他語言重寫一次
                2:閱讀文章開頭的論文(有鏈接)
                好了,現在我們展示一下如何使用這些函數來對一個四則運算式子進行求值。

                重新提一下四則運算的文法:
                Term=<number> | "(" Exp ")"
                Factor=[ Factor ("*" | "/") ] Term
                Exp=[Exp ("+" | "-") ] Factor
                我們這個語法分析器跟boost::spirit一樣,不支持左遞歸哈。所以我們手動修改一下文法:
                Term=<number> | "(" Exp ")"
                Factor=Term ( ("*" | "/") Term )*
                Exp=Factor ( ("+" | "-") Factor )*

                好了,有了這個文法,我們用代碼把它們表達出來:
             1 CreateParser=func()
             2 {
             3   return [Fail];
             4 };
             5 
             6 SetParser=func(Object,Parser)
             7 {
             8   Object[0]=Parser[0];
             9 };
            10 
            11 Pass=func(Index)
            12 {
            13   return func(Params)
            14   {
            15     return Params[Index];
            16   };
            17 };
            18 
            19 Calculator=func(Params)
            20 {
            21   local Result=Params[0];
            22   for(pair in Params[1])
            23     if(pair[0]=="+")
            24       Result=Result+pair[1];
            25     else if(pair[0]=="-")
            26       Result=Result-pair[1];
            27     else if(pair[0]=="*")
            28       Result=Result*pair[1];
            29     else if(pair[0]=="/")
            30       Result=Result/pair[1];
            31     else
            32       throw("Unknown operator:"++pair[0]);
            33   return Result;
            34 };
            35 
            36 Term=CreateParser();
            37 Factor=CreateParser();
            38 Exp=CreateParser();
            39 
            40 SetParser(Term,Alt(Regex("\\d+(.\\d+)?"),Using(Seq(Ch("("),Exp,Ch(")")),Pass(1))));
            41 SetParser(Factor,Using(Seq(Term,Rep(Seq(Alt(Ch("*"),Ch("/")),Term))),Calculator));
            42 SetParser(Exp,Using(Seq(Factor,Rep(Seq(Alt(Ch("+"),Ch("-")),Factor))),Calculator));
            43 Parser=Exp;
                ·Pass是的作用是分析道["(" , Exp , ")"]的時候把Exp返回,因為括號是不需要的。
                ·Calculator的作用是傳入[1 [ ["+" , 2] , ["-" , 3] , ["+" , 4] ]]的時候吧表達式當成1+2+3+4進行計算。
                ·Term、Factor和Exp都是用了Using來處理返回的結果。這樣的話就等于將語義綁定到語法上。

                好了,讓我們看一看運行結果吧。以下是主程序:
            1 for(r in Parser[0](read("Input:")))
            2 {
            3   write("================================================================================");
            4   writeln("RESULT :",r[0]);
            5   writeln("REMAIN :",r[1]);
            6 }

                輸入:(1+2)+(3+4),屏幕上會出現:
             1 Input:(1+2)*(3+4)
             2 ================================================================================
             3 RESULT :
             4 REMAIN :(1+2)*(3+4)
             5 ================================================================================
             6 RESULT :3
             7 REMAIN :*(3+4)
             8 ================================================================================
             9 RESULT :21
            10 REMAIN :
            11 

                萬歲!
            posted on 2008-05-21 00:57 陳梓瀚(vczh) 閱讀(8160) 評論(5)  編輯 收藏 引用 所屬分類: 腳本技術

            評論:
            # re: 使用高階函數開發語法分析器 2008-05-21 03:19 | haskell
            強大  回復  更多評論
              
            # re: 使用高階函數開發語法分析器 2008-05-21 04:28 | 空明流轉
            喂,vc,你看我樓上的人叫啥名字。  回復  更多評論
              
            # re: 使用高階函數開發語法分析器 2008-05-21 05:07 | 陳梓瀚(vczh)
            不就haskell么……  回復  更多評論
              
            # re: 使用高階函數開發語法分析器 2008-05-21 16:49 | 空明流轉
            @陳梓瀚(vczh)
            切,你敢叫OCaml?。?nbsp; 回復  更多評論
              
            # re: 使用高階函數開發語法分析器 2016-03-10 19:26 | aaaron7
            感覺思想和 monadic parser combinator 那篇論文中很像,只是那篇論文里用一個 State monad 來實現了這個隊列  回復  更多評論
              
            久久国产乱子精品免费女| 久久久这里有精品| 97精品久久天干天天天按摩| 婷婷久久久亚洲欧洲日产国码AV | 久久播电影网| 久久国产免费直播| 午夜不卡久久精品无码免费| 久久综合丝袜日本网| 亚洲欧美国产精品专区久久 | 久久亚洲私人国产精品vA| 国产精品一区二区久久不卡| 久久精品无码专区免费| 久久亚洲精品无码AV红樱桃| 99久久99久久精品国产片| 2019久久久高清456| 一本一道久久精品综合| 精品伊人久久大线蕉色首页| 亚洲成色999久久网站| 国内精品人妻无码久久久影院导航| 国内精品久久久久影院免费| 久久青青草视频| 久久成人18免费网站| www.久久99| 久久国产亚洲高清观看| 国产成人综合久久精品红| 久久成人18免费网站| 久久国产一区二区| 精品无码久久久久久尤物| 亚洲欧美另类日本久久国产真实乱对白 | 91视频国产91久久久| 国产精品久久久久a影院| 久久久久国产一区二区三区| 亚洲国产二区三区久久| 精品久久久久久久国产潘金莲| 国产精品无码久久四虎| 国产一区二区精品久久凹凸| 久久久精品免费国产四虎| 精品一区二区久久| 91久久香蕉国产熟女线看| 久久国产高清一区二区三区| 99久久无码一区人妻|