• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            隨筆-341  評(píng)論-2670  文章-0  trackbacks-0
                這篇短文的Idea來(lái)源于一篇論文。這篇論文的題目是Higier-Order Functions for Parsing,Graham Hutton寫(xiě)的。論文中使用了一種叫Miranda的函數(shù)式語(yǔ)言來(lái)講述如何使用高階函數(shù)開(kāi)發(fā)語(yǔ)法分析器。

                高階函數(shù)很多語(yǔ)言都支持,譬如JavaScript啊,C#的lambda expression啊,或者是我自己做的語(yǔ)言Vczh Free Script 2.0。不過(guò)Miranda是惰性計(jì)算的語(yǔ)言,我們常用的語(yǔ)言都不具有惰性計(jì)算的特性。因此我閱讀了這篇文章之后,自己用Vczh Free Script 2.0寫(xiě)了一個(gè)等價(jià)的小規(guī)模的語(yǔ)法分析器。結(jié)構(gòu)跟論文中所提到的那個(gè)有所區(qū)別,不過(guò)相同的經(jīng)驗(yàn)可以直接應(yīng)用在JavaScript里面或其它語(yǔ)言(例如Python等)的lambda expression里。C#我不知道行不行,沒(méi)去考證。

                這里首先要解決一個(gè)問(wèn)題,就是如何引用沒(méi)被定義的名字的問(wèn)題。譬如如下文法:

                Term=<number> | "(" Exp ")"
                Factor=[ Factor ("*" | "/") ] Term
                Exp=[Exp ("+" | "-") ] Factor

                如果我們直接把這些東西寫(xiě)進(jìn)代碼的話,那就會(huì)遇到Exp沒(méi)有定義的問(wèn)題。因此每一個(gè)小parser我都定義為一個(gè)數(shù)組,這個(gè)數(shù)組只有一個(gè)元素。在運(yùn)算的時(shí)候每次都把元素取出來(lái)執(zhí)行,就可以模擬惰性計(jì)算在這里起到的作用了。

                好了,現(xiàn)在我們開(kāi)始制作。我對(duì)Parser的定義是這樣的。一個(gè)Parser是一個(gè)只有一個(gè)函數(shù)的數(shù)組。這個(gè)函數(shù)接受一個(gè)輸入,返回一個(gè)結(jié)果的數(shù)組。因?yàn)檎Z(yǔ)法可能有歧義,所以返回多個(gè)結(jié)果是允許的。每一個(gè)結(jié)果由兩部分組成,第一部分是分析的結(jié)果,第二部分是分析到這里為止還剩下的字符串。

                首先,我們需要一個(gè)Fail,這個(gè)Fail無(wú)論輸入什么都返回空:
            1 Fail=[func(Input)
            2 {
            3   return [];
            4 }];
            5 

                然后,我們需要一個(gè)Ch來(lái)檢查輸入的前綴是否跟定義的一樣:
             1 Ch=func(c)
             2 {
             3   return [func(Input)
             4   {
             5     if(#Input>=#c)
             6       if(Input[0:#c]==c)
             7         return [[c,Input[#c:#Input-#c]]];
             8     return Fail[0](Input);
             9   }];
            10 };
                Ch的使用方法是這樣的:Ch(字符串)。譬如Ch("vczh")就返回了一個(gè)parser,這個(gè)parser在輸入"vczh123"的時(shí)候返回[ ["vczh" , "123"] ]。原因是這樣的。因?yàn)镃h("vczh")是沒(méi)有歧義的,所以返回包含一個(gè)結(jié)果的數(shù)組。這個(gè)結(jié)果又是一個(gè)數(shù)組,數(shù)組的兩個(gè)元素分別是分析的結(jié)果("vczh")和剩余的字符串("123")。

                為了方便,我們建立一個(gè)Regex來(lái)檢查輸入的前綴是否滿足一個(gè)正則表達(dá)式:
             1 Regex=func(Expression)
             2 {
             3   Expression=regexppure(Expression);
             4   return [func(Input)
             5   {
             6     local Match=matchhead(Expression,Input);
             7     if(Match!=null)
             8       return [[text(Match),Input[#text(Match):#Input-#text(Match)]]];
             9     else
            10       return [];
            11   }];
            12 };
                Regex與Ch是類(lèi)似的。實(shí)際上Regex可以用其他的手段組合起來(lái)。因?yàn)槲覀儸F(xiàn)在制作的分析器是可以分析Type-2文法的,遠(yuǎn)遠(yuǎn)比正則表達(dá)式所能表達(dá)的Type-3文法強(qiáng)大很多。不過(guò)為了使用方便這么做也不是壞事。

                接下來(lái)我們定義了一個(gè)Seq來(lái)表示多個(gè)parser串聯(lián):
             1 Seq=func({}Parsers)
             2 {
             3   return [func(Input)
             4   {
             5     local Result=[[[],Input]];
             6     for(p in Parsers)
             7     {
             8       local NewResult=[];
             9       for(r in Result)
            10       {
            11         for(pr in p[0](r[1]))
            12           NewResult=NewResult++[[r[0]++[pr[0]],pr[1]]];
            13       }
            14       Result=NewResult;
            15     }
            16     return Result;
            17   }];
            18 };
                串聯(lián)的意思其實(shí)很簡(jiǎn)單。Seq(Ch("1") , Ch("2") , Ch("3"))就等于說(shuō)輸入必須由Ch("1")、Ch("2")和Ch("3")構(gòu)成。為什么要這么做呢,因?yàn)镾eq跟循環(huán)和分支配合起來(lái)的話會(huì)非常強(qiáng)大,詳見(jiàn)下文。

                好了,有了Seq我們就需要Alt:
             1 Alt=func({}Parsers)
             2 {
             3   return [func(Input)
             4   {
             5     local Result=[];
             6     for(p in Parsers)
             7       Result=Result++p[0](Input);
             8     return Result;
             9   }];
            10 };
                Alt是分支的意思,譬如Alt(Ch("1") , Ch("2") , Ch("3")的意思是輸入可以是Ch("1")或Ch("2")或Ch("3")。

                然后我們就需要循環(huán)Any:
             1 Any=func(Parser,Max)
             2 {
             3   return [func(Input)
             4   {
             5     local Result=[[[],Input]];
             6     local Current=0;
             7     do
             8     {
             9       Produce=0;
            10       if(#Result[Current][0]!=Max)
            11         for(r in Parser[0](Result[Current][1]))
            12         {
            13           Result=Result++[[Result[Current][0]++[r[0]],r[1]]];
            14         }
            15       Current=Current+1;
            16     }
            17     while(Current<#Result);
            18     return Result;
            19   }];
            20 };
                Any的第一個(gè)參數(shù)是Parser,第二個(gè)參數(shù)是最大循環(huán)次數(shù),-1代表無(wú)限循環(huán)。這樣的話,Any(Ch("1"),4)就可以接受""、"1"、"11"、"111"和"1111"了。如果4改為-1的話,那么多少個(gè)1都行了。如果要限制最少循環(huán)次數(shù)怎么辦呢?嘿嘿,用Seq(X,X,X,Any(X,-1))吧,最少就3次了。如果你嫌麻煩的話可以再開(kāi)發(fā)一個(gè)函數(shù)去簡(jiǎn)化這個(gè)過(guò)程。在這里我就不詳細(xì)討論了。

                為了方便,我們讓Rep(X)=Any(X,-1),Opt(X)=Any(X,1):
            1 Opt=func(Parser)
            2 {
            3   return Any(Parser,1);
            4 };
            5 
            6 Rep=func(Parser)
            7 {
            8   return Any(Parser,-1);
            9 };

                最后我們需要一個(gè)Using:
             1 Using=func(Parser,Handler)
             2 {
             3   return [func(Input)
             4   {
             5     local Result=Parser[0](Input);
             6     for(r in Result)
             7       r[0]=Handler(r[0]);
             8     return Result;
             9   }];
            10 };
                Using很好理解的,給他一個(gè)Parser和一個(gè)函數(shù)Handler,當(dāng)Parser完成以后會(huì)把結(jié)果送給Handler進(jìn)行轉(zhuǎn)換(譬如進(jìn)行四則運(yùn)算的求值),然后把Handler函數(shù)的執(zhí)行結(jié)果當(dāng)成Parser的分析結(jié)果返回。

                說(shuō)到這里如果還不是很清楚的話,有兩個(gè)辦法。
                1:自己使用JavaScript或者其他語(yǔ)言重寫(xiě)一次
                2:閱讀文章開(kāi)頭的論文(有鏈接)
                好了,現(xiàn)在我們展示一下如何使用這些函數(shù)來(lái)對(duì)一個(gè)四則運(yùn)算式子進(jìn)行求值。

                重新提一下四則運(yùn)算的文法:
                Term=<number> | "(" Exp ")"
                Factor=[ Factor ("*" | "/") ] Term
                Exp=[Exp ("+" | "-") ] Factor
                我們這個(gè)語(yǔ)法分析器跟boost::spirit一樣,不支持左遞歸哈。所以我們手動(dòng)修改一下文法:
                Term=<number> | "(" Exp ")"
                Factor=Term ( ("*" | "/") Term )*
                Exp=Factor ( ("+" | "-") Factor )*

                好了,有了這個(gè)文法,我們用代碼把它們表達(dá)出來(lái):
             1 CreateParser=func()
             2 {
             3   return [Fail];
             4 };
             5 
             6 SetParser=func(Object,Parser)
             7 {
             8   Object[0]=Parser[0];
             9 };
            10 
            11 Pass=func(Index)
            12 {
            13   return func(Params)
            14   {
            15     return Params[Index];
            16   };
            17 };
            18 
            19 Calculator=func(Params)
            20 {
            21   local Result=Params[0];
            22   for(pair in Params[1])
            23     if(pair[0]=="+")
            24       Result=Result+pair[1];
            25     else if(pair[0]=="-")
            26       Result=Result-pair[1];
            27     else if(pair[0]=="*")
            28       Result=Result*pair[1];
            29     else if(pair[0]=="/")
            30       Result=Result/pair[1];
            31     else
            32       throw("Unknown operator:"++pair[0]);
            33   return Result;
            34 };
            35 
            36 Term=CreateParser();
            37 Factor=CreateParser();
            38 Exp=CreateParser();
            39 
            40 SetParser(Term,Alt(Regex("\\d+(.\\d+)?"),Using(Seq(Ch("("),Exp,Ch(")")),Pass(1))));
            41 SetParser(Factor,Using(Seq(Term,Rep(Seq(Alt(Ch("*"),Ch("/")),Term))),Calculator));
            42 SetParser(Exp,Using(Seq(Factor,Rep(Seq(Alt(Ch("+"),Ch("-")),Factor))),Calculator));
            43 Parser=Exp;
                ·Pass是的作用是分析道["(" , Exp , ")"]的時(shí)候把Exp返回,因?yàn)槔ㄌ?hào)是不需要的。
                ·Calculator的作用是傳入[1 [ ["+" , 2] , ["-" , 3] , ["+" , 4] ]]的時(shí)候吧表達(dá)式當(dāng)成1+2+3+4進(jìn)行計(jì)算。
                ·Term、Factor和Exp都是用了Using來(lái)處理返回的結(jié)果。這樣的話就等于將語(yǔ)義綁定到語(yǔ)法上。

                好了,讓我們看一看運(yùn)行結(jié)果吧。以下是主程序:
            1 for(r in Parser[0](read("Input:")))
            2 {
            3   write("================================================================================");
            4   writeln("RESULT :",r[0]);
            5   writeln("REMAIN :",r[1]);
            6 }

                輸入:(1+2)+(3+4),屏幕上會(huì)出現(xiàn):
             1 Input:(1+2)*(3+4)
             2 ================================================================================
             3 RESULT :
             4 REMAIN :(1+2)*(3+4)
             5 ================================================================================
             6 RESULT :3
             7 REMAIN :*(3+4)
             8 ================================================================================
             9 RESULT :21
            10 REMAIN :
            11 

                萬(wàn)歲!
            posted on 2008-05-21 00:57 陳梓瀚(vczh) 閱讀(8161) 評(píng)論(5)  編輯 收藏 引用 所屬分類(lèi): 腳本技術(shù)

            評(píng)論:
            # re: 使用高階函數(shù)開(kāi)發(fā)語(yǔ)法分析器 2008-05-21 03:19 | haskell
            強(qiáng)大  回復(fù)  更多評(píng)論
              
            # re: 使用高階函數(shù)開(kāi)發(fā)語(yǔ)法分析器 2008-05-21 04:28 | 空明流轉(zhuǎn)
            喂,vc,你看我樓上的人叫啥名字。  回復(fù)  更多評(píng)論
              
            # re: 使用高階函數(shù)開(kāi)發(fā)語(yǔ)法分析器 2008-05-21 05:07 | 陳梓瀚(vczh)
            不就haskell么……  回復(fù)  更多評(píng)論
              
            # re: 使用高階函數(shù)開(kāi)發(fā)語(yǔ)法分析器 2008-05-21 16:49 | 空明流轉(zhuǎn)
            @陳梓瀚(vczh)
            切,你敢叫OCaml啊...  回復(fù)  更多評(píng)論
              
            # re: 使用高階函數(shù)開(kāi)發(fā)語(yǔ)法分析器 2016-03-10 19:26 | aaaron7
            感覺(jué)思想和 monadic parser combinator 那篇論文中很像,只是那篇論文里用一個(gè) State monad 來(lái)實(shí)現(xiàn)了這個(gè)隊(duì)列  回復(fù)  更多評(píng)論
              
            日韩精品久久久久久| 99久久人妻无码精品系列蜜桃| 91久久婷婷国产综合精品青草| 久久精品www人人爽人人| 996久久国产精品线观看| 国产精品欧美久久久久天天影视| 精品久久久久久久中文字幕 | 中文字幕精品久久| 国产成人久久精品一区二区三区 | 久久99精品久久久久久久不卡| 99精品国产在热久久| 久久久久国产亚洲AV麻豆| 久久天天婷婷五月俺也去| 久久亚洲精品成人AV| 久久精品亚洲欧美日韩久久| 久久精品日日躁夜夜躁欧美| 青青草原综合久久大伊人精品| 四虎影视久久久免费观看| 日产精品久久久久久久性色| 久久99精品久久久久久9蜜桃| 波多野结衣AV无码久久一区| 国产免费久久精品99久久| 久久久久久九九99精品| 伊人精品久久久久7777| www亚洲欲色成人久久精品| 久久久免费精品re6| 97精品伊人久久大香线蕉| 精品久久综合1区2区3区激情 | 久久久久久亚洲精品无码| 久久香蕉国产线看观看99| 久久九九兔免费精品6| 亚洲国产成人乱码精品女人久久久不卡| 久久99亚洲网美利坚合众国| 亚洲综合精品香蕉久久网| 三级片免费观看久久| 久久精品国产亚洲7777| 国产福利电影一区二区三区久久老子无码午夜伦不 | 99久久国产亚洲高清观看2024| 久久婷婷五月综合97色一本一本 | 无码人妻久久一区二区三区蜜桃 | 一本大道久久a久久精品综合|