• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            隨筆-341  評(píng)論-2670  文章-0  trackbacks-0
                之前曾經(jīng)為Parser Combinator寫過一篇教程。這次為了處理Vczh Library++新設(shè)計(jì)的ManagedX托管語言,我為Parser Combinator新增了三個(gè)組合子。

                第一個(gè)是def,第二個(gè)是let。它們組合使用。def(pattern, defaultValue)的意思是,如果pattern成功了那么返回pattern的分析結(jié)構(gòu),否則返回defaultValue。let(pattern, value)的意思是,如果pattern成功了則返回value,否則失敗。因此他們可以一起使用。舉個(gè)例子,ManagedX跟C#一樣具有5種type accessor:public, protected, protected internal, private, internal。其中四種accessor的文法類型是token,剩下的protected internal則是tuple<token, token>。因此我們無法很方便地為它寫一個(gè)記號(hào)到語法樹的轉(zhuǎn)換函數(shù)。而且對(duì)于缺省情況要返回private的這種行為,在EBNF+handler上直接表達(dá)出來也比較困難。當(dāng)def和let還不存在的時(shí)候,我們需要這么寫:

                accessor = (PUBLIC[ToAccessor] | PROTECTED[ToAccessor] | PRIVATE[ToAccessor] | INTERNAL[ToAccessor] | (PROTECTED + INTERNAL)[ToProtectedInternal])[ToAccessorWithDefault];

                這個(gè)時(shí)候我們需要?jiǎng)?chuàng)建三個(gè)函數(shù),分別是ToAccessor、ToProtectedInternal和ToAccessorWithDefault。因?yàn)閍ccessor本身不是一個(gè)重要的語法元素,所以我們不需要為accessor記錄一些源代碼的位置信息。表達(dá)式則需要位置信息,這可以在我們產(chǎn)生錯(cuò)誤信息的時(shí)候知道錯(cuò)誤發(fā)生在源代碼中的位置。而accessor總是直接屬于某一個(gè)重要的語法元素的,所以不需要保存。如果不需要保存位置信息的話,那么一個(gè)ToXXX的函數(shù)其實(shí)就是沒有必要的。這個(gè)時(shí)候可以讓def和let來簡(jiǎn)化操作:

                accessor = def(let(PUBLIC, acc::Public) | let(PROTECTED, acc::Protected) | let(PRIVATE, acc::Private) | let(INTERNAL, acc::Internal) | let(PROTECTED+INTERNAL, acc::ProtectedInternal), acc::Private);

                看起來好像差不多,但實(shí)際上我們已經(jīng)減少了那三個(gè)不需要存在的函數(shù)。

            ============================無恥的分割線====================================

                第三個(gè)是binop。做這個(gè)主要是因?yàn)槟莻€(gè)通用的lrec(左遞歸組合子)在對(duì)付帶大量括號(hào)的表達(dá)式的時(shí)候性能表現(xiàn)不好。這里稍微解釋一下原因。假設(shè)我們的語言有>、+、*和()四種操作符,那文法一般都寫成:

                exp0 = NUMBER | '(' exp3 ')'
                exp1 = exp1 '*' exp0 | exp0
                exp2 = exp2 '+' exp1 | exp1
                exp3 = exp3 '>' exp2 | exp2

                因此可以很容易的知道,當(dāng)我們分析1*2*3的時(shí)候,走的是下面的路子:
                exp3
                = exp2
                = exp1
                = exp1 '*' exp0
                = exp1 '*' exp1 '*' exp0
                = '1' '*' '2' '*' '3'

                現(xiàn)在我們做一個(gè)簡(jiǎn)單的變換,把1*2*3變成((1*2)*3)。意義不變,但是分析的路徑卻完全改變了:
                exp3
                = exp2
                = exp1
                = exp0
                = '(' exp3 ')'
                = '(' exp2 ')'
                = '(' exp1 ')'
                = '(' exp1 '*' exp0 ')'
                = '(' exo0 '*' exp0 ')'
                = '(' '(' exp3 ')' '*' exp0 ')'
                = '(' '(' exp2 ')' '*' exp0 ')'
                = '(' '(' exp1 ')' '*' exp0 ')'
                = '(' '(' exp1 '*' exp0 ')' '*' exp0 ')'
                = '(' '(' exp0 '*' exp0 ')' '*' exp0 ')'
                = '(' '(' '1' '*' '2' ')' '*' '3' ')'

                咋一看好像沒什么區(qū)別,但是對(duì)于ManagedX這種有十幾個(gè)優(yōu)先級(jí)的操作符的語言來說,如果給一個(gè)復(fù)雜的表達(dá)式的每一個(gè)節(jié)點(diǎn)都加上括號(hào),等于一下子增加了上千層文法的遞歸分析。由于Parser Combinator是遞歸向下分析器,因此路徑有這么長(zhǎng),那么遞歸的層次也會(huì)有這么長(zhǎng)。而且為了避免boost::Spirit那個(gè)天殺的超慢編譯速度的問題,這里犧牲了一點(diǎn)點(diǎn)性能,將組合字的Parse函數(shù)做成了虛函數(shù),所以編譯速度提高了超多。一般來說一個(gè)需要編譯一個(gè)半小時(shí)的boost::Spirit語法分析器用我的庫只需要幾秒鐘就可以編譯完了。不過現(xiàn)在卻帶來了問題。括號(hào)一多,性能下降的比較明顯。但是我們顯然不能因噎廢食,因此我決定往Parser Combinator提供一個(gè)手寫的帶優(yōu)先級(jí)的左右結(jié)合一二元操作符語法分析器。為了將這個(gè)手寫的分析器插入框架并變得通用,我決定采用下面的結(jié)構(gòu)。下面的代碼是從ManagedX的語法分析器中截取出來的:
             1      expression    = binop(exp0)
             2             .pre(ADD_SUB, ToPreUnary).pre(NOT_BITNOT, ToPreUnary).pre(INC_DEC, ToPreUnary).precedence()
             3             .lbin(MUL_DIV_MOD, ToBinary).precedence()
             4             .lbin(ADD_SUB, ToBinary).precedence()
             5             .lbin(LT << LT, ToBinaryShift).lbin(GT >> GT, ToBinaryShift).precedence()
             6             .lbin(LT, ToBinary).lbin(LE, ToBinary).lbin(GT, ToBinary).lbin(GE, ToBinary).precedence()
             7             .post(AS + type, ToCasting).post(IS + type, ToIsType).precedence()
             8             .lbin(EE, ToBinary).lbin(NE, ToBinary).precedence()
             9             .lbin(BITAND, ToBinary).precedence()
            10             .lbin(XOR, ToBinary).precedence()
            11             .lbin(BITOR, ToBinary).precedence()
            12             .lbin(AND, ToBinary).precedence()
            13             .lbin(OR, ToBinary).precedence()
            14             .lbin(QQ, ToNullChoice).precedence()
            15             .lbin(QT + (expression << COLON(NeedColon)), ToChoice).precedence()
            16             .rbin(OPEQ, ToBinaryEq).rbin(EQ, ToAssignment).precedence()
            17             ;

                binop組合子的參數(shù)代表整個(gè)帶優(yōu)先級(jí)的最高優(yōu)先級(jí)表達(dá)式組合字(參考上面給出的>+*()文法,可以知道這里的exp0是什么意思)。binop給出了四個(gè)子組合子,分別是pre(前綴一元操作符)、post(后綴一元操作符)、lbin(左結(jié)合二元操作符)和rbin(右結(jié)合二元操作符)。precedence代表一個(gè)優(yōu)先級(jí)的所有操作符定義結(jié)束。這里我做了一個(gè)小限制,也就是每一個(gè)precedence只能包含pre、post、lbin和rbin的其中一種。實(shí)踐表明這種限制不會(huì)帶來任何問題。因此這里我們得到了一張操作符和優(yōu)先級(jí)的關(guān)系表。到了這里我們就可以在Parser Combinator的框架下寫一個(gè)手寫的語法分析器(下載源代碼并打開Library\Combinator\_Binop.h)來做了。至于如何手寫語法分析器,我之前給出了一篇文章,大家可以參考這個(gè)來閱讀_Binop.h。

                binop比起簡(jiǎn)單的用lrec做同樣的事情,性能在debug下提高了100多倍,release下面則少一點(diǎn)。到了這里,Parser Combinator重新滿足了性能要求,我們可以放心大膽的用一點(diǎn)點(diǎn)無所謂的性能換取一千多倍的編譯時(shí)間了。在這里貼出當(dāng)binop還沒出現(xiàn)的時(shí)候我用lrec給出的操作符文法的實(shí)現(xiàn):
             1      exp1     = exp0
             2            | ((ADD_SUB | NOT_BITNOT | INC_DEC) + exp1)[ToUnary]
             3            ;
             4 
             5      exp2     = lrec(exp1 + *((MUL_DIV_MOD + exp1)[ToBinaryLrec]), ToLrecExpression);
             6      exp3     = lrec(exp2 + *((ADD_SUB + exp2)[ToBinaryLrec]), ToLrecExpression);
             7      exp4     = lrec(exp3 + *((((LT << LT) | (GT >> GT)) + exp3)[ToBinaryShiftLrec]), ToLrecExpression);
             8      exp5     = lrec(exp4 + *(((LT | LE | GT | GE) + exp4)[ToBinaryLrec] | (AS + type)[ToCastingLrec] | (IS + type)[ToIsTypeLrec]), ToLrecExpression);
             9      exp6     = lrec(exp5 + *(((EE | NE) + exp5)[ToBinaryLrec]), ToLrecExpression);
            10      exp7     = lrec(exp6 + *((BITAND + exp6)[ToBinaryLrec]), ToLrecExpression);
            11      exp8     = lrec(exp7 + *((XOR + exp7)[ToBinaryLrec]), ToLrecExpression);
            12      exp9     = lrec(exp8 + *((BITOR + exp8)[ToBinaryLrec]), ToLrecExpression);
            13      exp10     = lrec(exp9 + *((AND + exp9)[ToBinaryLrec]), ToLrecExpression);
            14      exp11     = lrec(exp10 + *((OR + exp10)[ToBinaryLrec]), ToLrecExpression);
            15      exp12     = lrec(exp11 + *((QQ + exp11)[ToNullChoiceLrec]), ToLrecExpression);
            16      exp13     = lrec(exp12 + *((QT + (exp12 + (COLON(NeedColon) >> exp12)))[ToChoiceLrec]), ToLrecExpression);
            17      expression    = (exp13 + OPEQ + expression)[ToBinaryEq]
            18            | (exp13 + EQ + expression)[ToAssignment]
            19            | exp13
            20            ;
            21 
            22 


            posted on 2011-06-04 21:45 陳梓瀚(vczh) 閱讀(3613) 評(píng)論(10)  編輯 收藏 引用 所屬分類: VL++3.0開發(fā)紀(jì)事

            評(píng)論:
            # re: Vczhl Library++3.0之Parser Combinator為常見的語法結(jié)構(gòu)做優(yōu)化 2011-06-05 02:05 | iloveprogramme
            學(xué)習(xí)啊  回復(fù)  更多評(píng)論
              
            # re: Vczhl Library++3.0之Parser Combinator為常見的語法結(jié)構(gòu)做優(yōu)化 2011-06-05 06:47 | 林林
            你的解析器是自頂向下分析的,用自底向上的比較好吧?  回復(fù)  更多評(píng)論
              
            # re: Vczhl Library++3.0之Parser Combinator為常見的語法結(jié)構(gòu)做優(yōu)化 2011-06-05 07:45 | 陳梓瀚(vczh)
            @林林
            那個(gè)規(guī)約順序只是一個(gè)解釋而已,跟實(shí)際的順序不一樣的。我這里還是自底向上的  回復(fù)  更多評(píng)論
              
            # re: Vczhl Library++3.0之Parser Combinator為常見的語法結(jié)構(gòu)做優(yōu)化 2011-06-05 12:56 | ooseven
            @陳梓瀚(vczh)
            當(dāng)然不能憑你上面的順序來判斷你分析的方式,只不過發(fā)現(xiàn)你好像
            很喜歡提到spirit,它是自頂向下的語法分析器所以我才有此一問。  回復(fù)  更多評(píng)論
              
            # re: Vczhl Library++3.0之Parser Combinator為常見的語法結(jié)構(gòu)做優(yōu)化 2011-06-05 17:51 | 陳梓瀚(vczh)
            @ooseven
            原來林林==ooseven啊  回復(fù)  更多評(píng)論
              
            # re: Vczhl Library++3.0之Parser Combinator為常見的語法結(jié)構(gòu)做優(yōu)化 2011-06-05 22:01 | lwch
            組合子在構(gòu)造分析樹時(shí)是自頂向下的,而在分析時(shí)則是自底向上的.  回復(fù)  更多評(píng)論
              
            # re: Vczhl Library++3.0之Parser Combinator為常見的語法結(jié)構(gòu)做優(yōu)化 2011-06-06 04:43 | ooseven
            @陳梓瀚(vczh)
            是阿,早兩年前寫詞法與語法分析器的時(shí)候還向您請(qǐng)教過呢,
            在這里表達(dá)我的感謝之意!  回復(fù)  更多評(píng)論
              
            # re: Vczhl Library++3.0之Parser Combinator為常見的語法結(jié)構(gòu)做優(yōu)化 2011-06-06 06:08 | 陳梓瀚(vczh)
            @ooseven
            我很喜歡傳播知識(shí)的滅哈哈  回復(fù)  更多評(píng)論
              
            # re: Vczhl Library++3.0之Parser Combinator為常見的語法結(jié)構(gòu)做優(yōu)化[未登錄] 2011-06-06 22:05 | vincent
            你倆的id換的我淚奔了  回復(fù)  更多評(píng)論
              
            # re: Vczhl Library++3.0之Parser Combinator為常見的語法結(jié)構(gòu)做優(yōu)化 2011-06-07 00:33 | 陳梓瀚(vczh)
            @vincent
            為何要淚奔  回復(fù)  更多評(píng)論
              
            99精品伊人久久久大香线蕉| 久久久WWW成人免费毛片| 2020久久精品亚洲热综合一本| 丰满少妇人妻久久久久久4| 99久久精品免费观看国产| 无码任你躁久久久久久久| 久久久久无码精品国产| 91麻精品国产91久久久久| 久久这里都是精品| 久久av无码专区亚洲av桃花岛| 亚洲一本综合久久| 日韩人妻无码一区二区三区久久99 | 国产精品久久久久jk制服| 久久激情亚洲精品无码?V| 一本色道久久综合亚洲精品| 精品久久人人做人人爽综合| 亚洲AV日韩AV永久无码久久| 久久中文字幕视频、最近更新| www.久久99| 精品久久久噜噜噜久久久 | 久久人人超碰精品CAOPOREN| 久久夜色精品国产欧美乱| 一本久道久久综合狠狠躁AV| 一级做a爰片久久毛片人呢| 欧美噜噜久久久XXX| 国产毛片欧美毛片久久久| 狠狠色丁香婷婷久久综合五月| 香蕉久久夜色精品国产小说| 亚洲va久久久噜噜噜久久狠狠| 看全色黄大色大片免费久久久| 国产成人久久精品麻豆一区| 久久人人爽人人爽人人AV| 亚洲精品白浆高清久久久久久| 久久久久精品国产亚洲AV无码 | 亚洲熟妇无码另类久久久| 久久只有这里有精品4| 国内精品久久久久影院老司| 欧美久久亚洲精品| 无码乱码观看精品久久| 区久久AAA片69亚洲 | 久久中文字幕一区二区|