• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>

            歲月流轉,往昔空明

            C++博客 首頁 新隨筆 聯系 聚合 管理
              118 Posts :: 3 Stories :: 413 Comments :: 0 Trackbacks

            起源:詞法分析

            不管你學什么樣的外語,大約都是從詞匯開始。詞,是一個語言里最小的語義單元。編譯器閱讀你的語言,也是如此。所以第一件事情,就是要把整個文法打散成一個一個的單詞。在這里,我們把這些單詞叫token。

            怎么進行詞法分析,此處就不再贅述,這是一個上下文無關文法的匹配問題。如果需要理解詞法分析的原理,或者手工編寫詞法分析工具,可以參考陳梓翰提供的兩篇極好的教程。在SASL里,我們不再發明輪子,而選用已有的詞法分析工具。

            可選的詞法分析工具很多,例如出名的Lex及其改進Flex,ANTLR等。對于C++而言,這些方法多屬于產生式的方法,就是用一段不太靠譜的代碼去生成另外一些更不靠譜的代碼。更重要的是,這些代碼的編譯、調試都不方便。所以最終我們還是選擇了一個在用C++實現、并且可以直接在C++里書寫詞法和語法的分析器產生工具,它就是Spirit。

            Spirit V1.8和V2.1都是Boost庫里的一個部分。需要注意的是,Spirit的V1和V2是完全不兼容的兩個庫。在這里,我們選擇了V2作為我們的詞法和語法分析工具。Spirit V2總共分為3個部分,負責語法分析的Qi,格式化打印的Karma,和詞法分析器Lex。此外,Spirit還有一個類似于boost.mpl和boost.lambda的庫phoenix,這個庫也常被用于詞法和語法分析中。詳細的使用指南和參考,可以參見Spirit的文檔。

            由于Spirit.Lex大量運用了Template Meta-Programming和編譯器推導,因此編譯時很容易出錯,而且錯誤信息難于定位;同時Spirit.Lex的指南也寫得非常簡單,它所演示的特性,不足以用來實現一個完整的編譯器。因此,這里我們也將給出另外一個快速指南,以展示那些我們在撰寫編譯器時所用到的技術和特性。

            這里我們仍然以A+B這樣一個簡單的表達式為例,其中A和B都是一個字面值的整數,A+B之間沒有其他空格填充。這樣我們就可以把這個“句子”拆分成A,+,B三個token。例如“33+65”就可以被拆分成“33”,“+”,“65”三個token。對于這樣一個表達式,我們只需要下面兩個正則就可以完成詞法分析:

            literal_int = “[0-9]+”;

            literal_add=”\+”;

            由于C++里面“\”是轉義符,因此實際上literal_add實際上應該寫成“\\+”。然后我們需要用Spirit來實現。

            Spirit中,首先定義一個tokens列表:

            template <typename BaseLexerT>

            struct sasl_tokens : public boost::spirit::lex::lexer< BaseLexerT > {

                sasl_tokens(){

                    littok_int = "[0-9]+";

                    optok_add = "[\\+]";

             

                    this->self =

                        littok_int

                        | optok_add;

                }

                boost::spirit::lex::token_def<> littok_int, optok_add;

            };

             

            然后,我們利用這個token列表生成一個詞法分析器sasl_tokenizer:

             

            typedef boost::spirit::lex::lexertl::lexer<> sasl_lexer_base;

            typedef sasl_tokens<sasl_lexer_base> sasl_tokenizer;

             

            最后來執行一下我們的tokenizer。在執行之前,我們寫一個callback函數,這個函數在每分析出一個詞之后,都會被調用一下,我們用它來判斷我們分出的詞正確與否:

            struct token_printer{

                template <typename TokenT> bool operator()( const TokenT& tok ){

                    cout << "token: " << tok.value() << endl;

                    return true;

                }

            };

            最后執行一下詞法分析:

            boost::spirit::lex::tokenize(first, last, sasl_tok, token_printer());

            first,last是輸入字符串的迭代器。如果輸入為“55+65”,那么屏幕上就會依次打印出“55”,“+”,“65”的三行。

            不過,如果你在“55+65”之間敲入一個空格,例如“55+_65”(‘_’代表空格)這樣的,那么詞法分析就會失敗。因為“_”這個字符,沒有合適的詞可以匹配。即便是匹配了,空白這個Token也沒辦法用在語法樹之中,最終也會導致語法分析失敗。而在程序語言里,支持空白符號的過濾掉是必不可少的。所以,下一次,我們就要將語法,順便過濾掉空白符,讓我們可以自由寫出美觀的語句。

            posted on 2009-12-13 00:31 空明流轉 閱讀(1834) 評論(2)  編輯 收藏 引用

            評論

            # re: 實用編譯器構建指南(三) 2009-12-13 12:58 黑色靈貓
            非常好的boost解析器教程  回復  更多評論
              

            # re: 實用編譯器構建指南(三) 2009-12-13 14:35 正心
            圍觀  回復  更多評論
              

            日韩十八禁一区二区久久 | 亚洲精品无码久久久久久| 久久综合视频网| 一本色道久久99一综合| 精品国产福利久久久| 欧美色综合久久久久久| 久久天天躁狠狠躁夜夜avapp| 国产高潮国产高潮久久久91| 欧美激情一区二区久久久| 国产精品丝袜久久久久久不卡| 久久综合九色综合久99| 少妇内射兰兰久久| 精品久久久久久久久中文字幕| 国产高清国内精品福利99久久| 欧美亚洲国产精品久久久久| 欧美午夜精品久久久久免费视| 一本久久综合亚洲鲁鲁五月天亚洲欧美一区二区 | 国产精品免费久久久久影院| 热久久国产欧美一区二区精品| 国内精品久久久久影院薰衣草 | 亚洲AV日韩精品久久久久久久| 久久精品国内一区二区三区| 无码精品久久一区二区三区 | 久久久亚洲欧洲日产国码aⅴ| 久久亚洲国产最新网站| 国产精品女同久久久久电影院| 久久丫精品国产亚洲av| 香蕉久久一区二区不卡无毒影院| 久久夜色精品国产噜噜麻豆 | 色狠狠久久AV五月综合| 91精品婷婷国产综合久久| 久久综合久久美利坚合众国| 91精品国产高清91久久久久久| 久久99精品国产麻豆| 武侠古典久久婷婷狼人伊人| 国产精品久久久久影院嫩草| 热久久视久久精品18| 久久精品无码一区二区三区日韩 | 久久婷婷成人综合色综合| 亚洲精品乱码久久久久久蜜桃| 久久午夜电影网|