久久久久久九九九九,亚洲伦理在线免费看,久久久久国产精品麻豆ai换脸

起源：詞法分析

不管你學(xué)什么樣的外語(yǔ)，大約都是從詞匯開始。詞，是一個(gè)語(yǔ)言里最小的語(yǔ)義單元。編譯器閱讀你的語(yǔ)言，也是如此。所以第一件事情，就是要把整個(gè)文法打散成一個(gè)一個(gè)的單詞。在這里，我們把這些單詞叫token。

怎么進(jìn)行詞法分析，此處就不再贅述，這是一個(gè)上下文無(wú)關(guān)文法的匹配問(wèn)題。如果需要理解詞法分析的原理，或者手工編寫詞法分析工具，可以參考陳梓翰提供的兩篇極好的教程。在SASL里，我們不再發(fā)明輪子，而選用已有的詞法分析工具。

可選的詞法分析工具很多，例如出名的Lex及其改進(jìn)Flex，ANTLR等。對(duì)于C++而言，這些方法多屬于產(chǎn)生式的方法，就是用一段不太靠譜的代碼去生成另外一些更不靠譜的代碼。更重要的是，這些代碼的編譯、調(diào)試都不方便。所以最終我們還是選擇了一個(gè)在用C++實(shí)現(xiàn)、并且可以直接在C++里書寫詞法和語(yǔ)法的分析器產(chǎn)生工具，它就是Spirit。

Spirit V1.8和V2.1都是Boost庫(kù)里的一個(gè)部分。需要注意的是，Spirit的V1和V2是完全不兼容的兩個(gè)庫(kù)。在這里，我們選擇了V2作為我們的詞法和語(yǔ)法分析工具。Spirit V2總共分為3個(gè)部分，負(fù)責(zé)語(yǔ)法分析的Qi，格式化打印的Karma，和詞法分析器Lex。此外，Spirit還有一個(gè)類似于boost.mpl和boost.lambda的庫(kù)phoenix，這個(gè)庫(kù)也常被用于詞法和語(yǔ)法分析中。詳細(xì)的使用指南和參考，可以參見Spirit的文檔。

由于Spirit.Lex大量運(yùn)用了Template Meta-Programming和編譯器推導(dǎo)，因此編譯時(shí)很容易出錯(cuò)，而且錯(cuò)誤信息難于定位；同時(shí)Spirit.Lex的指南也寫得非常簡(jiǎn)單，它所演示的特性，不足以用來(lái)實(shí)現(xiàn)一個(gè)完整的編譯器。因此，這里我們也將給出另外一個(gè)快速指南，以展示那些我們?cè)谧珜懢幾g器時(shí)所用到的技術(shù)和特性。

這里我們?nèi)匀灰訟+B這樣一個(gè)簡(jiǎn)單的表達(dá)式為例，其中A和B都是一個(gè)字面值的整數(shù)，A+B之間沒(méi)有其他空格填充。這樣我們就可以把這個(gè)“句子”拆分成A，+，B三個(gè)token。例如“33+65”就可以被拆分成“33”，“+”，“65”三個(gè)token。對(duì)于這樣一個(gè)表達(dá)式，我們只需要下面兩個(gè)正則就可以完成詞法分析：

literal_int = “[0-9]+”;
literal_add=”\+”;

由于C++里面“\”是轉(zhuǎn)義符，因此實(shí)際上literal_add實(shí)際上應(yīng)該寫成“\\+”。然后我們需要用Spirit來(lái)實(shí)現(xiàn)。

Spirit中，首先定義一個(gè)tokens列表：

template <typename BaseLexerT>

struct sasl_tokens : public boost::spirit::lex::lexer< BaseLexerT > {

sasl_tokens(){

littok_int = "[0-9]+";

optok_add = "[\\+]";

this->self =

littok_int

| optok_add;

}

boost::spirit::lex::token_def<> littok_int, optok_add;

};

然后，我們利用這個(gè)token列表生成一個(gè)詞法分析器sasl_tokenizer：

typedef boost::spirit::lex::lexertl::lexer<> sasl_lexer_base;

typedef sasl_tokens<sasl_lexer_base> sasl_tokenizer;

最后來(lái)執(zhí)行一下我們的tokenizer。在執(zhí)行之前，我們寫一個(gè)callback函數(shù)，這個(gè)函數(shù)在每分析出一個(gè)詞之后，都會(huì)被調(diào)用一下，我們用它來(lái)判斷我們分出的詞正確與否：

struct token_printer{

template <typename TokenT> bool operator()( const TokenT& tok ){

cout << "token: " << tok.value() << endl;

return true;

}

};

最后執(zhí)行一下詞法分析：

boost::spirit::lex::tokenize(first, last, sasl_tok, token_printer());

first，last是輸入字符串的迭代器。如果輸入為“55+65”，那么屏幕上就會(huì)依次打印出“55”，“+”，“65”的三行。

不過(guò)，如果你在“55+65”之間敲入一個(gè)空格，例如“55+_65”(‘_’代表空格)這樣的，那么詞法分析就會(huì)失敗。因?yàn)椤癬”這個(gè)字符，沒(méi)有合適的詞可以匹配。即便是匹配了，空白這個(gè)Token也沒(méi)辦法用在語(yǔ)法樹之中，最終也會(huì)導(dǎo)致語(yǔ)法分析失敗。而在程序語(yǔ)言里，支持空白符號(hào)的過(guò)濾掉是必不可少的。所以，下一次，我們就要將語(yǔ)法，順便過(guò)濾掉空白符，讓我們可以自由寫出美觀的語(yǔ)句。

posted on 2009-12-13 00:31 空明流轉(zhuǎn) 閱讀(1838) 評(píng)論(2) 編輯收藏引用

評(píng)論

# re: 實(shí)用編譯器構(gòu)建指南（三） 2009-12-13 12:58 黑色靈貓

非常好的boost解析器教程回復(fù) 更多評(píng)論

# re: 實(shí)用編譯器構(gòu)建指南（三） 2009-12-13 14:35 正心

圍觀回復(fù) 更多評(píng)論

刷新評(píng)論列表

只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。
【推薦】100%開源！大型工業(yè)跨平臺(tái)軟件C++源碼提供，建模，組態(tài)！



網(wǎng)站導(dǎo)航: 博客園 IT新聞 BlogJava 博問(wèn) Chat2DB 管理

歲月流轉(zhuǎn)，往昔空明

常用鏈接

留言簿(15)

隨筆檔案(118)

文章分類(3)

文章檔案(3)

收藏夾(1)

青青子衿

友情鏈接

最新隨筆

搜索

積分與排名

最新評(píng)論

閱讀排行榜

評(píng)論排行榜

起源：詞法分析

評(píng)論