loop_in_codes

低調做技術__歡迎移步我的獨立博客 codemaro.com 微博 kevinlynx

實現一種解釋性腳本語言（三）

author: Kevin Lynx email: zmhn320#163.com date: 3.7.2009

詞法分析

詞法分析屬于整個編譯流程中的第一個階段。為什么要把編譯過程分為多個階段，這就
如同軟件分層一樣，個人覺得是出于降低復雜性的考慮。
再次聲明我不會告訴你任何編譯原理的理論知識，因為坦率地說我也不會:D。所以我努
力將我們需要了解的概念盡可能簡單地告訴你。當然，可能會與教科書不吻合。

什么是詞法分析?

詞法分析就是把一段話整理成單詞集合。舉個簡單的例子，例如有代碼:age = age + 1;，
經過詞法分析后，將得到：age、=、age、+、1、;幾個符號。為了方便，我稱每個單詞為一
個token。

詞法分析的作用

詞法分析分析出來的單詞集合，直接作為編譯流程中接下來的語法分析的輸入。那么語
法分析階段面對的將是一個一個的token，而不是單個的字符。
例如，在處理age = age + 1;這種語句時，當我們獲取到token "="時，我們直接期望接
下來的token應該是個表達式。以單詞為單位地處理，比直接處理單個字符簡單很多。

詞法分析的過程

    詞法分析的輸入是單個字符流，一般我們fopen一個源代碼文件，保存在一個char緩存
里，這就是詞法分析的輸入。而詞法分析的最終輸出結果就是一個一個的token。
    為了處理方便，token并不是單純的單詞。通常我們會將源代碼中的所有單詞分類，例
如變量名其實都屬于一類token。簡單的token可定義為：
    struct Token
    {
        int type;
        char value[256];
    };
    type用于表示token的類型，例如一個變量名token的類型是一個標識符。value可以用
來具體地保存這個變量的名字。

對于type的處理，通常會事先定義一組枚舉值，例如：
enum { ID, NUM, STRING, IF, ELSE, WHILE, RETURN, FUNCTION }等等用于標示
在一個源代碼中可能出現的所有token。

雖然說詞法分析的結果是一個token集合，但事實上我們并不是一次做完詞法分析。通常
詞法分析模塊提供一個get_token函數。每次調用該函數時，都返回源代碼中下一個token。
例如，有源代碼：age = age + 1;
第一次調用get_token將獲得 { ID, "age" }，第二次獲得 { ASSIGN, "=" }，第三次
獲得{ ID, "age" }，等等。

    那么，詞法分析該如何實現？也就是struct Token get_token()函數如何實現？其實很
簡單，你告訴我：給你一個字符串，你如何判斷這個字符串全部是數字？
    int is_num( const char *str )
    {
        while( *str != 0 )
        {
            if( !isdigit( *str++ ) ) return 0;
        }
        return 1;
    }
    所以，基本上，詞法分析的過程也就是這個過程。就拿標識符舉例，典型的標識符一般
以字符開頭，然后接著是數字或字符或_，當遇到非法字符時，這個標識符的掃描即結束。
    詞法分析一般是個while+switch：
    struct Token get_token()
    {
        while( current_char != 0 )
        {
            switch( current_char )
            {
                case CHARACTER:
                    /* 掃描一個標識符 token */
                    break;

                case '=':
                    /* 獲得一個 ASSIGN token */
                    break;

                    ...
            }
        }
    }

現在，試著去總結一門語言里的每一個token的規則，然后自己去寫寫看。

代碼導讀

在本節我將提供kl在googlecode的SVN上的代碼，先不要去管代碼包中的其他東西。關于
詞法的代碼可以在kllex.c kllex.h中找到。lex_token是提供給其他模塊的接口，用于獲取
當前掃描的token。掃描結果可以通過lexState結構體獲取。
再次提下版權問題，代碼文件以及代碼包中我并沒有加入任何版權說明，哪怕是GPL。
但是如同我之前說的一樣，我不介意你傳播、改動此代碼，但是請保留原作者信息。當然，
我并不介意你加上@modified by xxx:)。

下載kl源代碼：http://klcommon.googlecode.com/files/kllan_0.1.0.zip

posted on 2009-03-07 13:43 Kevin Lynx 閱讀(3848) 評論(2) 編輯收藏引用所屬分類: kl腳本實現、編譯原理

只有注冊用戶登錄后才能發表評論。
【推薦】100%開源！大型工業跨平臺軟件C++源碼提供，建模，組態！

相關文章: kl中的錯誤處理 kl sample:貪食蛇實現一種解釋性腳本語言（七）實現一種解釋性腳本語言（六）實現一種解釋性腳本語言（五）實現一種解釋性腳本語言（四）實現一種解釋性腳本語言（三）實現一種解釋性腳本語言（二）實現一種解釋性腳本語言（一）

網站導航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

# re: 實現一種解釋性腳本語言（三） 2009-03-15 16:28 夢在天涯

# re: 實現一種解釋性腳本語言（三） 2009-03-15 16:47 Kevin Lynx

loop_in_codes

導航

統計

公告

常用鏈接

留言簿(52)

隨筆分類

隨筆檔案

收藏夾

C++

關注的開源項目

其他關注

網絡編程

我的項目

搜索

積分與排名

最新評論

閱讀排行榜

評論排行榜

實現一種解釋性腳本語言（三）

評論