之所以說是“簡要實現”一方面是因為算法不算高深,算法的實現也不精致,甚至連我對其的理解也不夠本質。
我只不過不想在工作若干年后還是一個只會打字的程序員。學點什么東西,真正精通點什么東西才對得起喜歡
技術的自己。
附件中的代碼粗略實現了《編譯原理》龍書中的幾個算法。包括解析正則表達式,建立NFA,然后用NFA去匹
配目標字符串;或者從NFA建立DFA,然后匹配。解析正則表達式我用了比較繁瑣的方法,有詞法和語法分析
過程。詞法分析階段將字符和一些操作符整理出來,語法分析階段在建立語法樹的過程中對應地建立NFA。
當然,因為語法樹在這里并沒有用處,所以并沒有真正地建立。
從正則表達式到NFA比較簡單,很多編譯原理書里都提到過,如:s|t表達式對應于下面的NFA:
代碼中用如下的結構描述狀態和狀態機中的轉換:
#define E_TOK (0)
/* transition */
struct tran
{
char c;
struct state *dest;
struct tran *next;
};
struct state
{
/* a list of transitions */
struct tran *trans;
/* inc when be linked */
int ref;
};
即,每一個狀態都有一個轉換列表,每個轉換都有一個目標狀態(即該轉換指向的狀態)以及轉換字符。
貌似通過以上方法建立出來的狀態機每個狀態最多只會有2個轉換?
建立好NFA后,由NFA匹配目標字符串使用了一種構造子集法(《編譯原理》3.7.2節):
這個算法里針對NFA的幾個操作,如e-closure、move等在由NFA轉換DFA時也被用到,因此代碼里單獨
做了封裝(state_oper.c)。這個算法本質上貌似就是一次步進(step)多個狀態。
至于由NFA轉DFA,則是相對簡單的子集構造法:
在我以前編譯原理課考試的前一天晚上(你懂的)我就對這些算法頗為疑惑。在以后看各種編譯
原理教材時,我始終不懂NFA是怎么轉到DFA的。就算懂了操作步驟(我大學同學曾告訴我這些步驟,雖然
不知道為什么要那樣做),一段時間后依然搞忘。很喜歡《編譯原理》龍書里對這個算法最本質的說明:
源代碼我是用GCC手工編譯的,連makefile也沒有。三個test_XXX.c文件分別測試幾個模塊。test_match.c
基本依賴除掉test外所有c文件,全部鏈接在一塊即可。當然,就經驗而言我知道是沒幾個人會去折騰我的這些
代碼的。這些在china的領導看來對工作有個鳥用的代碼讀起來我自己也覺得費力,何況,我還不倫不類地用了
不知道算哪個標準的c寫了這些。
你不是真想下載。對于這種代碼,有BUG是必然的,你也不用在此文若干個月后問我多少行是什么意思,因為
那個時候我也忘了:D。