• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>

            loop_in_codes

            低調做技術__歡迎移步我的獨立博客 codemaro.com 微博 kevinlynx

            簡要實現正則表達式匹配字符串

            之所以說是“簡要實現”一方面是因為算法不算高深,算法的實現也不精致,甚至連我對其的理解也不夠本質。

            我只不過不想在工作若干年后還是一個只會打字的程序員。學點什么東西,真正精通點什么東西才對得起喜歡

            技術的自己。

             

            附件中的代碼粗略實現了《編譯原理》龍書中的幾個算法。包括解析正則表達式,建立NFA,然后用NFA去匹

            配目標字符串;或者從NFA建立DFA,然后匹配。解析正則表達式我用了比較繁瑣的方法,有詞法和語法分析

            過程。詞法分析階段將字符和一些操作符整理出來,語法分析階段在建立語法樹的過程中對應地建立NFA。

            當然,因為語法樹在這里并沒有用處,所以并沒有真正地建立。

             

            從正則表達式到NFA比較簡單,很多編譯原理書里都提到過,如:s|t表達式對應于下面的NFA:

            1

            代碼中用如下的結構描述狀態和狀態機中的轉換:

            #define E_TOK (0)

            /* transition */
            struct tran
            {
                char c;
                struct state *dest;
                struct tran *next;
            };

            struct state
            {
                /* a list of transitions */
                struct tran *trans;
                /* inc when be linked */
                int ref;
            };

            即,每一個狀態都有一個轉換列表,每個轉換都有一個目標狀態(即該轉換指向的狀態)以及轉換字符。

            貌似通過以上方法建立出來的狀態機每個狀態最多只會有2個轉換?

             

            建立好NFA后,由NFA匹配目標字符串使用了一種構造子集法(《編譯原理》3.7.2節):

            2

            這個算法里針對NFA的幾個操作,如e-closure、move等在由NFA轉換DFA時也被用到,因此代碼里單獨

            做了封裝(state_oper.c)。這個算法本質上貌似就是一次步進(step)多個狀態。

             

            至于由NFA轉DFA,則是相對簡單的子集構造法:

            3

            在我以前編譯原理課考試的前一天晚上(你懂的)我就對這些算法頗為疑惑。在以后看各種編譯

            原理教材時,我始終不懂NFA是怎么轉到DFA的。就算懂了操作步驟(我大學同學曾告訴我這些步驟,雖然

            不知道為什么要那樣做),一段時間后依然搞忘。很喜歡《編譯原理》龍書里對這個算法最本質的說明:

             

            4

             

            源代碼我是用GCC手工編譯的,連makefile也沒有。三個test_XXX.c文件分別測試幾個模塊。test_match.c

            基本依賴除掉test外所有c文件,全部鏈接在一塊即可。當然,就經驗而言我知道是沒幾個人會去折騰我的這些

            代碼的。這些在china的領導看來對工作有個鳥用的代碼讀起來我自己也覺得費力,何況,我還不倫不類地用了

            不知道算哪個標準的c寫了這些。

             

            你不是真想下載。對于這種代碼,有BUG是必然的,你也不用在此文若干個月后問我多少行是什么意思,因為

            那個時候我也忘了:D。

            posted on 2010-02-20 14:53 Kevin Lynx 閱讀(5849) 評論(4)  編輯 收藏 引用 所屬分類: 編譯原理

            評論

            # re: 簡要實現正則表達式匹配字符串 2010-02-20 19:25 feizai

            還可繼續拓展
            1、DFA最小化
            2、DFA嵌入action,仿Ragel
            3、CFG的GA自動機
            4、LR(0)->LR(1)->LALR(1)分析器
            5、拓展語義action的潛入地方,
            6、完全自己的lex和yacc  回復  更多評論   

            # re: 簡要實現正則表達式匹配字符串[未登錄] 2010-02-20 19:34 kevin lynx

            @feizai
            是啊。  回復  更多評論   

            # re: 簡要實現正則表達式匹配字符串 2010-02-21 02:19 aaa

            http://www.eecs.berkeley.edu/Pubs/TechRpts/2006/EECS-2006-156.pdf  回復  更多評論   

            # re: 簡要實現正則表達式匹配字符串 2010-02-24 21:19 陳梓瀚(vczh)

            廣告:http://www.shnenglu.com/vczh/archive/2008/05/22/50763.html  回復  更多評論   

            久久人妻少妇嫩草AV蜜桃| 久久亚洲精精品中文字幕| 久久www免费人成精品香蕉| 欧美日韩精品久久久久 | 久久人妻少妇嫩草AV无码蜜桃| 久久综合一区二区无码| 精品免费久久久久久久| 久久久久国色AV免费观看| 奇米影视7777久久精品| 久久精品国产精品亚洲下载| 久久精品国产亚洲AV无码偷窥| 久久亚洲电影| 国产福利电影一区二区三区久久久久成人精品综合 | 欧美久久久久久| 亚洲国产成人久久精品动漫| 2021国产精品午夜久久| 国产叼嘿久久精品久久| 99久久精品午夜一区二区 | 色偷偷888欧美精品久久久| 日韩人妻无码一区二区三区久久| 久久久久国产一级毛片高清板| 国产成人精品白浆久久69| 精品综合久久久久久98| 日批日出水久久亚洲精品tv| 久久综合久久综合久久综合| 久久精品99久久香蕉国产色戒| 91麻豆国产精品91久久久| 久久受www免费人成_看片中文| 久久99精品久久久久久齐齐| 91久久九九无码成人网站| 国内精品久久久久影院优 | 人妻中文久久久久| 久久无码精品一区二区三区| 久久久噜噜噜久久| 亚洲精品乱码久久久久久不卡| 久久综合久久伊人| 国产69精品久久久久APP下载| 久久综合亚洲色HEZYO社区| 99精品国产99久久久久久97| 伊人久久综合成人网| 日韩精品久久久久久免费|