• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            隨筆 - 17  文章 - 48  trackbacks - 0
            <2013年7月>
            30123456
            78910111213
            14151617181920
            21222324252627
            28293031123
            45678910

            常用鏈接

            留言簿(3)

            隨筆檔案

            搜索

            •  

            最新評(píng)論

            閱讀排行榜

            評(píng)論排行榜

            實(shí)現(xiàn)正則表達(dá)式的想法很早就有,各種原因?qū)е聸]有做,最近花了點(diǎn)時(shí)間先實(shí)現(xiàn)了幾個(gè)簡單的正則語法,分別是concatenation、alternation和closure,其他語法及metacharacter等有時(shí)間了有想法了之后再擴(kuò)展。

             

            這三種基本的語法分別是對(duì)應(yīng)這樣的:

            concatenation: abc    表示匹配字符串a(chǎn)bc

            alternation: abc|def   表示匹配字符串a(chǎn)bc或者def

            closure: a*               表示匹配零個(gè)到多個(gè)a構(gòu)成的字符串

             

            我們知道正則表達(dá)式最終需要轉(zhuǎn)換成自動(dòng)機(jī)才能用來匹配字符串,我實(shí)現(xiàn)的正則通過如下幾個(gè)步驟把正則表達(dá)式轉(zhuǎn)換成自動(dòng)機(jī):

            正則表達(dá)式->Parse成AST->生成邊(字符)集合->生成NFA->NFA subset construction->轉(zhuǎn)換成DFA->DFA minimization

            最后用DFA minimization之后構(gòu)造的自動(dòng)機(jī)來匹配字符串。

             

            正則語法的分析

            一個(gè)正則表達(dá)式寫出來,要讓這個(gè)正則表達(dá)式匹配字符串等操作之前,我們先需要從正則表達(dá)式中提取需要的信息并在正則語法錯(cuò)誤的時(shí)候提示錯(cuò)誤,這個(gè)過程自然少不了parser。一個(gè)parser通常是從一個(gè)lexer里面獲取一個(gè)token,而正則表達(dá)式的token都是字符,那么lexer不需要做任何的分詞操作,只需要簡單的把字符返回給parser即可。

            那三種基本的正則語法對(duì)應(yīng)的BNF為:

            re ::= alter
            re_base ::= char | char_range | '(' re ')'
            alter ::= alter_base alter_end
            alter_base ::= concat
            alter_end ::= '|' alter_base alter_end | epsilon
            concat ::= concat_base concat_end
            concat_base ::= re_base | closure
            concat_end ::= concat_base concat_end | epsilon
            closure ::= re_base '*'

            這個(gè)parser分析了正則表達(dá)式之后產(chǎn)生AST,AST的node類型為:

            class ASTNode
            {
            public:
                ACCEPT_VISITOR() = 0;
                virtual ~ASTNode() { }
            };
             
            class CharNode : public ASTNode
            {
            public:
                explicit CharNode(int c) : c_(c) { }
             
                ACCEPT_VISITOR();
             
                int c_;
            };
             
            class CharRangeNode : public ASTNode
            {
            public:
                struct Range
                {
                    int first_;
                    int last_;

                    explicit Range(int first = 0, int last = 0)
                        : first_(first), last_(last)
                    {
                    }
                };

                CharRangeNode() { }

                void AddRange(int first, int last)
                {
                    ranges_.push_back(Range(first, last));
                }
             
                void AddChar(int c)
                {
                    chars_.push_back(c);
                }
             
                ACCEPT_VISITOR();
             
                std::vector<Range> ranges_;
                std::vector<int> chars_;
            };
             
            class ConcatenationNode : public ASTNode
            {
            public:
                void AddNode(std::unique_ptr<ASTNode> node)
                {
                    nodes_.push_back(std::move(node));
                }
             
                ACCEPT_VISITOR();
             
                std::vector<std::unique_ptr<ASTNode>> nodes_;
            };
             
            class AlternationNode : public ASTNode
            {
            public:
                void AddNode(std::unique_ptr<ASTNode> node)
                {
                    nodes_.push_back(std::move(node));
                }
             
                ACCEPT_VISITOR();
             
                std::vector<std::unique_ptr<ASTNode>> nodes_;
            };
             
            class ClosureNode : public ASTNode
            {
            public:
                explicit ClosureNode(std::unique_ptr<ASTNode> node)
                    : node_(std::move(node))
            {
                }
             
                ACCEPT_VISITOR();
             
                std::unique_ptr<ASTNode> node_;
            };

            其中ASTNode作為AST的基類,并提供接口實(shí)現(xiàn)Visitor模式訪問ASTNode類型。

             

            字符(邊)集的構(gòu)造

            AST構(gòu)造好了之后,需要把AST轉(zhuǎn)換成NFA。語法中有[a-zA-Z0-9]這種字符區(qū)間表示法,我們可以用最簡單原始的方法轉(zhuǎn)換,就是把區(qū)間中的每個(gè)字符都轉(zhuǎn)化成相應(yīng)的一條邊(NFA中的邊),這樣一來會(huì)導(dǎo)致字符區(qū)間越大,對(duì)應(yīng)邊的數(shù)量會(huì)越多,使得對(duì)應(yīng)的NFA也越大。因此,我們需要構(gòu)造區(qū)間字符集合來減少邊的數(shù)量。

            比如正則表達(dá)式是:a[x-z]|[a-z]*e

            那么我們希望對(duì)應(yīng)的字符集合是這樣:[a-a] [b-d] [e-e] [f-w] [x-z]

            這需要構(gòu)造一個(gè)字符集,每次插入一個(gè)區(qū)間的時(shí)候,把新插入的區(qū)間與已存在的區(qū)間進(jìn)行分割,初始時(shí)已存在的區(qū)間集為空,那么正則表達(dá)式a[x-z]|[a-z]*e的劃分步驟如下:

            已存在區(qū)間集合{},插入[a-a],得到{[a-a]}

            已存在區(qū)間集合{[a-a]},插入[x-z],得到{[a-a], [x-z]}

            已存在區(qū)間集合{[a-a], [x-z]},插入[a-z],得到{[a-a], [b-w], [x-z]}

            已存在區(qū)間集合{[a-a], [b-w], [x-z]},插入[e-e],得到{[a-a], [b-d], [e-e], [f-w], [x-z]}

            這個(gè)區(qū)間構(gòu)造完成了之后,還需要在后面轉(zhuǎn)換成NFA邊的時(shí)候,根據(jù)字符區(qū)間查詢出在這個(gè)集合中,由哪幾個(gè)區(qū)間構(gòu)成,比如:

            查詢區(qū)間[a-a],得到[a-a]

            查詢區(qū)間[x-z],得到[x-z]

            查詢區(qū)間[a-z],得到區(qū)間[a-a] [b-d] [e-e] [f-w] [x-z]

            在轉(zhuǎn)換成NFA時(shí),集合中的每個(gè)區(qū)間都對(duì)應(yīng)一條邊,這樣相對(duì)于每個(gè)字符對(duì)應(yīng)一條邊,邊的數(shù)量不會(huì)太多。

            有了這么一個(gè)集合構(gòu)造的類之后,把正則的AST中的字符信息提取出來構(gòu)造出這么個(gè)集合即可,這樣只需要寫個(gè)visitor就完成了:

            class EdgeSetConstructorVisitor : public Visitor
            {
            public:
                explicit EdgeSetConstructorVisitor(EdgeSet *edge_set)
                    : edge_set_(edge_set)
                {
                }
             
                EdgeSetConstructorVisitor(const EdgeSetConstructorVisitor &) = delete;
                void operator = (const EdgeSetConstructorVisitor &) = delete;
             
                VISIT_NODE(CharNode);
                VISIT_NODE(CharRangeNode);
                VISIT_NODE(ConcatenationNode);
                VISIT_NODE(AlternationNode);
                VISIT_NODE(ClosureNode);

            private:
                EdgeSet *edge_set_;
            };

            邊集合構(gòu)造完成之后,下一步就是生成NFA了。

            posted on 2013-07-05 13:30 airtrack 閱讀(4415) 評(píng)論(3)  編輯 收藏 引用

            FeedBack:
            # re: 正則表達(dá)式實(shí)現(xiàn)(一) 2013-07-05 23:31 陳梓瀚(vczh)
            # re: 正則表達(dá)式實(shí)現(xiàn)(一) 2013-07-06 01:34 airtrack
            @陳梓瀚(vczh)
            哈哈,早知道陳祖寫過正則引擎的系列文章,一直沒看,是想在我自己思考之后如果遇到問題的時(shí)候再看,啊哈哈。  回復(fù)  更多評(píng)論
              
            # re: 正則表達(dá)式實(shí)現(xiàn)(一) 2013-07-06 20:13 溪流
            學(xué)習(xí)了  回復(fù)  更多評(píng)論
              

            只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。
            網(wǎng)站導(dǎo)航: 博客園   IT新聞   BlogJava   博問   Chat2DB   管理


            久久影院午夜理论片无码| 777米奇久久最新地址| 青春久久| 久久久久亚洲AV片无码下载蜜桃| 久久综合偷偷噜噜噜色| AV无码久久久久不卡蜜桃| 久久久久AV综合网成人| 精品国产乱码久久久久久浪潮| 人妻中文久久久久| av无码久久久久久不卡网站| 精品国产婷婷久久久| 日韩人妻无码精品久久久不卡| 亚洲天堂久久精品| 久久免费看黄a级毛片| 91久久国产视频| 无码久久精品国产亚洲Av影片 | 久久综合给合久久国产免费 | 精品综合久久久久久88小说| 午夜福利91久久福利| 亚洲色婷婷综合久久| 中文精品久久久久国产网址| 国产色综合久久无码有码| 久久综合久久鬼色| 久久成人国产精品二三区| 久久久噜噜噜久久中文福利| 久久婷婷五月综合成人D啪| 久久美女人爽女人爽| 久久精品亚洲中文字幕无码麻豆| 一本一本久久a久久精品综合麻豆| 国产成人综合久久久久久| 九九99精品久久久久久| 国产精品久久成人影院| 欧洲精品久久久av无码电影| 伊人久久久AV老熟妇色| 久久成人小视频| 精品国产乱码久久久久久呢 | 久久99久久99精品免视看动漫| 日本久久中文字幕| 亚洲AV伊人久久青青草原| 伊人久久精品影院| 久久丫忘忧草产品|