• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            隨筆-91  評論-137  文章-0  trackbacks-0

            自動機

            關于自動機的說明,這里不不再復述,請到http://zh.wikipedia.org/wiki/自動機查看。

            表達式

            首先,我們規定表達式中只允許輸入Char_Type和String_Type類型的字符。

            template <typename Char_Type, typename String_Type>
            class Rule
            {
            };

             

            ε-NFA的狀態

            對于一個狀態來說,我們并不需要知道他的任何信息

            在上面的代碼中,為了調試方便,我為其加入了idx域,并為每個狀態分配了一個唯一的ID。

             struct EpsilonNFA_State
            {
            #ifdef _DEBUG
            uint idx;
            EpsilonNFA_State()
            {
            idx = inc();
            }
            static uint inc()
            {
            static uint i = 0;
            return i++;
            }
            #else
            EpsilonNFA_State() {}
            #endif
            };

            ε-NFA的邊

            ε-NFA中的邊都是有向的。對于任意一條邊來說,最重要的是他的兩個端點是誰以及這條邊所對應的字符集(若這條邊不是ε邊)。

             struct EpsilonNFA_Edge
            {
            struct
            {
            Char_Type char_value;
            String_Type string_value;
            }data;
            enum Edge_Type
            {
            TUnknown = 0,
            TNot = 1,
            TChar = 2,
            TString = 4,
            TEpsilon = 8
            };
            uchar edge_type;
            EpsilonNFA_State* pFrom;
            EpsilonNFA_State* pTo;
            EpsilonNFA_Edge(EpsilonNFA_State* pFrom, EpsilonNFA_State* pTo) : edge_type(TEpsilon), pFrom(pFrom), pTo(pTo) {}
            EpsilonNFA_Edge(const Char_Type& x, EpsilonNFA_State* pFrom, EpsilonNFA_State* pTo) : edge_type(TChar), pFrom(pFrom), pTo(pTo)
            {
            data.char_value = x;
            }
            EpsilonNFA_Edge(const String_Type& x, EpsilonNFA_State* pFrom, EpsilonNFA_State* pTo) : edge_type(TString), pFrom(pFrom), pTo(pTo)
            {
            data.string_value = x;
            }
            inline void negate()
            {
            edge_type ^= TNot;
            }
            inline const bool isNot()const
            {
            return (edge_type & TNot) == TNot;
            }
            inline const bool isEpsilon()const
            {
            return (edge_type & TEpsilon) == TEpsilon;
            }
            inline const bool isChar()const
            {
            return (edge_type & TChar) == TChar;
            }
            inline const bool isString()const
            {
            return (edge_type & TString) == TString;
            }
            const Edge_Type edgeType()const
            {
            if (isEpsilon()) return TEpsilon;
            else if (isChar()) return TChar;
            else if (isString()) return TString;
            else return TUnknown;
            }
            };

            有了以上兩個結構之后,我們為Rule添加三個成員變量

            EpsilonNFA_State *pEpsilonStart, *pEpsilonEnd;
            hashmap<EpsilonNFA_State*, vector<EpsilonNFA_Edge>, _hash> epsilonNFA_Edges;

             

            pEpsilonStart和pEpsilonEnd分別表示這條表達式所對應狀態機的start和end狀態,epsilonNFA_Edges則是以某個狀態作為key,從這個狀態到達另一個狀態所經過的邊作為value的hash表。

            生成狀態機

            終于到了正題,首先,我們把所有的關系分為串聯關系、并聯關系、可選關系、0次及以上的重復關系、至少1次以上的重復關系和取反關系。下面分別介紹每種關系的ε-NFA如何來生成。(下文中若沒有指出連接邊的類型則是ε邊

            字符集

            正如上文所說,字符集包括Char_Type和String_Type類型的字符,應此生成字符集的狀態機就比較簡單了,只需創建出兩個狀態,然后通過一條經過這個字符集的邊將這兩個狀態按照某個方向連接,最后將一個狀態標記為start狀態,另一個狀態標記為end狀態即可。

             Rule(const Char_Type& x, Context& context) : pDFAStart(NULL), context(context)
            {
            pEpsilonStart = EpsilonNFA_State_Alloc::allocate();
            construct(pEpsilonStart);
            pEpsilonEnd = EpsilonNFA_State_Alloc::allocate();
            construct(pEpsilonEnd);
            epsilonNFA_Edges[pEpsilonStart].push_back(EpsilonNFA_Edge(x, pEpsilonStart, pEpsilonEnd));
            context.epsilonNFA_States.insert(pEpsilonStart);
            context.epsilonNFA_States.insert(pEpsilonEnd);
            }
            Rule(const String_Type& x, Context& context) : pDFAStart(NULL), context(context)
            {
            pEpsilonStart = EpsilonNFA_State_Alloc::allocate();
            construct(pEpsilonStart);
            pEpsilonEnd = EpsilonNFA_State_Alloc::allocate();
            construct(pEpsilonEnd);
            epsilonNFA_Edges[pEpsilonStart].push_back(EpsilonNFA_Edge(x, pEpsilonStart, pEpsilonEnd));
            context.epsilonNFA_States.insert(pEpsilonStart);
            context.epsilonNFA_States.insert(pEpsilonEnd);
            }

            串聯關系

            串聯關系中,只需要將前一個狀態機的end狀態通過ε邊連接到另一個狀態機的start狀態,最后將前一個狀態的start狀態標記為新狀態機的start狀態,后一個狀態機的end狀態標記為新狀態機的end狀態即可。

             self operator+(const self& x)
            {
            self a = cloneEpsilonNFA(*this), b = cloneEpsilonNFA(x);
            copyEpsilonNFA_Edges(b, a);
            a.epsilonNFA_Edges[a.pEpsilonEnd].push_back(EpsilonNFA_Edge(a.pEpsilonEnd, b.pEpsilonStart));
            a.pEpsilonEnd = b.pEpsilonEnd;
            return a;
            }

             

            并聯關系

            并聯關系中,需要分別新建一個start和end狀態做為新狀態機的start和end狀態,然后將新生成的start狀態分別連接到原狀態機的start狀態,原狀態機的end狀態連接到新生成的end狀態即可。

             self operator|(const self& x)
            {
            self a = cloneEpsilonNFA(*this), b = cloneEpsilonNFA(x);
            copyEpsilonNFA_Edges(b, a);
            EpsilonNFA_State* _pStart = EpsilonNFA_State_Alloc::allocate();
            construct(_pStart);
            EpsilonNFA_State* _pEnd = EpsilonNFA_State_Alloc::allocate();
            construct(_pEnd);
            context.epsilonNFA_States.insert(_pStart);
            context.epsilonNFA_States.insert(_pEnd);
            a.epsilonNFA_Edges[_pStart].push_back(EpsilonNFA_Edge(_pStart, a.pEpsilonStart));
            a.epsilonNFA_Edges[_pStart].push_back(EpsilonNFA_Edge(_pStart, b.pEpsilonStart));
            a.epsilonNFA_Edges[a.pEpsilonEnd].push_back(EpsilonNFA_Edge(a.pEpsilonEnd, _pEnd));
            a.epsilonNFA_Edges[b.pEpsilonEnd].push_back(EpsilonNFA_Edge(b.pEpsilonEnd, _pEnd));
            a.pEpsilonStart = _pStart;
            a.pEpsilonEnd = _pEnd;
            return a;
            }

            重復關系

            在正則表達式中存在形如(a)+和(a)*的兩種重復關系,對于這兩種重復關系,生成的狀態機的區別僅在于end狀態對于一次以上的重復,只需要給原狀態機添加一條從end狀態到start狀態的ε邊即可。而對于零次以上的重復,不光需要添加ε邊,同時需要將新狀態機的end狀態標記為start狀態,因為零次重復時不需要經過任意邊既可被接受。

             self operator*()
            {
            self a = cloneEpsilonNFA(*this);
            a.epsilonNFA_Edges.insert(EpsilonNFA_Edge(a.pEpsilonEnd, a.pEpsilonStart));
            a.pEpsilonEnd = a.pEpsilonStart;
            return a;
            }
            self operator+()
            {
            self a = cloneEpsilonNFA(*this);
            a.epsilonNFA_Edges[a.pEpsilonEnd].push_back(EpsilonNFA_Edge(a.pEpsilonEnd, a.pEpsilonStart));
            return a;
            }

            上面這三種是最基本的生成方法,通過以上這三種生成方法已足夠應付多數的表達式。

            一些拓展

            下面來看看一些拓展形式的狀態機是如何生成的。

            可選關系

            在可選關系中,只需要給原狀態機添加一條從start狀態到end狀態的ε邊即可。由于ε-NFA只允許有一個start和end狀態的關系,應此當條件不成立時從start狀態就可直接通過ε邊到達end狀態。

             inline self opt()
            {
            self a = cloneEpsilonNFA(*this);
            a.epsilonNFA_Edges[a.pEpsilonStart].push_back(EpsilonNFA_Edge(a.pEpsilonStart, a.pEpsilonEnd));
            return a;
            }

             

            取反關系

            由于我們只處理Char_Type和String_Type類型的字符集,應此對于取反我們只需要將當前狀態機內所有類型為TChar或TString類型的邊取一下反即可(需要注意的是可能存在負負得正的情況,既取偶數次反等于沒取反

             

             self operator!()
            {
            self a = cloneEpsilonNFA(*this);
            for (typename hashmap<EpsilonNFA_State*, vector<EpsilonNFA_Edge>, _hash>::iterator i = a.epsilonNFA_Edges.begin(), m = a.epsilonNFA_Edges.end(); i != m; ++i)
            {
            for (typename vector<EpsilonNFA_Edge>::iterator j = i->second.begin(), n = i->second.end(); j != n; ++j)
            {
            if (j->isChar() || j->isString()) j->negate();
            }
            }
            return a;
            }

             

             

            Char-Char關系

            所謂的char-char關系就是正則表達式中的[a-z]表達式。其實這是一種并聯關系的拓展,由兩個原始狀態機拓展到了N個,生成方法也類似。

             self operator-(const self& x)
            {
            self a = cloneEpsilonNFA(*this);
            if (epsilonNFA_Edges.size() == 1 && x.epsilonNFA_Edges.size() == 1 &&
            epsilonNFA_Edges.begin()->second.size() == 1 && x.epsilonNFA_Edges.begin()->second.size() == 1 &&
            epsilonNFA_Edges.begin()->second.begin()->edge_type == EpsilonNFA_Edge::TChar && x.epsilonNFA_Edges.begin()->second.begin()->edge_type == EpsilonNFA_Edge::TChar)
            {
            EpsilonNFA_State* _pStart = EpsilonNFA_State_Alloc::allocate();
            construct(_pStart);
            EpsilonNFA_State* _pEnd = EpsilonNFA_State_Alloc::allocate();
            construct(_pEnd);
            context.epsilonNFA_States.insert(_pStart);
            context.epsilonNFA_States.insert(_pEnd);
            a.epsilonNFA_Edges[_pStart].push_back(EpsilonNFA_Edge(_pStart, a.pEpsilonStart));
            a.epsilonNFA_Edges[a.pEpsilonEnd].push_back(EpsilonNFA_Edge(a.pEpsilonEnd, _pEnd));
            const Char_Type chStart = epsilonNFA_Edges.begin()->second.begin()->data.char_value;
            const Char_Type chEnd = x.epsilonNFA_Edges.begin()->second.begin()->data.char_value;
            for (Char_Type ch = chStart + 1; ch < chEnd; ++ch)
            {
            self y(ch, context);
            copyEpsilonNFA_Edges(y, a);
            a.epsilonNFA_Edges[_pStart].push_back(EpsilonNFA_Edge(_pStart, y.pEpsilonStart));
            a.epsilonNFA_Edges[y.pEpsilonEnd].push_back(EpsilonNFA_Edge(y.pEpsilonEnd, _pEnd));
            }
            self b = cloneEpsilonNFA(x);
            copyEpsilonNFA_Edges(b, a);
            a.epsilonNFA_Edges[_pStart].push_back(EpsilonNFA_Edge(_pStart, b.pEpsilonStart));
            a.epsilonNFA_Edges[b.pEpsilonEnd].push_back(EpsilonNFA_Edge(b.pEpsilonEnd, _pEnd));
            a.pEpsilonStart = _pStart;
            a.pEpsilonEnd = _pEnd;
            }
            else
            {
            throw error<string>("doesn't support", __FILE__, __LINE__);
            }
            return a;
            }

            尾聲

            讓我們來編寫一個函數來打印出整個生成后的狀態機。

             void printEpsilonNFA()
            {
            printf("-------- ε- NFA Start --------\n");
            for (typename hashmap<EpsilonNFA_State*, vector<EpsilonNFA_Edge>, _hash>::const_iterator i = epsilonNFA_Edges.begin(), m = epsilonNFA_Edges.end(); i != m; ++i)
            {
            for (typename vector<EpsilonNFA_Edge>::const_iterator j = i->second.begin(), n = i->second.end(); j != n; ++j)
            {
            printf("%03d -> %03d", j->pFrom->idx, j->pTo->idx);
            switch (j->edgeType())
            {
            case EpsilonNFA_Edge::TEpsilon:
            printf("(ε)");
            break;
            case EpsilonNFA_Edge::TChar:
            printf("(%c)", j->data.char_value);
            break;
            case EpsilonNFA_Edge::TString:
            printf("(%s)", j->data.string_value.c_str());
            break;
            default:
            break;
            }
            if (j->isNot()) printf("(not)");
            printf("\n");
            }
            }
            printf("start: %03d -> end: %03d\n", pEpsilonStart->idx, pEpsilonEnd->idx);
            printf("--------- ε- NFA End ---------\n");
            }

             

            最后我們來編寫一些測試代碼來試試生成效果如何

            Rule_Type::Context context;
            Rule_Type a('a', context), b('b', context), d('d', context);
            Rule_Type result = (a - d).opt() + (+b | !(a + b));
            #ifdef _DEBUG
            result.printEpsilonNFA();
            #endif

            可打印出如下內容

            狀態機

            最后形成形如下圖的狀態機

            狀態機圖

            完整的代碼可到http://code.google.com/p/qlanguage下載。

            posted on 2013-02-15 20:29 lwch 閱讀(2891) 評論(3)  編輯 收藏 引用 所屬分類: QLanguage

            評論:
            # re: 詞法分析器1(正則表達式到&epsilon;-NFA的轉換) 2013-02-17 18:29 | Zblc(邱震鈺)
            一看標題 - -+ 果然是你發的。。  回復  更多評論
              
            # re: 詞法分析器1(正則表達式到&epsilon;-NFA的轉換) 2013-02-18 22:28 | lwch
            @Zblc(邱震鈺)
            -.-這你都看的出  回復  更多評論
              
            # re: 詞法分析器1(正則表達式到&epsilon;-NFA的轉換) 2013-02-19 12:47 | Richard Wei
            支持下   回復  更多評論
              
            中文精品久久久久人妻| 亚洲中文字幕无码久久综合网| 久久亚洲日韩看片无码| 久久这里有精品视频| 一本大道久久a久久精品综合| 国内精品久久久久伊人av| 欧洲成人午夜精品无码区久久| 久久精品国产久精国产一老狼| 亚洲а∨天堂久久精品9966| 久久这里有精品| 亚洲中文字幕无码久久精品1| 亚洲AV无一区二区三区久久| 国产精品一区二区久久国产| 精品久久久久久| 亚洲成色999久久网站| 精品久久久久中文字| 热久久国产欧美一区二区精品| 色妞色综合久久夜夜| 91精品国产91久久久久福利| 久久综合九色综合精品| 久久久久成人精品无码| 国产亚洲精久久久久久无码77777| 久久久久99精品成人片直播| 久久亚洲精品视频| 亚洲精品久久久www| 久久66热人妻偷产精品9| 99久久婷婷国产综合精品草原| 亚洲欧美国产日韩综合久久| 亚洲中文字幕无码久久2020 | 久久婷婷人人澡人人| 久久精品国产亚洲AV忘忧草18| 乱亲女H秽乱长久久久| 久久99精品久久久久久秒播| 99久久免费国产精品特黄| 久久青草国产精品一区| 色99久久久久高潮综合影院 | 久久精品国产亚洲av高清漫画 | 国产精品99久久久久久宅男小说| 99久久免费国产精精品| 久久久噜噜噜久久中文字幕色伊伊| 久久国产精品99精品国产987|