• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            隨筆-341  評(píng)論-2670  文章-0  trackbacks-0
                字符集的正規(guī)化指的是讓正則表達(dá)式的表達(dá)式樹的所有節(jié)點(diǎn)中記錄的字符集合的最小單元都是互不交叉的。舉個(gè)例子,[a-g][h-n]沒有交叉,但是[a-g][g-n]就交叉了。所以對(duì)[a-g][g-n]做字符集正規(guī)化的結(jié)果就是將表達(dá)式修改為([a-f]|g)(g|[h-n])。這樣表達(dá)式里面出現(xiàn)的字符集合的最小單元[a-f]、g和[h-n]就沒有交叉了。下面是正規(guī)化的代碼:

                正規(guī)化包含兩個(gè)步驟,第一步是檢查所有的字符集表達(dá)式然后做出一張正規(guī)化列表,譬如從表達(dá)式[a-g][g-n]抽取出正規(guī)化列表[a-f]、g和[h-n]。第二步則使用這張列表重寫表達(dá)式。[a-g]=[a-f]|g而[h-n]=h|[g-n],于是便改寫成了([a-f]|g)(g|[h-n])。在這里我們使用上一篇文章的visitor模式來完成。第一步和第二步的共同點(diǎn)是遍歷所有的節(jié)點(diǎn),然后獲取所有的CharSetExpression。他們的區(qū)別僅僅在于如何對(duì)待CharSetExpression上。所以我們先寫一個(gè)算法基類:
             1         class CharSetAlgorithm : public RegexExpressionAlgorithm<void, NormalizedCharSet*>
             2         {
             3         public:
             4             void Apply(LoopExpression* expression, NormalizedCharSet* target)
             5             {
             6                 Invoke(expression->expression, target);
             7             }
             8 
             9             void Apply(SequenceExpression* expression, NormalizedCharSet* target)
            10             {
            11                 Invoke(expression->left, target);
            12                 Invoke(expression->right, target);
            13             }
            14 
            15             void Apply(AlternateExpression* expression, NormalizedCharSet* target)
            16             {
            17                 Invoke(expression->left, target);
            18                 Invoke(expression->right, target);
            19             }
            20 
            21             void Apply(BeginExpression* expression, NormalizedCharSet* target)
            22             {
            23             }
            24 
            25             void Apply(EndExpression* expression, NormalizedCharSet* target)
            26             {
            27             }
            28 
            29             void Apply(CaptureExpression* expression, NormalizedCharSet* target)
            30             {
            31                 Invoke(expression->expression, target);
            32             }
            33 
            34             void Apply(MatchExpression* expression, NormalizedCharSet* target)
            35             {
            36             }
            37 
            38             void Apply(PositiveExpression* expression, NormalizedCharSet* target)
            39             {
            40                 Invoke(expression->expression, target);
            41             }
            42 
            43             void Apply(NegativeExpression* expression, NormalizedCharSet* target)
            44             {
            45                 Invoke(expression->expression, target);
            46             }
            47 
            48             void Apply(UsingExpression* expression, NormalizedCharSet* target)
            49             {
            50             }
            51         };

                足夠細(xì)心的話會(huì)發(fā)現(xiàn)Apply(CharSetExpression*)沒有了。這是當(dāng)然的,因?yàn)橄旅鎯蓚€(gè)算法將補(bǔ)全之。首先是提取正規(guī)化列表。方法很簡(jiǎn)單,找出每一個(gè)字符集,用它來切割正規(guī)化列表就好了。舉個(gè)例子,我們處理[a-g][g-h],首先獲得[a-g],然后通過跟[g-h]比較知道他們有交集,于是提取交集g,然后切割一下就行了:
             1         class BuildNormalizedCharSetAlgorithm : public CharSetAlgorithm
             2         {
             3         public:
             4             void AddRange(NormalizedCharSet* target, CharRange range)
             5             {
             6                 int index=0;
             7                 while(index<target->ranges.Count())
             8                 {
             9                     CharRange current=target->ranges[index];
            10                     if(current<range || current>range)
            11                     {
            12                         index++;
            13                     }
            14                     else if(current.begin<range.begin)
            15                     {
            16                         // range   :    [    ?
            17                         // current : [       ]
            18                         target->ranges.RemoveAt(index);
            19                         target->ranges.Add(CharRange(current.begin, range.begin-1));
            20                         target->ranges.Add(CharRange(range.begin, current.end));
            21                         index++;
            22                     }
            23                     else if(current.begin>range.begin)
            24                     {
            25                         // range  :  [       ]
            26                         // current  :   [    ?
            27                         target->ranges.Add(CharRange(range.begin, current.begin-1));
            28                         range.begin=current.begin;
            29                     }
            30                     else if(current.end<range.end)
            31                     {
            32                         // range   : [       ]
            33                         // current : [    ]
            34                         range.begin=current.end+1;
            35                         index++;
            36                     }
            37                     else if(current.end>range.end)
            38                     {
            39                         // range   : [    ]
            40                         // current : [       ]
            41                         target->ranges.RemoveAt(index);
            42                         target->ranges.Add(range);
            43                         target->ranges.Add(CharRange(range.end+1, current.end));
            44                         return;
            45                     }
            46                     else
            47                     {
            48                         // range   : [       ]
            49                         // current : [       ]
            50                         return;
            51                     }
            52                 }
            53                 target->ranges.Add(range);
            54             }

                于是,我們拿到了這張列表之后,就可以重寫表達(dá)式了:
             1         class SetNormalizedCharSetAlgorithm : public CharSetAlgorithm
             2         {
             3         public:
             4             void Apply(CharSetExpression* expression, NormalizedCharSet* target)
             5             {
             6                 CharRange::List result;
             7                 for(int i=0;i<target->ranges.Count();i++)
             8                 {
             9                     CharRange targetRange=target->ranges[i];
            10                     for(int j=0;j<expression->ranges.Count();j++)
            11                     {
            12                         CharRange range=expression->ranges[j];
            13                         if(range.begin<=targetRange.begin && targetRange.end<=range.end)
            14                         {
            15                             result.Add(targetRange);
            16                         }
            17                     }
            18                 }
            19                 expression->ranges.Clear();
            20                 CopyFrom(expression->ranges.Wrap(), result.Wrap());
            21             }
            22         };

                最后在Expression那里封裝一下就大功告成了:
            1         void Expression::NormalizeCharSet()
            2         {
            3             NormalizedCharSet normalized;
            4             BuildNormalizedCharSetAlgorithm().Invoke(this&normalized);
            5             SetNormalizedCharSetAlgorithm().Invoke(this&normalized);
            6         }

                至于什么是NormalizedCharSet,這只是一個(gè)擁有成員SortedList<CharRange>的類罷了。至此我們還看到了Visitor的另一個(gè)優(yōu)點(diǎn):可以提取算法的公共部分。
            posted on 2009-10-17 20:43 陳梓瀚(vczh) 閱讀(1888) 評(píng)論(1)  編輯 收藏 引用 所屬分類: VL++3.0開發(fā)紀(jì)事

            評(píng)論:
            # re: Vczh Library++3.0之正則表達(dá)式引擎(字符集正規(guī)化) 2009-10-19 00:26 | pp
            樓主活在自己的世界里不亦樂呼啊  回復(fù)  更多評(píng)論
              
            日韩欧美亚洲综合久久| 久久久久国产精品麻豆AR影院| 国产69精品久久久久观看软件| 亚洲精品无码久久久久去q| 18岁日韩内射颜射午夜久久成人 | 国产精品美女久久久久av爽| 国产精品永久久久久久久久久| 久久精品夜色噜噜亚洲A∨| 久久久久久国产精品美女| 久久久一本精品99久久精品66 | 久久人妻少妇嫩草AV无码蜜桃| 伊人久久无码中文字幕| 久久国产精品77777| 欧美粉嫩小泬久久久久久久| 99久久精品日本一区二区免费| 久久久久亚洲av无码专区 | 99久久综合狠狠综合久久止| 久久99精品久久久久久不卡| 午夜精品久久久久久毛片| 久久人人爽人人爽人人片AV东京热 | 久久精品麻豆日日躁夜夜躁| 久久久久国产| 国产亚洲美女精品久久久| 久久精品夜夜夜夜夜久久| 亚洲国产精品无码久久青草 | 久久国产劲爆AV内射—百度| 久久久久久一区国产精品| 99久久免费国产精精品| 久久综合综合久久综合| 久久只有这里有精品4| 久久精品视频91| 99久久免费只有精品国产| jizzjizz国产精品久久| 色8久久人人97超碰香蕉987| 狠狠色丁香婷婷久久综合| 亚洲欧美日韩精品久久亚洲区 | 国产L精品国产亚洲区久久| 精品综合久久久久久97超人 | 日韩AV无码久久一区二区| 精品久久久久久中文字幕大豆网 | 久久丫精品国产亚洲av|