隨筆-341 評論-2670 文章-0 trackbacks-0

字符集的正規化指的是讓正則表達式的表達式樹的所有節點中記錄的字符集合的最小單元都是互不交叉的。舉個例子，[a-g][h-n]沒有交叉，但是[a-g][g-n]就交叉了。所以對[a-g][g-n]做字符集正規化的結果就是將表達式修改為([a-f]|g)(g|[h-n])。這樣表達式里面出現的字符集合的最小單元[a-f]、g和[h-n]就沒有交叉了。下面是正規化的代碼：

正規化包含兩個步驟，第一步是檢查所有的字符集表達式然后做出一張正規化列表，譬如從表達式[a-g][g-n]抽取出正規化列表[a-f]、g和[h-n]。第二步則使用這張列表重寫表達式。[a-g]=[a-f]|g而[h-n]=h|[g-n]，于是便改寫成了([a-f]|g)(g|[h-n])。在這里我們使用上一篇文章的visitor模式來完成。第一步和第二步的共同點是遍歷所有的節點，然后獲取所有的CharSetExpression。他們的區別僅僅在于如何對待CharSetExpression上。所以我們先寫一個算法基類：

1         class CharSetAlgorithm : public RegexExpressionAlgorithm<void, NormalizedCharSet*>
2         {
3         public:
4             void Apply(LoopExpression* expression, NormalizedCharSet* target)
5             {
6                 Invoke(expression->expression, target);
7             }
8
9             void Apply(SequenceExpression* expression, NormalizedCharSet* target)
10             {
11                 Invoke(expression->left, target);
12                 Invoke(expression->right, target);
13             }
14
15             void Apply(AlternateExpression* expression, NormalizedCharSet* target)
16             {
17                 Invoke(expression->left, target);
18                 Invoke(expression->right, target);
19             }
20
21             void Apply(BeginExpression* expression, NormalizedCharSet* target)
22             {
23             }
24
25             void Apply(EndExpression* expression, NormalizedCharSet* target)
26             {
27             }
28
29             void Apply(CaptureExpression* expression, NormalizedCharSet* target)
30             {
31                 Invoke(expression->expression, target);
32             }
33
34             void Apply(MatchExpression* expression, NormalizedCharSet* target)
35             {
36             }
37
38             void Apply(PositiveExpression* expression, NormalizedCharSet* target)
39             {
40                 Invoke(expression->expression, target);
41             }
42
43             void Apply(NegativeExpression* expression, NormalizedCharSet* target)
44             {
45                 Invoke(expression->expression, target);
46             }
47
48             void Apply(UsingExpression* expression, NormalizedCharSet* target)
49             {
50             }
51         };

足夠細心的話會發現Apply(CharSetExpression*)沒有了。這是當然的，因為下面兩個算法將補全之。首先是提取正規化列表。方法很簡單，找出每一個字符集，用它來切割正規化列表就好了。舉個例子，我們處理[a-g][g-h]，首先獲得[a-g]，然后通過跟[g-h]比較知道他們有交集，于是提取交集g，然后切割一下就行了：

1         class BuildNormalizedCharSetAlgorithm : public CharSetAlgorithm
2         {
3         public:
4             void AddRange(NormalizedCharSet* target, CharRange range)
5             {
6                 int index=0;
7                 while(index<target->ranges.Count())
8                 {
9                     CharRange current=target->ranges[index];
10                     if(current<range || current>range)
11                     {
12                         index++;
13                     }
14                     else if(current.begin<range.begin)
15                     {
16                         // range   :    [    ?
17                         // current : [       ]
18                         target->ranges.RemoveAt(index);
19                         target->ranges.Add(CharRange(current.begin, range.begin-1));
20                         target->ranges.Add(CharRange(range.begin, current.end));
21                         index++;
22                     }
23                     else if(current.begin>range.begin)
24                     {
25                         // range  :  [       ]
26                         // current  :   [    ?
27                         target->ranges.Add(CharRange(range.begin, current.begin-1));
28                         range.begin=current.begin;
29                     }
30                     else if(current.end<range.end)
31                     {
32                         // range   : [       ]
33                         // current : [    ]
34                         range.begin=current.end+1;
35                         index++;
36                     }
37                     else if(current.end>range.end)
38                     {
39                         // range   : [    ]
40                         // current : [       ]
41                         target->ranges.RemoveAt(index);
42                         target->ranges.Add(range);
43                         target->ranges.Add(CharRange(range.end+1, current.end));
44                         return;
45                     }
46                     else
47                     {
48                         // range   : [       ]
49                         // current : [       ]
50                         return;
51                     }
52                 }
53                 target->ranges.Add(range);
54             }

于是，我們拿到了這張列表之后，就可以重寫表達式了：

1         class SetNormalizedCharSetAlgorithm : public CharSetAlgorithm
2         {
3         public:
4             void Apply(CharSetExpression* expression, NormalizedCharSet* target)
5             {
6                 CharRange::List result;
7                 for(int i=0;i<target->ranges.Count();i++)
8                 {
9                     CharRange targetRange=target->ranges[i];
10                     for(int j=0;j<expression->ranges.Count();j++)
11                     {
12                         CharRange range=expression->ranges[j];
13                         if(range.begin<=targetRange.begin && targetRange.end<=range.end)
14                         {
15                             result.Add(targetRange);
16                         }
17                     }
18                 }
19                 expression->ranges.Clear();
20                 CopyFrom(expression->ranges.Wrap(), result.Wrap());
21             }
22         };

最后在Expression那里封裝一下就大功告成了：

1         void Expression::NormalizeCharSet()
2         {
3             NormalizedCharSet normalized;
4             BuildNormalizedCharSetAlgorithm().Invoke(this, &normalized);
5             SetNormalizedCharSetAlgorithm().Invoke(this, &normalized);
6         }

至于什么是NormalizedCharSet，這只是一個擁有成員SortedList<CharRange>的類罷了。至此我們還看到了Visitor的另一個優點：可以提取算法的公共部分。

posted on 2009-10-17 20:43 陳梓瀚(vczh) 閱讀(1903) 評論(1) 編輯收藏引用所屬分類: VL++3.0開發紀事

評論:

# re: Vczh Library++3.0之正則表達式引擎（字符集正規化） 2009-10-19 00:26 | pp

樓主活在自己的世界里不亦樂呼啊回復更多評論

刷新評論列表

只有注冊用戶登錄后才能發表評論。


相關文章: 淺談面向對象語言的類型運算 Vczh Library++3.0之ManagedX語言檢查類型的可見性 Vczh Library++3.0之山寨mscorlib.dll Vczh Library++3.0之如何把C#屬性parse出來的超長pair鏈表賦值到語法書上 Vczhl Library++3.0之Parser Combinator為常見的語法結構做優化 Vczh Library++3.0托管語言語法樹完成 Vczh Library++3.0第一階段宣告結束 Vczh Library++3.0開發紀事之流式xml和json讀寫 Vczh Library++3.0第一個Release提供下載！ Vczh Library++ 3.0之烏龜畫圖Demo接近完工

網站導航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

留言簿(70)

隨筆分類(347)

好友博客

Graphixer
何詠師弟的圖形學網站
jetricy
Jetricy的技術博客
KlayGE游戲引擎
叛叛大神
Lomox UI框架
Lomox UI框架
MiGL
Tyeah的博客
vczh的百度空間
vczh的百度空間
YMK的后花園
YMK的技術博客
德利菲
德利菲的技術博客
怪盜KID的游戲開發博客
怪盜KID的游戲開發博客
華工微軟俱樂部
華南理工大學微軟俱樂部科技部博客
開發視界
開發視界 - 移動開發社區
老趙點滴
趙姐夫的.net博客
臨淵羨魚，不如退而山寨
另一個SOS團的C++程序員……
某白食(Lyt)
某白食的C++博客
歲月流轉，往昔空明
空明流轉的blog
微軟一站式實例代碼庫
500個經典示例，速學速用，效率倍增。
我在博客園的blog
我在博客園的blog
一個不靠譜的程序員
JeffChen的技術博客

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

留言簿(70)

隨筆分類(347)

好友博客

搜索

最新評論

閱讀排行榜

評論排行榜