一区二区在线观看av,欧美激情视频网站,国产欧美日韩亚洲一区二区三区

[轉(zhuǎn)] KMP 串匹配算法

這種由D.E.Knuth,J.H.Morris和V.R.Pratt同時發(fā)現(xiàn)的改進的模式匹配算法簡稱為KMP算法。注意這是一個改進的算法，所以有必要把原來的模式匹配算法拿出來，其實理解的關(guān)鍵就在這里，一般的匹配算法：

int Index(String S,String T,int pos)//參考《數(shù)據(jù)結(jié)構(gòu)》中的程序
{
   i=pos;j=1;//這里的串的第1個元素下標是1
   while(i<=S.Length && j<=T.Length)
   {
     if(S[i]==T[j]){++i;++j;}
     else{i=i-j+2;j=1;}//**************(1)
   }
   if(j>T.Length) return i-T.Length;//匹配成功
   else return 0;
}

匹配的過程非常清晰，關(guān)鍵是當‘失配’的時候程序是如何處理的？回溯，沒錯，注意到(1)句，為什么要回溯，看下面的例子：

S:aaaaabababcaaa T:ababc

aaaaabababcaaa
     ababc.(.表示前一個已經(jīng)失配)
回溯的結(jié)果就是
aaaaabababcaaa
      a.(babc)
如果不回溯就是
aaaaabababcaaa
         aba.bc
這樣就漏了一個可能匹配成功的情況
aaaaabababcaaa
       ababc

為什么會發(fā)生這樣的情況？這是由T串本身的性質(zhì)決定的，是因為T串本身有前后'部分匹配'的性質(zhì)。如果T為abcdef這樣的，大沒有回溯的必要。

改進的地方也就是這里，我們從T串本身出發(fā)，事先就找準了T自身前后部分匹配的位置，那就可以改進算法。

如果不用回溯，那T串下一個位置從哪里開始呢？

還是上面那個例子，T為ababc，如果c失配，那就可以往前移到aba最后一個a的位置，像這樣：
...ababd...
ababc
->ababc

這樣i不用回溯，j跳到前2個位置，繼續(xù)匹配的過程，這就是KMP算法所在。這個當T[j]失配后，j應(yīng)該往前跳的值就是j的next值，它是由T串本身固有決定的，與S串無關(guān)。

《數(shù)據(jù)結(jié)構(gòu)》上給了next值的定義：
0 如果j=1
next[j]={Max{k|1<k<j且'p1...pk-1'='pj-k+1...pj-1'
1 其它情況

我當初看到這個頭就暈了，其實它就是描述的我前面表述的情況，關(guān)于next[1]=0是規(guī)定的，這樣規(guī)定可以使程序簡單一些，如果非要定為其它的值只要不和后面的值沖突也是可以的；而那個Max是什么意思，舉個例子：

T:aaab

...aaaab...
    aaab
   ->aaab
    ->aaab
     ->aaab

像這樣的T，前面自身部分匹配的部分不止兩個，那應(yīng)該往前跳到第幾個呢？最近的一個，也就是說盡可能的向右滑移最短的長度。

OK，了解到這里，就看清了KMP的大部分內(nèi)容，然后關(guān)鍵的問題是如何求next值？先不管它，先看如何用它來進行匹配操作，也就是說先假設(shè)已經(jīng)有了next值。

將最前面的程序改寫成：

int Index_KMP(String S,String T,int pos)
{
   i=pos;j=1;//這里的串的第1個元素下標是1
   while(i<=S.Length && j<=T.Length)
   {
     if(j==0 || S[i]==T[j]){++i;++j;} //注意到這里的j==0,和++j的作用就知道為什么規(guī)定next[1]=0的好處了
     else j=next[j];//i不變（不回溯）,j跳動
   }
   if(j>T.Length) return i-T.Length;//匹配成功
   else return 0;
}

OK,是不是非常簡單？還有更簡單的，求next值，這也是整個算法成功的關(guān)鍵，從next值的定義來求太恐怖了，怎么求？前面說過了，next值表達的就是T串的自身部分匹配的性質(zhì)，那么，我只要將T串和T串自身來一次匹配就可以求出來了，這里的匹配過程不是從頭一個一個匹配，而是從T[1]和T[2]開始匹配，給出算法如下：

void get_next(String T,int &next[])
{
   i=1;j=0;next[1]=0;
   while(i<=T.Length)
   {
     if(j==0 || T[i]==T[j]){++i;++j; next[i]=j;/**********(2)*/}
     else j=next[j];
   }
}

看這個函數(shù)是不是非常像KMP匹配的函數(shù)，沒錯，它就是這么干的！注意到(2)語句邏輯覆蓋的時候是T[i]==T[j]以及i前面的、j前面的都匹配的情況下，于是先自增，然后記下來next[i]=j，這樣每當i有自增就會求得一個next[i]，而j一定會小于等于i，于是對于已經(jīng)求出來的next，可以繼續(xù)求后面的next，而next[1]=0是已知，所以整個就這樣遞推的求出來了，方法非常巧妙。

這樣的改進已經(jīng)是很不錯了，但算法還可以改進，注意到下面的匹配情況：

...aaac...
aaaa.
T串中的'a'和S串中的'c'失配，而'a'的next值指的還是'a'，那同樣的比較還是會失配，而這樣的比較是多余的，如果我事先知道，當T[i]==T[j]，那next[i]就設(shè)為next[j]，在求next值的時候就已經(jīng)比較了，這樣就可以去掉這樣的多余的比較。于是稍加改進得到：

void get_nextval(String T,int &next[])
{
   i=1;j=0;next[1]=0;
   while(i<=T.Length)
   {
     if(j==0 || T[i]==T[j])
     { ++i;++j;
       if(T[i]!=T[j]) next[i]=j;
       else next[i]=next[j];//消去多余的可能的比較,next再向前跳
     }
     else j=next[j];
   }
}

匹配算法不變。

posted on 2007-04-05 16:04 譚文政閱讀(671) 評論(0) 編輯收藏引用所屬分類: 基礎(chǔ)知識

只有注冊用戶登錄后才能發(fā)表評論。
【推薦】100%開源！大型工業(yè)跨平臺軟件C++源碼提供，建模，組態(tài)！

相關(guān)文章: Win XP系統(tǒng)任務(wù)欄實用技巧總集 [轉(zhuǎn)]電子書籍制作工具軟件大全 WAV轉(zhuǎn)MP3格式最簡單的方法 C#Windows控件的焦點事件順序 C# 怎么顯示中文格式的日期、星期幾 [轉(zhuǎn)] 網(wǎng)頁設(shè)計者值得一去的地方！ Word表格及Excel中斜線表頭的繪制方法。 [轉(zhuǎn)] 深入剖析XP的BOOT.INI 什么是uri和url? 存儲類說明符：auto,register, extern mutable 和static

網(wǎng)站導(dǎo)航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

twzheng's cppblog

公告

留言簿(14)

隨筆分類(130)

文章分類(87)

新聞分類(82)

相冊

收藏夾(40)

我的連接

資料源碼

搜索

積分與排名

最新評論

閱讀排行榜