勤能補拙，Expter

成都游戲Coder，記錄游戲開發過程的筆記和心得！

統計

隨筆 - 67
文章 - 1
評論 - 209
引用 - 0

留言簿(18)

隨筆分類

隨筆檔案

文章檔案

2008年10月 (1)

收藏夾

書庫(2) (rss)

程序人生

經常去的論壇

csdn
vcbase
軍事網
sina軍事網

曾經ACM

sicheng
wlgwstc
zzningxp大牛
百度fm
百度fm
中科院博士

積分與排名

積分 - 194663
排名 - 137

閱讀排行榜

評論排行榜

KMP 算法筆記

KMP算法是查詢子串比較快的一種算法！

我們先看普通的模式匹配算法。。

int Index(String S,String T,int pos)//參考《數據結構》中的程序
{
  i=pos;j=1;//這里的串的第1個元素下標是1
  while(i<=S.Length && j<=T.Length)
  {
    if(S[i]==T[j]){++i;++j;}
    else{i=i-j+2;j=1;}//**************(1)
  }
  if(j>T.Length) return i-T.Length;//匹配成功
  else return 0;
}

匹配的過程非常清晰，關鍵是當‘失配’的時候進行回溯！

看下面的例子：

S:aaaaabababcaaa T:ababc

aaaaabababcaaa
    ababc.(.表示前一個已經失配)
回溯的結果就是
aaaaabababcaaa
     a.(babc)
如果不回溯就是
aaaaabababcaaa
        aba.bc
這樣就漏了一個可能匹配成功的情況
aaaaabababcaaa
      ababc

為什么會發生這樣的情況？這是由T串本身的性質決定的，是因為T串本身有前后'部分匹配'的性質。如果T為abcdef這樣的，大沒有回溯的必要。

改進的地方也就是這里，我們從T串本身出發，事先就找準了T自身前后部分匹配的位置，那就可以改進算法。

如果不用回溯，那T串下一個位置從哪里開始呢？

還是上面那個例子，T為ababc，如果c失配，那就可以往前移到aba最后一個a的位置，像這樣：
...ababd...
ababc
->ababc

這樣i不用回溯，j跳到前2個位置，繼續匹配的過程，這就是KMP算法所在。這個當T[j]失配后，j應該往前跳的值就是j的next值，它是由T串本身固有決定的，與S串無關。

《數據結構》上給了next值的定義：
0 如果j=1
next[j]={Max{k|1<k<j且'p1

pk-1'='pj-k+1

pj-1'
1 其它情況

我當初看到這個頭就暈了，其實它就是描述的我前面表述的情況，關于next[1]=0是規定的，這樣規定可以使程序簡單一些，如果非要定為其它的值只要不和后面的值沖突也是可以的；而那個Max是什么意思，舉個例子：

T:aaab

...aaaab...
   aaab
->aaab
   ->aaab
    ->aaab

像這樣的T，前面自身部分匹配的部分不止兩個，那應該往前跳到第幾個呢？最近的一個，也就是說盡可能的向右滑移最短的長度。

OK，了解到這里，就看清了KMP的大部分內容，然后關鍵的問題是如何求next值？先不管它，先看如何用它來進行匹配操作，也就是說先假設已經有了next值。

將最前面的程序改寫成：

int Index_KMP(String S,String T,int pos)
{
  i=pos;j=1;//這里的串的第1個元素下標是1
  while(i<=S.Length && j<=T.Length)
  {
    if(j==0 || S[i]==T[j]){++i;++j;} //注意到這里的j==0,和++j的作用就知道為什么規定next[1]=0的好處了
    else j=next[j];//i不變（不回溯）,j跳動
  }
  if(j>T.Length) return i-T.Length;//匹配成功
  else return 0;
}

OK,是不是非常簡單？還有更簡單的，求next值，這也是整個算法成功的關鍵，從next值的定義來求太恐怖了，怎么求？前面說過了，next值表達的就是T串的自身部分匹配的性質，那么，我只要將T串和T串自身來一次匹配就可以求出來了，這里的匹配過程不是從頭一個一個匹配，而是從T[1]和T [2]開始匹配，給出算法如下：

void get_next(String T,int &next[])
{
  i=1;j=0;next[1]=0;
  while(i<=T.Length)
  {
    if(j==0 || T[i]==T[j]){++i;++j; next[i]=j;/**********(2)*/}
    else j=next[j];
  }
}

注意到(2)語句邏輯覆蓋的時候是T[i]==T[j]以及i前面的、j前面的都匹配的情況下，于是先自增，然后記下來next[i]=j，這樣每當i有自增就會求得一個next[i]，而j一定會小于等于i，于是對于已經求出來的next，可以繼續求后面的next，而next[1]=0是已知，所以整個就這樣遞推的求出來了，方法非常巧妙。

posted on 2008-12-06 10:23 expter 閱讀(270) 評論(0) 編輯收藏引用所屬分類: 其他學習筆記、算法與數據結構

只有注冊用戶登錄后才能發表評論。


相關文章: 根據子類類型訪問其特有操作針對一個內存池測試相關介紹一個關于容器選取的刪除問題。在CEGUI顯示GIF圖像，簡單的聊天窗口實現方式. 基于CEGUI的StaticText的超級鏈接實現一個基于足球AI仿真機的模擬實現基于策略的一種高效內存池的實現一個小型的IOCP網絡庫一個字典生成算法幾種解法: 一個問題，如何優化？是否有高效的算法

網站導航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品