Mato is No.1

Mato是一只超級大沙茶……但他一直以來都想成為各項比賽都No.1的神犇……

posts - 120, comments - 161, trackbacks - 0, articles - 0

聚合

<

2013年7月

>

日

一

二

三

四

五

六

30

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

6

7

8

9

10

留言簿(21)

隨筆分類

隨筆檔案

搜索

閱讀排行榜

評論排行榜

KMP和擴展KMP

Posted on 2011-04-17 19:11 Mato_No1 閱讀(5837) 評論(2) 編輯收藏引用所屬分類: 字符串匹配

KMP：給出兩個字符串A（稱為模板串）和B（稱為子串），長度分別為lenA和lenB，要求在線性時間內，對于每個A[i]（0<=i<lenA)，求出A[i]往前和B的前綴匹配的最大匹配長度，記為ex[i]（或者說，ex[i]為滿足A[i-z+1..i]==B[0..z-1]的最大的z值）。KMP的主要目的是求B是不是A的子串，以及若是，B在A中所有出現的位置（當ex[i]=lenB時）。
【算法】
設next[i]為滿足B[i-z+1..i]==B[0..z-1]的最大的z值（也就是B的自身匹配）。設目前next[0..lenB-1]與ex[0..i-1]均已求出，要用它們來求ex[i]的值。
根據ex的定義，有A[i-1-ex[i-1]+1..i-1]==B[0..ex[i-1]-1]，這時，若有A[i]==B[ex[i-1]]，則可以直接得到ex[i]=ex[i-1]+1（因為i-1-ex[i-1]+1即i-ex[i-1]，現在由于A[i]==B[ex[i-1]]，可得A[i-ex[i-1]..i]==B[0..ex[i-1]]，即A[i-ex[i-1]+1-1..i]==B[0..ex[i-1]+1-1]，所以ex[i]=ex[i-1]+1）。若A[i]!=B[ex[i-1]]？
設j=next[ex[i-1]-1]，則根據next定義得B[ex[i-1]-j..ex[i-1]-1]==B[0..j-1]，又因為A[i-ex[i-1]..i-1]==B[0..ex[i-1]-1]得A[i-j..i-1]==B[ex[i-1]-j..ex[i-1]-1]，這樣有A[i-j..i-1]==B[0..j-1]！也就是此時只需再比較A[i]與B[j]的值是否相等即可，若相等，可得ex[i]=j+1，若仍不相等，則更新j為next[j-1]，繼續比較A[i]與B[j]是否相等……直到A[i]與B[j]相等或直到j==0時，A[i]仍不等于B[j]，此時ex[i]=0。邊界：求ex[0]時，初始j（用來代替ex[i-1]）為0。
現在還有一個問題，如何求next？顯然next就是以B自身為模板串，B為子串的“自身匹配”，用類似的辦法即可，唯一不同的是next[0]=lenB可以直接得到，求next[1]時，初始j（代替next[i-1]）為0。
【核心代碼】

    lenA = strlen(A); lenB = strlen(B);
    next[0] = lenB;
    int j = 0;
    re2(i, 1, lenB) {
        while (j && B[i] != B[j]) j = next[j - 1];
        if (B[i] == B[j]) j++;
        next[i] = j;
    }
    j = 0;
    re(i, lenA) {
        while (j && A[i] != B[j]) j = next[j - 1];
        if (A[i] == B[j]) j++;
        ex[i] = j;
    }

擴展KMP：給出模板串A和子串B，長度分別為lenA和lenB，要求在線性時間內，對于每個A[i]（0<=i<lenA)，求出A[i..lenA-1]與B的最長公共前綴長度，記為ex[i]（或者說，ex[i]為滿足A[i..i+z-1]==B[0..z-1]的最大的z值）。擴展KMP可以用來解決很多字符串問題，如求一個字符串的最長回文子串和最長重復子串。
【算法】
設next[i]為滿足B[i..i+z-1]==B[0..z-1]的最大的z值（也就是B的自身匹配）。設目前next[0..lenB-1]與ex[0..i-1]均已求出，要用它們來求ex[i]的值。
設p為目前A串中匹配到的最遠位置，k為讓其匹配到最遠位置的值（或者說，k是在0<=i0<i的所有i0值中，使i0+ex[i0]-1的值最大的一個，p為這個最大值，即k+ex[k]-1），顯然，p之后的所有位都是未知的，也就是目前還無法知道A[p+1..lenA-1]中的任何一位和B的任何一位是否相等。
根據ex的定義可得，A[k..p]==B[0..p-k]，因為i>k，所以又有A[i..p]==B[i-k..p-k]，設L=next[i-k]，則根據next的定義有B[0..L-1]==B[i-k..i-k+L-1]。考慮i-k+L-1與p-k的關系：
（1）i-k+L-1<p-k，即i+L<=p。這時，由A[i..p]==B[i-k..p-k]可以得到A[i..i+L-1]==B[i-k..i-k+L-1]，又因為B[0..L-1]==B[i-k..i-k+L-1]所以A[i..i+L-1]==B[0..L-1]，這就說明ex[i]>=L。又由于next的定義可得，A[i+L]必然不等于B[L]（否則A[i..i+L]==B[0..L]，因為i+L<=p，所以A[i..i+L]==B[i-k..i-k+L]，這樣B[0..L]==B[i-k..i-k+L]，故next[i-k]的值應為L+1或更大），這樣，可以直接得到ex[i]=L！
（2）i+k-L+1>=p-k，即i+L>p。這時，首先可以知道A[i..p]和B[0..p-i]是相等的（因為A[i..p]==B[i-k..p-k]，而i+k-L+1>=p-k，由B[0..L-1]==B[i-k..i-k+L-1]可得B[0..p-i]==B[i-k..p-k]，即A[i..p]==B[0..p-i]），然后，對于A[p+1]和B[p-i+1]是否相等，目前是不知道的（因為前面已經說過，p是目前A串中匹配到的最遠位置，在p之后無法知道任何一位的匹配信息），因此，要從A[p+1]與B[p-i+1]開始往后繼續匹配（設j為目前B的匹配位置的下標，一開始j=p-i+1，每次比較A[i+j]與B[j]是否相等，直到不相等或者越界為止，此時的j值就是ex[i]的值）。在這種情況下，p的值必然會得到延伸，因此更新k和p的值。
邊界：ex[0]的值需要預先求出，然后將初始的k設為0，p設為ex[0]-1。
對于求next數組，也是“自身匹配”，類似KMP的方法處理即可。唯一的不同點也在邊界上：可以直接知道next[0]=lenB，next[1]的值預先求出，然后初始k=1，p=ex[1]。

需要嚴重注意的是，在上述的情況（2）中，本該從A[p+1]與B[p-i+1]開始匹配，但是，若p+1<i，也就是p-i+1<0（這種情況是有可能發生的，當ex[i-1]=0，且前面的ex值都沒有延伸到i及以后的時候）的話，需要將A、B的下標都加1（因為此時p必然等于i-2，如果A、B的下標用兩個變量x、y控制的話，x和y都要加1）！！

【核心代碼】

lenA = strlen(A); lenB = strlen(B);
    next[0] = lenB; next[1] = lenB - 1;
    re(i, lenB-1) if (B[i] != B[i + 1]) {next[1] = i; break;}
    int j, k = 1, p, L;
    re2(i, 2, lenB) {
        p = k + next[k] - 1; L = next[i - k];
        if (i + L <= p) next[i] = L; else {
            j = p - i + 1;
            if (j < 0) j = 0;
            while (i + j < lenB && B[i + j] == B[j]) j++;
            next[i] = j; k = i;
        }
    }
    int minlen = lenA <= lenB ? lenA : lenB; ex[0] = minlen;
    re(i, minlen) if (A[i] != B[i]) {ex[0] = i; break;}
    k = 0;
    re2(i, 1, lenA) {
        p = k + ex[k] - 1; L = next[i - k];
        if (i + L <= p) ex[i] = L; else {
            j = p - i + 1;
            if (j < 0) j = 0;
            while (i + j < lenA && j < lenB && A[i + j] == B[j]) j++;
            ex[i] = j; k = i;
        }
    }

【時間復雜度分析】
在KMP和擴展KMP中，不管是A串還是B串，其匹配位置都是單調遞增的，故總時間復雜度是線性的，都為O(lenA + lenB)（只是擴展KMP比KMP的常數更大一些）。
【應用】
KMP和擴展KMP在解決字符串問題中有大用。很多看上去很猥瑣的字符串問題，都可以歸結到這兩種算法之中。另外，這里的“字符串”可以延伸為一切類型的數組，而不僅僅是字符數組。

Feedback

# re: KMP和擴展KMP 回復 更多評論

2011-12-14 22:34 by ~~

KMP算法里面next[0]應該是0才對吧?
next[i]為滿足B[i-z+1..i]==B[0..z-1]的最大的z值（也就是B的自身匹配）
對于B[0],i- 1是-1,不能向前延伸了~

# re: KMP和擴展KMP 回復 更多評論

2015-08-02 14:21 by yajun

擴展KMP
if (i + L <= p) ex[i] = L; else {
相等的時候，需要向后匹配，因為可能會比L更長。

刷新評論列表

只有注冊用戶登錄后才能發表評論。


相關文章: 【AHOI2013復仇】SCOI2003 字符串折疊 COCI 2011～2012 #5 后兩題題解 KMP、AC自動機在字符串匹配類動態規劃問題中的應用后綴數組 AC自動機模板題——HDU2222 環形串的最優斷點問題 KMP和擴展KMP

網站導航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

Copyright Copyright Mato_No1

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品