• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>

            我所理解的KMP算法

             

                                    作者:goal00001111(高粱)

                       始發(fā)于goal00001111的專欄;允許自由轉(zhuǎn)載,但必須注明作者和出處

             

            <!--[if !supportLists]-->一.<!--[endif]-->簡單字符串模式匹配算法的缺陷

            設(shè)有目標串T(target)和模式串P(pattern),模式匹配是指在目標串T中找到一個與模式串P相等的子串。模式匹配成功是指在目標串T中找到了一個模式串P

            簡單字符串模式匹配算法(也就是BF算法)的基本思想是:從目標串T起始比較位置pos開始(在后面的案例中,我們默認pos = 0),和模式串P的第一個字符比較之,若匹配,則繼續(xù)逐個比較后繼字符,否則從串T的下一個字符起再重新和串P的字符比較之。依此類推,直至串P中的每個字符依次和串T中的一個連續(xù)的字符序列(即匹配子串)相等,則稱匹配成功,返回該匹配子串的首字符下標;否則成匹配不成功,返回-1

            BF算法的思想很直接,也很容易理解,其時間復(fù)雜度為OlenT*lenP),其中lenTlenP分別為串T和串P的長度。

            我們先給出代碼,再做簡要分析:

            /*

            函數(shù)名稱:BFIndex

            函數(shù)功能:簡單字符串模式匹配算法,若目標串T中從下標pos起存在和模式串P相同的子串,則稱匹配成功,返回第一個匹配子串首字符的下標;否則返回-1

            輸入?yún)?shù):const string & T :目標串T

                      const string & P :模式串P

                      int pos        :模式匹配起始位置

            輸出參數(shù):int :匹配成功,返回第一個匹配子串首字符的下標;否則返回-1

            */

            int BFIndex(const string & T, const string & P, int pos)

            {

                   int i = pos;

                   int j = 0;

             

                   while (i < T.size() && j < P.size())

            {

                    if (T[i] == P[j]) //如果當(dāng)前字符匹配,繼續(xù)比較后繼字符

                    {

                    ++i;

                        ++j;

                }  

                    else //否則ij回溯,重新開始新的一輪比較

                    {

                          i = i - j + 1;

                          j = 0;

                        

                          //if (i > T.size() - P.size()) //一旦目標串剩余部分子串比模式串短,則無需再比較

            //                      break;

                    }

                }

               

                if (j == P.size()) //匹配成功,返回第一個匹配子串首字符的下標

                return i - j;

            else

                return -1;

            }

             

            我們發(fā)現(xiàn),在某一輪比較中,一旦出現(xiàn)字符失配(即T[i] != P[j]),則需將ij回溯,其中i回溯至i = i - j + 1j回溯至j = 0

            這樣產(chǎn)生了很多不必要的比較,例如(例1):

            string T = "aababaabaabc";

            string P = "abaabc";

            在第4輪比較中,T3T4T5T6T7 == P0P1P2P3P4,我將其簡寫為T[3…7] == P[0…4](后面的都這樣表示),但T[8] != P[5],出現(xiàn)字符失配,需要將ij回溯,使得i = 4 j = 0

            而在第4輪比較中,我們已經(jīng)得到了T[6…7] == P[3…4],又P[0…1] == P[3…4],相當(dāng)于T[6…7]P[0…1]已經(jīng)間接地比較過,而且字符匹配了,我們無需進行從i =6 j = 0開始的重復(fù)比較。

            實際上,當(dāng)T[8] != P[5],即在i = 8 j = 5處出現(xiàn)字符失配時,我們無需將i回溯,只需將j回溯至failure[j](此時failure[5] = 2)處即可。即當(dāng)T[8] != P[5]時,我們可以跳過比較T[6…7]P[0…1](因為它們已經(jīng)間接地比較過了),直接比較字符T[8]P[2],這樣可以省去很多不必要的回溯和比較,時間復(fù)雜度達到OlenT+lenP)。這就是KMP算法的核心思想。

             

            二.高效的KMP算法

            現(xiàn)在繼續(xù)剖析KMP算法。

            我在上文提到當(dāng)T[i] != P[j]時,我們無需將i回溯,只需將j回溯至failure[j]處即可。我們稱failure[j]為模式串P下標j的失效函數(shù)。

            失效函數(shù)的值failure[j]是指當(dāng)T[i] != P[j]時,接下來與T[i]進行比較的模式串P的元素下標。如上面的例子,當(dāng)T[8] != P[5]時,因為T[6…7] == P[3…4] == P[0…1],我們可以跳過比較T[6…7]P[0…1],直接比較字符T[8]P[2],所以failure[5] = 2

            如果你對失效函數(shù)還不太理解,我再舉一些例子。

            仍然以上面提供的目標串T和模式串S為例,當(dāng)出現(xiàn)T[1…3] == P[0…2],但T[4] != P[3]時,若采用BF算法,則需要將ij回溯,使得i = 2 j = 0

            而采用KMP算法,則無需將i回溯,j也不需要回溯至j = 0,而只需回溯至j = failure[j]。那如何得知failure[j]的值呢?觀察模式串P,我們發(fā)現(xiàn)P[2] == P[0],因為T[3] == P[2],所以T[3] == P[0],相當(dāng)于我們已經(jīng)間接地比較過T[3] P[0]了,無需重復(fù)比較,接下來可以直接比較T[4]P[1],所以failure[3] = 1

            再看一個簡單的例子(例2):

            string T = "aabcabaababc";

            string P = "ababc";

            當(dāng)出現(xiàn)T[0] == P[0],但T[1] != P[1]時,要保證i不變,必須將j回溯至j = 0,然后比較T[1] P[0],所以failure[1] = 0

            同樣的,當(dāng)出現(xiàn)T[4…6] == P[0…2],但T[7] != P[3]時,要保證i不變,必須將j回溯至j = 0(為什么?好好想想!),然后比較T[7] P[0],所以failure[3] = 0

            那么,如果模式串P的第一個元素就不匹配,即T[i] != P[0]又該怎么辦呢?j已經(jīng)最小,沒辦法再往前回溯了,下一次比較必須使i自增1。這是一種特殊的情況,考慮到C語言中的數(shù)組下標從0開始,為了表示區(qū)別,我們設(shè)failure[0] = -1。很明顯當(dāng)failure[j] != -1時,在進行下一次比較之前,我們無需改變i的值;而當(dāng)failure[j] == -1時,在進行下一次比較之前,必須先使i自增1

            我們繼續(xù)分析例2,當(dāng)出現(xiàn)T[1…2] == P[0…1],但T[3] != P[2]時,要保證i不變,必須將j回溯至j = 0,然后比較T[3] P[0]——看上去好像一切都順理成章,但是請等等! 經(jīng)比較T[3] != P[2]經(jīng)觀察P[2] == P[0],我們還有必要再去比較T[3] P[0]嗎?當(dāng)然不需要,我們應(yīng)該直接比較T[4] P[0]才對!所以failure[2] = -1

            舉了一大堆例子,苦于沒有圖象對照,想必各位看官已經(jīng)看得頭都大了!到底如何求模式串P的失效函數(shù)failure[j],可能很多人還是一頭霧水(PS:我計劃做一個教學(xué)視頻,到時候圖文聲并茂,一定會幫助你理解的,記得隨時關(guān)注博客,等待觀看哦)。據(jù)考證,失效函數(shù)failure[j]是模式串P本身的屬性,與目標串T無關(guān),而且從不同的角度分析模式串P可以得到失效函數(shù)的不同表示方法。網(wǎng)絡(luò)上此類文章可謂汗牛充棟,我的關(guān)于失效函數(shù)failure[j]的理解,與網(wǎng)友A_B_C_ABC 在其博文KMP字符串模式匹配詳解》(http://blog.csdn.net/A_B_C_ABC/archive/2005/11/25/536925.aspx)中所論述的“第一種表示方法”極為相似,如果你不想讀我的文字,可以先去看A_B_C_ABC貼的圖片,回過頭再看我的文章,也許會明白我的意思——不會作圖的下場啊!555

            現(xiàn)在去A_B_C_ABC的博客看圖!

            。。。。。。

            現(xiàn)在明白失效函數(shù)failure[j]的意義了吧?也應(yīng)該知道如何求解failure[j]了吧?

            總結(jié)一下吧:

            先看失效函數(shù)的意義。

            設(shè)在目標串T中查找模式串P,若T[i] != P[j],則將j回溯至失效函數(shù)值failure[j]處,那failure[j]可以取到哪些值呢?

            failure[0]= -1,表示T[i]P[0]間接比較過了,且T[i] != P[0],接下來比較T[i+1]P[0]

            failure[j] = 0,表示比較過程中產(chǎn)生了不相等,接下來比較T[i]P[0]

            failure[j] = k,其中0 < k < j,表示T[i]之前的k個字符與P中的前k個字符已經(jīng)間接比較過了,且P[0…k-1] == P[j-k…j-1] == T[i-k…i-1],接下來比較T[i]P[k]

            除了上述三種情況,failure[j]不可能取到其他值。

                   那么如何求解失效函數(shù)failure[j]的值呢?

                   從上述討論可見,失效函數(shù)failure[j]的值僅取決于模式串P本身,與目標串T無關(guān)。

            failure[0]= -1:考慮到C語言中的數(shù)組下標從0開始,模式串P的首字符的失效函數(shù)值規(guī)定為-1

            failure[j] = -1:若P[j] == P[0],且P[0…k-1] != P[j-k…j-1],或P[0…k] == P[j-k…j],其中0 < k < j

            如:P = "abcaabcab"

            因為P[3] == P[0],且P[0] != P[2]P[0…1] != P[2…3],則failure[3] = -1

            又因為P[7] == P[0],且P[0…3] == P[4…7],則failure[7] = -1

            failure[j] = k:若P[0…k-1] == P[j-k…j-1],且P[k] != P[j],其中0 < k < j

            如:P = "abcaabcab"

            因為P[0] == P[3],且P[1] != P[4],則failure[4] = 1

            又因為P[0…3] == P[4…7],且P[4] != P[8],則failure[8] = 4

            failure[j] = 0:除(1)(2)(3)的其他情況。

            如:P = "abcaabcab"中,failure[1] = failure[2] = failure[5] = failure[6] = 0

             

            算法思路:

            KMPIndex函數(shù):

            KMP算法在形式上和BF算法即為相似。不同之處僅在于:當(dāng)匹配過程中產(chǎn)生“失配”時,目標串T指示標志i不變,模式串P指示標志j回溯至failure[j]所指示的位置,并且當(dāng)j回溯至最左端(即failure[j] == -1)時,使j = 0i自增1,。

            GetFailure函數(shù):

            根據(jù)failure[j]的定義,我們先規(guī)定failure[0] = -1;然后遍歷模式串P,依次計算各個元素的失配函數(shù)值。

            設(shè)已有k == 0;或0 < k < j,且P[0…k-1] == P[j-k…j-1];我們比較P[k] P[j]

            P[k] == P[j],則由failure[j]的定義可知failure[j] = failure[k],之后kj均自增1,繼續(xù)比較后繼字符;

            P[k] != P[j],則failure[j] = k。很明顯之后不能直接比較后繼字符;而需要將k回溯,直至找到使得P[0k] == P[j-kj]的最大k值,才可以讓kj均自增1,繼續(xù)比較后繼字符。

            那么如何將k快速回溯到適當(dāng)?shù)奈恢媚兀?/span>

            我們設(shè)h = failure[k],很明顯有:P[0…h-1] == P[k-h…k-1] == P[j-h…j-1]

            P[h] == P[j],那h就是滿足條件的最大k值。

            P[h] != P[j],則再在串P[0…h]中尋找更小的failure[h]。如此遞推,有可能還需要以同樣的方式再縮小尋找范圍,直到failure[h] == -1才算失敗。

            failure[h] == -1,則相當(dāng)于k已經(jīng)回溯到了模式串P的最左端,可以讓kj均自增1,繼續(xù)比較后繼字符。

            實現(xiàn)代碼如下:

            /*

            函數(shù)名稱:KMPIndex

            函數(shù)功能:KnuthMorrisPratt算法,若目標串T中從下標pos起存在和模式串P相同的子串,則稱匹配成功,返回第一個匹配子串首字符的下標;否則返回-1

            輸入?yún)?shù):const string & T :目標串T

                      const string & P :模式串P

                      int pos          :模式匹配起始位置

            輸出參數(shù):無

            返回值:int :匹配成功,返回第一個匹配子串首字符的下標;否則返回-1

            */

            int KMPIndex(const string & T, const string & P, int pos)

            {

                   int *failure = new int[P.size()];

                  

                   Getfailure(P, failure); //計算模式串P的失配函數(shù)failure[]

                  

                   int i = pos;

                   int j = 0;

             

                   while (i < T.size() && j < P.size())

            {

                    if (T[i] == P[j]) //如果當(dāng)前字符匹配,繼續(xù)比較后繼字符

                    {

                    ++i;

                        ++j;

                }  

                    else  //否則保持i不變,將j回溯至failure[j],開始新的一輪比較

                    {

                          j = failure[j];

                          if (j == -1) //j回溯至最左端,則使j = 0i自增1

                           {

                        j = 0;

                        ++i;

                    }

                    }

                }

               

                delete []failure;

               

                if (j == P.size()) //匹配成功,返回第一個匹配子串首字符的下標

                return i - j;

            else

                return -1;

            }

             

            /*

            函數(shù)名稱:Getfailure

            函數(shù)功能:計算模式串P的失配函數(shù),并存入數(shù)組failure[]

            輸入?yún)?shù):const string & P  :模式串P

                      int failure[]:模式串P的失配函數(shù)

            輸出參數(shù):int failure[]:模式串P的失配函數(shù)

            返回值:無

            */

            void Getfailure(const string & P, int failure[])

            {

                   failure[0] = -1; //模式串P的首字符的失配函數(shù)值規(guī)定為-1

                   for (int j=1, k=0; j<P.size(); j++, k++)//遍歷模式串P,計算失配函數(shù)值

                   {

                  //P[0k-1] == P[j-kj-1],且P[k] == P[j],則failure[j] = failure[k],并繼續(xù)比較后繼字符

                  if (P[k] == P[j])

                  {

                        failure[j] = failure[k];

                    }

                    else //否則保持j不變,將k回溯至failure[k]

                    {

                          failure[j] = k; //P[0k-1] == P[j-kj-1],且P[k] != P[j],則failure[j] = k

                          //尋找使得P[0k] == P[j-kj]的最大k值,才可以繼續(xù)比較后繼字符

                          while (k >= 0 && P[k] != P[j])//k回溯至P[k] == P[j]或最左端,以進行下一輪比較

                             k = failure[k];

                }

            }

            //以下代碼輸出failure[i]

            for (int i=0; i<P.size(); i++)

                cout << failure[i] << "   ";

                cout << endl;

            }

              

            我們剛才討論的失效函數(shù)中有一個很巧妙的地方,那就是除了failure[0] = -1以外,模式串P中還有多處failure[j]可以等于-1,這就避免了重復(fù)比較T[i]P[0],可以直接比較T[i+1]P[0]。但是最初接觸到這個算法的時候,我被這個“巧妙之處”足足折騰了半天——只因為效率上的一點點提高,卻帶來了理解上的巨大困難——真是得不償失啊!

            那么有沒有更好理解的失效函數(shù)呢?當(dāng)然有!

             

            三.更好理解的失效函數(shù)

            接下來我們看看另一些常見的失效函數(shù)表示方法。

            在嚴蔚敏和吳偉民編著的《數(shù)據(jù)結(jié)構(gòu)(C語言版)》(清華大學(xué)出版社)一書中,采用了一種比較簡單的失效函數(shù)表示方法。它的定義與前面講的失效函數(shù)差不多,只是把上述的四種情況簡化為三種情況,將合并為同一種類型,即若P[0…k-1] == P[j-k…j-1],其中0 < k < j,則failure[j] = k,而不論P[k] 是否等于 P[j]。這樣模式串P中就只有failure[0] = -1了,失效函數(shù)表示方法得到了簡化——當(dāng)然效率稍微有所降低。

            采用這種失效函數(shù)表示方法,在求解失效函數(shù)時,可以利用簡單的遞推,根據(jù)failure[j]來得到failure[j+1]

            原理如下:

            先給出兩個概念:若存在0 <= k < j,且使得P[0…k] == P[j-k…j]的最大整數(shù)k,我們稱P[0…k]為串P[0…j]的前綴子串,P[j-k…j]為串P[0…j]的后綴子串。

            failure[j]的定義出發(fā),計算failure[j]就是要在串P[0…j]中找出最長的相等的前綴子串P[0…k]和后綴子串P[j-k…j],這個查找的過程實際上仍是一個模式匹配的過程,只是目標和模式現(xiàn)在是同一個串P

            我們可以用遞推的方法求failure[j]的值。

            設(shè)已有failure[j] = k,則有0 < k < j,且P[0…k-1] == P[j-k…j-1]。接下來:

            P[k] == P[j],則由failure[j]的定義可知failure[j+1] = k + 1 = failure[j] + 1

            P[k] != P[j],則可以在前綴子串P[0…k]中尋找使得P[0…h-1] == P[k-h…k-1]h,這時存在兩種情況:

            找到h,則由failure[j]的定義可知failure[k] = h,故P[0…h-1] == P[k-h…k-1] == P[j-h…j-1],即在串P[0…j]中找到了長度為h的相等的前綴子串和后綴子串。

            這時若P[h] == P[j],則由failure[j]的定義可知failure[j+1] = h + 1 = failure[k] + 1 = failure[failure[j]] + 1

            P[h] != P[j],則再在串P[0…h]中尋找更小的failure[h]。如此遞推,有可能還需要以同樣的方式再縮小尋找范圍,直到failure[h] == -1才算失敗。

            找不到h,這時failure[k] == -1,即k已經(jīng)回溯到k = failure[k] = -1,所以failure[j+1] = k + 1 = 0

            依據(jù)以上分析,仿照KMP算法,可以得到計算failure[j]的算法,其對應(yīng)的KMPIndex函數(shù)不變。

            代碼如下:

            /*

            函數(shù)名稱:Getfailure

            函數(shù)功能:用遞推的方法計算模式串P的失配函數(shù),并存入數(shù)組failure[]

            輸入?yún)?shù):const string & P  :模式串P

                      int failure[]:模式串P的失配函數(shù)

            輸出參數(shù):int failure[]:模式串P的失配函數(shù)

            返回值:無

            */

            void Getfailure(const string & P, int failure[])

            {

                   failure[0] = -1; //模式串P的首字符的失配函數(shù)值規(guī)定為-1

                   for (int j=1; j<P.size(); j++)//遍歷模式串P,計算失配函數(shù)值

                   {

                  int k = failure[j-1]; //利用failure[j-1]遞推failure[j]k指向failure[j-1]

                 

                  while (k >= 0 && P[k] != P[j-1])//k回溯至P[k] == P[j-1]k == -1,以進行下一輪比較

                    k = failure[k]; 

                  //現(xiàn)在可以確保P[0k] == P[j-k-1j-1],則failure[j] = k + 1(若k == -1,則failure[j] = 0

                    failure[j] = k + 1;

            }

            //以下代碼輸出failure[i]

            for (int i=0; i<P.size(); i++)

                cout << failure[i] << "   ";

                cout << endl;

            }

             

            前面定義的失效函數(shù)在某些情況下尚有缺陷。例如當(dāng)模式串P = "aaaaaaaaaab"時,若T[i] != P[9],因為failure[9] = 8,所以下一步要將T[i] P[8]比較;依此類推還要比較P[7]P[6],。。。,P[0]。實際上,因為它們都相等,所以當(dāng)T[i] != P[9]時,可以直接比較T[i] P[0]。也就是說,若按上述定義得到failure[j] = k,且P[j] == P[k]時,則當(dāng)T[i] != P[j]時,不需要再比較T[i] P[k],可以直接比較T[i] P[failure[k]],即此時的failure[j]應(yīng)該等于failure[k]。由此我們可以在原來計算失效函數(shù)算法的基礎(chǔ)上加上一條語句,對失效函數(shù)值進行修正,以得到更高效的KMP算法。而且我們可以檢驗修正后的失效函數(shù)值與用第一種方法得到的失效函數(shù)值是一樣的。

            計算失效函數(shù)修正值的代碼如下:

            void Getfailure2(const string & P, int failure[])

            {

                   failure[0] = -1; //模式串P的首字符的失效函數(shù)值規(guī)定為-1

                   for (int j=1; j<P.size(); j++)//遍歷模式串P,計算失效函數(shù)值

                   {

                  int k = failure[j-1]; //利用failure[j-1]遞推failure[j]k指向failure[j-1]

                 

                  while (k >= 0 && P[k] != P[j-1])//k回溯至P[k] == P[j-1]k == -1,以進行下一輪比較

                    k = failure[k]; 

                  //現(xiàn)在可以確保P[0k] == P[j-k-1j-1],則failure[j] = k + 1(若k == -1,則failure[j] = 0

                    failure[j] = k + 1;

            }

            //對失效函數(shù)值進行修正,可以得到更高效的KMP算法

            for (int j=1; j<P.size(); j++)

            {

                if (P[j] == P[failure[j]])

                        failure[j] = failure[failure[j]];

            }

            //以下代碼輸出failure[i]

            for (int i=0; i<P.size(); i++)

                cout << failure[i] << "   ";

                cout << endl;

            }

             

            四.另類的KMP算法

            在殷人昆等人編著的《數(shù)據(jù)結(jié)構(gòu)(用面向?qū)ο蠓椒ㄅcC++描述)》(清華大學(xué)出版社)一書中,用到了另外一種表示失效函數(shù)的方法。該方法與前述兩種方法的區(qū)別在于,當(dāng)T[i] != P[j]時,模式串P的下標j不是回溯至failure[j],而是回溯至failure[j-1]+1,所以它的KMPIndex函數(shù)和GetFailure函數(shù)都與前面的有所不同。

            該書對失效函數(shù)failure[j]的定義如下:

            failure[j] = k,其中0 <= k < j,且使得P[0…k] == P[j-k…j]的最大整數(shù);

            failure[j] = -1,其他情況。

            如:P = "abcaabcab"

            j = 0時,沒有滿足0 <= k < jk存在,故failure[0] = -1

            j = 1時,可取k = 0,但P[0] != P[1]k不符合要求,故failure[1] = -1

            j = 2時,可取k = 01,但P[0] != P[2],且P[0…1] != P[1…2]k不符合要求,故failure[2] = -1

            j = 3時,可取k = 012P[0] == P[3]P[0…1] != P[2…3]P[0…2] != P[1…3],故failure[3] = k = 0

            j = 4時,可取k = 0123P[0] == P[4]P[0…1] != P[3…4]P[0…2] != P[2…4]P[0…3] != P[1…4],故failure[4] = k = 0

            j = 5時,可取k = 0。。4P[0] != P[5]P[0…1] == P[4…5]P[0…2] != P[3…5]P[0…3] != P[2…5]P[0…4] != P[1…5],故failure[5] = k = 1

            其他的以此類推可以得到failure[6] = 2failure[7] = 3failure[8] = 1

            設(shè)若在進行某一趟匹配比較時在模式串Pj位失配,即T[i] != P[j],如果j > 0,因為P[failure[j-1]] == P[j-1] == T[i-1],即已經(jīng)間接地知道了P[0…failure[j-1]]是匹配的,那么我們只需將串P的下標j回溯至failure[j-1]+1,串T的下標i不回溯,仍指向上一趟失配的字符;如果j == 0,則讓串T的下標i前進一位,串P的起始比較位置回溯到P[0],繼續(xù)做匹配比較。

            如何正確地計算出失效函數(shù)failure[j],是實現(xiàn)KMP算法的關(guān)鍵。

            failure[j]的定義出發(fā),計算failure[j]就是要在串P[0…j]中找出最長的相等的前綴子串P[0…k]和后綴子串P[j-k…j],這個查找的過程實際上仍是一個模式匹配的過程,只是目標和模式現(xiàn)在是同一個串P

            我們可以用遞推的方法求failure[j]的值(此方法與上文介紹的嚴蔚敏教授書中的方法極為相似,只有一處不同,請注意區(qū)別)。

            設(shè)已有failure[j] = k,則有0 <= k < j,且P[0…k] == P[j-k…j]

            P[k+1] == P[j+1],則由failure[j]的定義可知failure[j+1] = k + 1 = failure[j] + 1

            P[k+1] != P[j+1],則可以在前綴子串P[0…k]中尋找使得P[0…h] == P[k-h…k]h,這時存在兩種情況:

            找到h,則由failure[j]的定義可知failure[k] = h,故P[0…h] == P[k-h…k] == P[j-h…j],即在串P[0…j]中找到了長度為h + 1的相等的前綴子串和后綴子串。

            這時若P[h+1] == P[j+1],則由failure[j]的定義可知failure[j+1] = h + 1 = failure[k] + 1 = failure[failure[j]] + 1

            P[h+1] != P[j+1],則再在串P[0…h]中尋找更小的failure[h]。如此遞推,有可能還需要以同樣的方式再縮小尋找范圍,直到failure[h] == -1才算失敗。

            找不到h,這時failure[k] == -1

            依據(jù)以上分析,仿照KMP算法,可以得到計算failure[j]的算法。

            /*

            函數(shù)名稱:KMPIndex

            函數(shù)功能:KnuthMorrisPratt算法,若目標串T中從下標pos起存在和模式串P相同的子串,

            則稱匹配成功,返回第一個匹配子串首字符的下標;否則返回-1

            輸入?yún)?shù):const string & T :目標串T

                      const string & P :模式串P

                      int pos          :模式匹配起始位置

            輸出參數(shù):無

            返回值:int :匹配成功,返回第一個匹配子串首字符的下標;否則返回-1

            */

            int KMPIndex(const string & T, const string & P, int pos)

            {

                   int *failure = new int[P.size()];

                  

                   Getfailure(P, failure); //計算模式串P的失配函數(shù)failure[]

                  

                   int i = pos;

                   int j = 0;

             

                   while (i < T.size() && j < P.size())

            {

                    if (T[i] == P[j]) //如果當(dāng)前字符匹配,繼續(xù)比較后繼字符

                    {

                    ++i;

                        ++j;

                }  

                    else if (j == 0) //如果j == 0,則讓目標串T的下標i前進一位

                        ++i;

                    else //否則下一趟比較時模式串P的起始比較位置是P[failure[j-1]+1],目標串T的下標i不回溯

                          j = failure[j-1] + 1;

                }

               

                delete []failure;

               

                if (j == P.size()) //匹配成功,返回第一個匹配子串首字符的下標

                return i - j;

            else

                return -1;

            }

             

            /*

            函數(shù)名稱:Getfailure

            函數(shù)功能:用遞推的方法計算模式串P的失配函數(shù),并存入數(shù)組failure[]

            輸入?yún)?shù):const string & P  :模式串P

                      int failure[]:模式串P的失配函數(shù)

            輸出參數(shù):int failure[]:模式串P的失配函數(shù)

            返回值:無

            */

            void Getfailure(const string & P, int failure[])

            {

                   failure[0] = -1; //模式串P的首字符的失配函數(shù)值規(guī)定為-1

                   for (int j=1; j<P.size(); j++)//遍歷模式串P,計算失配函數(shù)值

                   {

                  int k = failure[j-1]; //利用failure[j-1]遞推failure[j]k指向failure[j-1]

                 

                  while (k >= 0 && P[k+1] != P[j])//k回溯至P[k+1] == P[j]k == -1,以進行下一輪比較

                    k = failure[k];

                   

                  if (P[k+1] == P[j]) //P[0k] == P[j-kj-1],且P[k+1] == P[j],則failure[j] = k + 1

                          failure[j] = k + 1;

                    else    //沒有找到滿足條件的k

                        failure[j] = -1;

            }

            //以下代碼輸出failure[i]

            for (int i=0; i<P.size(); i++)

                cout << failure[i] << "   ";

                cout << endl;

            }

             

            這樣我們就學(xué)習(xí)了三種失效函數(shù)的表示方法,雖然它們對應(yīng)的KMP算法代碼略有不同,但其本質(zhì)是一樣的,就是避免回溯目標串T的下標i,并使得模式串P的下標j回溯到正確位置。同樣的,不管你用什么代碼來實現(xiàn)求解失效函數(shù)的算法,其本質(zhì)都是模式串內(nèi)部的模式匹配,采用遞推的方式,尋找最大的相同子串。

             

            參考文獻:

            1.《數(shù)據(jù)結(jié)構(gòu)(C語言版)》(清華大學(xué)出版社)嚴蔚敏,吳偉民編著

            2.《數(shù)據(jù)結(jié)構(gòu)(用面向?qū)ο蠓椒ㄅcC++描述)》(清華大學(xué)出版社)殷人昆等人編著

            3.KMP字符串模式匹配詳解》來自網(wǎng)友A_B_C_ABC的博客

            http://blog.csdn.net/A_B_C_ABC/archive/2005/11/25/536925.aspx

            4.KMP算法中Next[]數(shù)組求法》作者:劍心通明

            http://www.bsdlover.cn/html/21/n-3021.html

             

             

             

             

             

             

             

             

             

             

             

             

            Posted on 2009-05-10 21:59 夢想飛揚 閱讀(2922) 評論(2)  編輯 收藏 引用

            Feedback

            # re: 我所理解的KMP算法  回復(fù)  更多評論   

            2009-05-13 12:10 by zyd
            這個東西搞懂過,有耐心搞懂的就可以寫代碼了

            # re: 我所理解的KMP算法  回復(fù)  更多評論   

            2010-01-30 07:40 by 劉原英(liuyuanying0@gmail.com)
            讀了您的一些文章,您技術(shù)非常高,數(shù)學(xué)功底深厚。并且無私地奉獻自己的知識,當(dāng)然也是展示您的才華的一種方式。我以后會經(jīng)常拜讀您的文章的。
            這篇文章中,18次用到“失配函數(shù)”這個詞,我一直想弄明白這個函數(shù)的概念,因為一般的數(shù)學(xué)書中沒有這個概念,看到您這篇文章,我想找到了指導(dǎo)老師。請幫忙講一下,什么是失配函數(shù)?或者寫一篇這樣的博客讓我們這些不了解的人拜讀。當(dāng)然要先謝謝了。

            只有注冊用戶登錄后才能發(fā)表評論。
            網(wǎng)站導(dǎo)航: 博客園   IT新聞   BlogJava   博問   Chat2DB   管理


            亚洲国产精品嫩草影院久久 | 久久精品成人免费观看97| 亚洲AV日韩AV永久无码久久| 久久亚洲电影| 久久精品夜色噜噜亚洲A∨| 热re99久久精品国产99热| 久久精品国产99国产精偷| 久久久久亚洲av无码专区喷水 | 久久久久亚洲AV成人网人人网站| 久久综合视频网站| 婷婷久久综合九色综合九七| 欧美精品丝袜久久久中文字幕| 国内精品久久久久久不卡影院| 亚洲精品高清国产一久久| 色综合合久久天天综合绕视看| 97久久久精品综合88久久| 精品一区二区久久| 国产午夜福利精品久久| 久久强奷乱码老熟女| 欧美色综合久久久久久| 国内精品伊人久久久影院| 久久精品aⅴ无码中文字字幕不卡| 久久成人国产精品免费软件| 国产精品禁18久久久夂久| 91久久成人免费| 亚洲精品无码久久不卡| 少妇久久久久久久久久| 久久久中文字幕| 亚洲日本久久久午夜精品| 久久久亚洲欧洲日产国码二区| 久久精品9988| 无码任你躁久久久久久老妇| 久久国产劲爆AV内射—百度| 久久777国产线看观看精品| 久久久久国色AV免费看图片| 亚洲成色www久久网站夜月| 久久免费视频网站| 久久久久久精品久久久久| 日本免费一区二区久久人人澡| 亚洲欧洲精品成人久久奇米网| 久久国产精品成人片免费|