• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>

            C++ Programmer

            天行健,君子以自強(qiáng)不息; 地勢坤,君子以厚德載物

            KMP算法

               KMP 匹配算法是由 "Knuth  Morris  Pratt"  提出的一種快速的模式匹配算法。  
               hint:不為自身的最大首尾重復(fù)子串長度

               1.待解決的問題:假設(shè)P為給定的子串,T是待查找的字符串,要求從T中找出與P相同的所有子串,這稱為模式匹配問題。 (可以給出子串在T中的位置) (下文中提到的P和T分別為子串和目標(biāo)串)

               讓我們先來看個(gè)例題:

               T:   t0      t1     t2      t3 .... tm-1 ... tn-1

               P:   p0      p1     p2      p3 .....pm-1         

                                                           

               從T的最左邊開始比較,使得 TK = PK,則匹配成功。

               2.解決模式匹配問題的方案:

               A:樸素的模式匹配算法(思路簡單,但不夠簡便,時(shí)間長,有回溯):最簡單和最直接的做法,用P中的字符依次與T中的字符進(jìn)行比較,遇到不相等的字符,則可將P右移一個(gè)字符,重新進(jìn)行比較,直到某次匹配成功或者到達(dá)P的最右字符移出T為止。

               如:若P="aaaba", T="aaabbaaaba", 則匹配過程如下圖

                T:     a   a   a   b   b   a   a   a   b  a

                P:     a   a   a   b   a                                                                

                           a   a   a   b   a                

                                               .....

                                           a   a   a   b  a           

               從上不難分析,最壞的情況是“每次比較都在最后一個(gè)字符出現(xiàn)不等,每趟最多比較M次,最多比較N-M+1趟,總的比較次數(shù)最多為M*(N-M+1)” ,時(shí)間復(fù)雜性為0(M*N)。 在P右移一位時(shí),不管上一趟比較的中間結(jié)果是什么,因此回溯是不可避免的(如:前3個(gè)aaa 不需要一位一位的移 ) 。下面我來介紹無回溯的KMP算法。

               3.KMP算法解決匹配中哪些主要問題:

               A.當(dāng)字符串比較出現(xiàn)不等時(shí),確定下一趟比較前,應(yīng)該將P右移多少個(gè)字符; 

               B. P右移后,應(yīng)該從哪個(gè)字符開始和T中剛才比較時(shí)不等的那個(gè)字符繼續(xù)開始比較。

                我們通過樸素模式匹配的例子來引出問題。在第一次比較過程中失敗的是P的第4個(gè)字符b,這表明P的前4個(gè)字符是成功的。模式P的第3個(gè)字符b在它的前3個(gè)字符(aaa)中并未出現(xiàn)。因此,在下一次比較時(shí)候,至少要將P向后移4個(gè)字符;再看P的第一個(gè)字符與最后一個(gè)字符是相同的,因此將P右移4個(gè)字符后,再從第一個(gè)字符比較,肯定也是不等的。綜上所訴:應(yīng)該將P右移5個(gè)字符,再從P的第0個(gè)字符和T的第5個(gè)字符開始比較!

               KMP算法核心:KMP算法借助于一個(gè)輔助數(shù)組next來確定當(dāng)匹配過程中出現(xiàn)不等時(shí),模式P右移的位置和開始比較的位置。next[i]的取值只與模式P本身的前i+1項(xiàng)有關(guān),而與目標(biāo)T無關(guān)。匹配過程中遇到Pi不等于Tj時(shí),若next[i]>=0,則應(yīng)將P右移i-next[i]位個(gè)字符,用P中的第next[i]個(gè)字符與Tj 進(jìn)行比較;若:next[i]= -1,P中的任何字符都不必再與Tj比較,而應(yīng)將P右移i+1個(gè)字符,從P0和Tj+1從新開始下一輪比較(可能不太好理解,自己找個(gè)例子,對(duì)著話一句一句試試看)

             

               因此只要計(jì)算出與模式P相關(guān)的next數(shù)組,按上面的含義,就可以很容易地給出串的匹配算法。(問題就這樣轉(zhuǎn)化了)

                C.next的計(jì)算:以P = " 01001010100001"為例。

                 i   :            0   1   2   3   4   5   6    ..... 

                 P   :            0   1   0   0   1   0   1    .....

                j(next[i]) :     -1   0   0   1   1   2   3    .....

               如1:我們要算next[2]的值,有關(guān)的為P本身的前2個(gè)字符0,1。在字符串01中,尋找出“左右相同的最大字符串,此字符串所含字符的個(gè)數(shù)就為next[i]的值”而0不等于1,相同字符串不存在,所以next[i] = 0;

               如2:我們要算next[6]的值,有關(guān)的為P本身前6個(gè)字符010010 。此字符串中010 = 010左右相同的最大字符串為010,個(gè)數(shù)為3。所以next[i]=3;

               如3:我們要算next[5]的值,有關(guān)的為P本身前5個(gè)字符01001。此字符串中 01=01 左右相同的最大字符串為01,個(gè)數(shù)為2。所以next[i]=2;

            #include<stdio.h>
            #include
            <string.h>
            #include
            <stdlib.h>
            FILE 
            *fin=fopen("test.in","r");
            FILE 
            *fout=fopen("test.out","w");
            char s1[200],s2[200];
            int next[200];

            int max(int a,int b)
            {
                
            if(a>b) return a;
                
            return b;
            }


            void getnext()
            {
                memset(next,
            0,sizeof(next));
                
            int i=-1,j=0;
                next[
            0]=-1;
                
            while(j<strlen(s2))
                
            {
                       
            if(i==-1||s2[i]==s2[j]){
                           i
            ++;  j++;  
                           next[j]
            =i;
                       }

                       
            else i=next[i];
                }

            }


            int KMP()
            {
                
            int i=0,j=0,len1=strlen(s1),len2=strlen(s2);
                
            while((i<len1)&&(j<len2))
                
            {
                    
            if(j==-1||s1[i]==s2[j]) {j++;i++;}
                    
            else j=next[j];
                }

                
            if(j==len2) return i-len2;
                
            else return -1;
            }


            int index_KMP()
            {
                
            int i=0,j=0,len1=strlen(s1),len2=strlen(s2),re=0;
                
            while(i<len1&&j<len2)
                
            {
                                     
            if(j==-1||s1[i]==s2[j]) {i++;j++;}
                                     
            else j=next[j];
                                     re
            =max(re,j);
                }

                
            return re;
            }


            int main()
            {
                fscanf(fin,
            "%s",s1);
                
            for(int i=1;i<=3;i++)
                
            {
                        fscanf(fin,
            "%s",s2);
                        getnext();
                        fprintf(fout,
            "%d %d\n",KMP(),index_KMP());
                }

                
            return 0;
            }

            posted on 2009-07-16 15:47 Saga 閱讀(27747) 評(píng)論(18)  編輯 收藏 引用 所屬分類: Algorithm

            評(píng)論

            # re: KMP算法 2009-07-16 18:18 樂蜂網(wǎng)

            學(xué)東西了  回復(fù)  更多評(píng)論   

            # re: KMP算法 2009-07-17 00:05 Chen Jiecao

            KMP,高二的時(shí)候?qū)W的,看的是Matrix67的文章.膜拜Knuth!  回復(fù)  更多評(píng)論   

            # re: KMP算法 2011-04-21 10:55 lstar

            樓主這里有問題吧,
            while(j<strlen(s2))
            {
            //臨界條件 j=strlen(s2) -1;
            if(i==-1||s2[i]==s2[j]){
            i++; j++;
            // j++后 j=strlen(s2);
            //next[j] 數(shù)組越界了?
            next[j]=i;
            }
            else i=next[i];
            }
              回復(fù)  更多評(píng)論   

            # re: KMP算法 2011-11-29 16:34 forget_x13

            謝謝樓主分享,這里的kmp比其他的寫得好的很多~~真心感謝!!!!@lstar
              回復(fù)  更多評(píng)論   

            # re: KMP算法 2011-11-29 16:35 forget_x13

            謝謝樓主分享,kmp比其他的寫的好的太多,真心感謝~  回復(fù)  更多評(píng)論   

            # re: KMP算法 2012-03-07 10:58 itmelody

            送人玫瑰手有遺香,謝謝分享。  回復(fù)  更多評(píng)論   

            # re: KMP算法 2012-03-26 11:18 lazier

            感謝樓主的細(xì)心的講解,講的太細(xì)致了,謝謝~  回復(fù)  更多評(píng)論   

            # re: KMP算法 2012-04-04 15:52 Sadoshi

            @lstar
            不會(huì)越界,因?yàn)榈谝粋€(gè)判斷i==-1成立,就不會(huì)再判斷后面的了  回復(fù)  更多評(píng)論   

            # re: KMP算法[未登錄] 2012-04-09 15:00 will

            貌似確實(shí)越界了,運(yùn)行了一下 用了len = 6 (abaaba)的字符串 ,但是求next時(shí)循環(huán)中的j可以達(dá)到6,這應(yīng)該算是越界了吧@Sadoshi
              回復(fù)  更多評(píng)論   

            # re: KMP算法 2012-05-06 01:44 該是天才

            當(dāng)模式匹配不成功時(shí),上面程序會(huì)出錯(cuò)。原因如下:strlen返回值是unsigned型,而j是signed型,所以cout<<(-1<strlen(s));結(jié)果會(huì)是0,而不是1。 上面程序里的strlen(s)都應(yīng)該改成(signed int)strlen(s)  回復(fù)  更多評(píng)論   

            # re: KMP算法 2012-05-06 01:56 該是天才

            unsigned int a=3;
            cout<<(-1<a);
            int 隱式轉(zhuǎn)換為 unsigned int 所以-1就變成0xFFFFFFFF=4294967295  回復(fù)  更多評(píng)論   

            # re: KMP算法 2012-05-25 01:22 annoymous

            確實(shí)會(huì)越界,但是不是樓上說的那種原因造成的。仔細(xì)看求解next數(shù)組的函數(shù),while循環(huán)里的條件比較的是j,j的初始值是0.而j在循環(huán)體中要么不變,要么遞增,所以不可能變?yōu)?1。

            至于越界的原因,考慮那位兄弟說的例子,我們?cè)谟?jì)算了next[5]=2之后,循環(huán)仍會(huì)執(zhí)行,此時(shí)j=5<strlen("abaaba")=6,循環(huán)體再執(zhí)行一次,得出next[6]=3。然后此時(shí)循環(huán)條件不再滿足,結(jié)束循環(huán)。

            這里多計(jì)算了一次,將while循環(huán)的條件改為j<strlen(s2)-1即可避免此種情況。  回復(fù)  更多評(píng)論   

            # re: KMP算法 2012-05-27 02:08 annoymous

            test  回復(fù)  更多評(píng)論   

            # re: KMP算法 2012-05-31 17:25 f

            贊樓主!!!  回復(fù)  更多評(píng)論   

            # re: KMP算法 2012-08-23 17:04 huozhixinxin

            雖然找前綴數(shù)組直觀上交代的挺明白的,不過求前綴數(shù)組最關(guān)鍵的還是在它的迭代思想吧。樓主用了,但是文字上沒怎么交代啊。。。  回復(fù)  更多評(píng)論   

            # re: KMP算法 2013-01-10 15:46 xiaoq

            我們通過樸素模式匹配的例子來引出問題。在第一次比較過程中失敗的是P的第4個(gè)字符b,這表明P的前4個(gè)字符是成功的。模式P的第3個(gè)字符b在它的前3個(gè)字符(aaa)中并未出現(xiàn)。

            這里有誤吧。一會(huì)第4個(gè),一會(huì)第3個(gè)  回復(fù)  更多評(píng)論   

            # re: KMP算法 2013-01-10 15:49 xiaoq

            @xiaoq

            不好意思。是看錯(cuò)了。
            但是第一次比較失敗的是P的第4個(gè)字符a而不是b(b是主串的第4個(gè)字符)  回復(fù)  更多評(píng)論   


            只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。
            網(wǎng)站導(dǎo)航: 博客園   IT新聞   BlogJava   博問   Chat2DB   管理


            導(dǎo)航

            <2025年5月>
            27282930123
            45678910
            11121314151617
            18192021222324
            25262728293031
            1234567

            統(tǒng)計(jì)

            常用鏈接

            留言簿(1)

            隨筆分類

            隨筆檔案

            搜索

            積分與排名

            最新評(píng)論

            閱讀排行榜

            評(píng)論排行榜

            久久久噜噜噜久久| 理论片午午伦夜理片久久 | 品成人欧美大片久久国产欧美...| 最新久久免费视频| 久久无码人妻精品一区二区三区| 精品国产一区二区三区久久| 久久久黄色大片| 久久久久av无码免费网| 亚洲国产精品嫩草影院久久| 人人狠狠综合久久亚洲高清| 品成人欧美大片久久国产欧美...| 一本久久a久久精品综合夜夜| 国产一级做a爰片久久毛片| 国产99精品久久| 久久亚洲精品中文字幕三区| 777米奇久久最新地址| 精品综合久久久久久97超人| 久久精品国产99国产精品澳门| 久久国产精品99精品国产987| 久久精品国产91久久麻豆自制| 欧美激情精品久久久久| 久久99精品久久久久久秒播| 久久国产影院| 久久成人小视频| 亚洲狠狠婷婷综合久久蜜芽| 久久亚洲欧美国产精品 | 精品综合久久久久久97超人| 97精品国产97久久久久久免费| 久久99精品久久久久久秒播| 午夜精品久久久久久影视riav| 久久www免费人成看片| 狠狠88综合久久久久综合网 | 久久精品国产亚洲av瑜伽| 久久高潮一级毛片免费| 久久丫忘忧草产品| 久久免费小视频| 色偷偷91久久综合噜噜噜噜| 午夜精品久久久久久99热| 精品少妇人妻av无码久久| 久久精品国产清自在天天线| 国产成人无码精品久久久性色|