• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>

            twzheng's cppblog

            『站在風口浪尖緊握住鼠標旋轉!』 http://www.cnblogs.com/twzheng

              C++博客 :: 首頁 :: 新隨筆 :: 聯系 :: 聚合  :: 管理 ::
              136 隨筆 :: 78 文章 :: 353 評論 :: 0 Trackbacks

            這種由D.E.Knuth,J.H.Morris和V.R.Pratt同時發現的改進的模式匹配算法簡稱為KMP算法。注意這是一個改進的算法,所以有必要把原來的模式匹配算法拿出來,其實理解的關鍵就在這里,一般的匹配算法:

            int Index(String S,String T,int pos)//參考《數據結構》中的程序
            {
               i=pos;j=1;//這里的串的第1個元素下標是1
               while(i<=S.Length && j<=T.Length)
               {
                 if(S[i]==T[j]){++i;++j;}
                 else{i=i-j+2;j=1;}//**************(1)
               }
               if(j>T.Length) return i-T.Length;//匹配成功
               else return 0;
            }

            匹配的過程非常清晰,關鍵是當‘失配’的時候程序是如何處理的?回溯,沒錯,注意到(1)句,為什么要回溯,看下面的例子:

            S:aaaaabababcaaa   T:ababc

            aaaaabababcaaa
                 ababc.(.表示前一個已經失配)
            回溯的結果就是
            aaaaabababcaaa
                  a.(babc)
            如果不回溯就是
            aaaaabababcaaa
                     aba.bc
            這樣就漏了一個可能匹配成功的情況
            aaaaabababcaaa
                   ababc

            為什么會發生這樣的情況?這是由T串本身的性質決定的,是因為T串本身有前后'部分匹配'的性質。如果T為abcdef這樣的,大沒有回溯的必要。

            改進的地方也就是這里,我們從T串本身出發,事先就找準了T自身前后部分匹配的位置,那就可以改進算法。

            如果不用回溯,那T串下一個位置從哪里開始呢?

            還是上面那個例子,T為ababc,如果c失配,那就可以往前移到aba最后一個a的位置,像這樣:
            ...ababd...
                ababc
                ->ababc

            這樣i不用回溯,j跳到前2個位置,繼續匹配的過程,這就是KMP算法所在。這個當T[j]失配后,j應該往前跳的值就是j的next值,它是由T串本身固有決定的,與S串無關。

            《數據結構》上給了next值的定義:
                       0    如果j=1
            next[j]={Max{k|1<k<j且'p1...pk-1'='pj-k+1...pj-1'
                       1    其它情況

            我當初看到這個頭就暈了,其實它就是描述的我前面表述的情況,關于next[1]=0是規定的,這樣規定可以使程序簡單一些,如果非要定為其它的值只要不和后面的值沖突也是可以的;而那個Max是什么意思,舉個例子:

            T:aaab

            ...aaaab...
                aaab
               ->aaab
                ->aaab
                 ->aaab

            像這樣的T,前面自身部分匹配的部分不止兩個,那應該往前跳到第幾個呢?最近的一個,也就是說盡可能的向右滑移最短的長度。

            OK,了解到這里,就看清了KMP的大部分內容,然后關鍵的問題是如何求next值?先不管它,先看如何用它來進行匹配操作,也就是說先假設已經有了next值。

            將最前面的程序改寫成:

            int Index_KMP(String S,String T,int pos)
            {
               i=pos;j=1;//這里的串的第1個元素下標是1
               while(i<=S.Length && j<=T.Length)
               {
                 if(j==0 || S[i]==T[j]){++i;++j;} //注意到這里的j==0,和++j的作用就知道為什么規定next[1]=0的好處了
                 else j=next[j];//i不變(不回溯),j跳動
               }
               if(j>T.Length) return i-T.Length;//匹配成功
               else return 0;
            }

            OK,是不是非常簡單?還有更簡單的,求next值,這也是整個算法成功的關鍵,從next值的定義來求太恐怖了,怎么求?前面說過了,next值表達的就是T串的自身部分匹配的性質,那么,我只要將T串和T串自身來一次匹配就可以求出來了,這里的匹配過程不是從頭一個一個匹配,而是從T[1]和T[2]開始匹配,給出算法如下:

            void get_next(String T,int &next[])
            {
               i=1;j=0;next[1]=0;
               while(i<=T.Length)
               {
                 if(j==0 || T[i]==T[j]){++i;++j; next[i]=j;/**********(2)*/}
                 else j=next[j];
               }
            }

            看這個函數是不是非常像KMP匹配的函數,沒錯,它就是這么干的!注意到(2)語句邏輯覆蓋的時候是T[i]==T[j]以及i前面的、j前面的都匹配的情況下,于是先自增,然后記下來next[i]=j,這樣每當i有自增就會求得一個next[i],而j一定會小于等于i,于是對于已經求出來的next,可以繼續求后面的next,而next[1]=0是已知,所以整個就這樣遞推的求出來了,方法非常巧妙。

            這樣的改進已經是很不錯了,但算法還可以改進,注意到下面的匹配情況:

            ...aaac...
                aaaa.
            T串中的'a'和S串中的'c'失配,而'a'的next值指的還是'a',那同樣的比較還是會失配,而這樣的比較是多余的,如果我事先知道,當T[i]==T[j],那next[i]就設為next[j],在求next值的時候就已經比較了,這樣就可以去掉這樣的多余的比較。于是稍加改進得到:

            void get_nextval(String T,int &next[])
            {
               i=1;j=0;next[1]=0;
               while(i<=T.Length)
               {
                 if(j==0 || T[i]==T[j])
                 { ++i;++j;
                   if(T[i]!=T[j]) next[i]=j;
                   else next[i]=next[j];//消去多余的可能的比較,next再向前跳
                 }
                 else j=next[j];
               }
            }

            匹配算法不變。

            posted on 2007-04-05 16:04 譚文政 閱讀(661) 評論(0)  編輯 收藏 引用 所屬分類: 基礎知識
            亚洲国产另类久久久精品黑人| 国产精品久久久久无码av| 精品国产乱码久久久久久郑州公司 | 色综合久久精品中文字幕首页| 久久亚洲熟女cc98cm| 狠狠色丁香久久婷婷综合蜜芽五月| 久久婷婷五月综合97色直播| 久久e热在这里只有国产中文精品99| 精品久久久久久亚洲| 久久无码av三级| 99久久亚洲综合精品成人| 国产AⅤ精品一区二区三区久久| 国产成人综合久久精品尤物| 久久精品国产亚洲AV不卡| 久久综合一区二区无码| 久久婷婷国产剧情内射白浆 | 久久久91精品国产一区二区三区| 久久精品国产亚洲77777| 久久精品国产亚洲欧美| 国产毛片久久久久久国产毛片 | 精品人妻伦一二三区久久 | 一本一本久久a久久精品综合麻豆| 亚洲精品午夜国产va久久| 精品久久久久久国产潘金莲| 久久亚洲国产欧洲精品一| 久久久WWW成人| 色综合久久久久无码专区| 久久99国产精品久久| 久久免费视频一区| 久久久久亚洲av无码专区导航| 国产亚洲美女精品久久久久狼| 久久综合伊人77777| 久久香综合精品久久伊人| 国产精品久久久99| 无码专区久久综合久中文字幕 | 国产色综合久久无码有码| 久久精品国产91久久麻豆自制| 伊人久久大香线蕉AV一区二区| 粉嫩小泬无遮挡久久久久久| 午夜精品久久久久久久无码| 国产精品视频久久|