• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>

            C小加

            厚德 博學 求真 至善 The bright moon and breeze
            posts - 145, comments - 195, trackbacks - 0, articles - 0
              C++博客 :: 首頁 :: 新隨筆 :: 聯系 :: 聚合  :: 管理

            KMP算法中關于next數組的探究

            Posted on 2011-09-20 18:11 C小加 閱讀(5053) 評論(8)  編輯 收藏 引用 所屬分類: 數據結構和算法

            從《嚴書》上看到了KMP算法,看了一遍沒懂,但覺得挺神奇的,就花費了幾天時間深入的理解。

            算法的原理其實不難,難的就是那個巧妙的next數組,這個next數組很吸引我,我的大部分時間也都是花費在這個數組上面的。這個next數組是KMP里面一個很關鍵的地方,對于在數據結構書上看過一遍整個算法流程的人,能夠把next數組搞明白,整個KMP算法的整體思想就差不多理解了。然后在一些細節上面深入思考一下,就可以理解和領會改進的KMP算法。

             

            一、KMP算法簡單介紹

            KMP算法是字符串匹配算法的一種,相對于樸素的字符串匹配算法而言,可以大大避免重復遍歷的情況。此算法可以在On+m)的時間數量級上完成字符串匹配操作。

            二、神奇的next數組

            關于KMP算法的原理和實現,書上或者百度一下都可以找到,我在這里就不羅嗦那么多了,直接切入主題(next數組)。

            我們設主串S=abcabcabca,模式串p=abcabx

            KMP第一趟匹配:

                                     i=6                    

            S    :   a  b  c  a  b  c  a   b  c  a

            位置 :  1  2  3  4  5  6  7  8  9  10

            P    :   a  b   c  a  b  x

            位置 :  1  2  3  4  5  6

                                       j=6                      

            第一次匹配到第6個位置的時候失敗了,按照樸素的算法,i要回溯到第2個位置,j要回溯到第1個位置重新匹配。KMP的話,主串中的i是不會回溯,模式串中的j回溯也不會回溯到第1個位置。注意這里是關鍵,i不用回溯就可以完成整個字符串的匹配。為什么i不需要回溯呢?我們先留下這個疑問。

            我們把匹配成功的前5個字符研究一下。

            1位置的前綴子串為:a , ab , abc , abca

            5位置的后綴子串為:bcab , cab , ab , b

            我們觀察發現兩組里面都有一個ab,你能看出點什么東西么,好的,先不管這個。

            我們就按照樸素的算法來看,i回溯到第23位置都會在前5個字符中匹配失敗。

            樸素匹配:

                               i=4                    

            S    :  a  b  c  a  b  c  a   b  c  a

            位置 : 1  2  3  4  5  6  7  8  9  10

            P    :             a  b  c  a  b  x

            位置 :            1  2  3  4  5  6

                               j=1 

            當回溯到第4個位置的時候,成功匹配的字符為ab然后再去判斷S串的第6個字符和P串的第3個位置。這個然后我們先不管,觀察S中和P匹配的ab,在第一趟匹配的時候S中的ab是和P中前5個字符的最后兩個匹配的,而這一次匹配則是和P中前兩個字符匹配的。能發現點什么東西么?

            不需要讓i回溯到之前的位置重新匹配,只需要找到在P串前5個字符中第一個位置的前綴子串和最后一個位置的后綴子串相等并且串長最大的那一對子串,讓j指向前綴子串最后一個字符的下一個位置3,和i所指向的6進行比較。往后遇見不匹配的時候采取和這個一樣的方法。

            KMP第二趟匹配:

                                       i=6                    

            S    :   a  b  c  a  b  c  a   b  c  a

            位置 :  1  2  3  4  5  6  7  8  9  10

            P    :              a  b  c  a  b  x

            位置 :             1  2  3  4  5  6

                                       j=3 

            這個時候就需要next數組的建立了,next[6]存儲的就是前5個字符組成的字符串中的第一個位置的前綴子串和最后一個位置的后綴子串相等并且串長最大的那一對子串的最后一個字符的下一個位置,也就是3,也就是和P串中第3個位置匹配。

            寫到這里,next數組應該可以得出來了。

            具體代碼怎么得出來的,書上面都有。。那個應該不難。

            對于next數組還有一個優化,《嚴書》上講的很清晰。

            三、next數組在ACM中的應用

            直接用KMP算法真的去匹配兩個字符串其實很少見,除非字符串里的字符集范圍很小,或字符重復數量過多,用KMP可大減少時間,否則一般都是直接樸素匹配。
            kmp
            算法在ACM中并不大可能用來直接用,主要有用的是對它的理解和它的精華部分---- next數組,這個的一個用途就是確定重復子串,具體參見 poj2406,poj1961,poj2752。

            next數組模板

             

            Feedback

            # re: KMP算法中關于next數組的探究  回復  更多評論   

            2011-09-21 12:38 by ooseven
            正則表達式算法現在已經很成熟了,并且DFA方式的正則引擎同樣不需要回溯,而且通用性高很多,個人認為沒有必要糾結與kmp,實際應用中根本不需要,用dfa正則引擎好用得多,效率也不差。可能就是內存占用稍微高了點。當然,現在很多人研究kmp只是因為考試需要而已。

            # re: KMP算法中關于next數組的探究  回復  更多評論   

            2011-09-22 09:00 by C小加
            @ooseven
            我研究kmp是因為興趣,算法的用處雖然不大,但是思想卻是很吸引人的。正則表達式算法我還沒接觸過,不過看起來也蠻吸引人的。

            # re: KMP算法中關于next數組的探究  回復  更多評論   

            2011-09-22 11:35 by ooseven
            @C小加
            正則表達式算法看似簡單,但是,動手實踐之后你就會發現,要徹底研究透根本就是個無底洞,復雜度主要與狀態數的優化。因此,我的策略是能手工寫出一個正則引擎就可以了,適可而止!

            # re: KMP算法中關于next數組的探究  回復  更多評論   

            2011-09-22 16:47 by C小加
            @ooseven
            這樣啊,我想研究一下,不知道怎么才能和大牛進一步交流呢?如果有問題的話想請教一下。

            # re: KMP算法中關于next數組的探究  回復  更多評論   

            2011-09-22 17:32 by ooseven
            @C小加
            哈,大牛可不敢當,正則表達式算法屬于編譯原理里的一門功課,而編譯原理在cppblog里唯一的大牛是 陳梓瀚(vczh),我的那個正則引擎在實現的時候還請教過他呢。

            # re: KMP算法中關于next數組的探究  回復  更多評論   

            2011-09-22 17:49 by C小加
            @ooseven
            恩恩。看到了。那兩篇文章。還有你的評論。嘻嘻。。那位大牛應該正在寫編譯器吧,而且感覺他對圖形圖像也很有研究,厲害呀。先拜讀那兩篇文章吧。

            # re: KMP算法中關于next數組的探究  回復  更多評論   

            2011-11-03 21:46 by 淺笑
            球球。。。

            # re: KMP算法中關于next數組的探究  回復  更多評論   

            2013-10-12 11:00 by 周炎婷
            問一下,神馬叫第一個位置的前綴子串?
            久久久久亚洲AV成人网人人网站| 伊人久久精品无码二区麻豆| 久久精品国产免费观看三人同眠| 国产精品一区二区久久精品无码 | 精品亚洲综合久久中文字幕| 一本一道久久综合狠狠老| 国产成人综合久久精品红| 四虎国产精品免费久久| 亚洲人AV永久一区二区三区久久| 久久久91人妻无码精品蜜桃HD| 久久99久久无码毛片一区二区| 国产精品成人99久久久久91gav | 狠狠人妻久久久久久综合| 97久久精品午夜一区二区| 久久久久久狠狠丁香| 91性高湖久久久久| 久久91这里精品国产2020| 久久久久久国产a免费观看不卡 | 亚洲国产精品无码久久青草 | 久久精品国产亚洲AV蜜臀色欲| 欧美伊人久久大香线蕉综合| 国产成人精品久久| 国产成人久久精品区一区二区| 99久久精品国产一区二区三区 | 亚洲国产成人精品女人久久久| 人人狠狠综合88综合久久| 精品久久久中文字幕人妻| 久久国产欧美日韩精品| 激情五月综合综合久久69| 久久人人爽人人爽人人片AV高清| 亚洲人成伊人成综合网久久久 | 香蕉99久久国产综合精品宅男自 | 99久久精品国产一区二区三区| 青春久久| 国产精品久久久久影视不卡| 久久一区二区三区免费| 亚洲精品无码久久千人斩| 狠狠久久综合伊人不卡| 亚洲va国产va天堂va久久| 国产精品99久久久久久董美香| 亚洲午夜久久久影院|