• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            <2006年10月>
            24252627282930
            1234567
            891011121314
            15161718192021
            22232425262728
            2930311234

            統計

            • 隨筆 - 44
            • 文章 - 0
            • 評論 - 86
            • 引用 - 0

            常用鏈接

            留言簿(6)

            隨筆分類(31)

            隨筆檔案(44)

            Mining

            最新隨筆

            搜索

            •  

            最新評論

            閱讀排行榜

            評論排行榜

            Diff 算法
            Diff 在Linux下非常有用, 最近在對定向蜘蛛的研究中, 發現網頁的信息大部分在Diff部分, 所以考慮了Diff的原理.

            1. Unix Diff

            Linux Diff 的基本原理在文 [ Dynamic Programming | http://www.sbc.su.se/~pjk/molbioinfo2001/dynprog/dynamic.html ] 中介紹的很詳細了.如果一個文件有n行, 則需要對一個n*n的矩陣進行計算以得到最佳匹配.


            2. 貪心算法

            在[ Windiff原理初探 | http://www.2maomao.com/blog/how-windiff-works-continued-1/ ]中看到一個貪心算法, 感覺在某種情況下還是比較適合的,但是有些情況還是存在一些問題.

            貪心算法的基本思路是: 從問題的某一個初始解出發逐步逼近給定的目標,以盡可能快的地求得更好的解。當達到某算法中的某一步不能再繼續前進時,算法停止。

            首先還是簡化問題:每個行根據內容映射到一個整型值, 這就將整個問題簡化為整形數組的比較,姑且稱之為Anew和Aold。

            程序處理流程簡述:
            while (還沒到頭)
            {
            ?? while (還可以繼續找,還可以更貪心)
            ?? {
            ????? 找到下一個匹配的(依次對ANew的元素,查找其在AOld中的位置)
            ????? if (找的到)
            ???????? 計算其貪心值,如果當前更貪則用這個匹配做當前最佳匹配
            ????? else
            ???????? break;
            ?? }
            }
            輸出剩余的未匹配節點。

            其中“還可以更貪心”是如何判定的呢?

            首先定義左臂(leftHand,Anew里面新匹配位置距上一次被采用的匹配的距離),右臂(rightHand,Aold里面新匹配位置距上一次被采用的匹配的距離)。

            要找一個目標,在這里我給定的目標是左右平衡情況下的最近匹配。比如一個匹配左臂1,右臂10,另一個匹配是左臂3,右臂3,這時候傾向于選擇后一個匹配。
            為了公式化和便于計算,我采用一個簡單的具有這個邏輯的函數:leftHand*leftHand + rightHand*rightHand的值(貪心值)最小。

            定義了這個目標以后,你會發現只要左臂過長,lefthand自身的平方超過上個候選匹配的貪心值,則可以停止往下計算了。

            然后這個循環繼續下去,直到找到所有的匹配,對每兩個匹配之間,如果有內容,則表示有Add/Delete/Modify發生,根據左臂右臂是否為0可以明顯區分。

            舉個例子:
            Anew Aold
            1???? 1
            2???? 1
            3???? 3
            2???? 2
            4???? 4
            首次匹配找到1<-->1,匹配立即停止,因為1*1 + 1*1 = 2,2*2 > 2,所以沒有比較進行下去了.

            然后往下找到2<-->2,這時候左臂等于1,右臂等于3,(注意臂長是相對上一次被采用的匹配的),1*1 + 3*3 = 10,當前貪心值是10;然后往下找到3<-->3,左臂為2,右臂為2,2*2 + 2*2 = 8,這個匹配優于上一個匹配;然后繼續往下找到2<-->2(左邊第二個2),左臂3,右臂3,3*3本身的平方已經超過目前的貪心值8,沒有必要再繼續往下匹配,這一輪匹配查詢結束。

            這里可以看出采用平方和做貪心算式的好處,很快可以收斂,而且符合“左右平衡”以及“最近匹配”。
            后面2和4的分析略去。

            但是這個算法存在一個問題,它的算法只針對單行最優, 而無法實現多行的最優, 比如
            Anew Aold
            a??? a
            b??? a
            c??? b

            像上面的兩個文件, Anew:1 匹配 Aold:1, 但是應該使 Anew:1 匹配 Aold:2, 這樣子才可以使Anew中序列ab 與 Aold的序列ab匹配.


            3. 下一步工作

            ?* 調整貪心值計算函數
            ?* 貪心算法 + 部分動態規劃


            posted on 2006-10-08 19:23 泡泡牛 閱讀(4272) 評論(1)  編輯 收藏 引用

            評論

            # re: Diff 算法[未登錄] 2008-11-14 12:31 Tony

            你的那個貪心算法,不如那個動態規劃法好用啊
              回復  更多評論    
            亚洲AV日韩精品久久久久久| 久久精品国产亚洲av麻豆蜜芽| 亚洲精品乱码久久久久久自慰| 久久99国产精品久久99小说| 色88久久久久高潮综合影院| 91精品国产91久久综合| 精品久久久久久无码中文字幕| 亚洲欧美另类日本久久国产真实乱对白| 亚洲欧洲日产国码无码久久99| 狠狠精品干练久久久无码中文字幕 | 久久精品国产99久久久香蕉| 日本久久久久久久久久| 午夜精品久久久久久久久| 亚洲国产天堂久久综合网站| 要久久爱在线免费观看| 99久久国产亚洲高清观看2024 | 久久久国产精品| 麻豆AV一区二区三区久久| 久久久久久国产精品免费免费| 久久精品亚洲精品国产色婷| 久久夜色精品国产亚洲av| 色综合久久精品中文字幕首页| 99精品国产免费久久久久久下载 | 欧美激情精品久久久久久久九九九| 亚洲午夜久久久久久久久久| 欧美午夜A∨大片久久| 精品欧美一区二区三区久久久| 狠狠久久亚洲欧美专区| 久久久无码精品亚洲日韩按摩 | 色8久久人人97超碰香蕉987| 伊人久久亚洲综合影院| 伊人精品久久久久7777| 久久天天躁狠狠躁夜夜2020老熟妇| 国产精品美女久久久| 无码人妻精品一区二区三区久久| 一本色综合久久| 久久综合亚洲鲁鲁五月天| 久久久久久久97| 亚洲va久久久噜噜噜久久天堂| 亚洲精品无码久久久久| 久久久精品人妻一区二区三区四|