求兩個正規(guī)式之間的編輯距離
正規(guī)式與編輯距離都是常見知識,如果不熟悉請見原題[1]
兩個字符串之間的編輯距離的經典解法是動態(tài)規(guī)劃。然而正規(guī)式可能包含無窮多個字符串。 不好將它轉化到兩字符串的編輯距離上。另外一個問題,首先要有一種能夠識別正規(guī)式的方法,就像進行表達式計算時,用遞歸下降方法來識別就很順手。
一時之間想不起用什么來表示正規(guī)式,后來看到解題報告 [2] 才有恍然大悟的感覺,用一個NFA[3]來表示正規(guī)式(編譯原理課上學過的,還是重點)。這樣狀態(tài)非常的清晰。
首先將正規(guī)式轉換成NFA的形式,這樣兩個正規(guī)式,就變成了兩個NFA。設<x , y>表示當前匹配到第一個NFA的x狀態(tài),第二個NFA的y狀態(tài)所消耗的當前最少代價。對于當前的狀態(tài)<s1, s2>尋找他所有的后繼<t1, t2>,如果發(fā)現(xiàn)能夠更新后繼<t1,
t2>,那么更新它,并且將它入隊,用于更新其他的狀態(tài)。當隊列里空了時候,那么就求到了最小編輯距離。
這里有個小技巧,就是標記當前狀態(tài)是否已經在隊列中,防止隊列中出現(xiàn)重復狀態(tài)。具體實現(xiàn)可以參考UESTC_Melody的代碼[4],寫的非常優(yōu)美。
引用
[1]http://acmicpc-live-archive.uva.es/nuevoportal/data/problem.php?p=5109
[2]
http://icpc.amrita.ac.in/2010/images/solution_logic.pdf
[3]
http://en.wikipedia.org/wiki/Nondeterministic_finite_state_machine
[4]
http://acm.hust.edu.cn:8080/judge/problem/viewSource.action?id=56951
posted @ 2011-01-11 16:21 王之昊 閱讀(482) | 評論 (0) | 編輯 收藏
