Posted on 2011-11-04 14:22
Shuffy 閱讀(559)
評論(0) 編輯 收藏 引用
1,到底什么是“重復數據刪除(Deduplication)”技術
簡單地說,就是在通過網絡傳輸或存儲數據時,不傳送或存儲多份相同 數據,以減少對網絡帶寬和存儲空間的占用。實際上以前的SIS(單實例存儲)就是一種Dedu技術,但是它去重的單位是文件。現在流行的Deduplication技術通過是以數據塊為單位的,去重效果會更好,實現起來復雜程度也更高一些。這些技術用在數據備份領域效果最好,因為多次全備 份產生的數據中包含大量的重復數據。增量備份可以在一定程度上減少重復備份,但是它的單位是文件,顆粒度不好,而且長期采用增量備份也不實際,因為還原時 會非常復雜。如果通過合成備份來解決這一問題,合成作業又會產生額外的開銷。
2,去重技術如何應用于備份或數據復制
去 重技術主要應用于在低帶寬的情況下實施數據備份,復制。例如分支機構的數據保護和窄帶容災。原理基本相同,在傳送一個文件之前,會先計算該文件的指紋,如 果與之前傳送過的文件相同,則只傳送文件屬性和指針,不傳送實際的數據。如果文件指紋與之前傳送過的文件不同,則將文件拆分為更小的數據段,對每個段做指 紋,重復的段只傳送指針。由此可見,實際傳送的數據量決定于備份或復制間隔內所產生的數據變化量。
3,去重適用于什么類型的數據,不適用于什么類型的數據?
去重適用于任何類型的數據,比如辦公文檔,數據庫,多媒體文件,虛擬機等。雖然有些數據由于其自身的特點決定,第一次備份時去重效果不是特別明顯,但是在后續的備份中,去重技術的優勢就顯現出來了。備份的次數越多,間隔越短,重復數據刪除比就越高。
4,怎么才能知道去重技術對我的數據是否有效?
去重效果主要決定于以下幾個方面:A,有多少數據改變,數據變化量越少,去重效果越明顯;B,數據是否可以被有效壓縮,壓縮技術通常與去重技術一起使用,壓 縮率高的數據,即使去重率不高,通過壓縮,也可以明顯在節省帶寬和存儲;C,你所采用的備份方式(全備,差備,增備),對全備最明顯,對增備也同樣有效, 例如,一個50M的文件,只有一個128K的數據塊發生了變化,增量備份要備整個50M文件,去重技術則只備份變化的數據塊;D,數據要保留多久,數據保 留周期越長,去重技術的優勢越突出,因為它可以極大地節省你的存儲空間。
5,去重技術到底有什么益處?
前面介紹過了,可以節省你的存儲空間和網絡寬帶。這樣你就可以通過高速磁盤存儲保留更多的備份數據了,將更多的備份數據存儲于有限的磁盤空間,減少對磁帶的使用,節省成本,也提高了恢復數據時的效率。節省帶寬這一優勢可用于分支機構的數據保護和實現低成本的窄帶數據容災。
6,什么是定長塊去重,什么是可變長塊去重?
數 據的變化是沒有規律的,如果采用定長的數據塊,則不管數據變化量是多少,也不管發生數據變化的比特位在數據塊的什么位置,都要備份整個數據塊。這樣分塊大 時,傳輸的數據量較大,數據塊小時,管理信息會有較大的增加。采用可變長塊可以有效解決上述問題,去重的效果會比定長塊方案要好,但是,變長塊也同樣增加 了數據管理的復雜度。
7,采用去重技術來存儲和備份數據,安全性如何?會不會出現不能恢復的情況?
去重技術是成熟技 術,非常安全,十個相同文件,采用去重技術存儲,數據只會保留一份,但是這十個文件的屬性會分別保存,并有指針指向與它們對應的數據塊。去重技術采用文件 或數據塊的指紋(MD5,SHA或CRC等)來判斷重復性,可能會產生“碰撞”,也就是不同的文件或數據塊計算出相同的指紋,從而導致數據丟失。但是這種 可能性非常小,而且成熟產品會采用多種指紋技術來進一步降低“碰撞”的可能。
8,什么是前去重,什么是后去重?
前去 重是指我們用備份服務器備份某一臺計算機上的數據時,去重的操作發生在被保護的計算機上,這樣的話,從該計算機到備份服務器之間也不會有重復數據出現,節 省這一段網絡帶寬,但是會增加被保護計算機的負擔。后去重則是數據傳送到備份服務器之后再刪除掉重復數據,可以存儲在磁盤上,也可以進一步通過網絡傳遞。 這樣方案不會增加被保護主機的負擔。通常對于大一點兒的站點,我們會采用這種方案,把去重的任務交由該站點內的專用服務器來完成。
9,去重技術支持備份到磁帶嗎?
磁 帶不支持隨機訪問,所以在磁帶上實現去重技術難度較大,且效率不高,磁帶相對于磁盤來說,成本也較低。所以目前的去重解決方案主要是應用于磁盤存儲。如果 用備份軟件將磁盤上的去重數據復制到磁帶上時,被去重的數據往往被還原為非去重狀態。這樣也可以在一定程度上降低去重為數據的可用性所帶來的風險(重復數 據只保存一份,這就意味著,這一份數據受損,將導致一組文件無法正常使用)。
10,實現去重方案要花多少錢?
目前提供這一方案的廠家很多,相關解決方案的價格會有一些差別。總的來講,在這一部分的投入,很快會通過對網絡帶寬和存儲空間的節省而得到回報。所以目前這一技術是主流的數據保護技術,比較受用戶歡迎。特別是那些數據量較大的用戶。
原文地址:
http://blog.csdn.net/liuben/article/details/5058538