面對經濟低迷等狀況,軟硬件廠商則絞盡腦汁的推出各種有可能獲得企業(yè)青睞的產品技術;就連一向低調的存儲廠商也不例外,如更加大張旗鼓的鼓吹可通過刪除重復數(shù)據(jù)等方式落實節(jié)流。但企業(yè)有必要全盤買單嗎?
金融危機下的熱門存儲技術
近一年來,存儲廠商除了向企業(yè)用戶倡導通過重復數(shù)據(jù)刪除(Data Deduplication)技術縮減其花在采購存儲設備的費用等觀念外,也開始通過研發(fā)或購并等方式強化其的重復數(shù)據(jù)刪除技術產品線。
其中是以七月中上演的EMC和NetApp兩強相爭之戰(zhàn)最受市場關注--雖然一開始是由NetApp勝出,但最后仍是由EMC以21億美金順利買下重復數(shù)據(jù)刪除技術領導廠商Data Domain。該舉意味即便經濟低迷,存儲廠商也不放棄任何可吸引企業(yè)青睞,以及擴張市場的機會。
但比較耐人尋味的問題是數(shù)據(jù)去重復化技術真有其前景嗎?再者,EMC稍早之前買下的重復數(shù)據(jù)刪除技術軟件公司--Avamar--又該怎么辦呢?
討論資料重復數(shù)據(jù)刪除技術是否有其前景前,得先明了該技術的本質是一種由重復數(shù)據(jù)刪除技術來減少存儲需求的手法。
舉例來說,在未導入重復數(shù)據(jù)刪除技術前,如果有人發(fā)了一封內含1 MB附文件的電子郵件給公司內的100位同事,那企業(yè)后臺系統(tǒng)必須因應該附件存儲100份拷貝、耗費100MB的存儲空間。若導入重復數(shù)據(jù)刪除技術技術,那系統(tǒng)只會保留一份拷貝,其他的99份拷貝則會以指向實體拷貝位置的指針取代。
也就是說,原先企業(yè)得挪出100MB的存儲空間方能執(zhí)行上述動作,現(xiàn)在只要有1MB、或是比1MB稍多一點(含指標)的存儲空間即可。
這樣的好處是顯而易見的。它除了減少了企業(yè)花費在存儲重復數(shù)據(jù)的空間需求外,也不再需要為了(遠距)數(shù)據(jù)復制與傳送等動作而投入巨資打造高網(wǎng)絡帶寬。因為,透過數(shù)據(jù)去重復劃技術移除重復性的數(shù)據(jù)(亦即完成數(shù)據(jù)瘦身)后,無論是數(shù)據(jù)備份或異地數(shù)據(jù)復制皆可比以前更快完成。
整合既有的存儲技術
由于數(shù)據(jù)去重復化技術可以檔案、區(qū)塊與位等3種方式進行。其中是以檔案的去重復化最沒有效率。至于以區(qū)塊和位的方式進行數(shù)據(jù)去重復化的技術雖然效率極高,但也存在一個問題:需要更高的運算能力。
這與以區(qū)塊或位的方式移除重復性數(shù)據(jù)的作法是以MD5或SHA-1等哈希算法檢視檔案內容的方式有關。由于該種作法是透過為每一組數(shù)據(jù)編列一個唯一的哈希數(shù)字組,并以此作為比對索引,系統(tǒng)只要一發(fā)現(xiàn)被編列為一樣的哈希數(shù)字組,即會進行數(shù)據(jù)刪除;因此,為避免哈希碰撞問題不斷發(fā)生--系統(tǒng)不小心將兩組不一樣的數(shù)據(jù)歸類成相同的HASH數(shù)字組,并放棄存儲被編列為相同HASH數(shù)字組的數(shù)據(jù)--通常會通過結合數(shù)種HASH算法、或是檢視中介數(shù)據(jù)等方式降低hash碰撞的發(fā)生機率。
而該種做法意味著企業(yè)必須有極強的后端運算資源執(zhí)行以HASH算法刪除重復數(shù)據(jù)的數(shù)據(jù)去重復化技術,并且有足夠大的索引數(shù)據(jù)庫追蹤個別的數(shù)據(jù)組。因此,基于現(xiàn)實的考慮,決定要導入數(shù)據(jù)去重復化技術的企業(yè)多半會選擇將該技術與傳統(tǒng)的壓縮或變動差異等作法整合在一起使用。
當前兩種主要的產品形態(tài)
就目前的重復數(shù)據(jù)刪除技術產品來說,大約可分為軟件和硬件兩種。
前者是指在備份服務器上安裝代理程序,利用備份服務器的運算能力將數(shù)據(jù)去重復化后再備份。這種方法除在企業(yè)進行全備份時會明顯拉長備份時間外,如何區(qū)隔在同一部服務器上的備份軟件與重復數(shù)據(jù)刪除軟件的責任也是一個潛在的維護問題。
至于后者則是指安裝獨立的硬件裝置執(zhí)行重復數(shù)據(jù)刪除軟件。當然,隨著該硬件裝置在備份環(huán)境中的位置不同,其產生的的影響也會有所不同。
簡單來說,一種是先備份再去重復化,另一種則相反。前者不會影響備份完成的時間,后者則使用較小的磁盤空間。