摘要:本文闡述了數據存儲的定義、形式,分析了分級存儲的優點和實現的難點,最后介紹了目前流行的存儲平臺構架和行業應用。
關鍵詞:數據存儲;在線存儲;離線存儲;近線存儲;分級存儲
中圖分類號;TP309.3
文獻標識碼:B
文章編號:1002-2422(2010)06-0118-02
1 數據存儲概述
1.1 數據存儲的定義
數據存儲就是根據不同的應用環境通過采取合理、安全、有效的方式將數據保存到某些介質上并能保證有效的訪問,總的來講可以包含兩個方面的含義:一方面是數據臨時或長期駐留的物理媒介:另一方面,是保證數據完整安全存放的方式或行為。存儲就是把這兩個方面結合起來,向用戶提供一套數據存放解決方案。
1.2 數據存儲的形式
1.2.1 在線存儲
在線存儲又稱工作級的存儲,存儲設備和所存儲的數據時刻保持“在線”狀態,是可隨意讀取的,可滿足計算平臺對數據訪問的速度要求。如PC機中常用的磁盤基本上都是采用這種存儲形式的。
1.2.2 離線存儲
離線存儲主要是用于對在線存儲的數據進行備份,以防范可能發生的數據災難,因此又稱備份級的存儲。離線海量存儲的典型產品就是磁帶或磁帶庫,價格相對低廉。離線存儲介質上的數據在讀寫時是順序進行的。當需要讀取數據時,需要把帶子卷到頭,再進行定位。當需要對已寫入的數據進行修改時,所有的數據都需要全部進行改寫。因此,離線海量存儲的訪問是慢速度、低效率的。
1.2.3 近線存儲
所謂近線存儲,就是指將那些并不是經常用到,或者說數據的訪問量并不大的數據存放在性能較低的存儲設備上。對這些的設備要求是尋址迅速、傳輸率高。因此,近線存儲對性能要求相對來說并不高,但由于不常用的數據要占總數據量的大多數,這也就意味著近線存儲設備首先要保證的是容量。
2 多種存儲方式相結合的分級存儲
2.1 分級存儲的定義
所謂分級存儲,就是根據數據不同的重要性、訪問頻次等指標分別存儲在不同性能的存儲設備上,采取不同的存儲方式。這樣一方面可大大減少非重要性數據在一級本地磁盤所占用的空間,還可加快整個系統的存儲性能。
在分級數據存儲結構中,磁帶庫等成本較低的存儲資源用來存放訪問頻率較低的信息,而磁盤或磁盤陣列等成本高、速度快的設備,用來存儲經常訪問的重要信息。數據分級存儲的工作原理是基于數據訪問的局部性。通過將不經常訪問的數據自動移到存儲層次中較低的層次,釋放出較高成本的存儲空間給更頻繁訪問的數據,可以獲得更好的總體性價比。
2.2 分級存儲的優點
(1)減少總體存儲成本。不經常訪問的數據駐留在較低成本的存儲器中,可綜合發揮磁盤驅動器的性能優勢與磁帶的成本優勢。
(2)性能優化。分級存儲可使不同性價比的存儲設備發揮最大的綜合效益。
(3)改善數據可用性。分級存儲把很少使用的歷史數據遷移到輔助存儲器中,或歸檔到離線存儲池中,這樣就無需反復保存,減少了存儲的時間;同時提高了在線數據的可用性,使磁盤的可用空間維持在系統要求的水平上。
(4)數據遷移對應用透明。進行分級存儲后,數據移動到另外的存儲器時,應用程序不需要改變,使數據遷移對應用透明。
2.3 分級存儲技術實現的難點
(1)如何判斷數據是經常訪問還是不經常訪問。也就是說,系統自動判斷的規則可能與用戶的切身感受有所區別。用戶可能認為某個文件需要經常用到,但是系統根據規則判斷為不經常需要用到,而將其存放到性能低的硬盤中。從而用戶反而感覺到訪問速度的下降。其實現在市面上雖然有很多基于近線存儲技術實現的存儲設備,但是不同廠商的存儲設備往往采用不同的算法來解決這個問題。如storagetek公司推出的近線存儲產品,采用的是數據生命周期的算法。不同的算法往往會得到不同的結果。而每個企業可能情況不同,或者根據應用環境不同,需要采用不同的算法。這就要求企業的IT負責人有這方面的工作經驗。能夠根據企業的實際業務與應用軟件,來判斷采用哪種算法的近線存儲產品更加適合。不過要做出這個合理的判斷,對于企業要求比較高。通常情況下,企業IT負責人可能需要經過大量的測試才能夠得出正確的結果。在考慮這個問題的時候,不要太在意個別用戶的使用感受。只要大部分用戶沒有感覺到訪問效率降低了就可以了。
(2)企業不知道在哪些情形下適合采用近線存儲。雖然說近線存儲在所有環境中都可以使用。因為根據20/80原則,總有一些數據是處于不怎么需要訪問的狀態。但是在實際工作中,企業并不是在任何應用環境中都可以從中帶來收益。如對于視頻監控系統,其數據存儲量大,而且存儲的數據除非有意外情況基本上不會使用。也就是說,99%以上的數據不會用到。此時雖然從近線存儲產品中也可以帶來一定的收益,但還是采用其他綠色存儲方案為好。
(3)需要注意在項目部署的過程中存儲設備的分配。在使用近線存儲產品中至少要使用兩塊硬盤,分別用于存儲這兩類數據。一般來說,經常需要訪問的數據需要存放在性能要求比較高的硬盤或者其他存儲設備中。而由于這類數據的容量不會很大,為此對其存儲容量沒有很大的要求。性能越高,由此帶來的訪問速度的提升會越明顯。而對于存放那些不怎么用到的數據,其最重要的一個參數就是存儲容量。一般情況下,這個硬盤至少需要比另一塊硬盤容量大4倍以上。
(4)近線存儲設備往往還需要跟離線存儲設備結合使用。因為近線存儲設備中的數據也需要進行備份。從節省成本的角度出發,一般會為備份專門設置一個離線存儲設備。在保證數據安全的前提下,從整體上降低存儲系統能源的消耗。
3 目前流行的存儲平臺構架
流行的存儲平臺構架是三層的,第一層是在線存儲,第二層是近線存儲,第三層是離線海量存儲,如圖1所示。

在應用領域,除了解決備份和恢復的問題以外,近線存儲還擴展到保護企業業務延續性、歸檔利用,混合存儲管理以及資料庫應用的范圍。其優點在于:
(1)改善備份和恢復的策略。數據的備份不再直接備份到磁帶,而是備份到近線存儲。通過相應軟件可以把在線存儲上改動的數據塊復制到近線存儲上,而原來每天需要進行的備份到磁帶上的工作可以改為每周甚至更長的一些時間進行。
(2)提高企業業務的延續性。企業的數據可以通過相應的軟件構建起容災系統,當災難發生時,由于采用和磁帶不一樣的介質,恢復的速度會更快,有利于企業業務延續性的提高。
(3)歸檔利用和混合存儲管理。像E-mail類型的應用,通常希望保留這些資料兩年甚至五年,以備查詢,而刪除舊的Email會花費很多時間,因此,希望把舊的E-mail歸檔到近線存儲上,這樣既可以降低存儲的投資,還可以當需要的時候直接訪問。
(4)資料庫的應用。像電子化圖書館、醫院電子病例系統、地震勘探數據庫等應用,許多數據是不經常訪問的,僅當需要的時候才需要訪問,這樣就可以把這些數據放置在近線存儲上。
4 結束語
企業要有效、經濟對數據進行實現海量存儲、高性能訪問、高可用性、可管理性。可見數據存儲的重要性日漸提高。
參考文獻
[1]王達.網管員必讀-服務器與數據存儲.北京:電子工業出版社,2007-10
[2]張冬.大話存儲-網絡存儲系統原理精解與最佳實踐.北京:清華大學出版社,2008-11.
[3]王記奎.成就存儲專家之路一存儲從入門到精通.北京:清華大學出版社,2009-06.
[4]王改性,師鳴若.數據存儲各份與災難恢復.北京:電子工業出版社,2009-06.
[5]時成閣.網絡存儲系統設計.上海:華東師范大學出版社,2-007-02.
[6](美)薩曼達,(美)希瓦史塔瓦.信息存儲與管理:數字信息的存儲、管理和保護.北京:人民郵電出版社,2010-05.
[7]魯士文.存儲網絡技術及應用.北京:清華大學出版社,2010-02.