楊琳
(鄭州圖書館,河南 鄭州 450053)
作為數字信息保存項目的核心,數字信息保存系統無疑應當是數字保存項目的研究重點。然而國內外的研究現狀表明,目前僅有幾個項目提出了“數字信息保存系統”概念并進行初步的系統實現,對數字信息保存系統可能遇到的障礙及應對策略進行研究的項目就屈指可數。數字信息保存系統實現數字資源的長期保存的具體時間尚不明確,一般的理解是依據現有的技術和條件,能夠實現的最長的時間。它要比單個存儲介質或單個軟硬件或信息的存儲格式的壽命都要長。因此,為了實現數字信息“長期保存”的目標,筆者分析了數字信息保存系統的常見威脅,并結合實例總結提出若干應對策略。
數字信息保存系統在技術上面臨三大威脅因素:一是存儲載體不耐久;二是讀寫信息的計算機軟硬件技術過時;三是數字信息的真實性。[1]
(1)存儲介質易脆性:數字信息是存儲在各種類型的物理媒體上的。它既可以承載于磁盤和光盤,又可以存儲于網絡服務器。由于數字存儲介質的物理特性而天生不穩定,如果沒有相適應的存儲環境和管理,可能迅速破碎,引起諸如磁盤損壞、脫機媒體損壞等暫時性的或永久性的故障。
(2)技術老化:數字信息的長期可用依賴相應軟件,而這些軟件又依賴專門的操作系統甚至硬件系統,一旦離開了軟硬件系統,數字信息的使用價值也就結束了。然而近二十年來經常性的技術變化引起了重大的技術變革,因此技術老化被大部分館藏管理者看作是對數字存儲的最大威脅。[2]
(3)內容真實性:與紙質環境相比,在數字環境中對存儲內容進行改動顯得更加容易。不論是故意還是無意所致,辯別數字信息的真偽已成為目前一個比較棘手的問題。
環境威脅因素[3]主要包括網絡環境、組織環境及自然環境。
(1)網絡環境:這主要指數字保存系統的外部網絡服務(包括域名及URLs)可能會遇到暫時性的或永久性的故障;在某特定時間段內,網絡可能會出現傳輸錯誤(傳輸失敗或部分傳輸);數字保存系統易遭受公網上的病毒攻擊。
(2)組織(機構)因素:組織機構的解體、破產或使命改變可能導致數字保存系統的技術喪失。遇到此種威脅,要么有后繼組織接管,要么進行其他的合理處置。
(3)自然災害:如洪水、火災及地震等各種自然災害都可能給數字保存系統帶來意外故障。
其他威脅因素包括人為因素[3]、成本因素[3][4]及知識產權因素[5]。
(1)人為因素:這主要指計算機專家和操作人員兩方面。由于計算機專家經常授權訪問數字保存系統,就算將系統與外部網絡隔離能夠防止了外部病毒的襲擊也難抵御內部攻擊。操作人員的不良行為也可能造成暫時性的或永久性的系統故障。這種故障不僅可能發生在數字保存系統本身,而且也可能發生在操作系統、應用程序、硬件設施及計算機網絡。
(2)成本因素:首先將數字保存成本與文獻數字化的成本區分開來,后者只是前者的一部分。數字保存成本不僅大于文獻數字化成本,而且與保存紙質文獻相比,更易受到經費的影響,因為如耗電、帶寬、系統管理、域名注冊等一系列數字保存活動都需要經費作保障。
(3)知識產權:知識產權問題是數字保存面臨的重要挑戰,從數字信息的收集開始,知識產權問題就出現,而數字保存進程的每一個階段又都與此息息相關,不可分割。但到目前為止,各個國家和地區都沒有完整的數字保存知識產權法律,這不能不說是影響數字保存的重要因素。
復制/拷貝又稱數據更新,是在原來的技術環境下實時重寫信息數據,將數據流從舊存儲介質轉移到新存儲介質上,防止由于存儲介質理化性能變化而引起的信息丟失。這種方法早就已經大量應用于磁帶、磁盤、光盤的保存上。但這只是一項常規的管理工作,并不是真正解決由于計算機軟硬件過時引起的長期保存問題。再生性保護技術指將技術過時的數字信息實時的轉移到縮微品或紙上。由于縮微膠片存儲量大、壽命長(其保存壽命理論值是500年,國際上已有100多年的實踐經驗,國內也有幾十年的實踐經驗。)、便于保管、不再使用計算機軟硬件技術讀取,因此,它為長期保存數字信息提供方便,并且可避免計算機軟硬件技術過時所帶來的任何麻煩。于是,筆者認為數字拷貝和保存縮微膠片的“雙套制”方案[6]為保存使用頻率較低的純文本信息,而不是聲音、超文本、多媒體信息提供了一種最佳方案。隨著所謂攝影技術和設備的發展,縮微膠片記錄的模擬信息,能進入計算機網絡系統,不用擔心數字信息會失去它原有的數字風格。
技術仿真策略是在實施拷貝保存數字信息內容的同時,制造一種能運行過時軟硬件的軟件,在這種軟件中對某一過時的軟硬件進行模仿,使得保存的數字信息能在模擬的軟件上運行,這是一種延遲技術淘汰的方法。實際上這和“計算機技術檔案館”方法有關,由于保存有關軟件版本和硬件設備的物理實體建立“計算機技術檔案館”對大多數保存機構來說都不現實,因此,人們更多的是詳細描述數字信息利用和各種技術參數和環境條件,以便未來計算機系統可以模仿原始系統環境來讀取和使用數字信息內容。技術方針策略使我們總可通過新的仿真器來仿真上一代仿真虛擬機,因此不必持續更新針對特定數字信息的定義語言、仿真說明、解釋器等。從技術的角度來看是可行的,但在實際中它的兼容性并不可靠,仿真器自身的耐用性不穩定,所以筆者認為這不太可能是一直有效的方法,軟件制造商也可能最終放棄某些軟件的向下兼容性。
遷移是持續地將數字信息從一種技術環境轉換到另一種技術環境,意味著基于字符的數據可以從一個存儲介質轉移到另一個存儲介質上,以進行數字信息的長期保存,同時,也可以將原始數據格式轉換為獨立于具體原始軟硬件平臺的標準數據格式,由于這些原始數據格式的開放性和標準性,可以保證總有相應軟硬件系統來處理這些數據。這種方法維護了數字對象的物理形體,也保護了其內容存在,但可能無法保證其外觀、功能和背景信息等,限制遷移過程中的各種損失是使用這種方法的關鍵,但它至少對于結構簡單的單一文件是比較適用的。盡管各機構采用數字遷移策略,但具體實施辦法又有所不同,有的是改變存儲媒體(如再生性保護技術,筆者認為它是遷移策略的一種方法),這種方法主要用于保存使用頻率較低的數字信息;有的是格式遷移(也是狹義的遷移策略),適于保存使用頻率較高的數字信息。為了建立有效的數據格式遷移戰略,需要對數字文獻格式進行標準化處理,如澳大利亞國家檔案館采用了規范化方法,就是將各種數字信息存檔為通用的XML格式,荷蘭國家圖書館(KB)僅接受PDF格式的數字信息。
采用評估策略的原因有二:一是在獲取數字信息階段對獲取的數字信息進行評估以檢驗其真實性;二是對保存特色文獻的系統評估及時發現潛在故障,從而降低維修成本。
評估方法主要有第三方評估和互評估。前者是一種常用的評估方法,它是將被檢索的系統內容樣本與被檢索的內容摘要及保存在其他系統內的內容摘要比較。如果先前的文摘是按SIP(遞交信息包)處理的,那么就包含了元數據。如果系統能將檢索到的SIP作為DIP(傳播信息包)的部分或全部內容,那么系統就具備了端到端檢測系統的性能。其不足是信息內容及原有文摘都以比特流的形式存在,可能會導致二者錯誤匹配。互評估對原有文摘信息不會產生風險。這種評估機制的優點是不必向評估人員泄露信息內容;不足之處是不能進行端到端的評估。兩種方法各有千秋,于是筆者認為二者恰當的結合對于數字信息的長期保存更是相得益彰。
保存數字信息要比紙質文獻的成本高。數字保存系統的運作過程可分為獲取數字信息及相關元數據、保存及發布數字信息三個階段,每個階段都有其成本構成。
首先,獲取階段的成本有獲取數字信息的產權許可費用、獲取數字信息費用及相關元數據的費用三部分構成。其次,保存階段的成本有三部分構成:購買并持續更新軟硬件的費用;業務成本如電力、帶寬、員工的時間及評估成本;格式遷移成本。最后,發布階段的成本有兩部分構成:保存數字信息協議條款中規定的費用以及向授權用戶發布數字信息的費用。前者主要指認證系統的管理成本,如引導用戶進入和退出系統及監督有關出版機構的管理費用;向授權用戶發布數字信息的費用一般都很低,主要指操作web服務器和帶寬的花費。
根據以最小的投入獲得最大的收益這一經濟學原理,數字保存系統的主辦機構在經費有限的情況下,就必須考慮以最小的成本投入保存更多的信息資源,并降低保存風險。筆者所說的經濟策略主要指降低獲取和保存階段的成本。主要措施有:采取保存本單位擁有版權的資源,健全版權許可法律體系等措施來降低產權許可費;通過對獲取過程及評估系統實施自動化管理來降低獲取數字信息的成本;通過采用機器自動生成元數據或從數字信息創建者那里獲取數字信息時一起獲取元數據來降低獲取元數據的成本;由于對數字信息實施單獨管理或將數字保存系統與其他基礎設施集成管理降低業務成本的方案風險性高,因此盡量使操作人員參與系統操作;采用適當的轉移方法來降低格式遷移成本。
目前,一些傳統的圖書館、檔案館與其他文獻收藏部門,開始收藏數字文獻,并提供網上瀏覽與借閱,但這些傳統圖書館包括發達國家的數字圖書館,都沒有把數字信息長期保存納入其職能范圍之內。這樣,就使得一些在網上流動的、未被收容的、有價值的信息,在當前技術情況之下無法長期保存。因此,有必要建立一個全國數字信息歸檔系統,使之對全國文化、經濟、科技、社會等領域的數字信息的存貯和存取承擔管理責任,使之成為我國數字信息的資源基地。
法定保存是解決數字保存面臨的知識產權問題的首選方法,而且它為數字信息歸檔系統提供了強有力的資源保障。各國采用不同的方法實施法定保存,英國采用法律條文規定,澳大利亞采用法律覆蓋和自愿收集的混合法。筆者認為建立數字信息呈繳本制度具有可行性,因為印刷文獻的呈繳本制度在各國廣泛實施,成功地解決了印刷文獻長期保存的知識產權問題,對于人類文化遺產的長久傳承發揮了關鍵作用。由于數字信息的真偽難辨,數字信息的呈繳本制度可能會比印刷文獻的呈繳本制度實施方面具有一定的難度,但在丹麥、芬蘭和挪威等少數國家已有先例存在。當然,解決知識產權問題的方法還有法定許可等措施。
每種新技術都是一把雙刃劍,所有的技術解決方案都不是盡善盡美的,只是部分地解決了問題,因此,筆者建議選擇數字保存系統的風險防范策略時,要根據選擇技術方案的要求和標準[6](保存什么、為誰保存及怎樣保存)來選擇最理想的技術解決方案。
[1] 郭瑞華.數字信息長期存取策略研究[J].情報理論與實踐,2002(2).
[2] Hedstrom,M,Montgomery,S.Digital Preservation Needs and Requirements inRLGMember Institutions.RLG website.http://www.rlg.ac.uk/preserv/digpres.html.
[3] David S.H.Rosenthal,Thomas Robertson,Tom Lipkis,Vicky Reich,Seth Morabito.Requirements for Digital Preservation Systems:A Bottom-Up Approach.D-lib Magazine 11,11(Nove.2005).
[4] 朱燁.數字保存中的技術、組織及法律因素分析[J].圖書館學研究,2005(4).
[5] 宋顯彪.數字信息的長期保存[D].碩士學位論文,2005(4).
[6] 顏曉棟.保存數字信息技術方案選擇與評價[J].檔案管理,2003(1).
[7] 張紹武.數字信息長期保存的策略[J].現代情報,2002(4).