王 瑩
(鄭州大學外語學院,河南 鄭州 450052)
每一個數字化項目都有自己的明確目標,通常情況下,這個目標有兩大范疇:其一是保護易損載體文獻資源,即數字保存;其二是將有較高價值的文獻資源數字化后通過因特網面向公共提供瀏覽,以實現文獻本身的傳播價值,也即數字存取。項目目標對數字化項目生命周期的各個階段都有直接關系,因此,確定項目目標是整個項目實施的關鍵環節。數字保存不僅意味著保存原始資源載體,而且還意味著數字資源的長期保存,以確保用戶的有效訪問,為此就必須采用數字遷移或數字仿真等長期保存策略對數字資源實施長期維護。數字存取方便用戶對數字資源的并發、實時獲取,從而克服對原始資源存取的時間、空間和可獲得性等方面的障礙。
信息資源數字化是一類成本高昂的項目,成本分布在其生命周期的各個階段,主要包括數字化內容選擇、數字化生產準備、元數據析出、原始文獻的保護、數字化生產系統基礎設施的建設、數字轉換、文本抓取、數字主文檔及其各種副本的保存、數字資源的發布及其發布網站的維護以及整個項目的質量控制等。在項目實施之前,應該基于成本分布來編制經費預算,在項目實施過程中,應該采取一切可能方法降低其實施成本,這些方法主要有:一是減少人力成本;二是對數字轉換各環節實施自動控制,以減少人工干預;三是實施規模生產,減少生產流程中的變量;四是提高整體績效和產出,確保資金的高效利用;五是嚴格質量管理,改善和優化項目生產流程;六是構建風險管理預警體系,降低風險成本;培訓員工所需技能,提高生產能力和產品質量;七是開展項目合作,實現資金、設備、人員和技術的優勢互補。
數字化項目所涉及的信息資源的產權狀態有三種:免產權許可、產權歸數字化實施機構所有和產權歸他人所有。對于第三種情況,數字轉換前必須獲得產權所有人的許可。調查顯示,產權許可是信息資源數字化項目實施的主要瓶頸之一,構建集體授權管理機制和建立完善法定許可制度可提高產權許可效率,降低產權許可成本。
實施方式主要有自己實施和項目外包,這兩種方式各有優劣。項目實施機構應權衡利弊,方能做出合適選擇。第一種方式對于不具備數字化生產基礎設施的數字化項目實施機構具有很強的吸引力,因為這樣可以省去設備購置的高昂成本。對于一些特殊載體資源和載體過大資源(如,大幅面建筑圖紙、地圖和海報等)進行數字化,外包也許是唯一選擇。對于短期數字化項目,外包尤其是比較理想的選擇。然而,對于長期數字化項目,完全外包值得商榷,項目實施機構將整個項目的實施依賴于外包商并非是明智決策。外包方式是項目實施機構的困難選擇,決策前應充分咨詢,出發點是成本效益分析。
2.1.1 Web訪問的需要
數字化的產品是通過因特網被廣大用戶存取利用,而網絡用戶組成非常復雜,一些非法用戶可能會對數字資源以及通過數字資源訪問的原始資源的安全構成威脅。
2.1.2 成本的需要
解決數字化生產高成本和信息機構經費有限性之間矛盾。幾乎沒有信息機構(如圖書館)有充足的資源來對整個館藏進行數字化,內容選擇不可避免。
2.1.3 數字資源管理的需要
技術的快速發展使數字化項目的產品壽命越來越短,投入巨資進行數字遷移是延長數字資源生命的一個重要途徑,昂貴的維護成本就必須考慮數字化的內容選擇。
2.1.4 產權保護的需要
信息機構對絕大數館藏都缺乏產權的擁有,只能選擇那些能夠得到產權許可的館藏進行數字化。
2.1.5 特殊文獻的需要
信息機構大都收藏一些對文化倫理乃至民族敏感的信息資源,對這些資源進行數字化就要考慮很多因素。
2.1.6 殘缺文獻處理成本的需要
信息機構館藏文獻中有一部分是殘缺不全的,對這些文獻進行數字化之前就要進行補缺或相應的說明,其費用是非常可觀的。
2.2.1 產權保證原則
館藏資源的產權狀態識別與數字化項目實施和數字資源發布所在的國家地區有關,每個國家都有自己的知識產權保護法律。數字化項目只能選擇那些不存在產權保護的,或者是雖然存在產權保護但可以獲得產權許可的信息資源進行數字化生產,除此之外,保護產權的方式也要經產權所有者認可。
2.2.2 原始文獻知識價值原則
文獻知識價值的判斷具有很大程度的主觀性,其結果可能因人而異。但盡管如此,知識價值也必須是數字化內容選擇的重要原則之一。影響原始信息資源的知識價值因素有很多,但主要包括資源的唯一性、相關價值、對相關主題領域理解的重要性、對相關主題領域覆蓋的廣度和深度、實用性和準確度、特定主題領域中其他載體記錄質量差的信息內容、具有強化項目實施的歷史價值以及數字化產品潛在的長期價值等。
2.2.3 用戶保障原則
用戶保障的本質就是館藏文獻的利用率,理論上講,信息資源數字化項目應該把有限的資金用在利用率高的資源的數字化上。
2.2.4 原始文獻物理特性原則
在數字化內容選擇過程中,需要考慮的與原始文獻物理特征相關的問題主要有:原始文獻的物理狀態是否有利于數字化;其內容是否能被目前的數字化技術完全和充分地抓取;物理材質和形狀是否會對數字化過程構成障礙;是否有保存良好的替代品(如縮微膠片)。
2.2.5 數字保存原則
為了保存的需要,數字化內容選擇的原則之一是安全數字化,其含義包括:原始信息資源的狀態允許被完全數字化;數字化實施過程需要搬運原始資源時,其狀態適合于搬運;盡可能掃描原始資源的替代品,從而減少對原始資源的損傷;數字化的產品必須建檔,并制訂由于時間和技術變化等因素導致的長期維護策略。
2.2.6 技術條件限制原則
數字化內容選擇將受到現有技術條件的限制。與技術條件有關的因素有:數字化技術生成的文獻數字版與原始文獻包含信息的相符程度;數字資源顯示在用戶終端的質量;信息機構支持的現行平臺和網絡環境對數字資源的存取能力;數字資源網絡傳播速度的合理性;對未來用戶使用先進設備的預測,以免日后需重新掃描;搜索引擎對數字資源的索引能力等。
信息資源數字化生產涉及最多的是二維平面介質信息資源的數字掃描 (個別情況下采用數字拍照),以及模擬音頻的數字化轉換。
二維平面介質信息資源的類型包括印刷型文本、手稿、半色調型信息資源、連續色調型信息資源和混合型信息資源等5種類型。
目前實現二維平面介質信息資源數字化生產的主要設備是數字掃描設備和數碼拍照設備,并且前者占絕大多數。所以,一般情況下,數字化生產模式實際上是指數字圖像的掃描模式。掃描模式決定了從原始文獻中捕獲到的顏色信息的數量,也直接關系到形成的數字圖像文件的大小。要達到較好的掃描質量,前提之一是選擇正確的掃描模式。對某一特定類型的文獻選擇比較理想的掃描模式時,主要考慮擬掃描對象的特性和掃描結果的用途(如,彩色顯示,黑白顯示,還是準備使用OCR處理等)。目前,絕大部分數字圖像掃描設備都提供三種類型的掃描模式:黑白模式、灰度模式與彩色模式。
影響二維平面介質信息資源數字轉換質量的生產因素有:分辨率、位元深度、文件格式、圖像壓縮等。數字化生產系統包括硬件系統和軟件系統,前者主要有數字掃描設備、數字拍照設備、計算機系統及其相關存儲設備等,后者主要有圖像掃描軟件、圖像編輯軟件和圖像管理軟件等。數字化生產的質量管理涉及不同類型信息資源數字掃描質量調控,以及數字轉換產品的質量檢驗
音頻數字化是將在時間和幅度上連續變化的模擬音頻進行數字化處理,轉換成在時間上取樣和幅度上量化的離散的二進制數字信號的過程。在這個轉換過程中,涉及到主要參數有采樣頻率和采樣數位(也稱量化級),二者是決定數字音頻質量的主要因素。采樣是指用每隔一定時間間隔的信號樣本值序列代替原來在時間上連續的信號,即在時間上將模擬信號離散化,每秒的采樣次數稱為采樣頻率,以千赫茲(即,每秒幾千個樣本)來描述。在采樣結果中,每個樣值的幅度仍然是連續的模擬量,還需對其進行離散化處理,將其轉換為有限個離散值,才能最終用二進制編碼來表示其幅值,采樣位數是指表示振幅測量值的二進制碼的位數,其單位是比特(bit)。音頻數字化最常見的模式是脈沖編碼調制。
數字資源發布是信息資源數字化項目面向最終用戶提供服務的重要窗口。發布對象是數字化主文檔的網上發布級應用副本,發布過程包括數據庫建立和發布網站構建。發布數據庫包括數字對象數據庫和元數據數據庫,一般采用現成的商業化大型數據庫系統。發布網站則由數字化項目自己構建(或委托專業公司設計,但要項目本身提出質量要求)。
4.1.1 透明性
指網站能夠清晰地表達構建者的目的,并具有明顯的可識別特征。透明性體現在網站內容表達的清晰性、網址的可識別性和網站宗旨陳述的簡潔性等。
4.1.2 有效性
指對收藏的文獻資源進行選擇,并進行數字加工與發布,以方便用戶有效利用。該原則的核心在于網站內容。高質量網站的內容必須是經過精心選擇的、與主題相關的、有效的、正確的、配有合適注解和輔助信息的內容。有效性體現在發布內容的準確性、展現方式的合理性和導航的合理性等。
4.1.3 維護性
指網站應及時更新,以確保網站內容的時效性。維護性體現在過時信息存檔以及靜態信息刷新等。
4.1.4 可訪問性
指網站必須對所有用戶都是可訪問的,無論用戶采用什么技術,也不管他們的身體狀況存在有哪些訪問障礙。可訪問性體現在訪問技術的保障性、網站所有內容的可訪問性以及支持網站瀏覽技術的多樣性等。
4.1.5 用戶中心
指網站設計與維護必須考慮用戶需求,并通過網站評估和信息反饋等方式收集用戶意見和建議,確保網站的有用性、易用性和對用戶的吸引性。用戶中心體現在網站的用戶保障、用戶使用效果的反饋以及內容的可添加性等。
4.1.6 互操作性
指該網站與其他文化網站之間相互訪問的能力。互操作的實現將有助于用戶在更廣范圍內查找所需信息。互操作性體現在元數據的標準化、網站設計技術的標準化、元數據收割以及分布式檢索等。
4.1.7 產權保護
指有關網站使用過程中涉及的倫理與法律因素,包括網站發布內容的知識產權管理和用戶個人隱私的保護兩個方面。產權保護體現在發布內容擁有者的產權保護、網站構建者的產權保護、網站擁有者對發布內容侵權的防止、用戶個人隱私的保護以及網站內容下載的合法性等。
數字資源發布網站是文化遺產網站的重要組成部分,擔負著文化遺產的長期保存和用戶服務的重要使命。與一般網站相比,該類網站更重視數字資源的生產、存儲與使用。數字資源發布網站的生命周期包括的主要階段有網站規劃、網站設計、Web發布數據庫的建立、元數據數據庫的建立、網站制作、網站發布、網站的維護與更新。
[1] NINCH.The Price of Digitization:Resources[EB/OL].[2008-8-8].[2010-10-29].www.ninch.org/forum/price.resources.html.
[2] Carnegie Mellon University Libraries.Survey Results:The Random Sample Feasibility Study[EB/OL].[2007-1-8].[2010-11-10].http://www.library.cmu.edu/sm.html.
[3] Carnegie Mellon University Libraries.The Fine and Rare Book Study [EB/OL].[2009-1-9].[2011-1-01].http://www.library.cmu.edu/sm.html.
[4] The NationalScience Foundation(NSF).The Million Book Project Study[EB/OL].[2006-8-12].[2011-01-20].http://www.nsf.gov/news/index.jsp.
[5] Maxine K.Sitts.Handbook for digital projects:A ManagementToolfor Preservation and Access[EB/OL].[2009-12-19].[2011-02-20].http://www.nedcc.org/digital/dman.pdf.