文/王 梅
新修訂的《中華人民共和國檔案法》第五章“檔案信息化建設”第38條提出,“國家鼓勵和支持檔案館和機關、團體、企業事業單位以及其他組織推進傳統載體檔案數字化。”《紙質檔案數字化規范》明確“數字化”是指“利用計算機技術將模擬信號轉換為數字信號的處理過程”。換言之,檔案數字化就是指利用掃描儀等設備對檔案進行數字化加工,使其轉化為存儲在磁帶、磁盤、光盤等載體上的數字圖像,并按照檔案內在聯系,建立起目錄數據與數字圖像關聯關系的處理過程。其中,“掃描”是整個檔案數字化過程的關鍵環節,掃描的質量直接影響著檔案數字化成果的質量。其中,色彩模式、存儲格式、分辨率、亮度及優化設置等相關環節的參數設置,關乎檔案數字化成果的質量。因此,熟悉并掌握檔案數字化掃描的相關參數原理內容、設置方法及主要內容,對做好檔案數字化工作至關重要。
數字世界里表示顏色的一種算法,即色彩模式。它是一種表示掃描儀分辨色彩或灰度細膩程度的指標。色彩模式又叫色彩位數、色彩分辨率,理論而言,色彩分辨率越高,顏色就越逼真,圖形文件體積越大。掃描儀的色彩模式通常包括彩色、灰度、黑白三種。從掃描儀的發展歷程來看,早期主要是24位色彩,后來逐漸發展成為36位色彩、48位色彩,但這三種色彩模式受人眼及顯示器因素制約,差異幾乎不可見。目前,檔案數字化掃描中,色彩模式主要有三種:黑白二值、灰度、24位色彩。
掃描儀黑白二值模式是以黑白二色(即1個二進制位)表示圖像的色彩模式。黑白照片或紙質檔案可直接采用黑白二值色彩模式進行掃描。主要優點:顏色少,掃描后生成的電子文件小,節約存儲空間,提升運行效率。適用范圍:黑白照片或黑白文稿檔案,以及非黑即白頁面、無插圖票據等,常選用黑白二值色彩模式。若要進行OCR(文字識別),選用黑白二值色彩模式掃描的圖像,后期的識別速度、識別準確率都高于灰度、24位色彩模式。
掃描儀灰度模式是以灰色元素(即8個二進制)表示圖像的色彩模式,使圖像呈現出明暗變化。灰度模式掃描后的檔案如“黑白照片”,但由于灰度模式色彩存在較大失真,有色文件或照片多選用24位真彩模式。灰度色彩模式,主要優點:圖像呈現出較為顯著的明暗變化,掃描后的數字文件體積較小,所占存儲空間較小。適用范圍:老舊黑白照片或微微泛黃的檔案資料,為節約存儲空間,常選用灰度模式。針對老舊黑白照片或泛黃檔案應選用灰度色彩模式,而不可選用黑白二值色彩模式,否則,掃描后,其圖像背景會出現黑點,嚴重的甚至會出現黑塊。
掃描儀24位色彩模式是以24個二進制位來表示像素顏色的模式,最多可表示2種顏色。與36位色彩和48位色彩模式的差別難以通過人眼或顯示器分辨,一般用于有色文件選擇24位色彩模式即可,經掃描后可直接生成豐富色彩圖像,保持彩色照片或有色檔案的原真性。24位色彩、36位色彩或48位色彩模式的不足在于其掃描后的文教較大,掃描及運行速度較慢。適用范圍:紙質紅頭文件;彩色插圖或彩色照片文件;嚴重泛黃的紙質檔案。主要優點:保留了紅頭文件、彩色文件的原真性。

表1:不同色彩模式特點及適用范圍
綜上,檔案數字化掃描時選擇色彩模式應考慮的因素包括:1)原件情況。對于影像清晰、檔案原件色彩簡單、色彩對比強烈的原件,采取3種色彩模式掃描的圖像清晰程度差異不明顯。影像不清晰,以及色彩對比不強烈的原件,采取彩色模式掃描的圖像,在展現檔案原件細節、清晰程度等方面要明顯優于灰度模式或黑白模式掃描的圖像。2)硬件條件。傳統條件下,由于硬件所限,通常會綜合考慮圖像質量、訪問速度、存儲成本等因素選擇色彩模式。隨著技術的進步,硬件考量因素將越來越被弱化。3)后期應用。彩色模式可以轉換為灰度模式或黑白模式,為盡可能多地采集信息,彩色模式是最理想選擇。但是,對需要進行COM輸出的檔案,色彩模式對輸出效果的影響與縮微膠片輸出設備可接受的圖像色彩模式有很大關系。
由Aldus和Microsoft公司開發的一種圖像文件格式,是一種可壓縮保存的圖像存儲格式。TIFF格式存盤時一般會選擇相應項目,首先確定是PC機或是Mac機,是否需要LZW壓縮。由于TIFF格式不支持圖層,但支持A1pha通道,選擇LZW壓縮、選擇TIFF格式存盤時,能夠減少50%的存儲容量,且不影響圖像質量。TIFF格式存儲掃描后的圖像文件,一般應用于精度要求較高場合,是一種保真壓縮格式,但占用空間較大。
JPEG格式是一種常見的壓縮圖像文件格式,是由聯合照片專家組開發,存儲于要求圖像精度不高、存儲量大的場合,大多會選擇JPEG格式。JPEG格式是一種有損壓縮文件存儲格式,在存盤時通過選擇具體的壓縮比(圖像質量等級),確定相應的存儲格式。要求圖像存儲質量高清應選擇High8以上的高質量圖像壓縮方式,高清圖像模式壓縮條件下,其圖像容量較大;反之,圖像存儲容量變小,其質量相對就會降低。JPEG格式存儲屬于有損壓縮,易造成圖像數據損傷,但存儲容量大,適宜網絡傳輸。
作為JPEG格式的升級版,JPEG2000版壓縮率升高了30%左右。JPEG2000版支持無損壓縮和有損壓縮兩種,其最大特征在于實現漸進傳輸,即,首先傳輸圖像輪廓,再逐步傳輸圖像數據,提升圖像品質,使數字圖像由朦朧逐步清晰。且,JPEG2000支持“感興趣區域”特征,就影像上感興趣的區域進行壓縮,也可就指定區域先解壓縮。與傳統的JPEG相比,JPEG2000升級版具有顯著優勢,且向下兼容,取代傳統JPEG格式,符合檔案數字化信息網絡傳輸需要。
1996年,美國電報電話公司實驗室開發一項新的圖片壓縮技術——DjVu,目前,其已成為標準圖像文檔存儲格式之一,逐漸成為網絡傳輸掃描文件、數碼照片、圖像文件等領域的主流技術之一。該技術科將所有傳統印刷資料實現網上高速傳播,壓縮比可達到1000∶1,300dpi分辨率的彩色頁面可從25MB壓縮至30-80KB,且圖像質量依然很高。能夠分別儲存于不同層,再每一層進行最優化壓縮,分別圖片中文字及圖片。DjVu下載后的圖像可直接存儲于計算機內存,在瀏覽器中快速移動、縮放,該技術在靜態存儲及網絡傳輸方面具有很大優勢。雖然該技術并未被納入國家標準,但杭州市檔案館等國內部分檔案館實現該技術的應用,滿足檔案數字化掃描存儲,具有較強的應用和推廣價值。

表2:不同存儲模式特點及適用范圍
綜上,數字檔案掃描選擇相應的存儲格式,需要考慮:保證數字檔案原真性,在此基礎上應選擇占用存儲空間較小的存儲格式;兼容性較高的存儲格式;以及具有強大技術力量支持或者已列入標準化存儲格式。
衡量數字檔案掃描儀對圖像細節表現能力的參數通常用分辨率,即,每英寸掃描圖像中含有像素點的個數表示,記作dpi(dot per inch)。分辨率是數字檔案中最重要參數,分辨率越高表明每英寸掃描圖像中的像素點的個數越多,圖像越清晰,但并不意味著分辨率越高,其效果就越好。分辨率對文件大小、掃描速度、圖像質量和后期操作等都有不同程度的影響。
一是文件大小。檔案數字化掃描,分辨率設置越高,所產生的圖像文件就越大。通常,一張A4文件用黑白二值格式掃描成TIFF 格式圖像,其分辨率設定為150dpi、200dpi、300dpi時,其文件大小分別為18K、29K、46K左右,而以24位真彩模式掃描成JEPG格式圖像,將其分辨率設定為150dpi、200dpi、300dpi時,其文件大小分別為290K、452K和871K,可見,分辨率越高,圖像文件就越大。二是掃描速度。檔案數字化掃描,分辨率設置越高,掃描的速度就會越低。通常,一張A4文件用黑白二值格式掃描,分辨率對其掃描速度的影響不明顯,但,選用24位真彩模式掃描,分辨率每提高50dpi,其掃描速度就會明顯受到影響。分辨率提高一倍,掃描所需時間就會增加一倍。如一名掃描員一天掃描1500張,因分辨率設置而使每一張掃描的時間多花2秒,一天就會多花300秒,即,50分鐘。三是圖像質量。分辨率的增加對圖像質量的影響呈現出遞減效應,即,邊際效用遞減。一開始,分辨率每增加一定量,其圖像質量就會顯著提高,但隨著分辨率的不斷提高,對圖像質量的影響幅度就會慢慢降低,當到達一定臨界點后,分辨率幾乎不影響到圖片質量。因此,一味追求分辨率在無法提升圖片質量的情況下,還會影響檔案數字化掃描效率,會起到反向效果。

表3:不同分辨率文件大小及掃描速度
四是后期操作。檔案數字化掃描分辨率設置過高,會影響其后期的掛接、處理速度,以及文件閱讀的速度,傳輸緩慢。
綜上,檔案數字化掃描分辨率設置沒有“最大”“最小”,一般分辨率參數設置≥100dpi,當文檔字體偏小、清晰度較差時,可適當提升分辨率。
亮度是指檔案數字化掃描過程中圖像的明暗程度參數。適當調整圖像明暗程度,及其對比度值,會提升圖片識別率。通常,設定檔案數字化掃描亮度、對比度值,應保證檔案掃描后圖像中文字筆畫均勻、較細,沒有明顯斷點。因為,亮度太亮,掃描后圖像中的文字筆畫就容易出現斷裂或殘缺不全;而亮度太暗,圖像中文字筆畫又互相粘連,甚至漆黑一團。因此,針對底色較淺或者紙張光面的檔案資料進行數字化掃描,應適當調低其亮度;反之,對底色較深或者紙張較暗的檔案資料進行掃描,以及筆畫較粗、字體較小的黑體、楷體字在掃描時,應適當地調高其亮度。檔案數字化彩色模式掃描,也會存在同樣掃描儀掃描的成品結果不相同的情況,究其原因,主要是計算機顯示器亮度及對比度差異;掃描儀色彩校正軟件出現問題,按照軟件推薦的參數調整較色軟件“亮度”“對比度”。還要注意掃描軟件中Gamma參數設置,該參數設置越大,亮度越高,紙質顏色虛假失真。通常情況下,Gamma參數設置為1.4,報紙、雜志等印刷品Gamma參數設置為1.8左右,檔案數字化掃描文件放置網頁,則Gamma參數設置為2.2左右。
綜上,隨著數字時代的到來,數字化是檔案發展的趨勢和方向,也是提高檔案管理效率,發揮檔案價值和功能的重要手段。其中,色彩模式、存儲格式、分辨率和亮度等參數的科學設定,是提升數字化掃描關鍵環節,也是增強檔案數字化質量,適應數字化時代發展的現實需要。