隨著信息技術(shù)、網(wǎng)絡(luò)技術(shù)、數(shù)據(jù)庫(kù)等技術(shù)的迅速發(fā)展及其在各領(lǐng)域的廣泛應(yīng)用,社會(huì)信息流通的基礎(chǔ)結(jié)構(gòu)發(fā)生了根本性的變化,檔案數(shù)字化的建設(shè)勢(shì)在必行①。民國(guó)檔案年代久遠(yuǎn),記載著民國(guó)社會(huì)歷史的原貌,反映著民國(guó)社會(huì)發(fā)展的軌跡。將館藏民國(guó)檔案數(shù)字化,對(duì)于繼承和保護(hù)人類(lèi)寶貴的文化財(cái)富,無(wú)疑是最有意義的。為此,筆者就檔案數(shù)字化建設(shè)作粗淺的探討,與檔案界同行交流,以推進(jìn)檔案數(shù)字化的健康發(fā)展。
一、檔案數(shù)字化
檔案數(shù)字化就是將存儲(chǔ)于傳統(tǒng)載體上的檔案信息進(jìn)行數(shù)字化。它利用掃描、照相及其他數(shù)字轉(zhuǎn)換技術(shù)、將紙質(zhì)及其他載體中記錄的傳統(tǒng)檔案信息(模擬形式)轉(zhuǎn)換成可以被計(jì)算機(jī)識(shí)別和處理的數(shù)字形式的過(guò)程。數(shù)字化檔案的最大特點(diǎn)是能夠通過(guò)網(wǎng)絡(luò)迅速流動(dòng),徹底改變檔案的利用方式,促使檔案管理從檔案的保管、利用職能向信息采集、信息管理和信息服務(wù)職能轉(zhuǎn)變。
二、檔案數(shù)字化面臨的問(wèn)題
近些年來(lái),為充分利用現(xiàn)代信息技術(shù)為檔案的管理與利用服務(wù),檔案界對(duì)檔案數(shù)字化進(jìn)行了理論研究,同時(shí)全國(guó)各地的一些檔案館也開(kāi)展了積極的嘗試,但是在檔案數(shù)字化過(guò)程中也面臨著一些問(wèn)題。
1.標(biāo)準(zhǔn)問(wèn)題
數(shù)字化標(biāo)準(zhǔn)是數(shù)字化建設(shè)規(guī)范和高效的保障,是穩(wěn)步推進(jìn)檔案數(shù)字化建設(shè)的基礎(chǔ)。但目前檔案數(shù)字化標(biāo)準(zhǔn)化建設(shè)還處在簡(jiǎn)單、孤立、單個(gè)的狀態(tài),還沒(méi)有形成完整的體系。全國(guó)檔案數(shù)字化無(wú)相關(guān)數(shù)據(jù)標(biāo)準(zhǔn),不同檔案部門(mén)數(shù)據(jù)結(jié)構(gòu)格式不統(tǒng)一,盡管可以通過(guò)大量的元數(shù)據(jù)來(lái)克服這樣不一致的問(wèn)題,但不利于網(wǎng)絡(luò)條件下檔案信息的高效率共享。檔案數(shù)字化標(biāo)準(zhǔn)的缺位與滯后,已成為制約檔案數(shù)字化建設(shè)的瓶頸;檔案管理軟件低水平與數(shù)據(jù)壁壘現(xiàn)象,已成為阻礙檔案數(shù)字化發(fā)展的阻力②。
2.優(yōu)選問(wèn)題
長(zhǎng)期以來(lái),受歷史檔案“片紙只字不得銷(xiāo)毀”思想影響,在民國(guó)檔案接收進(jìn)館過(guò)程中,采取“有文必收,有檔定管”的態(tài)度,永久保管。這樣,不免將內(nèi)容極具一般的事務(wù)性文件、零散性文件、重復(fù)性文件與體現(xiàn)民國(guó)時(shí)期機(jī)關(guān)主要職能的業(yè)務(wù)性文件交織在一起,這種“魚(yú)龍混雜,玉石不分”的館藏現(xiàn)象,造成了“館藏的虛腫,內(nèi)容的龐雜”,影響著館藏檔案的優(yōu)化管理。在當(dāng)前檔案數(shù)字化工作中哪些內(nèi)容優(yōu)先數(shù)字化,哪些全宗優(yōu)先數(shù)字化,哪些全宗暫緩數(shù)字化等,這些問(wèn)題都很難明確。極端的做法是盡其所能通過(guò)鍵盤(pán)、采集卡及掃描設(shè)備等將其內(nèi)容全部數(shù)字化③。目前,二史館共收藏有940多個(gè)全宗,計(jì)180多萬(wàn)卷檔案,排架長(zhǎng)度達(dá)5萬(wàn)余米,繞南京城墻1.5周④,如果將這些檔案全部數(shù)字化,需耗時(shí)20年。
3.檢索問(wèn)題
檔案信息檢索是館藏檔案數(shù)字化基礎(chǔ)工作的重中之重。數(shù)字化的館藏檔案,不僅應(yīng)該是經(jīng)過(guò)系統(tǒng)化整理的,而且是建立了能與全文數(shù)字化信息鉤鏈檢索的案卷級(jí)或文件級(jí)機(jī)讀目錄。因此,必須處理好館藏檔案實(shí)體整理中的遺留問(wèn)題,完善案卷級(jí)目錄的主題揭示和加強(qiáng)文件級(jí)目錄的編制以及目錄數(shù)據(jù)庫(kù)的建設(shè)。
三、檔案數(shù)字化對(duì)象的界定
民國(guó)檔案數(shù)量浩繁,而資金和人力資源相對(duì)有限,檔案數(shù)字化不可能一步到位。因此,我們應(yīng)該從實(shí)際出發(fā),采取優(yōu)先原則進(jìn)行檔案數(shù)字化⑤。
一是館藏珍貴檔案應(yīng)優(yōu)先數(shù)字化。各檔案館都有其最為珍貴的“鎮(zhèn)館之寶”,從保護(hù)人類(lèi)歷史遺產(chǎn)和搶救的角度出發(fā),這些特藏應(yīng)該成為數(shù)字化的首選對(duì)象。
二是瀕危、經(jīng)過(guò)鑒定確認(rèn)具有重要保存和使用價(jià)值的檔案應(yīng)優(yōu)先數(shù)字化。此舉有利于加快搶救與妥善保存這些反映民國(guó)時(shí)期歷史進(jìn)程、社會(huì)變遷等重大歷史事件的瀕危檔案信息。
三是具有館藏特色的檔案應(yīng)優(yōu)先數(shù)字化。選擇本館獨(dú)有、特有的資源進(jìn)行檔案數(shù)字化,可以突出自己的特色,實(shí)現(xiàn)優(yōu)勢(shì)互補(bǔ)和共享。
四是利用率高、需求大、開(kāi)放的檔案應(yīng)優(yōu)先數(shù)字化。這樣不僅可以發(fā)揮館藏檔案的社會(huì)效益和經(jīng)濟(jì)效益,而且有利于對(duì)檔案原件的保護(hù)。
二史館在長(zhǎng)期的館藏建設(shè)中形成了自己的核心館藏,它們形成時(shí)間早、影響范圍廣、使用價(jià)值大、利用頻率高。早在上世紀(jì)六十年代,老一代檔案工作者為適應(yīng)當(dāng)時(shí)形勢(shì)的需要,從實(shí)體館藏150萬(wàn)卷,700多個(gè)全宗的基礎(chǔ)上,精心選出74000多卷重要檔案。雖然這些檔案不能代表館藏中極具重要價(jià)值檔案的全部,卻是二史館館藏最為核心檔案的一部分,成為館藏檔案中利用最頻繁和最有亮點(diǎn)的檔案。我們應(yīng)該在尊重前人勞動(dòng)成果基礎(chǔ)上,將這些檔案優(yōu)先進(jìn)行數(shù)字化運(yùn)作。
四、檔案數(shù)字化建設(shè)
1.檔案目錄數(shù)據(jù)庫(kù)
由于館藏檔案歷史跨度大,數(shù)量多,早期檔案整理編目工作較粗,目錄數(shù)據(jù)庫(kù)質(zhì)量不高。例如案卷過(guò)大過(guò)厚,目錄籠統(tǒng)不準(zhǔn)確,不能反映卷內(nèi)內(nèi)容或只反映部分內(nèi)容等,造成大量有價(jià)值的信息沒(méi)有被揭示出來(lái),降低了檔案利用的效益。2009年4月我館正式啟動(dòng)館藏檔案數(shù)字化掃描工作,先期將教育部全宗和內(nèi)政部全宗進(jìn)行整理編目,共計(jì)36931條目錄,比原來(lái)增加了6000多條,解決了部分案卷過(guò)厚、標(biāo)題不準(zhǔn)確、檔案著錄項(xiàng)缺失(如形成時(shí)間、責(zé)任者不詳、事由不清)等問(wèn)題,使整理后案卷標(biāo)題規(guī)范,主題清晰,能夠全面反映卷內(nèi)文件內(nèi)容。然后將這些優(yōu)質(zhì)目錄和規(guī)范數(shù)據(jù)輸入計(jì)算機(jī)檔案管理系統(tǒng),形成的新案卷目錄數(shù)據(jù)庫(kù)質(zhì)量大為提高。同時(shí),也為今后數(shù)字化全文掃描準(zhǔn)確掛接,為檔案利用者快速和準(zhǔn)確查詢提供了重要保證。
2.紙質(zhì)檔案全文數(shù)字化
通過(guò)掃描儀、數(shù)碼相機(jī)對(duì)檔案原文進(jìn)行光學(xué)掃描,以圖片格式或光學(xué)字符進(jìn)入計(jì)算機(jī),形成圖像文件。之后可用OCR識(shí)別軟件,將掃描后的圖像文件轉(zhuǎn)換成文本文件。
掃描系統(tǒng)參數(shù)的選擇和確定對(duì)掃描數(shù)字影像質(zhì)量有著較大影響,其中掃描分辨率直接關(guān)系到掃描文件的清晰度和還原效果。我們?cè)谶x擇分辨率時(shí)應(yīng)根據(jù)實(shí)際需要綜合考慮,包括掃描文件的可閱讀性、存儲(chǔ)空間、輸出打印質(zhì)量等。
根據(jù)檔案紙質(zhì)的不同,采用不同的分辨率。否則,有的幅面清晰度好;有的幅面則清晰度差。對(duì)大幅面的表冊(cè)和地圖等檔案資料進(jìn)行分塊掃描,形成的多幅圖像,要即時(shí)合并為一個(gè)完整的圖像,避免遺忘,以保證檔案資料數(shù)字化圖像的整體性。
3.多媒體檔案數(shù)字化
(1)照片檔案數(shù)字化。可采用以下兩種方法進(jìn)行輸入,一種是利用光電掃描儀將照片存貯到計(jì)算機(jī)中的磁盤(pán)上,然后將照片采用壓縮文件格式進(jìn)行縮小,解決因掃描圖象占用磁盤(pán)空間較大的問(wèn)題。另一種方法是采用數(shù)碼相機(jī)對(duì)照片進(jìn)行拍攝,圖像存貯在相機(jī)的磁盤(pán)上,再將圖像下載到計(jì)算機(jī)的硬盤(pán)或光盤(pán)上。對(duì)照片檔案進(jìn)行掃描轉(zhuǎn)換,照片檔案掃描采用圖形格式,一般格式為JPG、TIFF,并且采用較高的分辨率,便于日后沖洗和印刷利用。
(2)聲像檔案數(shù)字化。主要是對(duì)錄音帶、錄像帶進(jìn)行數(shù)字化處理。聲像檔案采用視頻采集卡和軟件進(jìn)行模數(shù)轉(zhuǎn)換,音頻數(shù)據(jù)采用MP3、WAV等格式存儲(chǔ),視頻數(shù)據(jù)采用MPEG、MOV等格式存儲(chǔ)。
(3)對(duì)數(shù)碼照相機(jī)和攝像機(jī)產(chǎn)生的已經(jīng)是數(shù)字化格式的多媒體檔案,則可直接進(jìn)入對(duì)應(yīng)的多媒體檔案管理系統(tǒng)。
(4)檔案縮微品的數(shù)字轉(zhuǎn)換。使用縮微膠片掃描儀進(jìn)行掃描,直接將縮微膠片轉(zhuǎn)換成數(shù)字信號(hào),避免再對(duì)紙質(zhì)原件進(jìn)行重復(fù)掃描。
4.實(shí)現(xiàn)掃描文件和已有目錄數(shù)據(jù)庫(kù)的掛接
通過(guò)檔案目錄數(shù)據(jù)庫(kù)和掃描文件的快速掛接,系統(tǒng)就可初步實(shí)現(xiàn)對(duì)目標(biāo)檔案的全文檢索。然而,真正意義上的全文檢索,不僅應(yīng)該構(gòu)建功能完備的檔案全文數(shù)據(jù)庫(kù),而且能夠集成數(shù)據(jù)庫(kù)檢索技術(shù)、全文檢索技術(shù)、圖像內(nèi)容檢索技術(shù)以及數(shù)字化音頻和視頻信息的檢索技術(shù)等。由于數(shù)字化檔案要求必須與檔案原件完全一致,然而目前的數(shù)字轉(zhuǎn)換、識(shí)別技術(shù)又不能完全滿足這一要求,因此,要實(shí)現(xiàn)數(shù)字檔案全文檢索,還有待技術(shù)的進(jìn)一步發(fā)展。
5.開(kāi)展網(wǎng)上利用服務(wù)
檔案數(shù)字化的目的就是要組織數(shù)字信息上網(wǎng),面向應(yīng)用,建立“活性”,實(shí)現(xiàn)檔案信息的網(wǎng)上檢索和利用,為用戶提供更好的服務(wù)。
五、結(jié)束語(yǔ)
檔案數(shù)字化是對(duì)檔案部門(mén)的挑戰(zhàn),也給檔案工作帶來(lái)了新的契機(jī)。面對(duì)新的挑戰(zhàn)和機(jī)遇,我們要勇于擔(dān)負(fù)起社會(huì)使命,以優(yōu)化理論為指導(dǎo),以用戶需求為導(dǎo)向,以檔案利用為目的,加快檔案數(shù)字化建設(shè)的進(jìn)程,實(shí)現(xiàn)“資源共享、保護(hù)檔案、傳承歷史”的愿景目標(biāo)。
注釋:
①熊飛,熊艷.城建檔案數(shù)字化建設(shè)[J].城建檔案,2009(2):12-13.
②趙寧燕等.檔案數(shù)字化建設(shè)危機(jī)[J].蘭臺(tái)世界,2008(10):6-7.
③王素立.檔案信息數(shù)字化邊界問(wèn)題的研究[J].檔案學(xué)通訊,2008(4):65-67.
④王俊明.九州圖籍歸天府——中國(guó)第二歷史檔案館解放初期接收政權(quán)檔案紀(jì)實(shí)[J].中國(guó)檔案,2009(9):37-39.
⑤陳光誼.淺談檔案數(shù)字化建設(shè)中應(yīng)遵循的幾個(gè)原則[J].四川檔案,2009(3):46-47.
⑥趙煒.檔案的影像化趨勢(shì)研究[J].中國(guó)檔案,2009(7):44-49.
作者單位:中國(guó)第二歷史檔案館