摘要:古籍檔案的保存與使用是目前我國乃至世界的一個至關重要的研究課題,古籍數字化已取得了很大成果,但依然存在底本繁復、選擇眾多、協調機構和著錄規則不統一等問題。因此,要加強古籍檔案標準的研究和制定工作;慎重選擇底本,搞好古籍資源庫建設;同時要做好人員的培訓工作。
關鍵字:中文 古籍檔案 數字化
古籍屬于非再生性的文化遺產,古籍隨著時間的推移,在數量上將會不斷減少。如何保存好現有古籍,已成為檔案和圖書界最為嚴峻的任務。國外收藏的中文古籍數量目前還沒有一個確切的統計,但大部分古籍正遭受殘損亟待搶救的情況是不爭的事實。由于圖像掃描技術具有簡單快捷、成本低廉且保存長久等優勢,古籍數字化應該是解決這一問題的有效途徑。
一、我國古籍數字化的研究現狀
為了傳承中國傳統文化,香港、臺灣和大陸地區的古籍數字化形成了互為補充、共同發展的局面。
1.港臺地區的古籍數字化情況
20世紀80年代,臺灣和香港就開始了古籍的數字化工作。上世紀80年代,臺灣中央研究院開始了“史籍自動化計劃”,建立了廿五史全文資料庫。1988年,香港中文大學中國文化所研究成立“漢達古文獻數據庫中心”,是研究所“古文獻數據庫研究計劃”的專門出版單位,也是香港從事古籍數字化工程的中堅力量。
2.中國大陸古籍數字化研究現狀
與港臺相比,大陸的古籍數字化工作起步稍晚,但發展迅速,大有后來居上之勢。北京書同文數字化技術有限公司制作了文淵閣《四庫全書》(與迪志文化出版有限公司合作,2000年完成)、《四部叢刊》(2001年完成)、《歷代石刻史料匯編》(2004年完成)、《十通》(2004年完成)、《大清五部會典》(分別編撰于康熙、雍正、乾隆、嘉慶、光緒五朝)、《大清歷朝實錄》等電子文獻。北京愛如生數字化技術研究中心是大陸很有實力的古籍數字化專業公司,它制作完成的數字化古籍總數在3萬種以上,是目前大陸制作數字化古籍最多的公司。同時,一些大型的網站也在開發古籍數字化的工作。比如,國學網依托首都師范大學組織國內一批文史專家,經過長達多年的資料搜集,電子化校勘, 建成了一個總字數達8億的大型中華古籍全文數據庫——《國學寶典》。
二、中文古籍數字化存在的問題
1.版本眾多,底本的選擇優劣不一
中華民族文化源遠流長,各種典籍版本眾多,僅《紅樓夢》的版本就可分為兩個系統:一是八十回抄本系統,題名《石頭記》,大都附有脂硯齋評語,又名“脂本”系統。另一種是一百二十回本系統,即程高本,有所增刪。 這兩個系統中又有甲戌本、乙卯本、庚辰本、戚序本等等。古人強調,“書非校不能讀也”。因此在進行古籍數字化時如何選擇善本作底本,同時也要和其他的一些版本精心校對拾遺補闕等。并且由于保存條件以及紙張本身的原因,各種善本藏書很多已經受到了損毀,字跡不清、殘缺等等現象嚴重。
2.缺乏統一的協調機構及著錄規則
從2002年開始,中國科學院文獻情報中心、中國科學技術信息研究所等21家單位制定了一些與中文古籍數字化相關的標準和規范,如:《古籍描述元數據著錄規則》、《古籍描述元數據規范》、《輿圖描述元數據著錄規則》、《輿圖描述元數據規范》、《拓片描述元數據著錄規則》、《拓片描述元數據規范》、《家譜描述元數據著錄規則》、《家譜描述元數據規范》等等。但各館及數字資源生產商都是各自為戰,給將來的統一檢索留下隱患。因此,古籍數字化工作亟須一套完整的標準規范。
3.古籍數字化過程中的相關技術問題
漢字的處理是古籍數字化工作的重點和難點問題。這與電子文本需要字庫支撐的特點有直接的關系,而字庫中漢字容量是有限的。古籍中眾多繁體字、異體字、通假字、避諱字的存在,前人編撰古籍技術的不規范,都使計算機的文字編碼不敷應用。目前業界大多采用Unicode作為文字處理的標準,但Unicode定義的漢字也只有7萬多,并不能囊括現有古籍中的全部漢字,可以說缺字是古籍數字化的瓶頸。
OCR雖然是一種較為先進的自動化信息資源輸入技術,但對圖像質量、文字規范化程度要求較高,在對近現代文獻的數字化工作中應用較廣。由于古籍普遍存在字跡模糊,墨點、污漬和霉斑較多的特點,如果在OCR處理過程中,不能有效識別這些信息,在電子文本上就會留下大量亂碼和不規則暗痕。部分手抄本古籍則無法通過OCR識別原文內容。
三、關于古籍數字化的相關建議
1.加強古籍數字化標準的研究和制定工作
要想建立一個完整的中國古籍數據庫,使用戶一上機就能縱覽古籍全貌,按圖索驥,用其所需,就要實行統一的、行之有效的機讀目錄格式,重視統一標準的研究和制定工作,是古籍數字化資源共享首先要解決的問題。古籍數字化只有在題名、編著人、卷冊頁碼、刻工、文獻形態等條目上實現系統完善的著錄,執行統一的分類標準和分類原則,才有可能使制作出來的產品易于讀者操作和便于讀者訪問,實現古籍數字化成果和價值真正意義上的資源共享。這些標準的制定不僅要由圖書情報界、信息產業界和與標準相關的軟件開發商參與而且也要有從事古籍整理的專業人員參與,只有這樣才能為讀者提供一個共享古籍文獻的統一平臺。
2.慎重選擇底本,搞好古籍資源庫建設,實現古籍檔案檢索網絡化
在底本的選擇上,慎之又慎,優中選優,善本的損毀程度直接決定了所制作的電子產品的優劣,所以如何選擇底本,應以善本為要。善本,通俗的說,就是古書中保存較好的書。善本是我國珍貴的文化遺產的一部分,合理利用,認真選擇,利用電子版本保存更加有利于我國文化遺產的保存。
3.提高人員素質
從事古籍數字化工作的人員既要掌握古籍整理的專業知識,又要精通現代信息技術。因此古籍資料數字化是傳統學術方法與現代科學技術的結合。要確保古籍數字化工作的順利開展,急需培養一批既具備古籍整理知識又能熟練應用現代信息技術的高層次復合型人才,不僅要意志堅定,不為金錢名利所動,而且要具有一定的文化修養和崇尚科學的精神。
參考文獻:
1.毛建軍.古籍數字化的概念與內涵[J].圖書館理論與實踐,2007(04).
2.郝淑東,張亮,馮睿.古籍數字化的發展概述[J].情報探索,2007(07).
3.毛建軍.歐美地區中文古籍數字化概述[J].數字與縮微影像,2008(01).
4.孟忻.古籍數字化的現狀與發展方向[J].中國索引, 2008(01).
5.黃顯功.上海圖書館的家譜數字化資源服務——古籍保護效果的一個實例[J].圖書館學刊, 2008(01).
作者單位:河北省交通職業技術學院
河北師范大學圖書館