章 杰 鑫,潘 悟 云
(上海師范大學 語言研究所,上海 200234)
文獻數字化建設,自上個世紀80年代開始,至今超過了30年,有不少產品面世并進入商業化應用。文獻數字化最根本的目的是要解決如何高效、準確、可靠地讓讀者查詢到自己所關注的東西,從這個角度而言,文獻數字化大致經歷了三個階段。
第一階段:文本數字化階段。這一階段的產品以文本方式進行檢索、展現,文本通過人工輸入、或者對影印紙質文獻進行OCR識別并校對后獲取。這個階段的產品以臺灣中研院的瀚典全文檢索系統為代表,能提供文本檢索、反色定位等功能,文獻的利用方式發生了革命性的變化。以往研究者要花費數個月甚至是數年時間翻閱大量文獻的工作,通過電子文本只要幾分鐘就能完成。但是這一階段的數字化產品也存在幾個缺陷:(1)用于檢索的文本有可信度問題。因為檢索的文本是通過人工輸入,或者 OCR識別獲得,都存在不忠于原版紙質文獻的問題,原因大致有兩個:1)輸入錯誤。用人工輸入或OCR得到的文本,錯誤當然是不可避免的。2)字符集規模限制導致的錯誤。目前普遍使用的七萬多字的Unicode字符集,在文獻數字化中顯然不夠用。此外,大量的異體字、通假字、避諱字,以及日、韓等國的漢字,有很多無法輸入。這些都會導致文本與原版紙質文獻之間的不一致。(2)必須查驗對應的紙質文獻。這一方面是由于檢索文本的可信度不夠,用戶不敢直接采信。另一方面,與檢索內容相關的一些其他信息,如頁數、行數、版本以及上下文內容等等,也許只能在原書中找到。……