趙海良
(浙江省人民政府地方志辦公室 浙江 杭州 310012)
地方志緣起于何時,學術(shù)界一直爭議頗多,各學者也是眾說紛紜。《山海經(jīng)》《周官》《史記》等各類古籍均被認為是方志之起源。劉緯毅所著《中國地方志》一書更是詳細列舉了多種關(guān)于方志起源的說法。不管方志起源于何時,有一點是眾人公認的,就是中國地方志歷史悠久,地方志文獻卷帙浩繁、種類繁多、內(nèi)容豐富。各類地方志文獻不僅僅是記載某一時期某一地域的自然、社會、政治、經(jīng)濟、文化等方面情況或特定事項的書籍文獻,更是地方歷史文化的積淀。而如何合理利用地方志資源,充分發(fā)揮其“存史、資政、教化”的作用,是地方志工作者面臨的難題。
現(xiàn)代信息技術(shù)的迅猛發(fā)展,改變了人們傳統(tǒng)的通過紙質(zhì)文獻來獲取信息、傳播信息的方式。據(jù)調(diào)查,以互聯(lián)網(wǎng)為代表的信息化手段,已成為人們獲取信息的主要方式[1]。地方志文獻的數(shù)字化建設也日益被重視,全國各地方志工作機構(gòu),都在建設自己的“文獻數(shù)據(jù)庫”、“省情數(shù)據(jù)庫”,“自20世紀90年代以來,我國地方志網(wǎng)絡建設在各地逐步開展起來。據(jù)有關(guān)方面統(tǒng)計,目前全國已建地情庫(網(wǎng))省級7個,市級63個,縣級154個。在建地情庫(網(wǎng))省級4個,市級21個,縣級54個。籌建地情庫(網(wǎng))省級2個,市級28個,縣級42個”[2]。同時,隨著新一輪修志工作的深入開展,信息化已成為重要的手段,以作者所在的浙江省為例,為《浙江通志》編纂工作專門開發(fā)了編纂信息系統(tǒng),從資料收集一直到審稿均在網(wǎng)上完成,這些信息化的手段為地方志文獻的數(shù)字化建設提供了基礎(chǔ)。
地方志文獻資源的數(shù)字化,不是簡單的將志書通過技術(shù)化手段放在計算機上進行瀏覽,其本質(zhì)是對方志文獻資源利用手段的深度開發(fā),這需要全國方志工作者的共同努力,但目前各地方志工作機構(gòu)的數(shù)字化建設都是“各自為戰(zhàn)”、“單打獨斗”,沒有統(tǒng)一的標準。
目前數(shù)字化后的地方志文獻資源存儲格式種類繁多,有常見的 txt、doc、pdf等,也有 chm、hlp、exe、html、txt、xml等較少見的格式。這些不同格式的文件格式,往往都需要各自專門的閱讀器才能進行瀏覽,相互之間難以兼容。即使同一種文件,也因編碼風格的不同,導致無法兼容。例如txt格式的文件,既有用ANSI編碼的,也有用Unicode、UTF-8編碼的。不同的編碼風格導致了即使看上去是同一種文件類型,也無法實現(xiàn)資源共享。
地方志文獻種類繁多,時間跨度大,既有舊志古籍,又有通志、年鑒,既有繁體字,又有簡體字、異體字。這導致各地對地方志文獻的數(shù)字化程度不一樣,有的在數(shù)字化的過程中,簡單的將地方志文獻數(shù)字化成全文格式,這樣方便于做志書的全文檢索,但無法有效展示志書的原貌,有些因為技術(shù)經(jīng)費等原因,將部分難以數(shù)字化,或者數(shù)字化技術(shù)要求高的舊志古籍簡單的做成圖片格式,這樣做雖然保留了志書的原貌,但無法做志書的全文檢索。
各類完成數(shù)字化的地方志文獻資源,需要一個專門的數(shù)據(jù)庫來存儲。而目前數(shù)據(jù)庫軟件種類繁多,有免費開源的數(shù)據(jù)庫軟件,例如MySQL,有需要付費的數(shù)據(jù)庫軟件,例如Oracle、MS SQL Server等,各地因為經(jīng)費、數(shù)據(jù)庫容量、技術(shù)難度等各方面情況不同,所采用的數(shù)據(jù)庫軟件也不盡相同。
地方志文獻資源數(shù)字化后,如何將其有效的利用起來是關(guān)鍵,志書的全文檢索是重要的手段之一,其可以將存儲于數(shù)據(jù)庫中整本志書的任意內(nèi)容快速準確的查找出來。但目前各地的全文檢索平臺也各自為用,有自己開發(fā)的、有購買第三方平臺的,雖然各全文檢索平臺的技術(shù)實現(xiàn)大同小異,但底層數(shù)據(jù)的存儲方式卻截然不同,這為不同檢索平臺的數(shù)字資源共享帶來了障礙。
以上幾個地方志文獻數(shù)字化關(guān)鍵技術(shù)規(guī)范的不統(tǒng)一,已然成為全國方志資源信息共享,自動化網(wǎng)絡系統(tǒng)建立,文獻資源廣泛傳播的重要阻礙。
在地方志文獻數(shù)字化技術(shù)規(guī)范的建設中,存儲格式、數(shù)字化程度、數(shù)據(jù)庫軟件、全文檢索平臺等幾個要素,看似毫無關(guān)系,其實是密切相聯(lián)系的,一個要素技術(shù)規(guī)范的建設,涉及其他幾個要素。這幾個要素之間,即相互支持,又相互制約。
地方志文獻數(shù)字化后,該存儲為何種格式,這是數(shù)字化規(guī)范建設的關(guān)鍵,上文提到過,在存儲格式上,有常見的 txt、doc、pdf等,也有 chm、hlp、exe、html、txt、xml等較少見的格式。每種格式都有其特點,各有優(yōu)劣,對于數(shù)據(jù)存儲格式的標準,筆者認為不能一刀切的說一定要采用某一種格式,而是應該根據(jù)所要數(shù)字化的地方志文獻的類型來選擇。
對于新編志書,年鑒等可以采用txt、doc等格式,因為此類文獻基本都是當代所編,無需對文獻外觀原貌進行真實還原,只需確保文獻內(nèi)容準確無誤即可,且當代所編志書基本都有電子版本,無需繁瑣的數(shù)字化過程,即節(jié)約成本又節(jié)省時間。
對于文獻原貌保存要求較高,不需要全文檢索的舊志古籍,可以采用圖片、pdf或者DjVu格式。但長久以來,圖像類文件都有一個清晰度與文件大小之間的平衡關(guān)系,就是如果要保證文字和影像的清晰效果,就必須要用較高的分辨率來進行掃描,其所得文件往往十分巨大,需要占用很大的存儲空間。想要減小文件的大小,就不得不降低分辨率,這也意味著圖像質(zhì)量和可辨性得不到保證。pdf又稱便攜文件格式,是由Adobe公司所開發(fā)的獨特的跨平臺文件格式,其主要特點是會忠實地再現(xiàn)原稿的每一個字符、顏色以及圖象[3]。DjVu是由AT&T實驗室自1996年起開發(fā)的一種圖像壓縮技術(shù),已發(fā)展成為標準的圖像文檔格式之一,國際上大量應用實例已證明,DjVu可替代PDF成為網(wǎng)絡傳輸掃描文檔、數(shù)碼照片、圖像文件的主流技術(shù)[4]。相對于pdf格式,DjVu格式即保證了文件的清晰度,又可以減少文件的大小,例如一份60頁A4大小公司報告用PDF格式來發(fā)布,其大小大概在4MB左右,而掃描之后以 DjVu格式保存,其文件大小則不超過 800K[5]。
對于文獻原貌保存要求較高,同時又要進行全文檢索的部分舊志古籍,可以采用雙層pdf格式。所謂雙層pdf是指將文獻掃描成jpg、png等圖像格式,然后加工輸出為雙層(圖象層和文字層)PDF文件。雙層PDF文件其圖文位置上下一一相對應,既可以完整保留原始版面效果,又可以通過下層的文字信息支持選擇、復制、全文檢索等功能。雙層pdf相較于單層圖片形式的pdf文件,其主要優(yōu)點是可以提供全文檢索功能,但工序是最為繁瑣的。
相對于數(shù)據(jù)存儲格式的五花八門,數(shù)據(jù)庫軟件的選擇性就比較單一,目前主流的數(shù)據(jù)庫軟件基本就 MySQL、Oracle、MS SQL Server三分天下,其中MySQL和Oracle同屬于甲骨文公司,MSSQL Server屬于微軟公司。各有各的優(yōu)點和缺點,且最重要的是,存儲在這三種數(shù)據(jù)庫中的數(shù)據(jù),可以通過技術(shù)手段互相導入和導出。但實現(xiàn)這一功能的前提,就是文獻數(shù)字化后存儲在數(shù)據(jù)庫中的字段需統(tǒng)一。所謂字段,可以理解為對文獻的一種描述要素,例如作者為一個要素,出版社為一個要素,出版時間為一個要素,將所有要素集合在一起,就可以詳細的描述一本文獻。同時,當我們提供準確、詳細的要素后,即可以快速的定位一本文獻。北京大學數(shù)字圖書館研究所曾專門對中文元數(shù)據(jù)標準做過研究[6],參照其研究成果,筆者認為地方志文獻的要素(字段)設計規(guī)范,可以如表1所示。

表1 地方志文獻的要素(字段)設計規(guī)范
規(guī)范、統(tǒng)一的要素設計,是不同數(shù)據(jù)庫數(shù)據(jù)互導的關(guān)鍵,以上設計規(guī)范,只是筆者本人粗略的設計,如何借鑒中文圖書電子數(shù)據(jù)的要素設計規(guī)范,制定一套符合地方志文獻特色的要素規(guī)范,需要全國方志工作者的共同努力。
地方志文獻數(shù)字化一個重要的目的是為了更加方便的“用志”,而志書的全文檢索平臺,是最便捷的手段。一套優(yōu)秀的檢索平臺,不僅需要提供全庫或分庫、單本圖書的全文檢索功能,同時還需提供基于文章標題、文章內(nèi)容、作者等的智能分項檢索功能。同時由于方志文獻的特點,需要滿足大字符集支持。
目前全文檢索平臺種類很多,有地方志工作機構(gòu)自己研發(fā)的,也有專門軟件公司研發(fā)的,常見的有清華同方異構(gòu)統(tǒng)一檢索平臺、CALIS統(tǒng)一檢索平臺、TRS資源整合門戶、復鑫跨庫檢索平臺、天宇異構(gòu)資源統(tǒng)一檢索平臺等[7]。因為利益、技術(shù)整合難度等各方面原因,全文檢索平臺的標準是最難統(tǒng)一的。對于此項規(guī)范的建立,應遵循以下幾個原則:
1.開放性
在全文檢索平臺的標準的制定過程中,應首先考慮采用已經(jīng)成熟的、被用戶廣泛接受的開放標準。此舉既可以有效避免無用的重復勞動,又能保證較高的技術(shù)水平。
2.實用性
地方志數(shù)字化后,最終還是需要給人“用”,全文檢索平臺是“用”的關(guān)鍵手段,系統(tǒng)在開發(fā)的時候,應注重實用性,易用性,在滿足基本基礎(chǔ)上,應根據(jù)地方志文獻的自身特點,設置符合實際需求的功能。
3.前瞻性
科技的發(fā)展日新月異,同樣,全文檢索平臺在制定的過程中,也應充分跟上時代的步伐,為以后新技術(shù)的支持提供預留的接口。
近些年來,圖書館界的文獻數(shù)字化標準制定工作在一定程度上受到了重視。從2002年開始,由科技部委托國家科技圖書文獻中心協(xié)調(diào)中國科學院文獻情報中心、中國科學技術(shù)信息研究所、國家圖書館、中國高等教育文獻保障系統(tǒng)管理中心、北京大學圖書館、上海圖書館等21家單位聯(lián)合進行了圖書文獻數(shù)字化的相關(guān)標準規(guī)范研究[8]。作為與地方志工作部門類似的檔案部門,很早就注意到了檔案文獻數(shù)字化標準建設的重要性,相繼出臺了《電子文件歸檔與管理規(guī)范》《紙質(zhì)檔案數(shù)字化技術(shù)規(guī)范》《縮微膠片檔案數(shù)字化技術(shù)規(guī)范》等規(guī)范性的文件。但目前在全國的方志系統(tǒng)內(nèi)尚未形成一個統(tǒng)一的強制性文獻數(shù)據(jù)化的標準,一些信息化建設走在前列的省份已經(jīng)建設成了規(guī)模龐大的文獻數(shù)據(jù)庫,形成了自己的一套數(shù)據(jù)庫標準。國務院辦公廳于2007年1月發(fā)布了《關(guān)于進一步加強古籍保護工作的意見》,文件明確指出:“進一步加強古籍整理、出版和研究利用、制訂古籍數(shù)字化標準,規(guī)范古籍數(shù)字化工作,建立古籍數(shù)字資源庫”,對全國地方志志工作機構(gòu)而言,建立一套全國性的地方志文獻資源數(shù)字化標準,已經(jīng)是迫在眉睫的事情。
[1]《中國互聯(lián)網(wǎng)絡發(fā)展統(tǒng)計報告》2014年7月.
[2]《中國新編地方志二十多年輝煌成就》,《中國地方志》.2006年第6期.
[3]百度百科,http://baike.baidu.com/view/15963.htm?fr=aladdin.
[4]百度百科,http://baike.baidu.com/view/69557.htm?fr=aladdin.
[5]梁民,王北.《DJVU格式與PDF格式的比較》,《電腦知識與技術(shù)》.2009年第1期.
[6]肖瓏,陳凌等.《中文元數(shù)據(jù)標準框架及其應用》,《大學圖書館學報》.2001年第5期.
[7]胡娟.《數(shù)據(jù)庫統(tǒng)一檢索平臺的功能比較》,《現(xiàn)代情報》.2005年第4期.
[8]周琳結(jié).《我國古籍書目數(shù)據(jù)庫建設標準規(guī)范探討》,《圖書館建設》.2010年第2期.