丁小蕾,程 序
(首都圖書館,北京 100021)
石刻是人類記述文明的重要載體,其功用可以“證經典之同異,正諸史之謬誤,補載籍之缺佚,考文字之變遷”。古人為研究石刻,常以紙覆之拓印其文字和圖案。在信息技術飛速發展的今天,紙質形態保存石刻原貌的拓片資源在數字技術的驅動下,以全新的方式呈現在研究者面前,中文石刻拓片數據庫便是這一方式的具體體現。筆者收集整理了全球范圍內通過互聯網提供服務的知名中文石刻拓片資源庫,詳見表1。

表1 全球范圍內通過互聯網提供服務的知名中文石刻拓片資源庫

(續表)
除上述數據庫外,我國還有多家單位擁有數量可觀的金石拓片,如:上海圖書館約有15萬件,中國科學院圖書館約有5萬件,山東省圖書館有2萬余件,浙江圖書館有3萬余件,中山大學圖書館有3.8萬件,故宮博物院有3萬余件,陜西師范大學圖書館有1.2萬件,天一閣有0.4萬余件等。雖然我國拓片收藏機構眾多,但進行數字資源建設的并不多,究其原因,一方面是收藏機構對拓片資源建設的重視程度不夠,另一方面是拓片資源的整理和編目難度較大,需要投入大量的人力、物力和財力,這些都是制約拓片數字資源建設的因素。
我國當前已有的中文石刻拓片數據庫多是在20世紀末21世紀初建設的,受當時技術、設備及網絡帶寬等條件限制,數據庫或多或少都存在圖像質量不高的問題,而質量不高的應用服務型數據直接影響文獻內容的傳達和用戶的研究熱情,進而影響數據庫的利用率。
一些中文石刻拓片數據庫利用原拓題名進行檢索,但結果不理想,原因可能是只將正題名作為題名著錄或只將正題名設置為題名檢索項造成的。拓片題名是極為重要的檢索要素,我國中文石刻拓片數據庫的著錄普遍遵循《中國文獻編目規則》(以下簡稱《規則》),但第一版《規則》和第二版《規則》對正題名的著錄有明顯不同的要求,在第一版《規則》中,客觀題名(包括首題、中題、尾題、額題、墓志蓋題等)僅被作為規定信息源參考,而第二版《規則》將客觀題名直接作為正題名規定信息源,這就導致不同時期建設的拓片數據庫正題名著錄存在差異,當用戶使用客觀題名對早期建設的拓片數據庫進行檢索時會出現檢索結果為零的情況。
對數據庫用戶而言,如果在使用拓片資源的同時還能得到與之內容相關的其他拓片或古籍資源,不僅能夠極大提升研究效率,還能使數據庫資源得到充分利用。但是,當前我國多數石刻拓片數據庫僅是對相關文獻進行描述和檢索,而對文獻內容揭示不足,不能在應用層面上提供資源間的關聯服務,缺少資源發現功能,致使數據內容難以實現關聯,形成“數據孤島”。
隨著數字技術的快速發展,以文獻為單元的傳統信息組織方式已不能滿足用戶對知識的需求,信息組織的對象逐步由文獻單元轉向知識單元。
3.1.1 挖掘拓片中的信息要素。拓片中的一般性信息要素包括客觀題名、書篆刻立年代、書篆刻立責任者名稱、內容類型、原石形制、語種等,該類信息要素在已有中文石刻拓片數據庫中均有明確揭示。此外,拓片還存在大量非一般性信息要素,如:內容主體人物(墓志中的墓主及旁系人物、紀事碑中事件主體行為人等)、內容時間(寺廟碑刻中寺廟興建、圮毀、遷移時間、人物重要時間節點等)、內容地點(建筑物所在地、事件發生地等)、數據(買地莂、房產、募捐資金及人數等)、分項題名(法帖、詩詞等)等。這些非一般性信息要素在內容揭示方面具有比主題詞更精細的粒度,是形成知識單元和資源鏈接的關鍵要素。
3.1.2 完善元數據的內容結構。當前,我國中文石刻拓片數據庫建設還沒有統一的元數據規范,國家圖書館制定了《國家圖書館拓片元數據規范與著錄規則》,北京大學圖書館編制了《北京大學圖書館拓片元數據規范》,這些規范雖然明確給出了拓片元數據的內容結構,但內容結構設計多側重于書目信息揭示,而對內容信息揭示不足。基于此,筆者嘗試提出引入內容信息的拓片元數據內容結構框架設想。該框架包括文獻描述、內容描述、數據管理三個層面,其中文獻描述層面用于記錄文獻外部特征及屬性,包括載體形態、附注信息、館藏信息、傳拓地點、版本信息等;內容描述層面包括表層描述、深層描述、全文,其中表層描述按照拓片內容記述和組織的一般性規律直接快速地分析獲取的信息,深層描述對拓片表層描述以外的文字內容進行深入挖掘,為數據關聯提供更多可能性,全文既能提供內容的全文檢索,還能清晰地展示拓片所記錄的文字,更便于用戶研究;數據管理層面是拓片元數據與對象數據產生連接的關鍵,包括格式、權限、數字影像文件編號、數據編號等,詳見下頁圖1。

圖1 引入內容信息的拓片元數據結構框架
在網絡環境中,資源間的關聯顯得尤為重要。通過關聯,大量原本獨立的數據可以被有效組織起來,形成系統性的知識結構,為用戶提供更加開闊、全面、翔實,同時還可互為參考的信息,如:“楚學精廬刻石”與“張文襄公祠捐贊題名碑”從題名上看不出有絲毫關聯,但實際上楚學精廬是民國時期在京的湖北籍人士為紀念張之洞等人為湖北做出的突出貢獻而籌資建立的,楚學精廬即張文襄公祠堂,可見兩張拓片之間存在極大的信息關聯。中文石刻拓片數據庫中的資源關聯主要有兩種,即形式關聯和內容關聯。其中,形式關聯多見于單種拓片多冊件的情況,處理方法主要取決于元數據設計時著錄單位的定義以及關聯項的設置;內容關聯又分同類資源關聯和異類資源關聯,同類資源關聯是指內容具有相關性的獨立拓片間建立的關聯關系,異類資源關聯是指內容相關的各類非拓片資源與拓片資源建立的關聯關系,如古籍文獻、一般性圖書文獻與拓片關聯。
實現拓片資源關聯需要建設人員對相關內容進行深入研究,在信息化技術飛速發展的今天,各建設機構應樹立開放共享理念,積極引入大數據技術、NLP自然語言處理技術、AI智能等新型技術,深度挖掘資源間的關聯,構建中文拓片的知識圖譜。此外,由于中文石刻拓片數據庫的用戶大部分是文史或書畫研究人員,在各自的研究領域具有較高的專業素養,建設機構可建立用戶參與建設機制,鼓勵他們參與拓片數據庫建設,更好地完成對拓片內容的解讀和描述、更快完善數據內容,提升拓片的使用價值。