



摘 要:隨著用戶對古籍資源需求的日益個性化和多樣化,古籍智慧化建設和服務成為趨勢。文章在調研古籍智慧化知識組織和服務演變的基礎上,詳述深圳圖書館“古籍細顆粒度標簽與標引”項目實踐。借助知識圖譜技術、NLP語義模型和古籍知識標簽標引,研究古籍細顆粒度建設的智慧化加工框架和智慧化服務方式,旨在實現從傳統古籍文獻實體服務向基于深度挖掘古籍知識、構建知識實體間關聯并以知識圖譜形式展現的綜合性服務模式的轉型,將古籍知識獲取方式擴展到集文獻查閱、循證研究、智能問答、趣味互動為一體的、適應不同需求場景的智慧化服務。
關鍵詞:公共圖書館;古籍智慧化;細顆粒度;知識組織;知識服務
中圖分類號:G258.2 文獻標識碼:A
Research on Fine-Grained Development of Ancient Books in Public Libraries: A Case Study of Shenzhen Library
Abstract With the growing personalized and diverse demands for ancient book resources, the intelligent development and services for ancient books have become a trend. Based on the investigation of the evolution of intelligent knowledge organization and services for ancient books, this paper details the practice of Shenzhen Library's \"Fine-Grained Labeling and Indexing of Ancient Books\" project. Utilizing knowledge graph technology, NLP semantic models, and knowledge tagging and indexing of ancient books, this study explores the intelligent processing framework and service methods under fine-grained development. The goal is to transition from traditional document-based services for ancient books to a comprehensive service model that deeply mines ancient book knowledge, constructs associations between knowledge entities, and presents them in the form of knowledge graphs. This expands the ways of accessing ancient book knowledge to include literature review, evidence-based research, intelligent Qamp;A, and interactive engagement, catering to various demand scenarios.
Key words public library; intelligent development of ancient books; fine-grained; knowledge organization; knowledge services
1 引言
古籍是中華文化傳承的重要載體,記錄了古代社會的政治、經濟、文化、科技等方面的信息,蘊含著我國五千年文明的菁華。在新時代背景下,重視古籍的價值和作用,通過智慧化技術和手段對古籍內容進行組織和揭示、創新服務方式,可以讓更多人了解古籍資源庫中蘊含的豐富內容與深厚底蘊。
我國歷來重視運用現代科技手段加強古籍典藏的保護修復和綜合利用。2022年4月11日,中共中央辦公廳、國務院辦公廳印發《關于推進新時代古籍工作的意見》,強調要“發揮科技保護支撐作用,推動古籍保護關鍵技術突破和修復設備研發”[1],對各類古籍收藏機構積極應用現代技術手段、全面提升古籍保護工作的質量水平提出了更高要求。
隨著社會發展和讀者文化水平的提高,以及學術研究的深入發展,讀者對于古籍資源的需求也更為個性化和多樣化。例如,讀者希望能通過更加精細的檢索方式獲取自己需要的古籍資源,這就要求對古籍中的知識點進行精細化標引、分析、挖掘和整理等。傳統的以圖像化的形式建設古籍數據庫的方式已經不能滿足社會的需要。因而,開展古籍智慧化建設與服務更顯迫切,其中古籍細顆粒度建設作為關鍵路徑,通過全文數字化及精準實體信息標引,實現了古籍內容的全面深度挖掘與知識揭示,極大豐富了古籍信息的表達維度與服務形態,有效促進了優秀傳統文化的廣泛傳播與傳承,對古籍資源的保護與宣傳具有深遠的意義。本研究基于古籍細顆粒度建設現狀,以深圳圖書館“古籍細顆粒度標簽與標引”項目實踐為例,探索古籍細顆粒度建設的流程、成果可視化呈現和服務方式,探討如何從傳統紙本為中心轉向文本化、標簽標引與圖譜化并重的古籍深度揭示;將單純以古籍研究為主的服務,擴展至古籍內容查閱、古籍循證研究、古籍欣賞和中華優秀傳統文化傳播為一體的,適應于多個場景的智慧化服務。
2 古籍智慧化知識組織和服務的演進
古籍數字化建設是古籍智慧化知識組織和服務的數據來源和基礎。早在20世紀80年代,國內外就開始了古籍數字化研究,其關注重點在于“將傳統古籍文本轉化為數字化文本形式”[2]。如中國國家圖書館、首都圖書館、南京圖書館、天津圖書館、日本公書文館、美國國會圖書館、德國巴伐利亞州立圖書館等圖書館都相繼開展了古籍數字化實踐,將其館藏中的珍貴古籍進行了全文數字化。古籍數字化改變了傳統利用古籍的方式,減少了古籍原件使用頻次,促進了古籍的保護。
隨著計算機技術的發展,古籍數字資源一體化檢索、全文閱覽等古籍數字化成果的利用和服務逐步鋪開。如中國國家圖書館(國家古籍保護中心)聯合36家古籍收藏單位建設的“中華古籍資源庫”[3]、上海圖書館的“中文古籍聯合目錄及循證平臺”[4]、安徽大學唐宸副教授主持研發的“全球漢籍影像開放集成系統”[5]、日本的“日本所藏中文古籍數據庫”[6],等等。這些平臺的建立實現了散存于各館的古籍聯合查詢,部分平臺還提供古籍數字化全文在線閱覽,打破了古籍使用空間、時間上的局限性,為學者提供了極大的幫助。但古籍數字化平臺還處于簡單古籍目錄和古籍圖像提供,對古籍內容的深度挖掘不足,無法提供深層次的內容服務,不能滿足學者的深入研究需求。
隨著大數據、人工智能等技術的發展,古籍內容的深度挖掘與知識發現、古籍數字化整理與保護等成為可能。古籍數字化利用的焦點也逐步聚焦于古籍智慧化知識組織與服務。美國哈佛大學《中國歷代人物傳記資料庫》[7],對古籍中約50萬人物傳記資料的知識內容進行重組,生成已知人物籍貫地理分布圖等可視化產品。同時提供開放的API" (Application Programming Interface,應用程序編程接口),用戶可以根據需求,生成人物可視化關系網。德國馬克斯·普朗克科學史研究所從2 000余種數字化地方志名錄中提取和可視化區域信息,有助于用戶研究“方志物”在歷史構建中的作用。鄧璐薌等人[8]以華東師范大學“ECNU-DHAI”平臺為例,探討古籍智慧化建設中存在的海量異構數據、重復建設、標準缺位等問題,介紹平臺古籍自動識別、古籍內容深度著錄和分包核對等功能。上海圖書館上線“盛宣懷檔案知識庫”分包項目[9],探索眾籌分包模式在古籍智慧化建設中的積極作用。
與此同時,國內也開始探索和實踐古籍細顆粒度建設。盧克治[10]以中醫古籍文獻為研究對象,通過BERT+BILSTM+CRF模型對中醫古籍實體自動識別進行研究,以PCNN+ATT方法實現古籍知識實體自動提取和實體關系構建。徐雷等人[11]從Science IE軟件、圖文識別劃分、細顆粒度文本的識別抽取三方面總結古籍文獻智能數字化處理面臨的挑戰。吳夢成等人[12]基于古漢語預訓語言模型SikuRoBERTA,對先秦典籍中植物知識深入挖掘,以知識圖譜的組織模式呈現,實現植物實體及其關聯知識的聚合與可視化呈現。
以上這些研究和實踐成果均為古籍智慧化知識組織和服務的發展提供了可供參考的思路。
3 深圳圖書館開展古籍細顆粒度建設的實踐探索
3.1 建設背景
隨著古籍智慧化知識組織和服務的進展,僅僅提供古籍全文閱覽的方式無法完全滿足讀者的使用需求,多維度、可視化和互動強的古籍服務方式亟待研究和探索。通過古籍細顆粒度建設,實現古籍內容知識的智慧化組織,通過可視化呈現形式,將智慧化服務推廣到移動端,為讀者帶來空間與時間結合、虛擬與實物結合、單一古籍和無限的知識相關聯的全新古籍知識服務體驗;古籍知識內容實體抽取,運用虛擬現實技術、增強現實技術等,實現古籍的創新性展現,從而提升古籍服務的易得性,提高讀者使用效率和使用體驗。
古籍智慧化知識組織與服務即利用語義模型等技術對古籍知識內容進行深層次挖掘、組織,形成結構化的古籍知識組織形式,助力館員學習古籍知識,同時借助智慧化技術輔助開展古籍整理、研究工作,提高工作效率,提升研究深度。如利用智慧化識別工具,形成異體字、避諱字字庫,加之人工智能算法工具對古籍版本進行鑒定、對古籍內容進行分析、結合知識圖譜等知識組織方式獲取專業知識。
鑒于此,深圳圖書館在多年古籍數字化建設和服務成效的基礎上,以館藏古籍和深圳地方志為對象,通過開展“古籍細顆粒度標簽與標引”項目,利用OCR(Optical Character Recognition,光學字符識別)技術、計算機視覺技術、NLP(Natural Language Processing,自然語言處理)語義模型等人工智能技術,針對古籍文獻資源特點,構建知識抽取模型,對文本類資源實現篇章級、段落級的標引,以及主題詞、關鍵詞級的標引;通過標引對知識資源重新組織,構建專業領域知識圖譜應用;項目涵蓋細顆粒度數據生產服務、細顆粒度結構化數據資產管理平臺建設、面向讀者的細顆粒度數據發布應用,形成全流程建設的完整體系,從而一站式滿足古籍智慧化知識組織與服務需求。
3.2 建設目標
從深圳圖書館已完成全文數字化的館藏古籍資源中選取建設對象進行數字化加工,完成標簽標引數據。對標引數據進行聚類分析,分析出人與人、人與機構、機構與地理、人與事件、事件與機構等實體關系,構建實體關系資源庫,在此基礎上完成知識圖譜建設,實現和提供關聯數據發布、知識圖譜可視化服務功能。
開發整體資源的服務平臺,實現并提供基于知識網絡的信息服務,包括搜索、瀏覽、發現、智能問答、智能推薦等功能。為實現專題資源展示、知識圖譜呈現與交互,需要提供跨平臺的移動端資源服務,完成所有知識成果在深圳圖書館的門戶網站、微信、終端設備、數據庫系統等應用環境的本地化部署、遷移及集成,同時支持未來將資源接入大型第三方平臺。
3.3 建設實踐
3.3.1 建設框架
深圳圖書館“古籍細顆粒度標簽與標引”項目從基礎、加工、構建、輸出四個層次進行了建設框架搭建(見圖1),各層次遞進式開展,通過層次間的協同動作,實現古籍細顆粒度建設及古籍智慧化知識組織和服務。其中基礎層利用語義網、大數據、知識圖譜、計算機視覺技術、NLP語義模型等關鍵技術,同時兼顧建設系統安全、運營;加工層對選定的已完成全文數字化的30種古籍共136 081張古籍圖片開展數據標識、數據聚類,抽取實體,形成主題、專題知識聚類;構建層以古籍知識實體關系為基礎,通過知識融合,將零散的古籍知識實體整合為系統化的知識圖譜,實現古籍知識的直觀展示和創新應用;輸出層開展數據檢測,提供包括可視化在內的呈現形式,實現古籍知識數據聯合發布。
3.3.2 元數據加工
元數據加工以數字化古籍圖片為基礎,開展OCR識別、校對識別結果、生成對象數據等流程。
(1)OCR文字識別。OCR識別,是指對文本資料的圖像文件進行分析識別處理,獲取文字及版面信息的過程。針對標準化建設后的古籍數字資源,依照原篇目版式排列順序,以內容引題、標題、副標題、正文等順序識別后輸出全文,并可提供古籍原樣版式(繁體豎排)、繁體橫排、簡體橫排等多種版式輸出,滿足不同使用者對閱讀版式的不同需求。
(2)校對識別結果。因古籍印刷、保存狀態、異體字及OCR識別字庫量等原因,OCR識別存在一定程度的錯誤率,需要進行識別結果的校對。深圳圖書館以人工校對、人工智能學習、內容補充等方式對識別結果進行校對,其OCR識別準確率已經達到98%。其中,人工校對邀請文獻學、古文字學領域專家;人工智能學習則通過積累字形,匯集成OCR識別“易錯字字典”,并引用其他權威版本進行補充。
(3)生成對象數據。經過人工校對后的OCR文本與元數據逐一對應生成相應的對象數據,每條對象數據形成7級數據存儲目錄,如圖2所示。
3.3.3 資源著錄
對已選定的30種古籍文獻進行細顆粒度著錄。每種古籍生成一個唯一的記錄標識號,相當于為每種古籍賦予一張獨立的“身份證”。以古籍中書衣、封面(內封)、牌記、序、凡例、目錄、正文卷目、插圖、跋、簽條、夾紙、校勘、附錄、封底等每個獨立結構作為著錄單元,每個著錄單元形成一條數據。同時,對每條數據從文獻內容出發,以人物、機構、地理名稱、事件或其他具有標目意義的關鍵詞進行細顆粒度標引,生成相應的著錄顆粒。
3.3.4 古籍知識實體抽取
通過對館藏古籍資源的知識提取,基于知識圖譜技術對公共文化領域知識進行表達。通過對古籍文獻資源的內容分析,進行實體抽取、關系抽取、屬性抽取、事件抽取。實體包括人物、事件、地點、日期、機構等。
以館藏清嘉慶十四年(1809年)鄱陽胡氏重刻宋淳熙本《文選六十卷文選考異十卷》中《兩都賦》部分為例,進行古籍文獻資源的關鍵實體提取工作。共提取出關鍵實體31個,其中人物實體18個,時間實體4個,職務實體6個,地名實體3個。
3.3.5 知識圖譜建設
以抽取的古籍知識實體為基礎,對目標古籍開展知識圖譜建模,是古籍智慧化建設的重要步驟。知識圖譜建模具有語義定義客觀、擴展性強、使用方便等特點。
(1)知識圖譜的模式
知識圖譜建模可選擇自頂向下或自底向上的途徑,也可結合使用。自頂向下是指構建知識圖譜時首先定義數據模型,可從其他高質量的數據源中提取信息,或通過領域專家人工編制。自底向上則相反,從實體層開始,借助于實體對齊和實體鏈接等技術手段,對現有實體進行歸納組織,形成底層概念,再逐步形成上層概念。深圳圖書館古籍資源知識圖譜模型建設結合了以上兩種模式,自頂向下建立《新安縣志》《金匱要略》等古籍的知識圖譜,自下而上構建古籍資源的知識聚類(見圖3)。
(2)知識實體關聯
從知識圖譜展現的實體關系出發,提供關聯性的知識挖掘和知識展示,是古籍細顆粒度建設的關鍵一環。知識圖譜的知識關聯性有助于形成富含語義、互聯互通的知識網絡。
以清嘉慶版《新安縣志》為例,以新安縣為關鍵詞,析出相應實體關系,開展實體關聯,生成知識圖譜,將新安縣的輿地、經政、人物、藝文等情況清晰展現出來(見圖4)。
3.4 建設成果
深圳圖書館古籍細顆粒度建設,充分轉化建設成果,開發了多個智慧化平臺,實現智慧化管理與服務。
3.4.1 智慧化服務平臺:深圳圖書館古籍數字平臺
深圳圖書館在館藏古籍細顆粒度建設成果的基礎上,選取入選《國家珍貴古籍名錄》《廣東省珍貴古籍名錄》的古籍,清同治八年(1869年)嶺南葄古堂刻本《二十四史》,館藏醫家古籍,方志類古籍共計30種古籍搭建古籍數字平臺。該平臺以“古籍深圳”做切入點,構建模塊化書籍佳賞、原文篇章閱讀、(書目、全文)檢索等版塊欄目,通過數字化技術,以精美的界面、優雅的交互式體驗使用戶身臨其境,沉浸式地了解古籍文化,并提供篇章目錄、導航指引閱讀。其特點在于:以模塊化揭示和視覺交互式設計,豐富讀者的視覺體驗;古籍圖片和文本化內容對照閱讀,降低讀者閱讀古籍文獻的難度;構建古籍知識圖譜,提供智慧化搜索和可視化解答,深化讀者使用層次。
3.4.2 智慧化管理平臺:深圳圖書館細顆粒度數據管理平臺
深圳圖書館細顆粒度數據管理平臺,是采用RDF格式和XML語法,以數據層、分析層、應用層三層數據庫架構,實現原始數據、元數據、對象數據、關鍵詞等管理,基于細顆粒度標簽標引的實體內容,對知識進行模式化構建,通過知識圖譜的技術實現對資源進行精細化揭示以及資源的知識化、專題化服務。
平臺通過批量數據導入、數據分類管理、標注數據管理、數據導出標準等步驟,實現多結構數據管理;基于知識關聯及關鍵詞,對對象數據進行細顆粒度標引,實現關鍵幀、關鍵段落、關鍵實體的準確標引,并對段落進行切割、對幀和對實體進行提取,實現可視化數據編輯;通過對細顆粒度標引出的實體進行人機結合,實現實體的分類管理、屬性管理和關系管理。
3.4.3 智慧化展示平臺:“方志里的深圳”小程序
“方志里的深圳”小程序基于嘉慶版《新安縣志》內容進行智慧化開發,用生動、系統的知識圖譜與豐富、趣味的互動界面,展現古代深圳源流沿革、山水地理、官制學制、風俗物產、名人掌故、古跡藝文等知識。
“方志里的深圳”小程序大量運用可視化技術,將文言文轉化,輔之手繪彩圖、表格、時間軸實現古籍知識直觀、生動的圖像化呈現,如職官數據可視化統計,通過地圖展示舊志記載的明清新安文官武職的籍貫、任期、出身等。對舊志數據的細顆粒度加工和標簽標引,標記原文中大量的人物、事件、物品等實體數據,通過實體—關系—實體進行智慧鏈接,構建知識圖譜,從而智慧化呈現實物的本體屬性和相互關系,實現智慧化的鏈接與知識發現。如“鹽丁”“鹽場”“鹽課”“鹽官”通過圖譜直觀鏈接,構建多組知識關系,并支持進一步擴展至《新安縣志·藝文志》中與“鹽”相關的詩文。此外,“方志里的深圳”小程序設計了以明代知縣周希曜為形象的智慧問答機器人,支持通過關鍵詞定位跳轉至感興趣的內容;還部分支持類似ChatGPT的交互方式,即可以使用NLP進行提問和回答。
4 存在的問題及應對之策
4.1 存在的問題
深圳圖書館古籍智慧化建設實踐是有益的探索,促進了新時期古籍工作的提升、古籍內容的深度揭示,以及古籍的保護、傳播和使用,但還存著理論、人才、建設廣度等方面的問題。
4.1.1 缺少標準化理論指導
古籍細顆粒度建設是適應新時代需求應運而生的新作為,通過古籍知識資源的標引、標簽,實體關系的鏈接,知識圖譜的搭建,為讀者提供更為直觀的利用方式,同時開放共享理念的引入,促進了學術交流和知識共享,也推動了古籍的普及和傳播。但不可否認的是,古籍細顆粒度建設還處于起步和探索階段,僅有中國國家圖書館發布的《智慧圖書館知識資源數據建設指南》可作為建設依據,尚未形成一套全面而系統的標準化理論體系,在頂層體系設計、建設流程和實踐上都很難實現標準化。
4.1.2 專業人才匱乏
專業人才的匱乏,制約了公共圖書館古籍智慧化建設。古籍智慧化建設需要信息技術和古籍研究雙重背景的復合型人才,但目前公共圖書館的相關人才儲備體系無法支撐。以深圳圖書館為例,其目前從事古籍研究和修復工作的館員共2名,缺少深入了解智慧圖書館建設方法,熟練使用新技術新應用的館員,使得“古籍細顆粒度標簽標引”項目技術部分只能依靠外部技術供應商,增加了溝通成本。
4.1.3 建設廣度不足
一方面,單個圖書館建設廣度不足。深圳圖書館較早開展古籍智慧建設探索,對30種館藏古籍開展建設,但建設數量僅為館藏古籍總量的10%。另一方面,公共圖書館界建設廣度不足。自2021年以來,深圳圖書館、甘肅省圖書館、四川省圖書館、成都圖書館等10余家公共圖書館已經陸續啟動了古籍細顆粒度建設。然而,這一舉措在全國眾多公共圖書館中仍屬于少數先行者,整體覆蓋面和參與度都不足。建設廣度不足,限制了古籍資源的全面揭示與高效利用,導致古籍知識無法實現廣泛的共融與共享,制約了古籍資源的有效傳播與利用,也不利于學術研究和文化傳承。
4.2 提升公共圖書館古籍智慧化建設的對策
4.2.1 加強理論研究,完善標準體系
公共圖書館應積極主動爭取主管部門支持,從決策層上推動古籍智慧化標準體系建設。同時,聯合高校圖書館、高校信息管理院系、建設服務商等,共同開展古籍智慧化的理論研究,促進古籍智慧化標準體系的建設。公共圖書館還需要開展古籍智慧化建設項目研究,加強對古籍智慧化建設理論、標準體系、建設成果和智慧化服務形式等的交流與探討。
4.2.2 加強人才培養,提升建設水平
首先,加強人才培養。針對工作中出現的問題,對員工開展針對性培訓,如知識圖譜技術、NLP語義模型等相關的知識技術培訓。其次,建設專家團隊。古籍智慧化建設是一個全新領域,公共圖書館應邀請古典文獻學、古籍版本學、古文字、計算機技術、人工智能等領域專家,組成專家團隊,隨時為古籍智慧化建設提供智力和技術支持。最后,構建社會合作機制。公共圖書館在古籍智慧化建設中,應充分利用社會資源,加強與社會機構的合作,實現共建、共贏,形成古籍智慧化建設的良性生態。
4.2.3 加強建設推廣,促進資源共享
從單個建設單位而言,應在遵循統一規劃、系統開發的原則下,對其館藏古籍展開全面智慧化建設;從公共圖書館界而言,應積極推廣古籍智慧化建設,讓更多公共圖書館依據統一的建設標準開展建設,最終實現古籍文獻全面智慧化建設和古籍知識統一服務。
5 結語
2021年文化和旅游部公布的《“十四五”公共文化服務體系建設規劃》提出“建設全國智慧圖書館體系建設項目”。古籍細顆粒度建設是當前公共圖書館古籍智慧化建設的重要內容,有利于促進古籍內容的深度揭示以及古籍保護、傳播和利用。深圳圖書館以館藏古籍為對象,以古籍“細顆度”為內容,通過數據加工、古籍知識實體抽取、知識圖譜建設等多個層級開展實踐探索。期望其實踐能為促進公共圖書館古籍智慧化建設、古籍數字資源便捷使用和開放共享提供參考。
參考文獻:
[1] 中共中央辦公廳 國務院辦公廳印發《關于推進新時代古籍工作的意見》[EB/OL].(2022-04-11)[2023-12-17].http://www.gov.cn/zhengce/2022-04/11/content_5684555.htm.
[2] 李世鈺,張向先,沈旺,等.古籍數字化國內外研究現狀分析與路徑構建研究[J].現代情報,2023,43(11):4-20.
[3] 中國國家圖書館.中華古籍資源庫[DB/OL].[2023-12-17].http://read.nlc.cn/thematDataSearch/toGujiIndex.
[4] 上海圖書館.中文古籍聯合目錄及循證平臺[DB/OL].[2023-12-17].https://gj.library.sh.cn/index.
[5] 唐宸.全球漢籍影像開放集成系統[DB/OL].[2023-12-17].https://library.suda.edu.cn/62/1c/c4858a549404/page.htm.
[6] 日本所藏中文古籍數據庫[DB/OL].[2023-12-17].http://kanji.zinbun.kyoto-u.ac.jp/kanseki?Query.
[7] Harvard Library.Chinese Rare Books[EB/OL].[2023-12-17].https://curiosity.lib.harvard.edu/chinese-rare-book.
[8] 鄧璐薌,許鑫.數字人文人工智能平臺的設計與實現:以ECNU-DHAI平臺為例[J].圖書館雜志,2021,40(3):78-85.
[9] 上海圖書館.盛宣懷檔案知識庫[DB/OL].[2023-12-17].https://sd.library.sh.cn/sd/home/index.
[10] 盧克治.基于中醫古籍的知識圖譜構建與應用[D].北京:北京交通大學,2020:78-79.
[11] 徐雷,葉均玲.科學交流語義框架模型構建研究[J].現代情報,2022,42(11):40-52.
[12] 吳夢成,林立濤,齊月,等.數字人文視域下先秦典籍植物知識挖掘與組織研究[J].圖書情報工作,2023,67(12):103-113.
作者簡介:章良,碩士,深圳圖書館館員,研究方向為特色文獻建設和閱讀推廣。
收稿日期:2024-04-09編校:王曉琳 王伊藝