王梓懿 陳晨 王湘華



摘要:[目的/意義]從地方名人文獻資源建設現狀出發,通過數字人文視角探究地方名人多源異構資源知識組織與關聯方案,為GLAM機構開展地方人物知識管理與服務提供借鑒。[方法/過程]參照國內外相關名人資源開發思路,提出一套包含異構文獻資源內容整理、地方名人資源本體構建、實體與實體關系融合和地方名人資源知識應用等四步驟的地方名人資源知識組織方案,并結合地方名人文獻資源特征與人物資源描述框架自建了地方名人文獻本體模型CLO。[結果/結論]以湘西詩人田名瑜及其手稿《苦學齋日記》為依托,按照組織步驟并運用Protégé工具實現地方名人及其日記作品的知識組織與關聯揭示,驗證此套組織方案的可行性與可操作性,在拓寬地方文獻開發視角的同時也為民族地區名人知識庫的搭建與特色人文服務的開展提供借鑒。
關鍵詞:數字人文? ? 名人文獻? ? 知識組織? ? 本體構建? ? Protégé
分類號:G254
引用格式:王梓懿, 陳晨, 王湘華. 數字人文視角下地方名人文獻資源的知識組織與關聯研究[J/OL]. 知識管理論壇, 2022, 7(5): 521-538[引用日期]. http://www.kmf.ac.cn/p/312/.
1? 引言
如今,數字人文作為智能技術與人文學科的關鍵樞紐,其涉及的自然語言處理、時空信息揭示、多維知識共現等知識組織與發現手段能夠有效推動新文科建設進程,其前沿應用實例也一直是各領域資源開發機構與相關學者關注的要點[1]。而地方名人文獻資源作為特定時期與地域文化、藝術、經濟與政治演化的文字載體,既是解讀地域文人思潮、探究地方歷史變革與塑造地方文化形象的重要資料,也是揭示地方社會生活演變、特色民俗技藝、名人交際網絡、經濟發展脈絡、政治交替軌跡和地緣變動局勢的記憶寶庫[2]。當前,在數字人文技術的加持下許多隱藏的珍貴資源得以重組,隨著“家譜知識服務平臺”“盛宣懷檔案知識庫”“李政道數字資源中心”“老科學家學術成長資料庫”等開放平臺逐漸增多,許多被忽視的名人資源將逐漸被重視。但是,反觀湘西土家族苗族自治州等民族地區名人文獻資源的開發現狀,因受限于人力、物力、財力與影響力等多方因素,其文獻資料開發依舊停留在局部整理階段,所取得的成果數量較少且形式單一,需要借鑒數字人文研究范式來推動其成果產出與領域發展。基于此,本文參照國內外相關名人資源開發思路,結合地方名人文獻資源特征,參考中國歷代人物傳記資料庫(China Biographical Database,CBDB)和歐洲共享科研信息協議(Common-European Research Information Format,CERIF)等知識框架提出一套可處理多源異構資源及各粒度知識的組織方案,并以湘西詩人田名瑜檔案及其作品為依托,結合ROST、Protégé等工具來完成田名瑜及其未刊手稿《苦學齋日記》的知識組織,并建立“人物+文獻”的知識組織與關聯框架,為民族地區GLAM(Galleries, Libraries, Archives and Museums)機構名人知識庫構建與特色人文服務的開展提供依據。
2? 數字人文視域下人物文獻資源相關研究概述
通過Web of Science和CNKI數據庫可整理與歸納國內外數字人文領域以人物及其作品資源為研究對象而取得的成果,按照研究特征可劃分為下述4個方面:
2.1? 人物資源再整理
謝嫚按照古代、當代和近代劃分及自建元數據方案將女性人物在各時代教育、文化、藝術、經濟與科技各領域文獻資料收納入專題數據庫,為女性人物個性化知識服務提供了基礎[3];劉超林等探索了語言模型和條件隨機場條件下歷史事件研究的命名實體識別精度,結合220多卷《地方志》資源結構挖掘了文獻資料中的核心知識,以挖掘的各朝代地方政府任職的官員信息為基礎進行了算法準確度評估[4];趙宇飛以國內外常用知識庫人物實體描述規范為基礎,提出了符合中文名稱信息規范的人物知識聚合框架,為細化人物特征揭示與標注和異源知識鏈接與共享提供基礎[5];韓國學者J. W. Kim 等重新整理了本國新教傳教士1880年至1942年通訊信件并實現了文本人格與文本個性的揭示[6];阿根廷學者N. Zorrilla等以早期女性哲學家所留作品與手稿資源為切入點,通過文本內容分析剖析了早期女性哲學家被排除在經典之外的各類因素,并反思了該現象出現的歷史緣由與政治背景[7]。
2.2? 特藏資源分享與鏈接
俄羅斯學者Y. M. Lupanova等結合羅蒙諾索夫現有“記憶之地”及“回憶人物”特色資源庫建設現狀,引入個人日記、手稿與檔案等史料資源來添補人物完整形象,并探明了異源數據參與人物形象建設能夠有效提升學生群體關注名人生活與經歷的興趣值,在拓展教育視角的同時也能達到“英雄去偶像化”的目的[8];美國學者H. Kun等通過異構數據源、字符抽取技術、WEB應用程序與智能操作門戶重塑了“精煉羅馬硬幣中的羅馬歷史人物”主題資源庫,并以此構建了一套較為完整的數字文化遺產服務系統[9];俄羅斯學者A. Bonch-Osmolovskaya等以托爾斯泰90卷重要印刷版文獻為基礎,分別對作品、信件和日記3類文本進行了元數據標記、字母標記與日記標記,從而實現了數字門戶與語義圖索引,并參照DBpedia等開放鏈接數據庫搭建了人物知識庫[10];陳志明等提出了一個支持中國歷史研究的中國古籍數字人文研究平臺(CABDHRP),支持自動文本注釋(ATAS)和探索角色社交網絡關系(CSNRMT)。平臺采用開源機構知識庫DSpace作為數字檔案系統可實現資源歸檔和圖像與全文掃描,通過JavaScript框架可實現對不同數據庫(如CBDB、TGAZ)以及古代文本解釋數據源的鏈接,再結合Neo4j等非關系數據庫可實現人物交互知識檢索與圖譜呈現[11]。
2.3? 人物社會網絡與空間分布
黃俊杰等提出了由符號圖模型和分組算法組成的人物研究框架,并結合中國歷史人物傳記資料庫(CBDB)所形成的人物社會網絡架構驗證了其框架的有效性與實用性[12];韓國學者H. H. Ji等圍繞朝鮮學者徐巨正的親屬關系和政治活動開展人物研究,通過Bubbles等網絡可視化軟件揭示了影響歷史人物關系形成的影響因素,包括國家事務、王室關系、外交局勢、政治背景和地域習俗等[13];韓國學者S. Bae應用CBDB資料庫、QGIS、Pajek、MARKUS和DocuSky等數字工具生成的時空圖與系譜樹調研了南宋時期科舉狀況與演變,并結合陸九淵、朱熹、呂祖謙3人經歷與交際面梳理了南宋史學核心人物的社會網絡關系[14];徐永明以明代戲曲家、文學家湯顯祖為例,參照文獻資料與QGIS、CHGIS、ARCGIS等地理信息系統可視化了其游歷軌跡,再結合CBDB資料庫與Gephi軟件揭示了湯顯祖、屠隆和汪道昆3人的社會關系[15]。此外,還有學者通過運用CBDB資料庫與CCTS(中華文明時空基礎框架)發掘宋代官僚家族時空演化的研究[16];整理了宋代學者師承關系并完成人物網系的動態揭示[17];結合家譜梳理了明清進士家族人際交互譜系[18];以《長春縣志·長春職官考釋表》為基礎構建職官領域本體來揭示清代仕人間的細粒度知識關聯[19];結合《全唐詩》數字文本探究貶謫詩人社會關系網絡與時空演變規律[20]。同時,宋雪雁等也通過Gephi、QGIS、NLPIR和LTP等數字人文工具開展了人名、地名、情感詞等實體要素的抽取、鏈接與可視化,并完成了王世杰日記所載人物網絡關系揭示、熱點事件空間呈現與情感正負傾向辨析等研究[21]。
2.4? 人物資源組織與關聯
劉寧靜等參照FOAF框架、CBDB架構、上海圖書館名人手稿模型與CERIF資源提出了學術名人知識組織框架,并結合紙質文獻、實物與聲像資料實現了李政道數字資源中心的初期搭建[22];李賀等通過觸發詞識別與典型事件篩選,結合歷史事件構成元素及參考現有本體復用概念與屬性設計了一套基于民國歷史事件的本體模型,并依據民國歷史數據開展事件抽取、再組織和展示微觀社會以驗證此套模型的實效[23];姚天泓等以張學良史料資源本體框架為基礎,引入CIDOC-CRM概念模型來篩選可復用的基礎類與核心屬性,通過對信件資源進行語義標注與關系揭示實現了“事件—人物—時空”知識共現,借此提出了一套基于語義技術的知識組織方案[24];韋景竹等以孔子、老子、墨子這3位百家爭鳴的核心人物的知識圖譜創建為例,探討了知識圖譜在數字人文學科知識組織中的應用價值和實現途徑[25],而英國學者A. D. Cheok等通過探索人與計算機之間的自然對話,將自然語言處理技術與機器算法應用于孔子禮教知識和教學建模,并以此開發了一種允許以虛擬和現實交互方式體驗孔子教導的知識組織系統。該系統能夠讓用戶直觀認識各種非物質遺產全貌,也可通過交互對話測量人物的哲學意圖,并生成視角較為新穎的內容與答案[26];牛力等依據名人檔案資源記憶單元設計了一套多粒度知識組織方案,并通過重構實體揭示了檔案所記錄的人物信息與事例背后的人物思想、社會經歷與家庭生活等,印證了領域本體模型在全局發現與知識挖掘等方面的價值[27];張云中等以CBDB人物資料庫架構和上海圖書館人名資料、古籍資源與地方志文獻為基礎,參照詩詞網站與人物年譜完善了歷史文化名人游學足跡知識組織框架,再集合關系數據庫系統、Navicat管理系統、D2R轉換工具、LODLIVE可視化軟件分別進行數據存儲、轉化發布、瀏覽查詢與圖譜構建實現歷史名人游學足跡的知識發現[28]。
可以看出,國內外針對名人文獻資源相關研究較為集中于上述4個方面,而開展名人文獻資源知識組織方案研究的成果較少,圍繞地方名人與其作品資源的知識組織研究還未出現,更缺乏相應的知識組織方案與可復用的領域本體模型。基于此,本文通過地方資源開發現狀、名人文獻資源特征與人物知識框架等設計了一套能揭示地方名人多源異構資源各粒度知識的組織方案,以期在實現文獻知識“顯隱”印證的同時為地方GLAM機構開展人物知識管理與服務提供借鑒。
3? 地方名人文獻資源知識組織與關聯方案設計與分析
自然語言處理和本體模型構建能將非結構化文本加工為結構化知識,從而實現知識關聯和資源共享。由于地方名人文獻資源所涉及的手寫與印刷資源需要人工校勘,所以,地方名人文獻資源組織方案應是一種人機互助形式,需囊括下述幾項功能:①可以參照凡例設置(字體、排列、現代標點等)完成語料主題甄別和內容修正; ②可以運用自然語言技術實現名人文獻知識(人物、地點、事件、行為、情感等)的實體識別和關系抽取;③可以通過自建本體模型(人物本體、文獻本體等)規范領域基礎類和屬性間關系;④可以結合人文圖譜軟件(Gephi、QGIS、Cytoscape等)揭示不同粒度知識網絡;⑤可以利用圖數據庫(Neo4j等)存儲和查詢互聯知識;⑥可以應用圖譜呈現的知識粒度值辨別組織結果優劣并進行結構調整,以此為地方GLAM機構開展人物導航、語義檢索、關聯推理和人文發現等知識服務奠定基礎。具體設計思路可見圖1,下面將對關鍵步驟進行概況分析。
圖1? 地方名人文獻資源知識組織與關聯方案
3.1? 異構文獻資源內容整理
依據相近體裁出版物凡例設置的規則對名人檔案與手稿作品等資料進行整理。在文本數字化前,由于地方名人文獻中存在大量的手稿且部分已出現破損,在資源整理前需對破損手稿進行原生性保護以確保后續文本掃描工作的順利進行。在文本數字化過程中,由于手稿字體、圖畫和表格等部分存在明顯的個人特征,需通過“OCR+人校”模式輔助辨別文本主題和修正文檔內容,以此形成較規范、可識別和可增添的電子文檔。在文本數字化后,按照“NLP+人校”模式運用LTP平臺、NLPIR與ROST等自然語言處理工具輔助研究者完成對文獻實體識別與關系抽取的任務,根據文本內容驗證抽取要素的準確度、匹配度及完整度,根據背景史料對文本內容進行修正,為后續的知識整理與本體賦值做好準備。
3.2? 地方名人資源本體構建
依據整理后資源結構化程度重點篩選與加工半結構化和非機構化文本資源,以CNMARC、DC等元數據標準體系為基礎,運用自然語言處理技術(實體識別、關系抽取),從分散無序的名人文獻資源中提取主題、人名、地名、事件名、情緒詞與風格等不同粒度知識。結合抽取知識的相關性、通用性與識別度以及中國歷代人物傳記資料庫(CBDB)等知識庫框架,共同繪制人物術語詞表和文獻術語詞表。根據領域核心概念劃分基礎類等級、定義與屬性并自建本體模型,再通過驗證交流補充遺漏類與拓展屬性,從而搭建適合地方名人資源組織與開發的本體模型。
3.3? ?實體與實體關系融合
在完成信息抽取后,不能忽略地方名人非正式出版文獻(日記、演講稿、采訪稿等)中遺留的大量非規范性表述內容(綽號、簡稱、方言等),此類表述所產生的冗余或錯誤信息既影響人物關系與偏向行為的準確界定,也會降低實例本體清晰度與人文圖譜構建質量。基于此,需采用融合手段將多源知識進行消解與消歧。對同義異稱的實體與關系可選用相似函數或者推理模型等手段消解共指沖突,對同稱異義的實體與關系可結合特指列表和鏈接系統等方式消除指代歧義,將多源異構知識合并以解決知識匹配與關聯困局,為地方名人動態資源管理、“顯隱”知識發現以及共享交互平臺設計提供依據。
3.4? 地方名人資源知識應用
合并后的地方名人文獻資源以知識單元的形式按層存儲于知識庫中,用戶可依據需求或目的開展人物導航、語義檢索與人文知識發現等工作。如通過資源描述框架(RDF)鏈接地方人物及相關文獻知識庫實現人物導航,通過SPARQL、Cypher(Neo4j)等查詢語言完成目標知識網絡檢索,借助邏輯運算與推理機制發掘地方名人資源實例間關聯,并結合人文圖譜軟件從篇章內容、文段情緒、時空網絡和交互行為等方面實現特色資源知識發現等。
4? 地方名人文獻資源解析與本體模型構建
地方名人文獻資源開發因受限于人力與物力等因素,多以未整理的手稿形式及待處理的非結構化文本為主。而隨著資源開發的演進與文本資源的補充,所構建本體的基礎類與屬性將逐漸被補充與調整,以文獻資源特征與人物知識框架為基礎,結合七步法進行本體模型構建則更容易滿足名人資源全周期開發與完善等需求。
4.1? 地方名人文獻資源特征
地方名人文獻資源是GLAM等保藏機構特色資源中相對特殊的門類,由手稿日記、詩歌、講稿和專著等直接關聯文獻以及人物傳記、小說、家譜和地方志等間接關聯文獻組成。想運用本體模型將不同體裁、載體和主題的文獻以及人物資料組織在一起,既需要辨析名人文獻資源特征,也需要參考人物知識框架。地方名人資源特征可概括如下:
(1)資源種類豐富。地方名人資源是記錄地域演變、歷史變遷、民俗文化與宗教信仰的重要集合,名人日記、詩歌、講稿等資源也是揭示民族變遷、語言特色、地方風俗與神話的重要依據,名人照片、視頻和名人瓷器、石板與木刻等資源也是開展地方文化記憶工程的重要素材。所以,在整理和劃分名人資源種類過程中,除了處理以紙質載體為主的文本文獻外,還需要關注留聲錄像(照片、磁帶和視頻等)和實物(手工品、石刻和雕版等)等其他形式資料。
(2)文本結構復雜。由于名人文獻資源大多以手稿形式保藏,不同人物作品在文化背景、行文規范、語言偏好、文段構思與字體字形等方面存在較大差異,受限于機器整理的文本質量,運用算法、機器學習等手段對名人文獻資源核心知識進行識別與抽取的準確度并不理想,且容易出現詞匯冗余與詞義不搭等現象。所以,需要按照設置凡例將待處理文本所涉角色、句法與語序進行人工處理,確保不同時期的文言、白話(口語、書面語)能夠轉譯為統一形式文本來提高語言處理質量。
(3)資源視角廣闊。直接關聯文獻(如名人自撰作品與親筆記錄)可為文獻資源組織提供實例資料,而間接關聯文獻(如名人生平游歷與仕途變遷)則為人物知識梳理提供佐證材料。此外,還需要引入參考資料和引證文獻來提高人物資源組織方案的適用性,即通過資源中提及的人物、作品等內容來擴充文本體量,通過可參考資源中的詩句、事件等內容來提升文本廣度。
(4)主題關系隱蔽。由于名人資源內容繁雜且形式多樣,僅依靠自然語言處理技術難以達到高準度異文同題的關系抽取和發掘。所以,針對較為隱蔽的關聯主題應以“人物”為基點,深入調研名人背景與解讀作品內容,并結合其仕途經歷、歷史地位、關鍵事件和個人意趣等情況進行人工判斷和篩選,以保障異文同題關系的合理與準確。
(5)資源跨域明顯。GLAM雖同屬于資源保藏機構,但是對資源研究的側重點與方向均有不同,涉及圖書館學、檔案學、歷史學、考古學和計算機學等多個學科領域。因此,在搭建名人資源組織方案過程中應采納多方意見,組建專業人才小組并運用分工合作的方式來細化各領域資源的知識粒度和關聯關系。
4.2? 人物資源描述框架
當前,地方名人資源研究領域還未出現可直接復用的人物知識框架與文獻知識框架,而了解通用或常用的特色框架能夠為湘西地方人物資源知識框架搭建提供線索。參考人物資源描述框架包括:
(1)CBDB資料庫。中國歷代人物傳記資料庫以歷史人物傳記為核心資源,信息描述可劃分為入仕途徑、社會身份、親屬關聯、地區遷移等方面,傳記信息結合時代背景及人物社會關系構建了一套較為完整的人物知識組織方案,可為地方人物及相關歷史人物的知識分類和屬性篩選提供支撐。
(2)FOAF模型。作為線上社區及社會網絡用戶信息組織與描述的本體模型,其術語詞表中常用的13個基礎類和55個屬性可對用戶個體、社會群體、所在組織、個體關系和相關事件等信息進行更全面描述與更深入關聯,且可通過RDFSchema與OWL等通用模型進行類與屬性的補充與調整。
(3)CERIF管理標準。學術科研信息管理系統中涉及的基礎實體、成果實體、設施實體和附注實體能夠直觀地描述人物參與科研的全周期狀況以及揭示其在教育、工作、研究和榮譽等方面信息。
(4)上海圖書館開放數據平臺。平臺提供了古籍(37個類,160個屬性)、家譜(38個類,109個屬性)、手稿及檔案(44個類,195個屬性)、歷代人物傳記(9個類,35個屬性)和人名規范庫(22個類,68個屬性)等本體詞表,可以為地方名人資源中涉及的家譜、手稿、檔案和地方志等文獻資源的知識元抽取提供指導。
4.4? 地方名人文獻資源本體模型初建
地方名人資源知識組織的核心步驟在于構建本體模型。而本體模型的構建工作也應圍繞名人文獻整合與資源結構規范等目的和遵循組織合理、關聯有序、標準適應、開放共享、內容詳實且富有特色等原則來開展。基于此,本文參照常用本體詞表與知識框架,結合湘西地方人物與資源特征并運用七步法來自建地方名人文獻資源本體CLO(Celebrity & Literature Ontology),CLO由人物知識框架和文獻知識框架兩部分組成。關鍵步驟概括如下:
4.4.1? 知識元抽取
對異構資源的內容進行整理后需參考多種本體詞表,依據體系標準和ROST軟件從電子文本中抽取可概括與規范文獻內容的知識元,為后續非結構化文本處理與知識本體初建提供支持。以《鳳凰縣志》《湘西文史資料》和《鳳凰:那些人,那些事》等館藏地方文獻中記載的湘西人物為基礎抽取名人知識本體構建所需的人物、教育、工作和成果等概括元素。以《苦學齋日記》和《苦學齋詩稿》等已初步整理的名人文獻為基礎抽取文獻知識本體構建所需的目錄、事件、風格、情感和角色等內容元素。在具體人物及文獻本體構建時,需按照人物資料完整度與辨析度、文獻體裁及內容特征等對核心概念與描述屬性進行反復調整。
4.4.2? 基礎類詞表構建
對抽取的知識元進行比較、整理與辨析處理,從中篩選具備通用性、識別性和增添性的知識元并將其納入術語詞表,對界定不完整或者不清晰的基礎類(Class)進行補充和調整。分別定義人物知識本體的基礎概況(姓名、籍貫、民族等)、教育(就讀院校、專業、入學時間等)、成果(文獻、日記、詩歌)和工作(機構、職位等)以及文獻知識本體的目錄(篇數、頁數、字體等)、事件(發生地、涉及對象等)、角色(創作者、保藏者、開發者等)、流派(領域、起源等)、風格(對字體、對文獻、對人物等)和情感(事件、角色、文獻等)等描述類,補充時間(開始時間、結束時間等)和地點(涉及地區、地形等)等通用類。
4.4.3? 屬性詞表構建
運用混合法(自頂向下法和自底向上法)以明確地方名人資源基礎類層次與類內部屬性。針對基礎類等級劃分,可依據層次分布和詞表概念來構建領域上下位類框架,再通過實例所跨領域和所含知識向上泛化通用類和向下細化描述類,從而保障湘西名人文獻資源本體模型整體結構的適用性及揭示要素的全面性。針對屬性歸類,需根據其描述類的事實進行判斷,個體關聯到個體為對象屬性(op,object properties),對象屬性具有說明取值類型的屬性且能夠揭示類與類間或類與實例間的共同特征;而個體關聯數據為數據屬性(dp,data properties),數據屬性可根據其定類與定序以及離散與連續等特性來優化實例知識組織方案與豐富知識揭示視角。
4.5? 本體模型修正
4.5.1? 修正規則及概況
本體修正是以初建模型為基礎,參照核心概念外延與揭示實例內容進行本體模型基礎類調整與屬性增減來提升模型匹配度的重要步驟。在本體修正過程中,核心概念外延界定、實例知識粒度細化、本體模型與領域實例匹配度均需根據地方文獻領域專家咨詢與反饋結果進行判定。以湘西地方名人與日記體裁作品整理現狀為基礎,從相關性、重要性、調整性和操作性4個維度設計函詢問卷,遵循個人經驗和獨立認知等判別依據(通過=1;不通過=0),讓專家分別對各基礎類及屬性的4個維度進行評價并給予建議。此次本體修正函詢專家共15位,收回問卷13份(積極系數為86.7%)。參與專家分別來自圖書館、高校與軟件公司。其中,男性7位(53.85%),女性6名(46.15%);本科及以上學歷11位(84.62%),其余學歷2位(15.38%);高級職稱5位(38.46%),中級職稱8位(61.54%)。平均從事信息組織、知識管理與數據庫構建等工作年限為4年及以上。將專家評價、所提問題及建議進行匯總獲得表4,參照建議對CLO進行修正后獲得全票通過。
4.5.1? 基礎類修正
對人物描述明確概況、教育、成果與工作4項大類,以拓寬湘西地方人物知識組織與知識揭示視角。由于人物現有保藏作品多為日記、詩歌與批注等紙質文獻,即人物成果部分任務為歸納現有文獻成果并進行知識組織與內容揭示。以日記文獻為例,將日記從文獻類中提出并分別設立日記類與其他文獻類,對日記類描述納入目錄、事件、情感、風格與角色5項基礎類以全面、細化、深入地揭示文獻知識結構;按照日記格式在目錄中添加卷數與記錄時間,由于日記中存在較多書信交流形式,需在角色類中增加交流角色以標注書信對象。此外,將工作經歷中與機構調動相關內容單獨歸納為機構(機構名、調動地)和職位(職位名)兩項基礎類,以細化對人物工作調動與變化內容的組織與描述。在通用類中,根據文獻內容擴寬地點相關類描述種類,增設國家(共197個國家)子類以備國際事件涉及對象的標注與描述。
4.5.2? 描述屬性調整
在篩選人物及文獻本體基礎類后需要對相關屬性進行調整。由于數據屬性輸入數值主要依賴于文本內容,所以類間調動主要影響的是類的對象屬性。在人物描述方面,依據歷史背景與個人資料空白內容移除謚號、黨派、專長、語言、專業、地形與頁數等數據屬性,根據拓展資料增加身份、親屬與老師等對象屬性。在文獻描述方面,根據日記體裁特點移除作品所屬流派類中關于領域與起源等數據屬性,增加事件類中發生地坐標、涉及國家與涉及地點等對象屬性,增加情感類中事件情感屬性,在角色類中暫時移除保藏者與開發者等外部屬性,增加交往人物、政治人物與歷史人物等對象屬性。此外,對應篩選與調整的新類增加記錄時間、卷數等數據屬性。
綜上所述,調整后地方名人知識框架包括基礎類10個(6大類,4子類)和屬性26個(12對象屬性,14數據屬性),調整后文獻資源知識框架包括基礎類6個(1大類,5子類)和屬性21個(15對象屬性,6數據屬性)。在表5中省略基礎類前綴CLO,其中上標C代表基礎類,上標op代表對象屬性,上標dp代表數據屬性,序號簡示實例關系,***代表概況、教育、工作與成果任意類。
4.6? 基于Protégé的本體模型編輯與呈現
通過本體模型對地方名人文獻資源進行知識抽取、融合與重組,可加速推動特定領域知識由結構化向形式化轉換進程。由于構建與修正本體需耗費大量時間且反復迭代完善,應選用常用本體語言及自動化搭建工具來保障與提高本體編輯效率。在本體語言方面,XML、OWL、RDF(S)等語言都是被認定為可共享語義網內容的標準語言;在自動化軟件上,Ontolingua、OntoSaurus、WebOnto、Protégé等軟件都能夠接納多種描述語言以完成本體模型的開發。其中,Protégé是由斯坦福大學生物醫學信息研究中心開發的本體自動化編輯與開發工具,擁有二次開發、擴展模型、插件豐富和支持多語種輸入輸出等功能,可以為研究者提供一個自定義的開源環境[29]。基于此,此次圍繞地方名人文獻知識的本體編輯任務以語言OWL和工具Protégé為支撐展開。CLO基礎類與屬性輸入如圖2所示:
進入Protégé工具頁面,在本體“由虛入實”的過程應首先按照基礎類描述術語表在Protégé的“classes”模塊中創建人物(CLO_Person)和日記(CLO_Riji)類,再通過“hierarchy”模塊按照層級結構逐級添加人物概況(CLO_Person_Bas)和日記目錄(CLO_Riji_Lis)等子類,并在“prefix”中增加GLO前綴,完成編輯后可獲得圖3右側本體基礎類層次結構視圖。此外,還可以基礎類關系與屬性描述術語為基礎,依據OWL/XML格式編碼對各基礎類、對象屬性與數據屬性進行定義。例如圖3中左側RDF/XML揭示框中就列出了對人物成果(CLO_Person_Ach)、人物教育(CLO_Person_Edu)和人物概況(CLO_Person_Bas)的編碼定義。
同時,參照圖2將CLO各對象屬性與數據屬性輸入對應的自動化操作欄中,并分別編輯定義域和值域。在“Object properties”模塊中輸入關于(is_about)、生年(date_of_birth)、生地(place_of_birth)與卒年(date_of_death)等32項對象屬性。在“Data properties”模塊中添加字(Person_courtesyname)、性別(Person_sex)、民族(Person_ethnicgroup)與就讀院校(Person_adschool)等16項數據屬性。在定義類和子類以及對象和數據屬性后可通過HermiT推理機糾正錯誤定義與不當關聯以完善本體層次結構,也可為準確提取名人知識及其日記元數據和語義內容提供依據。最后在Protégé的“OntoGraf”模塊中以“Radial”形式展示地方名人文獻資源本體基礎類與屬性的關系,如圖4所示:
5? 實例呈現——以湘西詩人田名瑜及《苦學齋日記》為例
實例添加與研究既是本體修正的關鍵步驟,也是檢驗知識組織方案適用性以及開展地方文獻資源開發的重要方式。而構建以本體為驅動的名人資源知識組織方案也能夠充分將異源文獻進行結構化整合,并利用屬性界定、邏輯推理、語義查詢和人文圖譜來獲取領域細粒度知識與繪制人物關聯線索,為塑造地方文化形象以及深入挖掘人物資源內涵提供抓手。
5.1? 田名瑜及《苦學齋日記》知識組織
湘西土家族苗族自治州地處湘鄂渝黔四省市交界處,是擁有悠久歷史文化與特色民俗、服飾、舞蹈和飲食的少數民族聚居地,誕生了沈從文、熊希齡、田名瑜、黃永玉、彭司勛等一批文化與科學名人[30]。當前,圍繞沈從文、熊希齡、田名瑜與黃永玉的研究多聚焦于文獻學與藝術學領域,在資源整理與利用方面也更偏重對文本內容的剖析與考證,尚未有學者通過數字人文視角與技術來整合與開發相關名人文獻資源。同時,日記作為一種可以直接反映人物所見、所思、所想的文體,其豐富的題材種類與隨性的表現方式吸引了古往今來諸多文人墨客、仁人志士駐足賞讀。而相較其他體裁文獻,日記更容易表現作者自身個性與作者真實境遇,記錄的人物經歷與事件也具有更自然的生活氣息,更具備文獻考證、藝術欣賞和思想教育等突出價值。
基于此,本文實例呈現以湘西詩人田名瑜資料及其手稿作品《苦學齋日記》(1961年至1962年)為依托,通過“OCR+人校”模式數字化了相關書本及手稿,結合數據庫人物資料及預設凡例完成了異構文獻資源內容的整理,運用LTP語義分析平臺和NLPIR語言處理系統抽取人物與文獻要素,并根據人物概況、教育、工作、成果、機構、身份分類與文獻目錄、事件、情感、風格、角色、地點分類進行實體要素的劃分。在完成要素抽取與分類后,將非規范性表述內容(綽號、簡稱、方言、錯字等)進行了消解與消歧,對文檔同義異稱的實體如陶淵明(陶潛)等古代人物名與字所遺沖突進行人工消解,對文檔同稱異義的實體如《詩經》(實指《詩經說略》)消除了指代歧義。將抽取與整理后的489項實例根據預設知識框架導入CLO地方名人文獻資源本體模型,并根據人物基礎類與日記接觸類分別對實例進行對象屬性和數據屬性賦值,再使用Protégé軟件中的“OntoGraf”模塊實現地方名人文獻資源實體要素分布視圖,如圖5所示:
5.2? 田名瑜人物知識關聯分析
由于“OntoGraf”模塊顯示內容與顯示字體頁面受限,通過SPARQL查詢語言檢索“田名瑜”并依據“Grid-Alphabetical”模塊形成關聯可見圖6。圖中不同來源的人物知識可以通過自建本體CLO中相同的基礎類及相近的屬性特征實現知識聚合以及結構化分布,CLO模型也能夠較為清晰直觀地梳理人物在各個維度的概況與經歷并進行知識關聯。
在人物概況方面,田名瑜的字(個石)、生年(1890年)、生地(鳳凰縣)、卒年(1981年)以及身份(南社詩人、土家族詩人、湘西作家與同盟會成員)等知識實現共現。在人物成果方面,田名瑜所著作品(《苦學齋日記》《苦學齋詩稿》《早紅詞》《湘西四十年大事記》《湘西苗族記》、《詩經說略》《楚游屑錄》《殘雜詩稿》與《湘西獻征》)實現了整合,能夠為后續文獻內容的組織與關聯提供框架。在工作經歷方面,田名瑜的任職地及職務(鳳凰演講所所長、文昌閣執教、《沅湘日報》編輯與總經理、湘西護國軍秘書、大庸縣縣長、沅陵縣縣長、黔陽縣縣長、第十集團軍秘書、湖南省政府秘書、鳳凰縣縣長、湖南省文物保管委員會委員與國務院文史研究館館員)也實現了組織關聯,能夠為人物仕途畫像的繪制提供依據。此外,通過親屬與師從屬性的關聯還能夠揭示田名瑜與叔父田星六的多重關系,結合任職地、人物與時間的關聯有助于辨析田名瑜在文昌閣執教期間是否教導過著名作家沈從文等。
5.3? 《苦學齋日記》知識關聯分析
通過SPARQL查詢語言檢索“《苦學齋日記》”并依據“Grid-Alphabetical”模塊形成關聯可見圖7。圖中《苦學齋日記》記載內容根據CLO本體模型可拆分為目錄、事件、角色、情感、風格與地點6個類別,各維度知識在基礎類及屬性特征引導下實現了知識共現與知識關聯,能夠更為直觀地呈現日記核心事件、人物關聯與熱點地區,也能為進一步演繹人物行為細節、揭示風格評價與推理情感傾向等提供樣本。
在本體模型中可以通過設置Inverse functional(互逆)、Transitive(傳遞)、Symmetric(對稱)、Asymmetric(非對稱)、Reflexive(自反)等關系推理準則進行知識推理與評估。將本體中已有基礎類與屬性設置為對應關系,根據基礎類與屬性已有賦值可推理出新的關聯并修改錯誤關聯,以此提升知識關聯的精準度。在完成知識推理后,可進一步實現角色、事件、作品與情感的關聯。在實現文本知識關聯后可看出,田名瑜談及親屬(純兒、孚孫、貞孫、宅孫)時,所涉及的高頻事件(住院、下鄉、送信)多包含關懷情感(關懷備至、牽腸掛肚、噓寒問暖)。田名瑜談及交往人物(沈從文與張兆和)時,所涉及的高頻事件(題詞、寄圖、上門)體現了真摯情感(桃李春風與諄諄教誨),進一步印證了田名瑜與沈從文的師生關系。田名瑜談及歷史人物(陶淵明、歐陽修、李白)時,常用詩人作品(《歸園田居》《李太白集》)所載詩句與意境來表達對秀麗風光與景秀河山的感慨,也時常用以印證自己所作詩句并抒發情感(悲秋懷人、寄情山水等)。此外,日記所載政治人物(尼赫魯、肯尼迪、赫魯曉夫等)與國際事件(中印邊境自衛反擊戰、阿波羅計劃等)也形成了情感(無所畏懼、身經百戰、不屈不撓)關聯。可以看出,通過“角色—事件(作品)—情感”等規則架構進行知識推理能夠有效梳理日記各類要素并將其關聯聚合,輔助人文學者開展各維度細粒度知識梳理與發現,也可通過頻詞轉換等手段實現人物、事件情感傾向等方面研究。
綜上操作,研究以田名瑜及其作品《苦學齋日記》為例,通過異構文獻資源內容整理、地方名人資源本體構建、實體與實體關系融合和地方名人資源知識應用4項步驟完成了地方名人資源的知識組織與關聯研究,流程簡圖見圖8。后續可根據本體抽取各類要素,應用Gephi、QGIS、Cytoscape等可視化工具開展地點時空網絡揭示、文段情緒歸類與交互行為分析,還可以將日記內容整合入Neo4j等圖數據庫,為地名名人文獻資源知識庫的構建與開放獲取服務的開展提供便利。
6? 研究總結
開展地方名人文獻資源知識組織與關聯的目的在于整合異構文獻資源、揭示人物及文獻知識特征并進一步精化名人文獻資源描述準度與粒度。本文以異構文獻資源內容整理、地方名人資源本體構建、實體與實體關系融合和地方名人資源知識應用4個步驟為基礎,提出了一套開發與利用地方名人資源的知識組織與關聯方案,結合地方名人文獻資源特征、人物資源描述框架分別將人物知識框架和文獻知識框架組合成地方名人文獻本體模型CLO。在實例部分,以湘西詩人田名瑜資料及其作品為依托,實現了田名瑜及其未刊手稿《苦學齋日記》細粒度知識檢索與特性揭示,驗證了CLO本體模型在地方名人文獻資源整理與開發領域的可操性與實用性。同時,本研究也探究了數字人文視角下地方文獻資源研究與開發的優勢,總結如下:①思維互利,優勢互補。相較于傳統文獻學研究思維與方法,數字人文所涉及工具、技術與算法能夠將地方文獻的“文字”研究拓展為“文字+數據”研究,突破文理壁壘的同時能夠將語言描述優勢同數理運算優勢相結合,實現定性與定量思維的接軌,豐富地方文獻研究成果產出形式和產出領域。②視角寬廣,結構趨同。數字人文為地方名人文獻資源的開發與利用提供了跨學科的應用視角,推動了地方名人多源異構資源的結構趨同與外部異構資源知識互聯,在提高資源開放性、利用率與分享價值的同時,為地方文獻保藏機構進一步開展知識聚類研究、人文知識圖譜繪制以及特色資源知識發現等業務探明了方向。
本研究存在以下不足:地方名人文獻資源知識組織與關聯方案更偏重于工程化操作,視角較為寬泛;研究對象僅為日記類文獻,還需針對其他著作開展實證研究。后續將參照此套方案開展地方名人知識庫構建,期盼在實際應用中能夠不斷調整方案結構、類與屬性,為地方名人文獻資源的開發與利用提供借鑒和依據。
參考文獻:
[1] 劉石, 孫茂松, 顧青. 數字人文[M]. 北京:中華書局, 2019.
[2] 馮晴君. 現代圖書館地方文獻工作理論與實踐[M]. 北京:中央文獻出版社, 2008.
[3] 謝嫚.人物專題數據庫的構建及其數據挖掘探索——以中國女性人物專題數據庫構建為例[J].現代情報, 2010, 30(6): 49-53.
[4] LIU C, HUANG C, WANG H, et al. Mining local gazetteers of literary Chinese with CRF and pattern based methods for biographical information in Chinese history[C]// Proceedings of 2015 IEEE international conference on big data. New York: IEEE, 2015: 1629-1638.
[5] 趙宇飛. 基于中文名稱規范檔的人物信息聚合研究[D].太原:山西大學, 2020.
[6] KIM J W. The Role of philosophy of religion in the research of digital humanities: through the experience of building a digital archive of protestant missionary Letters from Korea(1880-1942)[J]. The Journal of the Humanities, 2021, 123(1): 79-105.
[7] ZORRILLA N. The exclusion of early modern women philosophers from the canon: causes and counteractive strategies from the digital humanities[J]. Hypatia-a journal of feminist philosophy, 2022, 37(2): 177-186.
[8] LUPANOVA Y M. M.V. Lomonosovs image in the historic memory of modern youths[J]. Sotsiologicheskii zhurnal, 2017, 23(3): 163-182.
[9] KUN H, JIANFENG Z. A progressive Web application on ancient Roman Empire coins and relevant historical figures with graph database[C]// Lecture notes in computer science (LNCS 11197). Digital heritage. progress in cultural heritage: documentation, preservation, and protection, 7th international conference. Berlin: Springer International Publishing, 2018: 235-241.
[10] BONCH-OSMOLOVSKAYA A, SKORINKIN D, PAVLOVA I, et al. Tolstoy semanticized: constructing a digital edition for knowledge discovery[J]. Journal of Web Semantics, 2019, 59(100483): 1-9.
[11] CHEN C, CHANG C. A Chinese ancient book digital humanities research platform to support digital humanities research[J]. Electronic library, 2019, 37(2): 314-336.
[12] HUANG J, LUO T. Computing Len for exploring the historical peoples social network[C]//Proceedings of 2018 IEEE 6Th international conference on future internet of things and cloud workshops (W-FICLOUD 2018). New York: IEEE, 2018: 95-101.
[13] JI H H, MIN M S, CHEOL C G, et al. Visual analysis on the political orientation of historical characters in the Joseon Dynasty: focusing on Seo, Geojeong[J]. Archives of design research, 2019, 32(1): 147-161.
[14] BAE S. Digital humanities and Song Dynasty research focus on 1163s civil service examination and the social network of LouYue [J]. Journal of Asian historical studies, 2019, 146(1): 157-191.
[15] 徐永明.中國古典文學研究的幾種可視化途徑——以湯顯祖研究為例[J].浙江大學學報(人文社會科學版), 2018, 48(2): 164-174.
[16] 錢超峰, 杜德斌.北宋官僚家族網絡的空間結構及其演化: 基于CBDB和CHGIS的考察[J].歷史地理研究, 2019, 39(2): 83-94, 161-162.
[17] 楊海慈, 王軍.宋代學術師承知識圖譜的構建與可視化[J].數據分析與知識發現, 2019, 3(6): 109-116.
[18] 劉京臣.大數據視閾中的明清進士家族研究——以CBDB、中華尋根網為例[J].北京大學學報(哲學社會科學版), 2019, 56(4): 96-108.
[19] 鄧君, 鐘楚依, 王阮, 等.清代職官知識組織與關聯分析——以《長春縣志·長春職官考釋表》為例[J].圖書情報工作, 2020, 64(17): 18-26.
[20] 霍曉楠. 數字人文視角下《全唐詩》貶謫詩人時空結構及社會關系網絡研究[D].長春:吉林大學, 2021.
[21] 宋雪雁, 崔浩男, 梁穎, 等.數字人文視角下名人日記資源知識發現研究——以王世杰日記為例[J].情報理論與實踐, 2021, 44(6): 105-111.
[22] 劉寧靜, 劉音, 王莫言, 等.數字人文視角下學術名人知識模型構建研究——以李政道數字資源中心為例[J].圖書情報工作, 2019, 63(23): 113-121.
[23] LI H, ZHU L, SHEN W, et al. Research on knowledge organization and visualization of historical events in the Republic of China Era[J]. Library trends, 2020, 69(1): 138-163.
[24] 姚天泓, 陳艷梅, 劉革, 等.基于CIDOC-CRM的數字人文史料資源語義化知識組織研究——以張學良史料資源為例[J].圖書館學刊, 2019, 41(7): 35-43.
[25] WEI J, LIU R. An approach of constructing knowledge graph of the hundred schools of thought in ancient China[C]//Proceedings of 2019 ACM/IEEE joint conference on digital libraries (JCDL 2019), New York: IEEE, 2019: 335-336.
[26] CHEOK A D, EDIRISINGHE C, KARUNANAYAKA K. Confucius computer: a philosophical digital agent for intergenerational philosophical play[J]. Personal and ubiquitious computing, 2017, 21(2): 327-343.
[27] 牛力, 高晨翔, 劉力超, 等.層次與空間:數字記憶視角下名人檔案的價值挖掘研究[J].檔案學研究, 2021, 187(5): 138-144.
[28] 張云中, 孫平.歷史文化名人游學足跡知識圖譜的構建與可視化[J].圖書館雜志, 2021, 40(9): 81-87, 96.
[29] 王昊奮, 漆桂林, 陳華鈞. 知識圖譜 方法、實踐與應用[M]. 北京:電子工業出版社, 2019.
[30] 中國人民政治協商會議湘西土家族苗族自治州委員會文史資料研究委員會.湘西名人[M]//湘西文史資料 第三十四-三十五輯.湘西:湘西州文史資料委員會, 1994.
作者貢獻說明:
王梓懿:提出研究選題,撰寫與修改論文;
陳? 晨:收集綜述文獻與整理手稿資料;
王湘華:提供手稿資料,指導研究方案,核查論文內容并提出修改意見。
Research on Knowledge Organization and Correlation of Local Celebrity Literature Resources from the Perspective of Digital Humanities
Wang Ziyi1? Chen Chen1? Wang Xianghua2
1School of tourism and management engineering, Jishou University, Zhangjiajie 427000
2School of literature and journalism, Jishou University, Jishou 416000
Abstract: [Purpose/Significance] Starting from the current situation of the construction of local celebrity literature resources, this paper explored the knowledge organization and association scheme of local celebrities multi-source heterogeneous resources from the perspective of Digital Humanities, so as to provide reference for GLAM institutions to carry out local celebrity knowledge management and services. [Method/Process] Referring to the relevant development ideas of celebrity resources at home and abroad, this paper put forward a set of local celebrity resource knowledge organization scheme, which includes four steps: content sorting of heterogeneous document resources, ontology construction of local celebrity resources, relationship fusion between entities and entities, and knowledge application of local celebrity resources. Combined with the characteristics of local celebrity resource and the character resource description framework, the local celebrity resource ontology model CLO is built. [Result/Conclusion] Relying on Tian Mingyu, a poet in Western Hunan, and his manuscript “Diary of study hard”, the knowledge organization and correlation disclosure of local celebrity and his diary works are realized according to the organization steps and protégé tools, which verified the feasibility and operability of this set of organization scheme. While broadening the perspective of local literature development, this paper also provided reference for the construction of celebrity knowledge base and the development of characteristic humanistic services in ethnic areas.
Keywords: digital humanities? ? celebrity literature? ? knowledge organization? ? ontology construction? ? Protégé