趙維維 段燕鴿 陳瑋



摘 要:紅色檔案資源承載著紅色歷史的證據鏈條,蘊藏著我們黨永葆本色的生命密碼。知識圖譜作為高效知識網絡,可實現紅色檔案資源知識互聯,為紅色檔案資源的深層次開發提供契機。本文在明確紅色檔案資源及數據來源的基礎上,通過知識建模、知識采集、知識抽取、知識融合、知識存儲與展現5個環節構建紅色檔案資源知識圖譜,以期充分挖掘紅色檔案資源間的潛在關聯,為資源深層次的開發與應用提供可視化知識顯示。
關鍵詞:紅色檔案資源;紅色檔案;知識圖譜;本體構建
基金項目:2022年度河南省檔案局檔案科技項目《新時代文化傳承與發展背景下河南紅色檔案資源協同開發利用研究》(批準號:2022—R—039)研究成果。
1 引言
紅色檔案資源承載著黨的歷史,蘊藏著黨的初心使命,是黨史學習教育最為生動的教科書。近年來,在數字人文研究的浪潮下,學界不斷探討紅色檔案資源的開發利用方法,主動引入數字人文方法。知識圖譜作為代表性的數字技術之一,以結構化的形式描述客觀世界中概念、實體及其關系的高效知識組織網絡,使得實體之間關系以圖的方式進行知識表示,可實現知識互聯。知識圖譜自提出后,已在智慧金融、智慧醫療、智慧政務等多個領域落地應用,并逐漸引起檔案學者的關注。如趙雪芹將其與工程檔案相結合開展研究[1],鄧君將其引入口述歷史檔案資源研究[2],宋雪雁將其與檔案文獻研究相結合[3]。并未有學者將知識圖譜引入到紅色檔案資源開發之中進行探討。加之在數字人文場域下,紅色檔案資源開發無法割棄計算機技術。 本研究將知識圖譜與紅色檔案資源相結合,在明確紅色檔案資源定義及數據來源的基礎上,通過知識建模、知識采集、知識抽取、知識融合、知識存儲與展現構建紅色檔案資源知識圖譜,以期充分挖掘紅色檔案資源間的潛在關聯,支撐資源的深層次開發與多元化的利用需求。
2 紅色檔案資源知識圖譜構建意義
2.1 紅色檔案資源的界定
學術界鮮少對紅色檔案資源的概念開展專門且深入的理論探討,并存在將紅色檔案和紅色檔案資源作為同一概念進行使用的情況。如郭曉文指出紅色檔案資源包含革命和建設時期形成的且能夠體現中國共產黨和人民群眾崇高革命精神的珍貴紅色檔案和多形態紅色資源[4]。翟樂認為紅色檔案資源主要包括中共黨史、 新中國史、改革開放史和社會主義發展史的檔案資源[5]。陳艷紅基于鄭慧對紅色檔案的界定,提出紅色檔案資源是由黨領導的機關、團體、企事業單位等在政治、經濟、軍事等活動中形成的歷史記錄[6]。 本文立足于“大檔案”視角,并結合現有觀點,主張紅色檔案資源定義為中國共產黨領導機關、團體、企事業單位、人民群眾等在革命、建設和改革時期形成的能夠體現黨和人民崇高精神的紅色檔案及紅色資源。紅色檔案資源蘊含著黨的初心使命和光榮傳統,彰顯黨和人民的開拓精神和家國情懷[7],是見證黨艱苦奮斗歷程的第一手史料,能夠對革命史實、黨的歷史發展、中國共產黨人的精神譜系等進行立體化展現,可作為四史教育的生動教材。我們要把紅色檔案資源保管好、管理好、利用好,賡續紅色血脈[8] 。
2.2 紅色檔案資源分布特點
2.2.1分布散落。紅色檔案資源的形成和保存方式使其呈現出散落分布的特點。紅色檔案資源形成于特定的地理空間,僅記錄該區域的革命史實。我國地域廣闊,黨和人民在延安、大別山區、蘇北老區、閩西地區、南京、上海等地都留下了革命遺址遺跡,這使得紅色檔案資源較為分散。更為重要的是,大部分紅色檔案資源在形成后便被保存于形成地區的博物館、紀念館、檔案館、圖書館、文物館等單位以及國家檔案館,還有部分散落在企業、社會組織和個人手中,并未實現統一化收集,使得紅色檔案資源散落分布,形成“信息孤島”。
2.2.2知識組織程度低。知識組織程度即知識的序化程度,可從顯性和隱性兩個方面進行考慮。從顯性方面來看,不同地區和機構之間交流合作較少,并未形成統一的紅色檔案資源組織方式,難以實現成果整合。從隱性方面來看,紅色檔案資源的知識組織較少應用關聯數據、知識圖譜、數字地圖等技術,缺乏語義互操作和統一的元數據著錄標準[9],很難實現紅色檔案資源的細粒度表示及深層次的語義挖掘,使得紅色檔案資源內部信息的揭示程度不夠。如何收集、組織和知識化開發紅色檔案資源,并支撐學術研究,是我們需要進一步解決的問題。
2.3 知識圖譜在紅色檔案資源開發中應用的意義
知識圖譜作為資源關聯的技術方法,具有語義化、知識化、數據化等特點,能夠描述紅色檔案資源實體及相互關系并將其構成網狀結構,基于此可充分挖掘紅色檔案資源間潛在關聯并實現紅色檔案資源的知識整合。 知識圖譜的引入可揭示紅色檔案資源間隱含關系。知識圖譜以有向圖的方式清晰展現節點、節點關系及圖譜整體特征,使得開發者可以依據紅色檔案資源知識圖譜依次尋找相鄰節點并發現關聯信息,進而挖掘出資源間隱含的多維復雜關系并獲得啟發。知識圖譜在語義層面上對實體、概念以及實體間的關聯關系進行形式化的描述,能夠揭示紅色檔案資源語義信息并以靈活的網系結構實現繁雜紅色檔案資源的知識聚合,便于開發者快速定位、發現并提取所需資源,并為紅色檔案資源進一步的知識發現提供可能途徑。
3 紅色檔案資源知識圖譜構建的數據來源
3.1 紅色檔案
紅色檔案是黨和人民在革命和建設過程中形成的具有保存價值的原始記錄[10],包含博物館、檔案館、文化館、紀念館等機構收藏的以及社會遺留的紙質檔案、音像檔案和實物檔案,應作為紅色檔案資源知識圖譜的主要數據來源。
3.2 紅色資源
紅色資源指的是黨領導人民在革命和建設過程中形成的具有保存價值的資源[11],包含歷史紀念館、革命紀念館、陳列館、黨史館、人物故居、革命遺址遺跡、烈士陵園、烈士紀念碑、革命歌曲、革命詩歌、文物、文獻等物質形態的紅色資源,黨史事件、革命人物、重要會議、革命精神等非物質形態的紅色資源。
4 紅色檔案資源知識圖譜構建框架
4.1 知識建模
知識建模是構建紅色檔案資源知識圖譜的邏輯架構,即紅色檔案資源本體構建。其作為構建紅色檔案資源知識圖譜的基礎,可明確紅色檔案資源的類、屬性及其關系,并形成計算機可以直接理解和處理的語言。因七步法和 Protégé應用較為廣泛,且 Protégé具有可視用戶界面、開源用戶代碼等優點[12],故此本文選用斯坦福大學的“七步法”和 Protégé來構建紅色檔案資源本體。紅色檔案資源本體的構建,需先明確其范圍和特點,并在查找可復用本體的基礎上,列出本體的類和子類,繼而定義類的對象屬性和數據屬性。
4.1.1界定核心概念。本體的構建需以明確紅色檔案資源的范圍和特點為基礎,繼而參考復用本體詞表對資源類、子類、類屬性、子類屬性的描述,如 FOAF 本體和 CIDOC CRM 概念參考模型,以提高本體的參考價值和可復用性,推進知識共享。圍繞紅色檔案資源內容,基于機器學習從大量紅色檔案資源文本中抽取核心概念,并將其中具有概括性的核心概念作為本體的類,形成時間、地點、人物、事件、事物、資源 6 個類及其子類,如圖 1 所示。其中,時間類復用 CIDOC CRM 的 E52,包含時間點和時間段兩個子類,如人物的出生死亡時間點、事物的形成時間點、事件發生的時間段等;地點類包含收藏機構和地理位置 2 個子類, 即收藏紅色檔案資源的機構和紅色檔案資源內容所記載的地理位置信息;人物類復用 FOAF 本體的 Agent,分為個體、群體和組織機構 3 個子類[13];事件類依據紅色檔案資源內容進行定義,因紅色檔案資源記載的事件主要圍繞革命、建設和改革展開,故此可劃分為革命事件、建設事件、改革事件 3 個子類;事物類復用 CIDOC CRM 中的 E7 進行定義,指的是紅色檔案資源所描述的實物對象,包含自然物和人造物 2 個子類,即地形、山脈等自然物,黨章、指南針、軍用水壺等人造物;載體類借鑒 CIDOC CRM 中的 E55 進行定義,指的是紅色檔案資源所表達的物理表現,包含文本、圖像、音頻、視頻和實物 5 個子類。
4.1.2添加屬性。本體屬性涵括對象屬性(Object Property)和數據屬性(Data Property),紅色檔案資源的對象屬性包含人物與時間、人物與地點、人物與事 件、時間與事件等,創建對象屬性可建立不同類之間的關系,便于紅色檔案資源知識圖譜的關聯檢索和知識發現[14];紅色檔案資源的數據屬性包含名稱、曾用名、民族、性別、籍貫、職位等個體信息,機構名稱、機構曾用名等組織機構信息,名稱、地址、郵編等收藏機構信息,創建數據屬性可消除實體的歧義性,如圖 2 所示。
4.1.3繪制本體模型。在明確紅色檔案資源本體和屬性后,運用 Protégé繪制本體模型,實現紅色檔案資源本體的可視化展示。如圖 3 所示。
4.2 知識采集
知識采集,指的是對多源異構的數據源進行獲取并統一存儲。紅色檔案資源的來源分散和結構復雜多樣的特性使得知識采集工作較為復雜。一是運用數字化轉換設備和激光掃描設備,將博物館、檔案館、紀念館、革命遺址遺跡、烈士陵園等收藏的紙質檔案資源、音像檔案資源、實物檔案資源進行數字化轉換;二是利用八爪魚、爬山虎等爬蟲工具在網站上爬取相關紅色資源;三是廣泛征集社會遺存的紅色檔案資源并進行數字化。因數字化后的圖像、實物檔案資源仍為非結構化數據,不利于進一步的數據處理,故此將其轉化為文本格式,以便于后續的知識抽取。
4.3 知識抽取
知識抽取對數據深層語義的理解及處理具有重要意義,指的是在知識采集基礎上將非結構化數據和半結構化數據轉化為結構化內容的過程,包含實體抽取、關系抽取和屬性抽取 3 個部分。實體作為進一步抽取屬性和關系的基礎,其準確性和完整度至關重要。實體抽取旨在從紅色檔案資源文本中識別實體邊界及其類型,提取紅色檔案資源的關聯數據。關系作為知識圖譜的重要組成部分,是實體及其屬性的補全。關系抽取是從文本中抽取出兩個或多個實體語義關系,如(人物,出生,時間)(人物,參與,事件)等,可解決實體語義鏈接問題[15]。實體和關系的抽取方法有階段獨立式抽取和聯合抽取。因階段獨立式的抽取方法不可避免存在著誤差傳播、上下文語義關系利用不足等問題。故此,選用實體關系聯合抽取的方法,即基于 BERT 的中文實體關系聯合抽取模型,該模型包含頭實體抽取和相應的尾實體與關系抽取,充分考慮了句子的整體信息,可解決誤差傳 播和上下文語義關系利用不足等問題[16]。
4.4 知識融合
知識融合,指的是集成不同結構的紅色檔案資源。在知識融合的過程中,需綜合考慮概念層和數據層,通過本體匹配、實體對齊、知識冗余和矛盾消除等, 形成高質量的數據庫。概念層的知識融合,是將紅色檔案資源本體模型與其他本體模型的類、屬性進行融合;數據層的知識融合包含實體對齊、知識冗余與矛盾消除等。因知識抽取所形成的實體、關系和屬性集合極大可能存在冗余信息、沖突信息等“噪聲”,故需通過知識融合進行降噪處理。如異名字段的匹配與映射、 同名字段的異議與區分問題。紅色檔案資源中存在“多人同名”現象,我國史上兩位將軍名字均為方國南,其中一位參加長征、遼沈、平津等戰役,為新中國的誕生做出重大貢獻,另一位作為新中國軍銜授予的重要人物,獲得了一級解放勛章,可依據檔案和史料進行區分,辨別人物實體差異。
4.5 知識存儲與展現
現有的知識圖譜主要采用 MarkLogic、gStore、Virtuoso、Stardog、Neo4j 等進行存儲[17]。因 Neo4j 圖數據庫更加注重數據的關聯關系,且具有架構靈活、高擴展、高性能等優點[18],故選用 Neo4j 圖數據庫存儲紅色檔案資源知識圖譜,應用Java語言和 Neo4j圖數據庫的 CREATE 語句創建圖結構,運用 Browser 工具完成紅色檔案資源知識圖譜的可視化展示。如圖 4 所示,Neo4j 中不同顏色節點代表不同類型的實體,邊則代表了實體的相關關系,可清晰呈現實體之間關系,實現實體與關系的高效搜索與遍歷,也為后續的知識應用奠定基礎。
結語
紅色檔案資源見證了黨的崢嶸歲月,是深挖革命和建設年華、開展黨史學習教育的生動教材。我們要為國守史,深入挖掘紅色檔案資源,承擔起傳承和弘揚紅色精神的時代重任。紅色檔案資源知識圖譜的構建為紅色檔案資源開發利用注入了 新視角與新路徑,可助力紅色檔案資源的有效整合、深層次挖掘與多維知識發現,充分發揮紅色檔案資源存史資政育人的作用,推進紅色基因傳承與紅色文化傳播。
參考文獻
[1]趙雪芹,楊一凡,于文靜.基于Neo4j圖數據庫的工程檔案知識圖譜構建及應用[J].檔案與建設,2022(5):48-51.
[2]鄧君,王阮.口述歷史檔案資源知識圖譜與多維知識發現研究[J].圖書情報工作,2022,66(7):4-16.
[3]宋雪雁,張偉民,張祥青.基于檔案文獻的清代祭祀禮器知識圖譜構建研究[J].圖書情報工作,2022,66(3):140-151.
[4]郭曉文.赤峰市紅色檔案教育資源及其開發利用[J].赤峰學院學報(漢文哲學社會科學版),2021,42(12):40-43.
[5]翟樂,李金格.數字人文視閾下紅色檔案資源的遴選、組織與開發策略研究[J].情報科學,2021,39(12):174-178+186.
[6]陳艷紅,陳晶晶.數字人文視域下檔案館紅色檔案資源開發的時代價值與路徑選擇[J].檔案學研究,2022(3):68-75.
[7]王向女,姚婧.“互聯網+”時代長三角地區紅色檔案資源開發與利用的新方向[J].檔案與建設,2020(8):4-8.
[8]習近平.用好紅色資源 賡續紅色血脈 努力創造無愧于歷史和人民的新業績[J].中國人大,2021(19):6-9.
[9]翟樂,李金格.數字人文視閾下紅色檔案資源的遴選、組織與開發策略研究[J].情報科學,2021,39(12):174-178+186.
[10]周林興,姜璐.紅色檔案資源開發中的敘事表達研究[J].檔案學研究,2022(4):4-9.
[11]許徐琪.試析紅色資源的時代價值與傳承路徑[J].浙江檔案,2021(12):13-16.
[12]馬翠嫦,曹樹金.網絡學術文檔細粒度聚合本體構建研究[J].圖書情報工作,2019,63(24):107-118.
[13]趙雪芹,李天娥,曾剛.面向數字人文圖像資源的知識元本體構建及關聯展示研究[J/OL].情報理論與實踐:1-11[2022-08-27].http://kns.cnki.net/kcms/detail/11.1762.G3.20220411.1643.006.html.
[14]宋雪雁,張偉民,張祥青.基于檔案文獻的清代祭祀禮器知識圖譜構建研究[J].圖書情報工作,2022,66(3):140-151.
[15]徐增林,盛泳潘,賀麗榮,王雅芳.知識圖譜技術綜述[J].電子科技大學學報,2016,45(4):589-606.
[16]李代祎,李忠良,嚴麗.一種面向中文的實體關系聯合抽取方法研究[J/OL].小型微型計算機系統:1-9[2022-08-30].http://kns.cnki.net/kcms/detail/21.1106.TP.20220727.1525.004.html.
[17]杭婷婷,馮鈞,陸佳民.知識圖譜構建技術:分類、調查和未來方向[J].計算機科學,2021,48(2):175-189.
[18]高勁松,張強,李帥珂.可移動文物的知識圖譜構建及關聯數據存儲——以湖北省博物館為例[J].現代情報,2022,42(4):88-98.
(作者單位:固始縣檔案館 鄭州航空工業管理學院)