999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向深度利用的歷史檔案專題知識庫構(gòu)建研究

2023-05-30 07:51:13李寶玲李珂郭立鑫
檔案管理 2023年2期

李寶玲 李珂 郭立鑫

摘 ?要:本文在數(shù)字人文視角下,對歷史檔案專題知識庫相關(guān)概念及理論進(jìn)行解析,以中福公司歷史檔案數(shù)據(jù)庫為基礎(chǔ),通過引入本體思想,完善元數(shù)據(jù)分類及關(guān)聯(lián)規(guī)則,提出歷史檔案專題知識庫的構(gòu)建原則、方法、功能和展示方式,為面向深度利用的歷史檔案知識服務(wù)做出了有益探索。

關(guān)鍵詞:歷史檔案;檔案專題;知識庫;本體;數(shù)字人文;元數(shù)據(jù);中福公司

Abstract: From the perspective of digital humanities, this paper analyzes the relevant concepts and theories of the historical archives thematic knowledge base, and based on the historical archives database of Zhongfu Company, puts forward the construction principles, methods, functions and display methods of the historical archives thematic knowledge base by introducing ontology, improving metadata classification and association rules, and making a beneficial exploration for the in-depth utilization of the historical archives knowledge service.

Keywords: Historical archives; Archival topics; Knowledge base; Noumenon; Digital humanities; Metadata; Zhongfu company

1 研究現(xiàn)狀

本文以“檔案、知識庫”為關(guān)鍵詞組合,利用中國知網(wǎng)和萬方中文數(shù)據(jù)庫進(jìn)行檢索,共有351篇國內(nèi)研究文獻(xiàn),呈現(xiàn)逐年穩(wěn)中上升趨勢。從成果看,研究主要集中在檔案知識庫的構(gòu)建模型、構(gòu)建原則、構(gòu)建方法、可視化設(shè)計等理論層面。徐擁軍[1]通過分析文件管理(RM)系統(tǒng)、檔案管理(AM)系統(tǒng)、知識管理(KM)系統(tǒng)與OA系統(tǒng)的關(guān)系,提出了檔案知識管理系統(tǒng)構(gòu)建的原則和策略;牛力[2]等提出了數(shù)字記憶視角下學(xué)術(shù)名人知識庫建設(shè)的基本模式,對學(xué)術(shù)名人知識庫的融合、建構(gòu)與服務(wù)具體內(nèi)涵進(jìn)行闡釋;張斌[3]等構(gòu)建了基于檔案知識庫的檔案知識服務(wù)模型,強(qiáng)調(diào)了檔案知識檢索和呈現(xiàn)能力。此外,還有一些學(xué)者基于本體開展了知識庫構(gòu)建理論研究。陸銘[4]基于本體構(gòu)建了檔案館藏資源語義知識庫模型; 孫振嘉[5]等參照 CIDOC-CRM概念模型,以五四運動為例構(gòu)建了資源對象的本體模型。實踐層面,青島市檔案館歷史檔案知識庫支持多種搜索模式和基于時間域進(jìn)行知識瀏覽,中國歷代人物傳記資料庫(CBDB)提供可視化查詢、人名檢索、地名查詢、職官查詢、親屬/人際關(guān)系查詢、社會區(qū)分查詢、兩人社交網(wǎng)絡(luò)查詢 等多種檢索,這些研究實踐為檔案知識庫的構(gòu)建提供了借鑒。

但就實踐層面,在數(shù)字人文指導(dǎo)下的檔案知識庫研究和建設(shè)實證依然偏少,特別是相關(guān)檔案知識庫標(biāo)準(zhǔn)規(guī)范缺位,現(xiàn)有案例不同程度存在數(shù)據(jù)結(jié)構(gòu)不統(tǒng)一、原始檔案資源挖掘?qū)哟螠\,知識展現(xiàn)用戶體驗差等問題,難以滿足檔案知識服務(wù)深度利用需求,亟待在后續(xù)研究解決。

2 歷史檔案專題知識庫的相關(guān)概念

2.1 檔案數(shù)據(jù)庫與檔案知識庫。近年來,隨著數(shù)字檔案館建設(shè)的全面推進(jìn),各省市級檔案館都建立起了覆蓋館藏的檔案數(shù)據(jù)庫,部分檔案館正在建立各種類型專題檔案資源庫,方便了檔案規(guī)范化管理和檢索利用。錢毅[6]認(rèn)為檔案數(shù)據(jù)庫在不同階段的發(fā)展中會出現(xiàn)許多稱謂,如機(jī)讀目錄數(shù)據(jù)庫、索引數(shù)據(jù)庫,照片檔案數(shù)據(jù)庫、全文數(shù)據(jù)庫、多媒體檔案數(shù)據(jù)庫等。知識庫是由數(shù)據(jù)庫概念發(fā)展變化而來,是一種以數(shù)據(jù)庫為基礎(chǔ)技術(shù)面向某一領(lǐng)域知識進(jìn)行抽取和序化,通過一些技術(shù)手段對析出知識加以組織,與大量推理規(guī)則共同以特定存儲方式貯存,為用戶提供可視化的策略性知識服務(wù)系統(tǒng)。孔繁勝[7]認(rèn)為知識庫是合理組織陳述型知識和過程型知識的集合,不但包含了大量的簡單事實,還包含了規(guī)則和推理。張斌認(rèn)為檔案知識庫是一個檔案知識系統(tǒng),檔案部門對原始的數(shù)字檔案進(jìn)行加工處理,從數(shù)字檔案全文中提取出具有知識價值的內(nèi)容,按照適當(dāng)?shù)闹R表示和知識組織方法將其存儲進(jìn)知識庫中。可以看出,與專題檔案資源庫、檔案數(shù)據(jù)庫不同,檔案知識庫不僅包含大量的數(shù)字檔案資源,還包含資源之外的知識挖掘及推理規(guī)則,利用者可以通過檔案知識庫系統(tǒng)的人機(jī)交互界面,精準(zhǔn)又迅速地找到自己感興趣的檔案知識。

2.2 歷史檔案專題知識庫的內(nèi)涵。綜上概念,本文所提歷史檔案專題知識庫是指以特定歷史檔案資源為管理對象,在歷史檔案數(shù)據(jù)庫的基礎(chǔ)上,借鑒本體理論,完善元數(shù)據(jù)分類,構(gòu)建語義規(guī)則,借助人工智能、數(shù)字人文等先進(jìn)技術(shù),按照一定知識體系進(jìn)行整序和分析而組織起來的數(shù)據(jù)庫系統(tǒng)。因此,歷史檔案專題知識庫應(yīng)集歷史檔案資源管理、后臺知識管理、前臺知識展示功能為一體,具有專題性、知識性、交互性、共享性、可擴(kuò)展性等特點。實踐中,應(yīng)充分利用已有檔案數(shù)據(jù)庫資源基礎(chǔ),即把專題歷史檔案的數(shù)據(jù)化、有序化、敘事化和可視化工作作為研究重點;應(yīng)自下而上,在構(gòu)建歷史檔案資源元數(shù)據(jù)、分類標(biāo)準(zhǔn)、語義規(guī)則等工作基礎(chǔ)上構(gòu)建知識庫;應(yīng)先易后難,即以已有一定研究基礎(chǔ)的專題歷史檔案作為切入點形成方法積累經(jīng)驗為其它專題提供參考。

3 中福歷史檔案專題知識庫的構(gòu)建依據(jù)

3.1 理論支撐。首先是數(shù)字人文理論。數(shù)字人文起源于文學(xué)與語言學(xué)領(lǐng)域,是新型的跨學(xué)科研究領(lǐng)域,數(shù)字技術(shù)的進(jìn)步及其在科學(xué)領(lǐng)域的普及應(yīng)用促使它的產(chǎn)生與發(fā)展。[8]數(shù)字人文富有層次化的理論框架與技術(shù)體系不斷發(fā)展,自然語言檢索、知識圖譜、VR/AR、可視化、AI等新興技術(shù)應(yīng)用,為歷史檔案資源深度開發(fā)利用帶來了無限契機(jī),推動了歷史檔案資源從“數(shù)字化”向“數(shù)據(jù)化”“知識化”方向轉(zhuǎn)型發(fā)展。其次是本體理論。本體是對某一領(lǐng)域內(nèi)概念類及其類之間關(guān)系的形式化表示。[9]本體一詞原是哲學(xué)領(lǐng)域的一個名詞,但當(dāng)前已經(jīng)廣泛應(yīng)用于知識工程、系統(tǒng)建模、信息處理、數(shù)字圖書館、自然語言理解、語義web等領(lǐng)域。本體通過定義類、屬性等要素賦予數(shù)據(jù)語義關(guān)系,對相應(yīng)知識集合實現(xiàn)細(xì)粒度的描述與歸納。[10]借助本體方法構(gòu)建知識庫系統(tǒng)可彌補(bǔ)檔案數(shù)據(jù)庫建設(shè)中重實體管理、輕知識服務(wù)的缺陷,有效地提高知識的可獲取性、可互操作性、可共享性、可重用性和可維護(hù)性等,可以更好地進(jìn)行歷史檔案資源的知識組織及相關(guān)研究。最后是知識服務(wù)理論。知識服務(wù)就是從各種顯性和隱性信息資源中,根據(jù)對象的需求將知識提煉的過程,是依托資源建設(shè)為基礎(chǔ)的高級階段信息服務(wù)。[11]知識服務(wù)是基于知識管理的一種新的服務(wù)形態(tài),知識管理是信息管理發(fā)展的新階段,是知識發(fā)現(xiàn)、知識組織、知識利用的過程,它同信息管理不同,要求把信息與知識、信息與活動、信息與人連接起來,知識服務(wù)提供者針對不同類型用戶多樣化知識需求,圍繞自身所擁有的顯性知識與隱性知識,提供快速知識服務(wù)。

3.2 技術(shù)支撐。一是復(fù)用本體模型,CIDOC-CRM是一套應(yīng)用于文化遺產(chǎn)的信息集成概念參考模型,支持圖書館、博物館、檔案館等不同領(lǐng)域不同類型的專業(yè)研究,已有 81個類、160 個屬性。DC是成熟的描述數(shù)字文獻(xiàn)的通用元數(shù)據(jù)標(biāo)準(zhǔn)框架,包含了DCMI術(shù)語和應(yīng)用綱要,包含了15個核心元素集。FOAF是一種遵循W3C體系標(biāo)準(zhǔn)的資源描述框架(RDF)詞表,用于描述人、人群、人的活動的特定屬性及人與人、人與物間的社會網(wǎng)絡(luò)關(guān)系。這3種成熟本體各有特點互為補(bǔ)充,檔案專題知識庫的構(gòu)建在檔案資源庫的基礎(chǔ)上,吸收成熟本體的部分元素,以此彌補(bǔ)原檔案資源數(shù)據(jù)庫的不足。二是自然語言處理技術(shù)。自然語言處理是檔案知識庫的核心應(yīng)用技術(shù),通過自然語言接口,用戶在查詢知識庫內(nèi)容時可以利用自然語言式的文本精確定義自己的知識需求;通過文檔自動處理,使用NLP工具對詞、短語和句子進(jìn)行分析可以得出詞、短語和句子之間的邏輯關(guān)系;通過知識自動獲取,可以對檔案資源庫進(jìn)行庫數(shù)據(jù)挖掘進(jìn)行知識抽取。尤其是自然語言處理的知識圖譜構(gòu)建應(yīng)用,能根據(jù)不同邏輯實現(xiàn)知識的相互關(guān)聯(lián)和圖譜化輸出。三是信息可視化技術(shù)。基于H5的虛擬現(xiàn)實、現(xiàn)實增強(qiáng)、地理信息系統(tǒng)等信息可視化技術(shù)在知識服務(wù)中逐漸興起,使得知識庫更具有人文關(guān)懷,它提供多重感官體驗,支持交互式操作,增加服務(wù)對象的自由度。中福公司歷史檔案知識庫除在線知識檢索外,搭建虛擬展廳,用敘事方式和可視化技術(shù),展示多個歷史主題,令公眾有穿越歷史的真實體驗。

3.3 資源支撐。歷史檔案專題知識庫選擇中福公司歷史檔案全宗為研究對象,具有四個特點:一是中福公司歷史檔案較其他全宗歷史檔案,內(nèi)容更豐富、保存更完整,它形成于1897到1956年間的檔案有4485卷,具有時間跨度大、形成主體多元、門類齊全、載體多樣、領(lǐng)域?qū)挿海妨蟽r值高的特點;二是中福公司歷史檔案依據(jù)《民國歷史檔案著錄規(guī)則》結(jié)合中福公司檔案特點,制定了《中福公司檔案著錄細(xì)則》,進(jìn)行了數(shù)字化的整理和開發(fā),形成了標(biāo)準(zhǔn)化目錄數(shù)據(jù)庫和全文數(shù)據(jù)庫,析出了中福公司檔案的主題和關(guān)鍵要素,為知識庫構(gòu)建打下良好的數(shù)據(jù)基礎(chǔ);三是中福公司歷史檔案在社會上成為研究熱點,產(chǎn)生了一系列中福公司檔案研究成果、文史資料、翻譯作品、科研論文等知識產(chǎn)品,豐富了知識庫的來源;四是中福公司檔案內(nèi)容豐富,涵蓋了政治、經(jīng)濟(jì)、文化、工業(yè)、教育等方方面面,是河南近代工業(yè)發(fā)展的縮影,便于與館藏其他檔案進(jìn)行知識關(guān)聯(lián)。

4 中福歷史檔案專題知識庫的元數(shù)據(jù)體系

4.1 元數(shù)據(jù)項的設(shè)計需求。梁繼紅[12]對走向文本的歷史檔案數(shù)字整理研究提出,歷史檔案數(shù)字整理包括了文本閱讀的基底層,元數(shù)據(jù)搭建的橋梁層,文本內(nèi)數(shù)據(jù)化的加工層,以及數(shù)據(jù)分析和可視化的知識發(fā)現(xiàn)層。可見,元數(shù)據(jù)是歷史檔案知識庫構(gòu)建的重要基礎(chǔ),元數(shù)據(jù)提供了知識的提取、聚類、關(guān)聯(lián),使得歷史檔案實體能夠在數(shù)字空間中呈現(xiàn)多重脈絡(luò)。前期中福公司歷史檔案實現(xiàn)了目錄和內(nèi)容層面的數(shù)字化,雖然按照《中福公司檔案著錄細(xì)則》進(jìn)行了檔案形式和內(nèi)容元數(shù)據(jù)項著錄,但是元數(shù)據(jù)是以資源管理為導(dǎo)向,是獨立的、分散的,缺少語義關(guān)聯(lián),難以實現(xiàn)知識管理,不能完全滿足專題知識庫知識服務(wù)的需求。因此,需要在原有元數(shù)據(jù)基礎(chǔ)上進(jìn)行優(yōu)化,構(gòu)建能夠體現(xiàn)語義特征的元數(shù)據(jù)方案。

4.2 元數(shù)據(jù)體系的設(shè)計原則。遵循三個原則:一是復(fù)用與自定義相結(jié)合原則。歷史檔案既有一般歷史文化遺產(chǎn)檔案的共性特點,也具有自身特殊性。因此,參考CIDOC-CRM、DC、FOAF模型對中福公司檔案的核心元數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化描述和定義,選取通用核心指標(biāo)直接復(fù)用,而其它特殊和次生指標(biāo)通過專家協(xié)作進(jìn)行增補(bǔ)和解釋。二是有利于知識挖掘和關(guān)聯(lián)原則。知識庫建設(shè)大致分為自頂向下的基于本體和自底向上的基于人工智能兩種表示方法,而歷史檔案知識庫建設(shè)以挖掘隱性知識和深度利用為直接目的,應(yīng)發(fā)揮兩類方法各自優(yōu)勢,即在本體思想指導(dǎo)下進(jìn)行元數(shù)據(jù)體系設(shè)計,并在此基礎(chǔ)上通過人工智能技術(shù)支撐,進(jìn)行實例抽取和知識關(guān)聯(lián),達(dá)到知識的深度挖掘。比如,針對中福公司歷史檔案特點,細(xì)化主題類目,規(guī)范定義每一個類目屬性并輔助以同義詞、近義詞詞表;在每一件文獻(xiàn)著錄主題詞的基礎(chǔ)上,增加所屬一級主題類目、二級主題類目。三是突出歷史檔案專題特色原則。不同專題歷史檔案反映了不同歷史階段和專業(yè)領(lǐng)域,具有不同的檔案類型和內(nèi)容。在元數(shù)據(jù)體系設(shè)計上要考慮專題檔案資源特點,體現(xiàn)出研究對象的特色。比如在對“事件”的界定上,既包括發(fā)生在這一歷史時期的歷史事件,也包括中福公司機(jī)構(gòu)變化、人事任免、重要會議、煤礦、安全事故等公司大事。

4.3 基于本體的元數(shù)據(jù)體系構(gòu)建。歷史檔案專題知識庫以“一站、兩庫、多專題”為基本結(jié)構(gòu),“一站”指歷史檔案知識服務(wù)網(wǎng)站,“兩庫”指專題資源庫和專題知識庫,“多專題”指不同的專題資源所對應(yīng)的不同專題模塊,不同專題知識庫依照該專題檔案的存量與整理情況具有相同模型和不同元數(shù)據(jù)項。這里我們以中福歷史檔案為例,引入本體思想,從歷史檔案資源的資源管理層和資源內(nèi)容層分別進(jìn)行分析,資源管理層的本體類目主要描述中福公司檔案的形式特征和過程特征,資源內(nèi)容層的本體類目設(shè)計旨在對中福公司檔案內(nèi)容進(jìn)行多維度描述,為知識發(fā)現(xiàn)、挖掘和利用打下基礎(chǔ)。

中福公司檔案本體共160個類,其中包含11個一級類目,79個二級類,70個三級類,資源管理層面有“檔案外形特征、數(shù)字化資源、檔案類型”3個一級類目,資源內(nèi)容層面有“人物、時間、主題、語種、事件、地點、責(zé)任者、文種”8個一級類目。其中,“主題”“事件”“地點”“時間”復(fù)用CIDOC-CRM,“人物”復(fù)用FOAF,“文獻(xiàn)類型”復(fù)用DC,其余類目為自建而成。

在類目和層級關(guān)系上,可以看出該體系彌補(bǔ)了傳統(tǒng)資源管理模式中以管理一級類為導(dǎo)向的不足,進(jìn)而增加大量內(nèi)容層面類目。其中,檔案文獻(xiàn)的外形特征包括該檔案的檔號、題名、目錄號、頁碼等信息;“數(shù)字化資源”指對檔案實體和相關(guān)資料實體進(jìn)行數(shù)字化后形成的數(shù)字化副本;文獻(xiàn)類型主要指文書、照片、音視頻、人事、會計、科技、圖書資料、實物等檔案實體類型;“事件”主要指由行為主體設(shè)計和執(zhí)行的具有一定預(yù)期目標(biāo)的事情,主要指歷史或公司的一些大事件及要事;“主題”主要描述中福公司歷史檔案的15個方面的特色內(nèi)容,分別為礦案、教育、礦產(chǎn)、民窯、交通運輸、礦警、抗戰(zhàn)、工人運動、經(jīng)營管理、行政管理、生產(chǎn)管理、外事、外貿(mào)、日記日志、醫(yī)療等;“語種”主要指檔案文獻(xiàn)的語言種類,包括中文、英文及其它語言;“地點”是中福公司或人物對象活動發(fā)生時所存在的位置空間,例如北京、河南、四川、湖北等主要地點;“時間”是指中福公司各類事件和行為發(fā)生所形成的階段式時間范圍;文種主要包括令、信函、電報、章程、票據(jù)、日記、報表、憑證、報告、呈等。

在對象屬性上,中福歷史檔案本體中除了上下級關(guān)系的“包含”關(guān)系外,還涉及實體與內(nèi)容間關(guān)系、事件情境關(guān)系、資源對象間關(guān)系、內(nèi)容間關(guān)系、行為主體間關(guān)系、時間等諸多關(guān)系。比如,實體與內(nèi)容間的記錄關(guān)系,事件與人物、地點、時間之間的“誰參與事件”“事件發(fā)生時段”“事件發(fā)生地點”“子事件”“屬于哪個主題”等關(guān)系。本文放棄通過描述對象屬性進(jìn)行語義關(guān)聯(lián)的方法,采用人工智能語義關(guān)聯(lián)方法,對上述人物、地點、時間、事件、責(zé)任者等概念進(jìn)行元數(shù)據(jù)體系優(yōu)化,實現(xiàn)知識的關(guān)聯(lián)。

完成上述類目后,參考《中國檔案主題詞表》《民國檔案分類主題詞表》,按照5%進(jìn)行等間隔抽樣標(biāo)注,人工標(biāo)注檔案近9000件,包含635個主題類屬詞、212個文種類屬詞等,再將提取到的元數(shù)據(jù)類屬詞表植入到自然語言處理語料詞庫,通過機(jī)器識別聚類,機(jī)器標(biāo)注的關(guān)鍵詞約17000個,包含16824個人名、953個地名和177個事件,以此構(gòu)建中福公司檔案的知識體系。

5 歷史檔案專題知識庫的平臺建設(shè)

5.1 建設(shè)框架。歷史檔案專題知識庫以“一站、兩庫、多專題”為建設(shè)總體目標(biāo),借助本體元數(shù)據(jù)體系設(shè)計,通過智能化數(shù)據(jù)挖掘和抽取進(jìn)行知識關(guān)聯(lián),最終以可視化形式流向利用者。建設(shè)框架劃分為四個模塊:專題資源層、技術(shù)融合層、知識組織層、展示應(yīng)用層,如圖1所示。

圖1 歷史檔案專題知識庫平臺建設(shè)框架

專題資源層由五個數(shù)據(jù)庫組成提供原始數(shù)據(jù)。元數(shù)據(jù)庫按照基于本體的元數(shù)據(jù)體系方案,形成結(jié)構(gòu)化的專題元數(shù)據(jù)庫;目錄數(shù)據(jù)庫由本館和外部征集整理產(chǎn)生而成的電子目錄,包括181768條基礎(chǔ)目錄數(shù)據(jù);全文數(shù)據(jù)庫由雙層PDF掛接而成,這部分以文書和圖片檔案為主,包含180845條全文數(shù)據(jù)。資料成果數(shù)據(jù)庫由收集整理并實施數(shù)字化的相關(guān)研究成果組成,包括著作、論文等;多媒體數(shù)據(jù)庫包括了中福歷史檔案相關(guān)的展覽、紀(jì)錄片、文獻(xiàn)片、采訪報道等數(shù)字資源,以音視頻為主。技術(shù)融合層,通過選型先進(jìn)的J2EE架構(gòu)、CES-Coral框架、WebService技術(shù)、XML技術(shù)、OCR技術(shù)、多媒體技術(shù)、全文檢索技術(shù)、NLP技術(shù)、HTML5技術(shù)等,為知識組織和展示應(yīng)用提供強(qiáng)有力的技術(shù)支撐。知識組織層首先通過NLP技術(shù)自動定義不同種類詞性,通過對126萬個詞匯自動識別,形成了395832個有效詞組或短語,而后按照元數(shù)據(jù)方案,抽取地名、人名、同義詞等應(yīng)用詞匯或短語39880個,形成不同類型詞庫;其次,自動計算應(yīng)用詞語或短語的權(quán)重、頻次、距離及關(guān)聯(lián)關(guān)系和語義關(guān)系,形成檢索和索引規(guī)則;最后進(jìn)行知識提取,即根據(jù)詞匯模型進(jìn)行數(shù)據(jù)分類,實現(xiàn)專題檔案和資料數(shù)據(jù)的自動獲取。展示應(yīng)用層按照主題分類、知識圖譜、虛擬展廳、圖文敘事、時間軸大事記、人物介紹、在線交互等形式進(jìn)行可視化呈現(xiàn)。

5.2 系統(tǒng)功能。知識庫應(yīng)用平臺建設(shè)中引入知識工程方法,探索歷史檔案資源從“卷”“件”深入到內(nèi)容層面的知識化處理,系統(tǒng)功能上體現(xiàn)后臺數(shù)據(jù)處理的智能化和前臺利用的人文化。

后臺模塊,系統(tǒng)管理包含人員、權(quán)限、日志、訪問等管理功能,專題數(shù)據(jù)管理包含檔案資源數(shù)據(jù)接收、基礎(chǔ)詞庫維護(hù)、數(shù)據(jù)挖掘、利用審核等功能,知識庫管理提供知識入庫審核、知識關(guān)聯(lián)、語義推理、知識生成、知識維護(hù)等功能,專題發(fā)布提供知識離線數(shù)據(jù)包生產(chǎn)功能,包括大事記、圖文敘事、知識圖譜等。為保證檔案資源安全,后臺部署在局域網(wǎng),中間通過單項離線擺渡傳輸方式更新知識包,既保證知識利用的廣泛性,又確保系統(tǒng)平臺的安全可靠。

前臺模塊,歷史檔案專題知識庫提供多維度知識服務(wù):主題分類形式,專題知識庫系統(tǒng)根據(jù)預(yù)設(shè)的主題分類提供知識查詢功能,實現(xiàn)專題檔案資源高級檢索和主動推送;大事記形式,把與主題相關(guān)的知識按日期進(jìn)行組織排序,展現(xiàn)歷史檔案涉及的大事要事;圖文并茂形式,對圖片類歷史檔案進(jìn)行標(biāo)注,挖掘和解讀圖片檔案背后的故事;知識圖譜形式,把與主題相關(guān)的人物、事件、地點等要素進(jìn)行邏輯關(guān)聯(lián),在整個館藏數(shù)據(jù)資源庫中進(jìn)行語義分析和邏輯關(guān)聯(lián)匹配相近檔案,以圖譜組織排序方式展現(xiàn),并在知識之間標(biāo)注關(guān)聯(lián)關(guān)系;眾籌翻譯形式,利用眾籌方式,借助社會力量,對歷史檔案中大量英文檔案進(jìn)行在線中文翻譯,讓利用者更易讀懂檔案原文,實現(xiàn)檔案與用戶互動交流;人物介紹形式,借助檔案及資料,對中福公司檔案涉及的主要歷史人物,按時間順序?qū)ζ渖竭M(jìn)行串聯(lián),使用戶能夠了解主要人物的主要經(jīng)歷和社會活動。虛擬現(xiàn)實形式,對歷史檔案部分特色場景虛擬化,達(dá)到重現(xiàn)歷史的逼真效果。同時,前臺檔案全文展示自動調(diào)用通用瀏覽器,并通過流加載的方式實現(xiàn)邊下載邊查看的功能,提高用戶知識服務(wù)體驗。其中,知識圖譜作為知識庫的核心,按照歷史檔案本體中的類目,在整個館藏數(shù)據(jù)資源庫中進(jìn)行關(guān)聯(lián)和語義分析,匹配相似檔案,實現(xiàn)知識關(guān)聯(lián)。為面向最廣大用戶提供最廣泛的知識服務(wù),前臺部署在互聯(lián)網(wǎng),采用統(tǒng)一用戶認(rèn)證機(jī)制接入。

6 價值與不足

面向深度利用的中福公司檔案知識庫建設(shè)把資源整合、知識建構(gòu)、多維呈現(xiàn)作為重點,相較一般專題知識庫單一把時間、事件、人物、地點、物件等要素獨立建庫,知識結(jié)構(gòu)上更綜合、更豐富,能有效突出歷史檔案的知識性和專題性,是對數(shù)字技術(shù)與人文研究有機(jī)融合的有益探索。價值有三:一是資源整合上,采取文本、照片、音視頻多類型數(shù)字歷史資源的采集方式,多元整合匯集館內(nèi)外相關(guān)的數(shù)字資源,實現(xiàn)檔案、資料、研究成果等資源間的相互補(bǔ)充與引證,利用數(shù)字技術(shù)完成歷史數(shù)字資源的匯總聚合。二是知識構(gòu)建上,以現(xiàn)有數(shù)字檔案館資源庫為基礎(chǔ),通過本體構(gòu)建和數(shù)字人文技術(shù),在面向深度利用的數(shù)字記憶建構(gòu)觀下,將中福檔案及資料中的時間、人物、事件、地點等歷史記憶要素轉(zhuǎn)換為類目,形成基于本體的規(guī)范化元數(shù)據(jù)方案,再通過人工智能技術(shù)實例化類間關(guān)系對知識進(jìn)行關(guān)聯(lián),將碎片化記憶轉(zhuǎn)換為敘事型記憶,從而形成完整的歷史知識形態(tài);三是呈現(xiàn)展示上,引入大事記、圖文并茂、時空地圖、知識圖譜、虛擬展廳等方式,通過H5多維呈現(xiàn),有效提升檔案文化傳播能力,激活歷史檔案社會價值。

但在知識庫構(gòu)建過程中,也面臨著理論和實踐研究不夠深入,歷史檔案資源數(shù)據(jù)化任務(wù)艱巨,特別是建設(shè)實證依然偏少,沒有成熟的市場產(chǎn)品,相關(guān)標(biāo)準(zhǔn)規(guī)范仍然缺位,人工智能技術(shù)快速迭代等問題,影響了歷史檔案專題知識庫的建設(shè)質(zhì)量,有待后續(xù)繼續(xù)完善。

*本文系國家檔案局科技項目“面向深度利用的歷史檔案資源專題知識庫構(gòu)建技術(shù)與方法研究”(編號:2021-X-30)階段性研究成果。

參考文獻(xiàn):

[1]徐擁軍.“檔案知識管理”系統(tǒng)構(gòu)建的原則與策略[J].檔案學(xué)通訊,2009(02):58-62.

[2]牛力,劉慧琳,高晨翔.數(shù)字記憶視角下的學(xué)術(shù)名人知識庫研究[J/OL].情報理論與實踐.

[3]張斌,郝琦,魏扣.基于檔案知識庫的檔案知識服務(wù)研究[J].檔案學(xué)通訊.

[4]陸銘.基于本體的檔案館藏資源語義知識庫構(gòu)建研究[D].吉林大學(xué),2019.

[5]孫振嘉,汪澤,鄧君.數(shù)字人文視域下歷史檔案知識組織研究——以五四運動為例[J],蘭臺世界,2021(12)

[6]錢毅.檔案數(shù)據(jù)庫建設(shè)中存在的問題及解決思路[J],檔案學(xué)通訊,2006(04)

[7]孔繁勝.知識庫系統(tǒng)原理[M].杭州:浙江大學(xué)出版社 ,2000:10.

[8]王曉光.“數(shù)字人文”的產(chǎn)生、發(fā)展與前沿[M].武漢:武漢大學(xué)出版社,2010:5-8.

[9]楊建林.基于本體的文本信息檢索研究[J].情報理論與實踐,2006(05):598-601.

[10]沈立力,朱蓓琳,姜鵬.基于本體的民國文學(xué)專題數(shù)據(jù)庫知識組織研究.

[11]張文靜,劉婕,徐永全.知識組織和知識服務(wù)的基本理論和基本方法[J].商情,2013(31)

[12]梁繼紅.走向文本的歷史檔案數(shù)字整理:歷史追溯與時代轉(zhuǎn)型(下)[J],檔案學(xué)通訊,2022(01)

(作者單位:河南省檔案館 李寶玲,副館長;李珂,處長,副研究館員;郭立鑫,科員,館員 來稿日期:2022-12-20)

cn/hdjlpt/yjzj/result/12673.

[27]上海市規(guī)劃和自然資源局.上海市城市建設(shè)檔案館通過微信公眾號提供檔案利用咨詢服務(wù)[EB/OL].[2020-8-5]https://ghzyj.sh.gov.cn/gzdt/20200805/56e7d4779353464682524f160002c9bd.html.

[28]托馬斯·R·戴伊.理解公共政策[M].北京:中國人民大學(xué)出版社,2010.

(作者單位:魏楠,鄭州航空工業(yè)管理學(xué)院信息管理學(xué)院;張笑涵,愛丁堡大學(xué)社會與政治科學(xué)學(xué)院 來稿日期:2022-02-20 )

主站蜘蛛池模板: yjizz国产在线视频网| 久久久久亚洲AV成人人电影软件| 欧美亚洲另类在线观看| 日韩福利在线观看| 国产青榴视频| 国产精品香蕉| 丝袜无码一区二区三区| 欧美成人精品在线| 91国内在线视频| …亚洲 欧洲 另类 春色| 国产精品无码一区二区桃花视频| 国产美女一级毛片| 免费毛片全部不收费的| 国产视频大全| 毛片免费在线视频| 五月六月伊人狠狠丁香网| 99精品视频播放| 日韩二区三区| 欧美一区中文字幕| 国内精品免费| 亚洲第一极品精品无码| 亚洲永久精品ww47国产| 国产成人艳妇AA视频在线| 欧美日韩精品一区二区在线线 | 国产区人妖精品人妖精品视频| 91麻豆精品国产高清在线| 日韩A级毛片一区二区三区| 国产精品第| 国模在线视频一区二区三区| 亚洲国产精品国自产拍A| 久久9966精品国产免费| 激情無極限的亚洲一区免费| 亚洲欧美日韩中文字幕在线| 天天色天天综合| 午夜国产理论| 人人爽人人爽人人片| 日本免费a视频| 丝袜无码一区二区三区| 亚洲精品在线观看91| 亚洲日韩国产精品综合在线观看 | 99视频在线免费观看| 99久久精品免费看国产免费软件| 玖玖免费视频在线观看| 波多野结衣AV无码久久一区| 色婷婷在线影院| 激情六月丁香婷婷四房播| 在线观看国产网址你懂的| 九九热精品在线视频| 亚洲av成人无码网站在线观看| 欧美激情视频一区二区三区免费| 国产精品网址你懂的| 99久久性生片| 浮力影院国产第一页| 国产香蕉在线| 亚洲AV成人一区二区三区AV| 欧美成人午夜视频| 亚洲AV无码久久天堂| 欧美97色| 一级毛片在线播放| 欧美成人精品一区二区| 日韩东京热无码人妻| 激情無極限的亚洲一区免费| 午夜精品久久久久久久无码软件 | 国产精品污视频| 亚洲女人在线| 2021天堂在线亚洲精品专区| 欧美日韩精品综合在线一区| 99在线视频精品| 日韩视频免费| 精品国产三级在线观看| 天堂亚洲网| 亚洲欧美激情小说另类| 欧美成人精品高清在线下载| 噜噜噜综合亚洲| 在线国产三级| 九九线精品视频在线观看| 国产香蕉97碰碰视频VA碰碰看 | 天天干天天色综合网| 久久免费视频播放| 青青草国产免费国产| 日韩av资源在线| 久久99国产视频|