馬 強(qiáng),李海平,李京林,徐 濤△
(1.西北民族大學(xué),甘肅 蘭州 730030;2.甘肅省檔案館,甘肅 蘭州 730010)
2020年底,全國(guó)檔案局長(zhǎng)館長(zhǎng)會(huì)議上明確提出“要加快推進(jìn)檔案信息化戰(zhàn)略轉(zhuǎn)型,切實(shí)保障信息化建設(shè)的前瞻性、針對(duì)性、實(shí)效性,進(jìn)一步加強(qiáng)頂層設(shè)計(jì),大力完善基礎(chǔ)設(shè)施,加強(qiáng)標(biāo)準(zhǔn)規(guī)范建設(shè),積極推動(dòng)互聯(lián)網(wǎng)、云計(jì)算、大數(shù)據(jù)、人工智能、區(qū)塊鏈技術(shù)和檔案工作的深度融合,加快檔案信息資源共享服務(wù)平臺(tái)建設(shè),拓展檔案工作數(shù)字化、網(wǎng)絡(luò)化、智能化的應(yīng)用場(chǎng)景。”
在這種發(fā)展要求下,將新一代信息技術(shù)和檔案信息化工作相結(jié)合,對(duì)于研究檔案領(lǐng)域智能化、個(gè)性化的知識(shí)共享服務(wù)已經(jīng)有了一定進(jìn)展。黃雪梅和黃永勤[1]從體系結(jié)構(gòu)、業(yè)務(wù)模式等幾個(gè)方面,進(jìn)一步闡明檔案知識(shí)業(yè)務(wù)系統(tǒng)的規(guī)劃設(shè)計(jì)和使用理念;呂元智[2]從用戶實(shí)際利用檔案服務(wù)行為的不同視角出發(fā),分析與設(shè)計(jì)檔案管理知識(shí)服務(wù)信息系統(tǒng)框架;在分析國(guó)內(nèi)外關(guān)于區(qū)塊鏈技術(shù)建立電子檔案管理系統(tǒng)的研究和實(shí)踐的基礎(chǔ)上,左晉佺和張曉娟[3]又提出了采用“聯(lián)盟+公眾”雙區(qū)塊鏈技術(shù)的電子文檔系統(tǒng);張斌等[4]提出了如何構(gòu)建基于檔案館的大型知識(shí)庫(kù),從而向廣大用戶實(shí)時(shí)提供知識(shí)集成服務(wù)。
傳統(tǒng)檔案館的知識(shí)服務(wù)管理系統(tǒng)通過(guò)收集用戶信息,并提供單一的檢索、瀏覽服務(wù)機(jī)制,存在檔案資源利用率低、針對(duì)性弱、異構(gòu)化資源難以實(shí)時(shí)共享等主要缺陷[5]。為此,通過(guò)利用本體技術(shù)關(guān)聯(lián)自然語(yǔ)言處理、知識(shí)圖譜等知識(shí)構(gòu)建檔案知識(shí)庫(kù),使檔案信息資源結(jié)構(gòu)化、語(yǔ)義化和知識(shí)化,再融合用戶偏好特征,以準(zhǔn)確獲取、動(dòng)態(tài)更新用戶檔案需求,從而強(qiáng)化用戶使用檔案的獲得感和滿足感。本文將從檔案本體構(gòu)建出發(fā),闡述人工智能技術(shù)在檔案知識(shí)共享服務(wù)中使用的主要方法和技術(shù),從而為提高檔案用戶體驗(yàn)和優(yōu)化服務(wù)效果提供參考。
構(gòu)建檔案領(lǐng)域本體前提下,通過(guò)信息技術(shù)和人工智能技術(shù)支撐構(gòu)建檔案知識(shí)庫(kù)[6],結(jié)合不同用戶在數(shù)據(jù)查詢時(shí)的行為和興趣愛(ài)好信息,構(gòu)建并實(shí)時(shí)更新用戶興趣行為模型,全面描述用戶興趣特征及個(gè)性化需求,智能拓展與滿足用戶潛在相關(guān)知識(shí)需求,從而可以有效地實(shí)現(xiàn)協(xié)同管理客戶的資源,從而提升客戶服務(wù)、服務(wù)質(zhì)量的全過(guò)程[7]。與傳統(tǒng)檔案信息服務(wù)的對(duì)比見(jiàn)表1。

表1 基于本體的檔案知識(shí)共享服務(wù)與傳統(tǒng)檔案知識(shí)服務(wù)對(duì)比
基于檔案本體的知識(shí)共享服務(wù)模式核心內(nèi)容有核心技術(shù)、用戶興趣與行為建模、知識(shí)庫(kù)管理、知識(shí)服務(wù)機(jī)制和知識(shí)應(yīng)用。建設(shè)框架如圖1所示。

圖1 建設(shè)框架
2.1.1 本體技術(shù)
本體是用來(lái)定義如何組成某個(gè)“領(lǐng)域”的一個(gè)詞匯表及其中的具體術(shù)語(yǔ)與其詞的關(guān)系,并用來(lái)明確定義一個(gè)詞匯的列表及其外延的基本規(guī)則。本體知識(shí)是相關(guān)概念的一種結(jié)構(gòu)化知識(shí)規(guī)范和表現(xiàn)形式,可以直接形成對(duì)某一領(lǐng)域相關(guān)概念的知識(shí)共享和共同性的理解,完成知識(shí)資源共享和性能重用[8]。
本體語(yǔ)義描述語(yǔ)言是一種具有良好的描述語(yǔ)法和基本語(yǔ)義,以及具備一定表達(dá)能力的形式化描述語(yǔ)言。OWL是一種描述標(biāo)準(zhǔn)本體類型的語(yǔ)言,它具備很強(qiáng)的語(yǔ)義表達(dá)能力,有利于領(lǐng)域本體的資源描述和構(gòu)建,更有助于資源的整合與共享。
領(lǐng)域本體的復(fù)合構(gòu)造設(shè)計(jì)技術(shù)有很多種,國(guó)內(nèi)主流是斯坦福大學(xué)醫(yī)學(xué)院研究的七步法[8],適合于各個(gè)領(lǐng)域自然本體的復(fù)合構(gòu)造。本文借鑒七步法,重點(diǎn)考慮以檔案主題詞內(nèi)容為依據(jù)建立檔案的本體。詳細(xì)步驟如圖2所示。

圖2 檔案領(lǐng)域本體構(gòu)建過(guò)程
2.1.2 自然語(yǔ)言處理
自然語(yǔ)言處理技術(shù)(NLP)是溝通機(jī)器語(yǔ)言與人類自然語(yǔ)言的主要橋梁,是一種以快速實(shí)現(xiàn)各類人機(jī)交互為主要目的信息技術(shù)[9]。NLP有兩大類核心的內(nèi)容:自然語(yǔ)言理解和自然語(yǔ)言生成,包括核心步驟,如分詞、詞性標(biāo)注、起名實(shí)體識(shí)別等。
分詞是通過(guò)把包含詞語(yǔ)、句子、文字等信息的資料,分解成以詞為基本單元的結(jié)構(gòu),方便人們進(jìn)行資料的后續(xù)管理以及資料操作的管理。
詞性標(biāo)注是在任何已給出的句子中,得出每個(gè)詞的語(yǔ)法范圍,確定其詞性,并對(duì)其詞進(jìn)行定義標(biāo)注,在自然語(yǔ)言處理中也是一項(xiàng)非常重要的基礎(chǔ)性任務(wù)[10]。
命名實(shí)體識(shí)別(NER)是指在自然文本中識(shí)別各種實(shí)體所指稱的特定界限和語(yǔ)義類別,包括人名、地名、機(jī)構(gòu)名稱、專有名詞等。在分析檔案的信息時(shí),可對(duì)文檔信息中的信息進(jìn)行訓(xùn)練與整合,便于文檔知識(shí)庫(kù)中各種實(shí)體的特殊語(yǔ)義關(guān)系的填充[10]。比較經(jīng)典的深度學(xué)習(xí)模型有BERT+BiLSTM+CRF。
2.1.3 知識(shí)圖譜
知識(shí)圖譜是基于Google為加強(qiáng)其搜索引擎知識(shí)性能而設(shè)計(jì)的知識(shí)庫(kù),其實(shí)質(zhì)是用來(lái)準(zhǔn)確描述處于客觀世界的各個(gè)概念語(yǔ)義實(shí)體以及各概念實(shí)體之間的客觀關(guān)系的大型概念語(yǔ)義知識(shí)網(wǎng)絡(luò),是指以實(shí)體概念為節(jié)點(diǎn),以客觀關(guān)系為邊,由三元組結(jié)構(gòu)構(gòu)成的一種以實(shí)體視角看待世界客觀關(guān)系的結(jié)構(gòu)。三元組是由實(shí)體、屬性或特殊屬性值和關(guān)系所形成,圖3是一種簡(jiǎn)易社交網(wǎng)絡(luò)圖譜。

圖3 社交網(wǎng)絡(luò)圖譜
知識(shí)圖譜的整體構(gòu)建包括邏輯架構(gòu)和知識(shí)管理架構(gòu),分為知識(shí)模式層和建立數(shù)據(jù)層,其中數(shù)據(jù)層由一系列知識(shí)事實(shí)數(shù)據(jù)構(gòu)成,新知識(shí)將管理存儲(chǔ)在以這些事實(shí)為單位的基礎(chǔ)之上。知識(shí)模式層是建立本體數(shù)據(jù)庫(kù)規(guī)范其在數(shù)據(jù)層的一系列知識(shí)事實(shí)和表達(dá)[11];知識(shí)管理架構(gòu)指的是建立模型架構(gòu),知識(shí)圖譜大多采用自底向上的構(gòu)造法。
知識(shí)圖譜的關(guān)鍵技術(shù)[12]主要有知識(shí)表示抽取、知識(shí)形式表示、知識(shí)融合和知識(shí)邏輯推理,其中知識(shí)表示抽取指的是抽取知識(shí)中實(shí)體、關(guān)系與屬性等事實(shí)性的表達(dá)形式;知識(shí)形式表示指的是通過(guò)三元組準(zhǔn)確地表達(dá)知識(shí)中的實(shí)體、關(guān)系與屬性之間的復(fù)雜語(yǔ)義聯(lián)系;知識(shí)融合指的是同一框架規(guī)范下對(duì)異構(gòu)數(shù)據(jù)信息進(jìn)行整合、消歧等綜合處理操作的過(guò)程;知識(shí)邏輯推理指的是進(jìn)一步解析推理和發(fā)掘隱藏的相關(guān)知識(shí),從而擴(kuò)充可用知識(shí)庫(kù)[13]。
用戶興趣行為建模是從用戶注冊(cè)的基本信息和瀏覽、檢索等歷史瀏覽活動(dòng)中分析和建立用戶興趣模型的重要步驟,力求準(zhǔn)確、全面地描述用戶的個(gè)性化知識(shí)要求,建模過(guò)程可以細(xì)分為用戶模型表示、模型初始值優(yōu)化和用戶模型更新。
2.2.1 用戶模型表示
通過(guò)本體語(yǔ)義概念層次結(jié)構(gòu)、語(yǔ)義邏輯推理以及功能語(yǔ)義分析用戶個(gè)性潛在需求,將其中自然語(yǔ)言邏輯關(guān)系轉(zhuǎn)換為用戶本體語(yǔ)義概念間邏輯關(guān)系,滿足用戶個(gè)性潛在需求并及時(shí)發(fā)現(xiàn)其潛在興趣,實(shí)現(xiàn)滿足用戶興趣的語(yǔ)義抽象化、結(jié)構(gòu)化語(yǔ)義表示與信息存儲(chǔ)[14]。
2.2.2 用戶興趣模型初始化
興趣采集內(nèi)容為用戶個(gè)性化信息,有主要信息,如姓名、性別、年齡等;網(wǎng)頁(yè)瀏覽、檢索、訪問(wèn)歷史、評(píng)價(jià)等行為記錄信息,通過(guò)深挖,摸清用戶的需求,構(gòu)成用戶特征行為數(shù)據(jù)庫(kù)。利用數(shù)據(jù)挖掘、自然語(yǔ)言處理等技術(shù),將用戶利用行為信息進(jìn)行分類,總結(jié)不同用戶的行為偏好與行為模式、習(xí)慣等的相互變化,構(gòu)建基于不同用戶需求的用戶行為管理知識(shí)庫(kù)。圖4為用戶興趣模型搭建過(guò)程。

圖4 用戶興趣模型構(gòu)建流程
2.2.3 用戶興趣模型更新
根據(jù)用戶使用歷史與興趣愛(ài)好變化,動(dòng)態(tài)改善與修正用戶興趣模型,以長(zhǎng)期反映用戶個(gè)性化需求。
基于檔案領(lǐng)域本體的檔案知識(shí)服務(wù)過(guò)程如圖5所示。首先,利用概念推理方法提取文件信息,建立結(jié)構(gòu)化的文檔數(shù)據(jù)庫(kù)。其次,通過(guò)提取用戶的興趣愛(ài)好、行為特點(diǎn),并存入檔案用戶行為本體庫(kù),從而形成了語(yǔ)義的檔案用戶興趣愛(ài)好行為模式[14]。然后,通過(guò)檔案知識(shí)的處理與分析及成果的呈現(xiàn),制定服務(wù)策略與處理檢索結(jié)果,生成用戶個(gè)性化信息檢索、推薦信息列表及相關(guān)知識(shí)語(yǔ)義鏈接等展示給用戶。最后,對(duì)檔案用戶的反饋信息進(jìn)行動(dòng)態(tài)收集,對(duì)檔案本體庫(kù)和用戶興趣行為模型進(jìn)行更新。

圖5 檔案知識(shí)服務(wù)機(jī)制
分為知識(shí)抽取、表示、存儲(chǔ)及更新,主要管理用戶興趣資源、檔案知識(shí)以及服務(wù)檔案用戶過(guò)程中產(chǎn)生的新知識(shí)。
2.4.1 知識(shí)抽取
從各種異構(gòu)檔案數(shù)據(jù)源中分別抽取檔案實(shí)體、特定檔案實(shí)體關(guān)系以及實(shí)體屬性等結(jié)構(gòu)化數(shù)據(jù)信息。對(duì)檔案實(shí)體的識(shí)別提取,可以轉(zhuǎn)化成標(biāo)號(hào)順序的問(wèn)題,常用的方法有深度循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)合條件隨機(jī)場(chǎng)(CRF)[15];提取特定檔案實(shí)體關(guān)系常用的是根據(jù)訓(xùn)練數(shù)據(jù)分析設(shè)計(jì)有效的關(guān)系特征值,根據(jù)監(jiān)督提取方法學(xué)習(xí)各種分類問(wèn)題模型的方法;實(shí)體屬性的提取主要是從不同的檔案信息來(lái)源中,對(duì)具體的檔案實(shí)體進(jìn)行屬性信息的采集,一般情況下等同于實(shí)體關(guān)系抽取問(wèn)題。
2.4.2 知識(shí)表示
由于檔案實(shí)體擁有各種各樣的屬性關(guān)系,因此可以用檔案實(shí)體、檔案實(shí)體關(guān)系的屬性圖來(lái)表示知識(shí)。除了數(shù)據(jù)屬性圖之外,這里主要介紹用資源信息描述框架(RDF)來(lái)進(jìn)行知識(shí)的表示,主要特點(diǎn)是數(shù)據(jù)易于獨(dú)立發(fā)布和實(shí)時(shí)分享各類數(shù)據(jù),通過(guò)兩個(gè)實(shí)體的關(guān)系鏈接而形成一個(gè)有向的數(shù)據(jù)網(wǎng)絡(luò)。見(jiàn)表2和圖6所示。

表2 三元組表

圖6 三元組有向圖
2.4.3 知識(shí)存儲(chǔ)
把各種關(guān)系信息保存到數(shù)據(jù)庫(kù)系統(tǒng)中,以實(shí)體-關(guān)系-實(shí)體或?qū)嶓w-屬性-值的三元組形式為信息的主要表達(dá)方式,從而形成了一種強(qiáng)大的實(shí)體關(guān)聯(lián)語(yǔ)義網(wǎng)絡(luò)。由于檔案知識(shí)關(guān)系結(jié)構(gòu)復(fù)雜,主要使用Neo4J圖數(shù)據(jù)庫(kù)(如圖7),還可以使用MySQL關(guān)系型數(shù)據(jù)庫(kù)等。

圖7 圖數(shù)據(jù)庫(kù)表示多家公司之間關(guān)系
2.4.4 知識(shí)更新
知識(shí)的自動(dòng)更新主要包括新增數(shù)據(jù)后將新的概念添加到本體庫(kù)中,在充分考慮現(xiàn)有數(shù)據(jù)源的安全可靠性、數(shù)據(jù)的一致性等因素,實(shí)體、關(guān)系和屬性值均有新增或更新。
根據(jù)不同檔案用戶個(gè)性化需求行為,可以主動(dòng)提供專業(yè)知識(shí)資源問(wèn)答、知識(shí)資源推薦和專業(yè)知識(shí)資源檢索等各類服務(wù)。
2.5.1 知識(shí)問(wèn)答
利用本體語(yǔ)義表示與邏輯推理能力有效回答用戶問(wèn)題,首先進(jìn)行本體預(yù)處理,明確用戶提問(wèn)意圖;然后匹配檔案知識(shí)庫(kù)中相似度高的知識(shí),若成功則自動(dòng)返回測(cè)試結(jié)果,否則自動(dòng)刪除匹配用戶關(guān)聯(lián)的數(shù)據(jù)并及時(shí)更新反饋用戶意見(jiàn)[15-16]。
2.5.2 知識(shí)推薦
根據(jù)相應(yīng)用戶興趣愛(ài)好和訪問(wèn)歷史,準(zhǔn)確地預(yù)測(cè)其潛在用戶需求,通過(guò)系統(tǒng)檢索收集檔案知識(shí)庫(kù)中符合相應(yīng)用戶潛在需求的檔案知識(shí),經(jīng)系統(tǒng)分類、排序后以適當(dāng)方式對(duì)其進(jìn)行用戶推薦。
2.5.3 知識(shí)檢索
利用本體的綜合邏輯推理與語(yǔ)義表示理解能力,分別處理多個(gè)檢索查詢請(qǐng)求,實(shí)現(xiàn)語(yǔ)義表示理解與邏輯拓展,并對(duì)檢索結(jié)果進(jìn)行語(yǔ)義匹配、排序及數(shù)據(jù)顯示,從而大大提升檔案數(shù)據(jù)的知識(shí)利用率。
文章概述了基于本體的檔案知識(shí)服務(wù)核心內(nèi)容,主要從內(nèi)涵、主要技術(shù)、用戶興趣模型構(gòu)建、知識(shí)服務(wù)過(guò)程、知識(shí)管理與應(yīng)用5方面介紹了檔案知識(shí)服務(wù)模式過(guò)程。此外,檔案信息化資源、利用、安全體系建設(shè)全面推進(jìn),檔案信息化戰(zhàn)略轉(zhuǎn)型不斷深化,也成為新時(shí)期檔案科技與信息化建設(shè)的重點(diǎn)。