姜 芳,燕明亮,霍江濤,李子時
(中國人民解放軍63891部隊(duì),洛陽 471003)
在情報學(xué)的概念中,情報是可傳遞的知識,它既具有傳遞性,又具有效用性,還具有一定的知識性。正是由于這些情報的特性,使得不同來源的情報之間存在著某種聯(lián)系[1]。通過分析大量情報的相關(guān)性,挖掘出情報中蘊(yùn)含的知識及其之間內(nèi)在聯(lián)系,從而獲取豐富的潛在事實(shí),并對某一知識過往的演化歷程和未來的發(fā)展趨勢進(jìn)行推理,是現(xiàn)階段情報分析的一項(xiàng)主要任務(wù)[2]。因此,探索挖掘和分析情報的方法,是現(xiàn)代情報研究的一個重要方向。然而,隨著信息技術(shù)和互聯(lián)網(wǎng)技術(shù)的高速發(fā)展,無處不在的信息終端每時每刻都在產(chǎn)生海量信息,不同信息之間的關(guān)聯(lián)也日益復(fù)雜多樣,各類信息呈爆炸式增長趨勢。特別是在電子信息裝備情報領(lǐng)域,互聯(lián)網(wǎng)的發(fā)展使得情報知識的傳遞更加迅速和廣泛,導(dǎo)致情報數(shù)據(jù)的增長是指數(shù)級的,情報研究的對象從單純的紙質(zhì)情報發(fā)展為數(shù)字化、電子化的情報,數(shù)據(jù)形式也呈現(xiàn)出多樣化的特點(diǎn)。如何在海量的、異構(gòu)的情報數(shù)據(jù)中進(jìn)行分析研究,如何應(yīng)對電子信息裝備領(lǐng)域的專業(yè)性要求,這都給情報分析人員帶來了極大的困難和挑戰(zhàn)。當(dāng)務(wù)之急需采用新的技術(shù)手段來挖掘、整合和分析海量的異構(gòu)數(shù)據(jù),對不同來源的知識進(jìn)行融合,為情報分析人員提供輔助手段,提升情報共享服務(wù)能力和情報產(chǎn)品的質(zhì)效。
將知識圖譜引入電子信息裝備情報領(lǐng)域,是解決上述問題的一個思路。知識圖譜通過自然語言處理、語義網(wǎng)絡(luò)等底層技術(shù)的支持,能夠從大量文本中自動抽取信息來構(gòu)建結(jié)構(gòu)化的知識,實(shí)現(xiàn)大規(guī)模、自動化的知識獲取[3]。建立電子信息裝備情報知識圖譜,統(tǒng)一描述各類電子信息裝備實(shí)體數(shù)據(jù),規(guī)范其組織關(guān)系,一是可以在語義上實(shí)現(xiàn)多源異構(gòu)數(shù)據(jù)的融合;二是能夠以圖的形式將具有復(fù)雜關(guān)系的電子信息裝備情報知識表示出來,輔助情報分析人員從大量數(shù)據(jù)及其相互關(guān)系中快速獲取其關(guān)注的知識;三是可整合內(nèi)、外部情報產(chǎn)品以及結(jié)構(gòu)化情報數(shù)據(jù)等,深層次挖掘電子信息裝備情報在語義層次的相關(guān)知識和內(nèi)在關(guān)聯(lián),進(jìn)而厘清電子信息裝備之間潛在的相互關(guān)聯(lián)關(guān)系,為情報分析人員挖掘潛在的情報知識提供更為直接的支撐服務(wù)。
本文介紹了知識圖譜技術(shù)以及基本的構(gòu)建方法,并結(jié)合電子信息裝備情報領(lǐng)域的特點(diǎn),進(jìn)一步提出電子信息裝備情報領(lǐng)域知識圖譜的構(gòu)建框架和構(gòu)建方法,可為其他情報領(lǐng)域知識圖譜研究人員提供借鑒與參考。
知識圖譜的概念率先由谷歌公司提出,它可以用圖式模型來描述知識和建模世界萬物之間的關(guān)聯(lián)關(guān)系[4]。主要包括節(jié)點(diǎn)和邊,節(jié)點(diǎn)通常是實(shí)體或抽象的概念,邊通常是實(shí)體的屬性或?qū)嶓w與實(shí)體之間的關(guān)系,用節(jié)點(diǎn)和邊的形式來表示知識及其內(nèi)在關(guān)系[5-6]。自谷歌提出知識圖譜以來,其他搜索引擎公司也陸續(xù)宣布了其“知識圖譜”產(chǎn)品,主要是為了提高自身搜索引擎返回結(jié)果的準(zhǔn)確率和召回率。目前,知識圖譜所涉及的底層技術(shù)已經(jīng)較為成熟,全世界范圍內(nèi)已完成了多個大規(guī)模知識圖譜的構(gòu)建,如DBpedia、YAGO、Freebase、NELL、BabelNet等[7]。
從面對的受眾和知識來源來看,知識圖譜一般可劃分為領(lǐng)域知識圖譜和通用知識圖譜。領(lǐng)域知識圖譜主要針對特定領(lǐng)域,具有很強(qiáng)的針對性,如電子商務(wù)、醫(yī)療健康、金融證券、基因工程等。通用知識圖譜描述的是一般、通用的知識,并不針對特定領(lǐng)域,更多的是應(yīng)用于智能搜索等領(lǐng)域,例如雅虎、百度、谷歌搜索引擎目前使用的知識圖譜。兩者的側(cè)重點(diǎn)也不同,領(lǐng)域知識圖譜更加側(cè)重于知識的深度,它需要依靠大量準(zhǔn)確豐富的、知識結(jié)構(gòu)復(fù)雜、知識質(zhì)量高的領(lǐng)域內(nèi)數(shù)據(jù)來構(gòu)建,并且還需要通過人工對圖譜進(jìn)行校正來提高領(lǐng)域知識圖譜的準(zhǔn)確性和專業(yè)性;通用知識圖譜側(cè)重于知識的廣度,對準(zhǔn)確度不做強(qiáng)制關(guān)注,主要是因?yàn)槭芟抻诟拍罘秶挠绊懀瑢?shí)體、實(shí)體屬性、實(shí)體間的關(guān)系很難通過其它手段進(jìn)行規(guī)范,因而無法確保準(zhǔn)確度[8]。
知識圖譜的構(gòu)建涉及多項(xiàng)關(guān)鍵技術(shù),對數(shù)據(jù)源的完整性和準(zhǔn)確性要求較高,是一個系統(tǒng)而復(fù)雜的過程。知識圖譜的構(gòu)建方法大致可以分為兩大類:自上而下方式和自下而上方式[9]。
自上而下方式主要是從百科類數(shù)據(jù)源中獲得本體、本體之間的上下層級關(guān)系和有關(guān)規(guī)則,形成清晰的架構(gòu)層級,然后通過實(shí)體學(xué)習(xí),將實(shí)體納入本體的架構(gòu)中,形成知識圖譜。這種構(gòu)建方法因?yàn)閿?shù)據(jù)源具有較好的層次結(jié)構(gòu)和較高的數(shù)據(jù)準(zhǔn)確率,因此能夠構(gòu)建出質(zhì)量較好的知識圖譜。
與自上而下方式相反,自下而上的構(gòu)建方式是先抽取底層實(shí)體,然后對實(shí)體進(jìn)行歸類總結(jié)形成概念,最后自下而上逐步對概念進(jìn)行抽象,從而形成本體的結(jié)構(gòu)層次。這種方式對數(shù)據(jù)類型不做要求,即可以是互聯(lián)網(wǎng)上的非結(jié)構(gòu)化網(wǎng)頁數(shù)據(jù),也可以是非結(jié)構(gòu)化的文本數(shù)據(jù),如word、txt 等。以自下而上方式構(gòu)建的知識圖譜在準(zhǔn)確率上不如以自上而下方式構(gòu)建的知識圖譜,主要是因?yàn)樽韵露系姆绞剿婕暗男畔⒊槿 ⒚麑?shí)體識別等技術(shù),相對依賴于NLP 技術(shù)的發(fā)展程度。此外,由于在知識圖譜的構(gòu)建過程中,可能會有多個數(shù)據(jù)來源,從這些數(shù)據(jù)源中抽取的信息可能存在冗余信息、錯誤信息、甚至相悖的信息,這些異常信息都會導(dǎo)致知識圖譜的準(zhǔn)確度下降,因此如果要提高由自下而上方式形成的知識圖譜的準(zhǔn)確度還需要知識融合技術(shù)的發(fā)展。
在實(shí)際的構(gòu)建過程中,為了提高知識圖譜的準(zhǔn)確度,一般采用兩種方式相結(jié)合的方法來進(jìn)行構(gòu)建[10]。
構(gòu)建電子信息裝備情報知識圖譜,是通過數(shù)據(jù)獲取、自然語言處理、語義分析等方法來挖掘處理涉及電子信息裝備的情報數(shù)據(jù),并采用圖結(jié)構(gòu)來表示電子信息裝備實(shí)體、實(shí)體屬性以及實(shí)體之間的關(guān)系,形成可以不斷更新的電子信息裝備情報知識圖譜。
由于電子信息裝備專業(yè)性較強(qiáng),對準(zhǔn)確性和層次關(guān)系要求較高,因此,電子信息裝備情報知識圖譜作為一種領(lǐng)域知識圖譜,需要有嚴(yán)格的本體層結(jié)構(gòu)以及相關(guān)度高且準(zhǔn)確的電子信息裝備情報領(lǐng)域數(shù)據(jù)。因此,本文采用自上而下和自下而上的組合方式,對電子信息裝備情報的知識圖譜進(jìn)行構(gòu)建,其構(gòu)建過程如圖1所示。

圖1 電子信息裝備領(lǐng)域知識圖譜構(gòu)建流程
首先通過本體學(xué)習(xí)對數(shù)據(jù)詞典、敘詞表、邏輯規(guī)則等數(shù)據(jù)進(jìn)行處理來構(gòu)建電子信息裝備情報知識圖譜的本體模型;然后針對構(gòu)建好的本體模型,通過知識抽取技術(shù)對電子信息裝備情報數(shù)據(jù)進(jìn)行實(shí)體、關(guān)系和屬性的抽取;再經(jīng)過知識融合對抽取的實(shí)體、屬性和關(guān)系進(jìn)行進(jìn)一步的處理;最終完成電子信息裝備情報知識圖譜的自動構(gòu)建和知識存儲[11]。
數(shù)據(jù)采集是電子信息裝備情報知識圖譜數(shù)據(jù)來源最主要的手段,主要是對異構(gòu)、分散的各種情報與數(shù)據(jù)資源進(jìn)行采集和存儲。數(shù)據(jù)來源包括互聯(lián)網(wǎng)開源信息、內(nèi)外部情報產(chǎn)品以及各類情報數(shù)據(jù)庫;格式主要包括結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)化等三類數(shù)據(jù)。其中,互聯(lián)網(wǎng)開源信息主要采用網(wǎng)絡(luò)爬蟲進(jìn)行采集,本文主要采用基于DOM 的網(wǎng)頁文本抽取技術(shù);數(shù)據(jù)庫主要將數(shù)據(jù)通過ETL 抽取轉(zhuǎn)換到目標(biāo)數(shù)據(jù)庫的方式進(jìn)行信息采集,本文選擇kettle 作為數(shù)據(jù)遷移的引擎;而對于內(nèi)外部情報產(chǎn)品,主要采用基于FTP 服務(wù)器進(jìn)行采集,并且將文本文件的內(nèi)容抽取轉(zhuǎn)換到指定的字段上。
數(shù)據(jù)采集后,需要對各類數(shù)據(jù)進(jìn)行預(yù)處理,用來進(jìn)行數(shù)據(jù)的融合以及電子信息裝備情報知識圖譜的構(gòu)建。預(yù)處理主要包括信息的清洗、信息的轉(zhuǎn)換、信息要素的標(biāo)引等方面的內(nèi)容。其中,信息的清洗主要是檢測并處理原始數(shù)據(jù)中的不完整數(shù)據(jù)、重復(fù)數(shù)據(jù)、錯誤數(shù)據(jù)等“臟數(shù)據(jù)”,保證數(shù)據(jù)的質(zhì)量;信息轉(zhuǎn)換是通過數(shù)據(jù)轉(zhuǎn)換函數(shù)將清洗后的數(shù)據(jù)轉(zhuǎn)化為具有統(tǒng)一格式的數(shù)據(jù),主要在數(shù)據(jù)的語義表達(dá)、數(shù)據(jù)類型、數(shù)據(jù)長度、數(shù)據(jù)精度等方面進(jìn)行統(tǒng)一的數(shù)據(jù)轉(zhuǎn)換;信息要素標(biāo)注主要是對數(shù)據(jù)產(chǎn)生的時間、標(biāo)題、修改的時間、來源、所屬分類、可信程度、作者、屬性信息等內(nèi)容進(jìn)行標(biāo)注和明確。數(shù)據(jù)采集架構(gòu)如圖2所示。

圖2 數(shù)據(jù)采集架構(gòu)
領(lǐng)域本體能夠?qū)μ囟I(lǐng)域內(nèi)的實(shí)體概念及其相互關(guān)系、領(lǐng)域活動及其所具有的規(guī)律和特性進(jìn)行形式化的描述。構(gòu)建電子信息裝備情報領(lǐng)域本體能夠定義實(shí)體的范圍、屬性、相互層次關(guān)系、約束關(guān)系、關(guān)聯(lián)關(guān)系等,明確本體的概念、屬性、關(guān)系和規(guī)則,形成知識的結(jié)構(gòu)層次,避免在構(gòu)建知識圖譜時出現(xiàn)較多的錯誤。在初期的本體建模中采取人工建模的形式完成對電子信息裝備情報領(lǐng)域本體概念與屬性的刻畫與定義。
知識本體的構(gòu)建流程主要包含三個階段:
(1)實(shí)體關(guān)系相似度計算;
(2)實(shí)體上下位關(guān)系抽取;
(3)本體的生成。
比如,在知識圖譜構(gòu)建之前得到的三個與電子信息裝備相關(guān)的“宙斯盾系統(tǒng)”“計算機(jī)”“SPY-1 雷達(dá)”實(shí)體,構(gòu)建模型并不知道它們之間的具體差異,但當(dāng)計算完三個實(shí)體之間的相似度之后,會發(fā)現(xiàn)“宙斯盾系統(tǒng)”和“SPY-1雷達(dá)”之間可能更相似,和“計算機(jī)”之間的差別可能更大一些。這就是第一步的作用是在構(gòu)建知識圖譜之前獲得實(shí)體之間的相似度。這個階段的知識圖譜沒有一個上、下層的概念,通過進(jìn)行第二步實(shí)體上下位關(guān)系抽取,可以讓知識圖譜具有上、下層的關(guān)系。當(dāng)結(jié)束了前兩步以后,這個知識圖譜知識節(jié)點(diǎn)之間的關(guān)系可能就會更加清晰,從而生成本體。比如“宙斯盾系統(tǒng)”和“SPY-1 雷達(dá)”,其實(shí)都是電子信息裝備情報領(lǐng)域?qū)嶓w下的細(xì)分實(shí)體,并且“SPY-1雷達(dá)”是“宙斯盾系統(tǒng)”的一部分。知識本體建立示例如圖3所示。

圖3 知識本體建立示例
此外,在手動構(gòu)建最初的本體時,本文還構(gòu)建了電子信息裝備領(lǐng)域敘詞表,通過敘詞表的相互層次關(guān)系,可以提高電子信息裝備情報領(lǐng)域本體庫的準(zhǔn)確率。
信息抽取的目的是產(chǎn)生知識圖譜所需要的數(shù)據(jù),主要包括命名實(shí)體識別、實(shí)體的屬性抽取、實(shí)體間的關(guān)系抽取等三個方面。
命名實(shí)體識別主要是用來識別文本中事物的名稱,如裝備名稱、國家名稱、機(jī)構(gòu)名稱、武器平臺等。本文采用的實(shí)體識別模型是LSTM-RNN 模型,傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)模型可以學(xué)習(xí)歷史的信息,但在進(jìn)行長序列學(xué)習(xí)時會出現(xiàn)梯度消失或者爆炸的現(xiàn)象,無法解決長時間跨度的非線性關(guān)系[12-13]。長短時記憶網(wǎng)絡(luò)(LSTM)是一種時間遞歸的神經(jīng)網(wǎng)絡(luò),適用于解決延遲時間較長的事件問題,并能解決使用RNN 時出現(xiàn)的梯度消失和梯度爆炸問題[14-15]。本文將RNN 和LSTM 相結(jié)合,充分利用二者優(yōu)點(diǎn),使模型效果得到進(jìn)一步加強(qiáng),在進(jìn)行術(shù)語抽取的時候?qū)Ξ?dāng)前歷史信息和長距離信息都可以進(jìn)行學(xué)習(xí),使抽取效果更好[16-17]。本文的實(shí)體識別架構(gòu)如圖4 所示,分為特征抽取、實(shí)體抽取、實(shí)體過濾。

圖4 實(shí)體識別架構(gòu)
屬性抽取主要是將實(shí)體的屬性名、屬性值從文本數(shù)據(jù)中抽取出來,形成一個能夠描述實(shí)體屬性信息的三元組(實(shí)體、屬性名和屬性值)。例如,句子“標(biāo)準(zhǔn)3導(dǎo)彈彈體長度是6.55 m”中表述的關(guān)系可以表示為(標(biāo)準(zhǔn)3 導(dǎo)彈,彈長,6.55 m)。本文屬性抽取架構(gòu)如圖5 所示,主要分為特征抽取、候選實(shí)體對抽取、三元組抽取和三元組過濾。

圖5 屬性抽取架構(gòu)
關(guān)系抽取主要是將實(shí)體間的語義關(guān)系從文本數(shù)據(jù)中抽取出來,形成一個能夠描述實(shí)體關(guān)系的三元組(實(shí)體a、關(guān)系和實(shí)體b)。例如,句子“EA-18G 服役于美國海軍”中表述的關(guān)系可以表示為(EA-18G,服役于,美國海軍)。為了提高關(guān)系抽取的效果,本文采用帶注意力機(jī)制的雙向長短時記憶網(wǎng)絡(luò)(Bi-LSTM)模型[18]。LSTM/RNN 模型使用傳統(tǒng)的編碼器-解碼器結(jié)構(gòu)時有一個問題:在將輸入信息編碼成向量時,無論輸入長短,其編碼的向量長度都是一個固定值,這使得模型在學(xué)習(xí)長輸入序列時效果很差[19-20]。而注意力機(jī)制利用模型輸出時會選擇性地專注考慮輸入中最相關(guān)信息的原理,使關(guān)系抽取更加準(zhǔn)確[21]。
關(guān)系抽取系統(tǒng)基于流水線架構(gòu),主要分為特征抽取、候選實(shí)體對抽取、三元組抽取和三元組過濾等模塊。關(guān)系抽取系統(tǒng)架構(gòu)如圖6所示。

圖6 關(guān)系抽取架構(gòu)
在信息抽取完成后,會出現(xiàn)不同數(shù)據(jù)來源關(guān)于同一實(shí)體的描述信息不完整或有歧義等問題,因此需要借助知識融合來完善實(shí)體的描述信息或者消除描述信息的歧義,對不同數(shù)據(jù)來源的異構(gòu)數(shù)據(jù)能夠按照一定的規(guī)則進(jìn)行整合。文本在構(gòu)建電子信息裝備情報知識圖譜時進(jìn)行知識融合需要解決的問題主要有以下兩種:
(1)實(shí)體的歧義和共指問題。在進(jìn)行實(shí)體的鏈接時,會出現(xiàn)某個實(shí)體有多個指代對象的問題,也會出現(xiàn)同一實(shí)體對象有多個指稱項(xiàng)與之相對應(yīng)的問題[22]。例如,“F-22”“猛禽”“F-22戰(zhàn)斗機(jī)”三個指稱項(xiàng)都指向了美國空軍“F-22”戰(zhàn)斗機(jī)這個同一實(shí)體對象,這是共指問題;而“猛禽”除了可以指代“F-22”戰(zhàn)斗機(jī)實(shí)體外,還能指代某一種鳥類,這就是歧義問題。實(shí)體的歧義和共指問題會影響知識圖譜構(gòu)建的準(zhǔn)確性,因此在構(gòu)建圖譜時要盡可能地解決此類問題,學(xué)術(shù)界將解決實(shí)體的歧義問題稱為實(shí)體消歧,將解決實(shí)體的共指問題稱為共指消解[17]。本文主要采用了基于本文相似度模型的聚類法來進(jìn)行實(shí)體消歧和共指消解。
(2)實(shí)體屬性值沖突問題。在進(jìn)行知識融合時有時會遇到屬性矛盾的情況,例如在進(jìn)行屬性抽取可能會遇到(F-22,乘客與載人數(shù),2 人)和(F-22,乘客與載人數(shù),1 人)兩組屬性相悖的三元組。本文采用了對不同數(shù)據(jù)源賦予不同的信源可信度[0,1],并結(jié)合投票機(jī)制的方式來選取較為準(zhǔn)確的屬性值。若屬性值來自于更高的信源信息則以該信源信息為準(zhǔn),若最高信源的信息不止一篇,則進(jìn)行投票機(jī)制,選擇出現(xiàn)次數(shù)最多的屬性值。例如,在本例中假設(shè)(F-22,乘客與載人數(shù),2人)的來源有(鳳凰軍事,可信度,0.8)、(新浪微博,可信度,0.7),(F-22,乘客與載人數(shù),1 人)來源有(維基百科,可信度,0.8)、(百度百科,可信度,0.8),按照本文的屬性矛盾處理方案可以推斷出應(yīng)該被采納的屬性三元組為(F-22,乘客與載人數(shù),1人)。
知識圖譜存儲主要對電子信息裝備實(shí)體以及實(shí)體關(guān)系進(jìn)行規(guī)范化的存儲,用于為后續(xù)的電子信息裝備情報分析、檢索和服務(wù)等應(yīng)用提供數(shù)據(jù)。由于知識圖譜的特性及其知識推理等應(yīng)用需求,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫無法適用于知識圖譜的全部應(yīng)用場景,因此知識圖譜的數(shù)據(jù)庫一般選擇圖數(shù)據(jù)庫。現(xiàn)階段比較常見的圖數(shù)據(jù)庫主要有Neo4j、GraphDB、MangoDB等。
本文根據(jù)后續(xù)的實(shí)際應(yīng)用,選擇Neo4j作為其知識存儲的數(shù)據(jù)庫。Neo4j 是一種以Java 語言為基礎(chǔ)開發(fā)的非關(guān)系型圖形數(shù)據(jù)庫,能夠?qū)⒔Y(jié)構(gòu)化數(shù)據(jù)存儲在圖上而非表中。本文將電子信息裝備情報知識圖譜中的概念、實(shí)體的基本信息、屬性和實(shí)體間的關(guān)系存儲在Neo4j 數(shù)據(jù)庫中。
電子信息裝備情報知識圖譜是一種領(lǐng)域知識圖譜,將知識圖譜引用到傳統(tǒng)的情報分析工作中,能輔助情報人員對大量情報信息進(jìn)行快速的分析了解,有效地提高情報分析人員的工作效率,保證了情報產(chǎn)品的時效性,并且由于其知識特性及關(guān)聯(lián)性,能夠從中分析挖掘出更深層次的隱含知識,增加情報研究內(nèi)容的深度,提升情報產(chǎn)品的質(zhì)量。本文以實(shí)際應(yīng)用需求為出發(fā)點(diǎn),設(shè)計了電子信息裝備情報知識圖譜的基本框架,分析總結(jié)了電子信息裝備情報知識圖譜構(gòu)建中所需的一些關(guān)鍵技術(shù),以期能夠?yàn)槠渌I(lǐng)域知識圖譜的構(gòu)建和應(yīng)用提供參考和借鑒。