高墨昀,柴 恒,陳金煒
(中國(guó)船舶集團(tuán)有限公司第七二三研究所,江蘇 揚(yáng)州 225101)
2012年Google公司為加強(qiáng)智能搜索能力,提出知識(shí)圖譜的概念[1]。概念提出后知識(shí)圖譜逐漸獲得各大公司及科研機(jī)構(gòu)的重視。各行業(yè)各領(lǐng)域的眾多機(jī)構(gòu)先后開(kāi)發(fā)了面向不同專(zhuān)業(yè)和應(yīng)用的知識(shí)圖譜。目前知識(shí)圖譜已被廣泛應(yīng)用于互聯(lián)網(wǎng)、金融、醫(yī)學(xué)等領(lǐng)域,在智能搜索、智能決策和智能問(wèn)答等方面發(fā)揮著重要的作用[2]。
由于電子對(duì)抗領(lǐng)域的知識(shí)具有高度專(zhuān)業(yè)性、封閉性、數(shù)據(jù)導(dǎo)向等特點(diǎn),同時(shí)當(dāng)前電子目標(biāo)識(shí)別、電子對(duì)抗決策等方面高度依賴專(zhuān)家知識(shí)和經(jīng)驗(yàn),智能化程度低,因此電子對(duì)抗領(lǐng)域的知識(shí)圖譜在目標(biāo)識(shí)別、對(duì)抗決策等方向具備極大的應(yīng)用潛力。對(duì)電子對(duì)抗知識(shí)進(jìn)行合理準(zhǔn)確的建模是電子對(duì)抗知識(shí)圖譜應(yīng)用實(shí)現(xiàn)的重點(diǎn)和難點(diǎn)。運(yùn)用本體的方法進(jìn)行建模的領(lǐng)域知識(shí)庫(kù)具有概念包容多、概念描述準(zhǔn)確、關(guān)系表達(dá)充分、開(kāi)放性好、機(jī)器可讀、推理能力強(qiáng)等優(yōu)點(diǎn)[3]。本文對(duì)電子對(duì)抗知識(shí)進(jìn)行基于本體的建模研究,并對(duì)電子對(duì)抗多源數(shù)據(jù)和知識(shí)進(jìn)行抽取,構(gòu)建電子對(duì)抗領(lǐng)域知識(shí)圖譜。
知識(shí)圖譜基于圖的數(shù)據(jù)結(jié)構(gòu)進(jìn)行存儲(chǔ),是語(yǔ)義網(wǎng)絡(luò)的技術(shù)之一[4]。按照金芝提出的本體邏輯三元組結(jié)構(gòu)[5],本體組織模型的邏輯結(jié)構(gòu)如下:
O=〈C,R,A〉
(1)
式中:C表示概念,是指電子對(duì)抗知識(shí)領(lǐng)域中,一組共享某些相同屬性的對(duì)象的集合,例如雷達(dá)類(lèi),就包括了戰(zhàn)略預(yù)警雷達(dá)類(lèi)、警戒引導(dǎo)雷達(dá)類(lèi)、炮瞄雷達(dá)類(lèi)、制導(dǎo)雷達(dá)類(lèi)、戰(zhàn)場(chǎng)監(jiān)視雷達(dá)類(lèi)等子類(lèi);R表示概念之間的關(guān)系,是指戰(zhàn)場(chǎng)電磁環(huán)境中概念之間的交互關(guān)系和邏輯關(guān)系,交互關(guān)系反映的是概念之間的相互影響,諸如雷達(dá)偵察、識(shí)別、干擾等;邏輯關(guān)系反映的是概念之間的內(nèi)在聯(lián)系,諸如概念之間的繼承關(guān)系、屬性關(guān)系等;A表示屬性,是指電子對(duì)抗知識(shí)領(lǐng)域中概念所具有的戰(zhàn)術(shù)指標(biāo)和技術(shù)指標(biāo),諸如雷達(dá)的頻率、作用距離等都是電子對(duì)抗知識(shí)領(lǐng)域中雷達(dá)本體的屬性。
本文在上述邏輯結(jié)構(gòu)的基礎(chǔ)上,引入知識(shí)推理語(yǔ)義元模型(KRSM)的概念[6],并結(jié)合多粒度的思想進(jìn)行電子對(duì)抗本體模型設(shè)計(jì)。KRSM能夠全面、形式化地表征電子對(duì)抗領(lǐng)域知識(shí)。
定義面向知識(shí)推理的語(yǔ)義元模型KRSM由不同的4個(gè)元素組合而成,如圖1所示。
KRSM的形式化表達(dá)為K={L,A,I,D},各元素的具體含義如下:
(1)L={l1,l2,…,ln}表示語(yǔ)義元連接邊的有窮非空集合,用于描述各類(lèi)型語(yǔ)義元之間的關(guān)聯(lián)關(guān)系,集合中的元素li可以是實(shí)例語(yǔ)義元之間的聯(lián)系,可以是概念語(yǔ)義元間的聯(lián)系,也可以是實(shí)體語(yǔ)義元和抽象語(yǔ)義元間的聯(lián)系,如:attribute-of表示屬性關(guān)系,instance-of表示實(shí)體類(lèi)型和抽象類(lèi)型的關(guān)系,kind-of表示節(jié)點(diǎn)的父子類(lèi)關(guān)系,part-of表示整體和部分的關(guān)系等。
(2)A={a1,a2,…,an}表示抽象語(yǔ)義元的有窮非空集合,集合元素ai可以表示為本體層中的概念類(lèi)型抽象語(yǔ)義元,例如雷達(dá)和電子對(duì)抗裝備,或有源干擾技術(shù)模型以及相關(guān)數(shù)理模型等,也可以表示實(shí)體層中實(shí)例化類(lèi)型的抽象語(yǔ)義元,例如某種具體雷達(dá)或電子對(duì)抗裝備等。
(3)I={i1,i2,…,in}表示具體實(shí)例語(yǔ)義元的有窮非空集合,集合元素ij主要由參數(shù)實(shí)例和語(yǔ)義實(shí)例組成,其中屬性參數(shù)實(shí)例主要以可量化和可比較為基礎(chǔ)的實(shí)例語(yǔ)義元,而語(yǔ)義實(shí)例是指以非參數(shù)化屬性相對(duì)應(yīng)的語(yǔ)義實(shí)例。
(4)D={d1,d2,…,dn}表示業(yè)務(wù)邏輯語(yǔ)義元對(duì)象的有窮非空集合,集合中di表示某一個(gè)具體的業(yè)務(wù)運(yùn)用邏輯語(yǔ)義元對(duì)象,例如干擾決策推理邏輯等。其形式化表達(dá)如下:
di={Issuei,Solutioni}
(2)
以電子對(duì)抗知識(shí)語(yǔ)義元為基礎(chǔ),構(gòu)建的知識(shí)圖譜在邏輯上由本體層、實(shí)體層和交叉映射關(guān)系層構(gòu)成縱向關(guān)聯(lián)關(guān)系,由各層相應(yīng)的概念、屬性、特征參數(shù)和關(guān)系圖譜等構(gòu)成橫向的網(wǎng)絡(luò)化關(guān)聯(lián)關(guān)系,如圖2所示。

圖2 電子對(duì)抗知識(shí)圖譜邏輯結(jié)構(gòu)
在模型設(shè)計(jì)過(guò)程中,將專(zhuān)家知識(shí)以及多源知識(shí)融合提煉后,形成電子對(duì)抗知識(shí)圖譜本體模型。
以有源干擾領(lǐng)域?yàn)槔S性锤蓴_領(lǐng)域本體的主要組成可以分為2類(lèi),一類(lèi)是有源干擾設(shè)備的主要組成部件及屬性(上層屬性、總體屬性、干擾參數(shù)、指標(biāo)、天線、發(fā)射機(jī)、接收機(jī)),一類(lèi)是有源干擾的具體干擾樣式(壓制干擾、欺騙類(lèi)干擾、組合干擾)。對(duì)有源干擾知識(shí)進(jìn)行枝葉衍生時(shí),將上述各組成部分建立成獨(dú)立的枝葉節(jié)點(diǎn),依此類(lèi)推,再以上述枝葉節(jié)點(diǎn)為父節(jié)點(diǎn),繼續(xù)對(duì)其組成部件(或?qū)傩?進(jìn)行枝葉節(jié)點(diǎn)的衍生。由于不同部件(枝葉節(jié)點(diǎn))間并無(wú)交集,因此各分支呈樹(shù)狀關(guān)系,無(wú)需連接。最終形成的電子對(duì)抗知識(shí)圖譜本體模型的基本結(jié)構(gòu)如圖3所示。

圖3 電子對(duì)抗知識(shí)本體模型結(jié)構(gòu)圖
針對(duì)不同電子對(duì)抗知識(shí)和數(shù)據(jù)來(lái)源,包括電子對(duì)抗原理等書(shū)籍、Wiki互動(dòng)百科等公開(kāi)數(shù)據(jù)源、專(zhuān)家知識(shí)、已經(jīng)生成的情報(bào)數(shù)據(jù)等,設(shè)計(jì)不同的抽取方案,以滿足不同類(lèi)型數(shù)據(jù)的自動(dòng)化知識(shí)抽取需求。最終完成雷達(dá)對(duì)抗目標(biāo)的組成、屬性、隸屬、使用、抗干擾技術(shù)等相關(guān)知識(shí),雷達(dá)有源干擾裝備的組成、屬性、隸屬、使用、干擾技術(shù)等相關(guān)知識(shí),雷達(dá)有源干擾設(shè)備交戰(zhàn)邏輯知識(shí)、干擾與抗干擾技術(shù)博弈關(guān)系、技術(shù)體制與干擾技術(shù)對(duì)抗關(guān)系知識(shí)的抽取。
針對(duì)互聯(lián)網(wǎng)來(lái)源數(shù)據(jù)難以獲取的問(wèn)題,采用網(wǎng)絡(luò)檢索與模板匹配輔助的冷啟動(dòng)方式。首先通過(guò)調(diào)研得到記錄部分雷達(dá)信息的相關(guān)互聯(lián)網(wǎng)網(wǎng)站,通過(guò)網(wǎng)絡(luò)檢索匹配方式抽取其中重要部分,得到實(shí)體關(guān)系信息,并經(jīng)過(guò)機(jī)器翻譯、數(shù)據(jù)消歧、數(shù)據(jù)清洗等處理手段,得到質(zhì)量較好的知識(shí)抽取數(shù)據(jù)。
針對(duì)存在于公開(kāi)數(shù)據(jù)源中的文本段落、電子對(duì)抗原理等書(shū)籍中的知識(shí),即非結(jié)構(gòu)化的知識(shí),由于知識(shí)源形式雜亂,其中的書(shū)籍內(nèi)容為圖片形式的PDF,因此難以用通用的自動(dòng)化抽取工具進(jìn)行抽取,則由人工處理這些知識(shí)源,從中提取有用信息構(gòu)建本體庫(kù)及知識(shí)圖譜。在構(gòu)建本體庫(kù)的過(guò)程中,以專(zhuān)家知識(shí)為指導(dǎo),構(gòu)建本體庫(kù)中的上層枝干;對(duì)于葉子結(jié)點(diǎn),則通過(guò)手工的方式從非結(jié)構(gòu)化的知識(shí)(包括書(shū)籍文獻(xiàn)和部分公開(kāi)數(shù)據(jù)源)中提取出公式、屬性集、系統(tǒng)框圖等信息,其中圖片無(wú)法存儲(chǔ)在知識(shí)圖譜中,因此將圖片制成靜態(tài)數(shù)據(jù)源,而在本體庫(kù)中僅存儲(chǔ)靜態(tài)數(shù)據(jù)源的uri鏈接。其它信息包括雷達(dá)組成、功能、體制、發(fā)射機(jī)、接收機(jī)、數(shù)據(jù)處理、信號(hào)處理、上層屬性等,均以文字形式在知識(shí)圖譜中直接存儲(chǔ),如圖4所示。

圖4 知識(shí)抽取數(shù)據(jù)組織形式示意圖
針對(duì)抽取的多源數(shù)據(jù)的不同特點(diǎn),首先將不同的數(shù)據(jù)源統(tǒng)一為中文,然后采用基于規(guī)則的方法對(duì)各數(shù)據(jù)源的屬性進(jìn)行去重操作,完成多個(gè)數(shù)據(jù)源的實(shí)體屬性融合。
下一步需要對(duì)同一實(shí)體進(jìn)行多源知識(shí)補(bǔ)齊,如多個(gè)數(shù)據(jù)源含有同樣的表頭,先判斷內(nèi)容的屬性相似性,相似性高的情況下再把來(lái)自不同數(shù)據(jù)源的數(shù)據(jù)進(jìn)行合并。接著對(duì)合并后的數(shù)據(jù)進(jìn)行實(shí)體消歧,使用Rule-based方法進(jìn)行指代消解。完成合并后的數(shù)據(jù)仍然可能存在實(shí)體重復(fù)的問(wèn)題,需要將實(shí)體進(jìn)行統(tǒng)一和去重。
最后去除稀疏屬性和稀疏實(shí)體,以此提高數(shù)據(jù)的存儲(chǔ)效率。設(shè)置1個(gè)閾值,統(tǒng)計(jì)表格中的每行(實(shí)體)或每列(屬性)中數(shù)值不為空或不為"NaN"的槽的數(shù)目,當(dāng)該數(shù)目少于閾值時(shí)將該行或者該列刪除。
知識(shí)評(píng)估主要實(shí)現(xiàn)的功能是對(duì)已抽取的三元組形式知識(shí)的權(quán)威度、冗余度、多樣性、一致性進(jìn)行評(píng)估,以生成權(quán)威、無(wú)冗余的知識(shí)圖譜數(shù)據(jù)。其中需要解決的核心問(wèn)題是如何對(duì)于這些權(quán)威度、冗余度、多樣性、一致性進(jìn)行定義,并選擇合適的評(píng)估方式。
權(quán)威度這個(gè)概念在不同領(lǐng)域里的含義不盡相同。大體上可以理解為在領(lǐng)域內(nèi)權(quán)威知識(shí)或者專(zhuān)家的評(píng)估下,知識(shí)準(zhǔn)確的程度。冗余度可以理解為以三元組形式儲(chǔ)存在知識(shí)圖譜中的實(shí)體節(jié)點(diǎn)是否存在重復(fù),冗余度低的知識(shí)圖譜往往節(jié)點(diǎn)互異,邏輯結(jié)構(gòu)更加合理,從而要求抽取的三元組知識(shí)能做到完備而不冗余。多樣性可以理解為對(duì)專(zhuān)業(yè)領(lǐng)域的知識(shí)調(diào)研是否充分,抽取實(shí)體來(lái)源是否多元,是否涵蓋領(lǐng)域內(nèi)的現(xiàn)有研究成果,從而達(dá)到實(shí)際應(yīng)用需求。一致性可以理解為抽取的實(shí)體是否與其本體概念相匹配,評(píng)估一致性是對(duì)實(shí)體抽取與本體建模的雙向反饋,以完善知識(shí)圖譜的專(zhuān)業(yè)性。
為保證對(duì)已抽取知識(shí)的權(quán)威度、冗余度、多樣性、一致性進(jìn)行合理評(píng)估,設(shè)計(jì)并實(shí)施了符合功能需求的評(píng)估方案,具體如下:
(1) 從專(zhuān)業(yè)領(lǐng)域角度出發(fā),對(duì)已抽取知識(shí)進(jìn)行抽樣評(píng)測(cè),構(gòu)建標(biāo)準(zhǔn)測(cè)試集。首先評(píng)估測(cè)試集中的知識(shí)實(shí)體的抽取來(lái)源是否滿足多源性,從而評(píng)估其多樣性。實(shí)體知識(shí)來(lái)源應(yīng)包括但不限于:電子對(duì)抗原理等書(shū)籍、公開(kāi)數(shù)據(jù)源、專(zhuān)家知識(shí)、已經(jīng)生成的情報(bào)數(shù)據(jù)。為評(píng)估抽取知識(shí)的權(quán)威性,對(duì)測(cè)試樣本進(jìn)行源頭回訪,調(diào)研其信息是否專(zhuān)業(yè)權(quán)威。
(2) 從工具鏈角度出發(fā),利用知識(shí)圖譜可滿足功能需求的程度,對(duì)抽取知識(shí)進(jìn)行質(zhì)量評(píng)估。為了評(píng)估知識(shí)冗余度,我們對(duì)抽取知識(shí)節(jié)點(diǎn)人工添加規(guī)則后綴,并對(duì)節(jié)點(diǎn)互異性進(jìn)行評(píng)估,在冗余度評(píng)估過(guò)程中不斷完善知識(shí)融合方法,最終得到了低冗余度、節(jié)點(diǎn)互異的實(shí)體集。
(3) 從構(gòu)建方法角度出發(fā),利用電子對(duì)抗知識(shí)圖譜的自頂向下性,通過(guò)已經(jīng)構(gòu)建的概念本體,評(píng)估實(shí)體知識(shí)的一致性。基于Python編寫(xiě)“實(shí)體—本體”匹配代碼,通過(guò)規(guī)則匹配方法,評(píng)估實(shí)體知識(shí)是否與本體概念保持一致。
通過(guò)上述知識(shí)評(píng)估功能,對(duì)已抽取知識(shí)的權(quán)威度、冗余度、多樣性、一致性進(jìn)行了有效評(píng)估,以生成權(quán)威、無(wú)冗余的知識(shí)圖譜數(shù)據(jù)。
按照前述步驟獲得了完備的本體建模模型,以及有效的實(shí)體與關(guān)系三元組數(shù)據(jù),下面將此模型與三元組數(shù)據(jù)導(dǎo)入知識(shí)圖譜系統(tǒng)中,以便進(jìn)行存儲(chǔ)、展現(xiàn)和利用。通過(guò)Protégé本體建模與知識(shí)統(tǒng)一表達(dá)技術(shù),運(yùn)用開(kāi)源工具Protégé可進(jìn)行知識(shí)表示。生成的三元組數(shù)據(jù)以owl文件格式存儲(chǔ),該格式可直接作為輸入導(dǎo)入到Neo4j圖數(shù)據(jù)庫(kù)中進(jìn)行存儲(chǔ)和使用。Neo4j具備高質(zhì)量的圖像化展示以及知識(shí)圖譜操作功能,是一種高性能NoSQL圖數(shù)據(jù)庫(kù)。其底層為嵌入式的、基于磁盤(pán)的、具備完全的事務(wù)特性的Java持久化引擎,將結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)在圖中而不是表中。將owl文件導(dǎo)入Neo4j數(shù)據(jù)庫(kù)后,其基本結(jié)構(gòu)如圖5所示。在Neo4j數(shù)據(jù)庫(kù)的基礎(chǔ)上,可以進(jìn)行展示圖譜、關(guān)系推導(dǎo)、圖譜導(dǎo)出等功能,以及進(jìn)行定制化開(kāi)發(fā),基本能滿足實(shí)際運(yùn)用中的各類(lèi)要求。

圖5 電子對(duì)抗知識(shí)圖譜結(jié)構(gòu)示意圖
不同于關(guān)系型數(shù)據(jù)庫(kù)所使用的結(jié)構(gòu)化查詢語(yǔ)言(SQL),基于Neo4j的知識(shí)圖譜,利用圖數(shù)據(jù)庫(kù)查詢語(yǔ)言(Cypher)進(jìn)行查詢和使用,通過(guò)設(shè)計(jì)過(guò)程查詢模式,將數(shù)據(jù)庫(kù)中組成三元組的節(jié)點(diǎn)和關(guān)系編碼為所需要的查詢邏輯。現(xiàn)以已知信號(hào)對(duì)抗決策為例,說(shuō)明知識(shí)圖譜應(yīng)用設(shè)計(jì)過(guò)程。
在信號(hào)參數(shù)和樣式已知的條件下,可以獲知準(zhǔn)確度很高的信號(hào)樣式識(shí)別結(jié)果。通過(guò)該結(jié)果在知識(shí)圖譜的知識(shí)庫(kù)中進(jìn)行查詢,能夠獲取針對(duì)使用該信號(hào)樣式的雷達(dá)進(jìn)行對(duì)抗所需的信息和知識(shí),進(jìn)而通過(guò)決策算法和邏輯生成決策結(jié)果。
在此情形下,查詢起點(diǎn)位已知信號(hào)識(shí)別結(jié)果,包括雷達(dá)型號(hào)和體制、雷達(dá)工作狀態(tài)等。如果知識(shí)庫(kù)中相關(guān)雷達(dá)知識(shí)較為完整,并且知識(shí)庫(kù)中包含此前成功對(duì)抗的經(jīng)驗(yàn)知識(shí)或仿真結(jié)果,則查詢終點(diǎn)包括針對(duì)此雷達(dá)的有效干擾樣式和參數(shù)。如果針對(duì)該雷達(dá)或者該信號(hào)樣式的知識(shí)庫(kù)不完整,知識(shí)存在缺失,或此前沒(méi)有相關(guān)對(duì)抗經(jīng)驗(yàn),則查詢終點(diǎn)包括可能有效的對(duì)抗干擾樣式。最終查詢結(jié)果為一組包含干擾樣式和參數(shù)的對(duì)抗策略的集合,其中每一條對(duì)抗策略均有一個(gè)可信度估算值,查詢結(jié)果按照估算的可信度進(jìn)行排序,從而形成系統(tǒng)推薦的對(duì)抗策略集。
本文對(duì)電子對(duì)抗領(lǐng)域知識(shí)進(jìn)行基于本體的建模研究,并對(duì)包括電子對(duì)抗原理等書(shū)籍、Wiki互動(dòng)百科等公開(kāi)數(shù)據(jù)源、專(zhuān)家知識(shí)、已經(jīng)生成的情報(bào)數(shù)據(jù)等在內(nèi)的電子對(duì)抗多源數(shù)據(jù)和知識(shí)進(jìn)行抽取,設(shè)計(jì)構(gòu)建了電子對(duì)抗領(lǐng)域知識(shí)圖譜。在后續(xù)的研究中,可以結(jié)合多種數(shù)據(jù)分發(fā)中間件,包括各類(lèi)消息隊(duì)列和數(shù)據(jù)分發(fā)系統(tǒng)(DDS),以及基于web技術(shù)的RESTful訪問(wèn)接口,實(shí)現(xiàn)對(duì)知識(shí)圖譜的擴(kuò)展和利用。基于電子對(duì)抗知識(shí)圖譜,設(shè)計(jì)基于規(guī)則的決策或推薦系統(tǒng),可以在已有設(shè)備的基礎(chǔ)上,通過(guò)增加小規(guī)模智能處理單元,實(shí)現(xiàn)非智能化設(shè)備的智能化升級(jí),同時(shí)也能夠應(yīng)用到新一代智能化設(shè)備當(dāng)中,幫助新設(shè)備形成跨代優(yōu)勢(shì)。