◆韓戈白 楊紹雄 王 博 陳 迪
(中國電子科技集團(tuán)公司第二十八研究所 江蘇 210000)
裝備大數(shù)據(jù)是指關(guān)于裝備日常管理及任務(wù)產(chǎn)生的各種數(shù)據(jù)的集合,它具有大數(shù)據(jù)的典型特征,并且還體現(xiàn)出了裝備類型多、業(yè)務(wù)種類繁雜和裝備用戶多的特點(diǎn)。隨著信息化程度的逐漸加深,裝備大數(shù)據(jù)日漸龐大和復(fù)雜,而現(xiàn)階段使用的傳統(tǒng)文件存儲和關(guān)鍵字查詢的方式已不能滿足日常辦公復(fù)雜性、及時性的需要,急需提高裝備數(shù)據(jù)的管理和使用效率。
知識圖譜是一種研究數(shù)據(jù)之間關(guān)聯(lián)關(guān)系的新興技術(shù),能有效地展現(xiàn)錯綜復(fù)雜數(shù)據(jù)之間的各種關(guān)聯(lián)關(guān)系,清晰地表達(dá)數(shù)據(jù)的知識結(jié)構(gòu),讓使用者對數(shù)據(jù)本身能有全面而深入的認(rèn)識。針對裝備大數(shù)據(jù)展現(xiàn)出來的特點(diǎn),本文構(gòu)建了知識圖譜在裝備大數(shù)據(jù)上的典型應(yīng)用。
裝備業(yè)務(wù)大數(shù)據(jù)除了具有傳統(tǒng)大數(shù)據(jù)的五個“V”的特點(diǎn)[1]之外,還具備裝備類型多、業(yè)務(wù)種類繁雜和裝備用戶多的特點(diǎn)。
裝備管理以裝備為核心,涉及裝備、人員、機(jī)構(gòu)、器材、設(shè)備和工具等諸多管理要素,裝備管理實體具有類型多、數(shù)量大和關(guān)系復(fù)雜的特點(diǎn)。根據(jù)裝備管理條例,裝備管理的目標(biāo)是實現(xiàn)裝備全壽命、全系統(tǒng)管理,涵蓋裝備從研發(fā)直至報廢的全系統(tǒng)、全壽命、全要素的裝備管理活動,業(yè)務(wù)種類繁多。而裝備管理用戶包括與裝備全要素相關(guān)聯(lián)的各級部門機(jī)構(gòu)用戶和生產(chǎn)單位用戶,涉及部門類型多,用戶數(shù)量較大。
近年來,為了應(yīng)對與日俱增的網(wǎng)絡(luò)數(shù)據(jù),各大搜索引擎公司相繼以包含各種實體和實體關(guān)系的數(shù)據(jù)萬維網(wǎng)為基礎(chǔ)來構(gòu)建知識圖譜,旨在改進(jìn)引擎搜索質(zhì)量,進(jìn)而拉開語義搜索的序幕[6,9]。知識圖譜旨在通過圖結(jié)構(gòu)描述真實世界中的實體和概念,以一個全局唯一的標(biāo)識符來表示每個實體,以多組屬性-值對來描述實體的內(nèi)在特征,以關(guān)聯(lián)關(guān)系來連接兩個實體。因此,知識圖譜從宏觀上形成了巨大的圖結(jié)構(gòu),圖中的節(jié)點(diǎn)表示實體,邊表示關(guān)系或者實體屬性[9]。
除了在輔助搜索引擎時有重大作用之外,知識圖譜在金融領(lǐng)域應(yīng)用廣泛,包括反欺詐、風(fēng)險控制及評估和企業(yè)社交等方面。隨著知識圖譜技術(shù)的成熟和普及,知識圖譜在越來越多的領(lǐng)域展現(xiàn)了其聯(lián)系萬物的優(yōu)勢[2-5]。
裝備大數(shù)據(jù)知識圖譜具有數(shù)據(jù)構(gòu)成復(fù)雜以及知識體系特殊的特點(diǎn)。區(qū)別于傳統(tǒng)真實世界知識圖譜的自然文本輸入,裝備大數(shù)據(jù)知識圖譜的輸入數(shù)據(jù)一部分來自已經(jīng)結(jié)構(gòu)化的業(yè)務(wù)系統(tǒng)數(shù)據(jù)等,一部分來自半結(jié)構(gòu)化、非結(jié)構(gòu)化的具有高度規(guī)則的文檔數(shù)據(jù)和一些圖片、音視頻數(shù)據(jù)。同時,裝備大數(shù)據(jù)知識圖譜包含高度領(lǐng)域化的實體及實體關(guān)系,屬于典型的特殊領(lǐng)域知識圖譜。因此,傳統(tǒng)的面向自然文本的知識圖譜構(gòu)建技術(shù)并不完全適用,需要研究適應(yīng)于裝備大數(shù)據(jù)結(jié)構(gòu)和特點(diǎn)的知識圖譜構(gòu)建技術(shù)。
通過構(gòu)建基于裝備大數(shù)據(jù)的知識圖譜,可以提高數(shù)據(jù)管理統(tǒng)籌能力,解決數(shù)據(jù)利用率低的問題。基于裝備大數(shù)據(jù)的知識圖譜可以將多領(lǐng)域、多形態(tài)的數(shù)據(jù)層層分解并關(guān)聯(lián)起來,將以往長期的、離散的、分段的、不同層面的數(shù)據(jù)整合起來,共同反映裝備工作的整體面貌。
其次,面對多變的業(yè)務(wù)需求,知識圖譜可以提高決策支持的適用范圍。在實際使用中,裝備決策問題根據(jù)不同的環(huán)境條件而改變,不同的時期又有不同的決策重點(diǎn)。同時,裝備管理的精細(xì)化程度逐漸提高,針對細(xì)粒度的裝備決策難度上升。通過知識圖譜,可以從最基本的單個裝備出發(fā),從不同的關(guān)系延伸組合出不同切面的關(guān)系網(wǎng)絡(luò),以支撐多變的決策要求[4]。

圖1 知識圖譜構(gòu)建流程
基于裝備大數(shù)據(jù)的知識圖譜構(gòu)建流程如上圖1所示,針對裝備大數(shù)據(jù)中的結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)將采用不同的策略進(jìn)行實體關(guān)系提取。
對于結(jié)構(gòu)化數(shù)據(jù),基礎(chǔ)數(shù)據(jù)倉庫中的各種對象數(shù)據(jù)表都是較好的實體表達(dá),可直接用作實體的載體。而實體之間的關(guān)系并沒有清晰的信息載體,需要通過一定的技術(shù)手段進(jìn)行提取和構(gòu)建。
對于半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),尤其是針對特定領(lǐng)域并且高度規(guī)整的數(shù)據(jù),可以直接使用準(zhǔn)確率相當(dāng)優(yōu)秀的現(xiàn)有提取模型進(jìn)行信息提取。
將兩部分?jǐn)?shù)據(jù)中提取的知識進(jìn)行知識融合之后,經(jīng)過知識質(zhì)量評估,并組織成為一定的知識表示形式即可形成知識庫[3]。
鑒于裝備大數(shù)據(jù)的數(shù)據(jù)本身體現(xiàn)出來的特點(diǎn),構(gòu)建基于裝備大數(shù)據(jù)的知識圖譜的難點(diǎn)主要集中在針對結(jié)構(gòu)化數(shù)據(jù)的實體關(guān)系提取和從不同數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)源提取得到的知識之間的知識融合兩個方面。
在實體提取階段,面對大量的結(jié)構(gòu)化的數(shù)據(jù)庫,如何去除冗余信息,提取所需要的實體信息是關(guān)鍵;在關(guān)系提取階段,傳統(tǒng)的自然文本可以從關(guān)鍵詞及其語義信息等上下文信息確定實體關(guān)系,但是從結(jié)構(gòu)化的數(shù)據(jù)中,尤其是數(shù)據(jù)庫表中產(chǎn)生實體關(guān)系就缺少了理論依據(jù)和標(biāo)準(zhǔn)方法。經(jīng)過對裝備大數(shù)據(jù)中數(shù)據(jù)組織與知識展現(xiàn)方式的觀察,裝備大數(shù)據(jù)知識圖譜中的實體關(guān)系可來源于以下幾個方面:
(1)數(shù)據(jù)庫外鍵。基礎(chǔ)數(shù)據(jù)倉庫的外鍵很有可能就是實體之間的關(guān)聯(lián)關(guān)系的體現(xiàn),但并不是所有的外鍵都適合作為關(guān)系,需要人工經(jīng)驗的識別、篩選。
(2)業(yè)務(wù)系統(tǒng)數(shù)據(jù)。業(yè)務(wù)系統(tǒng)中的某些數(shù)據(jù)與知識圖譜中的關(guān)系含義高度相符,可以從業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)表及其外鍵產(chǎn)生實體關(guān)系。
(3)關(guān)系表。部分業(yè)務(wù)系統(tǒng)中為了表達(dá)特定數(shù)據(jù)的多對多關(guān)系,構(gòu)建了專門的關(guān)系表,可以從該關(guān)系表中快速提取實體關(guān)系信息。
(4)人工經(jīng)驗指導(dǎo)生產(chǎn)。由專業(yè)人士指導(dǎo)生成領(lǐng)域內(nèi)公認(rèn)的一些關(guān)系。
結(jié)構(gòu)化數(shù)據(jù)與半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的知識融合
從結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)兩部分?jǐn)?shù)據(jù)中提取出來的知識是獨(dú)立的兩部分知識,兩者的實體有可能指代的是同一個實體,但是實體的指稱不一樣,兩者的實體也有可能互相有實體關(guān)系。不僅是兩部分?jǐn)?shù)據(jù)之間,在結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)各自產(chǎn)生的知識中也有可能發(fā)生重復(fù)實體等現(xiàn)象,如何將兩個獨(dú)立的知識融合成統(tǒng)一的知識庫也是一個難點(diǎn)[7]。
實體對齊可以在一定程度上解決這個問題。實體對齊旨在將那些不同數(shù)據(jù)源中提取出來的具有不同標(biāo)識符卻實際上表達(dá)同一對象的實體歸并為唯一實體對象[8],并添加到知識圖譜中。根據(jù)不同的數(shù)據(jù)特點(diǎn)可采用不同的實體對齊策略,本文根據(jù)提取得到的實體及其關(guān)系的特點(diǎn),采用聚類方法來進(jìn)行實體對齊。
實體搜索作為知識圖譜最基礎(chǔ)和最通用的應(yīng)用,可以為用戶提供快速獲取知識的渠道[4]。除此之外,開發(fā)者用戶還可以在底層知識庫的基礎(chǔ)上按具體需求進(jìn)行應(yīng)用二次開發(fā)。
實體搜索旨在將用戶輸入的關(guān)鍵詞與知識庫中實體名稱進(jìn)行匹配,找到符合該關(guān)鍵詞的實體及其類別,并將與目標(biāo)實體具有關(guān)系的其他實體全部展示出來,向用戶展現(xiàn)目標(biāo)實體完整的知識面。
當(dāng)用戶輸入某公司名稱作為關(guān)鍵字進(jìn)行實體搜索時,將會以匹配到的實體為中心,展示其兩層之內(nèi)的關(guān)系網(wǎng)絡(luò),圖2展示的是實體搜索的部分結(jié)果(因數(shù)據(jù)私有,實體名稱已經(jīng)過偏移處理),圖中每一個節(jié)點(diǎn)代表一個實體,節(jié)點(diǎn)之間的連線表示關(guān)系。

圖2 知識圖譜實體搜索展示
從圖2可以清楚地發(fā)現(xiàn),該公司與某些部門機(jī)構(gòu)簽訂了一些合同,這些合同又分別涉及某些裝備,屬于某些項目,因此用戶可以快速地了解與該公司相關(guān)的“供應(yīng)商、部門機(jī)構(gòu)、合同、項目、裝備”知識面。
種種因素導(dǎo)致傳統(tǒng)的工作模式要求用戶具有較高的專業(yè)知識才能勝任裝備日常管理工作。裝備大數(shù)據(jù)知識圖譜整合了不同數(shù)據(jù)源的數(shù)據(jù),為用戶提供了快速、簡潔而統(tǒng)一的數(shù)據(jù)搜索方式,可以有效地提高裝備日常管理工作效率,降低用戶專業(yè)技能需求門檻。
知識圖譜提供了豐富的底層接口,用戶可以根據(jù)自身的應(yīng)用需求,通過這些接口和查詢語言進(jìn)行二次應(yīng)用開發(fā)。
本文根據(jù)裝備大數(shù)據(jù)本體庫的特點(diǎn)和用戶需求,定制了合同風(fēng)險審計分析模型,旨在通過知識圖譜挖掘具有潛在風(fēng)險的合同關(guān)系,識別供應(yīng)商具有潛在欺詐的合同行為,效果如圖3所示(圖中數(shù)據(jù)均為模擬數(shù)據(jù)):

圖3 合同風(fēng)險審計分析展示
該模型結(jié)合了知識圖譜接口和查詢語言,通過分別對裝備大數(shù)據(jù)知識圖譜中的供應(yīng)商表、合同表、人員表等多個表讀取對應(yīng)數(shù)據(jù)來進(jìn)行數(shù)據(jù)篩選、整合和分析,最終得到具有潛在風(fēng)險的多級合同列表。
本文提出了基于裝備大數(shù)據(jù)知識圖譜的構(gòu)建方法,有針對性地解決了裝備大數(shù)據(jù)特性給知識圖譜構(gòu)建帶來的困難。對于大數(shù)據(jù)集中的結(jié)構(gòu)化數(shù)據(jù),本文采用數(shù)據(jù)庫外鍵、業(yè)務(wù)系統(tǒng)數(shù)據(jù)和關(guān)系表等信息來指導(dǎo)實體關(guān)系的提取,對于半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),根據(jù)數(shù)據(jù)文件的類型采用不同的已經(jīng)成熟的方法來提取實體關(guān)系,最終經(jīng)過基于聚類的知識融合以及人工審核之后產(chǎn)生知識庫。此后,本文將知識庫中的三元組進(jìn)行可視化展示,并通過知識圖譜的不同應(yīng)用場景和擴(kuò)展開發(fā)展示了知識圖譜在關(guān)系管理方面的優(yōu)越性。本文提出的基于裝備大數(shù)據(jù)的知識圖譜可以有效提高數(shù)據(jù)統(tǒng)籌管理能力,方便裝備業(yè)務(wù)的開展,有利于裝備業(yè)務(wù)的決策確定。