何江波 韓宛彤 黃繼紅 趙 恒
(中國船舶集團有限公司第七〇九研究所 武漢 430205)
海上信息資源管理中心是對海上信息資源進行管理的平臺,而海上信息資源是海上各信息資源管理中心之間交互的各類數據信息的統稱,有著多類別、多來源、高頻率的特點,各信息資源管理中心對信息資源進行分析以輔助決策。當前的信息資源存儲方式主要采用傳統的關系型數據庫,存在如下問題:第一,關系型數據庫適用于存在較多實體但實體間關系較簡單的數據,對于存在復雜的資源間關系的信息資源,關系型數據庫的性能較低,包含復雜關系查詢的操作的實時性差;第二,現有數據組織方式的信息資源不存在語義層面的關聯,檢索得到的信息資源集合簡單,隨著信息量的增大,現有方法無法滿足信息資源管理中心對信息資源實時性、準確性的需求。因此需要為信息資源建立良好的組織方式,為智能檢索、個性化推薦等上層應用提供更好的支撐。
知識圖譜(Knowledge Graph,KG)是解決上述問題的方法之一。知識圖譜是基于圖結構的知識庫,與關系型數據庫相比,采用知識圖譜技術對信息資源進行組織,有以下兩方面的優勢:1)圖結構更適合于存儲數據之間關聯復雜的信息資源,關系操作性能較好;2)信息資源的智能應用,知識圖譜為智能搜索、個性化推薦等智能應用提供支撐,提高信息資源檢索的準確率。因此知識圖譜是未來信息資源管理中心數據存儲的發展趨勢之一。
本文提出了面向海上多節點信息資源管理的知識圖譜的構建方法。首先對知識圖譜相關技術的研究現狀與現有的知識圖譜構建方法進行了介紹;然后針對海上多節點信息資源的特性,提出了面向海上多節點信息資源管理的知識圖譜構建方法,為信息資源的智能搜索、個性化推薦提供支撐。
知識圖譜的概念由谷歌于2012年5月提出,用于提高搜索引擎能力,增強其返回的搜索結果。知識圖譜使用圖結構描述客觀存在的事物及其關系,圖的節點表示客觀存在的事物,即實體,節點之間的邊表示事物之間的關系。隨著Web技術以及智能信息服務的不斷發展,知識圖譜已經廣泛應用于個性化推薦,問答系統等智能應用中。構建知識圖譜的關鍵技術包括知識抽取、知識融合、知識推理等方面。知識抽取主要包括實體抽取和關系抽取。目前主要采用統計機器學習以及深度學習的方式對實體進行抽取。知識融合的研究主要針對實體對齊方面,文獻[1]提出了針對實體相似距離的可擴展、自適應的聚類與實體匹配算法。基于全局相似度的方法綜合考慮實體的屬性與實體之間的關系,結合屬性相似度和實體間的拓撲距離,對實體進行對齊。知識推理主要分為基于邏輯的推理與基于圖的推理兩類。基于邏輯的推理主要包括一階邏輯謂詞推理、描述邏輯和基于規則的推理。在基于規則的推理方面,知識庫NELL采用一階Horn子句的方式預測實體間的關聯[2];而在基于圖的推理方面,較為典型的有文獻[3]提出的節點間的隨機游走算法,用于推測兩個節點之間的關系。
通用知識圖譜的主流構建方法主要分為自頂向下與自底向上兩種方式,自頂向下的構建方式先定義概念,然后將實體填充到知識圖譜中;自底向上的方式先從原始數據中抽取實體,再通過對實體聚類等方式構造概念。專業領域的知識圖譜一般采用自頂向下的構建方式,主要包括概念定義、知識抽取,知識融合等步驟。概念定義對領域內現有知識進行提煉,得到概念、概念的上下位關系以及概念的關系。知識抽取是指對原始數據進行實體抽取、關系抽取以及屬性值抽取。知識圖譜的原始數據主要分為結構化數據,半結構化數據和非結構化數據。結構化數據主要指關系型數據庫中存儲的數據,針對結構化和非結構化數據,使用D2R工具或模板匹配工具將原始數據映射為實體;針對非結構化的數據,使用自然語言處理技術從原始文本中識別實體。知識融合由于原始數據來源多樣,通過知識抽取得到的實體質量較低不能直接作為實體存儲到知識庫中,需要對實體進行加工,主要的知識融合方法包括實體消歧,屬性消歧等。通用知識圖譜的架構如圖1所示。

圖1 通用知識圖譜架構
海上信息資源包含多種異構數據,包括文字、圖像、音頻、視頻等。而隨著海上信息資源的積累以及信息收集技術的進步,信息資源的種類也會越來越復雜。由于海上節點之間的網絡有帶寬低、連接不穩定的特點,節點之間的信息交互實時性無法滿足需求。因此海上多節點信息資源知識圖譜的構建存在以下兩個難點:第一,海上各節點需要維護節點之間的關系,以支持節點之間的信息交互;第二,知識圖譜中的節點信息需要實時更新以保證信息資源的實時性。
針對以上難點,本文采用了面向海上網絡的隱馬爾可夫模型(Hidden Markov Model,HMM),用于預測節點間鏈路狀態,根據預測結果選擇更新時間與鏈路選擇,以確保各節點的信息資源的實時性。
海上網絡由多種無線通信手段組成,因此數據傳輸首先需要選擇使用的信道,由于信道的實時狀態是未知的,選擇不可用信道導致的等待時延會極大地影響到數據傳輸的實時性。HMM可以基于當前已知的網絡狀態對未來一段時間的狀態進行預測,根據預測結果選擇可用信道,有效減少選擇不可用信道導致的等待時延,從而解決實體更新的實時性問題,同時根據信道狀態對節點間的關系進行更新維護。
HMM是馬爾可夫模型理論基礎上的雙重隨機過程,由描述隱藏狀態轉移的馬爾可夫鏈和描述隱藏狀態與觀測狀態之間關系的隨機過程組成,隱藏狀態不可觀測。HMM可以定義為五元組λ=(S,V,A,B,π),其中S={S1,S2,…,SN},代表隱藏狀態的有限集合,狀態數量為N;V={V1,V2,…,VM},代表觀測值的有限集合,可能輸出的觀測值數量為M;A={aij},aij=P{qt+1=Sj|qt=Si},1≤i,j≤N,代表HMM中隱藏狀態之間的轉移概率;B={bj(k)},bj(k)=P{Ot=Vk|qt=Sj},1≤j≤N,1≤k≤M,代表HMM中某隱藏狀態被觀測為指定觀測值的概率;代表初始化狀態分布。隨機過程中的隱藏狀態序列為Q={q1,q2,…,qT},觀測狀態序列為O={ο1,ο2,…,οT},T為觀測狀態序列長度。
網絡狀態不是一個具體的概念,無法直接檢測,一般通過反映網絡狀態的QoS指標來體現網絡狀態,如網絡時延、丟包率等。HMM中的隱藏狀態同樣不可觀測,僅能觀測到觀測狀態。針對海上網絡,以信道的連通狀態作為隱藏狀態,隱藏值集合S={0,1},分別表示信道不可用狀態與可用狀態。以每次實體更新的時延為觀測狀態,對實體更新時間進行離散化,分為三種狀態,第一類時延小于200ms,第二類時延在200ms~1000ms之間,第三類時延在1000ms以上,故觀測值集合V={0,1,2}。對歷史數據進行離散化得到觀測狀態序列O,作為模型的訓練集與預測的輸入。
建立HMM需要選取合適的初始模型參數,好的參數選取方案使最終參數盡量收斂于全局最大值。初始狀態分布π與隱藏狀態轉移概率矩陣A可隨機選取,不會影響到模型的最終參數收斂。觀測概率矩陣B的初始值關系到最終參數的收斂,采用均勻分割訓練樣本然后估計其全局均值和方差的方式計算初始觀測概率矩陣B。
定義初始模型后,使用已知的觀測狀態序列O作為輸入,采用Baum-Welch算法對模型λ進行訓練,計算得到新的模型λ`=(A`,B`,π`),且P(O|λ`)>P(O|λ),即新模型生成觀測狀態序列O的概率高于原模型,新模型相比原模型更符合實際環境,將λ`作為λ進行新一輪的迭代,直到P(O|λ`)不明顯提高,即得到最終的模型。
建立面向海上網絡的隱馬爾可夫模型后,以節點間網絡狀態的觀測狀態序列O作為輸入,使用Viterbi算法預測未來時隙的所有信道狀態,即根據已經確定的給定部分觀察序列O={ο1,ο2,…,οt}及其對應的最優隱藏狀態序列Q={q1,q2,…,qt},根據Q計算出觀測序列增1后的最優狀態序列Q={q1,q2,…,qt,qt+1},即得到下一時隙的網絡狀態預測值。選擇預測可用信道建立候選信道集合,使用可用信道進行實體更新的傳輸,保證實體更新的實時性,根據可用信道的連通狀態維護節點間的連接關系,同時根據實體更新的傳輸的效果對HMM模型進行評估。
基于面向海上網絡的隱馬爾可夫模型,得到對信道的連通狀態進行預測的方法。基于預測方法,提出海上多節點信息資源知識圖譜的構建方法,分為單節點知識圖譜構建與節點間交互模塊構建兩部分。
單節點知識圖譜構建方法如下:
1)根據經驗與信息資源管理中的技術文檔,定義信息資源管理的相關概念和關系。對于信息資源知識圖譜,采用自頂向下的構建方式,通過文本模板匹配的方式從信息資源的技術文檔匹配得到概念及屬性的定義,以抽取得到的概念形成信息資源知識圖譜的模式層。
2)根據實際應用需求,為抽取得到的概念定義屬性、關系的取值約束,為節點與信息資源、節點與節點之間的關系添加連接狀態屬性,記錄該信息資源或節點當前是否可達。
3)從現有的數據庫、文檔、實時數據等多種來源的異構數據中抽取實體及其關系與屬性值。針對各類異構信息資源,為信息資源按類型定義匹配模板,采用模板匹配的知識抽取方法進行實體的抽取。
4)由于信息資源實體存在較多關系和屬性,采用基于實體關系的相似度作為實體消歧的判斷標準;對步驟3)得到的實體進行知識融合,消除實體之間的冗余,對相同實體進行合并,得到單節點信息資源知識圖譜。
節點間交互模塊構建方法如下。
1)選取初始模型參數,建立初始隱馬爾可夫模型。
2)對信道狀態歷史數據進行預處理,構造觀測狀態序列O作為HMM的訓練集。
3)使用Baum-Welch算法對隱馬爾可夫模型進行訓練。
基于訓練后的HMM,使用Viterbi算法計算預測未來時隙的所有信道狀態,并基于預測的結果選擇信道傳輸數據。根據數據的傳輸結果判斷信道的實際狀態,維護節點間關系;基于預測結果和信道的實際狀態評估HMM的預測效果。若預測效果下降,將新的信道狀態預處理后加入到訓練集,訓練HMM,否則預測下一時隙的信道狀態。
海上多節點的信息資源知識圖譜的建立流程圖如圖2所示。

圖2 海上多節點的信息資源知識圖譜的建立流程
按照以上方法構建的海上多節點信息資源知識圖譜可以對節點間的連接狀態進行維護,并確保節點間信息資源的實時性。
以兩個海上信息資源管理中心節點為例,通過以上方法構建海上信息資源知識圖譜,關系數據庫中原始數據如圖3所示。

圖3 原始數據示例
使用D2R工具將目前的關系數據庫中的結構化數據映射為資源描述框架映射為資源描述框架(Resource Description Framework,RDF)的表示形式,得到的實體如圖4所示。

圖4 實體RDF描述示例
將抽取得到的實體集添加到圖數據庫中,形成節點1與節點2的單節點信息資源知識圖譜。構建各節點上的節點間交互模塊,通過節點間的數據更新得到多節點信息資源知識圖譜。
對多節點知識圖譜中的1、2兩個用戶實體進行關聯路徑分析,得到的結果如圖5所示,可直觀地看到兩個信息資源管理中心之間關聯的資源實體,“訂閱”關系實時顯示連接狀態,更新交互模塊實時對本地知識圖譜進行更新,維護節點間關系,直觀顯示信息資源中心與資源之間的關系。

圖5 海上多節點信息資源管理知識圖譜
在相同的網絡環境下,對傳統的信道輪詢方式與HMM模型預測在不同數據規模下的實體更新平均時延進行對比。如圖6所示,隨著實體更新數據規模的增大,隱馬爾可夫模型對網絡狀態擬合度逐漸提高。相對于傳統的信道輪詢方式,使用隱馬爾可夫模型進行預測的實體更新方式能有效降低實體更新時延,從而提高知識圖譜更新的實時性。

圖6 HMM預測與輪詢方式實時性效果對比
隨著全域作戰模式的發展,信息資源的數據規模與類型會日益增加,對海上信息資源的組織方式和應用都提出了新的挑戰。本文針對海上多節點的海量異構信息資源以及海上網絡環境的特點,提出了面向海上多節點信息資源知識圖譜的構建方法,從多種數據源抽取實體及關系以構建信息資源知識圖譜,構建的知識圖譜可為異構信息資源提供一種數據組織方式和存儲方式,為以信息資源知識圖譜為基礎的個性化推薦、智能搜索等方面應用提供技術支持。