面向軍事信息服務的智能推薦技術

2019-08-21 08:44:38王中偉裘杭萍寇大磊

指揮控制與仿真 2019年4期

王中偉,裘杭萍,孫毅,寇大磊

(中國人民解放軍陸軍工程大學,江蘇南京 210007)

隨著信息技術的飛速發展,網絡信息呈現出爆炸的現象,需要尋找有效的方法來解決信息的精準服務問題。而在軍事領域,隨著我軍偵察裝備的換代和通信網絡的升級,軍事信息的收集和獲取能力大幅提高。軍事信息呈現出積累快、來源廣、異構性和數量大的特性。尋找相應的方法對軍事信息進行快速識別篩選,并在合適的時空條件下推薦給合適的信息使用方,切實將信息優勢轉化為戰斗力,是一個極具意義的研究課題。

目前,解決信息爆炸問題有兩種主要方法:一種是搜索引擎,例如以谷歌、百度等為主的搜索引擎,可以方便用戶快速檢索出包含自己感興趣關鍵詞的內容,但其存在檢索結果不準確和單一化的缺點;另一種方法是推薦技術,可以針對用戶獨有的特點進行個性化和多元化的推薦,是一種較為有效的解決方法。

鞠亮等基于網絡環境提出并構建了軍事情報信息智能獲取方法和利用方式[1];秦樹鑫等提出了一種用戶相關智能化搜集整合系統[2];馬建威圍繞海量軍事信息，利用過程中的熱難點問題,主要研究了軍事信息的特征捕獲和軍事信息資源智能挖掘與匯聚方法,為軍事信息資源的精準保障提供了技術支持[3];蔡飛以數據挖掘技術為支撐,圍繞軍事信息檢索和查詢推薦所面臨的理論問題和技術難點,展開了深入研究[4];黃震華等對基于排序的民用推薦算法進行了總結[5];趙子慧等設計了基于用戶瀏覽模式的新聞推薦系統[6];Liu J等基于位置感知和個性化協同過濾算法,設計了一種Web服務推薦方法[7]。綜合看來,目前推薦技術在民用領域研究較為深入,而在軍事信息服務的智能推薦研究上偏少,僅僅是針對某些具體的技術作了一些研究,沒有形成系統性和整體性的研究。

1 推薦技術簡介

推薦技術最早出現在電子商務領域,主要是利用電子商務網站,模擬銷售員向客戶提供購買商品建議的技術。推薦技術主要包括三個重要的方面,分別是:用戶建模技術、對象建模技術和推薦算法。

通用的推薦流程[8]如圖1所示,首先是對用戶偏好特征的獲取,進而通過計算建立用戶模型和推薦對象模型,最后依據推薦算法計算出不同用戶和對象間的相似度,根據相似度值的大小對用戶進行信息推薦。

圖1 推薦流程圖

推薦流程的形式化表示為:設U為所有用戶集合(如成千上萬的作戰人員),O為所有待推薦對象的集合(如成千上萬的軍事信息文檔),f()為相似度函數,推薦的意義就是尋找每個用戶對應的滿足相似度值排前n個的推薦對象集S′,即

?c∈C,S′=aggregate Topnf()

(1)

2 關鍵推薦技術分析

2.1 用戶建模技術

對于不同的軍事信息用戶,其關注的軍事信息內容是不同的。在進行軍事信息的智能推薦之前需要先對軍事信息用戶進行特征建模,用以描述不同軍事用戶的信息偏好。用戶建模的過程圖如圖2所示。

圖2 用戶建模過程圖

軍事信息用戶的偏好特征模型S可以表示為m個顯性特征Sd(如姓名、角色等)和n個隱性特征Sr(如作戰計劃、戰場態勢等),進一步,特征模型可以表示為m+n元組,如式(2)所示。

S=Sd+Sr={d1,d2, …,dm,r1,r2, …,rn}

(2)

對于用戶的顯性特征可以通過用戶注冊填寫或個性化標簽設定等主動方式獲取,該方式的優點是簡單高效,能夠快速定位用戶偏好;缺點是浪費用戶瀏覽時間,泄露用戶隱私信息。對于用戶的隱性特征,主要是通過數據挖掘技術,對用戶的瀏覽行為數據進行分析挖掘,從而得到用戶潛在的偏好特征。該方式的優點是節省用戶瀏覽時間,挖掘出用戶潛在的一些獨特偏好,缺點是分析結果未必理想準確,可能出現與實際不符的現象。

由于軍事用戶的特殊性,導致其偏好是動態變化的,因此還要考慮區分用戶的長期偏好特征和短期偏好特征。以作戰人員為例,平時可能關注更多的是關于訓練動態的信息,戰時可能關注的更多是關于戰場作戰的信息。在構建軍事信息用戶偏好特征模型時應加入情景(如時間、地點、天氣、需求等)特征,基于用戶的情景感知進行智能推薦,將合適的信息在合適的情境下推薦給合適的用戶。情景感知需要對情景進行建模,可以采用邏輯模型(用規則表示)、本體模型(對客觀存在進行抽象)、圖模型(UML建模)等方法來實現。

2.2 對象建模技術

對不同的軍事信息對象進行推薦時,用到的對象建模方法也就不同。常見的軍事信息對象主要以文本類為主,此外還有圖像、視頻、音頻等。因此,對于不同類別的推薦對象要分別建模。

對于文本類推薦對象,可以采用基于內容的建模方法,利用關鍵詞抽取算法對文本內容進行關鍵詞抽取,基于文本內容對應的關鍵詞進行相似度計算,進而判斷文本間的相似性。目前可用的關鍵詞抽取方法主要有TF-IDF算法、TextRank算法、LSA/LSI算法和LDA算法。

1) TF-IDF算法[9]

TF-IDF(Term Frequency-Inverse Document Frequency,詞頻-逆文檔頻率算法)是一種基于統計的計算方法,常用于文檔集中一個詞對某份文檔的重要程度。計算方法如式(3)(4)(5)所示。

(3)

(4)

TF-IDF=詞頻(TF)*逆文檔頻率(IDF)

(5)

2) TextRank算法[10]

TextRank算法的基本思想源自于谷歌的PageRank算法,主要用于文本關鍵詞抽取。它的優點是可以不依靠語料庫,具有較高的獨立性。通過對某一文本內容的單獨分析,就可以實現關鍵詞的自動提取。其基本原理是將文本劃分成若干語句,基于句子組成成分分析,利用圖模型對單詞重要性進行排序,最后,選擇出Topn個詞語作為該文本內容的關鍵詞。算法步驟如下:

Step 1 對給定的文本T按照完整句子分割,即

T=[S1,S2, …,Sm]

(6)

Step 2 將分割好的句子進行詞語劃分,并為劃分好的詞語進行詞性標注。然后,將停用詞去除,只留下選定詞性的詞語,如動詞、名詞、形容詞等。式(7)中ti,n是篩選后的候選關鍵詞;

Si=[ti,1,ti,2, …,ti,n]

(7)

Step 3 構造候選關鍵詞圖模型G=(V,E),其中V是由式(7)產生的候選關鍵詞構成的節點集。然后通過共現關系(Co-Occurrence)構造圖中每兩節點之間的邊。當兩個節點對應的單詞都出現在長度為N的窗口中時,才認為它們之間存在邊。其中,N為窗口大小,即最多允許同時出現N個單詞;

Step 4 根據上面的步驟,重復迭代并更新各節點的權重,直到最后收斂;

Step 5 將節點權重按照由大到小的順序進行排序,選擇出前面的M個單詞,就成為候選關鍵詞;

Step 6 由得到的M個候選關鍵詞,在原始文本中進行標記,如果可以形成相鄰詞組,便組合成多詞關鍵詞。

3) LSA/LSI算法[11]

LSA,其全稱為Latent Semantic Analysis。 LSI,其全稱為Latent Semantic Index。兩者可以認為是同一種算法,但又有些區別。相同點是都要統計大量文本集,對文本的潛在語義進行分析。不同點是LSI還會在統計分析結果的基礎上創建相關的索引。主要算法步驟如下:

Step 1 分析文本集,使用BOW模型將每個文本表示為向量;

Step 2 將所有的文本詞向量拼接起來構成詞-文本矩陣(m*n);

Step 3 通過奇異值分解(SVD)將詞-文本矩陣進行矩陣分解([m*r]. [r*r]. [r*n]);

Step 4 將分解后的詞-文本矩陣進行降維處理,k([m*k]. [k*k]. [k*n],0

4) LDA算法[12]

LDA,其全稱為Linear Discriminant Analysis,是人工智能領域中的經典算法。其基本思想是先假定文本中主題與文本關鍵詞服從狄利克雷分布,根據先驗分布和數據觀察,擬合出多項式分布規律,得出Dirichlet-multi共軛結果。最后,根據共軛結果預測文本中主題與文本關鍵詞的后驗分布,即算法得到的關鍵詞抽取結果。LDA模型的訓練過程如下:

Step 1 對語料庫中每篇文本內容中的每一個詞w進行隨機初始化,賦予一個主題編號b;

Step 2 按照吉布斯采樣公式重新掃描語料庫,并重新采樣每個詞w的主題編號b,及時在語料庫中更新編號;

Step 3 當吉布斯采樣收斂時,停止重復采樣過程,進入下一步;

Step 4 統計語料庫的主題-詞共現頻率矩陣,即關鍵詞抽取需要的LDA模型。

接下來就可以按照一定的方式對新文本的主題進行預估,具體步驟如下:

Step 1 對當前文本內容中的每一個詞w進行隨機初始化,賦予一個主題編號c;

Step 2 按照吉布斯采樣公式重新掃描當前文本并重采樣文本主題;

Step 3 當吉布斯采樣收斂時,停止重采樣過程,進入下一步;

Step 4 統計文本中的主題分布即為預測結果。

對于圖像類推薦對象,同樣可以采用基于內容的建模方法,主要是對圖像內容進行相似度對比計算。目前常用的方法有像素點對比、重心對比、投影對比和分塊對比。而對于視頻、音頻類推薦對象,可以采用基于分類的建模方法,目前常用的分類方法有支持向量機、K最近鄰和樸素貝葉斯等方法。

2.3 推薦算法

在推薦算法方面,目前商用推薦算法大致可以分為四類,即:協作過濾推薦算法、基于內容的推薦算法、基于網絡結構的推薦算法和混合推薦算法。

1) 協作過濾推薦算法[13]

關于協作過濾算法,可以分為基于用戶的和基于對象的?；谟脩舻姆椒ㄊ侵附涍^對用戶間的相似度計算,從而把相似用戶感興趣的內容推薦過來。如用戶甲偏好A類信息,用戶乙偏好A類和B類信息,就能夠將B類信息推薦給用戶甲。基于對象的方法是指經過計算對象間的相似度,從而把與某一用戶感興趣的對象的相似對象推薦出來。如某用戶偏好X類對象,Y類與X類對象較為相似,就能夠將Y類對象推薦給用戶。

協作過濾算法最主要的是相似度計算方法的設計,目前有余弦相似(式(8))、Jaccard相似(式(9))、歐氏距離相似(式(10))等計算方法。協作過濾算法的優點是可以針對用戶自身行為記錄進行計算,容易發現用戶的潛在信息偏好特征;缺點是會帶來數據稀疏性、“冷啟動”問題、“信息繭房”問題。

(8)

(9)

(10)

2) 基于內容的推薦算法[14]

基于內容的推薦是指依據用戶瀏覽的信息內容特征進行推薦。需要計算出用戶與不同內容信息間的相似度,而后根據相似度值的大小排序,將Topn對象推薦出來。優點是簡單高效,缺點是推薦內容較為相似,缺乏多樣性。

3) 基于網絡結構的推薦算法[15]

基于網絡的推薦算法是將用戶和對象間的行為關系轉換為網絡中的節點和邊,通過對網絡結構的分析進行推薦,如圖3所示。優點是可擴展性強,新用戶或新對象可以作為新的節點加入網絡,不存在“冷啟動”問題,缺點是網絡結構較為復雜,計算量太大。

圖3 用戶行為記錄結構圖

4) 混合推薦算法

混合推薦算法是指采取混合策略使用多種推薦算法,這樣可以彌補單一算法的不足,從而將更佳的推薦結果展示給用戶。但對于不同的推薦用戶和對象,如何選擇推薦算法進行混合推薦是關鍵。

此外,針對軍事用戶的特殊性,可以基于情景感知為作戰行動單元進行地理條件、氣象環境等的推薦;基于情報分析為心理戰、輿論戰提供情感分析推薦;基于關聯規則為戰場事件行動決策進行推薦;基于社交網絡對作戰群組協同進行推薦等。

3 基于ISM的軍事文本信息智能推薦

ISM法即解釋結構模型法,其全稱為Interpretative Structural Modeling Method,主要用于解決變量較多、結構復雜的系統分析問題。通過將該方法引入智能推薦中,可以優化推薦對象建模技術,構建軍事信息用戶偏好特征層次模型,解決新用戶剛加入時缺乏特征數據無法進行推薦的問題,即“冷啟動”問題。對于新加入的用戶來說,就可以依據其特征層次結構模型來進行共性特征相關推薦。隨著用戶的個人行為數據逐漸積累,后期可挖掘分析其個性特征實現更精確的推薦。

3.1 軍事用戶建模

對于某類軍事用戶來說,采用上述傳統對象建模技術提取的偏好特征可以由m+n元組表示。而實際中,不同特征間可能存在影響關系。現假設經判定某類用戶的7個偏好特征中存在如下關系:S2影響S1,S3影響S4,S4影響S5,S7影響S2,S4和S6互相影響。進一步,可依據該影響關系構建有向圖,如圖4。

圖4 特征關系有向圖

下一步,根據有向圖得出鄰接矩陣A,并求出鄰接矩陣的可達矩陣M。

(11)

通過ISM方法,對可達矩陣M進行區域劃分和級位劃分,提取骨架矩陣,得出特征關系層次結構圖,如圖5所示。

圖5 層次結構圖

進一步,依據特征關系層次結構圖,構建軍事信息用戶偏好特征層次模型,并將其進行布爾向量化。用戶模型可以表示為X=[x1,x2,…,xN]。

3.2 推薦文本建模

對于推薦對象建模,可以通過TF-IDF方法進行軍事信息文本關鍵詞抽取,構建文本的關鍵詞特征模型,并通過布爾模型對文本關鍵詞進行特征向量化。對象模型可以表示為Y=[y1,y2,…,yN]。

3.3 基于內容的推薦

采用相似余弦算法,計算用戶和對象內容間的相似度大小,如式(12)所示。并依據相似度大小進行排序,將對象推薦給相似度值最大的軍事用戶,從而實現軍事文本信息的智能推薦。

cosineXY=|Y*XT|

(12)

4 系統設計與案例分析

4.1 系統設計

針對軍事信息用戶的特殊需求,結合上述對建模方法和推薦算法的研究,可以采用分層思想,設計出面向軍事信息服務的智能推薦系統架構,其中主要包括基礎層、數據層、控制層和應用層。系統總體架構設計如圖6所示。

圖6 軍事信息推薦系統架構

1) 基礎層

其主要依托我軍建設的網絡設施、存儲設施、計算設施,作為構建面向軍事信息服務的智能推薦系統的硬件基礎。

2) 數據層

其主要用來存儲各種各樣的信息,包括用戶行為記錄信息、戰場環境信息(地形、地貌、水文、氣象等)、多媒體信息(文本、圖像、視頻、音頻等),作為推薦系統的數據支撐,對數據進行加密和安全性保護。

3) 控制層

其主要實現用戶信息偏好特征的捕獲、各式信息的過濾整合以及用戶需求的自主預測,進而為用戶從海量信息中推薦出有價值的信息,發揮出信息優勢。

4) 應用層

其用于接收并可視化展示控制層處理后的結果,對用戶進行交互操作,滿足用戶需求。

4.2 案例分析

本文以美軍海灣行動“沙漠風暴”空中作戰計劃的文本信息為例,首先對文本內容進行用戶分析和關鍵詞分析。

根據任務不同,可以對軍事用戶進行角色分類,如表1所示。

表1 不同軍事用戶信息偏好

本文采用上述ISM方法,構建出不同角色的用戶信息偏好特征層次模型,圖7展示了作戰人員的特征層次模型。

圖7 軍事信息用戶偏好特征層次模型

進一步,本文通過TF-IDF方法,提取出該文本內容的特征關鍵詞順序依次為:“飛毛腿”導彈、衛隊、光纖、目標群、摧毀等,詳見表2。

表2 案例文本特征權重

最后,本文通過余弦相似度算法,計算出該文本關鍵詞與不同軍事用戶特征的相似度值。圖8展示了：對于美軍“沙漠風暴”這篇軍事情報文本,與作戰人員信息偏好特征更為相似,因此，可以將其推薦給作戰人員。

圖8 用戶與文本內容間的相似度

5 結束語

本文針對軍事信息服務中的信息推薦問題進行了技術研究,分別介紹了目前的研究現狀、關鍵技術和系統設計,并給出了一種基于ISM方法的軍事文本信息智能推薦算法。關鍵技術方面詳細分析了用戶建模技術、對象建模技術和推薦算法,并就一些常用方法給出了優缺點對比。軍事文本信息智能推薦算法中引入了ISM方法,優化了用戶建模技術,解決了“冷啟動”問題。本文的研究對于我軍利用軍事信息的智能推薦服務具有重要意義,可以為其提供技術支持。下一步工作中,將采用本文研究的方法設計并實現面向軍事信息服務的智能推薦系統,為我軍作戰人員決策提供輔助信息,為廣大普通人員提供個性信息。同時,未來工作中,還要結合具體應用場景,綜合考慮用戶的真實復雜的需求,優化推薦技術,進一步提高智能推薦質量。