吳克啟 孫江磊 王忠思
(1.海軍蚌埠士官學校三系 蚌埠 233012)(2.海軍蚌埠士官學校訓練部 蚌埠 233012)
隨著網絡的普及,互聯網已成為重要的公開情報信息源。對于互聯網信息處理系統,其抓取的信息的重要程度如何,是系統進行自動的信息取舍和數據過濾的判斷條件,也是信息檢索、輿情或情報人員進行人工分析的判斷依據[1]。面對互聯網上的海量信息,傳統的互聯網信息處理技術沒有價值評估計算,其實質是分類和檢索[2~3],即先將海量龐雜的信息分類、有序化,然后通過語義擴展后的關鍵詞匹配檢索出可能與主題有關的數據[4~6]。雖然分類和檢索能通過計算機實現自動的管理,但是反饋給用戶的仍然是原始的網頁或是文本數據,實際上未經過對內容的分析,分析工作仍然是由用戶完成。
傳統的互聯網信息處理技術不能實現計算機的自動分析處理的一個重要原因,就是未能從語義層次實現對抓取的信息進行文本價值的判斷,從而無法利用抓取的信息來反饋新的抓取任務[7]。鑒于傳統的數據挖掘輔助情報處理技術都缺乏文本信息價值評估的方法,論文對此進行了補充和深入的研究,并根據人工評估的原則設計了一種基于語義的評估方法。
在情報質量評估方面,美國匹茲堡大學教授T.L.Saaty曾于上世紀提出層次分析法(Ana1ytic Hierarchy Process,AHP)[8]。這種方法具有一定局限。實際軍事情報工作與軍事情報在作戰指揮中的運用需要專業人員的參與。如果所選的要素不合理,其含義混淆不清,或要素間的關系不正確,都會降低AHP法的結果質量,甚至導致AHP法決策失敗[9]。
對于傳統的軍事情報,還有一些對情報價值進行量化和度量的計算公式,如日本學者比野省三認為,情報的價值可以描述為[10]

其中,E表示情報的價值,是個無量綱的數值;Pi是使用情報時發生的概率;Qi是不使用情報時發生的概率;Ji是使用情報時的收益或效果;Hi是不使用情報時的收益或效果。
式(1)因為兩個主要原因而無法較好地應用于軍事領域:1)這是一個“事后”公式,因此指揮員在決策前,無法確定Pi和Qi;2)戰爭是對抗性的活動過程,具備極大的不確定性。因此,文獻[10]使用情報的平均信息量來度量情報價值,并且對于第二條相似的情報,應考慮其驗證價值,所以一條情報的價值應為自身信息量與之前所有相似情報信息量的差值:

并且,考慮情報的驗證價值后,即使后到的情報與之前的非常相似,使得ΔHn≈0,仍不能否定其價值,而應該認為它的價值更多的體現在對前面已經擁有的情報的驗證上。因此,情報的價值等于自身信息價值與驗證價值的和:

式(5)中的Yn為第n條信息的驗證價值。圖2顯示了對同一事件(目標)先后產生的情報,其所起到的驗證作用是不一樣的。
圖1中,驗證指數指的是情報得到驗證的程度,代表指揮員對情報的信心,即情報的主觀可信度。從圖1中可以看出,隨著情報數量的不斷增加,情報的驗證指數也在不斷上升,但上升的趨勢逐漸變緩,最終接近但無法達到100%。

圖1 情報的驗證曲線
傳統的情報價值評估模型都是針對輔助指揮員作戰決策的戰場情報,對于實現計算機自動處理互聯網信息已經不再適用。考慮到信息與目標的相關程度和與已掌握情報的相似程度是反映信息價值的兩大因素。論文采取了一種信息度量方法—基于本體的信息量價值評估算法。
基于本體的信息價值評估算法認為存放情報素材的本地數據庫是一個封閉的知識庫,抓取的文本的情報價值如何,主要取決于其與本地數據庫中內容的相似程度與相關程度,它與數據庫中的內容越相近,情報價值越低,反之則很有可能是新的情報。
定義1 數據庫記錄:設情報數據庫為集合D={I1,I2,…,In},其中Ii表示第i條記錄,Ii也是一個集合,Ii={{NE1,NE2,…,NEm},{N1,N2,…,Nn},{V1,V2,…,Vk}},即命名實體、名詞和動詞的集合。
定義2 最短路徑:設X、Y是本體結構的任意兩個結點,Min(X,Y)表示從X到Y的最短路徑長度,當X、Y 不連通時,Min(X,Y)的值為∞。
定義3 相關度:在某一本體中,任意兩個概念間的相關度計算公式如式(6)[11]:

式(6)是關聯挖掘領域的通用公式,其中ω是一個可以調節的參數,即相關度為0.5時概念間的最短路徑,論文的實驗取ω=2。對于命名實體間的相關度Rel(Ix,Ii)的計算方法,可以用如圖2所示的本體結構說明。

圖2 一個關于飛機的本體
在圖2中,根據式(6)計算出的飛機與其他詞語間的相關度見表1。

表1 本體概念間的相關度
從表1中可以看出,飛機與747、波音、FA728間的相關度為0是不合理的,這是由于構建的本體沒有描述它們之間的關系,但是若這些命名實體出現在同一文本中時,根據論文提出的價值評估算法(定義5),這種關系將作為新的情報被更新至本體庫,那么更新后的相關度計算值也將更新為0.8。
定義4 綜合關系:概念相似度表示兩詞語間的語義相似程度。目前關于相似度計算的研究較多,論文采用的是文獻[5]改進的Philip Resnik算法[6]:

根據Resnik的思想,兩概念間的語義相似度等于它們間共有的信息含量,即最詳盡的共同抽象(Most Specific Common Abstraction,MSCA)父概念的信息量。式(7)中,S(c1,c2)表示包含子節點c1和c2的概念集。
為了評估待判斷信息Ix與本地情報數據庫中記錄Ii的相關程度和相似程度,即綜合關系,需對Ix中的重要權重詞語進行計算。對于從Ix中提取的命名實體,其與數據庫中的記錄Ii中各命名實體間的最大相關度為Rel(Ix,Ii);對于從Ix中提取的重要詞語(名詞或動詞),其與數據庫中的記錄Ii中各詞語間的最大相似度為Sim(Ix,Ii),那么綜合關系Sim_Rel(Ix,Ii)與 Sim(Ix,Ii)和 Rel(Ix,Ii)滿足:

若從Ix中提取的命名實體或重要詞語有多個,則分別計算后取算術平均值作為Rel(Ix,Ii)或Sim(Ix,Ii)。如果相似度與相關度均在[0,1]之間取值,且D表示本地情報數據庫的集合,那么Sim_Rel(Ix,Ii)的取值滿足:

定義5 信息價值:待判斷的信息Ix的信息價值V滿足:


在某一時間段,實驗嘗試盡量多地從國外著名社交網Twitter上抓取與關鍵詞“Obama”有關的推文(微博)[12]然后通過論文的價值評估方法,計算出抓取的推文的信息價值,用以引導進一步的信息抓取,抓取與計算界面如圖3和圖4所示。抓取的推文的統計情況如表2所示。

圖3 抓取的Twitter信息數據庫界面

圖4 計算抓取的文本價值界面

表2 推文綜合關系的統計結果
這是對抓取的600條推文的綜合關系統計結果,綜合關系小于0.5的248條推文是情報主題數據庫中沒有記錄的關于“Obama”的情報(論文沒有考慮情報的真實性辨別問題),大于或等于0.5的265條推文是與情報主題數據庫中語義相近的情報。
將綜合關系小于0.5的248條推文的命名實體加入情報課題數據庫的關鍵詞表,再抓取300條推文,計算出綜合關系的統計結果如表3所示。

表3 更新情報課題數據庫的關鍵詞后的統計結果
更新情報課題數據庫后的統計結果顯示,將抓取的推文經過分析處理并反饋至情報課題后,再次引導Twitter爬蟲抓取到的新內容減少,而與本地推文記錄相似的內容則有大幅度增加的趨勢,這是因為每次抓取都會將新的內容更新至情報課題數據庫,隨著本地數據庫對目標掌握的情報越來越多,之后抓取的信息多半是已有記錄的重復。傳統方法由于無法評估為有價值的信息,因此無法抓取這部分內容。
為了解決抓取的文本的價值評估問題,實現計算機的自動取舍與統計分析,提出了基于本體的信息價值評估算法,該方法同時考慮了待判斷信息的情報價值和驗證價值以及包含的語義信息,通過對文本的信息價值計算,能夠自動評估該信息的情報價值或是驗證價值的大小,是下一步實現計算機自動進行分析處理、構建情報網絡的基礎。
[1]王國順,孫四明,張峰.基于本體的個性化信息檢索技術研究[J].計算機仿真,2013,30(7):421-423.
[2]徐建民,朱松,陳富節.術語相似度和術語相關度在檢索模型中的融合研究[J].計算機應用,2007,27(12):3013-3015.
[3]劉宏哲,須德.基于本體的語義相似度和相關度計算研究綜述[J].計算機科學,2012,39(2):8-12.
[4]姚佳岷,楊思春.改進的本體概念相似度計算模型[J].計算機應用,2013,33(6):1579-1585.
[5]YOU Bin,LIU Xiaoran,LI Ning,et al.Using information content to evaluate semantic similarity on How-Net[C]//2012International Conference on Computational Intelligence and Security(ICCIS 2012),Guangzhou China,2012:142-145.
[6]P.RESNIK.Information content to evaluate semantic similarity in a taxonomy[C]//Proceedings of IJCAI,1995:448-453.
[7]林麗,薛方,任仲晟.一種改進的基于《知網》的詞語相似度計算方法[J].計算機應用,2009,29(1):217-220.
[8]習守成,龐聰,金開.基于AHP的對空警戒雷達作戰效能分析[J].電子對抗,2013(3):7-9.
[9]余力,岳振軍.軍事情報價值評估方法[J].火力與指揮控制,2011,36(5):173-176.
[10]劉姝麗,韓中庚,谷玉.軍事情報信息價值的度量方法[J].軍事運籌與系統工程,2006,20(4):52-56.
[11]甘健侯,姜躍,夏幼明.本體方法及其應用[M].北京:科學出版社,2011:5-21.
[12]游彬,劉曉然,李寧,等.社交網絡Twitter的推文抽取技術研究[J].艦船電子工程,2012,32(9):113-115.