章 寧
(92497部隊(duì) 陵水 572400)
?
短文本的情報(bào)價(jià)值評估方法研究*
章寧
(92497部隊(duì)陵水572400)
摘要社交網(wǎng)絡(luò)中的短文本是重要的互聯(lián)網(wǎng)公開情報(bào)來源。為了快速判斷短文本的重要程度并進(jìn)行聚類,論文提出了基于HowNet信息量的情報(bào)價(jià)值評估方法。與傳統(tǒng)分類方法相比,此算法能更快地計(jì)算短文本的重要程度,并提高聚類的效率。
關(guān)鍵詞社交網(wǎng)絡(luò); 短文本; 情報(bào)價(jià)值; HowNet; 信息抽取
Evaluation Method of Intelligence Value of Short Text
ZHANG Ning
(No. 92497 Troops of PLA, Lingshui572400)
AbstractSocial network sites are important source of Internet open intelligence. To judge importance level of short text and classifying them quickly, this paper presents an information evaluating algorithm based on HowNet, which can solve automatic judgment problem of computer more efficiently compared with traditional methods.
Key Wordssocial network, short text, intelligence value, HowNet, information acquisition
Class NumberTP391.7
1引言
微博等社交網(wǎng)站內(nèi)容短,時(shí)效性強(qiáng),觀點(diǎn)突出。隨著全球移動(dòng)通信網(wǎng)絡(luò)的擴(kuò)張,這種極度適合手機(jī)閱讀的傳播方式繼續(xù)普及,對于各種突發(fā)新聞,社交網(wǎng)絡(luò)比CNN等傳媒巨頭更有優(yōu)勢[1]。2015年6月份,國內(nèi)外各大新聞媒體接連報(bào)道:美軍通過分析ISIS(伊斯蘭國,國外恐怖組織)成員在社交網(wǎng)站上發(fā)布的自拍照,定點(diǎn)炸毀了他們的總部大樓[2]。簡短的博文信息完全可以作為商業(yè)競爭或軍事情報(bào)的素材。
短文本信息形式是社會(huì)生活節(jié)奏加快的必然產(chǎn)物,廣泛學(xué)者已經(jīng)意識(shí)到了研究短文本的重要性,針對短文本向量稀疏的特征,目前已經(jīng)出現(xiàn)了短文本的抽取、過濾、分類、情感傾向性判別的研究[3~7],用到了語義特征抽取[8]、特征權(quán)重計(jì)算[9]、LDA特征擴(kuò)展[10~11]、相似度計(jì)算[12~13]、本體知識(shí)庫[14]等各種頗有成效的算法。然而,這些研究不能有效、快速地量化短文本的信息價(jià)值,無法直接應(yīng)用于軍事情報(bào)分析領(lǐng)域。
在互聯(lián)網(wǎng)公開情報(bào)分析處理系統(tǒng)中,為了判斷抓取的短文本的重要程度即價(jià)值如何,文獻(xiàn)[14]提出了基于本體的信息價(jià)值評估算法,以解決短文本的情報(bào)價(jià)值量化評估問題,然而該算法需多重循環(huán)計(jì)算詞語相似度和相關(guān)度,嚴(yán)重影響了情報(bào)處理的效率。論文對信息價(jià)值評估算法進(jìn)行了改進(jìn),實(shí)驗(yàn)數(shù)據(jù)證明,本文的算法處理速度更優(yōu)。
2文本價(jià)值評估的作用
情報(bào)能把戰(zhàn)場不確定性減少到何種程度、情報(bào)是否可用、使用這份情報(bào)將會(huì)帶來多大的風(fēng)險(xiǎn)等都是指揮員十分關(guān)心的問題,而解決這些問題的途徑之一就是通過情報(bào)評估的方式[15],因此情報(bào)評估是制訂作戰(zhàn)計(jì)劃和保障指揮的前提。
對于互聯(lián)網(wǎng)公開情報(bào)處理系統(tǒng),其抓取的信息重要程度如何,是系統(tǒng)進(jìn)行自動(dòng)的信息取舍和數(shù)據(jù)過濾的判斷條件,也是情報(bào)人員進(jìn)行人工分析的判斷依據(jù)。傳統(tǒng)的短文本處理技術(shù)沒有價(jià)值評估計(jì)算,其實(shí)質(zhì)是分類和檢索,即先將海量龐雜的信息分類、有序化,然后通過關(guān)鍵詞匹配檢索出可能與情報(bào)課題有關(guān)的數(shù)據(jù)。本文對文獻(xiàn)[14]提出的文本的信息價(jià)值評估算法進(jìn)行了深入研究和補(bǔ)充,通過計(jì)算信息量進(jìn)行快速量化,力求設(shè)計(jì)一種公開情報(bào)的高效處理方法。
3情報(bào)質(zhì)量評估的一般方法
3.1層次分析法在情報(bào)質(zhì)量評估中的應(yīng)用
層次分析法(Ana1ytic Hierarchy Process,AHP)是美國匹茲堡大學(xué)教授T.L.Saaty于20世紀(jì)70年代提出的一種簡便、靈活而又實(shí)用的多準(zhǔn)則決策方法[15~16]。它是一種對較為模糊或較為復(fù)雜的決策問題使用定性與定量分析相結(jié)合的手段做出決策的簡易方法,特別是將決策者的經(jīng)驗(yàn)判斷給予量化,將人們的思維過程層次化,逐層比較相關(guān)因素,逐層檢驗(yàn)比較結(jié)果的合理性,由此提供較有說服力的依據(jù)。很多決策問題通常表現(xiàn)為一組方案的排序問題,這類問題就可以用AHP法解決。其原理是通過兩兩比較相互重量,得出每對重量比的判斷,從而構(gòu)成判斷矩陣;然后通過求解判斷矩陣的最大特征值λmax和它所對應(yīng)的特征向量,得出整組的相對重量。在情報(bào)質(zhì)量評估過程中,只要引入合理的標(biāo)度,也可以用來度量各因素之間的相對重要性,從而為有關(guān)決策提供依據(jù)[15]。
運(yùn)用層次分析法建模,可按下面四個(gè)步驟進(jìn)行: 1) 建立遞階層次結(jié)構(gòu)模型(如圖1所示); 2) 構(gòu)造出各層次中的所有判斷矩陣; 3) 計(jì)算判斷矩陣的最大特征根和特征向量,層次單排序及一致性檢驗(yàn); 4) 綜合評估,層次總排序及一致性檢驗(yàn)。

圖1 情報(bào)價(jià)值評估的層次結(jié)構(gòu)模型
關(guān)于層次分析法評估情報(bào)價(jià)值的具體步驟可參考文獻(xiàn)[15~16]。根據(jù)實(shí)際情況抽象出較為貼切的層次結(jié)構(gòu)是建立情報(bào)質(zhì)量評估指標(biāo)體系層次結(jié)構(gòu)模型中的難點(diǎn)之一。實(shí)際軍事情報(bào)工作與軍事情報(bào)在作戰(zhàn)指揮中的運(yùn)用需要專業(yè)人員的參與。如果所選的要素不合理,其含義混淆不清,或要素間的關(guān)系不正確,都會(huì)降低AHP法的結(jié)果質(zhì)量,甚至導(dǎo)致AHP法決策失敗。
3.2情報(bào)的信息價(jià)值評估方法
對于傳統(tǒng)的軍事情報(bào),也有對情報(bào)價(jià)值進(jìn)行量化的計(jì)算[17],如日本學(xué)者比野省三的研究表明,情報(bào)的價(jià)值可以表示為[18]
(1)
式(1)中,E表示情報(bào)的價(jià)值,是無量綱的數(shù)值;Pi是使用情報(bào)時(shí)事件發(fā)生的概率;Qi是不使用情報(bào)時(shí)事件發(fā)生的概率;Ji是使用情報(bào)時(shí)的收益;Hi是不使用情報(bào)時(shí)的收益。
該方法無法較好地應(yīng)用于軍事領(lǐng)域,因?yàn)閼?zhàn)爭是對抗性的活動(dòng)過程,具備極大的不確定性,而這是一個(gè)“事后”公式,因此指揮員在決策前,無法確定Pi和Qi。同樣,戰(zhàn)場情況千變?nèi)f化,影響作戰(zhàn)最終結(jié)果的因素非常多,因此,在作戰(zhàn)的最后結(jié)果出現(xiàn)前后,都難以準(zhǔn)確判斷使用或不使用情報(bào)時(shí)的收益或效果,即Ji和Hi。
3.3基于本體的信息價(jià)值評估算法
傳統(tǒng)的情報(bào)價(jià)值評估模型都是針對輔助指揮員作戰(zhàn)決策的戰(zhàn)場情報(bào),對于實(shí)現(xiàn)計(jì)算機(jī)自動(dòng)處理互聯(lián)網(wǎng)信息已經(jīng)不再適用。文獻(xiàn)[14]采取了一種基于本體的信息度量方法,其認(rèn)為存放情報(bào)素材的本地?cái)?shù)據(jù)庫是一個(gè)封閉的知識(shí)庫,抓取的文本的情報(bào)價(jià)值如何主要取決于其與本地?cái)?shù)據(jù)庫中內(nèi)容的相似程度與相關(guān)程度,它與數(shù)據(jù)庫中的內(nèi)容越相近,那么情報(bào)價(jià)值越低,反之則很有可能是新的情報(bào)。
為了評估待判斷信息Ix與本地情報(bào)數(shù)據(jù)庫中記錄Ii的相關(guān)程度和相似程度,即綜合關(guān)系,需對Ix中的重要權(quán)重詞語進(jìn)行計(jì)算。對于從Ix中提取的命名實(shí)體,其與數(shù)據(jù)庫中的記錄Ii中各命名實(shí)體間的最大相關(guān)度為Rel(Ix,Ii);對于從Ix中提取的重要詞語(名詞或動(dòng)詞),其與數(shù)據(jù)庫中的記錄Ii中各詞語間的最大相似度為Sim(Ix,Ii),那么綜合關(guān)系Sim_Rel(Ix,Ii)與Sim(Ix,Ii)和Rel(Ix,Ii)滿足:
Sim_Rel(Ix,Ii)=Sim(Ix,Ii)+Rel(Ix,Ii)
-Sim(Ix,Ii)×Rel(Ix,Ii)
(2)
待判斷的信息Ix的信息價(jià)值V滿足:
V=-logSim_Rel(Ix,Ii)
(3)
該算法說明,當(dāng)待判斷的文本與本體庫記錄毫無關(guān)系,即Sim_Rel(Ix,Ii)=0時(shí),其信息價(jià)值V→∞,即很有可能發(fā)現(xiàn)了新的情報(bào),因此應(yīng)該將該文本入庫,成為新的記錄;當(dāng)計(jì)算的綜合關(guān)系Sim_Rel(Ix,Ii)值介于0~1之間時(shí),其信息價(jià)值為log1/λ,λ為(0,1)范圍內(nèi)的一個(gè)正實(shí)數(shù),數(shù)據(jù)庫中的相應(yīng)記錄支持度C增加λ,并更新本體庫。
由于需要分別循環(huán)計(jì)算命名實(shí)體間的相關(guān)度和重要詞語的相似度值,因此算法的時(shí)間復(fù)雜度為O(n4)。
4基于信息量計(jì)算的短文本聚類算法
HowNet是一個(gè)揭示概念間關(guān)系和概念的屬性間的關(guān)系的在線知識(shí)庫,其分層系統(tǒng)不是簡單地使用一個(gè)概念表示一個(gè)節(jié)點(diǎn),對于每一個(gè)“義項(xiàng)(概念)”,使用一系列的“義原”來描述。“義原”是描述“義項(xiàng)”的基本單位,如圖2所示。

圖2 HowNet中義原的分類層次結(jié)構(gòu)
HowNet 2000版包含55501個(gè)中文義項(xiàng),58582個(gè)英文義項(xiàng)和1621個(gè)義原。HowNet是一部語義詳盡的規(guī)則詞典,是共享的知識(shí)分類系統(tǒng)。根據(jù)文獻(xiàn)[19],信息量計(jì)算公式為
(4)
函數(shù)hypo(p)返回給定義原的子節(jié)點(diǎn)數(shù)量,maxhn是義原所存在的分類系統(tǒng)的總數(shù)量,由于HowNet 2000版包含1621個(gè)義原,本文取maxhn=1621。
文獻(xiàn)[12]通過實(shí)驗(yàn)證明了這種方法能快速地計(jì)算短文本的相似度,并更接近人工語義的判斷值。因此,本文定義短文本的情報(bào)價(jià)值公式為

(5)
即,計(jì)算出短文本中信息量最大的詞語的負(fù)對數(shù)函數(shù)值作為該短文本的情報(bào)價(jià)值,由于該方法的計(jì)算主要是比較在HowNet中的語義距離,因此算法只需遍歷一次HowNet詞典,所以復(fù)雜度為O(n)。
為了與文獻(xiàn)[14]的算法進(jìn)行比較,本文嘗試盡量多地從Twitter上抓取關(guān)于“白宮”的推文(1000條),然后加入噪聲數(shù)據(jù)(1000條與主題無關(guān)的推文),用兩種方法分別從本地?cái)?shù)據(jù)庫中抓取關(guān)于“白宮”的短文本,每隔5min記錄一次處理的短文本數(shù)量,實(shí)驗(yàn)結(jié)果如表1所示。

表1 短文本抓取記錄
從圖3可以直觀地看出,文獻(xiàn)[14]的算法到45min抓取了984條短文本,召回率為98.4%。而本文改進(jìn)的算法在25min時(shí)就抓取了與主題相關(guān)的942條短文本,召回率為94.2%。

圖3 短文本抓取實(shí)驗(yàn)
可見本文的算法效率明顯高于文獻(xiàn)[14]的算法。召回率低于文獻(xiàn)[14]的算法是因?yàn)镠owNet知識(shí)庫本身的結(jié)構(gòu)造成的,隨著知識(shí)庫的完善,本文的召回率將會(huì)提高。
5結(jié)語
2012年倫敦奧運(yùn)會(huì)開幕式在“網(wǎng)絡(luò)時(shí)代”章節(jié)中展示了社交網(wǎng)絡(luò)給人們生活帶來的巨大影響。雖然社交網(wǎng)絡(luò)提倡的自由和共享精神給人們的生活帶來了獲取信息的便利,但也存在著泄露個(gè)人隱私甚至企業(yè)和國家情報(bào)的風(fēng)險(xiǎn),這也是西方發(fā)達(dá)國家將Twitter等社交網(wǎng)站納入其情報(bào)網(wǎng)絡(luò)的原因。
為了解決短文本的價(jià)值評估問題,實(shí)現(xiàn)計(jì)算機(jī)對公開情報(bào)的快速處理,本文提出了信息量計(jì)算的短文本聚類算法,該算法通過對文本的信息價(jià)值計(jì)算,能夠比傳統(tǒng)方法更高效地量化短文本的情報(bào)價(jià)值,這對互聯(lián)網(wǎng)軍事情報(bào)處理具有重要意義。
參 考 文 獻(xiàn)
[1] 游彬,劉曉然,李寧,等.社交網(wǎng)絡(luò)Twitter的推文抽取技術(shù)研究[J].艦船電子工程,2012,32(9):113-115.
[2] ISIS總部被美軍炸毀[EB/OL].網(wǎng)易新聞,(2015-6-4)[2015-06-20].http://news.163.com/15/0604/15/AR9C81D800014AED.html.
[3] 閆瑞,曹先彬,李凱.面向短文本的動(dòng)態(tài)組合分類算法[J].電子學(xué)報(bào),2009,37(5):1019-1024.
[4] 劉伍穎,王挺.基于詞模型索引的短文本在線過濾方法[J].華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2010,38(4):42-45.
[5] 楊震,賴英旭,段立娟,等.基于上下文重構(gòu)的短文本情感極性判別研究[J].自動(dòng)化學(xué)報(bào),2012,38(1):55-67.
[6] 黃九鳴,吳泉源,劉春陽,等.短文本信息流的無監(jiān)督會(huì)話抽取技術(shù)[J].軟件學(xué)報(bào),2012,23(4):735-747.
[7] 劉勘,袁蘊(yùn)英.基于自動(dòng)編碼器的短文本特征提取及聚類研究[J].北京大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,51(2):282-288.
[8] 胡佳妮,郭軍,鄧偉洪,等.基于短文本的獨(dú)立語義特征抽取算法[J].通信學(xué)報(bào),2007,28(12):121-124.
[9] 馬雯雯,鄧一貴.新的短文本特征權(quán)重計(jì)算方法[J].計(jì)算機(jī)應(yīng)用,2013,33(8):2280-2282,2292.
[10] 張志飛,苗奪謙,高燦.基于LDA主題模型的短文本分類方法[J].計(jì)算機(jī)應(yīng)用,2013,33(6):1587-1590.
[11] 呂超鎮(zhèn),姬東鴻,吳飛飛.基于LDA特征擴(kuò)展的短文本分類[J].計(jì)算機(jī)工程與應(yīng)用,2015,51(4):123-127.
[12] 游彬,嚴(yán)岳松,孫英閣,等.基于HowNet的信息量計(jì)算語義相似度算法[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2013,22(1):129-133.
[13] YOU Bin, LIU Xiao-ran, LI Ning, et al. Using Information Content to Evaluate Semantic Similarity on HowNet[C]//2012 International Conference on Computational Intelligence and Security(ICCIS 2012), Guangzhou China,2012:142-145.
[14] 吳克啟,孫江磊,王忠思.基于本體的文本信息價(jià)值評估研究[J].艦船電子工程,2014,34(6):60-63.
[15] 王海,程立斌.層次分析法在軍事情報(bào)質(zhì)量評估中的應(yīng)用[J].情報(bào)方法,2005,12:25-28.
[16] 余力,岳振軍.軍事情報(bào)價(jià)值評估方法[J].火力與指揮控制,2011,36(5):173-176.
[17] 劉姝麗,韓中庚,谷玉.軍事情報(bào)信息價(jià)值的度量方法[J].軍事運(yùn)籌與系統(tǒng)工程,2006,20(4):52-56.
[18] 伍曉華,林春應(yīng).對軍事情報(bào)價(jià)值度量的一種方法[J].情報(bào)方法,2006,2:65-68.
[19] N. Seco, T. Veale, J. Hayes. An intrinsic information content metric for semantic similarity in WordNet[C]//Proceedings of ECAI,2004:1089-1090.
中圖分類號(hào)TP391.7
DOI:10.3969/j.issn.1672-9730.2016.01.030
作者簡介:章寧,女,工程師,研究方向:通信與信息系統(tǒng)、信息安全。
*收稿日期:2015年7月3日,修回日期:2015年8月24日