李揚,潘泉,楊濤
(西北工業大學自動化學院,710072,西安)
?
基于短文本情感分析的敏感信息識別
李揚,潘泉,楊濤
(西北工業大學自動化學院,710072,西安)
針對現有的敏感信息識別是基于敏感關鍵詞匹配方式判斷的,準確度不是很高,且具有較高的誤檢率等問題,提出了敏感關鍵詞與情感極性協同分析的敏感信息識別方法。在真實數據集上,利用監督學習的方式對微博的情感極性進行了度量,得到具體的情感極度,并將文本分為正情感極性和負情感極性兩類。通過定義色情、暴力、違禁、邪教、反動等5大類2 639個敏感關鍵詞和在數據集里面所呈現的Zipf分布特性,發現含有負情感極性的微博內容具有較高的敏感性,由此深入研究了敏感關鍵詞對情感極性的動力因素,構建了含有情感極性因素的敏感度模型,提出了敏感信息的判別方法,敏感信息檢測的準確率由傳統方法的31.25%提高到了58.75%,召回率則由95%提升到96%,綜合指標F值從47.0%提升到了72.3%。
社交網絡;情感分析;敏感信息
近幾年來,微博的出現和發展給信息發布、傳播方式帶來了巨大變革,以往大量的信息接受者一躍成為信息的發布者。數以億計的微博用戶每天發布大量微博,或記錄生活,或表達看法,或僅僅宣泄一種情緒。網絡環境復雜,如何有效識別色情、暴力等敏感信息的文本對構建和諧社會具有重要意義。當前微博敏感信息的識別及過濾多以敏感關鍵詞進行,這種方式將所有含有敏感關鍵詞的內容統統濾除,具有一定的局限性。在社交網絡平臺上,用戶的信息內容蘊含一定的情感,有些是傳達積極高興的心情,而有些則是表達消極郁悶的情緒。目前,可以通過分類的方式對微博進行情感分析。
情感分析已經成為一個重要的研究領域,對中文文本的情感分析也日漸成熟[1-2]。情感分析主要是研究用戶對某一商品、事件、話題、服務或者組織所流露出的情感、評價、態度及情緒等[3]。就文本的情感分析而言,一般涉及3個問題:極性分類(polarity classification),分為積極的和消極的兩個極性;主客觀分類(subjective/objective classification);情感強度分類(rating inference)等[3-4]。其中對文本的極性分類最為重要,通過分析用戶廣播的某種狀態信息或者評論信息,來判斷文本內容是正面的贊賞還是負面的批判[5-6],是輿情分析的重要研究內容。情感分析的方法主要分為有監督的學習訓練模型、無監督模型及半監督方式,文獻[7-12]利用深度學習的思想進行情感學習訓練,很大程度上去除了特征向量的選取,文獻[7]利用tree-bank的方式對句子的結構進行描述,并利用RNTN的方式對句子的情感進行了分析,文獻[12]直接利用音形文字的字符作為輸入,從根本上去除了分析過程中的分詞、詞干化等步驟,降低了信息的丟失率,提高了情感分析的準確率。
然而,只分析微博文本的情感是不夠的,如何表示用戶發表信息的敏感性及煽動性是輿情分析關注的重點[5,13-14]。例如,2011年爆發的埃及革命就是不法分子利用Twitter、Facebook等社交網絡媒體大肆造謠,煽動民意,傳播惡意信息并組織犯罪活動,在社交媒體的幫助下,騷亂被極度放大并快速演變[15]。信息敏感性對事件有很強的推動性,因此對社交媒體信息的敏感性及情感極性態勢的掌握有重要的意義。
本文主要針對傳統敏感信息檢測誤檢率和漏檢率高的問題,提出了基于情感分析的敏感度模型,以增強敏感信息的檢測。首先,將敏感信息分類,根據與敏感相關的先驗信息,諸如“作弊器”、“統一教”等詞,將其分為色情(518個)、違禁品(391個)、不文明用語(122個)、邪教(209個)及政治(1 399個)等5大類敏感關鍵詞,并構建敏感關鍵詞種子庫;然后,介紹了敏感關鍵詞在實際數據中具有的分布特性,對微博短文本進行了情感極性分析,介紹了敏感關鍵詞對情感極性的動力因素,并在此基礎上構建了DS(degree of sensitive)模型,分析驗證了DS模型的有效性;最后,利用DS模型對微博的敏感程度做了評測及效果展示。
因為含有敏感關鍵詞并不意味著真正含有敏感信息,所以只利用敏感關鍵詞對敏感信息進行過濾欠缺一定的合理性。隨機提取2014年3月1日到4月13日的150 386條微博進行關鍵字抽取,并將其分為含有敏感關鍵詞和不含關鍵詞兩類,給出了微博文本含有敏感關鍵詞個數的分布,如圖1所示。

圖1 微博含有敏感關鍵詞個數的分布
由圖1可得,不含敏感關鍵詞的微博占97.29%,只有2.71%的微博文本含有敏感關鍵詞,而這2.71%的微博中,約79.80%只含有一個敏感關鍵詞,20.20%含有兩個以上的敏感關鍵詞,呈現出Zipf分布模式,對這79.80%的微博進行分析,發現此類微博約60%并沒有包含敏感信息,只具有敏感關鍵詞。
文獻[3]提出了對文本情感極性分類比較有效的方法,一般通過最優化的方式解決,即

‖Cw-y‖2
(1)
式中:C為訓練的樣本數據;w為學習到的特征系數;y為樣本數據的情感標簽。
情感分析是一個分類問題,通過抽取文本情感特征,并構造相應的特征向量,然后通過有監督或無監督的方法進行訓練及參數學習,得到一個表現優良的分類器,進而實現情感的基本分類[3,16]。一般可將情感簡單分為正極性及負極性情感兩類,而Dong等通過構建詞語級的情感語料庫,并利用快速貝葉斯方法構建了情感分類器,將微博情感細分為憤怒、厭惡、高興和低落等[2]。
本文研究的是如何在情感基礎上對微博的敏感性進行定義、分析,使用有監督的方法,例如支持向量機、樸素貝葉斯等對文本的情感進行分類,文獻[17]驗證了支持向量機在分類問題上具有很好的效果。對含有不同敏感關鍵詞的微博進行情感分類,訓練情感模型的數據是從提取的微博當中選取具有明顯情感傾向符號的微博,共33 211條,其中含有正情感符號的24 373條,含有負情感符號的8 838條,根據含有表情符號進行標準情感分類,在此基礎上計算每條微博的情感得分,計算得到的得分區間為(-3,3),如圖2所示。

圖2 情感得分分布
在同等比例情況下,含有敏感關鍵詞較不含敏感關鍵詞微博的情感極度得分的值要低,說明敏感關鍵詞對文本的情感極度有內在動力因素,使含有敏感關鍵詞微博的情感極度得分偏低。
3.1 DS模型分析
假設微博的敏感性與其含有的敏感關鍵詞個數有正相關性,即微博含有敏感關鍵詞個數越多,表達的敏感程度(以下簡稱敏感度)S就越大。
為了定量表達敏感關鍵詞與情感極度之間的關系,定義全局敏感關鍵詞頻
(2)
式中:n為微博總條數;si為一條微博中敏感關鍵詞的個數;wi為該條微博中總詞數。
微博的情感極度、正(負)平均情感極度為
D=LP
(3)
(4)
式中:P為該標簽得分;m為正(負)情感極性微博數;L為模型預測出的情感標簽,L∈{-1,1},當L=1時,微博的情感極度屬于正情感極度DP,而當L=-1時,則屬于負情感極度DN。
相關關系是一種非確定性的關系,相關系數是研究變量之間線性相關程度的量。因此,可根據相關系數來定性分析出兩者之間的關系,計算公式為
(5)


圖與敏感關鍵詞頻的相關性
由圖3可知,DP與敏感關鍵詞頻之間一直處于低度相關的狀態,而DN與敏感關鍵詞頻之間的相關度一直處于0.75左右,其相關度明顯高于DP與敏感關鍵詞頻之間的相關度,定量證明了微博敏感度S與情感極度D之間的關系,即負情感極性的微博出現敏感關鍵詞的可能性大于正情感極性的微博,定義敏感度模型
S=Ptfs-5
(6)
(7)
式中:t為敏感關鍵詞底數,本文取t=2;s為敏感關鍵詞的個數;fs為敏感關鍵詞頻,假定文本中最多出現的敏感關鍵詞不超過5個。當L=-1時,fs=s;當L=1時,fs=s/3。通過式(7),降低了DP對S的貢獻,而加強了DN對S的貢獻,使得S與DN之間的相關性加強,即保證了敏感關鍵詞對負情感極性微博的動力更強。
3.2 DS模型的驗證


圖和S之間的關系曲線
對于一個事件集合{A,B},其中A的發生頻次為F0,B的發生頻次為F1,則事件A的支持度函數為
(8)
條件概率定義為
conf{A→B}=supp({A,B})/supp({A})
(9)
由式(8)可計算出3月份每天微博S>0.05、DP>0.5時的支持度,結果如圖5所示。

圖5 DN>0.5、S>0.05時的支持度曲線
由圖5可看出,兩條曲線的走勢幾乎相同,說明負情感極性的微博數量越多,越有可能出現敏感性的微博。在一定S閾值范圍內情感極性的條件概率可得到兩條曲線之間的條件概率,結果如圖6所示。

圖6 S>0.05、DN>0.5時的概率分布
由圖6可知,S>0.05、DN>0.5時的條件概率一般維持在0.65左右,敏感性微博和負情感極性微博同時出現的概率較大。因此,在海量微博文本中定位敏感型微博時,可先利用情感極性做初步篩選,從而可縮小搜尋范圍。
3.3 實例分析
為了能夠真實展示網上微博內容的情感及S的分布情況,利用敏感關鍵詞庫對,對2014年3月1日至3月31日之間的微博進行了S與D的計算,關鍵詞匹配結果是:準確率為31.25%,召回率為95%,綜合指標F值為47.0%;DS模型結果:準確率為58.75%,召回率為96%,F值為72.3%??梢园l現,DS模型在敏感信息的查找方面較敏感關鍵詞匹配的方式有較好的效果,在損失較小召回率的情況下,能夠有效提高準確率,大大提高了敏感信息的檢測效率,結果如圖7所示。

圖7 S和D的時間序列圖
由圖7可知,微博平臺上的正情感極性的微博要多于負情感極性的(0軸上方為積極情感部分),由此可以推斷該月微博平臺上的正能量成分較多,大部分微博的S值處在0.03以下。分析這些微博可知,有些雖然也可能含有一個敏感關鍵詞,但是所述內容很正常,而S值在0.03以上的微博的內容或多或少都含一定的敏感信息,例如“這個作弊神器真專業”,其S值為0.035,具有一定的敏感性,諸如“開山隊辛苦的用炸藥開山”的S值為0.023,雖然含有“炸藥”這一敏感關鍵詞,但整句話的內容卻是正常的。因此,可通過經驗設定敏感閾值,從而能有效觀察到一個月內敏感性微博的分布。
本文定量分析了微博敏感性與其情感極度之間的關系,得出負情感極性的微博更易含敏感信息的結論,并且分析了敏感關鍵詞的個數在微博中的Zipf分布特性,完成了DS模型的構建,并對模型進行了驗證。通過實例分析,該模型使得敏感信息的識別與檢測更加智能有效,利用負情感極性微博易含敏感信息的特點,能在海量數據中快速進行敏感信息篩除。與傳統敏感關鍵詞匹配的檢測方法相比,本文方法在檢測的準確率、召回率及F值方面均有所提升。
[1] WU K, ZHANG B, ZHENG J, et al. Sentiment classification for topical Chinese microblog based on sentences’ relations [C]∥The IEEE International Conference on Cyber, Physical and Social Computing. Piscataway, NJ, USA: IEEE, 2013: 2221-2225.
[2] ZHAO J, DONG L, WU J, et al. Moodlens: an emoticon-based sentiment analysis system for Chinese Tweets [C]∥Proceedings of the 18th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, USA: ACM, 2012: 1528-1531.
[3] LIU B. Sentiment analysis and opinion mining [J]. Synthesis Lectures on Human Language Technologies, 2012, 5(1): 1-167.
[4] WANG G, SUN J, MA J, et al. Sentiment classification: the contribution of ensemble learning [J]. Decision Support Systems, 2014, 57(1): 77-93.
[5] 張魯民, 賈焰, 周斌. 一種基于情感符號的在線突發事件檢測方法 [J]. 計算機學報, 2013, 36(8): 1659-1667. ZHANG Lumin, JIA Yan, ZHOU Bin. Online bursty events detection based on emoticons [J]. Chinese Journal of Computers, 2013, 36(8): 1659-1667.
[6] CAO J, ZENG K, WANG H, et al. Web-based traffic sentiment analysis: methods and applications [J]. IEEE Transactions on Intelligent Transportation Systems, 2014, 15(2): 844-853.
[7] SOCHER R, PERELYGIN A, WU J, et al. Recursive deep models for semantic compositionality over a sentiment treebank [C]∥Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing. Seattle, Washington, USA: Association for Computational Linguistics, 2013: 1631-1642.
[8] SANTOS C, GATTIT M. Deep convolutional neural networks for sentiment analysis of short texts [C]∥Proceedings of the 25th International Conference on Computational Linguistics. Dublin, Ireland: Coling, 2014: 69-72.
[9] LAI S, XU L, LIU K, et al. Recurrent convolutional neural networks for text classification [C]∥Proceedings of the 29th AAAI Conference on Artificial Intelligence. Menlo Park, California, USA: AAAI, 2015: 2267-2273.
[10]ZHOU C, SUN C, LIU Z, et al. A C-LSTM neural network for text classification [EB/OL]. [2016-02-20]. http: ∥arxiv. org/abs/1511.08630.
[11]WANG P, XU B, XU J, et al. Semantic expansion using word embedding clustering and convolutional neural network for improving short text classification [J]. Neurocomputing, 2015, 174: 806-814.
[12]ZHANG X, ZHAO J, LECUN Y. Character-level convolutional networks for text classification [EB/OL]. [2016-02-20]. http: ∥arxiv. org/abs/1509. 01626.
[13]WANG X, ZHU F, JIANG J, et al. Real time event detection in Twitter [J]. Lecture Notes in Computer Science, 2013, 7923: 502-513.
[14]WENG J S, YAO Y X, LEONARDI E, et al. Event detection in Twitter [C]∥Proceedings of the 5th International AAAI Conference on Weblogs and Social Media. Menlo Park, California, USA: AAAI, 2011: 401-408.
[15]ZHOU Donghao, HAN Wenbao. Diffrank: a novel algorithm for information diffusion detection in social networks [J]. Chinese Journal of Computer, 2014, 37(4): 884-892.
[16]BOLLEN J, PEPE A, MAO H. Modeling public mood and emotion: Twitter sentiment and socio-economic phenomena [C]∥Proceedings of the Fifth International AAAI Conference on Weblogs and Social Media(ICWSM 2011). Menlo Park, California, USA: AAAI, 2011: 450-453.
[17]CORTES C, VAPNIK V. Support-vector networks [J]. Machine Learning, 1995, 20(3): 273-297.
(編輯 趙煒)
Sensitive Information Recognition Based on Short Text Sentiment Analysis
LI Yang,PAN Quan,YANG Tao
(School of Automation, Northwestern Polytechnical University, Xi’an 710072, China)
The existing sensitive information recognition is based on the sensitive keyword matching method, so the accuracy is low and the miss rate is high. We presented a collaborative method by using the sensitive keywords and sentiment polarities to identify the sensitive information. In the real dataset, we used the supervised way to measure the sentiment polarities of the blogs, and divided the blogs into two categories, namely the blogs are with positive or negative sentiment polarities. Five kinds of 2 639 sensitive keywords, including pornography, violence, illegality, cult and reactionary, were defined, and it was found that according to the Zipf distribution of these words in the dataset, the contents of blogs with negative sentiment polarities exhibited high sensitivities. Then we studied the contribution of the sensitive keywords to the sentiment polarity, and constructed the model of sensitivity degree that contains the sentiment polarity factor. Based on this, we proposed a new way to identify the sensitive information, which makes the accuracy and miss rate improved from 31.25% to 58.75% and from 95% to 96%, respectively, and theF-measure was improved from 47.0%to 72.3%.
social networks; sentiment analysis; sensitive information
2015-12-23。 作者簡介:李揚(1990—),男,博士生;楊濤(通信作者),男,副教授。 基金項目:國家自然科學青年基金資助項目(61402373);中國博士后科學基金面上資助項目(2014M562419)。
10.7652/xjtuxb201609013
TP271
A
0253-987X(2016)09-0080-05