劉正,黃震華(同濟大學電子與信息工程學院,上海 201804)
?
基于多項式貝葉斯分類模型的短文本多情感傾向分析及實現
劉正,黃震華
(同濟大學電子與信息工程學院,上海201804)
摘要:
關鍵詞:
文本情感分析一直是機器擬人交流的一個重點研究課題之一,隨著互聯網的普及,人們已經習慣于利用智能終端設備發表各種言論和記錄生活所見所聞、情感狀況等,通過對文字進行情感分析可以獲得其文本中潛在的情感傾向。
以往的情感建模的研究基本主要都是針對情感的正負向極性的情感建模研究,實際人機交流過程中,正負情感的辨別并不能很好地說明人們所想表達的深層含義。
基于SVM、KNN等方法進行二項性建模分析是通常學術界工業界的分析方法,在這幾年的研究發展過程中,已經取得了不錯的成績了。
但人的情感是具有豐富性、多樣性等特點的,二項性分析僅僅在文本情感分析中起著分析先鋒的作用,在實際生產中應用較為局限。
為了使計算機能更好地和人溝通交流,本文主要針對短文本的多情感傾向性進行建模分析。
本文以貝葉斯理論為基礎,提出了基于貝葉斯的多情感模型。
1.1貝葉斯分類算法
根據貝葉斯理論,貝葉斯文本分類算法是一個經典的文本分類算法,其在預測一個未知類別的可能屬性中有著較為詳細的理論和實踐基礎。通常我們要求在事件B發生的條件下事件A發生的概率時,可以通過條件概率推導出:

讓其一般化我們可以得到,其中集合{Ai}表示事件集合里的部分集合:

針對文本分類主要存在著三種不同的貝葉斯模型:高斯模型、多變量的伯努利模型和多項式模型,根據以往的學者的研究經驗,本文選取了后者,即多項式模型進行實驗。
該多項式貝葉斯分類模型算法的通用公式如下式:

其中Nki是wk類別ci的所有文檔中出現的總次數,|V|是訓練數據集的總單詞數。
1.2文本狀態空間
一般而言,在情感分析領域,文本的情感分析中,字詞往往帶有情感權重,情感詞的權重往往會影響整體詞匯的情感傾向辨別,例如:“很高興”和“很不高興”,這兩個短語中,“很”字加強了情感權重,而“不”字將情感極性進行了反轉,故而詞向量的表示關系到了最終情感分析的結果。
本文通過對短文本分詞,構建文本結構化向量,即文本的狀態空間來描述文本事實,將其定義為一組有序集合[q0,q1,…,qr]T,其中每個元素qi(i=0,1,…,r)為狀態分變量。
狀態關系是用來定義狀態之間存在的某種過程性函數組f0,f1,…,ft,式中每個元素fi(i=0,1,…,t)為轉換過程的分函數。
則這里可將文本結構化為一個狀態關系圖,該關系圖可以由一個二元組(S,O)所構成的有向圖表示,其中:
S為所有“詞”的狀態空間集合S0,S1,…,Sn,其中Si=[q0,q1,…,qr]T
O為所有狀態關系過程性函數組的集合O0,O1,…,Ok,其中Oi= f0,f1,…,ft,如圖1所示:

圖1 狀態空間示例圖
從示例圖中,可以看出S0與S1,S2,S3存在著O0,O1,O2的狀態關系,S2與S1,S4存在著狀態關系,等等,在此種狀態空間表示的情況下,通過計算詞與詞之間的狀態關系,得到狀態空間表示圖。
根據文獻[1],本文將詞與詞之間的依存關系窗口定義為前后三個窗格,列如圖1中,S4就與S1,S2,S3存在著關系,但是關系圖中O4的影響則應該是比較小的。
結合上節的多項式貝葉斯算法,其實

通過求解狀態空間最終獲得各個參數向量的綜合評定結果。
1.3程序算法
多項式貝葉斯分類模型的訓練算法如下所示:
1 //C,類別集合,D,用于訓練的文本文件集合
2 TrainMultinomialNB(C,D):
3//統計訓練樣本包含多少種單詞
4V←ExtractVocabulary(D)
5//類ci下單詞wik在訓練的文本文件集合中出現過的次數之和
6N←CountTokens(D)
7for c in C
8//計算類別ci下的單詞總數
9Nc←CountTokensInClass(D,c)
10prior[c]←Nc/N
11 //將類別ci下的文檔連接成一個大字符串
12textc←ConcatenateTextOfAllDocsInClass(D,c)
13for t in V
14 //計算類ci下單詞wi的出現次數
15ct←CountTokensOfTerm(textc,t)
16for t in V
17//計算P(wi|ci)
18condprob[t][c]←(Tct + 1)/(Sum(Tct)+ |V|)
19
return V,prior,condprob
狀態空間的帶權圖搜索算法的實現本文參考文獻[3]進行修改實現。
1.4訓練源數據
本文利用大連理工大學信息檢索研究室所做的標記的情感詞匯本體庫作為訓練樣本數據,數據文本示例如下表所示。
情感強度分為1,3,5,7,9五檔,9表示強度最大,1為強度最小。
該本體庫有21種情感分類,如表所示:

表1 情感詞匯本體庫示例

表2 情感詞匯本體庫情感分類表
經統計分析發現妒忌(NK)的詞匯過于稀少,其所占的概率權重極低,考慮到訓練結果的合理性,本文不對該種情感特種做訓練。
本實驗挑取了兩條微博做結果展示,所有結果都經過歸一化處理了,情感值在區間之間,值越大表示情感程度越強烈:
微博一[4]:為啥公共場合女生不能蹲一下?犯法了嗎?影響他人了嗎?既然沒有,那累了為啥不能蹲一下?蹲著也很好看啊,人家蹲一下都要被拍照發微博受批判指責人家沒教養,瘋了吧?沒經女生同意就拍人家發微博才沒教養好吧,這點事都要批判,智障。

圖2 微博一的情感結果展示

表3 微博一的情感結果
通過結果可以看出該條微博所主要隱含的三大類情感是失望、憤怒、羞。通過自然人對文字的理解大致也可以判斷出這三大類感情要素。
微博二[5]:【人生感悟】人生最悲哀的事情,就是你發現曾經一路上,和你一起的人,漸漸地就離你遠去了。也許是因為結婚生子,也許是因為勞累不堪負荷,也許是因為理想漸異,也許是因為反目成仇。但是你還是要繼續孤獨地走下去。在你想要放棄的那一刻,想想為什么當初堅持走到了這里。[春暖花開]
通過對該條微博文本的計算,主要包含的三大類情感要素為:贊揚、相信、快樂,這和人的理解大致吻合。
本文給出了多情感分析的一種實現方法,該算法結合多項式貝葉斯分類模型算法和文本狀態空間模型,對文本多情感分析做了研究,具有一定的實際意義。通過對文本數據的訓練研究,使得計算結果更貼切于人的理解,遺憾的是現階段對文本情感領域的研究基本停留在二項分析,沒有過多的算法研究可以對比。

圖3 微博二的情感展示圖

表4 微博二的情感結果
參考文獻:
[1]趙軍,黃昌寧.漢語基本名詞短語結構分析模型.計算機學報,1999,22(2):141-146.
[2]維基百科.隱馬爾可夫模型[EB/OL].[2015-03-08].https://zh.wikipedia.org/wiki/隱馬爾可夫模型.
[3]衷路生,宋執環.局部加權組合狀態空間系統正交梯度辨識[J].控制與決策,2008,23(8):879-882,887.DOI:10.3321/j.issn:1001-0920.2008.08.007.
[4]http://weibo.com/1220291284/DjMMOB6ca
[5]http://weibo.com/1879549382/Dls8SiDlO
Analysis and Simulation of Multi-Emotion in Short Text Based on Bayes Multinomial Model
LIU Zheng,HUANG Zhen-hua
(School of Electronics and Information,Tongji University,Shanghai 201804)
Abstract:
Nowadays,text sentiment classification is mainly for text sentiment propensity analysis,positive and negative emotion classification.Studies the text short text in the field of multi-sentiment analysis work,through the establishment of a multinomial model of Bayes classifier and the state-space representation,to build and train the entire model.Experimental results show that emotional text classification has certain rationality in actual results,analysis results can be obtained through a variety of emotional analysis algorithm.
Keywords:
目前文本情感分類主要是針對文本情感的傾向性分析,主要研究正負情感的分類。主要研究短文本領域的文本多情感分析工作,通過建立多項式貝葉斯分類模型以及結合狀態空間,構建并訓練整個分析模型。實驗結果表明,文本的情感分類在實際結果中具有一定的合理性,可以通過算法的分析得出多種情感的分析結果。
多項式貝葉斯分類模型;狀態空間模型;多情感分析
基金項目:
國家自然科學基金(No.71171148)
文章編號:1007-1423(2016)14-0039-05
DOI:10.3969/j.issn.1007-1423.2016.14.008
作者簡介:
劉正(1990-),男,浙江湖州人,碩士研究生,研究方向為文本數據挖掘分析
黃震華(1980-),男,上海人,博士,副教授,研究方向為信息檢索、不確定數據處理、數據挖掘
收稿日期:2016-03-21修稿日期:2016-04-30
Bayes Multinomial Model;State-Space Representation;Multi-Emotion Analysis