袁 磊
(合肥工業大學 計算機與信息學院,安徽 合肥 230009)
基于改進CHI特征選擇的情感文本分類研究*
袁 磊
(合肥工業大學 計算機與信息學院,安徽 合肥 230009)
為了提高情感文本分類的準確率,對英文情感文本不同的預處理方式進行了研究,同時提出了一種改進的卡方統計量(CHI)特征提取算法。卡方統計量是一種有效的特征選擇方法,但分析發現存在負相關現象和傾向于選擇低頻特征詞的問題。為了克服不足之處,在考慮到詞頻、集中度和分散度等因素的基礎上,考慮文本的長短不均衡和特征詞分布,對詞頻進行歸一化,提出了一種改進的卡方統計量特征提取算法。利用經典樸素貝葉斯和支持向量機分類算法在均衡語料、非均衡語料和混合長短文本語料上實驗,實驗結果表明:新的方法提高了情感文本分類的準確率。
情感分類; 預處理; 卡方統計量; 特征選擇
互聯網的普及和用戶的增加極大促進了電子商務的發展。和傳統的購物不同,由于地域的局限性,用戶缺少線下的體驗,對商品的質量和賣家的情況不是很了解,更傾向于先看網絡評論然后再做購買決策。同時生產廠商為了解用戶需求,提高產品質量,需要了解用戶對產品的購買喜好和使用后的評價意見,過去通常通過社會調查或人工手段分析這些信息,然而隨著互聯網信息爆發性地增長,傳統人工的手段已經無法滿足快速變化的市場需求。因此,如何快速自動地識別龐大的評價數據其中表達的對人物、事件、產品等的情感信息,判斷用戶的情感傾向,獲取需要的有用信息,已成為當前的迫切需求。
文本情感分析就是在這樣的背景下應運而生。與傳統的文本信息處理不同,文本情感分析所關注的是文本所體現出作者的情感信息,而不是文本描述表示的內容。文本情感分析又稱為意見挖掘,是指通過計算機技術對帶有情感色彩的文本進行主客觀性分析處理,歸納和推理得到文本的情感傾向性的過程[1]。
現有的文本情感分析工作主要可以主要分為兩個方向,基于情感知識的方法和基于機器學習的方法[2]。前者主要是依靠一些已有的情感詞典或領域詞典以及主觀文本中帶有情感極性的組合評價單元進行計算,來獲取情感文本的情感極性;后者主要是使用機器學習的方法,對文本大量特征選擇和訓練模型 ,然后根據訓練出的模型完成文本分類工作。本文采用機器學習的方法進行文本情感分類的研究。
文本情感分類前,需要將文本表示成計算機可以識別的方式。目前,文本文檔通常采用向量空間模型[2](VSM), VSM中一個文檔有多維的向量構成,每個向量是一個特征項,即文本中的單詞或短語。如果直接將文本中所有的詞作為特征項,會導致文本的空間向量維度過大,造成文本稀疏并且包含大量的噪聲。合理的特征選擇,不僅減少了分類時間,而且去除冗余的信息,提高了分類精度,所以特征選擇對文本情感分類至關重要。常用的特征選擇算法有:文檔頻率(document frequency,DF),信息增益(information gain,IG),互信息(mutual information,MI ),卡方統計量(Chi-square statistic,CHI),期望交叉熵( expected cross entropy,ECE)等。
許多學者近年來傾向于研究特征選擇問題,李杰[3]對語音情感識別當中的特征進行了概述;程廣濤[4]對圖像領域的HOG特征進行了研究;Yang教授[5]針對文本分類問題,在分析和比較了IG,DF,MI和 CHI等特征選擇方法后,得出IG 和CHI方法分類效果相對較好的結論。IG相對于其他方法計算量比較大,本文將主要對卡方統計量CHI進行研究和改進。熊忠陽[6]分析了卡方統計量的不足,并提出將頻度、集中度、分散度應用到卡方統計方法上,對卡方統計進行改進;裴英博[7]提出了一種改進的CHI統計權重計算方法,引入了新的頻度、相關度和分散度3個計算因子,提高了CHI統計方法在不均衡數據集上的表現;王光[8]集合CHI與IG兩種算法的優點,得到一種集合特征選擇方法CCIF;邱云飛[9]在原有的卡方特征選擇的方法上通過增加3個調節參數以調節模型中特征項的權重,使得新的特征加權模型傾向于選擇集中分布在某一類里的特征項;徐明[10]通過對微博文本特征信息的分析與研究,改進卡方統計量使其適合微博的特征提取;肖雪[11]提出最低頻CHI選擇算法,彌補卡方特征選擇對低頻詞的偏袒;Jin[12]將詞頻和詞的分布區間引入到CHI特征選擇算法,提高了文本分類的宏平均和微平均。
前述對卡方統計量改進都是對傳統文本分類的改進,本文研究了不同預處理對英文評論語料情感分類的影響,同時研究傳統卡方統計量特征提取的方法對情感分類結果的影響,并且分析卡方統計量的不足,在考慮到詞頻、集中度和分散度等因素的基礎上,考慮文本的長短不均衡和特征詞分布,對詞頻進行歸一化,提出基于改進的卡方統計量特征選擇算法。最后,用樸素貝葉斯和支持向量機在均衡語料、非均衡語料、混合長度語料上分別進行情感分類實驗,實驗結果顯示,改進的特征提取方法提高了分類的效果。
2.1 卡方統計量
卡方統計量衡量的是特征項t和類別ci之間的相關程度。假設特征t和類別ci之間符合具有一階自由度的卡方分布,特征t對于類ci的卡方值越高,攜帶的類別信息越多,其與該類之間的相關性越大。特征項t對于文檔類別ci的CHI 值算法式(1)如下
(1)
式中 N=A+B+C+D;ci為某一特定類別;t為特定的特征項;A為屬于類別ci且包含特征項t的文檔頻數;B為不屬于類別ci但包含特征項t的文檔頻數;C為屬于類別ci但不包含特征項 t的文檔頻數;D為既不屬于類別ci也不包含特征項t的文檔頻數;N為訓練語料中的文檔總數。
式(1)的結果反映了特征項t和文檔類別ci之間的相關程度。統計值越大,特征項t和文檔類別越相關;當CHI(t,ci)=0,表示特征項t和文檔類別ci是相互獨立的。
2.2 卡方統計量分析和改進
Yang[5]的研究表明,CHI特征選擇方法相對于傳統的特征選擇方法效果要好,但仍然存在一些問題:
1)卡方統計量衡量的是特征項t和類別ci之間的相關程度,特征項對于某類的卡方值越高,其與該類之間的相關性越大,攜帶的類別信息越多。分析式(1),當AD-BC>0時,說明特征項t和類別ci正相關,即特征項可能出現在類別ci中,CHI統計量越大,說明特征項t和類別ci的相關程度越大,可以作為特征選擇的特征項;當AD-BC<0時,說明類別和特征項呈負相關,此時計算出的CHI統計量的值越大,反而特征項t和類別成負相關程度越大。文獻[13]指出,文本分類中,特征的重要性主要是由正相關因素決定的,此時的特征項t,不適合保留。所以,當AD-BC<0時,將此時特征項t的CHI置為0,在計算中不予考慮。
2)卡方統計方法只考慮了特征項出現的文檔頻數,而沒有考慮到詞頻的影響,夸大了低頻詞的作用。如果一個特征項t只在某一類的少量文檔中頻繁出現,則計算出來的卡方統計量的值比較小,有可能在特征選擇的時候被排除掉。但該特征項可能在某一類中具有很好的區分性。
針對此問題,將特征項的頻度考慮到卡方統計量的計算當中,但以前的工作[5~11]沒有考慮到每篇文檔長度的不一致,實際的評論文本中,文本的長度差異可能很大。為此考慮文檔的長度,提出對每篇文檔的詞頻進行歸一化方法。設訓練文本中類別有類別C={C1,C2,…,Cm};訓練集中類別Ci中有文本Ci={di1,di2…din};特征項t在文本dij(1≤j≤n)出現的頻度為tfij;dfij表示文本dij(1≤j≤n)中特征詞的個數;Ni表示類別Ci的文檔總數。則特征項t在類別Ci中出現的歸一化長度頻度 (normalizedlengthfrequency,NLF)表達式如下
(2)
在一個類中不僅詞頻大小,還考慮詞頻的分布,一個特征項t在類別ci中的分布越均勻比集中分布要更有價值,更值得保留。提出詞頻分布(frequencydistribution,FD),采用式(5)衡量分布
(3)
式中 α為很小的一個數,實驗中將α設為0.001。
FD反映特征項t在類別中的詞頻分布,FD越小,說明特征項詞頻在類別ci分布越均勻,特征更有價值。綜合考慮詞頻在文本中的歸一化詞頻和詞在類中的分布,形成歸一化詞頻 (normalizedfrequency,NF)表達為
(4)
引入此公式主要解決卡方統計量只考慮文本的頻數,而沒有考慮詞頻的問題。同時考慮到實際當中文本長度的不同和FD,對詞頻進行了歸一化的處理,通過式(4)計算得到特征t對類ci的NF。
3)為了使改進的算法適合不均衡情感文本分類,將文獻[8]中闡述的集中度和分散度引入到卡方特征計算中。集中度 (concentrationinformation,CI)越大說明特征越集中在某一類當中,特征項越有價值。分散度 (distributioninformation,DI)表示一個特征項是否在一個類中均勻分布,DI越大表示該特征項在一個類中的分布越廣。假設A表示含有此特征t的類ci的文檔數,B表示含有特征項t,但不屬于ci類的文檔數,C表示不含有特征項t的類ci文檔數。集中度CI和分散度DI分別表示為
(5)
(6)
改進后的算法,考慮到詞頻和FD,更加傾向于選擇特征詞出現的NF多,且均勻分布在一個類的特征,同時去對負相關的情況進行了處理,改進后的詞頻歸一化卡方統計量(normalizedfrequencyChi-squarestatistic,NF-CHI)特征提取算法,其計算式如下
(7)
3.1 實驗數據設置與流程
實驗數據與工具:對于中文文本分類存在分詞問題,分詞的準確率會影響分類的結果,而英文一個單詞就可以表示一個特征項,不會因為分詞對文本分類的結果造成影響,所以選擇英文電影評論語料。選擇斯坦福學者采集的英文電影評論語料[15],其中包含12 500個正向情感語料,12 500個負向情感語料。
情感分類一般包括預處理、特征選擇、特征表示、特征加權、分類訓練和分類結果衡量。對英文文本進行預處理,包括去除停詞、詞形還原(lemmatization)和詞根還原(stemming)。詞形還原是把一個任何形式的語言詞匯還原為一般形式(能表達完整語義),例如將“drove”處理為“drive”,在根據停詞詞典去除停詞;詞根還原指抽取詞的詞干或詞根形式,例如將“effective”處理為“effect”,本文將對預處理的方式進行研究,找到最佳的預處理方式。
進行特征選擇,采用傳統的卡方特征統計量(CHI)與本文提出的NF-CHI特征選擇算法。本文使用文本分類中常用的TF-IDF權重算法計算向量中各特征詞的權重值。
本文采用Weka3.6數據挖掘開源工具進行文本分類驗證,輸入各文檔的特征權重值文件。分別采用樸素貝葉斯 (naive Bayes,NB) 算法和支持向量機(SVM)算法進行分類實驗。在平臺的設置中,采用十折交叉驗證,即將數據集分成10份,輪流將其中的9份作為訓練語料,1份作為測試語料,最后輸出平均得到的結果。
3.2 實驗效果評價標準
文本分類的性能評價指標主要是召回率R準確率P和F值(F1-measure)。
假定:類別ci的分類結果中,a為分類器將輸入文本正確地分類到類別的個數,b為分類器將輸入文本錯誤地分到了某個類別的個數,c為分類器將輸入文本錯誤地排除在某個類別之外的個數。具體公式如下

(8)

(9)

(10)
3.3 實驗結果與分析
實驗1,不同預處理對文本分類結果的影響,對英文文本的預處理包括去停詞,詞形還原,詞根還原。首先定義以下4個數據集:數據集DN0,原始語料不進行任何處理;數據集DN1,在數據集DN0基礎上進行詞形還原;數據集DN2,在數據集DN1基礎上進行去除停詞操作;數據集DN3,在數據集DN2基礎上進行詞根還原。從語料庫中選擇2 000篇正向語料,2 000篇負向語料,采用CHI提取400維特征,采用TF-IDF權重算法加權,分別SVM進行分類,其準確率見表1。

表1 不同預處理SVM分類器下的準確率
從表1中可以看出:采用DN3的數據集的準確率最高,即對數據集進行詞形還原、去除停詞和詞根還原,后面的實驗將采用此方案對實驗進行預處理。
實驗2,基于均衡語料的對比實驗。從語料庫中選擇2 000篇正向語料,2 000篇負向語料,分別采用的傳統的CHI和本文提出的NF-CHI特征提取算法提取400維特征,采用TF-IDF權重算法加權,分別SVM進行分類,結果如表2。

表2 400維度SVM分類器下兩種方法對比 %
根據表2可以看出:改進的NF-CHI特征提取算法相比傳統的CHI特征提取算法在提取400維特征時,改進的算法SVM分類的效果平均準確率P,平均召回率R和平均的F值都有一定的提高。說明改進的CHI提高了情感文本分類的準確率。
實驗3,改進的NF-CHI方法和傳統CHI的特征提取的方法在不同維度下對比實驗。選取正負情感語料各2 000篇,采用SVM分類器,分別在不同維度下進行改進的卡方特征提取算法和傳統的卡方特征提取算法進行實驗,最后進行準確率的比較,實驗結果如圖1。

圖1 不同維度下SVM分類器的準確率
從圖1看出:采用SVM分類時,采用NF-CHI特征選擇后的分類的準確率比傳統的CHI的準確率有小幅提升。在維度為800時提升最大,達到0.8 %,準確率最高達到90.6 %。說明改進的CHI提高了情感文本分類的準確率。
實驗4,基于不均衡語料的對比實驗。一般真實評論中正向的評論大于負向的語料,實驗選擇2 000篇正向語料。1 000篇負向語料,使用NB分類器分類,在不同維度下進行NF-CHI特征提取算法和傳統的CHI特征選擇進行比較。不同維度的F值見實驗結果圖2。

圖2 不均衡語料下NB分類器F值
從圖2中看出:改進后的特征選擇算法分類的F值普遍比傳統的CHI要高,開始隨著特征維度的增加F值提高,當維度達到300,出現過擬合現象,傳統CHI文本的分類F值反而下降;但改進的NF-CHI特征選擇后的分類的F值仍然上升,到700維的時候達到峰值,此時F值為84.7 %。通過圖2看出改進的NF-CHI的下降幅度更小,表明改進的算法更加穩定。維度在700維,本文提出的方法F值比傳統的CHI提高了1.4 %。實驗結果表明,本文提出的NF-CHI算法對非均衡語料同樣有效。
實驗5,基于混合長短文本語料的對比實驗。為了驗證改進NF-CHI特征提取算法對文本長短差異較大的語料同樣適用,分別從正負向情感的12 500篇語料庫中人工取出1 000篇長文本與1 000篇短文本,選取結果中其中長文本最短含有468單詞,短文本最多含有的單詞數為109個。使用SVM分類器進行分類,在不同特征選擇維度下進行分類準確率對比。實驗結果見圖3所示。

圖3 混合長短文本語料的SVM分類器的準確率
從圖3中看出:本文提出的NF-CHI特征提取算法進行分類的準確率普遍高于傳統的CHI, 隨著維度的增加,分類效果提高,在維度達到1 400時,本文提出的NF-CHI準確率達到88.8 %。實驗證明,本文提出的NF-CHI算法對混合長短文本的語料同樣有效。
本文對情感文本分類的研究中,針對英文不同的預處理方式進行研究,發現采用詞形還原,去除停詞,詞根還原的預處理方式準確率最高,同時針對CHI特征提取算法存在負相關現象以及傾向于選擇低頻特征詞的問題。本文考慮詞頻和詞頻的分布,提出一種NF,并過濾掉負相關的詞,引入集中度和分散度的因素,得到一種改進的卡方特征選擇算法。最后采用NB和SVM算法對均衡語料,非均衡語料和混合長短文本的語料上分別進行分類實驗,實驗結果表明:相比傳統的卡方特特征提取算法本文提出的方法提高了情感文本分類準確率。后續的工作中,對情感進行多層次的分類,并嘗試融入語義層次上的特征,進一步地提高情感分類的準確度。
[1] 楊立公,朱 儉,湯世平.文本情感分析綜述[J].計算機應用,2013,33(6):1574-1607.
[2] 趙妍妍,秦 兵,劉 挺.文本情感分析[J].軟件學報,2010,21(8):1834-1848.
[3] 李 杰,周 萍.語音情感識別中特征參數的研究進展[J].傳感器與微系統,2012,31(2):4-7.
[4] 程廣濤,陳 雪,郭照莊.基于HOG特征的行人視覺檢測方法[J].傳感器與微系統,2011,30(7):68-70.
[5] Yang Y,Pedersen J O.A comparative study on feature selection in text categorization[C]∥Proceedings of the Fourteenth Internatio-nal Conference on Machine Learning,Morgan Kaufmann Publi-shers Inc,1997:412-420.
[6] 熊忠陽,張鵬招,張玉芳.基于χ2統計的文本分類特征選擇方法的研究[J].計算機應用,2008,28(2):513-514.
[7] 裴英博,劉曉霞.文本分類中改進型CHI特征選擇方法的研究[J].計算機工程與應用,2011,47(4):128-130.
[8] 王 光,邱云飛,史慶偉.集合CHI與IG的特征選擇方法[J].計算機應用研究,2012,29(7):2454-2456.
[9] 邱云飛,王 威,劉大有,等.基于方差的CHI特征選擇方法[J].計算機應用研究,2012,29(4):1304-1306.
[10] 徐 明,高 翔,許志剛,等.基于改進卡方統計的微博特征提取方法[J].計算機工程與應用,2014(19):113-117.
[11] 肖 雪,盧建云,余 磊,等.基于最低詞頻CHI的特征選擇算法研究[J].西南大學學報:自然科學版,2015(6):137-142.
[12] Jin C,Ma T,Hou R,et al.Chi-square statistics feature selection based on term frequency and distribution for text categoriza-tion[J].IETE Journal of Research,2015,61(4):1-12.
[13] Galavotti L,Sebastiani F,Simi M.Experiments on the use of feature selection and negative evidence in automated text categorization[C]∥Proceedings of the 4th European Conference on Research and Advanced Technology for Digital Libraries,Springer-Verlag,2000:59-68.
[14] Maas A L,Daly R E,Pham P T,et al.Learning word vectors for sentiment analysis[C]∥Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics:Human Language Technologies,Association for Computational Linguistics,2011:142-150.
Study on sentiment text classification based on improved CHI feature selection*
YUAN Lei
(School of Computer and Information,Hefei University of Technology,Hefei 230009,China)
In order to improve the accuracy of sentiment text classification,different preprocessing methods of the sentiment of English text is studied,and an improved algorithm of Chi-square statistic(CHI)feature extraction is put forward.CHI is one of the most efficient feature selection methods,but there are two weaknesses,negative correlation phenomenon and tend to choose low-frequency feature words.In order to overcome these two shortcomings,on the basis of taking into account factors of word frequency,concentration information and dispersion information,considering the length of the text is not balanced and the distribution of feature words,word frequency is normalized,CHI feature extraction algorithm is proposed.Using classical naive Bayes and support vector machine(SVM)classification algorithms experiments is carried out on balanced corpus,imbalanced corpus and mixed-length corpus,and experimental results show that the new method improves accuracy of sentiment text classification.
sentiment classification; preprocessing; Chi-square statistic(CHI); feature selection
10.13873/J.1000—9787(2017)05—0047—05
2016—05—19
國家自然科學基金重點資助項目(61432004);安徽省自然科學基金資助項目(1508085QF119);中國博士后基金資助項目(2015M580532);模式識別國家重點實驗室開放課題資助項目(201407345)
TP 391
A
1000—9787(2017)05—0047—05
袁 磊(1991-),男,通訊作者,碩士,研究方向為數據挖掘,Email:yuanlei_uestc@163.com。