(蘭州財經大學信息與工程學院 甘肅 蘭州 730000)
隨著互聯網的普及,海量的主觀性的評論文本出現在網絡上,這些評論中包含了豐富的情感信息和主觀觀點。有效地挖掘此類文本的信息可以更方便地理解用戶的消費習慣,分析熱點事件的輿情,為企業、政府等機構提供科學的決策依據。本文針對情感分析中情感詞典質量和覆蓋度問題提出了解決辦法。主要是提出了擴展的情感詞典的方法,最后基于情感分析方法來計算句子的情感極性,并用實驗來檢驗詞典改進方法的有效性,最后總結了基于字情感典的中文文本情感分析的研究難點與未來的研究方向。
基于情感詞典的情感傾向識別主要是根據情感詞典中的詞語或短語的情感極性和強度信息來對文本進行情感劃分。在基于詞典的無監督方法中,Turney 等[1]提出了點互信息(Point Mutual Information,PMI)的方法判別某個詞語是否是評價詞語,但是較依賴種子情感詞集合。Alina Andreevskaia和Sabine Bergler[2]在文中將情感詞典與機器學習的方法相結合構造了兩個分類器進行情感分析,第二個分類器是在第一個分類器分類出現錯誤時進行工作的,該種方法取得了好的分類效果。
我們所構建的詞典包括基礎情感詞典和輔助情感詞典。其中基礎情感詞典為由正向情感詞和負向情感詞組成情感詞典,輔助情感詞典及其權重是在網上搜集的公開的情感詞典,由否定詞詞典、程度副詞詞典、連詞詞典、反問詞詞典和停用詞詞典構成。下面對基礎情感詞典的構建以及擴展進行詳細的介紹。
基礎情感詞典的構建是直接選用臺灣大學詞典、知網詞典以及褒貶義詞典中情感詞并集組成的。本文對情感詞典的擴展主要是基于近義詞和規則來擴展情感詞,用來提升情感詞典的準確性和完備性。本文提出根據個人經驗發現的規則來識別情感新詞。比如“!”前面往往是情感詞,名詞后面的形容詞往往是情感詞等等。識別的新詞根據點互信息來確定其情感極性。最后實驗得到的情感詞典包括20673個積極情感詞,30478個消極情感詞。
本章主要說明如何將改進后情感詞典用于情感分析,提高情感詞典的覆蓋度[3],改善情感分析的效果,為后文的實驗部分做好鋪墊。其情感分析過程主要有獲取情感詞典、文本預處理和計算句子的情感極性。
情感詞典的獲取在第2章已介紹,這里不多贅述;文本預處理是為了文本便于分析,去除沒有意義的詞語,將句子轉化為可處理的形式。經過中文分詞以及去停用詞,對情感極性無影響的詞語和標點都已去除。此外,如果文本中如果有臟數據,需要進行清洗操作;計算句子的情感極性就是通過情感詞典查找句子中所包含的情感極性詞語以及輔助情感詞典中的情感詞語,并給各自的詞乘以相應的權重,最后累加,假如最后的得分大于0,也就是積極情感得分減去消極情感得分的分值大于0,那么該句的情感傾向則判定為積極的,反之則為消極的。
本文實驗數據集采用的是公開的帶有標簽的餐飲評論數據集。使用的情感詞典是第二章介紹的。實驗環境采用Python平臺,其中運用到NLTK、sklearn、gensim、jieba等類庫。實驗采用的評測指標是情感分析領域常用的幾個指標:精度、召回率、F1值以及AUC面積。分別用改進前后的情感詞典來進行實驗。兩個實驗方法分別命名為RLS、1RLS。實驗步驟按照第三章介紹的進行,實驗結果如下。

積極消極總體方法精度召回率F1值精度召回率F1值精度召回率F1值AUCRLS0.690.760.710.620.700.700.6950.730.7150.7221RLS0.700.780.720.640.700.700.700.740.740.734
從結果中,我們可以看出使用擴展以后情感詞典比使用擴展以前的情感詞典來進行情感分析效果稍好,也說明了本文對情感詞典改善的有效性;但是從結果中也可以看出,提升效果并不大,因為基于情感詞典的情感分析方法沒有考慮語義的復雜性,只是簡單的統計情感詞語,便獲得情感極性。同時由于實驗采用的數據集較小,拓展的情感詞語并不多,所以提升效果不明顯。
本文針對字典質量及覆蓋度的問題,提出了擴展情感詞典覆蓋來提高情感分析的效果。最近研究人員研究基于機器學習的方法進行完善情感詞典[4]及改進現有詞向量模型,創建情感詞向量模型[5]都是非常有潛力的研究方向。因此,在以后的研究學習中有以下展望:提出一種機器學習的方法拓展情感詞典,使情感詞典不斷完善;可以改進現有的詞向量模型,在生成詞向量的同時考慮情感信息和極性轉移因素在里面,然后將生成的詞向量作為特征輸入,用來訓練分類器。
總體來說,目前階段,情感分析技術還處于比較初級的階段,但是隨著大數據技術、人工智能技術的進展,大規模的語料庫[11]處理將變得更加容易,情感分析等自然語言處理問題終將會得以解決。