武光利
(1甘肅政法學院 信息工程學院,甘肅 蘭州 730070;2甘肅省證據科學技術與應用重點實驗室,甘肅 蘭州 730070)
微博因其使用簡便,已發展成一種新的社交網絡及信息發布平臺。自問世以來,得以迅速發展。微博上含有大量的情感傾向的言論,對其進行情感分析可以得到有用的決策信息,可應用于民意調查、輿論監控、政府決策、商品銷售等。微博更新速度快、消息量大、含有大量的情感信息,吸引了大批學者對其進行研究,針對微博的自然語言處理研究已成為一個新的研究熱點及前沿性課題,微博情感分析就是其中的一個熱點課題。情感分析又稱觀點分析,用于分析文本中觀點持有者對事件的支持、反對或中立態度,也即分析文本表達的正面、負面或中性情感[1]。
微博短文本有詞語信息豐富多樣、語料簡短、主題松散等特點,相對于長文本來說,在相應的情感分析上將面臨更多的問題,如文本矩陣的稀疏性、情感詞的多樣性等。文本情感分析過程由文本預處理、情感特征提取、情感分類等步驟組成。中文微博情感分類方法可以分為兩大類:一類是基于情感詞典的情感分類方法,一類是基于機器學習的情感分類方法。
微博短文本預處理主要包括過濾無關信息、文本分詞、詞性標注等。由于微博通過圖片、視頻、文字等來表達信息,還因其可以轉發引用他人微博存在一些微博文本特有標記,所以在預處理時,首先將這些無關標記如鏈接以及“@”“//”標簽及其后包含的內容,“#”與“#”符號之間的內容及符號一起去除。英文單詞和視頻及圖片也去除,保留表情符號[2]。
面向中文的分詞和詞性標注技術已相對成熟,國內有中科院計算所開發的ICTCLAS中文分詞標注系統,可以實現中文分詞、詞性標注、命名實體識別和未登錄詞識別,詞正確率高達 97.8%;這些相關軟件的開發為中文微博短文本情感分析奠定了良好的基礎。
雖然微博中的文本只有140個字符,但是包含的信息量卻非常巨大,而且微博文本還有未登錄詞較多、口語化嚴重等特點,采用向量空間模型表示微博文本,以詞匯和詞性作為特征,根據提出的基于層次結構的特征降維方法對特征空間進行降維。面向微博短文本的情感分析的特征選擇,首先要去除掉與情感無關的且類別關聯度較小的特征,排除不必要干擾。其次為了提高微博短文本的情感傾向性判別的準確性,特征選擇需獲取能獲取與情感分類有關聯的特征信息。因此,必須針對微博消息選擇合適的特征抽取方法,才能提高情感識別的分類效果。目前特征選擇方法主要有互信息、信息增益、詞頻、文檔頻次等。
2.3.1 基于情感詞典的微博情感分析方法
基于情感詞典的微博情感分析方法主要根據情感詞典,將一條微博語句的情感極性值之和作為該條語句的情感極性。該方法依據情感詞典將情感極性分為正向情感、負向情感和中性情感。具體公式[3]如下:正向情感(如果正向情感詞數>負向情感詞數)、負向情感(如果正向情感詞數<負向情感詞數)、中性情感(如果正向情感詞數=負向情感詞數)。
基于情感詞典的微博情感分析方法可分為詞語特征級、句子級情感判別,該方法主要的優點是粒度細、分析準確。但受到自然語言處理技術及相關抽取技術的限制,該方法容易丟失數據集中隱藏著的重要模式,使得未來研究工作中還有很大的提高空間。
2.3.2 基于機器學習的微博情感分析方法
基于機器學習的微博情感分析方法是通過各種算法將微博短文本分為正面、中性、負面三類情感[4]。這類方法是用機器學習的方法將將微博情感分析看做分類問題來處理。常用的機器學習算法有樸素貝葉斯NB、支持向量機SVM、最近鄰方法KNN、最大熵ME和條件隨機場CRF等[5]。選取微博文本中有利于情感極性分類的詞或短語等作為特征,構建向量空間模型。通過向量空間模型提取的特征再訓練分類器進行分類。通過訓練集的構建分類器,通過測試集來對分類器的性能進行驗證。訓練集語料的大小和質量、特征的提取的好壞將直接決定分類器的好壞。
雖然面向中文微博情感分析的分類準確率已達到了一定的水平,但是仍有提升的空間,主要原因有以下兩個方面:一是由于無論采用哪種方法都涉及特征的選取問題,如何提取更加有效的特征來提高分類的效果是問題的關鍵所在。二是中文微博表達的內容信息量大、千變萬化,需要對漢語的語言特點進行更加深入的研究,才能夠找出更合適的方法來進行微博情感分析。
[1]王銀,吳新玲.中文微博情感分析方法研究[J]廣東技術師范學院學報(自然科學版),2014年第3期.
[2]周勝臣,瞿文婷,石英子,施詢之,孫韻辰.中文微博情感分析研究綜述[J]計算機應用與軟件,2013第3期.
[3]陳曉東. 基于情感詞典的中文微博情感傾向分析研究[D]華中科技大學,2012.
[4]孫建旺,呂學強,張雷瀚. 基于詞典與機器學習的中文微博情感分析研究[J]計算機應用與軟件,2014年第7期.
[5]劉楠. 面向微博短文本的情感分析研究[D]武漢大學,2013.