摘 要:隨著社交網絡的飛速發展,互聯網平臺時刻涌現出大量的文本信息。這些文本信息的情感分析結果對于政府部門監管、消費者決策等具有重要的意義。文本情感分析的方法目前分為基于情感詞典方法、基于機器學習方法以及基于深度學習方法。本文主要介紹情感分析方法,并提出未來情感分析研究重點。
關鍵詞:社交網絡;文本;情感分析
一、前言
情感分析與觀點挖掘是自然語言處理領域的一個基礎任務,屬于文本分析范疇。其目的是從文本中判定識別觀點,挖掘分析情感傾向,抽取得出主要的觀點要素。情感分析的處理對象是文本,而文本有大有小,既可以是一個完整的文檔,也可以是一個句子,還可以是一個單詞或短語。根據文本的這一特性,情感分析研究可以劃分為3個層次,即:文檔級情感分析、句子級情感分析、方面級情感分析[1]。情感分析的方法根據發展分為基于情感詞典方法、基于機器學習方法以及基于深度學習方法。
二、基于情感詞典的方法
傳統情感分析研究方法主要是基于情感詞典的研究方法,基本原理是根據經驗將廣泛使用的情感詞進行歸納整理,當文本輸入后就與詞典內容進行匹配,尋找文本中與情感詞典中重合的情感詞,從而判斷文本的情感極性。基于情感詞典方法性能主要取決于情感詞典的構建,這必將耗費大量的資源進行維護。
三、基于機器學習的方法
基于機器學習對文本進行情感分析的原理是人工提取文本特征后由計算機根據某種特定的算法對文本進行處理然后輸出情感分類。相較于完全依賴人工構建情感詞典的方法,機器學習具有明顯的優勢,一方面能有效地緩解勞動力的負擔且減少非理性判斷,另一方面能構建龐大的數據庫且能根據時代發展及時對詞庫進行更新。根據機器學習的發展階段將機器學習分為有監督的機器學習和弱監督的深度學習。
有監督的機器學習方法相較于構建情感詞典的方法雖然有了一定的進步,但是局限性也比較明顯。首先,有監督的機器學習方法主要是依賴分類器,還是需要人工對文本特征進行標記。其次,有監督的機器學習方法是計算機根據已有程序對文本進行重復機械操作,并沒有“學習”的過程,在進行文本情感分析時不可避免地會產生無效作業。效率不高的有監督學習模型無法適應大數據時代的要求。
四、基于深度學習的方法
傳統的文本情感分析方法主要有人工構建情感詞典的方法或基于監督的機器學習模型,但是這2種方法不僅耗費大量的人力,而且在大數據時代任務完成效率和任務完成質量較低。深度學習可以通過構建網絡模型模擬人腦神經系統對文本進行逐步分析、特征抽取且自動學習優化模型輸出,以提高文本分類的正確性。
神經網絡模型的使用不可避免地要涉及詞向量嵌入技術,例如Word2Vec,隨著深度學習的發展,基于時間序列的模型循環神經網絡(RNN)、長短期記憶網絡(LSTM)、卷積神經網絡(CNN)等被應用于情感分析,并取得了較好的效果。RNN有個長依賴問題,在特征參數反向傳播的過程中會發生梯度消失或者梯度爆炸問題,為了解決這一問題,LSTM(長短時記憶網絡)被提出,不僅解決了長依賴問題,而且還能捕捉到文本的實際上下文特征。目前普通的情感分析已經研究得比較成熟,而方面級的情感分析正在探索研究階段,主要任務是提取句子中蘊含的方面術語,并進行分類任務。聯合方面術語和方面情感詞提取任務被制定為序列標簽問題,但是由于在許多領域中缺乏有標簽的數據,這阻礙了監督方法的有效性,并且先前的方法只能通過方面詞和觀點詞常見句法關系來彌補領域差距,這種方法高度依賴于外部語言資源,因此Li等[2]人探索了一種無監督域自適應的學習方式,并提出一種新穎的選擇對抗學習(SAL),以對齊自動捕獲其潛在關系的推斷相關向量。SAL方法可以動態學習每個單詞的對齊權重,以便更重要的單詞可以擁有更高的對齊權重,以實現細粒度(單詞級)的適應,大量實驗證明了所提出的SAL方法的有效性。
五、總結
從上述研究中可以看出眾多學者已經意識到了深度學習的優越性,并著力于將深度學習方法應用于文本情感分析任務,從而達到優化情感信息提取以及情感分類的目的。在普通情感分析的研究上已經比較成熟。但是,目前深度學習在方面級情感分析這一領域還處于探索階段,對于方面術語和方面分類進行端到端建模分析、聯合提取方面術語和方面分類是這一研究的重點任務。
參考文獻
[1]Y.Y.Zhao,B.Qin,and T.Liu,"Sentiment Analysis," Journal of Software,vol.21,no.8,pp.1834-1848,2010.
[2]Z.Li,X.Li,Y.Wei,L.Bing,Y.Zhang,and Q.Yang,“Transferable End-to-End Aspect-based Sentiment Analysis with Selective Adversarial Learning,” in Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing(EMNLP-IJCNLP),Hong Kong,China,2019:Association for Computational Linguistics,pp.4590-4600.
作者簡介:
丁利(1995-),男,漢族,四川瀘州人,學生,工學碩士,單位:西華大學計算機與軟件工程學院計算機技術專業,研究方向:情感分析.