999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

文本情感分析綜述

2018-09-04 09:37:16劉爽趙景秀楊紅亞徐冠華
軟件導刊 2018年6期
關鍵詞:機器學習

劉爽 趙景秀 楊紅亞 徐冠華

摘 要:近年來,隨著互聯網和社交網絡的發展,網絡上文本信息迅速增長,對文本情感進行分析成為研究熱點。根據文本情感分析方法的不同,總結了近年來文本情感分析的研究進展。將文本情感分析分為基于詞典的方法和基于機器學習的方法兩大類:基于詞典的文本情感分析方法分為人工構建和自動構建兩種;基于機器學習的文本情感分析方法分為基于貝葉斯算法、基于最大熵算法和基于SVM的文本情感分析3種。通過梳理國內外研究現狀,對兩類情感分析方法進行了深入分析,對文本情感分析進行了總結和展望。

關鍵詞:文本情感分析;詞典構建;機器學習;貝葉斯算法;最大熵算法;SVM

DOI:10.11907/rjdk.172640

中圖分類號:TP3-0

文獻標識碼:A 文章編號:1672-7800(2018)006-0001-04

Abstract:In recent years, with the development of the internet and social networks, text information on the Internet has been increased rapidly, and sentiment analysis has become a research hotspot. According to the different methods of sentiment analysis, the research progress of sentiment analysis in recent years is summarized.Sentiment analysis is divided into dictionary-based methods and machine learning-based methods. The dictionary-based sentiment analysis methods are divided into two kinds: artificial construction and automatic construction. Machine learning-based sentiment analysis methods are divided into three kinds based on Bayesian algorithm, based on maximum entropy algorithm and sentiment analysis based on SVM. Through the research status at home and abroad, two kinds of sentiment analysis methods are deeply analyzed, and the sentiment analysis is summarized and forecasted.

Key Words:sentiment analysis; dictionary construction; machine learning; Bayesian algorithm; maximum entropy algorithm; SVM

0 引言

近年來,隨著互聯網和移動互聯網的飛速發展,文本情感分析已經廣泛應用于多個領域。例如,文本情感分析對于增加銷售額和改善公司營銷策略(通過跟蹤客戶評論和調查反饋),識別意識形態轉變和分析政治戰略規劃趨勢,甚至預測世界股票市場動態是有價值的。

文本情感分析通常利用額外文本資源(例如詞表、基于情緒的詞典、復雜的詞典和詞匯本體),采用自然語言處理(NLP)過程(例如特征提取、詞性標記等)分析獲取的文檔[1]。文本情感分析的根本是識別文檔中重要的文本特征(詞語強度、詞性和詞頻率、意見/情緒詞和短語,以及否定和增強詞等)。接下來進行情感識別,利用文本信息的極性(正面、負面或中性情感)表征文本文檔。如在無監督情況下,經常使用基于詞典的方法,利用詞匯資源將極性分數分配給單個詞以檢測文檔的整體情緒。另一方面,受監督的情況通常遵循機器學習方法,其中情感檢測任務通過采用諸如支持向量機(Support Vector Machine,SVM)算法對情感進行分類。本文對近幾年來文本情感分析的研究成果進行了分析、概括、總結和展望。

1 文本情感分析簡介

近年來針對文本情感分析的研究有很多,文獻[2]中將文本情感分析分為三大任務,即文本情感特征提取、文本情感特征分類以及文本情感特征檢索與歸納。

針對基于詞典的方法,文獻[3]將情感詞典的構建分為4種方法,即啟發式規則方法、基于圖的方法、基于詞對齊模型的方法和基于表示學習的方法。

對基于機器學習的情感分析方法,主要針對分類方法在情感分析中的應用進行研究,即對諸如樸素貝葉斯、最大熵和SVM分類器進行研究。文獻[4]對上述3種機器學習方法進行了實驗。

2 文本情感分析技術分類

本文將文本情感分析技術主要分為基于詞典的技術和基于機器學習的技術兩大類。其中,基于詞典的技術,根據人工參與程度不同,可分為人工構建情感詞典和自動構建情感詞典兩類;基于機器學習的技術,根據情感分類方法不同,可分為基于樸素貝葉斯的方法、基于最大熵的方法和基于SVM的方法3類。

2.1 基于詞典的技術

情感詞典是文本情感分析的基礎。利用構建的文本情感詞典,并對情感詞典進行極性和強度標注,進而進行文本情感分類,能夠有效地對文本進行情感分析。基于詞典的文本情感分析,構建情感詞典是關鍵。本文根據人工在情感詞典構建過程中的參與程度不同,分為人工構建情感詞典和自動構建情感詞典。圖1是基于詞典的文本情感分析過程。

2.1.1 人工構建情感詞典

人工構建情感詞典的方式,主要是利用大量現有的情感資源對前人總結的情感資源進行擴充標注,進而形成各種基礎情感詞典。其優點是便于創建更為豐富的詞條信息,并且便于控制。

其中,大連理工大學徐琳宏等[5]通過手工情感分類和自動獲取強度兩種方法,構造了情感詞匯本體。手工情感分類主要采取基于轉換的錯誤驅動學習方法,自動獲取詞匯的情感強度用的是點互信息(Pointwise Mutual Information,PMI)方法,計算公式如下:

其中,Wu表示具有u類情感的詞,Sui表示具有u類情感的第i個標準詞,計算W與所有具有u類情感的標準詞之間的互信息,選擇互信息最大標準詞的強度作為詞匯W在u類情感上的強度。

王勇等[7]為了對中文微博進行情感分類,構建了中文微博的極性詞典。在各大微博網站隨機抓取100 000條微博,通過多次人工標注和校對,將2 199個情感詞進行正負向和強弱程度區分,根據微博表達的多樣性,還構建了表情符號詞典、否定詞典和雙重否定詞典。

目前通過人工構建的情感詞典主要有:哈佛大學的General Inquirer Lexicon、匹茲堡大學提供的OpinionFinder主觀情感詞典、伊利諾伊大學Bing Liu提供的詞典資源、普林斯頓大學構建的英文情感詞典WordNet、臺灣大學的中文情感極性詞典(NTUSD)、知網情感詞典HowNet等。

人工構建情感詞典在擴充詞條信息和操控便利性方面有一定優勢,但是大大增加了人工開銷,并且擴充范圍有限,因此不適合跨領域研究。近年來自動構建情感詞典的方法逐漸成為研究方向。

2.1.2 自動構建情感詞典

通過自動構建情感詞典,能很好地降低人工成本,并在一定程度上增強領域適用性,所以,近年來研究人員更多地致力于情感詞典的自動構建工作。自動構建情感詞典的方法主要有基于知識庫的方法、基于語料庫的方法以及基于知識庫與語料庫相結合的方法。

基于知識庫的方法主要通過對現有知識庫(如英文的WordNet、中文的HowNet)進行語義分析或擴展構成情感詞典,以判斷未知文本信息的情感傾向。如對WordNet進行擴展,加入名詞、動詞和副詞,使情感詞典更加全面。

基于語料庫的方法主要是通過從大量語料中自動學習得到情感詞典,并且通過對不同領域的語料進行提取,可以得到特定領域的情感詞典。

如Hatzivassiloglou和McKeown[8]提出一種從大型語料庫收集的間接信息自動檢索語義取向信息的方法。該方法依賴于語料庫,實現了高精度(超過90%),考慮了情感詞或短語和特征詞域的依賴關系,并在語料庫更改時自動適應新域,可以直接應用于其它單詞類。

Turney等[9]使用PMI方法擴展基本的正、負詞匯,然后使用語義極性(ISA)算法分析情感文本,處理一般語料庫數據的準確性率達到74%。考慮到用戶行為,Yang等[10]利用拉普拉斯平滑技術對SO-PMI算法進行改進,建立了中文酒店評論情感詞典。其中PMI如式(1),然后引入語義取向(SO),算法如下:

周詠梅等[11]提出了一種中文微博情感詞典構建方法。該方法利用上下文熵對微博中的網絡用語進行判定,公式如下:

利用基于SO-PMI算法的情感強度計算方法篩選含有網絡用語的微博,對這些微博進行人工標注,并計算情感極性和強度,構成詞典。

Bravo-Marquez等[12]利用自動注釋的推文構建Twitter意見詞典,使用點互信息語義取向(PMI-SO)建模,并使用隨機梯度下降語義取向(SGD-SO)學習詞與情感之間的線性關系。

近年來由于互聯網中的文本信息增長速度過快,一些網絡詞語出現,使得單純利用原有知識庫或互聯網中的語料構建情感詞典不能滿足現有文本信息的要求,因此研究人員更傾向于利用知識庫與語料庫相結合的方法構建情感詞典。通過將擴充的情感知識庫及從語料庫中提取的情感詞匯引入情感詞典,使構成的情感詞典更加豐富。

楊小平等[13]利用Word2Vec工具,從海量的語料庫中訓練出一套詞向量,并通過綜合篩選NTUSD詞典、知網情感詞典和大連理工大學開發的情感本體庫,構成SentiRuc詞典,通過機器學習對情感色彩進行消歧,并對詞典進行了同義關系優化、反義關系優化和句子級描述力優化,在通用領域數據集上取得了較好的實驗結果。

基于詞典的文本情感分析技術由于構建的詞典往往只針對某個領域,對于跨領域情感分析的效果不夠好,而且詞典中的情感詞可能不夠豐富,對于短文本和特定領域文本進行情感分析的效果更好。因此,對于長文本來說,更好的解決方法是利用機器學習方法。

2.2 機器學習方法

利用機器學習方法進行文本情感分析是近幾年比較流行的研究方向,通過訓練數據對測試數據進行識別,然后進行特征提取。通過模型訓練生成文本情感分析模型,然后進行文本情感分析,過程如圖2所示。

根據分類算法不同,將文本情感分析分為基于樸素貝葉斯(Naive Bayes,NB)的方法、基于最大熵(Maximum Entropy,ME)的方法和基于支持向量機(SVM)的方法。

Pang等[4]2002年利用樸素貝葉斯、最大熵和支持向量機在文本情感分析中進行比較,發現利用SVM進行文本情感分析能達到最優效果。以下內容總結了近年來基于樸素貝葉斯、最大熵和SVM進行文本情感分析的研究成果。

2.2.1 基于樸素貝葉斯的方法

樸素貝葉斯是概率模型,在許多領域都能令人滿意地工作。貝葉斯分類提供了實用的學習算法和先驗知識,觀察到的數據可以相結合。在樸素貝葉斯技術中,基本思想是通過使用單詞和類別的聯合概率找出給定文本文檔類別的概率。該算法被廣泛用于文本情感分析。

綜合框架應用于情感分類任務,有效地整合不同特征集和分類算法,以合成更精確的分類程序。通過對廣泛應用的電影評論進行情感分析,證明了該方法的可行性。

基于樸素貝葉斯算法的文本情感分析可以應用于許多領域,Soelistio等[15]提出了一種使用樸素貝葉斯分類法分析數字報紙情感極性的簡單模型,將其應用在數字報紙上進行政治情緒分析,從數字新聞文章中獲取有關特定政治家積極或消極的情緒信息。

Wikarsa等[16]研究了一種使用樸素貝葉斯方法對Twitter用戶進行情感分類的應用。Dey等[17]利用樸素貝葉斯算法和K-NN算法對電影評論和酒店評論進行情感分析,發現在電影評論中樸素貝葉斯比K-NN效果好,但在酒店評論中,兩者準確度差別不大。

基于樸素貝葉斯的文本情感分析技術是通過計算概率對文本情感進行分類,適合增量式訓練,而且算法比較簡單,對小規模數據表現良好。但該方法對輸入數據的表達形式很敏感,而且需要計算先驗概率,因此會在分類決策方面存在錯誤率。

2.2.2 基于最大熵的方法

最大熵分類器屬于指數模型類的概率分類器。基于最大熵原理,并且從適合訓練數據的所有模型中,選擇具有最大熵的模型。近年部分學者基于最大熵構建情感分析模型,對文本情感進行了分析。

Berger、Vincent和Stephen[18]提出了自動構建最大熵模型的最大似然方法,并在自然語言處理中有效地實現這種方法,證明最大熵在許多自然語言處理應用中是一種有效的技術。Fei、Wang等[19]為了解決詞典中存在的詞語有時不能在特定語境中表達情感傾向這一問題,提出了一種基于最大熵分類模型的方法以識別給定評論語句的情緒詞。Lee等[20]將最大熵分類用于估計給定電子產品評論的極性。Batista和Ribeiro[21]在2013年提出了一種基于二元最大熵分類器的策略,用于西班牙語Twitter數據的自動情緒分析和主題分類。Yan等[22]在2015年根據統計學方法從中英文情緒分析中得出藏語句子情緒分析方法,建立了基于最大熵模型的藏語句子情緒分析系統,并對該系統進行了測試。

基于最大熵的文本情感分析只要得到一些訓練數據,然后進行迭代,就可以得到所需模型,進行自收斂,方法簡單。但是由于最大熵往往只能得到局部最佳解而非全局最優解,因此運用該方法進行情感分析準確率有待提高。

2.2.3 基于支持向量機的方法

支持向量機(SVM)最初由Vapnik[23]提出,是一種相對較新的機器學習方法。它通過尋求結構化風險最小以提高學習機泛化能力,實現經驗風險和置信范圍的最小化,從而達到在統計樣本量較少的情況下,亦能獲得良好統計規律的目的。以下是對近年來研究人員基于SVM進行文本情感分析的介紹。

Sharma和Dey[24]在2013年提出了基于Boosted SVM的混合情緒分析模型。該模型利用兩種技術(Boosting[25]和SVM)對2 000條電影和酒店評論語料庫進行情感分析,結果表明,基于Boosting算法的SVM混合情緒分析模型,性能顯著優于單獨的SVM模型。

其中,SVM尋求一個決策表面,將訓練數據點分成兩類,并根據被選為訓練集中唯一有效元素的支持向量進行決策。 SVM(雙重形式)的優化是將SVM拉格朗日方程最小化為:

Hajmohammadi[26]利用標準機器學習技術SVM和樸素貝葉斯將波斯語言的電影評論自動分類為正面和負面,發現SVM分類器在波斯語言的電影評論中達到了比樸素貝葉斯更高的準確度。Karanasou等[27]在2015年對Twitter中的比喻句進行了情感分析,采用語法和形態特征,標注了比喻和非比喻推文中的情感極性,并利用結構化知識資源,如SentiWordNet情緒詞典,將情緒評分分配給單詞和WordNet并計算單詞相似度。該實驗通過具有線性核函數的SVM分類器實現了最好的結果。Huang等[28]基于金融部門的特點,利用結合斯坦福語言依賴關系的SVM分類法,對金融部門用戶生成的文本進行情緒分析。

基于SVM的文本情感分析方法被認為是最好的情感分析方法,該方法泛化錯誤率低,計算開銷不大,而且對于訓練樣本較小的文本可以得到很好的情感分析效果,對高維數據的處理效果良好,能夠得到較低的錯誤率,但該方法對參數調節和核函數的選擇敏感。

3 結語

隨著互聯網的飛速發展,人們通過互聯網進行交流、參與評論增加,文本情感分析對于客戶體驗、市場研究、客戶洞察、數字分析和媒體評測等變得越來越重要。文本情感分析是一個新興的研究方向,而且前期工作都是以長文本為研究重點。近年來由于Facebook、Twitter、新浪微博等短文本社交平臺流行,對短文本進行情感分析的研究越來越多。但是對于短文本的情感分析研究主要集中在通過情感分析挖掘其存在的商業價值,且對情感的分析類別研究比較寬泛,缺乏對某方面情感的進一步研究,如通過互聯網用戶產生的文本信息判斷其情緒消極程度,從而進一步判斷其患有抑郁癥的可能性。接下來,對互聯網用戶文本情感進行細化研究成為一個值得探索的方向。

參考文獻:

[1] PRABOWO R,THELWALL M. Sentiment analysis: a combined approach[J]. Journal of Informetrics,2009,3(2):143-157.

[2] 趙妍妍,秦兵,劉挺.文本情感分析[J].軟件學報,2010,21(8):1834-1848.

[3] 梅莉莉,黃河燕,周新宇,等.情感詞典構建綜述[J].中文信息學報,2016,30(5):19-27.

[4] PANG B, LEE L, VAITHYANATHAN S. Thumbs up: sentiment classification using machine learning techniques[C]. Acl-02 Conference on Empirical Methods in Natural Language Processing,2002:79-86.

[5] 徐琳宏,林鴻飛,潘宇,等.情感詞匯本體的構造[J].情報學報,2008,27(2):180-185.

[6] EKMAN P. Facial expression and emotion [J]. American Psychologist,1993,48(4):384.

[7] 王勇,呂學強,姬連春,等.基于極性詞典的中文微博客情感分類[J].計算機應用與軟件,2014(1):34-37.

[8] HATZIVASSILOGLOU V, MCKEOWN K R. Predicting the semantic orientation of adjectives[J]. Proceedings of the Acl,1997:174-181.

[9] TURNEY P D, LITTMAN M L. Measuring praise and criticism:Inference of semantic orientation from association[J]. Acm Transactions on Information Systems,2003,21(4):315-346.

[10] YANG A M, LIN J H, ZHOU Y M, et al. Research on building a Chinese sentiment lexicon based on SO-PMI[J]. Applied Mechanics & Materials,2012(12):1688-1693.

[11] 周詠梅,陽愛民,林江豪.中文微博情感詞典構建方法[J].山東大學學報:工學版,2014,44(3):36-40.

[12] BRAVO-MARQUEZ F, FRANK E, PFAHRINGER B. Building a twitter opinion lexicon from automatically-annotated tweets[M]. Amsterdam:Elsevier Science Publishers B V:2016.

[13] 楊小平,張中夏,王良,等.基于Word2Vec的情感詞典自動構建與優化[J].計算機科學,2017,44(1):42-47.

[14] GOVINDARAJAN M. Sentiment analysis of movie reviews using hybrid method of Naive Bayes and genetic algorithm[J]. International Journal of Advanced Computer Research,2013,3(4):139.

[15] SOELISTIO Y E, SURENDRA M R S. Simple text mining for sentiment analysis of political figure using Naive Bayes classifier method[C]. The Proceedings of the 7th Icts,2015:99-104.

[16] WIKARSA L, THAHIR S N. A text mining application of emotion classifications of Twitter's users using Nave Bayes method[C].International Conference on Wireless and Telematics,2015:1-6.

[17] DEY L, CHAKRABORTY S, BISWAS A, et al. Sentiment analysis of review datasets using Naive Bayes and K-NN classifier[J]. Information Retrieval,2016,8(4):54-62.

[18] BERGER A L, PIETRA V J D, PIETRA S A D. A maximum entropy approach to natural language processing[J]. Computational Linguistics,1996,22(1):39-71.

[19] FEI X, WANG H, ZHU J. Sentiment word identification using the maximum entropy model[C].International Conference on Natural Language Processing and Knowledge Engineering,2010:1-4.

[20] LEE, HBHD C. Chinese sentiment analysis using maximum entropy[C]. Proceedings of the Workshop on Sentiment Analysis Where AI Meets Psychology(SAAIP),2011:89-93.

[21] BATISTA F, RIBEIRO R. Sentiment analysis and topic classification based on binary maximum entropy classifiers[J]. Procesamiento de lenguaje natural,2013,50:77-84.

[22] YAN X, HUANG T. Tibetan sentence sentiment analysis based on the maximum entropy model[C].International Conference on Broadband and Wireless Computing, Communication and Applications,2015:594-597.

[23] VAPNIK V. SVM method of estimating density, conditional probability, and conditional density[C]. IEEE International Symposium on Circuits and Systems,2000:749-752.

[24] SHARMA A, DEY S. A boosted SVM based sentiment analysis approach for online opinionated text[C]. Research in Adaptive and Convergent Systems,2013:28-34.

[25] KEAMS M J, VALIANTL G. Cryptographic limitations on learning Boolean formulae and finite automata[J]. Journal of the Acm,1994,41(1):433-444.

[26] HAJMOHAMMADI M S. A SVM-based method for sentiment analysis in Persian language[C].International Conference on Graphic and Image Processing,2013:1-5.

[27] KARANASOU M, DOULKERIDIS C, HALKIDI M. DsUniPi: an SVM-based approach for sentiment analysis of figurative language on twitter[C].International Workshop on Semantic Evaluation,2015:709-713.

[28] HUANG J,TONG R, JIANG R.Sentiment analysis in financial domain based on SVM with dependency syntax[J]. Computer Engineering & Applications,2015,51(23):230-235.

(責任編輯:何 麗)

猜你喜歡
機器學習
基于詞典與機器學習的中文微博情感分析
基于網絡搜索數據的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
下一代廣播電視網中“人工智能”的應用
活力(2016年8期)2016-11-12 17:30:08
基于支持向量機的金融數據分析研究
基于Spark的大數據計算模型
基于樸素貝葉斯算法的垃圾短信智能識別系統
基于圖的半監督學習方法綜述
機器學習理論在高中自主學習中的應用
極限學習機在圖像分割中的應用
主站蜘蛛池模板: 狠狠躁天天躁夜夜躁婷婷| 69av免费视频| 中文字幕天无码久久精品视频免费| 四虎国产精品永久一区| 久久国产精品夜色| 亚洲床戏一区| 国产噜噜噜视频在线观看| 国产精品短篇二区| 亚洲综合久久成人AV| 欧美在线网| 国产视频入口| 五月天天天色| 国产尹人香蕉综合在线电影| 国产精品护士| 久久中文电影| 中文字幕无码制服中字| 福利在线免费视频| 欧美精品成人| 在线一级毛片| 99久久99视频| 潮喷在线无码白浆| 亚洲九九视频| 日韩在线播放欧美字幕| 亚洲妓女综合网995久久| 国产乱论视频| 欧美色视频网站| 九月婷婷亚洲综合在线| 小13箩利洗澡无码视频免费网站| 在线国产你懂的| 91久久偷偷做嫩草影院| 亚洲Va中文字幕久久一区| 91一级片| 伊人成人在线视频| 精品伊人久久久香线蕉 | 热re99久久精品国99热| 手机在线看片不卡中文字幕| 精品一区二区三区四区五区| 亚欧成人无码AV在线播放| 亚洲精品色AV无码看| 日日拍夜夜嗷嗷叫国产| 亚洲国产精品无码AV| 就去色综合| 久久久久久午夜精品| 欧美国产日韩在线| 国产乱视频网站| 日本久久免费| 日韩精品亚洲人旧成在线| 亚洲欧洲天堂色AV| 91精品国产自产91精品资源| 国产经典在线观看一区| 漂亮人妻被中出中文字幕久久| a级毛片网| 青青操国产| 亚洲色图另类| 91青草视频| 亚洲精品波多野结衣| 麻豆国产精品一二三在线观看| 国产精品99久久久| 又大又硬又爽免费视频| 91久久偷偷做嫩草影院电| 在线人成精品免费视频| 又粗又大又爽又紧免费视频| 亚洲无码熟妇人妻AV在线| 在线色国产| 亚洲无码熟妇人妻AV在线| 亚洲国产精品美女| 成年看免费观看视频拍拍| 无码日韩精品91超碰| 国产另类乱子伦精品免费女| 香蕉eeww99国产在线观看| 国产亚洲精品97AA片在线播放| 2021亚洲精品不卡a| 国内精自视频品线一二区| 免费人成视频在线观看网站| 久久久久国产精品熟女影院| 久久久久国产精品嫩草影院| 亚洲成人黄色网址| 日本三区视频| 99精品一区二区免费视频| 福利在线不卡| 国产丝袜丝视频在线观看| 无码专区国产精品一区|