999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Web文本情感分析研究綜述

2014-08-08 03:53:37李光敏許新山熊旭輝
現代情報 2014年5期

李光敏+許新山+熊旭輝

基金項目:湖北省教育廳青年科學技術研究項目(項目編號:Q20132503);湖北師范學院文理學院2012教學研究項目(項目編號:XJ201219)。

作者簡介:李光敏(1979-),男,講師,碩士,研究方向:文本挖掘、情感分析?綜述?

〔摘要〕隨著Web20的迅速發展,互聯網成為人們表達觀點、抒發情感的重要工具,如何有效地從Web文本中提取、歸納出用戶的情感觀點是研究者所面臨的重要問題。本文首先提出對日益增多的Web文本進行情感分析的必要性。然后從文本主客觀性分類、情感極性分類和主題及觀點持有者抽取等方面介紹文本情感分析在國內外的研究進展;最后總結出今后需深入研究的問題。

〔關鍵詞〕情感分析;主客觀分類;情感極性;情感信息抽取

DOI:10.3969/j.issn.1008-0821.2014.05.037

〔中圖分類號〕TP18〔文獻標識碼〕A〔文章編號〕1008-0821(2014)05-0173-04

An Overview of Research on Web Text Sentiment AnalysisLi GuangminXu XinshanXiong Xuhui

(College of Computer Science and Technology,Hubei Normal University,Huangshi 435000,China)

〔Abstract〕With the rapid development of Web20 technology,Internet has become an important tool for people to express their opinion and emotion.It is a challenge for researchers how to extract and summarize user opinions expressed in web text.Firstly,this paper presented the necessity of sentiment analysis on the growing Web text.Then it introduced the research progress both at home and abroad of text sentiment analysis from the prospect of emotional information classification and information extraction.Finally,it summarized the sentiment analysis application status,existing problems and deficiencies of it.

〔Keywords〕sentiment analysis;subjective classification;sentiment polarity;information extraction

隨著互聯網的飛速發展,Web文本成為交流情感、發表觀點的主要載體和熱點話題的信息源。用戶通過社會化媒體(論壇、博客、微博)分享對所購商品的使用感受、新上映電影的評論、當前熱點新聞的個人看法等,這些言論往往包含有喜、怒、哀、樂、肯定、否定、中立等個人豐富的情感和觀點。

正是這些包含豐富情感的Web評論文本的涌現,一方面幫助生產廠商通過網絡口碑(Electronic Word-of-mouth)了解產品優勢和不足,以改進產品設計和服務,調整廣告投放策略,獲得市場競爭優勢;另一方面幫助消費者了解產品性能,縮短購買決策時間。如果僅靠手工對這些日益增長的海量信息進行歸納、分類,顯然是不現實的。因此結合信息檢索、自然語言處理、機器學習等領域知識對非結構化的文本進行提取和分類的情感分析技術(Sentiment Analysis)便應運而生。

1文本情感分類

廣義上講,文本信息主要用來描述客觀性事實和表達主觀性觀點[1],當前的文本信息處理大多通過關鍵詞抽取文本描述中特定事件發生的時間、地點、人物、屬性等客觀信息。文本情感分類則先對文本進行主客觀分類,然后對主觀性文本中的情感信息劃分極性。極性劃分是指對主觀性文本進行情感極性的識別,并分別標注為正面(Positive)的肯定、負面(Negative)的否定和中性(Neutral),即完成情感信息分類的第二大任務。

11主客觀分類國內外研究現狀

Wiebe[2]等人較早將形容詞、副詞等和標點及句子位置作為特征,設計了樸素貝葉斯(Nave Bayes)分類器,采用10折交叉驗證的測試方法,并通過實驗證明平均分類準確率達到815%。Wiebe[3]又在此基礎上加入詞性和基于詞典的語義詞兩類特征項,使得分類效果提升明顯。Ortega[4]通過無監督粗粒度的詞義消岐方式來區分每個詞的客觀、主觀、強主觀性用法,從而完成句子級的主客觀分類。

由于中文表達的復雜性和特殊性,國內在該方面的研究成果不多。Yao[5]較早通過預選特征項(情感形容詞、第一或第二人稱代詞、標點符號、感嘆詞、動詞、數字和日期),使用Weka中多種分類算法進行性能測試,最后采用6種穩定特征項和用于支持向量分類的連續最小優化算法(SMO)能達到最高F度量為938%的分類效果。Wang[6]通過對比實驗分析了上下文信息對主客觀分類的影響。

從國內外研究現狀來看,通過分類器和特征項選取是完成文本主客觀分類的主要方法,那么今后采用更深層、更具針對性的特征項更能提高分類效果。

12主觀性文本中的情感極性分類研究

主觀性文本中的情感極性分類目前主要有兩種研究思路:基于情感知識的情感詞典建立[7]和基于機器學習的特征選取。

121基于情感知識

Tong[8]通過人工抽取與影評相關的詞匯(great acting、uneven editing)進行情感極性(positive或negative)標記后建立專門的情感詞典。Hu[7]通過使用已標注極性的形容詞,結合WordNet中詞間的同義、近義關系來判斷新詞的情感極性的方法來判斷主觀性文本的情感極性,該方法解決了Tong建立的情感詞典只針對特定領域(影評)的問題。2008年Bitext[9]團隊不使用統計學知識而通過計算語言學(Computational Linguistics)實現了6種語言的短語級文本的情感極性分類,并公布了他們的API。

中文文本情感極性研究方面,李鈍[10]等人從語言學角度出發,分析詞典中對詞語義定義的特點,采用“情感傾向定義”權重優先的計算方法獲得短語中各詞的語義傾向度,然后分析短語中各詞組合方式的特點,提出中心詞概念對各詞的傾向性進行計算來識別短語的極性和強度。Meng[11]通過定義關鍵詞類別、建立關鍵詞詞庫和關鍵詞模板庫,設計模板匹配算法和文本褒貶傾向值算法來實現中文文本的情感極性分類。

通過情感知識進行文本極性分類主要存在如下問題:(1)該類方法從詞匯角度出發,如果文本中含有否定詞、雙重否定詞、轉折詞、比較詞會對句子級和篇章級的情感極性分類造成影響;(2)字典中所選情感詞大多是情感特征比較明顯的詞語(形容詞或副詞),但其他詞語也含有褒貶情感,如“做人不能太CNN”,“‘延遲退休讓‘以房養老,草泥馬你何時給老百姓分過房了?”中的“CNN”和“草泥馬”暗示負面情感。這類網絡新詞也增加了情感詞典建立的難度。

endprint

122基于機器學習算法

基于機器學習算法方式主要使用訓練集對統計模型進行訓練,最后用訓練好的分類器預測新輸入文本中的情感極性。

Pang[12]使用支持向量機(SVM)、最大熵(ME)和樸素貝葉斯(NB)3種分類器對篇章級的電影評論文本進行分類對比,發現機器學習方法比基于人工標注特征的方法更有效,并且SVM在3種分類器中平均表現最好。Thelwall[13]結合研究用戶書寫習慣(含感嘆號、重復標點符號、單詞中字母重復等)實現SentiStrength算法對MySpace評論進行極性分類,實驗結果表明正向預測準確率達到606%,負向準確率達到728%。

國內方面,Liu[14]提出了基于層疊式CRFs模型的句子褒貶度分析方法能在有效識別句子褒貶度的同時,提高了句子褒貶強度判別的準確度。徐軍[15]等人利用樸素貝葉斯和最大熵方法進行新聞及評論語料的情感分類,其準確率最高能達到90%,同時選擇具有語義傾向的詞匯作為特征項、對否定詞正確處理和采用二值作為特征項權重能提高分類的準確率。

從前人的研究不難看出,使用機器學習算法對于主觀性文件進行情感極性分類的關鍵在于領域語料庫的完善程度、特征選取及權重計算方法和分類算法的選擇。

2情感信息抽取

Kim[16]認為情感信息抽取主要從主觀性文本中確定主題、觀點持有者、陳述和情感以及它們之間的關系,抽取出有價值的情感信息。這一階段的主要任務有:(1)識別評價對象或主題,如手機產品評論中的產品屬性(“外觀”,“通話質量”)或新聞事件中某個話題(“延遲退休”);(2)識別觀點持有者(包括個人、機構),如“中方對中國駐敘使館落入炮彈感到震驚,予以強烈譴責”中觀點持有者為“中方”。(3)陳述選擇,主要針對文本的主客觀分類;(4)情感分析,決定主觀陳述中的情感極性。其中(3)(4)已在11和12節中進行綜述。

21主題抽取

目前主題抽取任務的研究主要歸結為如下方法:

(1)通過詞性標注器查找常見的名詞和名詞短語,Hu[17]根據主題與指標詞的共現特征來識別?,F和非?,F的主題,隨后Popescu[18]基于如下假設:共現的次數越多的兩個詞,則它們之間的聯系也越大,提出點互信息(Point-wise Mutual Information,PMI)方法提高了Hu算法的精度。

(2)分析觀點和評價對象之間的關系,Blair-Goldensohn[19]認為因為同樣的情感詞可以用來描述或修改不同的評價對象,如果句子中只含情感詞而沒有常見的評價對象,那就把抽取出距離情感詞最近的名詞或名詞短語做評價對象。如“這家客廳布置得美輪美奐?!薄懊垒喢缞J”表示褒義的情感詞,距離最近的名詞“客廳”就是抽取的評價對象。Stoyanov[20]通過主題消解(Topic Coreference Resolution)完成抽取。

(3)使用監督學習算法,其中最突出的方法是基于序列學習(Sequential Learning),這類方法需要手工將語料庫中的數據標注為主題詞和非主題詞后進行訓練,Li[21]合并兩種條件隨機場變體(Skip-CRF和Tree-CRF)進行主題和觀點抽取。其他的方法如Yu[22]通過只標記主題詞而不考慮非主題詞的單值分類支持向量機(One-class SVM)完成主題抽取。Kovelamudi[23]提出監督式獨立的域模型,利用Wikipedia和Web語料來從用戶評論中識別產品屬性,實驗表明F1值達到073。

22觀點持有者抽取

Kim[16]認為新聞中的觀點持有者占有重要的位置,因為它們經常明確表示持有該觀點的人或組織,可以借助于命名實體識別技術來獲取觀點持有者。Choi[24]通過條件隨機場模型結合選取的各類特征完成這一任務。近年來其他學者對此任務也有所研究,如Elarnaoty[25]基于條件隨機場和半監督模式識別技術實現阿拉伯語新聞中的觀點持有者識別,Johansson[26]使用含有一系列特征項的支持向量機(Support Vector Machine)完成觀點持有者抽取任務。

考慮到觀點的表達總是離不開觀點持有者這一關系,可以同步完成觀點持有者和觀點抽取的任務。Bethard[27]完成主觀句中情感短語抽取后,分析觀點和動詞的句法關系,最后同步識別出觀點持有者。

3結束語

本文在研究相關文本情感分析領域文獻的基礎上,從技術實現角度綜述了國內外文本情感分析的發展歷程。情感分析這一新興的研究方向除了取得較為成熟的研究成果外,尚有如下的問題需要深入研究:

(1)微博類社交方式導致文本書寫的隨意性、口語化,如:簡寫、拼寫錯誤、標點符號錯用等情況,這仍是大多情感分析系統面臨的挑戰。

(2)反諷的表達方式,如果不熟悉觀點持有者的語言風格,就無法識別出正確的情感極性。如:“你真是太有才了!”需要結合觀點持有者所表達的上下文語境來識別該句是褒義還是貶義。

(3)產品評論中針對短語級的情感分析,如何對評價對象進行歸類問題。如:“電池使用時間”和“電量使用情況”均表示手機產品的同一特性。

參考文獻

[1]Ding X,Liu B,Yu P S.A holistic lexicon-based approach to opinion mining[C].Proceedings of the international conference on Web search and web data mining,ACM,2008:231-240.

[2]Wiebe J M,Bruce R F,OHara T P.Development and use of a gold-standard data set for subjectivity classifications[C].Proceedings of the 37th annual meeting of the Association for Computational Linguistics on Computational Linguistics,Association for Computational Linguistics,1999:246-253.

[3]Wiebe J.Learning subjective adjectives from corpora[C].AAAI/IAAI,2000:735-740.

[4]Ortega R,Fonseca A,Gutiérrez Y,Montoyo A.Improving Subjectivity Detection using Unsupervised Subjectivity Word Sense Disambiguation[J].Procesamiento del Lenguaje Natural,2013,51:179-186.

[5]Yao T,Peng S.A study of the classification approach for Chinese subjective and objective texts[J].Proc of the NCIRCS,2007:117-123.

[6]Wang G,Zhao J.Sentence Sentiment Analysis Based on Multi-redundant-labeled CRFs[J].Journal of Chinese information processing,2007,(5):51-56.

endprint

[7]Hu M,Liu B.Mining and summarizing customer reviews[C].Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining,ACM,2004:168-177.

[8]Tong R M.An operational system for detecting and tracking opinions in on-line discussion[C].Working Notes of the ACM SIGIR 2001 Workshop on Operational Text Classification,2001:6.

[9]Schindler U,Diepenbroek M.Generic XML-based framework for metadata portals[J].Computers & Geosciences,2008,34:1947-1955.

[10]李鈍,曹付元,曹元大,等.基于短語模式的文本情感分類研究[J].計算機科學,2008,35(4):132-134.

[11]Meng F-b,Cai L-h,Chen B,Wu P.Research on the recognition of text valence[J].Journal of Chinese Computer Systems,2008,28(2007):1-4.

[12]Pang B,Lee L,Vaithyanathan S.Thumbs up?:sentiment classification using machine learning techniques[C].Proceedings of the ACL-02 conference on Empirical methods in natural language processing-Volume 10,Association for Computational Linguistics,2002:79-86.

[13]Thelwall M,Buckley K,Paltoglou G,Cai D,Kappas A.Sentiment strength detection in short informal text[J].Journal of the American Society for Information Science and Technology,2010,61(12):2544-2558.

[14]Liu K,Zhao J.Sentence Sentiment Analysis Based on Cascaded CRFs Model[J].Journal of Chinese information processing,2008,(1):123-128.

[15]徐軍,丁宇新,王曉龍.使用機器學習方法進行新聞的情感自動分類[J].中文信息學報,2007,21(6):95-100.

[16]Kim S-M,Hovy E.Determining the sentiment of opinions[C].Proceedings of the 20th international conference on Computational Linguistics,Association for Computational Linguistics,2004:1367.

[17]Hu M,Liu B.Mining opinion features in customer reviews[C].AAAI,2004:755-760.

[18]Popescu A-M,Etzioni O.Extracting product features and opinions from reviews[M].Natural language processing and text mining.Springer,2007:9-28.

[19]Blair-Goldensohn S,Hannan K,McDonald R,Neylon T,Reis G A,Reynar J.Building a sentiment summarizer for local service reviews[C].WWW Workshop on NLP in the Information Explosion Era,2008.

[20]Stoyanov V,Cardie C.Topic identification for fine-grained opinion analysis[C].Proceedings of the 22nd International Conference on Computational Linguistics-Volume 1,Association for Computational Linguistics,2008:817-824.

[21]Li F,Huang M,Zhu X.Sentiment Analysis with Global Topics and Local Dependency[C].AAAI,2010.

[22]Yu J,Zha Z-J,Wang M,Chua T-S.Aspect Ranking:Identifying Important Product Aspects from Online Consumer Reviews[C].ACL,Citeseer,2011:1496-1505.

[23]Kovelamudi S,Ramalingam S,Sood A,Varma V.Domain Independent Model for Product Attribute Extraction from User Reviews using Wikipedia[C].IJCNLP,2011:1408-1412.

[24]Choi Y,Cardie C,Riloff E,Patwardhan S.Identifying sources of opinions with conditional random fields and extraction patterns[C].Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing,Association for Computational Linguistics,2005:355-362.

[25]Elarnaoty M,AbdelRahman S,Fahmy A.A Machine Learning Approach For Opinion Holder Extraction In Arabic Language[J].arXiv preprint arXiv:12061011,2012.

[26]Johansson R,Moschitti A.Reranking models in fine-grained opinion analysis[C].Proceedings of the 23rd International Conference on Computational Linguistics,Association for Computational Linguistics,2010:519-527.

[27]Bethard S,Yu H,Thornton A,Hatzivassiloglou V,Jurafsky D.Automatic extraction of opinion propositions and their holders[C].2004 AAAI Spring Symposium on Exploring Attitude and Affect in Text,2004:2224.

(本文責任編輯:孫國雷)

endprint

主站蜘蛛池模板: 精品久久高清| 九九免费观看全部免费视频| 免费99精品国产自在现线| 精品福利视频导航| 国产高清又黄又嫩的免费视频网站| 亚洲无码A视频在线| 亚洲国产精品日韩av专区| 三级毛片在线播放| 男人天堂伊人网| 国产九九精品视频| 久久久久青草大香线综合精品| 天堂成人在线视频| 国产在线自揄拍揄视频网站| 精品国产成人三级在线观看| 亚洲一区国色天香| 一级毛片在线播放免费观看 | 色首页AV在线| 亚洲区欧美区| 欧美综合区自拍亚洲综合绿色 | 69免费在线视频| 亚欧成人无码AV在线播放| 九色综合伊人久久富二代| 国产欧美高清| 久草青青在线视频| 四虎成人精品| 99久久精品国产自免费| 日韩欧美国产中文| 国产精品无码久久久久AV| 午夜日本永久乱码免费播放片| 亚洲国产欧美目韩成人综合| 99久久国产综合精品2023| 欧美午夜在线播放| 亚洲女同欧美在线| 色哟哟国产精品一区二区| 欧美人在线一区二区三区| 三上悠亚一区二区| 97视频免费在线观看| 亚洲综合欧美在线一区在线播放| 美女被狂躁www在线观看| 久青草免费在线视频| 亚洲人成网站在线观看播放不卡| 欧美日本激情| 中文国产成人久久精品小说| 国产麻豆精品在线观看| 看你懂的巨臀中文字幕一区二区 | 永久毛片在线播| 伊人中文网| 亚洲高清在线天堂精品| 色欲色欲久久综合网| 无码AV日韩一二三区| 午夜福利视频一区| 国内a级毛片| 欧美日韩va| 亚洲欧美自拍一区| 日韩在线播放欧美字幕| 久久综合伊人77777| 亚洲无码A视频在线| 亚洲精品成人7777在线观看| 久久动漫精品| h视频在线观看网站| 高清乱码精品福利在线视频| 99久久亚洲精品影院| 国产浮力第一页永久地址| 99热最新网址| 国产女人18水真多毛片18精品 | 欧美第一页在线| 91精品在线视频观看| 中文字幕 91| 激情亚洲天堂| 萌白酱国产一区二区| 亚洲色图在线观看| 欧美a网站| 色婷婷天天综合在线| 欧美人人干| 美女扒开下面流白浆在线试听| 亚洲一区二区日韩欧美gif| 色噜噜久久| 欧美午夜在线观看| 中文字幕亚洲综久久2021| 在线观看国产精美视频| 人妻一区二区三区无码精品一区| 老色鬼欧美精品|