999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于特征融合的語句級情感傾向性研究

2020-11-09 07:29:18王磊
計算機時代 2020年10期

王磊

摘? 要: 針對語句級的情感傾向性研究多數是利用情感詞典、語言學知識和機器學習等方法,其研究范圍也限定于所分析的句子中。但是,整篇文章的上下文對語句情感傾向的判別影響巨大。文章利用主題特征來識別語句中情感詞的情感傾向強度,通過計算詞語的主題概率,將主題信息轉化為情感先驗信息,并融合否定詞、程度副詞和連接詞等語法特征,提出一個基于特征融合的語句級情感傾向識別方法,對文本中語句的多標記情感傾向進行識別。實驗結果表明,該方法在語句情感傾向識別上取得了令人滿意的效果。

關鍵詞: 情感分析; 主題特征; 特征融合; 情感傾向

中圖分類號:TP391? ? ? ? ? 文獻標識碼:A? ? ?文章編號:1006-8228(2020)10-19-04

Abstract: At present, there have been lots of researches on sentence sentiment orientation, most of them involve the use of emotional lexicon, language knowledge and machine learning, with the scope limited to the sentence analyzed. However, the whole context has great effects on sentence sentiment orientation recognition. In this paper, the topic features are used to adjust the emotion orientation intensity of the emotional words in sentences, the topic information is transformed into emotional prior information by calculating word topic probability, with the fusion of some grammar features, such as negation, degree adverb and conjunction, thus putting forward a sentence sentiment orientation recognition method with the fusion of multiple features for identification of the multi-label sentiment orientation of sentences. Experimental results show that this method achieves satisfactory effects in recognizing sentiment polarity of words.

Key words: sentiment analysis; topic feature; feature fusion; sentiment polarity

0 引言

隨著電子商務與網絡社交的迅速發展,互聯網上涌現出大量文本信息,如博客、微博、時事評論和購物點評等。這些文本基本都由若干帶有情感色彩的語句構成,這些語句在一定程度上表達了人們對客觀事物的喜好或反映了個體當時的情感、情緒。因此,語句級情感傾向分析研究得到國內外許多學者的關注,也為段落或短文本級情感傾向分析甚至為篇章級情感傾向分析提供幫助。

詞或短語是詞語情感分析的研究對象,而在上下文環境中的語句則是語句級情感分析的研究對象。語句情感分析不僅僅只是識別語句的情感傾向,還包括對語句中各種主觀性信息的分析與提取。Hu和Liu[1]利用WordNet的同義與反義關系,識別詞語的情感傾向,并將語句中情感傾向占優勢的情感傾向作為語句的情感傾向。Yang[2]等人將上下文語句融入條件隨機場模型中,提出一種基于上下文語境的情感分析方法。Narayanan[3]等人針對條件句進行了情感分析研究。趙妍妍[4]等融合文本間與文本內的因素,來提供語句情感分析精度。大連理工宋銳等[5]人對中文比較句進行研究,并采用CRF模型進行情感分類。

本文將語句的情感傾向分析問題作為研究重點,將上下文中的主題特征引入語句的多標記情感傾向判別中,并融合否定詞、程度副詞和連接詞等語法特征,提出一個多特征融合的語句情感傾向識別方法。

1 基于情感詞的語句情感分析

針對語句情感傾向識別問題,最簡單、最常用的方法是基于規則的情感詞求和分析方法,該方法也常常應用于篇章級情感傾向分析研究中。基于規則的情感詞求和分析方法的基本思想[6]是:將語句中情感詞或情感短語進行加權求和,如果某類情感的情感詞越多,情感強度越大,求和后,該類情感的累加值就越大,則語句具有該類情感的可能性就越高。

利用基于規則的情感詞求和方法來識別語句或篇章的情感傾向,方法簡單,并能取得不錯的識別效果。但是,該方法存在以下兩點不足。

⑴ 特征單一:僅僅利用到語句中的情感詞或情感短語,其他詞語都被忽略。

⑵ 語句結構無法分析:對復雜句等句法結構復雜的語句,該方法就凸顯出其不足。

2 多特征融合的語句情感分析

2.1 基本框架

本文提出的多特征融合的語句情感傾向分析方法框架如圖1所示,虛線表示部分為訓練過程,其目的是構建多標記情感傾向分類器。該方法的重點是抽取語句中的多種特征,并用這些特征來表示相應語句。從圖1框架可以看出,特征抽取過程離不開各類詞典,如情感詞典、否定詞詞典、連詞詞典等。同時,語句句法特征在一定程度上也影響語句的情感。

2.2 情感向量空間模型

為了精確識別語句的多標記情感傾向,我們盡可能的從語句或文本中抽取大量的特征,用于語句情感傾向分析過程。在對語句進行分詞、詞性標注、中性詞和停用詞去除后,僅保留語句中的情感詞。

在Ren-CECps中文情感語料庫[7]中,每個情感詞都標注了情感傾向及情感強度,抽取該語料庫訓練數據中的所有情感詞構建情感詞典,并將情感詞典應用于語句情感傾向分析中。

依據“BOW”模型,將語句看作一個由情感詞組成的情感詞集合,則語句可以表示為如下形式:

2.3 基于主題的情感向量空間模型

在一篇文章中,語句的情感傾向應該由最能反映文本主題的核心情感詞來決定。本文將主題特征引入語句的情感傾向判別過程中,利用主題特征來調整情感詞語的情感強度,進而調整語句的情感傾向及強度。

隱含狄列克雷分布LDA是Blei等人[8]在2003年提出,是一個“文本-主題-詞”的三層貝葉斯生成式模型。隨后Griffiths等[9]對主題-詞的概率分布也引入一個超參數使其服從Dirichlet分布,從而得到一個完整的生成模型。

LDA模型的參數個數只與主題數和詞語數有關,而與語料庫大小無關,適合于處理大規模語料庫。

將潛在主題特征融入語句情感傾向判別過程中,針對文檔[D]引入LDA模型,得到[T]個隱含主題[T={t1,t2,…,tT}]以及主題-詞的概率分布[φ],利用“文本-主題-詞”之間的概率分布來識別符合文本主題特征的情感詞。從[T]個隱含主題中找出概率權重最大的主題[tm],將其應用于語句情感傾向判別公式⑶中,得到含有主題特征的語句情感傾向判別公式,公式表示如下:

2.4 語句情感傾向分析

在一個語句中,除去情感詞語外,還會包含其他有意義的詞語,這些詞語會影響甚至改變語句的情感傾向。為了更好的識別語句情感傾向,我們進一步從語句中提取一些附加特征,用于語句情感傾向判別。這些附加特征是:否定特征、程度特征和轉折特征。

⑴ 否定特征

否定特征是語句中一個重要的語法特征,否定詞可以改變請轄域范圍內情感詞語的情感傾向,從而改變語句的情感[10-12]。否定詞的轄域一般是從否定詞后開始直至句尾,修飾對象一般直接位于否定詞后面。否定詞的選擇將直接影響語句情感傾向的識別,我們基于HowNet詞典構建否定詞詞典。

在本文語句情感傾向識別任務中,我們采用鄰近原則,即否定詞僅僅修飾其后的第一個情感詞語。本章直接采用一種相對簡單的處理規則,調節被否定詞修飾的情感詞語的情感傾向強度,從而改變語句的情感傾向。

當情感詞wi前存在奇數個否定詞時,情感詞wi的情感傾向強度發生變化;當情感詞wi前沒有否定詞或存在偶數個否定詞時,情感詞wi的情感傾向強度不變。

⑵ 程度特征

在副詞中有一類特別的副詞就是程度副詞,一般修飾動詞和形容詞。程度詞語不能改變所修飾的情感詞語的情感傾向,但會影響情感詞語的情感強度,主要表現在增強或減弱所修飾情感詞語的情感強度。

依據HowNet詞典中中文程度級別詞語整理出一個程度詞典,共含有140個程度副詞。為每一個程度副詞設定相應的等級,等級取值為2、3、4、5。

⑶ 轉折特征

理解語句的結構關系將有助于語句情感傾向的判別。根據語句結構特征,中文語句一般可以分為簡單句和復合句。簡單句的情感傾向識別相對簡單,可以直接利用前面介紹的方法進行識別。復合句比較復雜。

復合句子之間的主從關系可以分為并列關系、因果關系和轉折關系。對于并列關系的復合句,子句之間關系平等,表達的情感傾向也保持一致。因果關系的復合句反映子句之間的因果關系,子句之間情感傾向保持一致,但情感傾向強度存在差異。對于蘊含轉折關系的復合句,子句之間表達相互矛盾或截然相反的意義,導致子句之間的情感傾向完全相反,整個語句的情感傾向由最后一個子句的情感傾向所決定。

3 實驗結果與分析

3.1 實驗數據

本章實驗數據主要來自三個數據集,其中兩個是中科院譚松波提供的中文情感挖掘語料,使用其中去重后正負類各2000篇的酒店類評論語料和去重后正負各2000篇的圖書評論語料,句子的情感傾向為正負2類;另一個是Ren-CECps中文情感語料庫,語句的情感傾向分為8類,針對語句進行多標記情感傾向識別。上述數據集的統計信息如表1所示。

本文主要進行兩類實驗,一個實驗是利用酒店評論語料和圖書評論語料,來識別語句情感的正負性,屬于一個情感傾向單標記分類問題研究;另一個實驗是在Ren-CECps語料庫中識別語句的多個情感傾向,屬于情感傾向多標記分類問題研究。

在實驗中,將傳統詞袋模型判別語句情感傾向方法記作BOW,將主題特征融入語句情感傾向識別的方法記作TM,將多種特征融合進行語句情感傾向識別方法記作Combine。

3.2 實驗結果

⑴ Tan數據集實驗結果

針對該實驗,從酒店評論語料中隨機選擇20條語句構成一個文本,共生成200篇短文本。同理,對圖書評論語料進行同樣操作,生成200篇短文本。將400篇酒店與圖書評論文本作為實驗一的數據集,隨機選取300篇作為訓練數據,100篇作為測試數據。預處理階段采用ICTCLAS對數據集進行分詞和詞性標注。情感詞典采用HowNet情感詞(2090個)和HowNet評價詞(6846個)構成基本情感詞典,去除其中的單字情感詞。

將文本主題特征應用于語句情感傾向性識別過程中,圖2反映了語句情感傾向識別正確率與主題特征之間的關系。

從圖2中可以看出,在兩個數據集中,當主題數量從1增加到10時,情感傾向識別正確率提高最快,隨后正確率增長緩慢。當主題數量處于30以上時,語句情感傾向識別正確率都不再提高,甚至有時會下降。同時,我們看到,基于Ren-CECps語料數據的多標記情感傾向識別正確率高于Tan語料數據的單標記情感傾向識別。分析數據集特點后,認為主要原因是在Ren-CECps數據集中,文本中語句關系更緊密,主題特征更加突出,對情感詞作用較大,而Tan數據集中文本是從原始語料中隨機抽取生成的,可能構成文本的若干語句之間在主題特征上毫無關系,從而導致主題特征作用不明顯。

⑵ Ren-CECps數據集實驗結果

在實驗中,對Ren-CECps語料庫進行多標記語句情感傾向判別。Ren-CECps中文情感語料庫中每個語句的情感傾向被標記為驚訝,悲傷,喜愛,高興,憎恨,期待,焦慮,生氣8類情感類別的一個子集。選取Ren-CECps中文情感語料庫中1000篇文本作為數據集,去除數據中少量中性情感的句子,從中隨機選取800篇作為訓練數據,200篇作為測試數據。從訓練數據中抽取情感詞語構建實驗所需的情感詞典。利用LDA模型進行主題特征發現。

針對Ren-CECps數據集,我們進行以下兩個語句多標記情感傾向識別實驗。

⑴ 正確識別語句多標記情感傾向中的任何一個。

⑵ 正確識別語句多標記情感傾向中強度最高的情感傾向。

在實驗⑴中,采用宏平均和微平均值來對比BOW、TM和Combine方法識別語句多標記情感傾向效果,如表2所示。

表2表明,主題特征對于文中語句情感傾向識別影響較大,融入主題特征后,情感傾向識別效果有明顯提高。同時,當輔助特征也融入語句情感傾向識別后,情感傾向識別效果又進一步提高,說明這些輔助特征也是影響語句情感傾向識別的因素。

在實驗⑵中,采用宏平均F1、微平均F1、宏平均正確率和微平均正確率來衡量三種方法在識別情感強度最高的情感傾向中的效果,如表3所示。

表3表明,主題特征在與情感傾向強度有關的情感識別過程中發揮重要作用,多特征融合方法也取得了較好的實驗效果。對比實驗⑴發現,宏平均正確率和微平均正確率都有所下降,這說明識別語句多標記情感傾向中的一類或幾類情感傾向相對容易,但識別情感強度最高的情感相對困難。

3.3 實驗結果分析

對于語句情感傾向識別問題,借助詞袋模型,通過情感詞語來識別語句的情感傾向,但無論在Tan語料或Ren-CECps語料中語句情感傾向識別效率都很一般。在此基礎上,將主題特征融入語句情感傾向判別中,判別效果獲得了較大提高。否定詞、程度副詞和連接詞等輔助特征的應用,識別效果獲得進一步提高。實驗結果說明情感詞語、主題特征、否定詞、程度副詞和連接詞等特征有助于語句情感傾向識別,因此本文提出的多特征融合的語句情感傾向分析方法是有效的。

對于語句情感傾向識別中產生的錯誤,可能引起的原因有以下四點:

⑴ 情感詞語的情感傾向及強度判斷錯誤。

⑵ 否定詞作用范圍判斷不準確。

⑶ 部分連接詞無法識別,從而導致語句情感傾向判別錯誤。

⑷ 人類情感具有主觀性和復雜性,一種情感的產生往往會引發產生另一種情感,不同情感傾向之間存在一定的依賴關系。

4 結束語

本文分析了語句的多標記情感傾向識別問題,提出一種多特征融合的語句情感傾向識別方法,充分利用情感詞語、主題特征和其他輔助特征來識別語句多標記情感傾向。

在語句情感分析研究中,語句的情感傾向主要分為褒貶兩類。近年來,有學者意識到情感的復雜性,僅僅用褒貶兩類情感傾向無法完全描述全部情感傾向,開始研究多標記情感傾向問題。研究方法主要有基于詞典方法和基于語料方法,前者需要構建豐富的情感詞典,利用該詞典來識別語句情感傾向,后者借鑒機器學習方法,利用語料的統計信息來識別語句情感傾向。本文將詞典信息和語料統計信息相結合,從而吸取兩種方法的優點,實現語句多標記情感傾向識別。

本文研究一般語句的多標記情感傾向識別問題,但文本中也存在很多特殊語句,如否定句、條件句、比較句等。特殊語句往往都蘊含一些自身特有的特征信息,這些特征有助于識別特殊語句的情感傾向。特殊語句的多標記情感傾向識別將是未來研究的一個熱點問題,值得進一步探索和研究。

參考文獻(References):

[1] Hu M, Liu B. Mining and summarizing customer reviews.Proceedings of the 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, New York, NY, USA: ACM,2004:168-177

[2] YangBishan, Cardie Claire. Context-aware learning for?sentence-level sentiment analysis with posterior regularization. Proceedings of the ACL 2014, Baltimore, ACL, 2014:325-335

[3] Narayanan R, Liu B, Choudhary A. Sentiment analysis of conditional sentences. Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing, Stroudsburg,PA,USA:ACL,2009:180-189

[4] ZhaoYanyan, Qin Bing, Liu Ting. Integrating Intra- and Inter- document Evidences for Improving Sentence Sentiment Classification.ACTA AUTOMATICA SINICA,2010.36(10):1417-1425

[5] 宋銳,林鴻飛,常富洋.中文比較句識別及比較關系抽取[J].中文信息學報,2009.23(2):102-107

[6]? Hu M, Liu B. Mining and summarizing customer reviews.Proceedings of the 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, New York, NY, USA: ACM,2004:168-177

[7]? Quan C, Ren F. A blog emotion corpus for emotional expression analysis in Chinese. Computer Speech and Language,2010.24(4):726-749

[8] Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation.?Journal of Machine Learning Research,2003.3:993-1022

[9] Griffths T L, Steyvers M. Finding scientific topics.?Proceedings of the National Academy of Sciences of the United States of America,2004.101(1):5228-5235

[10] LillianeHaegeman.The Syntax of Negation. Cambridge Press, New York,1995.

[11] 陳莉,李寶倫,潘海華.漢語否定詞“不”的句法地位[J].語言科學,2013.12(4):337-348

[12] Ren Fuji, Quanchangqin. Automatic annotation of word emotion in sentences based on ren-cecps.Proceedings of the 9th International Conference on Language Resources and Evaluation, Malta,2010.

主站蜘蛛池模板: 国产网站免费| 天天躁狠狠躁| 国产屁屁影院| 亚洲AV一二三区无码AV蜜桃| 97在线国产视频| 日韩中文精品亚洲第三区| 亚洲欧美日韩另类在线一| 国产香蕉在线视频| 免费日韩在线视频| 宅男噜噜噜66国产在线观看| 久久久精品国产SM调教网站| 色一情一乱一伦一区二区三区小说| 久久不卡国产精品无码| 日本五区在线不卡精品| 国产91成人| 一级毛片在线直接观看| 亚洲妓女综合网995久久| 亚洲男人的天堂在线观看| 久久精品人妻中文系列| 狠狠ⅴ日韩v欧美v天堂| 国产97视频在线观看| 三级毛片在线播放| 人人艹人人爽| 亚洲日韩精品无码专区97| 无码精油按摩潮喷在线播放 | 国产剧情伊人| 国产午夜无码专区喷水| 114级毛片免费观看| 国产精品浪潮Av| 在线五月婷婷| 欧美国产中文| 日本一区高清| 免费视频在线2021入口| 亚洲精品视频网| 久久黄色影院| 伊在人亞洲香蕉精品區| 99伊人精品| 婷婷开心中文字幕| 黄色片中文字幕| 99精品影院| 亚洲男女在线| 青青青视频免费一区二区| 性视频久久| 亚洲性一区| 99精品国产电影| 国产超薄肉色丝袜网站| 四虎影院国产| 久久精品这里只有国产中文精品 | 国产美女免费| 国产精品一区二区无码免费看片| 四虎永久在线| 国产导航在线| 波多野结衣中文字幕一区| 国产黄色视频综合| 99久视频| 97在线观看视频免费| 亚洲婷婷六月| 日本伊人色综合网| 国产精品所毛片视频| 国产欧美亚洲精品第3页在线| 日韩在线第三页| 久夜色精品国产噜噜| 色综合成人| 亚洲一区二区三区国产精品| 无码区日韩专区免费系列 | 国产精品真实对白精彩久久| 91黄视频在线观看| 国产区在线看| 色婷婷亚洲综合五月| 国产www网站| 国产a网站| 无码综合天天久久综合网| 久久综合一个色综合网| www.精品视频| www.亚洲一区| 激情爆乳一区二区| 亚洲色欲色欲www在线观看| 99久久精品国产精品亚洲| 成年A级毛片| 人人澡人人爽欧美一区| 国产不卡国语在线| 91成人精品视频|