999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于語境情感消岐的評論傾向性分析

2017-04-17 01:24:32蔡肖紅劉培玉王智昊
鄭州大學學報(理學版) 2017年2期
關鍵詞:情感實驗

蔡肖紅, 劉培玉, 王智昊

(1.山東師范大學 信息科學與工程學院 山東 濟南 250014; 2.山東省分布式計算機軟件新技術重點實驗室 山東 濟南 250014)

基于語境情感消岐的評論傾向性分析

蔡肖紅1,2, 劉培玉1,2, 王智昊1,2

(1.山東師范大學 信息科學與工程學院 山東 濟南 250014; 2.山東省分布式計算機軟件新技術重點實驗室 山東 濟南 250014)

研究評論傾向性分析中情感詞的動態極性變化問題.用Apriori算法在語境基礎上挖掘情感歧義詞語搭配,構建出(情感對象,情感詞,情感傾向性)三元組形式的情感歧義詞搭配詞典,利用條件隨機場模型(CRFs)序列標注方法從評論文本中抽取出情感要素,在構建的情感歧義詞搭配詞典基礎上對評論文本進行了細粒度情感傾向性分析.在手機和電腦兩個領域的評論語料集上進行多組實驗,與傳統方法的對比實驗表明了方法的可行性,較為明顯地提高了情感傾向性分析的準確率.

情感歧義詞; CRFs; 語境; 細粒度; 情感要素

0 引言

情感分析主要的研究對象是互聯網上的海量文本信息,主要任務包括網絡文本的情感極性判斷、評價對象抽取和意見摘要[1]等.目前研究更傾向于細粒度級別的情感分析,如詞語或短語級的評價關系的識別和分析.細粒度的情感分析也稱為基于特征的情感分析,旨在從評論文本中抽取情感要素,為一些實際應用提供必要的細節信息[2].在評價對象和評價詞抽取及情感傾向性分析方面已有不少學者進行相關研究.文獻[3]利用關聯規則挖掘的方法依據詞頻信息抽取名詞和名詞短語作為產品屬性,并抽取產品屬性臨近的形容詞作為觀點,擴展低頻屬性詞,再通過剪枝處理移除噪聲,得到最終屬性集合,該方法由于規則限定導致召回率低.文獻[4]首次將基于條件隨機場的判別式學習模型運用于評論文本的細粒度情感分析,避免了特征之間的條件獨立性假設問題.王素格等利用依存句法分析結果分別建立了名詞、動詞及形容詞的組塊規則,設計評價對象與評價詞的搭配算法[5].徐冰等人將淺層句法信息和啟發式位置信息引入到條件隨機場模型中,在不增加領域情感詞典的情況下,有效地提高了系統的準確率[6].戴敏等人引入句法分析來豐富句法特征,使用基于條件隨機場模型的監督學習方法實現對英文的評價對象抽取[7].

此外,研究者們也嘗試了利用領域本體來解決細粒度的情感分析問題.姚天昉等人利用領域本體抽取汽車評論中的實體和特征,利用極性詞詞典識別用戶評論意見并判斷它們的褒貶性以及強度[8].郭沖等人針對細粒度的意見要素抽取和情感判定問題,定義了一種情感本體樹結構,并通過評價搭配抽取算法、評價搭配傾向預測算法和特征聚合算法自動構建領域情感本體樹[2].劉麗珍等基于產品特征之間的語義關系,設計詞性模式匹配方法提取特征詞和情感詞的固定搭配,并采用評論句的極性標簽結合否定詞典,逆向推測搭配組合的情感極性,構建領域情感本體,進一步設計本體節點匹配規則進行情感分析[9].

1 情感歧義詞搭配詞典的構建

1.1 情感歧義詞定義

情感傾向性分析中主要基于情感詞的極性與否定轉折等情感影響因子計算情感得分,本文從情感角度出發,挖掘情感歧義詞在不同語境中的動態情感傾向性.根據語境信息可將情感詞劃分為兩種:第一種是上下文無關型,具有明顯的褒貶傾向,如喜歡、討厭等;第二種是上下文相關型,如高、大、長、快等.第一種情感詞依據基礎情感詞典可得到確定的情感極性,然而第二種則需要結合情感詞所搭配的上下文語境信息,根據不同詞語的搭配動態地選擇情感極性,本文定義此類具有動態情感極性的情感詞為情感歧義詞.情感歧義詞具有動態情感極性(dynamic polarity),即在不同上下文語境中修飾不同產品屬性或搭配某些詞語時表現出不同的情感極性,例如:

comment1:這款新手機的配置很高,音質是亮點,就是價格太高了.

comment2:風扇有聲音,屏幕有亮點…

對比兩條評論可看出,comment1中有評論短語“配置、高”和“價格、高”,情感詞“高”在修飾產品屬性“配置”時是正向的情感,而在修飾產品屬性“價格”時是負向的情感;comment2中有評論短語“風扇、聲音”,“聲音”作為情感詞,和評價對象“風扇”搭配時表現出負向的情感傾向;comment2中評論短語“屏幕、亮點”,“亮點”作為情感詞,和評價對象“屏幕”搭配時表現出負向的情感傾向,而在comment1中評論短語(音質,亮點)中“亮點”作為情感詞,和評價對象“音質”搭配時表現出正向的情感傾向.情感歧義詞的動態情感極性確定依賴于上下文語境信息,根據所搭配的詞語不同,表現出不同的情感傾向性.

1.2 搭配詞典的構建

本文采用Apriori算法挖掘文本中的情感歧義詞語搭配集,詞語的集合看成是兩個item,詞語搭配的集合看成是transaction,找出兩個item中的元素在transaction上的并發關系.設I={i1,i2,…,im}是一個項目集合代表文本輸入,T={t1,t2,…,tn)是一個數據庫事務(transaction),其中每個事務ti是一個項目集合.從不同語境的詞語搭配方面選取情感歧義種子詞,如“亮點、低、聲音、大、小、快、慢、效率、水平、看法、脾氣、道德、問題、高…”,依據情感歧義詞大多是多義詞在不同語境表現動態情感極性的,借助HowNet和哈爾濱工業大學的同義詞詞林對情感歧義詞進行擴展,擴充多義詞和種子詞典的同義詞.給出搭配集和頻繁集[10],其中X,Y是item中兩個元素,最小支持度為α,最小置信度為β.本文針對評論短文本特點,對語料集分詞后,以構建的情感歧義詞種子詞典為中心詞,取前后6個詞與種子詞構成一個item,采用關聯規則挖掘方法,在transaction中先發現滿足α的搭配集,然后在搭配集中識別滿足β的頻繁集,α和β的值設定太小,剪枝不明顯,設置太大,導致搭配集噪音過大,本文實驗針對(αi,βi)取結果最好的一對參數α=0.01%,β=0.01%.

通過點互信息PMI(pointwise mutual information)來進一步挖掘詞語間搭配關系強度.用公式(1)計算詞語word1與word2的搭配關系強度,其中,P(word1)與P(word2)表示詞語word1與word2的出現概率,PMI(word1,word2)表示詞語word1與word2共同出現的概率,P(word)用公式(2)計算詞語word的tfidf值替換.PMI的值越大表示詞語word1與word2間的搭配關系越強.設定一個閾值δ,過濾掉詞語互信息滿足PMI(word1,word2)≤δ的弱關聯搭配對.

(1)

(2)

公式(2)中,W(t,d)為詞語t在句子d中的權重,tf(t,d)表示詞語t在句子d中出現頻率,N為訓練語料句子總數,ni表示訓練語料出現詞語t的句子數度,α取0.01,分母為歸一化因子.經過PMI過濾后構成情感歧義詞候選搭配集,利用情感詞典標注搭配集中評價詞語的情感極性,進而構建成情感歧義詞搭配詞典,詞條存儲形式:<情感對象,情感詞,情感傾向性>.在情感傾向性分析時,情感歧義詞動態極性值的確定需同時滿足詞語配對,解決同一情感詞修飾不同情感屬性時不同情感傾向的問題.

2 細粒度情感分析

2.1 條件隨機場模型(CRFs)

CRFs由 Lafferty 等人[11]在 2001 年的ICML會議(international conference on machine learning) 上提出,之后廣泛用于自然語言處理領域,特別是在分詞、詞性標注、命名實體識別等任務中表現出優良性能.CRFs是一種序列標注模型,在序列標注任務中,X={x1,x2,…,xn}為觀察序列,如中文分詞中對應字序列及其他一些特征.Y={y1,y2,…,yn}為標記序列,在中文分詞中對應位置角色標記序列.在命名實體識別任務中,X可以是一段文本,而Y則是相對應的類別標記序列.條件隨機場使用一種概率圖模型,具有表達長距離依賴性和交疊性特征的能力,能夠較好地解決分類偏置等問題,而且所有特征可以進行全局歸一化,能夠求得全局的最優解.評論語句可看成以字或詞為基本單位的序列,對情感詞和情感對象的抽取過程可看成一個序列標注的過程,基于CRFs能同步抽取情感詞和情感對象.

2.2 情感要素抽取

需要標注的情感要素包括情感對象,情感詞、情感修飾詞中否定修飾詞和程度級別修飾詞在詞性標注后,基于相應的否定詞典和程度級別詞典可判定得出.本文所選用的條件隨機場模型工具是綜合性能最好的CRF++.

2.2.1 抽取的特征

3) 情感歧義詞典特征DIC:將本文構建的情感歧義搭配詞典作為一項特征,可反應句中詞與詞之間的句法依賴關系,依賴特征包括詞語間和詞性直接的相互依賴.

2.2.2 構建標注集

為了實現對細粒度情感要素的有效識別,將標注集設置的相對簡單來防止特征稀疏,我們將標注集設定為4種標記.給定輸入序列W={wi},輸出標注序列Y={yt},yt∈{FO,SO,ADV,P}.標注集如表1所示.

表1 標注集示例

2.3 傾向性分析

通過CRFs序列標注出情感要素后,對抽取出的情感要素表達的觀點進行細粒度的分析,傳統方法基于基礎情感詞典,基礎情感詞典有知網的Hownet、臺灣大學的NTUSD、大連理工大學信息檢索研究室的中文情感詞匯本體庫.本文添加了網絡詞匯詞典、否定副詞詞典、程度副詞詞典和情感歧義詞搭配詞典進行特征級別的情感分析.網絡詞匯詞典包括給力、稀飯等正向情感詞以及和杯具、坑爹等負向情感詞;否定副詞詞典包含對情感表達逆轉的否定詞47個;程度副詞依據情感詞的情感強烈強度由低到高分為Ⅰ類、Ⅱ類、Ⅲ類、Ⅳ類、Ⅴ類、Ⅵ類共6個等級,詞典規模236個.

情感傾向計算算法的基本思想:利用情感詞和影響情感的情感修飾詞計算情感對象的情感.算法步驟如下:

1) 根據否定詞ni的情感值Negi和程度副詞di的情感值Modi,計算情感修飾詞的情感影響因子Qadvi,公式如下:

式中,存在否定詞時Negi取值-1,反之默認為1;Modi的值根據程度副詞的情感強度等級依次取值為{-0.5,0.5,0.8,1.2,1.6,2.0}.

2) 結合情感詞的極性Pi,計算情感要素組成的屬性觀點對的情感極性值Score(fti),

其中:F={ft1,ft2,…,fti,…,ftn};fti為評論語料中的產品屬性;n為產品屬性總數.

3) 計算產品屬性的正向情感強度Sentiment(fti)+和負向情感強度Sentiment(fti)-,

其中:cp和cn分別為產品屬性fti組成的觀點對情感傾向為正向和負向的語句數;wj與wk分別為正向和負向情感極性值的權重,主要依賴于產品屬性觀點對所在原評論的點贊數和用戶等級;Score(ftj)+和Score(ftk)-分別為產品屬性fti組成觀點對的正向和負向情感極性值.至此得到各個產品屬性對應的正負向情感強度值,情感傾向計算算法結束.

3 實驗與分析

3.1 數據集預處理

在構建的細粒度情感分析系統中進行實驗,采用數據采集模塊編寫的爬蟲程序從京東商城上采集2016年的手機和電腦兩個領域的評論數據,共采集手機評論60 681條,電腦評論41 561條,提取標簽組成特征觀點對存儲.實驗前針對本文研究內容對原始數據集進行預處理,處理過程包括原始語料集去重,過濾官方用戶回復評論,用戶的回復評論,只保留用戶原始評論數據,過濾曬單等文本無關評論,過濾廣告類虛假評論.中文分詞采用NLPIR漢語分詞系統,因分詞準確率直接影響后續情感要素抽取和情感分析的準確性,本文將標簽提取的屬性詞和評價詞、領域相關特征詞和未登錄網絡情感詞加入用戶詞典,如性價比、藍牙、坑爹、杯具、USB、藍屏等共82個,提高分詞準確率.采用評價標準是準確率、召回率以及F1值,分別記作Precision、Recall、F1.

3.2 不同上下文窗口長度下實驗結果

詞語之間的上下文關系影響CRFs模型對情感要素的識別,本文設置不同上下文窗口長度進行實驗,結果如表2所示.當上下文窗口長度為7時,識別效果最佳,也即詞語的上下文語境信息在詞語前后3個詞范圍內,區別于長篇文本的語境范圍,評論文本自身帶有用戶典型的口語化表達習慣,情感表達簡單直接.本文后續實驗均選用窗口長度為7的特征模板,避免窗口長度過大造成特征冗余和窗口長度過小造成上下文依賴不足.

3.3 訓練語料規模的影響

本實驗準備了5組手機領域的數據,依次增加訓練集的大小,其余參數保持不變,訓練集大小分別為200、500、1 000、2 000、4 000,實驗結果如圖1所示.由實驗結果可知,數據集越大,訓練語料中包含的情感要素模式也就越多,口語化表達也越多,情感要素的抽取效果越好.隨著數據集增大一定程度后,準確率和召回率的增長速度減緩.

表2 上下文窗口長度實驗結果

圖1 訓練集大小實驗結果圖Fig.1 Influence of training corpus size

3.4 情感要素抽取實驗結果

情感要素抽取結果如表3所示,本實驗分別在手機和電腦兩個領域各4 000條訓練集上進行實驗.由實驗結果可知,在手機和電腦兩個領域的情感要素抽取準確率都比較高,召回率偏低,主要是因為評論語料中包含很多不規范的口語化表達,情感詞語表達比較隨意,相對正規表達的情感要素來說抽取困難;對比手機和電腦兩個領域的實驗結果可看出,手機領域的抽取結果優于電腦領域的抽取結果,這主要是因為電腦產品部件多,操作系統硬件軟件等包含更多配件縮寫變形的口語表達.

表3 情感要素抽取實驗結果

3.5 傳統方法對比

由表4實驗結果看出,本文方法在添加情感歧義詞搭配詞典后,實驗結果在準確率和召回率上都有一定提高,原因在于通過搭配詞典能夠根據上下文詞語搭配,確定情感歧義詞的動態情感極性;召回率仍然較低,主要原因是評論文本中一部分隱式評價對象的情感流失,還有一部分不包含情感詞但包含表達情感傾向的句子,需要進行語義理解分析情感.

表4 與傳統方法對比實驗

4 結論

情感詞動態極性的確定對文本傾向性分析具有很大意義,本文基于上下文詞語搭配的語境信息角度,構建不同類型情感歧義詞的搭配詞典,在CRFs上監督訓練標注情感要素,通過否定詞和程度副詞的依賴搭配計算情感影響因子,基于情感詞典計算各產品屬性對應的正負向情感強度值,完成特征級別的細粒度情感分析.通過實驗結果分析可得本文方法是可行的,具有一定的研究意義.下一步將研究各不同領域產品評論專有領域詞典和隱式評價對象抽取問題,提高細粒度情感分析的準確率.

[1] 趙妍妍,秦兵,劉挺. 文本情感分析[J].軟件學報,2010,21(8):1834-1848.

[2] 郭沖,王振宇.面向細粒度意見挖掘的情感本體樹及自動構建[J].中文信息學報,2013,27(5):75-83.

[3] HU M,LIU B.Mining and summarizing customer reviews [C] // Tenth Acm Sigkdd International Conference on Knowledge Discovery & Data Mining.New York,2004:168-177.

[4] QI L,CHEN L.A linear-chain CRF-based learning approach for web opinion mining[C].Proceedings of the 11th international conference on Web information systems engineering.Hong Kong,2010:128-141.

[5] 王素格,吳蘇紅.基于依存關系的旅游景點評論的特征-觀點對抽取[J].中文信息學報,2012,26(3):116-121.

[6] 徐冰,趙鐵軍,王山雨,等.基于淺層句法特征的評價對象抽取研究[J].自動化學報,2011,37(10):1241-1247.

[7] 戴敏,王榮洋,李壽山,等.基于句法特征的評價對象抽取方法研究[J].中文信息學報,2014,28(4):92-97.

[8] 姚天昉,聶青陽,李建超,等.一個用于漢語汽車評論的意見挖掘系統[C]//中國中文信息學會二十五周年學術會議.北京,2006:260-281.

[9] 劉麗珍,趙新蕾,王函石.基于產品特征的領域情感本體構建[J].北京理工大學學報,2015,35(5):538-544.

[10]宋艷雪,張紹武,林鴻飛.基于語境歧義詞的句子情感傾向性分析[J].中文信息學報,2012,26(3):38-43.

[11]LAFFERTY J,MCCALLUM A,PEREIRA F.Conditional random fields: probabilistic models for segmenting and labeling sequence data [C]//Proceedings of the 18th International Conference on Machine Learning (ICML 2001).San Francisco,2001:282-289.

(責任編輯:王海科)

Sentiment Analysis of Comments Based on Contextual Emotional Disambiguation

CAI Xiaohong1,2, LIU Peiyu1,2, WANG Zhihao1,2

(1.SchoolofInformationScienceandEngineering,ShandongNormalUniversity,Ji′nan250014,China; 2.ShandongProvincialKeyLaboratoryforDistributedComputerSoftwareNovelTechnology,Ji′nan250014,China)

The problem of dynamic polarity change in sentiment analysis was studied. Apriori algorithm was used to expand the sentiment ambiguous words based on context, and constructed the sentiment ambiguous lexicon of triples (namely sentiment object, sentiment word, sentiment polarity). CRFs was used to extracted sentiment elements from comments. Finally, the completed fine-grained sentiment analysis based on the sentiment ambiguous lexicon was conducted. Multiple sets of experiments were performed on two domains of mobile phones and computers. Compared with the traditional method, the experimental results showed the feasibility of the proposed method and the improved accuracy of sentiment analysis.

sentiment ambiguous words; CRFs; context; fine-grained; sentiment elements

2016-10-28

國家自然科學基金項目(61373148);山東省科技發展計劃項目(2014GGX101004).

蔡肖紅(1989—),女,山東泰安人,碩士研究生,主要從事文本情感分析研究,E-mail:xhcai_nlp@126.com;通訊作者:劉培玉(1960—),男,山東濰坊人,教授,主要從事網絡信息安全、自然語言處理研究,E-mail:lpynlp@163.com.

TP391.1

A

1671-6841(2017)02-0048-06

10.13705/j.issn.1671-6841.2016305

猜你喜歡
情感實驗
記一次有趣的實驗
微型實驗里看“燃燒”
如何在情感中自我成長,保持獨立
被情感操縱的人有多可悲
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
做個怪怪長實驗
如何在情感中自我成長,保持獨立
NO與NO2相互轉化實驗的改進
情感移植
發明與創新(2016年6期)2016-08-21 13:49:38
主站蜘蛛池模板: 国产毛片基地| 在线视频97| 国产欧美在线观看视频| 亚洲伊人久久精品影院| 色婷婷成人网| 欧美一级片在线| 在线免费亚洲无码视频| 日韩精品一区二区三区视频免费看| 男女男精品视频| 久久99精品国产麻豆宅宅| av在线5g无码天天| 亚洲色图欧美| 欧美在线中文字幕| 日韩精品一区二区三区免费在线观看| 亚洲黄色成人| 国产视频大全| 成人精品在线观看| 亚洲男人天堂2018| 久久熟女AV| 天天色综网| 国产女人在线| 午夜福利在线观看成人| 国产特级毛片| 久久频这里精品99香蕉久网址| yy6080理论大片一级久久| 五月天综合婷婷| 亚洲精品男人天堂| 亚洲天堂.com| 国产无吗一区二区三区在线欢| 在线观看亚洲人成网站| 国产在线拍偷自揄拍精品| 国内精品九九久久久精品| 国产毛片片精品天天看视频| 亚洲欧美精品一中文字幕| 亚洲人成网站在线观看播放不卡| 在线观看免费AV网| 91探花在线观看国产最新| 最新国产麻豆aⅴ精品无| 看看一级毛片| 国产丝袜无码精品| 国产激情无码一区二区APP| 国产第一页亚洲| 亚洲AV无码精品无码久久蜜桃| 国产精品999在线| 国产99久久亚洲综合精品西瓜tv| 国产在线观看第二页| 亚洲成人高清在线观看| 在线国产三级| 啪啪免费视频一区二区| 午夜无码一区二区三区| 女人毛片a级大学毛片免费| 国产主播一区二区三区| 永久在线精品免费视频观看| 日韩中文无码av超清| 成年人国产视频| 国产永久无码观看在线| h视频在线观看网站| 亚洲精品va| 亚洲日韩AV无码一区二区三区人| 全部免费毛片免费播放| 国产视频自拍一区| 91亚洲视频下载| 一本久道久综合久久鬼色| 久草视频一区| 97在线免费| 无码日韩视频| 中文字幕在线播放不卡| 欧美视频免费一区二区三区| 99在线视频精品| 日韩一二三区视频精品| 亚洲精品人成网线在线| 色国产视频| 久久黄色一级片| 免费国产不卡午夜福在线观看| 四虎国产永久在线观看| 色综合综合网| 高潮毛片无遮挡高清视频播放| 久草国产在线观看| 欧美人与性动交a欧美精品| 国产精品深爱在线| 亚洲人成在线精品| 亚洲午夜片|