999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于最大熵的中文詞語(yǔ)情感分析研究

2018-02-13 01:38:12王磊
計(jì)算機(jī)時(shí)代 2018年12期

王磊

摘? 要: 情感詞在文本情感分析中處于舉足輕重的地位,詞語(yǔ)情感傾向的不確定性會(huì)受到詞語(yǔ)上下文環(huán)境的影響。針對(duì)詞語(yǔ)上下文環(huán)境,提出一種基于最大熵模型的詞語(yǔ)情感傾向分析方法,從詞語(yǔ)上下文中提取詞語(yǔ)特征、詞語(yǔ)關(guān)系特征、詞語(yǔ)語(yǔ)義特征和詞語(yǔ)情感特征,采用最大熵模型來(lái)識(shí)別詞語(yǔ)的情感傾向,并利用平滑技術(shù)解決特征稀疏問(wèn)題。同時(shí),利用詞語(yǔ)與句子之間的情感聯(lián)系,進(jìn)一步消除詞語(yǔ)情感傾向的不確定性。實(shí)驗(yàn)結(jié)果表明,該方法在詞語(yǔ)情感傾向識(shí)別上取得了令人滿意的效果。

關(guān)鍵詞: 情感分析; 最大熵; 語(yǔ)義特征; 情感傾向

中圖分類號(hào):TP391? ? ? ? ? 文獻(xiàn)標(biāo)志碼:A? ? ?文章編號(hào):1006-8228(2018)12-07-05

Abstract: Emotion words with sentiment polarity play important roles in text sentiment analysis. Uncertainties of sentiment polarity of words are affected by their contexts. In light of these contexts, a method is put forward in this paper to analyze sentiment polarity of words based on maximum entropy models. Features of words, relationships of words, semantic features and emotional characteristics of words are extracted from contexts. Then, sentiment polarity of words is identified by maximum entropy models, and problems concerning sparse features are solved by smoothing techniques. In the meantime, uncertainties of sentiment polarity of words are further eliminated by emotional connections between words and sentences. Experimental results show that this method achieves satisfactory effects in recognizing sentiment polarity of words.

Key words: sentiment analysis; maximum entropy; semantic feature; sentiment polarity

0 引言

信息技術(shù)的發(fā)展使得人類交流方式發(fā)生了巨大改變,越來(lái)越多的用戶正不斷通過(guò)互聯(lián)網(wǎng)相互交流,從而獲取個(gè)人所需信息。這些信息數(shù)據(jù)大多都表現(xiàn)為半結(jié)構(gòu)化或非結(jié)構(gòu)化的文本數(shù)據(jù)形式,如產(chǎn)品評(píng)論、電影評(píng)論、新聞評(píng)論、博客等。這些文本信息更側(cè)重于表達(dá)個(gè)人對(duì)事物的主觀看法,帶有強(qiáng)烈的個(gè)人主觀情感特征,不同程度地反映了人們的各種喜好和情感傾向,如喜、怒、哀、樂(lè)等等。通過(guò)對(duì)在線文本信息的情感分析,可以很好地了解用戶對(duì)產(chǎn)品的喜愛(ài)程度,發(fā)現(xiàn)新聞事件的演化規(guī)律,認(rèn)識(shí)個(gè)體的情感狀態(tài),這一切都促進(jìn)了文本情感分析技術(shù)的發(fā)展,使之成為自然語(yǔ)言處理領(lǐng)域的一個(gè)研究熱點(diǎn)。

從語(yǔ)言學(xué)角度出發(fā),語(yǔ)言粒度從大到小依次為篇章,段落、句子,短語(yǔ)、詞、語(yǔ)素[1-2]。在現(xiàn)有的情感分析研究領(lǐng)域,大多數(shù)研究者都選擇詞作為基本的語(yǔ)言粒度和研究基礎(chǔ),利用詞的情感傾向來(lái)進(jìn)一步確定句子和篇章的情感傾向。詞的情感傾向識(shí)別方法可分為基于詞典和基于語(yǔ)料庫(kù)兩種方法[3-4]。基于詞典方法主要是利用已有詞典或詞語(yǔ)知識(shí)庫(kù)進(jìn)行擴(kuò)展生成情感詞典來(lái)直接識(shí)別詞語(yǔ)的情感極性。英文詞語(yǔ)情感詞典主要借助于WordNet[5]進(jìn)行,而中文詞語(yǔ)情感詞典則多借助于HowNet[6]。基于語(yǔ)料庫(kù)的方法首先對(duì)情感分析語(yǔ)料庫(kù)進(jìn)行人工標(biāo)注。在語(yǔ)料標(biāo)注的基礎(chǔ)上,利用大語(yǔ)料庫(kù)的統(tǒng)計(jì)特性,并借助詞語(yǔ)的共現(xiàn)關(guān)系、搭配關(guān)系或語(yǔ)義關(guān)系,來(lái)挖掘語(yǔ)料庫(kù)中的情感詞并判斷其情感傾向[7]。

近年來(lái),國(guó)內(nèi)外許多學(xué)者都發(fā)現(xiàn)領(lǐng)域知識(shí)和上下文知識(shí)會(huì)對(duì)文本情感分析產(chǎn)生巨大影響,先后開(kāi)展了基于領(lǐng)域知識(shí)的情感詞典構(gòu)建,跨領(lǐng)域情感分類及上下文有關(guān)的情感分析等方面研究[8]。

本文提出一種基于最大熵模型的方法,融合上下文依賴關(guān)系,應(yīng)用于詞語(yǔ)情感傾向識(shí)別中。

1 最大熵模型

最大熵模型是基于信息熵理論建立起來(lái)的概率統(tǒng)計(jì)模型,采用概率估計(jì)的方法[9]。假設(shè)x是某個(gè)事件,y是事件x發(fā)生的上下文環(huán)境,則x和y的聯(lián)合概率記為p(x,y)。對(duì)于詞的情感傾向性識(shí)別問(wèn)題,一個(gè)情感詞屬于某個(gè)情感,可以看成一個(gè)事件,文檔中關(guān)于情感詞的各類特征可以看作事件發(fā)生的環(huán)境。

定義1 給定一個(gè)訓(xùn)練集,定義E={e1,e2,…,em}是情感詞的情感傾向集合,C={c1,c2,…,cn}是文檔中獲取的關(guān)于情感詞的特征集合,則可以使用公式⑴來(lái)進(jìn)行概率估計(jì):

該概率估計(jì)方法存在一個(gè)問(wèn)題即“稀疏矩陣”問(wèn)題,對(duì)于較大規(guī)模的訓(xùn)練集,存在大量二元組(ei,cj)未曾同時(shí)出現(xiàn)過(guò),則認(rèn)為該二元組的概率估計(jì)為零。本文根據(jù)訓(xùn)練集的具體情況,將采取一種平滑技術(shù)來(lái)解決該問(wèn)題。

根據(jù)Shannon的定義,熵的計(jì)算公式如下:

求解滿足最大熵原則的概率分布公式如下:

盡管從訓(xùn)練集無(wú)法獲取所有二元組(ei,cj)的聯(lián)合概率值,但可以從中獲取部分二元組的聯(lián)合概率值或某些約束條件,這樣就將問(wèn)題轉(zhuǎn)化為求解部分約束條件下的最大熵問(wèn)題。

根據(jù)詞語(yǔ)自身特征及語(yǔ)言上下文環(huán)境,可以定義多個(gè)特征函數(shù)。

定義2 假設(shè)存在n個(gè)特征函數(shù)f1,f2,…,fn,且,則最大熵模型可以描述為在滿足約束條件的所有模型中選取熵最大的模型,如公式⑻和公式⑼所示:

拉格朗日乘子算法是求解約束條件下最優(yōu)解的經(jīng)典方法,本文也采用該方法來(lái)求解公式⑼,從而得到公式解如下:

λi是特征函數(shù)fi的權(quán)重,訓(xùn)練過(guò)程就是通過(guò)在訓(xùn)練集上的學(xué)習(xí)過(guò)程來(lái)求出每個(gè)λi值。

2 詞語(yǔ)的情感傾向性分析

2.1 基本框架

本文提出一個(gè)基于最大熵模型的詞語(yǔ)情感傾向分析方法,其分析方法框架結(jié)構(gòu)如圖1所示。

該方法以句子中所含情感詞語(yǔ)為研究對(duì)象,利用最大熵模型和詞句之間情感關(guān)系來(lái)識(shí)別句子中情感詞的情感傾向。從訓(xùn)練語(yǔ)料中進(jìn)行特征提取并構(gòu)建最大熵分類器(A部分),從測(cè)試語(yǔ)料中提取特征輸入最大熵分類器中(B部分),初步識(shí)別詞語(yǔ)的情感傾向,再利用詞句之間的情感關(guān)系特征來(lái)修改詞語(yǔ)的情感傾向。

2.2 特征選擇

從數(shù)據(jù)訓(xùn)練集中,我們抽取下列上下文特征應(yīng)用于最大熵模型中,這些特征描述如下。

⑴ 詞語(yǔ)情感特征(Word Emotion Feature: WEF):依據(jù)訓(xùn)練語(yǔ)料中的統(tǒng)計(jì)信息,利用候選詞wi自身所擁有的情感傾向特征來(lái)直接判別其情感傾向。

⑵ 詞語(yǔ)前后詞特征(N Word Feature:NWF):利用候選詞wi在句子中前后n個(gè)詞語(yǔ)的這個(gè)上下文特征來(lái)識(shí)別候選詞情感傾向:wi-n,…,wi,…,wi+n。

⑶ 詞語(yǔ)詞性特征(POS Word Feature: PWF):利用候選詞wi及其在句子中前后n個(gè)詞語(yǔ)的詞性特征來(lái)識(shí)別候選詞wi的情感傾向。在Ren-CECps中文情感語(yǔ)料庫(kù)[10]中所有句子均進(jìn)行分詞和詞性標(biāo)注,正確率達(dá)到97%,詞性包含35類。

⑷ 前N個(gè)情感詞特征(Pre-N Emotion Feature: PNEF):利用候選詞wi的前n個(gè)情感詞的情感特征來(lái)識(shí)別候選詞wi的情感傾向。

利用最大熵模型識(shí)別詞語(yǔ)情感傾向的流程圖如圖2所示:

2.3 平滑技術(shù)

對(duì)于詞語(yǔ)多標(biāo)記情感傾向識(shí)別問(wèn)題,大多數(shù)詞語(yǔ)擁有多個(gè)情感傾向中的一個(gè)或兩個(gè)情感傾向,僅少數(shù)詞語(yǔ)擁有三個(gè)情感傾向,這樣就導(dǎo)致許多詞語(yǔ)的情感特征是非常稀疏的。

針對(duì)這種問(wèn)題,本文采用絕對(duì)折扣平滑技術(shù)來(lái)進(jìn)行處理,直接給所有出現(xiàn)次數(shù)為零的特征賦予一個(gè)值 ,特征函數(shù)公式⑷轉(zhuǎn)換為公式⑿。

其中,d=0.05,N是詞語(yǔ)w在訓(xùn)練集中出現(xiàn)的次數(shù),count(w,c)是訓(xùn)練集中詞語(yǔ)w在上下文條件c中出現(xiàn)的次數(shù)。

2.4 詞句之間情感關(guān)系

為了進(jìn)一步提高情感詞語(yǔ)情感傾向識(shí)別的準(zhǔn)確性,可以利用情感詞語(yǔ)與句子之間的情感關(guān)系來(lái)調(diào)整情感詞語(yǔ)的情感傾向。按照如下關(guān)系進(jìn)行迭代計(jì)算,直到獲得穩(wěn)定的情感詞語(yǔ)情感傾向及強(qiáng)度。

α是一個(gè)可調(diào)節(jié)參數(shù),在實(shí)驗(yàn)中取值0.64,e(w)i表示第i次迭代時(shí)情感詞w的情感傾向強(qiáng)度值,Sens(w)表示一篇文檔中包含情感詞w的所有語(yǔ)句集合,e(Sens(w))表示包含所有語(yǔ)句的句子集的情感傾向強(qiáng)度值,nsen表示句子集中語(yǔ)句的個(gè)數(shù),senw為包含情感詞w的一個(gè)句子,e(senw)是包含情感詞w的一個(gè)句子的情感傾向強(qiáng)度值,nw表示一個(gè)句子中所含情感詞語(yǔ)的個(gè)數(shù)。

在整個(gè)迭代計(jì)算過(guò)程中,充分利用情感詞語(yǔ)與句子集之間的情感關(guān)系來(lái)修正詞語(yǔ)的情感傾向強(qiáng)度,進(jìn)而識(shí)別詞語(yǔ)的情感傾向。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 實(shí)驗(yàn)數(shù)據(jù)

本文實(shí)驗(yàn)數(shù)據(jù)主要來(lái)自兩個(gè)數(shù)據(jù)集,一個(gè)是中科院譚松波提供的中文情感挖掘語(yǔ)料,使用其中去重后正負(fù)類各2000篇的酒店類評(píng)論語(yǔ)料,詞語(yǔ)及句子的情感傾向?yàn)檎?fù)2類;另一個(gè)是Ren-CECps中文情感語(yǔ)料庫(kù),詞語(yǔ)及句子的情感傾向分為8類,針對(duì)詞語(yǔ)進(jìn)行多標(biāo)記情感傾向識(shí)別。上述數(shù)據(jù)集的統(tǒng)計(jì)信息如表1所示:

本文主要進(jìn)行兩類實(shí)驗(yàn),實(shí)驗(yàn)一是利用酒店評(píng)論語(yǔ)料,來(lái)識(shí)別情感詞的情感正負(fù)極性,是一個(gè)情感傾向二元分類問(wèn)題研究;實(shí)驗(yàn)二是在Ren-CECps語(yǔ)料庫(kù)中識(shí)別情感詞的多個(gè)情感傾向,屬于情感傾向多標(biāo)記分類問(wèn)題研究。

3.2 實(shí)驗(yàn)設(shè)置

采用中文傾向性分析測(cè)評(píng)任務(wù)中規(guī)定的評(píng)測(cè)方法[11],針對(duì)每個(gè)情感傾向,采用精確率Precison,召回率Recall和F-measure值作為評(píng)價(jià)標(biāo)準(zhǔn)。

3.3 實(shí)驗(yàn)結(jié)果與分析

實(shí)驗(yàn)一針對(duì)酒店評(píng)論語(yǔ)料中的情感詞進(jìn)行正負(fù)兩類情感傾向識(shí)別,選擇語(yǔ)料數(shù)據(jù)中的形容詞構(gòu)成實(shí)驗(yàn)數(shù)據(jù)集,將實(shí)驗(yàn)數(shù)據(jù)集分為訓(xùn)練語(yǔ)料和測(cè)試語(yǔ)料,識(shí)別測(cè)試語(yǔ)料中候選詞的情感傾向。

預(yù)處理階段采用ICTCLAS對(duì)語(yǔ)料進(jìn)行分詞和詞性標(biāo)注。情感詞典采用HowNet情感詞(2090個(gè))和HowNet評(píng)價(jià)詞(6846個(gè))構(gòu)成基本情感詞典,然后去除其中的單字情感詞。

將利用最大熵模型進(jìn)行詞語(yǔ)情感傾向識(shí)別方法記作MaxEnt,將詞語(yǔ)與句子之間情感關(guān)系融入最大熵模型的詞語(yǔ)情感傾向識(shí)別方法記作Combine。

特征表示如下:F=WEF+NWF+PWF,其中n=1。詞語(yǔ)情感傾向識(shí)別結(jié)果如圖3所示。

對(duì)于實(shí)驗(yàn)結(jié)果,我們看到兩種方法在識(shí)別候選詞的褒貶兩類情感傾向上取得了不錯(cuò)的效果,而且在融合詞句之間的情感關(guān)系后,詞語(yǔ)情感傾向識(shí)別效果得到進(jìn)一步提高。

實(shí)驗(yàn)二針對(duì)Ren-CECps語(yǔ)料庫(kù)進(jìn)行情感詞的多標(biāo)記情感傾向識(shí)別。從Ren-CECps中文情感語(yǔ)料庫(kù)中選擇1476篇中文博客文章,共34630個(gè)句子,101842個(gè)情感詞。針對(duì)該數(shù)據(jù)集,采用5折交叉驗(yàn)證方法進(jìn)行實(shí)驗(yàn)驗(yàn)證。

情感詞的多標(biāo)記情感傾向識(shí)別結(jié)果如表2所示,特征表示如下:F1=WEF;F2=NWF;F3=WEF+NWF;

F4=WEF+NWF+PWF;F5=WEF+NWF+PWF+PNEF,其中n=1。

表2中的實(shí)驗(yàn)結(jié)果可以看出,詞語(yǔ)情感傾向判別結(jié)果基本令人滿意,但詞語(yǔ)情感傾向識(shí)別率并不是特別高,這既反映出人類情感的復(fù)雜性,也反映出多標(biāo)記情感傾向識(shí)別比單標(biāo)記情感傾向識(shí)別要困難。

分析表2的實(shí)驗(yàn)結(jié)果我們發(fā)現(xiàn),僅采用詞語(yǔ)情感特征(WEF)識(shí)別候選詞情感傾向的精確率、召回率和F1值較低。隨著選取特征的增加,候選詞的精確率、召回率和F1值不斷提升。

通過(guò)實(shí)驗(yàn)二,分析詞語(yǔ)多標(biāo)記情感傾向識(shí)別中產(chǎn)生錯(cuò)誤的原因主要有以下幾點(diǎn):

⑴ 在數(shù)據(jù)集中存在部分短句,短句中可以提取的上下文特征較少。

⑵ 對(duì)于大多數(shù)情感詞,其中某一個(gè)情感傾向的情感強(qiáng)度較強(qiáng),容易識(shí)別。然而其他情感傾向強(qiáng)度較弱,識(shí)別困難。

4 結(jié)束語(yǔ)

本文主要分析詞語(yǔ)情感傾向識(shí)別問(wèn)題,提出一種基于最大熵模型的詞語(yǔ)情感多標(biāo)記傾向識(shí)別方法。在語(yǔ)料數(shù)據(jù)集中,提取詞語(yǔ)情感特征、詞性前后詞特征、詞語(yǔ)詞性特征和前N個(gè)情感詞特征來(lái)識(shí)別候選詞的情感傾向。對(duì)比酒店評(píng)論語(yǔ)料和Ren-CECps語(yǔ)料的實(shí)驗(yàn)結(jié)果,發(fā)現(xiàn)詞語(yǔ)多標(biāo)記情感傾向識(shí)別效果要低于褒貶兩類情感傾向識(shí)別效果,說(shuō)明人類情感的復(fù)雜性。

在初步識(shí)別詞語(yǔ)情感傾向后,分析詞語(yǔ)與句子之間的情感聯(lián)系建立詞語(yǔ)情感傾向修正公式,詞語(yǔ)情感傾向識(shí)別效果有所提升。實(shí)驗(yàn)結(jié)果表明,詞語(yǔ)的情感傾向與所在句子的情感傾向之間存在一定的聯(lián)系,利用這種情感聯(lián)系可以輔助詞語(yǔ)情感傾向的識(shí)別。

本文關(guān)于詞語(yǔ)情感傾向識(shí)別過(guò)程是分步驟、分階段進(jìn)行的,如何將三支決策理論思想應(yīng)用于詞語(yǔ)級(jí)情感傾向分析中,這是未來(lái)工作的一個(gè)研究方向。同時(shí),隨著網(wǎng)絡(luò)特定用語(yǔ)和網(wǎng)絡(luò)符號(hào)的逐漸增多,如何識(shí)別網(wǎng)絡(luò)用語(yǔ)的情感傾向,這是今后詞語(yǔ)級(jí)情感傾向研究工作的熱點(diǎn)之一。

參考文獻(xiàn)(References):

[1] 趙妍妍,秦兵,劉挺.文本情感分析[J].軟件學(xué)報(bào),2010.21(8):1834-1848

[2] 姚天昉,程希文,徐飛玉等.文本意見(jiàn)挖掘綜述[J].中文信息學(xué)報(bào),2008.22(3).

[3] Peter D Turney. Thumbs Up or Thumbs Down? Semantic?Orientation Applied to Unsupervised Classification of Reviews: Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics,2002:417-424

[4] Pang B, Lee L, Vaithyanathan S. Thumbs up? Sentiment?classification using machine learning techniques. In: Isabelle P, ed. Proc. of the EMNLP 2002. Morristown: ACL,2002:79-86

[5] Hu Ming, Liu Bin. Mining and Summarizing Customer?Reviews: Proceedings of the 10th International Conference on Knowledge Discovery and Data Mining,2004:168-177

[6] 朱嫣嵐,閔錦,周雅倩等.基于HowNet的詞匯語(yǔ)義傾向計(jì)算[J].中文信息學(xué)報(bào),2006.20(1):14-20

[7] Kushal Dave, Steve Lawrence, David M. Pennock. Mining?the peanut gallery: Opinion extraction and semantic classification of product reviews:Proceedings of WWW-03, 12th International Conference on the World Wide Web, Budapest, HU, ACM,2003:519-528

[8] Liu K,Zhao J. Cross-domain sentiment classification usinga two-stage method: Proceedings of the 18th ACM Conference on Information and Knowledge Management,New York,NY,USA, ACM,2009:1717-1720

[9] 李榮陸,王建會(huì),陳曉云,陶曉鵬,胡運(yùn)發(fā).使用最大熵模型進(jìn)行中文文本分類[J].計(jì)算機(jī)研究與發(fā)展,2005.42(18):94-101

[10] 任福繼等.Document for Ren-CECps 1.0, http://a1-www.is.tokushima-u.ac.jp/member/ren/Ren-CECps1.0/Ren-CECps1.0.html,2009.

[11] 譚松波,王素格,廖祥文等.第五屆中文傾向性分析測(cè)評(píng)總體報(bào)告.第五屆中文傾向性分析測(cè)評(píng)研討會(huì)論文集,2013:5-34

主站蜘蛛池模板: AV不卡在线永久免费观看| 国产乱子伦一区二区=| 波多野结衣久久高清免费| 国产在线观看99| 国产麻豆精品手机在线观看| 91午夜福利在线观看精品| 欧美日韩国产高清一区二区三区| 日本午夜影院| 精品国产一二三区| 91久久精品国产| 久久无码av一区二区三区| 国产一区三区二区中文在线| 日韩欧美中文字幕在线精品| 天天操精品| 暴力调教一区二区三区| 亚洲av无码成人专区| 日韩久久精品无码aV| 日韩在线第三页| 免费看一级毛片波多结衣| 国产91小视频| 99精品一区二区免费视频| 国产精品美女在线| 日本久久免费| 不卡网亚洲无码| 精品一区二区三区波多野结衣| 欧美成一级| 99视频国产精品| 波多野结衣亚洲一区| 亚洲成人动漫在线| 久久永久视频| 久久一级电影| 99激情网| 香蕉久人久人青草青草| 综合亚洲网| 精品一区国产精品| 亚洲Va中文字幕久久一区| 国产午夜福利在线小视频| 婷婷丁香在线观看| 欧美区一区| 午夜视频日本| 毛片国产精品完整版| 久久精品国产精品国产一区| 婷婷99视频精品全部在线观看 | 欧美亚洲香蕉| 亚洲色图欧美一区| 亚洲成a人片在线观看88| 97精品国产高清久久久久蜜芽| 99草精品视频| 国产视频入口| 久久www视频| 亚洲人成网站色7799在线播放| 最新日本中文字幕| 国产亚洲精品自在久久不卡| 久久精品只有这里有| 国产黄在线免费观看| 狠狠v日韩v欧美v| 国产午夜在线观看视频| 久久人妻xunleige无码| 精品一区二区三区中文字幕| 热热久久狠狠偷偷色男同 | 国产成人艳妇AA视频在线| 国产无人区一区二区三区| 最新国产你懂的在线网址| 国产精品9| 国产成人AV大片大片在线播放 | 国产成人综合亚洲欧美在| 亚洲天堂色色人体| 无码在线激情片| 国产打屁股免费区网站| 亚洲天堂网视频| 狂欢视频在线观看不卡| 日韩资源站| 九九久久99精品| 日韩在线欧美在线| 四虎成人精品在永久免费| 国产精品久久久久婷婷五月| 日本三级欧美三级| 免费人成又黄又爽的视频网站| 亚洲一区波多野结衣二区三区| 成人一区在线| 97精品国产高清久久久久蜜芽| 色婷婷狠狠干|