999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本特征的短文本傾向性分析研究

2015-04-21 09:26:52程南昌滕永林
中文信息學(xué)報(bào) 2015年2期
關(guān)鍵詞:特征文本情感

程南昌, 侯 敏, 滕永林

(1. 中國(guó)科學(xué)院自動(dòng)化研究所 模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 100190;2. 中國(guó)傳媒大學(xué) 國(guó)家語(yǔ)言資源監(jiān)測(cè)與研究中心有聲媒體語(yǔ)言中心, 北京 100024)

?

基于文本特征的短文本傾向性分析研究

程南昌1, 侯 敏2, 滕永林2

(1. 中國(guó)科學(xué)院自動(dòng)化研究所 模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 100190;2. 中國(guó)傳媒大學(xué) 國(guó)家語(yǔ)言資源監(jiān)測(cè)與研究中心有聲媒體語(yǔ)言中心, 北京 100024)

語(yǔ)篇傾向性分析是傾向性分析的較高層次領(lǐng)域。根據(jù)文本篇幅和結(jié)構(gòu)可以將語(yǔ)篇分為短文本和長(zhǎng)文本。該文以網(wǎng)絡(luò)商品評(píng)論作為樣本研究短文本傾向性分析的特點(diǎn)和策略。根據(jù)傾向極性在文中的決定性因素的不同表現(xiàn),短文本可以分為含顯性歸總句、含隱性歸總句、含特征詞以及一般文本四類(lèi),針對(duì)不同類(lèi)別文本采用不同的處理策略。在此基礎(chǔ)上,運(yùn)用詞典、規(guī)則的方法構(gòu)建了語(yǔ)篇傾向性分析系統(tǒng)CUCsas,該方法在第四屆中文傾向性分析評(píng)測(cè)(COAE2012)中取得了較好成績(jī)。

短文本;文本特征;歸總句;傾向性分析;詞典與規(guī)則

1 引言

過(guò)去時(shí)代,在傳統(tǒng)媒體中發(fā)表意見(jiàn)、體現(xiàn)輿情的主要是一些較長(zhǎng)的評(píng)論性文章,我們稱(chēng)之為“長(zhǎng)文本”;隨著網(wǎng)絡(luò)論壇的出現(xiàn),尤其是微博這一新媒體的出現(xiàn),人們發(fā)表意見(jiàn)的陣地極大拓寬,但與傳統(tǒng)評(píng)論文不同,論壇帖子一般不會(huì)很長(zhǎng),微博更是要求在140字之內(nèi),我們稱(chēng)之為“短文本”。長(zhǎng)文本和短文本都可以發(fā)表意見(jiàn)、表達(dá)態(tài)度,但它們具有不同的語(yǔ)篇結(jié)構(gòu)和語(yǔ)言特點(diǎn),所以在進(jìn)行傾向性分析時(shí),所采用的策略和方法也不相同。本文主要以網(wǎng)絡(luò)商品評(píng)論為樣本研究短文本傾向性分析的特點(diǎn)和策略。

2 相關(guān)技術(shù)

傾向性分析(也稱(chēng)情感分析、情感傾向分析、意見(jiàn)挖掘等),旨在研究人們對(duì)人物、事件及其屬性的主觀意見(jiàn)和評(píng)價(jià)[1-3]。該課題屬于多學(xué)科綜合的研究領(lǐng)域[4],其中涵蓋了自然語(yǔ)言處理、信息檢索、信息抽取、機(jī)器學(xué)習(xí)等多個(gè)領(lǐng)域[5]。按照處理文本的粒度不同,傾向性分析可以分為詞語(yǔ)級(jí)、短語(yǔ)級(jí)、句子級(jí)與篇章級(jí)幾個(gè)研究層次。每向上遞增一級(jí),情感分析難度要大很多。下面按不同顆粒度論述相關(guān)技術(shù)。

(1) 詞匯級(jí)

詞匯級(jí)的傾向性分析,基于WordNet和HowNet 等知識(shí)庫(kù)的方法和基于語(yǔ)料庫(kù)的方法較為常見(jiàn)。Kamps等[6]利用WordNet 中詞語(yǔ)的同義結(jié)構(gòu)圖,通過(guò)待測(cè)詞語(yǔ)與種子詞的相似度計(jì)算得出待測(cè)詞傾向值。朱嫣嵐等[7]在提取一定基準(zhǔn)詞的基礎(chǔ)上,利用HowNet提供的語(yǔ)義相似度和語(yǔ)義相關(guān)場(chǎng)功能計(jì)算待測(cè)詞語(yǔ)與基準(zhǔn)詞的相似度來(lái)進(jìn)行傾向值計(jì)算。Kim和Hovy[8]運(yùn)用手工的方式收集了一些褒義和貶義的詞匯,在此基礎(chǔ)上借助WordNet 同義詞來(lái)擴(kuò)展這個(gè)集合。通過(guò)對(duì)詞語(yǔ)同義詞組在原始褒義詞集合和貶義詞集合對(duì)比上,計(jì)算詞語(yǔ)的褒貶置信度,最后根據(jù)閾值判斷詞語(yǔ)極性?;谡Z(yǔ)料庫(kù)的方法主要是利用詞語(yǔ)之間的連詞以及統(tǒng)計(jì)特征來(lái)判別詞語(yǔ)的情感極性。Yuen等人[9]利用Turney的點(diǎn)互信息,用小規(guī)模的語(yǔ)料庫(kù)來(lái)判別詞語(yǔ)的傾向極性。具體算法是將傾向極性已確定且情感色彩強(qiáng)烈的詞語(yǔ)作為種子詞,通過(guò)計(jì)算需要判斷傾向極性的詞語(yǔ)與這些種子詞的互信息。

(2) 短語(yǔ)級(jí)

短語(yǔ)的傾向計(jì)算難度比詞匯的要大,這主要體現(xiàn)在修飾語(yǔ)與情感詞間的動(dòng)態(tài)關(guān)系計(jì)算的復(fù)雜性上[10]。李鈍等[11]從語(yǔ)言學(xué)角度出發(fā),采用情感傾向定義權(quán)重優(yōu)先的計(jì)算方法獲得短語(yǔ)中各詞的語(yǔ)義傾向度,然后分析短語(yǔ)中各詞組合方式的特點(diǎn),提出中心詞概念來(lái)對(duì)各詞的傾向性進(jìn)行計(jì)算,以識(shí)別短語(yǔ)的傾向性和傾向強(qiáng)度。李雪燕等[12]研究了傾向性短語(yǔ)中較為復(fù)雜的否定性?xún)A向短語(yǔ),通過(guò)不同類(lèi)別的否定傾向模式,制定相應(yīng)計(jì)算規(guī)則,實(shí)現(xiàn)了對(duì)否定傾向短語(yǔ)的計(jì)算。

(3) 句子級(jí)

句子的傾向分析難度主要表現(xiàn)在表達(dá)方式的多樣化與句式的復(fù)雜性上,以句式來(lái)說(shuō),比較句與否定句的傾向分析就是兩個(gè)難點(diǎn)。姚天昉等[13]利用領(lǐng)域本體來(lái)抽取主觀句的主題及其屬性,然后在句法分析的基礎(chǔ)上,識(shí)別主題和情感描述項(xiàng)之間的關(guān)系,從而最終決定語(yǔ)句中每個(gè)主題的傾向極性。劉康等[14]在基于單層模型的句子褒貶度分類(lèi)方法中,針對(duì)標(biāo)記冗余引起的分類(lèi)精度不高的問(wèn)題,提出了基于層疊CRFs 模型的句子褒貶度分析方法。

(4) 篇章級(jí)

語(yǔ)篇的傾向性分析是傾向性分析的較高層次,所采用的技術(shù)無(wú)外乎基于規(guī)則的方法和基于統(tǒng)計(jì)的方法?;谝?guī)則的方法一般可以從計(jì)算詞語(yǔ)的傾向值開(kāi)始,然后逐級(jí)計(jì)算,到短語(yǔ)、句子,最后獲得整個(gè)篇章的傾向性。楊江[15]提出了一種基于淺層篇章結(jié)構(gòu)的評(píng)論文傾向性分析方法,主要采用情感詞典與規(guī)則相結(jié)合的方法,在實(shí)驗(yàn)中取得了較好的成績(jī)?;诮y(tǒng)計(jì)的方法則把傾向性分析看作一類(lèi)特殊的分類(lèi)問(wèn)題,關(guān)鍵的環(huán)節(jié)在于構(gòu)造合適的分類(lèi)器以及選擇恰當(dāng)?shù)奶卣?。Pang等[16]采用標(biāo)準(zhǔn)詞袋技術(shù)和樸素貝葉斯、最大熵、SVM 分類(lèi)方法,對(duì)Usenet 上的電影評(píng)論進(jìn)行文本傾向分類(lèi),并將它們和手工分類(lèi)結(jié)果進(jìn)行比較。實(shí)驗(yàn)結(jié)果顯示,SVM 在幾種分類(lèi)方法中效果最好,分類(lèi)準(zhǔn)確率最高接近80%。Turney[17]采用無(wú)指導(dǎo)的學(xué)習(xí)算法對(duì)評(píng)論文進(jìn)行褒貶分類(lèi),首先通過(guò)計(jì)算給定詞或短語(yǔ)與“Excellent”和“Poor”的互信息差來(lái)度量其語(yǔ)義傾向,然后將文本中詞和短語(yǔ)的平均語(yǔ)義傾向作為給定評(píng)論文的整體傾向。

在篇章級(jí)的傾向分析中,基于統(tǒng)計(jì)的方法把傾向性分析看作特殊的分類(lèi)問(wèn)題,而基于規(guī)則的方法一般是通過(guò)詞、短語(yǔ)以及句子的逐級(jí)計(jì)算,最后取平均值。目前的研究通常較少關(guān)注到語(yǔ)篇本身的特征在傾向性分析中的作用,因此,無(wú)法體現(xiàn)篇章級(jí)傾向分析與句子(短語(yǔ)、詞)傾向性分析的區(qū)別,也很難取得理想的效果。

3 短文本傾向性分析

3.1 短文本特征 短文本與長(zhǎng)文本不僅篇幅長(zhǎng)短不同,在語(yǔ)篇結(jié)構(gòu)及表現(xiàn)特征上也不相同。先看下面兩個(gè)網(wǎng)絡(luò)商品評(píng)論的短文本實(shí)例*文本所有用例均來(lái)源于COAE2012任務(wù)3提供的訓(xùn)練和測(cè)試語(yǔ)料,后面為該文本在語(yǔ)料中的統(tǒng)一編號(hào)。:

例1 總體來(lái)說(shuō)還是蠻不錯(cuò)的!這個(gè)價(jià)錢(qián)能做成這樣我覺(jué)得我們不應(yīng)該更挑剔了。而且效果和一般的機(jī)子真的不在一個(gè)層次上!而且收到的是心里想的黑色的,呵呵。最后說(shuō)一句,在信號(hào)不怎么好的地方,用配送的那個(gè)天線(xiàn),效果真的不一樣哦!

例2 是1628時(shí)買(mǎi)的,好像是比較低的價(jià)格了,雖然有IPONE4,又來(lái)買(mǎi)了2個(gè),一個(gè)送給自己,一個(gè)送給女朋友,女朋友非常喜歡??赏嫘院芨?,完全后悔買(mǎi)IDSI了,很多的游戲,只是有些需要花錢(qián),不過(guò)還真是科技含量很高,很值得一賞。

上述兩個(gè)短文本顯示了網(wǎng)絡(luò)商品評(píng)論的一般特征,歸納起來(lái)主要有以下幾點(diǎn):

1. 沒(méi)有標(biāo)題,表達(dá)隨意

與大部分論壇帖子和微博一樣,商品評(píng)論也沒(méi)有標(biāo)題。標(biāo)題是篇章主旨的表現(xiàn),由于沒(méi)有標(biāo)題的約束,而且作者也并沒(méi)有把其當(dāng)作一個(gè)正式的文章來(lái)寫(xiě),想到哪就寫(xiě)到哪,因此,短文本在表達(dá)意見(jiàn)時(shí)用語(yǔ)很隨意。

2. 文本結(jié)構(gòu)簡(jiǎn)單,喜歡用歸總句

短文本作者需要在很短篇幅內(nèi)闡明自己的看法,所以通常是開(kāi)門(mén)見(jiàn)山地提出自己的意見(jiàn),或經(jīng)簡(jiǎn)單的點(diǎn)評(píng),在末尾給出自己的看法。例如例一的開(kāi)頭: 總體來(lái)說(shuō)還是蠻不錯(cuò)的!例二則在“價(jià)錢(qián)”與“可玩性”兩方面潦草的評(píng)說(shuō)后,在結(jié)尾給出了自己的總體看法: 很值得一賞。該情況主要源于短文本的篇幅,由于篇幅短小,無(wú)法展開(kāi)論述,又需要表達(dá)自己對(duì)產(chǎn)品的看法,因此只能采用概括力較強(qiáng)的歸總性語(yǔ)句來(lái)表達(dá)自己對(duì)某個(gè)產(chǎn)品的總體看法。故而,在短文本中類(lèi)似于下面的句子較多:

(1) 總之,奇瑞轎車(chē)的質(zhì)量還是挺讓人放心的。

(2) 總體來(lái)看不錯(cuò),按鍵的感覺(jué)很好,拿在手里很舒服,屏幕顯示很細(xì)膩。

(3) 總而言之,作為一輛家用型代步工具,馬六可能性?xún)r(jià)比不是最高,但鮮明的特點(diǎn)也為我?guī)?lái)了比較強(qiáng)烈的駕駛樂(lè)趣,值得推薦。

上述三個(gè)句子,帶有歸總標(biāo)記詞“總之”等,具有明顯的歸總意義,這樣的句子,我們稱(chēng)之為“歸總句”。

3. 意見(jiàn)表達(dá)直截了當(dāng),主觀性強(qiáng)

語(yǔ)言通俗直白,表達(dá)意見(jiàn)直截了當(dāng),不拐彎抹角;主觀性很強(qiáng),常常會(huì)說(shuō)“我認(rèn)為、我覺(jué)得”。請(qǐng)看下面三個(gè)例句:

例1 我沒(méi)開(kāi)過(guò)好車(chē),在我開(kāi)過(guò)的車(chē)中我認(rèn)為帕薩特剎車(chē)性能是最好的。

例2 我認(rèn)為奧德賽有點(diǎn)矮,所以看過(guò)去比較小氣。

例3 算一下數(shù),買(mǎi)了新車(chē)后還要花一萬(wàn)元的費(fèi)用,但我覺(jué)得非常值得。

4. 句式簡(jiǎn)單

句子短小,復(fù)句較少,一般以單句為主。

5. 書(shū)寫(xiě)不規(guī)范

書(shū)寫(xiě)很隨意,文本不統(tǒng)一、不規(guī)范的情況比比皆是。亂用標(biāo)點(diǎn)符號(hào),常常有錯(cuò)別字,語(yǔ)法也不夠規(guī)范,帶有濃重的口語(yǔ)色彩。

綜上所述,以商品評(píng)論為樣本的短文本語(yǔ)篇的特點(diǎn)是篇幅短小,沒(méi)有標(biāo)題,表達(dá)意見(jiàn)直截了當(dāng),句式簡(jiǎn)單,往往愛(ài)用歸總句,這些特點(diǎn)決定了我們?cè)趯?duì)其進(jìn)行傾向性分析時(shí)采取的策略。

3.2 短文本傾向性分析策略

短文本篇幅短小,句式簡(jiǎn)單,因此在傾向性分析時(shí),主要以單句為主。另外,短文本表達(dá)意見(jiàn)往往直截了當(dāng),喜用歸總句,而且,歸總句的傾向極性直接決定了語(yǔ)篇的傾向極性。因此,我們可以首先根據(jù)歸總句的存現(xiàn)特征,將商品評(píng)論文分成三類(lèi):

(1) 有顯性歸總句的文本;

(2) 有隱性歸總句的文本;

(3) 沒(méi)有歸總句的文本。

沒(méi)有歸總句的文本還可以根據(jù)其是否有特征項(xiàng)再分為“含特征項(xiàng)的文本”以及“一般文本”兩類(lèi)。對(duì)不同的文本要采取不同的處理策略,以做到有的放矢,下面具體說(shuō)明。

1. 含顯性歸總句文本

顯性歸總句指的是以如下詞語(yǔ)做標(biāo)記的句子* 只列出部分歸總句顯性標(biāo)記,隱性標(biāo)記與此相同。:

總體來(lái)說(shuō)、總體說(shuō)來(lái)、總體看、總體感覺(jué)、總的來(lái)說(shuō)、總的說(shuō)來(lái)、總之、總而言之、總結(jié)、整體感覺(jué)、整體來(lái)說(shuō)、整體來(lái)看、整體的、整體還、整體上、整體看、綜上所述等。

顯性歸總句約占網(wǎng)絡(luò)商品評(píng)論比例的16%* 在COAE2012汽車(chē)訓(xùn)練文本中統(tǒng)計(jì)得出,訓(xùn)練文本為3 000個(gè),含有隱性歸總詞語(yǔ)的文本為477個(gè)。。含顯性歸總句的文本,一般情況來(lái)說(shuō),只需要處理歸總句即可,其他句子可以不考慮。為有效識(shí)別這類(lèi)句子,我們建立了一個(gè)歸總句顯性標(biāo)記詞表。

2. 含隱性歸總句文本

有些文本中沒(méi)有明顯的歸總句標(biāo)記,但是文本的首句、末句含有下面這樣的詞語(yǔ):

大體上、大體還、我認(rèn)為、我覺(jué)得、覺(jué)得、個(gè)人認(rèn)為、個(gè)人覺(jué)得、我感覺(jué)、一句話(huà)等等。

這種句子我們稱(chēng)之為隱性歸總句。含該類(lèi)句子的文本約占網(wǎng)絡(luò)商品評(píng)論的20%*在COAE2012汽車(chē)訓(xùn)練文本中統(tǒng)計(jì)得出,訓(xùn)練文本為3 000個(gè),含有隱性歸總詞語(yǔ)的文本為597個(gè)。。

還有一些文本,其末尾一句含有傾向比較明確或者傾向性較強(qiáng)的詞語(yǔ),也可以被認(rèn)為具有歸總的意思。例如,建議大家不要買(mǎi)了、推薦購(gòu)買(mǎi)、夠用了、喜歡喜歡、很值得、太讓人失望了、我好失望、堅(jiān)決不買(mǎi)xx車(chē)。這類(lèi)詞語(yǔ)我們稱(chēng)其為歸總隱性標(biāo)記,也建立一個(gè)相應(yīng)的詞表。

“開(kāi)門(mén)見(jiàn)山”和“卒章顯志”是漢語(yǔ)語(yǔ)篇的重要特點(diǎn),在評(píng)論產(chǎn)品時(shí)候,極少有人非常耐心地去長(zhǎng)篇大論,通常是直接給出自己的觀點(diǎn),或者稍稍評(píng)價(jià)后,在最后發(fā)表自己的意見(jiàn)。對(duì)于產(chǎn)品評(píng)價(jià)來(lái)說(shuō),要特別注意文本末尾的幾句。無(wú)論前面說(shuō)了些什么,如果含有上面這些強(qiáng)烈的情感傾向的詞語(yǔ),前面語(yǔ)句基本上都可以不用去分析。檢索末尾一句的時(shí)候,如果末尾一句是“呵呵、嘻嘻、哈哈”這樣一些感嘆詞,那么要選擇倒數(shù)第二句。

對(duì)于含有隱性歸總句的文本,在加權(quán)算法中,隱性歸總句在整個(gè)文本的得分中占有較高的比例。

3. 沒(méi)有歸總句文本

如前所述,沒(méi)有歸總句的文本還可以細(xì)分為含

有特征項(xiàng)的文本與一般文本,含有特征項(xiàng)的文本可以分成多種情況,下面是三種典型情況:

(1) 有罵人的話(huà)。例如,你媽的、NMLGB、你ma、我操、我操你媽、我日、狗屁、黃花菜都涼了等。

(2) 含有“唯一”加情感詞?!拔ㄒ弧奔诱媲楦械娜纾?唯一的亮點(diǎn)、唯一的優(yōu)點(diǎn);加負(fù)面情感的如: 唯一的遺憾、唯一的不足等。

(3) 含有極限程度副詞加情感詞。極限程度副詞是指“非常、特別、極度、特、超、超級(jí)、絕倫、絕對(duì)、絕頂、最、無(wú)比”等。極限程度副詞加正面情感詞的如“非常棒、非常滿(mǎn)意”,加負(fù)面情感詞的如“非常糟糕、非常討厭”。

將上述特征項(xiàng)收錄進(jìn)特征詞表,作為分析帶特征項(xiàng)的非歸總句資源。

沒(méi)有歸總句,也沒(méi)有特征項(xiàng)的一般文本將根據(jù)文本中情感句的傾向值來(lái)處理。

3.3 短文本傾向計(jì)算

根據(jù)短文本的處理策略,我們制定了相應(yīng)的算法,圖1是短文本計(jì)算流程。

圖1 語(yǔ)篇傾向性分析系統(tǒng)CUCsas工作流程

圖1說(shuō)明:

(1) 圖1中分詞標(biāo)注、情感標(biāo)注、計(jì)算情感度幾個(gè)步驟與侯敏[18]、周紅照[19]基本一致,不再贅述?!坝?jì)算情感度”這一工作完成后,得到的是句子上標(biāo)有情感值的文本。

(2) 用歸總句顯性標(biāo)記詞表,對(duì)文本進(jìn)行顯性歸總句計(jì)算。對(duì)于含有顯性歸總句的文本,歸總句的得分就是整個(gè)文本的得分。

(3) 用歸總句隱性標(biāo)記詞表,對(duì)其余文本進(jìn)行隱性歸總句計(jì)算。對(duì)于含有隱性歸總句的文本,如果隱性歸總句在文本的首句,該句在整個(gè)文本的得分中占的比重為50%,文本中其他所有情感句的得分占整個(gè)得分的50%。如果一個(gè)文本含有五個(gè)情感句,各個(gè)句子的得分分別為S1、S2、S3、S4、S5,整個(gè)文本得分計(jì)算方法如公式(1)所示。

(1)

如果隱性歸總句在文本尾句,該句在整個(gè)文本得分中占的比重為60%,其他所有句子的得分占整個(gè)文本得分的40%。整個(gè)文本得分的計(jì)算方法如公式(2)所示。

(2)

(4) 沒(méi)有歸總句的文本,利用特征詞表,計(jì)算特征項(xiàng)對(duì)應(yīng)的分值。

(5) 上述步驟完成后剩余的一般文本,將所有情感句得分之和除以情感句的總數(shù),所得為該文本分值。計(jì)算方法如公式(3)所示。

TextScore=

(3)

如果情感句是首句或者末句,還要進(jìn)行一定程度的加分(P),默認(rèn)是加0.1分。

4 實(shí)驗(yàn)(評(píng)測(cè))及結(jié)果分析

為驗(yàn)證短文本計(jì)算方法的有效性,我們參加了2012年中文信息學(xué)會(huì)組織的中文傾向性分析評(píng)測(cè)(COAE2012)任務(wù)3篇章級(jí)傾向性打分的評(píng)測(cè)。評(píng)測(cè)要求對(duì)網(wǎng)絡(luò)商品評(píng)論文進(jìn)行打分,共分五個(gè)等級(jí),5分表示強(qiáng)烈褒義,1分表示強(qiáng)烈貶義。下面論述實(shí)驗(yàn)過(guò)程。

4.1 實(shí)驗(yàn)準(zhǔn)備

為了獲得語(yǔ)料的基本情況,我們對(duì)訓(xùn)練語(yǔ)料得分情況與用戶(hù)心理進(jìn)行了分析,訓(xùn)練文本的得分情況如表1。

表1 訓(xùn)練語(yǔ)料各個(gè)等級(jí)得分比例

表1顯示: 在汽車(chē)領(lǐng)域,等級(jí)為3的文本,占72%,超過(guò)了其他所有等級(jí)的總和,等級(jí)為1和2的特別少;電子領(lǐng)域的各個(gè)等級(jí)分布相對(duì)來(lái)說(shuō)比較均勻,但是5分與4分之和占了總比例的70%。我們從用戶(hù)消費(fèi)心理的角度出發(fā)分析了上述得分情況。

先看汽車(chē)。一方面,由于汽車(chē)是較大的商品,花的錢(qián)多,用戶(hù)往往反復(fù)比較、挑選,對(duì)一些小問(wèn)題很計(jì)較;另一方面,出廠的汽車(chē),一般都經(jīng)過(guò)了反復(fù)的檢測(cè)和實(shí)驗(yàn),不會(huì)太差。因此,汽車(chē)領(lǐng)域得好評(píng)(等級(jí)4、5)的不多,得差評(píng)(等級(jí)1、2)的也很少,得中評(píng)的特別多。

而電子產(chǎn)品一般都比較小,花的錢(qián)不多,如錄音筆、手機(jī)、耳機(jī)等,用戶(hù)比較容易滿(mǎn)足,只要看上去漂亮、音質(zhì)好、服務(wù)態(tài)度好的都直接給高分了,因此,電子領(lǐng)域得好評(píng)的多。

通過(guò)對(duì)訓(xùn)練語(yǔ)料得分及用戶(hù)消費(fèi)心理的分析,我們不僅了解了訓(xùn)練語(yǔ)料的總體情況,也了解了其背后的原因。

4.2 算法調(diào)整

運(yùn)用CUCsas系統(tǒng)進(jìn)行短文本計(jì)算,所獲得的是文本的傾向值,根據(jù)評(píng)測(cè)的要求,需要把得分分成五個(gè)等級(jí)。通過(guò)對(duì)訓(xùn)練文本打分發(fā)現(xiàn),文本的得分基本與等級(jí)的走向一致,即: 等級(jí)高的得分高,等級(jí)低的得分低。這說(shuō)明短文本計(jì)算所得的傾向值是有效的,我們通過(guò)設(shè)定閾值的方法,把得分與等級(jí)對(duì)應(yīng)起來(lái)。

4.3 實(shí)驗(yàn)(評(píng)測(cè))結(jié)果及分析

1. 評(píng)測(cè)結(jié)果

表2是第四屆中文傾向性分析評(píng)測(cè)(COAE2012)中任務(wù)3篇章級(jí)傾向性打分的評(píng)測(cè)結(jié)果。表2顯示,CUCsas系統(tǒng)在任務(wù)3中取得了最好成績(jī)。汽車(chē)語(yǔ)篇的精度達(dá)到了83%,電子語(yǔ)篇的精度達(dá)到69%,分別高出平均成績(jī)34%和32%。

2. 結(jié)果分析

對(duì)系統(tǒng)判斷錯(cuò)誤的文本進(jìn)行分析,錯(cuò)誤的產(chǎn)生主要有以下幾個(gè)原因:

表2 COAE2012篇章傾向性分析評(píng)測(cè)結(jié)果

(1) 文本情感值轉(zhuǎn)換成等級(jí)時(shí)錯(cuò)誤

文本傾向的5度打分,難度要比傾向極性判斷大。雖然文本的整體傾向分析正確,但在具體劃分到某個(gè)等級(jí)時(shí),容易發(fā)生錯(cuò)誤,特別是相鄰的等級(jí)。例如,下面的文本:

一次點(diǎn)亮,完美兼容,唯一可惜的就是32bit的win7只能識(shí)別3G的內(nèi)存,顯示的是“4G(2.99G可用)”,不想破解系統(tǒng),也不想換64bit的系統(tǒng),湊合用了。至少內(nèi)存增加了,而且有了雙通道,性能多少會(huì)有提升!卓越包裝那個(gè)結(jié)實(shí)啊,都有些受寵若驚,價(jià)格也實(shí)惠,贊一個(gè)!

計(jì)算機(jī)給該文本的得分為0.6分,屬于等級(jí)4,標(biāo)準(zhǔn)答案顯示該文本的等級(jí)是5。該文本有“唯一可惜”與“湊合用”,同時(shí)也有“完美兼容”與“贊一個(gè)”,兼有4級(jí)與5級(jí)的特征,因此計(jì)算機(jī)判斷起來(lái)較困難。表3顯示,電子所取得的成績(jī)沒(méi)有汽車(chē)好,主要是因?yàn)殡娮宇I(lǐng)域等級(jí)為4和5的文本占的比重大,而4與5的文本在得分上相交的范圍比較大,因此判別起來(lái)容易出錯(cuò)。

(2) 有兩個(gè)評(píng)價(jià)對(duì)象時(shí)容易出錯(cuò)

在汽車(chē)領(lǐng)域,用戶(hù)在評(píng)論某個(gè)品牌的車(chē)時(shí),往往喜歡拿其他的品牌來(lái)對(duì)比,例如,“花冠比伊蘭特貴近3萬(wàn),但是聽(tīng)說(shuō)韓系車(chē)用幾年后小故障比較多?!睂?duì)兩種對(duì)象評(píng)價(jià)意見(jiàn)不相同時(shí),計(jì)算機(jī)容易誤判。

(3) 分詞與情感詞典問(wèn)題

有部分是因?yàn)轭I(lǐng)域?qū)S性~語(yǔ)分詞錯(cuò)誤引起的,例如,“大捷龍”是一種品牌,被誤分成“大捷”和“龍”。此外,情感詞典中有小部分領(lǐng)域?qū)S械脑u(píng)價(jià)詞語(yǔ)未收錄,比如“飄”用來(lái)形容汽車(chē)不穩(wěn),屬于貶義。

(4) 歸總句識(shí)別精度問(wèn)題

我們從電子測(cè)試文本中抽取了前100個(gè)文本進(jìn)行歸總句識(shí)別,共識(shí)別出25個(gè)含有歸總句的文本,其中顯性歸總句20個(gè),隱性歸總句5個(gè)。通過(guò)人工鑒定,共發(fā)現(xiàn)3個(gè)錯(cuò)誤,其中顯性歸總句2個(gè),隱性歸總句1個(gè),識(shí)別精度為0.88。

3. 方法比較

參加COAE2012的各支隊(duì)伍采用的方法以統(tǒng)計(jì)為主。以哈工大為例[20],其采用的是最大熵分類(lèi)器,在篇章傾向性打分中,采用情感相似度計(jì)算方法。在汽車(chē)領(lǐng)域取得了準(zhǔn)確率75%的較好成績(jī)。但基于統(tǒng)計(jì)的方法受訓(xùn)練語(yǔ)料影響較大,其在電子領(lǐng)域的準(zhǔn)確率為42%,略高于平均成績(jī)。哈工大在結(jié)果分析中提到,因電子領(lǐng)域的語(yǔ)料來(lái)源于京東評(píng)論數(shù)據(jù),包含用戶(hù)對(duì)多種商品的評(píng)論文本,而汽車(chē)領(lǐng)域的訓(xùn)練語(yǔ)料和測(cè)試數(shù)據(jù)具有更相似的語(yǔ)言現(xiàn)象,所以電子的成績(jī)沒(méi)有汽車(chē)的好。

我們采用基于文本特征的方法,通過(guò)對(duì)短文本特征的深入分析,按歸總句的存現(xiàn)特征對(duì)短文本進(jìn)行分類(lèi),針對(duì)不同的類(lèi)別采用不同的對(duì)策。在篇章傾向性分析中,該方法獲得了所有參賽隊(duì)伍的最好成績(jī)。為了驗(yàn)證處理歸總句和不處理歸總句對(duì)于系統(tǒng)性能的影響,去除了圖1中前面的歸總句及特征詞語(yǔ)計(jì)算過(guò)程,只采用計(jì)算情感句總得分,然后取平均值的做法。在同樣的測(cè)試文本上進(jìn)行試驗(yàn),汽車(chē)與電子取得的準(zhǔn)確率分別為: 0.637 6與0.391 8,均略高于平均成績(jī)。采用處理歸總句的方法在汽車(chē)與電子領(lǐng)域提高的幅度分別為: 0.194 2與0.299 6。

綜合比較統(tǒng)計(jì)與規(guī)則兩種方法,統(tǒng)計(jì)的方法基本不分析語(yǔ)言特征,只需要建立合適的分類(lèi)器,其領(lǐng)域適應(yīng)性較強(qiáng),在從一個(gè)領(lǐng)域轉(zhuǎn)向另一個(gè)領(lǐng)域時(shí),其效率要明顯優(yōu)于規(guī)則的方法。但是,統(tǒng)計(jì)的方法對(duì)訓(xùn)練語(yǔ)料的依賴(lài)性較大,并且,傾向性分析涉及到復(fù)雜的語(yǔ)言學(xué)知識(shí),屬于較高層次的文本分析,僅把其看成特殊分類(lèi)問(wèn)題的做法,顯得有點(diǎn)簡(jiǎn)單。規(guī)則的方法通過(guò)對(duì)語(yǔ)言特征的分析,針對(duì)不同的特征采取不同的處理策略,在傾向性分析中具有一定的優(yōu)勢(shì),但其不足之處也較為明顯。規(guī)則的方法需要構(gòu)建評(píng)價(jià)與語(yǔ)義詞典,詞典的規(guī)模及詞的情感標(biāo)記,對(duì)傾向性分析影響較大,規(guī)則的制定需要投入較多的時(shí)間和人力。而且,隨著規(guī)則的增加,合理調(diào)整規(guī)則間的優(yōu)先級(jí),避免沖突,也是一個(gè)較大的難題。

5 結(jié)語(yǔ)

本文以網(wǎng)絡(luò)評(píng)論文為樣本研究短文本傾向性分析方法。通過(guò)對(duì)短文本篇章結(jié)構(gòu)的分析,抓住對(duì)短文本傾向性有決定作用的歸總句進(jìn)行處理,從而鎖定決定整個(gè)篇章情感傾向的核心內(nèi)容。該方法在COAE2012篇章級(jí)傾向性分析評(píng)測(cè)中獲得了最好成績(jī),證明該方法是有效的。

[1] Liu B, Hu M, Cheng J. Opinion observer: analyzing and comparing opinions on the Web[C]//Proceedings of the 14th international conference on World Wide Web. ACM, 2005: 342-351.

[2] Pang B, Lee L. Opinion mining and sentiment analysis[J]. Foundations and trends in information retrieval, 2008, 2(1-2): 1-135.

[3] 趙妍妍, 秦兵, 劉挺. 文本情感分析[J]. 軟件學(xué)報(bào), 2010, 21(8): 1834-1848.

[4] 姚天昉, 程希文, 徐飛玉, 等. 文本意見(jiàn)挖掘綜述[J]. 中文信息學(xué)報(bào), 2008, 22(3): 71-80.

[5] 劉康,王素格,廖祥文,等.第一屆中文傾向性分析評(píng)測(cè)技術(shù)報(bào)告[C]//第一屆中文傾向性分析評(píng)測(cè)會(huì)議(COAE2008), 北京, 2008: 1-20.

[6] Kamps J, Marx M J, Mokken R J, et al. Using wordnet to measure semantic orientations of adjectives[J]. 2004.

[7] 朱嫣嵐, 閔錦, 周雅倩, 等. 基于 HowNet 的詞匯語(yǔ)義傾向計(jì)算[J]. 中文信息學(xué)報(bào), 2006, 20(1): 14-20.

[8] Kim S M, Hovy E. Determining the sentiment of opinions[C]//Proceedings of the 20th international conference on Computational Linguistics. Association for Computational Linguistics, 2004: 1367.

[9] Yuen R W M, Chan T Y W, Lai T B Y, et al. Morpheme-based derivation of bipolar semantic orientation of Chinese words[C]//Proceedings of the 20th international conference on Computational Linguistics. Association for Computational Linguistics, 2004: 1008.

[10] Whitelaw C, Garg N, Argamon S. Using appraisal groups for sentiment analysis[C]//Proceedings of the 14th ACM international conference on Information and knowledge management. ACM, 2005: 625-631.

[11] 李鈍, 曹付元, 曹元大, 等. 基于短語(yǔ)模式的文本情感分類(lèi)研究[J]. 計(jì)算機(jī)科學(xué), 2008, 35(4): 132-134.

[12] 李雪燕,侯明午,侯敏,等. 漢語(yǔ)否定形式的傾向性研究[C]. 第四屆中文傾向性分析(COAE2012)評(píng)測(cè)研討會(huì)論文. 南昌,2012.

[13] 姚天昉, 婁德成. 漢語(yǔ)語(yǔ)句主題語(yǔ)義傾向分析方法的研究[J]. 中文信息學(xué)報(bào), 2007, 21(5): 73-79.

[14] 劉康, 趙軍. 基于層疊 CRFs 模型的句子褒貶度分析研究[J]. 中文信息學(xué)報(bào), 2008, 22(1): 123-128.

[15] 楊江, 侯敏, 王寧. 基于淺層篇章結(jié)構(gòu)的評(píng)論文傾向性分析[J]. 中文信息學(xué)報(bào), 2011, 25(2): 83-88.

[16] Pang B, Lee L, Vaithyanathan S. Thumbs up?: sentiment classification using machine learning techniques[C]//Proceedings of the ACL-02 conference on Empirical methods in natural language processing-Volume 10. Association for Computational Linguistics, 2002: 79-86.

[17] Turney P D. Thumbs up or thumbs down?: semantic orientation applied to unsupervised classification of reviews[C]//Proceedings of the 40th annual meeting on association for computational linguistics. Association for Computational Linguistics, 2002: 417-424.

[18] 侯敏,滕永林,鄭雙美,等.話(huà)題型微博語(yǔ)言特點(diǎn)及其傾向性分析策略研究[J].語(yǔ)言文字應(yīng)用,2013(2): 135-143.

[19] 周紅照,侯明午,侯敏,等. 基于語(yǔ)義分類(lèi)的比較句識(shí)別與比較要素抽取研究[C]//第四屆中文傾向性分析(COAE2012)評(píng)測(cè)研討會(huì)論文.南昌, 2012.

[20] 唐都鈺,石秋慧. HITIRSYS:COAE2012情感分析系統(tǒng)[C]//第四屆中文傾向性分析(COAE2012)評(píng)測(cè)研討會(huì)論文. 南昌,2012.

Short Text Attitude Analysis Based on Textual Characteristics

CHENG Nanchang1, HOU Min2, TENG Yonglin2

(1. National Laboratory of Pattern Recognition, Institute of Automation, Chinese Academy of Sciences, Beijing 100190, China; 2. Broadcast Media Language Branch, National Langage Resources Monitoring and Research Center, Communication University of China, Beijing 100024, China)

This paper takes the online product reviews as samples to investigate the characteristics and strategies in the attitude analysis of short texts. According to different performances of decisive factors of attitude polarity, the online review texts can be divided into four categories: the text containing overt summery sentence, the texts containing covert summary sentence, the texts containing characteristic words and the normal texts. Different strategies are established to deal with different types of texts, and a text attitude analysis system CUCsas is constructed based on dictionaries and rules. The system generates promising results in the Fourth Chinese Opinion Analysis Evaluation- COAE2012.

short text;textual characteristics; summary sentence; attitude analysis; dictionary and rules

程南昌(1976—),博士,講師,主要研究領(lǐng)域?yàn)橛?jì)算語(yǔ)言學(xué)、輿情監(jiān)測(cè)。E?mail:nanyanfei666666@126.com侯敏(1952—),教授,博士生導(dǎo)師,主要研究領(lǐng)域?yàn)橛?jì)算語(yǔ)言學(xué),語(yǔ)言監(jiān)測(cè)。E?mail:houmin@cuc.edu.cn滕永林(1962—),副教授,主要研究領(lǐng)域?yàn)檎Z(yǔ)言信息處理。E?mail:tengyonglin@cuc.edu.cn

1003-0077(2015)02-0163-07

2012-12-06 定稿日期: 2013-09-24

國(guó)家語(yǔ)委十二五規(guī)劃重點(diǎn)項(xiàng)目(ZDI125-3)。

TP391

A

猜你喜歡
特征文本情感
如何在情感中自我成長(zhǎng),保持獨(dú)立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
如何表達(dá)“特征”
情感
在808DA上文本顯示的改善
不忠誠(chéng)的四個(gè)特征
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長(zhǎng),保持獨(dú)立
抓住特征巧觀察
文本之中·文本之外·文本之上——童話(huà)故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 亚洲香蕉久久| 91视频99| 国产va免费精品观看| 亚洲精品爱草草视频在线| 久久久久久高潮白浆| 97se亚洲综合| 国产亚洲美日韩AV中文字幕无码成人 | av在线手机播放| 2021亚洲精品不卡a| 91最新精品视频发布页| 91精品情国产情侣高潮对白蜜| 亚洲色成人www在线观看| 成年人视频一区二区| 欧美啪啪视频免码| 国产乱肥老妇精品视频| 亚洲欧美日韩中文字幕一区二区三区| 九九香蕉视频| 高h视频在线| 婷婷午夜天| 国产永久无码观看在线| 精品一区二区三区波多野结衣| 91在线精品麻豆欧美在线| 亚洲欧美自拍视频| 性色一区| 日韩在线1| 天天躁夜夜躁狠狠躁躁88| 国产粉嫩粉嫩的18在线播放91| 午夜日韩久久影院| 中国黄色一级视频| 国产一区二区精品高清在线观看| 久久6免费视频| 永久免费精品视频| 午夜人性色福利无码视频在线观看| 夜夜操国产| 国产精品久久久久久久久| 网久久综合| 一级全免费视频播放| 无码高潮喷水专区久久| 五月丁香伊人啪啪手机免费观看| 亚洲成人一区二区三区| 2020国产免费久久精品99| 伊人久久久久久久久久| 国产美女丝袜高潮| 久久久精品国产亚洲AV日韩| 欧美黄网站免费观看| 日韩高清在线观看不卡一区二区| 日韩成人免费网站| 国产精品xxx| 久久精品aⅴ无码中文字幕| 亚洲成在线观看| 亚洲综合一区国产精品| av天堂最新版在线| 又爽又大又光又色的午夜视频| 国产香蕉在线| 一级一级一片免费| 久久男人视频| 国产成熟女人性满足视频| 久久精品国产精品一区二区| h视频在线观看网站| 国产精品自在自线免费观看| 免费女人18毛片a级毛片视频| 久久人午夜亚洲精品无码区| 亚洲日韩精品伊甸| 一区二区午夜| 国产浮力第一页永久地址 | 欧美中文字幕一区二区三区| 喷潮白浆直流在线播放| 欧美亚洲香蕉| 国产在线观看成人91| 91精品最新国内在线播放| 久久国产亚洲偷自| 免费看av在线网站网址| 草草线在成年免费视频2| 国产成人资源| 亚洲精品无码人妻无码| 亚洲天堂视频在线免费观看| 福利视频久久| 真人高潮娇喘嗯啊在线观看| 视频二区亚洲精品| 久久性妇女精品免费| 亚洲日本精品一区二区| 亚洲欧美另类久久久精品播放的|