999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于詞典與規(guī)則的新聞文本情感傾向性分析

2017-03-09 02:07:02李晨朱世偉魏墨濟(jì)于俊鳳李新天
山東科學(xué) 2017年1期
關(guān)鍵詞:規(guī)則詞匯文本

李晨 ,朱世偉 ,魏墨濟(jì) ,于俊鳳,李新天

(1.山東省科學(xué)院情報(bào)研究所,山東 濟(jì)南 250014;2.山東省科學(xué)院生物研究所,山東 濟(jì)南 250014)

基于詞典與規(guī)則的新聞文本情感傾向性分析

李晨1,朱世偉1,魏墨濟(jì)1,于俊鳳1,李新天2

(1.山東省科學(xué)院情報(bào)研究所,山東 濟(jì)南 250014;2.山東省科學(xué)院生物研究所,山東 濟(jì)南 250014)

通過(guò)對(duì)新聞?lì)愇捏w的結(jié)構(gòu)分析,將新聞文體按段落劃分,采用一種基于情感詞典和語(yǔ)義規(guī)則相結(jié)合的情感關(guān)鍵句抽取方法,對(duì)段落內(nèi)的句子進(jìn)行情感分析。綜合考慮情感、轉(zhuǎn)折、否定、程度和歸總等詞語(yǔ)信息構(gòu)建情感詞典,根據(jù)規(guī)則切割新聞文本,將新聞劃分為意群、句子、段落以及篇章,通過(guò)制定的規(guī)則計(jì)算情感關(guān)鍵句傾向值,最終獲得段落以及整個(gè)篇章的情感傾向值,從而得出新聞的情感傾向。與情感詞典和SVM情感分類方法的實(shí)驗(yàn)結(jié)果對(duì)比表明,本文方法在對(duì)新聞文本進(jìn)行傾向判別時(shí)效果較好,方法具可行性。

情感分析;規(guī)則;情感詞典;網(wǎng)絡(luò)新聞

文本情感傾向性分析又稱情感分析、意見(jiàn)挖掘,是對(duì)帶有情感色彩的主觀性文本進(jìn)行分析、處理、歸納和推理的過(guò)程,旨在研究人們對(duì)人物、事件及其屬性的主觀意見(jiàn)和評(píng)價(jià)[1-3]。文本情感分析已經(jīng)成為自然語(yǔ)言處理領(lǐng)域的熱點(diǎn)研究話題,涉及自然語(yǔ)言處理、信息檢索、數(shù)據(jù)挖掘等研究領(lǐng)域。

目前,國(guó)內(nèi)外使用最多的文本情感分析方式有兩種,一是基于機(jī)器學(xué)習(xí)的情感分析[4-5];二是基于語(yǔ)義的情感分析[6-7]。基于機(jī)器學(xué)習(xí)的情感分析多采用傳統(tǒng)的文本分類技術(shù),該方式將情感詞匯作為分類的特征關(guān)鍵詞,然后再聯(lián)合其他特征訓(xùn)練分類器來(lái)完成文本情感分類,常用的方法有樸素貝葉斯、最大信息熵和支持向量機(jī)。Pang等[8]分別使用上述方法進(jìn)行情感傾向性分析研究,對(duì)英文電影評(píng)論進(jìn)行分類,并研究不同特征選擇方式對(duì)分類效果的影響。Tan等[9]分別使用NB(NaiveBayesian)、KNN(K-NearestNeighbor)、SVM(SupportVectorMachine)、CentroidClassifier和WindowClassifier5種分類方法并結(jié)合多種特征選擇方法對(duì)文章情感傾向性進(jìn)行分類。樊小超[10]通過(guò)對(duì)評(píng)論性文本的分析,結(jié)合詞典和規(guī)則將文本劃分成情感句集合、細(xì)節(jié)句集合和關(guān)鍵句集合,再對(duì)全部文本情感句集合和關(guān)鍵句集合進(jìn)行訓(xùn)練得到不同的分類器,最后使用投票策略將分類器進(jìn)行融合,得到最終情感分類結(jié)果。采用機(jī)器學(xué)習(xí)的方法進(jìn)行文本傾向性分類需要大規(guī)模標(biāo)注的訓(xùn)練集,想要獲得較高的分類結(jié)果時(shí),對(duì)訓(xùn)練集的質(zhì)量要求很高,而且在進(jìn)行文本向量化的時(shí)候往往會(huì)忽略情感詞匯的上下文信息。基于語(yǔ)義規(guī)則的文本傾向性研究中,研究者一般考慮詞語(yǔ)、句子、段落和篇章等多個(gè)角度自底向上進(jìn)行層次分析。首先,抽取文中具有明顯主觀色彩的情感詞匯;然后,找出對(duì)該詞匯進(jìn)行修飾的否定和程度詞匯等,通過(guò)規(guī)則計(jì)算情感詞匯情感值;最后,根據(jù)情感詞匯的情感值,計(jì)算得到句子、段落以及篇章的整體情感值,從而獲得最終的情感傾向信息。朱嫣嵐等[11]利用HowNet提供的語(yǔ)義相似度和語(yǔ)義相關(guān)場(chǎng)的定義,通過(guò)計(jì)算待評(píng)估詞與褒貶基準(zhǔn)詞的相似性和相關(guān)性,從而得到待評(píng)估詞的傾向度。Turney等[12]使用點(diǎn)互信息PMI(PointwiseMutualInformation)對(duì)基準(zhǔn)情感詞表進(jìn)行擴(kuò)充,并且采用了基于HNC(HierarchicalNetworkofConcepts)的語(yǔ)義相關(guān)度方法計(jì)算詞語(yǔ)的原始極性。馮亮祖[13]利用語(yǔ)句情感傾向性、文本關(guān)鍵詞、語(yǔ)句位置以及語(yǔ)句與標(biāo)題的相似度4種特征抽取情感關(guān)鍵句,通過(guò)對(duì)情感關(guān)鍵句進(jìn)行計(jì)算得出新聞文本的情感傾向。張成功等[14]構(gòu)建了一個(gè)包括基礎(chǔ)詞典、領(lǐng)域詞典、網(wǎng)絡(luò)詞典以及修飾詞典的高效極性詞典,將極性詞和修飾詞組合形成極性短語(yǔ)作為情感分析的基礎(chǔ)單元。

綜合分析現(xiàn)有的研究成果,在中文網(wǎng)絡(luò)新聞情感分析領(lǐng)域,對(duì)篇章級(jí)情感分析的研究方法中仍然存在沒(méi)有充分考慮文體特征和情感分布,以及對(duì)復(fù)雜句式缺乏有效的分析方法等問(wèn)題。本文在上述研究基礎(chǔ)之上,綜合分析網(wǎng)絡(luò)新聞的結(jié)構(gòu)特點(diǎn),對(duì)篇章級(jí)的新聞情感分析進(jìn)行細(xì)化,把新聞自頂向下分割成篇章、句子以及意群,以HowNet情感詞典為基礎(chǔ),利用哈工大同義詞詞林和臺(tái)灣大學(xué)的中文情感極性詞典進(jìn)行擴(kuò)展獲得基準(zhǔn)情感詞典,再結(jié)合各類語(yǔ)義規(guī)則獲得網(wǎng)絡(luò)新聞的情感傾向。

1 情感傾向性計(jì)算方法

1.1 網(wǎng)絡(luò)新聞文體研究

新聞的主觀性是指在現(xiàn)實(shí)生活中真實(shí)發(fā)生的事件過(guò)程中,敘述者在新聞事件中表現(xiàn)出來(lái)的立場(chǎng)、態(tài)度和情感[15]。新聞文體一般主題描述簡(jiǎn)單突出,情感表達(dá)方式簡(jiǎn)單明了,所以可以較好地提取新聞的情感信息。通過(guò)對(duì)新聞文體的分析研究發(fā)現(xiàn),對(duì)新聞情感分析起到關(guān)鍵作用的文本位置為:

(1)標(biāo)題:標(biāo)題是新聞作者主觀意志的直接表達(dá),是文章主旨的高度濃縮,能夠直接陳述新聞的概要。當(dāng)標(biāo)題含有明顯的情感傾向時(shí),它應(yīng)該被賦予較高的權(quán)重,同時(shí)可以將其他語(yǔ)句與標(biāo)題進(jìn)行相似度計(jì)算,進(jìn)而得到句子與新聞主旨的的相似性。與主旨越相似則就越接近文章作者的情感。

(2)段首與段尾:段首與段尾是新聞作者的開(kāi)篇與總結(jié)。通過(guò)觀察研究,段首與段尾是表達(dá)作者情感的主觀句最常出現(xiàn)的位置,而且新聞文本的結(jié)構(gòu)是一種“倒金字塔”式[16]的結(jié)構(gòu)。

(3)其他位置:對(duì)于其他位置的句子,如果與標(biāo)題不相關(guān),則按照普通方式進(jìn)行情感傾向計(jì)算,不再附加額外權(quán)重。

對(duì)于篇章級(jí)的文本情感分析來(lái)說(shuō),通常都是對(duì)文本進(jìn)行降維,壓縮文本特征空間來(lái)優(yōu)化情感分類問(wèn)題。Yessenalina等[17]使用SVM模型在進(jìn)行篇章級(jí)情感分類的同時(shí)抽取部分語(yǔ)句作為分類的特征空間,取得了較好的效果。李本陽(yáng)等[18]使用ME模型處理小句級(jí)情感分類,以小句級(jí)的情感輸出作為篇章級(jí)的輸入,并結(jié)合句型特征和句子位置等信息作為特征,采用SVM模型對(duì)文本進(jìn)行篇章級(jí)情感分類。本文在對(duì)網(wǎng)絡(luò)新聞文本進(jìn)行情感分析時(shí),首先切割新聞文本,找出情感句,以情感句作為分析基礎(chǔ),最終通過(guò)融合各類規(guī)則計(jì)算出文本的情感傾向。

1.2 情感詞典構(gòu)建

新聞?dòng)删渥咏M成,句子由詞匯組成,因此詞匯是進(jìn)行情感傾向性分析的基礎(chǔ)。通過(guò)構(gòu)建情感詞典可以將句子中具有情感的詞匯識(shí)別出來(lái),從而進(jìn)行分析。情感詞典在情感分析中起到了重要作用,一些研究者對(duì)情感詞典的構(gòu)建工作展開(kāi)了深入的研究[19]。自然語(yǔ)言當(dāng)中一般會(huì)把詞匯分為褒義詞、貶義詞和中性詞3類,其中褒貶義詞明確地表達(dá)了作者對(duì)某一主題的情感傾向。

本文以HowNet為主體,合并中文負(fù)面情感詞語(yǔ)和中文負(fù)面評(píng)價(jià)詞語(yǔ)去重后構(gòu)建負(fù)面基礎(chǔ)情感詞典,合并中文正面情感詞語(yǔ)和中文正面評(píng)價(jià)詞語(yǔ)去重后構(gòu)建正面基礎(chǔ)情感詞典,以中文程度級(jí)別詞語(yǔ)作為描述情感詞的程度詞語(yǔ)詞典,考慮否定詞、轉(zhuǎn)折詞和新聞中的各類歸總詞語(yǔ),分別構(gòu)建否定詞典、轉(zhuǎn)折歸總詞典。HowNet所包含的情感詞匯有限,本文采用哈工大同義詞詞林和臺(tái)灣大學(xué)NTUSD簡(jiǎn)體中文版本進(jìn)行去重、剔除歧義詞匯之后,分別加入正/負(fù)面基礎(chǔ)情感詞典。文中采用四元組對(duì)情感詞典進(jìn)行描述,定義如下:

sentimentword(name,polarity,pos,weight) ,

(1)

其中,name表示該詞匯的名稱,polarity表示極性,pos表示詞性,weight代表該詞的權(quán)重。name和pos通過(guò)文本分詞工具FudanNLP獲取,polarity和weight則通過(guò)定義好的情感詞典獲取。

1.2.1 程度詞典構(gòu)建

在各類語(yǔ)言描述當(dāng)中,修飾詞對(duì)情感詞匯的情感表達(dá)有著非常重要的作用,不同級(jí)別的詞語(yǔ)會(huì)產(chǎn)生不同級(jí)別的情感傾向。例如:這個(gè)人極其討厭和這個(gè)人很討厭,同樣是對(duì)“討厭”進(jìn)行修飾,但是“極其”所表達(dá)的情感傾向比“很”更加強(qiáng)烈。針對(duì)這些能夠?qū)η楦袃A向產(chǎn)生巨大作用的詞匯,本文借助HowNet提供的中文程度級(jí)別詞語(yǔ),構(gòu)建了程度詞語(yǔ)詞典。HowNet對(duì)程度詞語(yǔ)進(jìn)行了級(jí)別分類,具體分為6個(gè)等級(jí):最(most)、很(very)、較(more)、稍(-ish)、欠(insufficiently)和超(over)。本文按照修飾程度的不同為這6個(gè)級(jí)別的程度詞分別賦予不同的權(quán)重值,程度詞典表如表1所示。

表1 程度詞典表

1.2.2 否定詞典與轉(zhuǎn)折歸總詞典構(gòu)建

否定詞在文本分析中起到置反情感傾向的作用,所以在分析文本情感傾向時(shí)也應(yīng)該將否定詞作為重要的分析對(duì)象,因此本文構(gòu)造了一部否定詞詞典。根據(jù)張誼生[20]的文獻(xiàn),本文使用了28個(gè)否定副詞,這些詞包括:不、沒(méi)、無(wú)、非、莫、弗、勿、毋、未、否、別、無(wú)、休、不要、沒(méi)有、未必、難以、未曾、不能等。由于否定詞在進(jìn)行情感判斷時(shí)具有置反作用,所以將其權(quán)值設(shè)置為-1。

文本中會(huì)存在很多轉(zhuǎn)折句型,在轉(zhuǎn)折句型中往往會(huì)發(fā)生情感反轉(zhuǎn),將前一部分表達(dá)的情感弱化,從而突出轉(zhuǎn)折之后的情感。同樣,文本中可能也會(huì)包含對(duì)作者觀點(diǎn)進(jìn)行總結(jié)的歸總類詞匯,包含這類詞匯的分句更能夠表達(dá)作者的情感傾向,所以需要賦予更高的權(quán)重比例。通過(guò)查閱金允經(jīng)等[21]的文獻(xiàn),本文選擇但、但是、卻、然而、不過(guò)、只是、就是、總之、總而言之、總體來(lái)看、認(rèn)為、覺(jué)得、總結(jié)、綜上所述等作為轉(zhuǎn)折歸總詞匯。

本文情感詞典的構(gòu)建過(guò)程如圖1所示:

圖1 情感詞典構(gòu)建流程Fig.1 Construction process of sentiment lexicons

1.3 規(guī)則定義

情感詞典的構(gòu)建可以把情感詞語(yǔ)從句子中孤立出來(lái),但是如果孤立地看待這些詞語(yǔ),并不能正確地反映新聞的情感傾向。為了提高分析的準(zhǔn)確度,必須將上下文的聯(lián)系考慮進(jìn)來(lái)。因此,在詞語(yǔ)情感計(jì)算的基礎(chǔ)上,應(yīng)該考慮上下文中能夠改變?cè)~語(yǔ)情感傾向或者情感強(qiáng)度的語(yǔ)義規(guī)則信息。

本文結(jié)合新聞文體的特點(diǎn),綜合情感詞典、情感句位置、標(biāo)題等元素定義了多種語(yǔ)義規(guī)則用于情感句的傾向性計(jì)算。

1.3.1 情感表達(dá)組合

對(duì)新聞進(jìn)行切割,分為段落、句子以及意群,以意群為最小情感單元進(jìn)行分詞獲取情感詞匯。以情感詞匯為中心,與情感表達(dá)有關(guān)的規(guī)則有如下幾種:

規(guī)則1:只包含情感詞匯而不包含其他修飾詞匯的意群,例如:今天心情不錯(cuò)。例子當(dāng)中只包含“不錯(cuò)”一個(gè)情感詞,該類別的意群權(quán)值計(jì)算如公式2所示,其中w為該意群的情感值,p為該情感詞匯的情感值,N為情感詞匯數(shù)量。

(2)

規(guī)則2:包含否定修飾詞意群,例如:今天我不高興!例子中存在否定詞“不”來(lái)修飾情感詞“高興”,那么句子的傾向性發(fā)生了反轉(zhuǎn),由正面變成了負(fù)面。該類別的意群情感值計(jì)算如公式3所示,其中m為修飾該情感詞的否定詞的個(gè)數(shù),m的選取采用了滑動(dòng)窗口方式。通過(guò)對(duì)情感語(yǔ)料的分析,本文將m設(shè)置為5,即選擇情感詞匯之前5個(gè)詞匯中的否定詞個(gè)數(shù)。

(3)

規(guī)則3:包含程度修飾詞的意群,例如:今天我很高興!例子中存在“很”這樣一個(gè)程度詞來(lái)修飾“高興”,那么本來(lái)的意群情感傾向在經(jīng)過(guò)修飾后得到了明顯的加強(qiáng)。該類別的意群情感值計(jì)算如公式4所示,其中d表示修飾該情感詞匯的程度詞的情感權(quán)重,程度修飾詞的選擇依然采用滑動(dòng)窗口的方式,根據(jù)對(duì)情感語(yǔ)料的分析,本文設(shè)置窗口大小為情感詞匯前后各3個(gè)。

(4)

規(guī)則4:包含否定詞、程度詞和情感詞匯的意群,其中否定詞位于程度詞之前,例如:今天我不是很高興。這種句型當(dāng)中,否定詞將程度詞的情感程度有所弱化,意群情感計(jì)算方式如公式5所示,其中α為否定詞和程度詞的位置信息權(quán)重,這里取0.8。

(5)

規(guī)則5:包含程度詞、否定詞和情感詞匯的意群,其中否定詞位于程度詞之后,例如:今天我很不高興。這種句型當(dāng)中,否定詞將程度詞的情感傾向明顯加強(qiáng),意群情感計(jì)算方式如公式5所示,其中w的取值為1.2。

規(guī)則6:當(dāng)上述規(guī)則中含有轉(zhuǎn)折、歸總詞匯或者位于段首與段尾時(shí),其情感值計(jì)算的權(quán)重要增強(qiáng)。計(jì)算方式如公式6所示,其中wori為未引入規(guī)則6時(shí)計(jì)算出的情感值:

w=1.2×wori。

(6)

根據(jù)上述規(guī)則可以計(jì)算出每個(gè)句子的意群情感傾向值,由此可以計(jì)算句子、段落以及篇章的最終情感值,從而得到新聞的情感傾向。其中,s為該句子的情感值;P為段落的情感值;K為該句意群總數(shù);M為該段落句子總數(shù);n為最終情感值;Q為該篇章段落總數(shù)。

(7)

(8)

(9)

1.3.2 分析流程

本文使用的基于規(guī)則的網(wǎng)絡(luò)新聞文本情感分析具體流程如下:

(1)文本切割。將文本Doc按照換行符“/r”或者“/n”切割成段落Para,再按照[“。”,“?”,“!”]將Para分為Sen,最后按照[“,”]將Sen切割為多個(gè)意群SenGroup。

(2)文本預(yù)處理與情感定位。對(duì)每個(gè)意群使用FudanNLP進(jìn)行分詞,結(jié)合情感詞典獲取情感關(guān)鍵詞并按照sentimentword四元組進(jìn)行標(biāo)注。

(3)融合規(guī)則計(jì)算意群情感值。通過(guò)文中定義的6個(gè)規(guī)則,對(duì)得到的意群進(jìn)行情感值計(jì)算。

(4)計(jì)算句子情感傾向值。通過(guò)規(guī)則對(duì)意群加權(quán)得到句子的情感值之后需要再次計(jì)算該句子與標(biāo)題的文本相似度。文本采用SimHash算法進(jìn)行相似度計(jì)算,生成標(biāo)題和要對(duì)比句子的Hash值,再通過(guò)計(jì)算兩個(gè)Hash值的海明距離判斷相似度。此時(shí)句子的情感傾向值計(jì)算方式如公式10所示,其中α的值根據(jù)相似度進(jìn)行調(diào)整,相似度越高α越大。sori為未進(jìn)行相似度計(jì)算時(shí)的句子情感值:

s=α×sori。

(10)

(5)計(jì)算段落以及篇章的情感傾向值,最終得到文本的情感傾向。算法流程如圖2所示。

圖2 算法流程分析Fig.2 Algorithm flow analysis

2 實(shí)驗(yàn)結(jié)果與分析

2.1 數(shù)據(jù)來(lái)源及任務(wù)指標(biāo)

數(shù)據(jù)集1來(lái)源于網(wǎng)易和新浪新聞板塊,通過(guò)網(wǎng)絡(luò)爬蟲(chóng)共采集1 000篇新聞?wù)Z料,采用人工標(biāo)注的方式進(jìn)行情感標(biāo)注,其中正面新聞320篇,負(fù)面新聞219篇,其余為中性新聞。數(shù)據(jù)集2采用網(wǎng)絡(luò)爬蟲(chóng)爬取的新聞、博客、論壇各300篇作為測(cè)試數(shù)據(jù)集。文本采用準(zhǔn)確率(precision)、召回率(recall)和F1值對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)估。計(jì)算方式如下,其中a為判斷正確的文本數(shù)目;b為實(shí)際正確的文本數(shù)目,c為所有的文本數(shù)目,Pre為準(zhǔn)確率;Rec為召回率:

Pre=(a/b)×100% ,

(11)

Rec=(a/c)×100% ,

(12)

(13)

2.2 結(jié)果與分析

本文實(shí)驗(yàn)1以只考慮情感詞典而未加入任何規(guī)則條件的測(cè)試結(jié)果作為baseline,將融入規(guī)則的測(cè)試與之進(jìn)行對(duì)比。結(jié)果如表2所示,其中RPos為正面新聞?wù)倩芈省Pos為正面新聞準(zhǔn)確率、F1Pos為正面新聞F1值;RNeg、PNeg和F1Neg分別代表負(fù)面新聞?wù)倩芈省?zhǔn)確率和F1值。通過(guò)結(jié)果可知,只采用情感詞匯權(quán)重加權(quán)方式的情感傾向性計(jì)算方式比本文采用的基于情感詞典和規(guī)則的計(jì)算方式各項(xiàng)指標(biāo)明顯偏低,在復(fù)雜的語(yǔ)言環(huán)境下,相同的詞匯在不同的上下文中所代表的語(yǔ)義有所不同,單純只考慮詞匯本身的含義不能準(zhǔn)確表達(dá)情感信息。隨著各類規(guī)則的加入,綜合考慮上下文語(yǔ)義關(guān)系,本文得到的實(shí)驗(yàn)結(jié)果準(zhǔn)確率和召回率都在0.75以上,從而驗(yàn)證了本文方法是有效可行的。

表2 實(shí)驗(yàn)1結(jié)果

實(shí)驗(yàn)2對(duì)數(shù)據(jù)集2中的數(shù)據(jù)進(jìn)行分析,與目前比較主流的分析方法SVM進(jìn)行對(duì)比。SVM采用的是臺(tái)灣大學(xué)林智仁教授開(kāi)發(fā)的LibSVM。實(shí)驗(yàn)結(jié)果如表3所示。其中Rec為召回率、Pre為準(zhǔn)確率。從實(shí)驗(yàn)結(jié)果來(lái)看,通過(guò)對(duì)各類規(guī)則的總結(jié),本文提供的方法要優(yōu)于SVM算法,說(shuō)明本文提供的方法是有效的。

表3 實(shí)驗(yàn)2結(jié)果

3 結(jié)語(yǔ)

本文在對(duì)網(wǎng)絡(luò)新聞文體結(jié)構(gòu)分析的基礎(chǔ)上,先后構(gòu)建了正負(fù)面情感詞典、否定詞詞典、程度副詞詞典、轉(zhuǎn)折歸總詞典,結(jié)合多種規(guī)則,提出了一種基于詞典和規(guī)則的網(wǎng)絡(luò)新聞文本情感分析方法,并通過(guò)實(shí)驗(yàn)對(duì)本方法的有效性和可行性進(jìn)行了驗(yàn)證。雖然此次研究取得了一定的成果,但是尚有許多工作需要完成,如含有歧義的詞語(yǔ)的處理;篇章級(jí)的情感值是通過(guò)段落加權(quán)平均得到,而段落的情感值又是通過(guò)句子的加權(quán)平均獲得,這種方式雖然能取得不錯(cuò)的效果,但是仍然比較簡(jiǎn)單。因此,如何消除詞語(yǔ)歧義和更好地獲取篇章級(jí)情感值是下一步的研究重點(diǎn)。

[1]趙妍妍,秦兵,劉挺.文本情感分析[J].軟件學(xué)報(bào),2010,21(8):1834-1848.

[2]LIUB,HUMQ,CHENGJS.Opinionobserver:AnalyzingandcomparingopiniosontheWeb[C]//Proceedingsofthe14thinternationalconferenceonWorldWideWeb.NewYork,NY,USA:ACM,2005:342-351.

[3]PANGB,LEEL.Opinionminingandsentimentanalysis[J].Foundationsandtrendsininformationretrieval,2008,2(1/2):1-135.

[4]王成. 基于半監(jiān)督機(jī)器學(xué)習(xí)的文本情感分析技術(shù)[D]. 南京;南京理工大學(xué),2015.

[5]孫建旺,呂學(xué)強(qiáng),張雷瀚. 基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析研究[J]. 計(jì)算機(jī)應(yīng)用與軟件,2014, 31(7):177-181.

[6]楊佳能,陽(yáng)愛(ài)民,周詠梅. 基于語(yǔ)義分析的中文微博情感分類方法[J]. 山東大學(xué)學(xué)報(bào)(理學(xué)版),2014,49(11):14-21.

[7]張志飛,苗奪謙,岳曉冬,等. 強(qiáng)語(yǔ)義模糊性詞語(yǔ)的情感分析[J]. 中文信息學(xué)報(bào),2015,29(2):68-78.

[8]PANGB,LEEL,VAITHYANATHANS.Thumbsup?Sentimentclassificationusingmachinelearningtechniques[EB/OL]. [2016-03-04].http://delivery.acm.org/10.1145/1120000/1118704/p79-pang.pdf?ip=222.173.55.212&id=1118704&acc=OPEN&key=4D4702B0C3E38B35%2E4D4702B0C3E38B35%2E4D4702B0C3E38B35%2E6D218144511F3437&CFID=849300259&CFTOKEN=78353276&__acm__=1475909422_f62191db62812a3a07db2d210c7dc31b.

[9]TANSB,ZHANGJ.AnempiricalstudyofsentimentanalysisforChinesedocuments[J].ExpertSystemswithApplications, 2008, 34(4):2622-2629.

[10]樊小超. 基于機(jī)器學(xué)習(xí)的中文文本主題分類及情感分類研究[D]. 南京:南京理工大學(xué), 2014.

[11]朱嫣嵐, 閔錦, 周雅倩,等. 基于HowNet的詞匯語(yǔ)義傾向計(jì)算[J]. 中文信息學(xué)報(bào), 2006, 20(1):14-20.

[12]TURNEYPD,LITTMANML.Measuringpraiseandcriticism:Inferenceofsemanticorientationfromassociation[J].AcmTransactionsonInformationSystems, 2003, 21(4):315-346.

[13]馮亮祖. 基于情感關(guān)鍵句的新聞文本情感分類研究[D]. 北京:北京郵電大學(xué), 2015.

[14]張成功, 劉培玉, 朱振方,等. 一種基于極性詞典的情感分析方法[J]. 山東大學(xué)學(xué)報(bào)(理學(xué)版), 2012, 47(3):47-50.

[15]李凌燕. 新聞敘事的主觀性研究[M]. 上海:東方出版中心, 2013.

[16]謝暉. 新聞文本學(xué)[M]. 北京:中國(guó)傳媒大學(xué)出版社, 2007.

[17]YESSENALINAA,YUEY,CARDIEC.Multi-levelstructuredmodelsfordocument-levelsentimentclassification[C]//ConferenceonEmpiricalmethodsinnaturallanguageprocessing.Massachusetts,USA:AssociationforComputationallinguistics,2010:1046-1105.

[18]李本陽(yáng). 句子和篇章文本傾向分析[D]. 哈爾濱: 哈爾濱工業(yè)大學(xué), 2010.

[19]杜偉夫. 文本傾向性分析中的情感詞典構(gòu)建技術(shù)研究[D]. 哈爾濱:哈爾濱工業(yè)大學(xué), 2010.

[20]張誼生.現(xiàn)代漢語(yǔ)副詞研究[M].上海:學(xué)林出版社,2000.

[21]金允經(jīng),金昌吉. 現(xiàn)代漢語(yǔ)轉(zhuǎn)折連詞組的同異研究[J]. 漢語(yǔ)學(xué)習(xí),2001(2):34-40.

DOI:10.3976/j.issn.1002-4026.2017.01.020

Lexiconandrulesbasednewstextsentimentanalysis

LIChen1,ZHUShi-wei1,WEIMo-ji1,YUJun-feng1,LIXin-tian2

(1.InformationInstitute,ShandongAcademyofSciences,Jinan250014,China;2.BiologyInstitute,ShandongAcademyofSciences,Jinan250014,China)

∶Accordingtothestructure,thenewsstylewasdividedintoseveralparagraphs.Basedonsentimentlexiconandsemanticrules,amethodofextractingsentimentalkeysentenceswasusedtoanalyzethesentimentofsentenceswithineachparagraph.Firstly,sentimentlexiconwasbuiltbyconsideringtheemotion,twist,negation,degreeandsumsupvocabularies;Secondly,accordingtorules,newstextwasdividedintosensegroups,sentences,paragraphsandchapters;Furthermore,orientationvalueofsentimentalkeysentenceswascomputedbytherulesestablished,andthenthesentimentalorientationvalueoftheparagraphsandthewholechapterswasobtainedbyweightedaverageofsentences,thusthesentimentalorientationofnewswasrevealed.ComparedwithlexiconbasedmethodandSVMsentimentclassification,experimentalresultsshowthatthemethodproposedhasgoodeffectsontheorientationidentificationofnewstext,showinggoodfeasibilityaswell.

∶sentimentanalysis;rules;sentimentlexicon;onlinenews

10.3976/j.issn.1002-4026.2017.01.019

2016-07-13

山東省科技發(fā)展計(jì)劃(2014GGX101013);山東省重點(diǎn)研發(fā)計(jì)劃(2015GGX101032,2015GGX101037,2016GGX101018)

李晨(1988—),男,碩士,研究方向?yàn)榇髷?shù)據(jù)和數(shù)據(jù)挖掘。

TP

A

1002-4026(2017)02-0115-07

猜你喜歡
規(guī)則詞匯文本
撐竿跳規(guī)則的制定
數(shù)獨(dú)的規(guī)則和演變
本刊可直接用縮寫(xiě)的常用詞匯
一些常用詞匯可直接用縮寫(xiě)
在808DA上文本顯示的改善
本刊可直接用縮寫(xiě)的常用詞匯
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
讓規(guī)則不規(guī)則
Coco薇(2017年11期)2018-01-03 20:59:57
TPP反腐敗規(guī)則對(duì)我國(guó)的啟示
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 欧美亚洲国产一区| 亚洲国产日韩一区| 色婷婷综合激情视频免费看| 久久精品中文字幕免费| 日韩精品中文字幕一区三区| 国产超碰一区二区三区| 99精品国产自在现线观看| 乱人伦视频中文字幕在线| 蜜桃视频一区二区| 成人毛片在线播放| 波多野结衣二区| 在线观看免费人成视频色快速| 99尹人香蕉国产免费天天拍| 超碰色了色| 亚洲精品在线影院| 农村乱人伦一区二区| 久久一级电影| 亚洲综合欧美在线一区在线播放| 青青青亚洲精品国产| 国产欧美日韩精品第二区| a亚洲天堂| 亚洲天堂免费观看| 色成人亚洲| 999在线免费视频| 亚洲欧美不卡中文字幕| 一本大道在线一本久道| 亚洲熟妇AV日韩熟妇在线| 国产女同自拍视频| 亚洲国产成人自拍| 欧美黄色a| 玖玖精品在线| 无码中字出轨中文人妻中文中| 久久亚洲国产视频| 欧美日韩国产在线播放| 狼友视频一区二区三区| 久久亚洲国产一区二区| 亚洲中文精品人人永久免费| 成人午夜久久| 国内精品久久久久久久久久影视| AV色爱天堂网| 亚洲日韩国产精品无码专区| 国产成人精品男人的天堂下载 | 国产91丝袜在线观看| 亚洲成A人V欧美综合天堂| 亚洲综合婷婷激情| 国产国语一级毛片在线视频| 99国产在线视频| 一级毛片基地| 亚洲美女一区| 国产精品欧美日本韩免费一区二区三区不卡 | 国产第一页第二页| 久一在线视频| a色毛片免费视频| 中文字幕欧美日韩高清| 欧美一级在线看| 91极品美女高潮叫床在线观看| 国产精品亚洲日韩AⅤ在线观看| 亚洲第一成人在线| v天堂中文在线| 亚洲成aⅴ人片在线影院八| 午夜不卡视频| 欧美亚洲综合免费精品高清在线观看 | 亚洲一区网站| 久久综合成人| 国产永久免费视频m3u8| 人人妻人人澡人人爽欧美一区| 国产流白浆视频| 久久www视频| 亚洲 欧美 日韩综合一区| 黄片一区二区三区| 国产午夜不卡| 日本国产精品| 无码一区二区波多野结衣播放搜索| 国产精品天干天干在线观看| 免费观看欧美性一级| 欧美亚洲网| 亚洲高清资源| 国内精品视频在线| 97一区二区在线播放| 亚洲高清资源| 一本综合久久| 亚洲人成在线精品|