999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Renyi熵的文本情感分析

2024-01-12 05:38:26張冠東姜榮
微型電腦應(yīng)用 2023年12期
關(guān)鍵詞:分類文本情感

張冠東, 姜榮

(上海第二工業(yè)大學(xué), 數(shù)理與統(tǒng)計學(xué)院, 上海 201209)

0 引言

在人工智能不斷發(fā)展的今天,人們不僅可以通過各種社交媒體記錄日常生活的感想,發(fā)表對時事新聞的觀點,還能通過閱讀別人發(fā)表的言論獲取許多額外的信息。然而,發(fā)布的信息對整個社會的輿論導(dǎo)向有著重要的影響,有的信息會帶來正能量,有的信息會有負(fù)面的煽動效應(yīng)。因此,在海量文本數(shù)據(jù)下,為了有效地捕捉文本所包含的褒貶情感色彩,從而鼓勵推廣正能量信息的傳播,同時也能提供有效的措施預(yù)防負(fù)面信息對社會帶來的影響,學(xué)者們提出了許多研究方法。他們一般是利用關(guān)鍵詞頻率、預(yù)先設(shè)定的情感規(guī)則,或者利用已有的情感詞典對文本進行分析,進而為文本貼上褒貶的標(biāo)簽[1],也有不少的方法采用機器學(xué)習(xí)、深度學(xué)習(xí)的理論構(gòu)建分類器來分析文本的褒貶。但這些方式一般都以文本詞性的單一性為基礎(chǔ),缺乏對文本詞匯多樣性的思考。

目前,在文本分類方面已經(jīng)存在不少的研究并取得了一定的進展。在長文本研究領(lǐng)域:林呈宇等[2]對弱監(jiān)督文本中的噪聲進行了研究,通過增強標(biāo)簽語義提高了文本分類的精度;尹雪婷等[3]針對詞頻在文本分類中低準(zhǔn)確率的問題,通過引入加權(quán)因子并結(jié)合上下文信息,提出了一種基于任務(wù)優(yōu)化文本表示學(xué)習(xí)的文本分類算法,為文本分類提供了新的思路;李建平等[4]利用改進的長短時記憶網(wǎng)絡(luò)更好地發(fā)現(xiàn)了特征詞的前后關(guān)聯(lián)關(guān)系,從而找到極其重要的潛在語義因素,提高了分類的準(zhǔn)確率。在短文本研究領(lǐng)域:田小瑜等[5]利用標(biāo)簽到文本本身的映射過濾文本中的無效信息來生成文本信息標(biāo)簽,提出了一種深度模塊化標(biāo)簽注意網(wǎng)絡(luò)用于文本分類;李博涵等[6]重點研究了短文本的分類,將知識感知與雙重注意力機制相結(jié)合,提出了一種新的文本分類機制,提高了模型對短文本中有效信息提取的效率。在情感分析領(lǐng)域:陳紅陽等[7]將多因素融合在一起,構(gòu)建了一種豐富語義與情感信息的文本特征向量進行文本分類;楊京虎等[8]對長文本的情感加以分析,其提出的模型可以通過滑動窗口抽取子事件的方法分析識別情感主體;趙宏等[9]將句法結(jié)構(gòu)、上下文內(nèi)容和語義特征等相融合,提出了一種特征融合的文本情感分析方法,提高了文本的分類精度。

以上研究的關(guān)注點在于文本文字方面的特征,且大部分研究內(nèi)容更關(guān)注于文本的內(nèi)容,缺少對詞的多屬性含義所含有的情感色彩研究。針對以上問題,本文主要針對英文文本中詞匯的多屬性特點進行褒貶傾向的分析,通過構(gòu)建關(guān)鍵詞句概括文本的內(nèi)容,并給出褒貶評分來判斷文本的情感色彩。

1 模型設(shè)計

1.1 理論分析

本文主要基于熵的理論基礎(chǔ)。熵泛指度量某些系統(tǒng)或物質(zhì)的一些狀態(tài),也可以理解為測量某些狀態(tài)可能出現(xiàn)的程度。熵的理論已經(jīng)被廣泛地應(yīng)用于熱力學(xué)、物理學(xué)與信息論的研究。香農(nóng)(Shannon)將熵引入了信息論,在目前的很多研究中,其可以描述為給定的概率分布(p1,p2,p3,…,pn},給出的公式為

(1)

Renyi熵[11]已經(jīng)被應(yīng)用于文本的關(guān)鍵詞提取研究,且能揭示模型中混合隨機變量的統(tǒng)計特性[10]。因此,在研究如何對文本的褒貶進行分類的問題中,本文也引入Renyi熵,其公式為

(2)

由于本文是基于文本語句的關(guān)鍵詞進行褒貶分析的,且詞匯并不是只有褒義或貶義的含義,因此提出一種新的改進型Renyi熵。由于貶義詞包含的信息比褒義詞多[12],因此將貶義詞得分與褒義詞得分的比值作為熵對數(shù)中的部分,設(shè)q=2,該改進型Renyi熵公式如下:

(3)

1.2 模型構(gòu)建與實現(xiàn)

英文單詞并不能簡單地歸結(jié)為褒義或貶義,在具體的語言環(huán)境中,不同的讀者對詞匯的理解可能會有不同的褒義或貶義的傾向。因此,在計算關(guān)鍵詞句的褒義分值和貶義分值后,再對這些分值進行匯總得到語句的總的褒貶分。在提取關(guān)鍵詞方面,由于BERT技術(shù)常用于關(guān)鍵詞的提取[13-14],因此本文采用基于BERT的KeyBERT方法來提取關(guān)鍵詞,該方法通過BERT嵌入,創(chuàng)建出與文本意思相似的關(guān)鍵詞或短語。對關(guān)鍵詞的多詞性褒貶分值進行打分,采用SentiWordNet對單詞的情感色彩進行打分,因為該英文電子詞典能基于情感詞進行極性標(biāo)注并計算詞極性的強度[15],從而對詞的褒貶賦予有效的分值。本文方法的實現(xiàn)流程如圖1所示。

圖1 計算流程圖

由于有的文本數(shù)據(jù)只包含符號或異常字符,這些文本語句將會被認(rèn)定為異常文本而被過濾。對于正常文本,先對文本進行清洗,去除標(biāo)點符號和異常字符,再將獲得語句的關(guān)鍵詞組成關(guān)鍵詞句進行褒貶分值計算。

2 檢驗標(biāo)準(zhǔn)

對于文本的褒貶分類,通常采用準(zhǔn)確率和精確率作為檢驗標(biāo)準(zhǔn)來判別模型的優(yōu)劣。準(zhǔn)確率(Accuracy)是指全部正確分類的對象數(shù)占總的研究對象數(shù)的比例,其計算方法為

(4)

其中,TP為正確的正例數(shù),TN為正確的負(fù)例數(shù),NAll為總的對象數(shù)。本文利用模型分類結(jié)果中正確的褒義分類數(shù)和正確的編譯分類數(shù)之和與總的文本對象數(shù)的比值來計算準(zhǔn)確率,因此TP可被認(rèn)為是分類正確的褒義語句,TN可被認(rèn)為是分類正確的貶義語句。精確率(Precision)是指模型各分類中所得的正確分類數(shù)占該類正確分類和錯誤分類之和的比例,其公式如下:

(5)

其中,Tc為正確的分類數(shù),Fc為錯誤的分類數(shù)。本文對褒義和貶義分類均可計算精確度,公式為

(6)

(7)

其中,FP為錯誤的正例數(shù),FN為錯誤的負(fù)例數(shù)。本文將FP認(rèn)為是分類錯誤的褒義語句,FN認(rèn)為是分類錯誤的貶義語句。

3 實例分析

對于英文的文本實例,所選用的數(shù)據(jù)集為被標(biāo)簽的IMDB和Yelp數(shù)據(jù)。將改進型Renyi熵、Renyi熵和香農(nóng)熵分別應(yīng)用于給定的公共數(shù)據(jù)集,得到的結(jié)果如表1、表2所示。

表1 IMDB數(shù)據(jù)集

表2 Yelp數(shù)據(jù)集

由表1、表2可知,在準(zhǔn)確率、褒義精確度和貶義精確度方面,絕大部分改進型Renyi熵的指標(biāo)比Renyi熵和香農(nóng)熵都有所提升。其中,精度比較結(jié)果如表3、表4所示。

表3 IMDB數(shù)據(jù)集指標(biāo)比較

表4 Yelp數(shù)據(jù)集指標(biāo)比較

由表3、表4可知,在Yelp數(shù)據(jù)集中,改進型Renyi熵的褒貶分類性能均比Renyi熵和香農(nóng)熵優(yōu)越。在IMDB數(shù)據(jù)集中,雖然在褒義精確度方面,改進型Renyi熵比香農(nóng)熵有所下降,但是其降幅僅為0.3%,其他的性能指標(biāo)均顯示出改進型Renyi熵比另2個模型優(yōu)越。

4 總結(jié)

文本分析是人工智能時代重要研究內(nèi)容之一,而文本褒貶分類則是文本分析領(lǐng)域的一個重要研究點。本文提出一種改進型Renyi熵模型對文本的褒貶進行分類,通過計算關(guān)鍵詞多詞性的情感傾向值分別得到詞語的正面、負(fù)面情感傾向值,從而計算出該文本的褒貶傾向并加以分類。實驗表明,該方法的分類性能較好,為文本分類提供了一種有效的思路。在未來的研究中,可以通過上下文的語境對關(guān)鍵詞進行進一步的篩選,以提高文本分析的性能。

猜你喜歡
分類文本情感
分類算一算
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
在808DA上文本顯示的改善
分類討論求坐標(biāo)
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨立
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
主站蜘蛛池模板: 香蕉国产精品视频| 国产精品人成在线播放| 国产亚洲精品资源在线26u| 狠狠亚洲婷婷综合色香| 尤物国产在线| 五月综合色婷婷| 国产情侣一区| 欧美激情福利| 亚洲综合激情另类专区| 免费在线色| 国产理论一区| 午夜国产精品视频| 国产福利免费视频| 91国内外精品自在线播放| 国产91久久久久久| m男亚洲一区中文字幕| 日韩成人在线视频| 好吊色国产欧美日韩免费观看| 污网站在线观看视频| 亚洲欧美另类专区| 欧美日韩在线成人| 澳门av无码| 在线网站18禁| 综合色在线| 国产三级毛片| 欧美成人h精品网站| 一区二区三区四区精品视频| 欧美一级在线| 女人18毛片水真多国产| 青草视频在线观看国产| 亚洲一级毛片免费观看| 大陆国产精品视频| 国产在线小视频| 国产污视频在线观看| 国产欧美综合在线观看第七页| 亚洲一区二区三区香蕉| 久久香蕉国产线看观| 免费国产高清视频| 免费a在线观看播放| 凹凸精品免费精品视频| 在线免费看黄的网站| 波多野吉衣一区二区三区av| 免费国产无遮挡又黄又爽| 黄色福利在线| 亚洲成年人网| 久久久久亚洲AV成人网站软件| 老司国产精品视频| 制服丝袜 91视频| 久久久久中文字幕精品视频| 国产精品免费久久久久影院无码| 国产成人精品视频一区视频二区| 国语少妇高潮| 91青草视频| 国产黄在线观看| 久久免费看片| 亚洲国产成人精品无码区性色| 精品伊人久久久香线蕉| 亚洲成人免费在线| 天天综合色天天综合网| 亚洲欧美成人在线视频| 日韩精品毛片人妻AV不卡| 日本午夜三级| 国产亚洲一区二区三区在线| 欧美精品啪啪一区二区三区| 免费观看成人久久网免费观看| 91免费在线看| 亚洲天堂首页| 国产高潮流白浆视频| 成年人福利视频| 天堂成人在线| 国产人成网线在线播放va| 国产人成乱码视频免费观看| 九九热精品视频在线| 国产亚洲视频中文字幕视频| 亚洲国产精品无码AV| 五月激激激综合网色播免费| 久热这里只有精品6| 伊人久久大香线蕉综合影视| 国产午夜不卡| 日韩不卡高清视频| 亚洲日本精品一区二区| 香蕉国产精品视频|