999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于信息熵的文本語(yǔ)句整體褒貶傾向的識(shí)別方法

2021-12-09 06:59:30張冠東楊琛詹曉琳方紅王繼芬
微型電腦應(yīng)用 2021年11期
關(guān)鍵詞:詞匯文本情感

張冠東, 楊琛, 詹曉琳, 方紅, 王繼芬

(1. 上海第二工業(yè)大學(xué) 文理學(xué)部, 上海 201209; 2. 武漢大學(xué) 經(jīng)濟(jì)與管理學(xué)院, 湖北 武漢 430072)

0 引言

在大數(shù)據(jù)時(shí)代,人們依靠大量的數(shù)據(jù)來(lái)發(fā)現(xiàn)事物的規(guī)律和本質(zhì)。隨著科技的發(fā)展,數(shù)據(jù)分析已經(jīng)越來(lái)越離不開(kāi)計(jì)算機(jī)的支持。在所有現(xiàn)有的數(shù)據(jù)類型中,文本數(shù)據(jù)是最普遍存在也是最容易獲得的數(shù)據(jù)。因此,文本數(shù)據(jù)分析已經(jīng)逐漸成為數(shù)據(jù)分析領(lǐng)域一個(gè)重要的研究方向。在中文的文本分析領(lǐng)域中,研究方向有很多,包括文本分類、文本排序、情感識(shí)別等。在這些研究方向上,文本的情感識(shí)別是一個(gè)比較熱門(mén)的研究方向,因?yàn)樗軌蜓杆僮R(shí)別所研究的目標(biāo)文本,為后續(xù)的深入分析打下基礎(chǔ)。這是因?yàn)槟壳拔⑿?、微博和各種社交媒體已經(jīng)成為公眾關(guān)注社會(huì)狀況的一種重要途徑。在這些社交媒體中,文字或者文本表述是它們主要的表現(xiàn)形式。由于中文詞匯豐富,由中文所組成的文本語(yǔ)句能夠用于表達(dá)作者的情感、觀點(diǎn)等信息,因此這些文字信息能夠讓讀者了解作者的意圖和想法。因此我們可以通過(guò)對(duì)文字所包含的褒貶信息進(jìn)行判斷,推測(cè)出作者的意圖從而了解作者的喜好。

先前的文本語(yǔ)句褒貶研究是依托于詞匯的褒貶進(jìn)行的,這種研究適用于詞匯的褒貶意義,但是對(duì)于文本整體而言,無(wú)法根據(jù)褒義或者貶義詞匯的多少來(lái)判斷該文本是褒義還是貶義的意思。此外,如果僅僅是計(jì)算褒貶詞匯之間的比例,也會(huì)因?yàn)楹雎晕谋菊w的信息量而使得研究結(jié)果缺乏一定的價(jià)值。由于信息熵(Information Entropy)具有檢驗(yàn)整體信息量的功能,因此我們可以利用其對(duì)整體信息質(zhì)量進(jìn)行檢測(cè)的方法來(lái)檢驗(yàn)。

1 現(xiàn)狀描述

情感分析也被稱為具有感情色彩的傾向性數(shù)據(jù)挖掘,它是對(duì)用戶所發(fā)表的言論、評(píng)價(jià)、觀點(diǎn)等一系列文字內(nèi)容進(jìn)行識(shí)別,找出用戶的觀點(diǎn)傾向。文本的情感分析可以從詞語(yǔ)、句子和段落方面來(lái)研究。然而,詞語(yǔ)的情感分析則太微小,因?yàn)楫吘乖~匯的情感因素?zé)o法反映出整體語(yǔ)句的情感傾向;段落的情感分析則太寬,因?yàn)橛行┒温湮淖痔嗵L(zhǎng),所以我們只能從一大段語(yǔ)句中粗略看出情感的整體傾向。由此,語(yǔ)句的情感分析能幫助我們了解一個(gè)句子的情感傾向,從而看出作者的情感變化狀況。由于文本的情感分析也是屬于文本分析的范疇,所以我們采用文本分析的研究方法來(lái)做文本的情感分析。目前,有很多研究方法被用于對(duì)文本做系統(tǒng)性的分析,例如LDA、Topic Modeling、Information Entropy等。在這些方法中,信息熵是一種高效且先進(jìn)的分析方法,它結(jié)合了概率的理念從整體的角度來(lái)檢測(cè)所包含的某些信息的質(zhì)量。對(duì)于文本分析而言,當(dāng)某一類特定的文本信息越多,那么說(shuō)明這種文本所代表的意義被傳播得越廣泛,表達(dá)得越豐富。

在國(guó)內(nèi),李圣文等[1]采用熵的方法來(lái)檢測(cè)文本之間的相似程度,他們通過(guò)對(duì)公共字符串相似性的研究使得文本的相似度統(tǒng)計(jì)的精確度比傳統(tǒng)的分析方法更好。齊園和王琴[2]采用熵權(quán)TOPSIS法對(duì)獲取的國(guó)家和地方裝配式建筑配套政策的文本數(shù)據(jù)進(jìn)行了分析研究,并以此對(duì)我國(guó)的相關(guān)政策和發(fā)展提出了相應(yīng)的建議。李輝等[3]則針對(duì)網(wǎng)頁(yè)中缺失的評(píng)價(jià)信息對(duì)網(wǎng)頁(yè)內(nèi)容推薦結(jié)果的影響做了分析研究,他們的研究通過(guò)利用特征詞及其相關(guān)權(quán)重計(jì)算出文本信息熵和最鄰近熵差得出推薦值進(jìn)行文本推薦,從而提高了推薦算法的準(zhǔn)確性。黃文明和孫艷秋[4]利用最大熵的理念對(duì)社交媒體的評(píng)論文本進(jìn)行情感分析,該研究利用有限擬牛頓平滑算法對(duì)情感分析的模型加以優(yōu)化,通過(guò)以關(guān)鍵字為劃分的評(píng)論數(shù)據(jù)集上的對(duì)比試驗(yàn)驗(yàn)證了模型的有效性。陳科文等[5]使用文本特征的詞的權(quán)重提出了一種基于支持向量機(jī)(Support Vector Machine,SVM)的 LTF-ECDP(Logarithmic Term Frequency & Entropy-based Class Distinguishing Power)方法,該方法不但使得文本分類更加準(zhǔn)確而且不會(huì)因?yàn)閿?shù)據(jù)集的變化而性能不穩(wěn)定。

除了國(guó)內(nèi)的文本研究以外,國(guó)外的科研工作者也熱衷于文本信息的分析和研究。Maryam和Ali[6]提出了用Tsallis信息熵來(lái)對(duì)文本按照某種主題進(jìn)行排序,他們通過(guò)應(yīng)用統(tǒng)計(jì)理論和概念設(shè)計(jì)出一種詞排序矩陣從文檔中來(lái)抽取關(guān)鍵詞,其實(shí)驗(yàn)結(jié)果表明Tsallis熵優(yōu)于其他一些文本排序方法。Olga等[7]對(duì)阿拉伯新聞報(bào)紙中語(yǔ)言意思的變化做了研究,他們的研究在基于詞嵌入和詞統(tǒng)計(jì)過(guò)程的基礎(chǔ)上對(duì)出版的傳統(tǒng)媒體提出了一種動(dòng)態(tài)的模式判斷方法,其實(shí)驗(yàn)表明該方法能夠抓住文本語(yǔ)言信息中的顯著變化。Vashishtha和Seba[8]將模糊熵(Fuzzy Entropy)和K均值聚類算法(K-means)相結(jié)合對(duì)文本語(yǔ)句中的情感元素進(jìn)行分析,該方法以電影評(píng)論為數(shù)據(jù)資料,通過(guò)檢驗(yàn)發(fā)現(xiàn),該方法具有較高的準(zhǔn)確率。

在本研究中,我們將基于信息熵的理念,提出一種新穎的情感傾向分析模型——比例信息熵模型,該模型將褒貶意詞匯的比例和信息熵相結(jié)合來(lái)分析文本語(yǔ)句的整體情感傾向。首先,計(jì)算出詞匯的褒貶意傾向;然后,通過(guò)比例信息熵得出文本語(yǔ)句的褒貶傾向;最后,用公共文本數(shù)據(jù)庫(kù)來(lái)驗(yàn)證模型的效果。

2 模型設(shè)計(jì)

熵是由Shannon[9]所提出的,最初起源于熱力學(xué),它是一個(gè)用于描述分子狀態(tài)混亂程度的熱力學(xué)物理量。Shannon指的熵主要是用于描述各種信息的不確定程度。因此,熵可用來(lái)檢測(cè)信息包含量或者是信息質(zhì)量的優(yōu)劣程度。根據(jù)Shannon所介紹的,其計(jì)算式可以表達(dá)為式(1)。

(1)

其中,Pi為某信息在整個(gè)文本中所占的比重(0

(2)

3 數(shù)據(jù)來(lái)源

本研究的研究對(duì)象是中文語(yǔ)句,所使用的中文數(shù)據(jù)集名為Chinese conversation sentiment master(該數(shù)據(jù)發(fā)布于https://github.com/z17176/Chinese_conversation_sentiment)。該數(shù)據(jù)集作為公共中文數(shù)據(jù)已經(jīng)被用于情感分析[10]。在該數(shù)據(jù)集中,中文語(yǔ)句的詞匯已經(jīng)做了分割,并且已經(jīng)預(yù)設(shè)了語(yǔ)句的褒貶含義。

4 檢驗(yàn)標(biāo)準(zhǔn)

在模型的比較過(guò)程中,一般需要采用較為公認(rèn)的檢驗(yàn)標(biāo)準(zhǔn)來(lái)檢測(cè)模型運(yùn)行效果的優(yōu)劣。在文本研究過(guò)程中,一般采用褒貶精準(zhǔn)率、查全率、查準(zhǔn)率和F檢測(cè)值來(lái)評(píng)價(jià)文本模型的準(zhǔn)確程度,因?yàn)檫@些檢測(cè)指標(biāo)能夠有效評(píng)估分類的效果和結(jié)果的精確程度,但是由于查準(zhǔn)率在一般情況下是隨著查全率的降低而增加的[11]。因此,為了能提高對(duì)實(shí)驗(yàn)結(jié)果的評(píng)估效果,本研究采用褒貶精準(zhǔn)率和F值來(lái)評(píng)價(jià)模型的表現(xiàn)。

4.1 褒貶精準(zhǔn)率

褒貶精準(zhǔn)率(Commendatory and Derogatory Accuracy,CDAcc)描述的是由模型得出的褒貶語(yǔ)句和真實(shí)褒貶語(yǔ)句所匹配的數(shù)量與總的語(yǔ)句數(shù)量之間的比例,其檢驗(yàn)式如式(3)。

(3)

其中,n表示由模型得出的褒貶語(yǔ)句和真實(shí)褒貶語(yǔ)句所匹配的數(shù)量;N表示總的語(yǔ)句數(shù)量。

4.2 F檢測(cè)值

F檢測(cè)值也是由實(shí)驗(yàn)結(jié)果和原始數(shù)據(jù)的比較所構(gòu)成的,在計(jì)算該指標(biāo)之前,根據(jù)曾凡鋒等[11]所述,需要預(yù)先定義褒貶判斷模式,如表1所示。

表1 褒貶模式定義

根據(jù)表1,F(xiàn)-Score的檢驗(yàn)式如式(4)。

(4)

5 實(shí)例分析

由于SnowNLP庫(kù)已經(jīng)被前期的研究者所使用來(lái)分析詞匯的情感含義[12],該庫(kù)能夠區(qū)分詞匯含義的積極或消極觀點(diǎn)。因此在本研究中,我們先使用SnowNLP庫(kù)來(lái)判斷中文詞匯的褒貶,再使用比例信息熵來(lái)驗(yàn)證整個(gè)語(yǔ)句的褒貶,同時(shí)我們選擇目前流行的熵:香農(nóng)熵(Shannon Entropy,SE);模糊熵(Fuzzy Entropy,F(xiàn)E);Tsallis熵(Tsallis Entropy,TE))來(lái)做對(duì)比,其流程示意圖如圖1所示。

圖1 語(yǔ)句褒貶流程圖

對(duì)于同一批中文文本數(shù)據(jù)而言,不同的熵會(huì)計(jì)算出不同的褒貶結(jié)果,從而做出不同的判斷。由于本研究所采用的公共數(shù)據(jù)集中已經(jīng)對(duì)每個(gè)語(yǔ)句有了褒貶的判斷,因此我們將用以上4種方法對(duì)該數(shù)據(jù)集進(jìn)行分析計(jì)算并比較計(jì)算結(jié)果的準(zhǔn)確性。我們將分別選取該數(shù)據(jù)集中的前幾千條數(shù)據(jù)進(jìn)行整體語(yǔ)句的褒貶分析,其褒貶精準(zhǔn)率和F檢測(cè)值的測(cè)試結(jié)果如表2、表3所示。

表2 褒貶精準(zhǔn)率

表3 F檢測(cè)值

從上述對(duì)比結(jié)果,我們發(fā)現(xiàn)比例信息熵對(duì)公共數(shù)據(jù)集分析結(jié)果的褒貶精準(zhǔn)率和F檢測(cè)值都分別要高于其他信息熵,對(duì)此我們還從準(zhǔn)確率提升百分比的角度出發(fā)對(duì)上述的分析結(jié)果進(jìn)行研究,如表4、表5所示。

表4 平均褒貶精準(zhǔn)率提升百分比

表5 平均F檢測(cè)值提升百分比

雖然表2和表3已經(jīng)表明比例信息熵比其他所選的信息熵在文本語(yǔ)句整體褒貶檢測(cè)方面的效果都要優(yōu)越,但是表4和表5從優(yōu)越性的提升百分比角度出發(fā)說(shuō)明了比例信息熵的檢測(cè)效果較其他所選的熵模型更加理想。

6 總結(jié)

語(yǔ)句的褒貶含義和單個(gè)詞匯的褒貶含義有所不同,單個(gè)詞匯的褒貶含義不能真實(shí)地反映出整個(gè)語(yǔ)句的褒貶含義,而整個(gè)語(yǔ)句的褒貶含義能夠更加真實(shí)地反映出作者的觀點(diǎn)和態(tài)度,因此我們有必要去研究整個(gè)語(yǔ)句的褒貶意義。本文所提出的比例信息熵,從褒義詞匯的整體信息質(zhì)量和貶義詞匯的整體信息質(zhì)量出發(fā)來(lái)研究文本語(yǔ)句整體的褒貶含義。和其他所選的信息熵相比,該比例信息熵在公共數(shù)據(jù)集的測(cè)試中具有更高的準(zhǔn)確性,這說(shuō)明該模型能夠更好地判斷中文語(yǔ)句整體的褒貶含義。

猜你喜歡
詞匯文本情感
本刊可直接用縮寫(xiě)的常用詞匯
如何在情感中自我成長(zhǎng),保持獨(dú)立
一些常用詞匯可直接用縮寫(xiě)
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
在808DA上文本顯示的改善
本刊可直接用縮寫(xiě)的常用詞匯
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長(zhǎng),保持獨(dú)立
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 亚洲区欧美区| 99爱视频精品免视看| 午夜福利网址| 国产欧美综合在线观看第七页| 日本免费新一区视频| 日韩乱码免费一区二区三区| 国产免费网址| 视频二区欧美| 成年人午夜免费视频| 五月丁香在线视频| 欧美激情首页| 国产AV无码专区亚洲精品网站| 色偷偷av男人的天堂不卡| 国产乱人伦精品一区二区| 麻豆国产精品一二三在线观看| 国产一区二区影院| 四虎成人免费毛片| 日韩精品毛片人妻AV不卡| 亚洲性色永久网址| 色婷婷成人网| 亚洲性影院| 国产精品高清国产三级囯产AV| 亚洲精品视频免费看| 丁香婷婷久久| 欧洲成人在线观看| 国产电话自拍伊人| 欧美日韩中文字幕二区三区| 国产一区二区三区夜色| 91精品免费久久久| 动漫精品啪啪一区二区三区| 国产91蝌蚪窝| 亚洲色图综合在线| 欧美激情视频二区三区| 国产精品福利社| 青青青视频蜜桃一区二区| 久久综合干| 曰韩免费无码AV一区二区| 欧美日韩成人| 婷五月综合| 99热最新网址| 国产精品丝袜在线| 日韩国产精品无码一区二区三区| 亚洲无码视频一区二区三区| 精品国产网站| 久久国产热| 久久精品91麻豆| 中文成人无码国产亚洲| 五月丁香伊人啪啪手机免费观看| 成人免费午夜视频| 波多野结衣一二三| 69国产精品视频免费| 无码电影在线观看| 国产乱人视频免费观看| 91在线丝袜| 91蝌蚪视频在线观看| 日韩欧美成人高清在线观看| 伊人天堂网| 免费无遮挡AV| 91精品网站| 亚洲一道AV无码午夜福利| 欧美一道本| 毛片基地视频| 国产精品lululu在线观看| 久久久久国色AV免费观看性色| 激情综合婷婷丁香五月尤物 | 国产美女无遮挡免费视频| 国产农村1级毛片| 免费在线播放毛片| 伊人久久婷婷五月综合97色| 一区二区三区毛片无码| 国产免费看久久久| 直接黄91麻豆网站| 国产精品永久不卡免费视频| 97免费在线观看视频| 国产精品欧美亚洲韩国日本不卡| 热re99久久精品国99热| 九九久久精品国产av片囯产区| 国产精品无码一区二区桃花视频| 亚洲系列无码专区偷窥无码| 丰满人妻中出白浆| 伊人久久久久久久| 国产精彩视频在线观看|