999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于樸素貝葉斯的在線評論文本的情感分類研究

2021-11-15 09:12:44袁月戎
內(nèi)蒙古科技與經(jīng)濟 2021年18期
關(guān)鍵詞:分類文本情感

袁月戎

(南京農(nóng)業(yè)大學(xué) 信息管理學(xué)院,江蘇 南京 210095)

隨著社交網(wǎng)絡(luò)的快速發(fā)展,網(wǎng)絡(luò)已經(jīng)成為我們?nèi)粘I钪胁豢苫蛉钡囊徊糠帧>W(wǎng)絡(luò)的普及,極大地方便了我們的生活。在進(jìn)行網(wǎng)上購物或者瀏覽社交媒體平臺時,很多用戶喜歡在公眾平臺上表達(dá)自己的態(tài)度[1]。廣義上的情感分析,是通過相關(guān)的算法識別出文本中能夠表達(dá)情感的詞語,再經(jīng)過相關(guān)計算,得出該文本內(nèi)容的情感傾向。這樣的方法被廣泛應(yīng)用于客戶滿意度調(diào)查、市場監(jiān)測等多個領(lǐng)域。用戶評論可為其他用戶的決策起到參考作用,也是開發(fā)者把握用戶需求的重要信息[2]。為了探討基于樸素貝葉斯算法在文本情感分類中的應(yīng)用,本次研究以豆瓣網(wǎng)站上的書籍評論為分析對象,根據(jù)熱門標(biāo)簽中文學(xué)類別下的小說分類,最終選取了路遙的《平凡的世界》和林奕含的《房思琪的初戀樂園》,對這兩本書的在線評論進(jìn)行情感分類研究。

1 相關(guān)概念

1.1 情感分析與情緒詞典

早期的情感分析都以篇章為對象,情感只分為正負(fù)兩種,后續(xù)的研究逐漸深入到語句,除了關(guān)注語句的情感極性,還進(jìn)一步強調(diào)了情感程度,同時關(guān)注情感對象,甚至上下文情境[3]。隨著情感分析研究的不斷深入,不少學(xué)者借鑒心理學(xué)相關(guān)研究,逐漸將正負(fù)情感細(xì)化為情緒特征。在進(jìn)行情感分析時融入心理學(xué)理論,促進(jìn)了情緒詞典的發(fā)展。在英文領(lǐng)域,普遍公認(rèn)的是由加拿大國家研究委員會專家創(chuàng)建的情緒和情感詞典(簡稱NRC),該詞典具有廣泛的應(yīng)用程序開發(fā),可以在多種環(huán)境中使用,例如情緒分析,產(chǎn)品營銷,消費者行為,甚至是政治活動分析,借助NRC詞典,情感分析得以更加細(xì)化。在中文領(lǐng)域,大連理工大學(xué)信息檢索實驗室中文情感詞匯本體參考 Ekman 情感模型將情感分為樂、懼、驚、哀、惡、怒和好7個大類21個小類[4],該資源的宗旨是在情感計算領(lǐng)域,為中文文本情感分析和傾向性分析提供一個便捷可靠的輔助手段。中文情感詞匯本體可以用于解決多類別情感分類的問題,同時也可以用于解決一般的傾向性分析的問題。

情緒代表著人們的主觀感受與想法,人的情感極具復(fù)雜性。因此,情感分類一直都是相關(guān)研究探討的重點。著名的普拉切克(Plutchik)情緒輪盤(如圖1)。將情緒分為生氣、厭惡、恐懼、悲傷、期待、快樂、驚訝、信任8個基本類型。 復(fù)雜情緒一般也都是由基本情緒派生而來,如具備“快樂”和“信任”的情感就是“愛”[4]。

圖1 普拉切克的情緒輪盤

1.2 中文情感詞匯本體

“中文情感詞匯本體庫”是林鴻飛教授帶領(lǐng)大連理工大學(xué)信息檢索研究室全體教研室成員,整理和標(biāo)注的一個中文情感詞典,含有情感詞匯共計27 466個。該情感分類體系,是建立在國外比較有影響的Ekman的六大類情感分類體系的基礎(chǔ)之上的,并在其中加入情感類別“好”對褒義情感進(jìn)行了更細(xì)致的劃分,該情感詞典中的情感共分為七大類21小類,情感強度分為1、3、5、7、9五檔,9表示強度最大,1為強度最小,該情感詞典的一般格式見表1。

表1 情感詞匯本體格式舉例

關(guān)于“樂”“懼”“驚”“哀”“惡”“怒”和“好”這7 個大類 21 個小類的具體分類可見表2。

表2 情感分類

1.3 樸素貝葉斯算法

樸素貝葉斯是基于概率論的分類算法,是目前應(yīng)用最為廣泛的分類算法之一。概率即指一件事情發(fā)生的可能性。聯(lián)合概率:包含多個條件,且所有條件同時成立的概率,記作:p(A,B)。條件概率:事件A在另一個事件B已經(jīng)發(fā)生條件下的發(fā)生概率,記作:p(A|B)。相互獨立:如果p(A,B)=p(A)p(B),則稱事件A與事件B相互獨立。貝葉斯公式:P(A|B)=P(B|A)P(A)/P(B)[5]。例如,“你在街上看到一個黑人,我們十有八九猜非洲。”在你的腦海中,有這么一個判斷流程:

這個人的膚色是黑色<特征>

黑色人種是非洲人的概率最高?

<條件概率:黑色條件下是非洲人的概率>

沒有其他輔助信息的情況下,最好的判斷就是非洲人。這就是樸素貝葉斯的思想基礎(chǔ)。再擴展一下,假如在街上看到一個黑人講英語,那我們是怎么去判斷他來自哪里?

提取特征:膚色(黑) 語言:英語

黑色人種來自非洲的概率:80%

黑色人種來自美國的概率:20%

講英語的人來自非洲的概率:10%

講英語的人來自美國的概率:90%

在我們的自然思維方式中,就會這樣判斷:

這個人來自非洲的概率:80% * 10% = 0.08

這個人來自美國的概率:20% * 90% =0.18

我們的判斷結(jié)果就是:此人來自美國!

通過這樣的計算就可以得出該問題的結(jié)果,可以看出,樸素貝葉斯算法可以通過這樣的計算得出看似不具有規(guī)律或者完全不相關(guān)的一個問題的概率問題。樸素貝葉斯實際應(yīng)用場景包括文本分類、垃圾郵件過濾、病人分類和拼寫檢查。

2 研究思路

本研究首先運用python從豆瓣讀書上面去獲取所需的評論數(shù)據(jù);其次,用excel、Notepad++對文本數(shù)據(jù)清洗和預(yù)處理,文本清洗包括了標(biāo)點符號的去除、人工篩選等,預(yù)處理包括了文本分詞;然后,運用大連理工大學(xué)標(biāo)注的中文情感詞匯本體庫提取表達(dá)用戶情緒特征的詞語,對評論中的內(nèi)容進(jìn)行情感詞語的抽取和情感分析,抽取的內(nèi)容主要是評論文本中帶有傾向性特征的詞語;最后,根據(jù)上文所述的情感詞典,計算出每條評論的情感綜合值;最終確定該評論屬于中文情感詞匯本體七大類中樂、好、怒、哀、懼、惡、驚下的具體哪一類。最終對這些產(chǎn)生結(jié)果的評論采用樸素貝葉斯算法,對情感傾向進(jìn)行分類(如圖2)。

圖2 研究思路

3 數(shù)據(jù)收集及預(yù)處理

豆瓣網(wǎng)是國內(nèi)知名且用戶數(shù)量較多的網(wǎng)絡(luò)評論社區(qū),它包含了書籍、電影等多個評論版塊,是一個理想的研究對象。豆瓣讀書上的讀書板塊收錄了很多的國內(nèi)外書籍?dāng)?shù)據(jù),并有大量用戶對上面的書籍進(jìn)行評價,因此選擇豆瓣讀書上的相關(guān)評論為研究對象。

采用python爬取豆瓣讀書中《平凡的世界》和《房思琪的初戀樂園》這兩本書的用戶評論,截至2020年2月1號分別采集到了33 810和28 295條數(shù)據(jù),獲取的原始數(shù)據(jù)十分混亂,每條數(shù)據(jù)包含一些xml標(biāo)簽,并且有各種無意義字符,筆者使用notepad++和excel等工具對這些數(shù)據(jù)進(jìn)行整理清洗,去除了只有數(shù)字、表情包、無內(nèi)容和不相關(guān)評論的文本,得到的有效數(shù)據(jù)分別是33 676、27 284條。在完成簡單的數(shù)據(jù)清洗后,又對采集到的數(shù)據(jù)進(jìn)行了預(yù)處理,包括jieba分詞、詞性標(biāo)注以及停用詞去除,最終得到的數(shù)據(jù)如圖3所示。

圖3 數(shù)據(jù)收集與預(yù)處理

4 情感與情緒特征識別

將上述清洗過的數(shù)據(jù)與中文情感詞匯本體中的詞語進(jìn)行匹配,逐條分析每句評論中出現(xiàn)的情感詞,并利用notepad++和excel等工具進(jìn)行特征詞統(tǒng)計(如圖4)。

圖4 評論詞語與詞典匹配

5 情感標(biāo)注

本研究采用基于詞典和有監(jiān)督的機器學(xué)習(xí)的方法進(jìn)行結(jié)合,采用大連理工中文情感詞匯本體進(jìn)行情感分析,用該詞典統(tǒng)計待分析文本中每句評論表達(dá)“樂”“好”“怒”“哀”“懼”“惡”“驚”這7個情感詞的強度的加權(quán)值,取最大值來表達(dá)這句話的情感趨向。最后得出的結(jié)果分別用A、B、C、D、E、F、G來表達(dá),其中H表達(dá)該句沒有情感特征詞,即判斷不出該句的情感趨向(如圖5)。

圖5 文本情感標(biāo)注

單個詞語情感的標(biāo)注如圖5所示,通過對一句話中相同情感的情感值進(jìn)行加權(quán),比較每種情感值的大小,最后選取數(shù)值最大的情感詞來代表該句話的感情趨向(見表3)。

表3 情感類別計算

6 實驗結(jié)果與分析

根據(jù)樂(A)、好(B)、怒(C)、哀(D)、懼(E)、惡(F)、驚(G)、無(H)這8種情感值對該書評論進(jìn)行統(tǒng)計(如圖6)。

圖6 文本情感傾向性分析

對每條評論進(jìn)行情感傾向統(tǒng)計分析(如表4)。

表4 中文情感詞典標(biāo)注結(jié)果

從統(tǒng)計數(shù)據(jù)上看,《平凡的世界》一書中情感值有高到底依次是:好(49.6%)、無(33.2%)、惡(6.1%)、樂(4.2%)、哀(4.8%)、懼(1.7%)、驚(0.4%)。用戶對該本書的情感為好的占到了49.6%,其次是“無”到了33.2%,說明大多人對該本書的情感態(tài)度大多都為好,很少有其他的負(fù)面情感。而《房思琪的初戀樂園》一書中情感值有高到底依次是:惡(31%)、好(27.4%)、哀(18.3%)、無(15.8%)、樂(5%)、懼(2.2%)、驚(0.4%)。用戶對該本書的情感為好的只占到了27.4%,其余的幾乎都是惡、哀等負(fù)面情緒,說明用戶在看這本書的時候都是懷著一種憤怒并且悲涼的心態(tài)。分析其具體原因,用戶的情感可能會受到書的主題內(nèi)容的影響,《平凡的世界》主要講述的是中國20世紀(jì)70年代到80年代中期普通人在大時代歷史進(jìn)程中所走過的艱難曲折,在大時代的背景下普通人的奮斗故事容易引發(fā)讀者共鳴,產(chǎn)生的情感也大多是正向的,充滿正能量的。《房思琪的初戀樂園》的主題是性侵,這一內(nèi)容本就會引發(fā)大眾的抵觸情緒,讀者可能大多數(shù)都在討論書中塑造的人物,表達(dá)自己的憤怒和不滿,而忽略了作者的寫作能力和寫作手法。通過分析可以觀察出:讀者評論的情感傾向可能會受到書籍主題的影響。

在對所有評論進(jìn)行情感傾向計算后,運用樸素貝葉斯的分類方法,將計算好的評論按照3∶1(訓(xùn)練集∶測試集)進(jìn)行運算,最后訓(xùn)練出樸素貝葉斯模型,將評論進(jìn)行分類(見表5)。其中,準(zhǔn)確率:判斷正確的類別數(shù)目與判斷為該類別的數(shù)目之比;召回率:判斷正確的類別數(shù)目與應(yīng)判斷為該類別的數(shù)目之比;F 值:作為前兩者的調(diào)和平均數(shù)來衡量評估分析的準(zhǔn)確性,F(xiàn)=2PR/(P+R)。通過對比發(fā)現(xiàn),該算法對“樂”的情感判斷,效果較好,準(zhǔn)確率和召回率都較高。好(A)的準(zhǔn)確率分別達(dá)到了0.72、0.81。準(zhǔn)確率較高的還有哀(D)和無(H)這兩個情感,相較于用詞典標(biāo)注的結(jié)果,樸素貝葉斯算法的準(zhǔn)確率還有很大的提高,尤其是好(B)這一情感,在標(biāo)注的結(jié)果中占比最高,運用樸素貝葉斯的算法準(zhǔn)確率和召回率還有待改進(jìn)。這是因為分類效果的好壞,跟所采用的情感詞典有很大關(guān)系,詞典中包含的該類別的情感詞越多,覆蓋范圍越廣,就越能夠從讀者評論中提取到更多的情感特征,從而才能夠準(zhǔn)確把握該書評的總的情感傾向,才能夠獲得更加準(zhǔn)確的分類效果。

表5 自動分析結(jié)果

最終,我們運用樸素貝葉斯算法對豆瓣網(wǎng)上書評進(jìn)行分類,分類效果(見表6),訓(xùn)練集的準(zhǔn)確率都在70%~80%這一范圍,測試集的準(zhǔn)確率都在60%~70%這一范圍。研究發(fā)現(xiàn),樸素貝葉斯算法能夠?qū)崿F(xiàn)評論文本的情感分類,分類效果較好,但仍需結(jié)合規(guī)則匹配和人工校對的方式,提升分類效果。后期也可以優(yōu)化情感詞典,擴充情感詞典中的與本領(lǐng)域相關(guān)的情感詞,提高書評情感傾向分析的準(zhǔn)確度。

表6 分類效果

7 總結(jié)與討論

研究發(fā)現(xiàn),樸素貝葉斯算法能夠?qū)崿F(xiàn)評論文本的情感分類,分類效果較好,但仍需結(jié)合規(guī)則匹配和人工校對的方式,提升分類效果。另外本次研究沒有自己建立針對書評的情感詞典,采用的是通用的中文情感詞典。可能會因為個別的評論只有幾個字,或者個別情感詞在詞典中找不到,可能在情感分類時略有誤差,不能精確把握每句話總的情感傾向。這樣一來,就會導(dǎo)致在情感值計算的時候匹配不到相關(guān)的情感詞,最后無法得到這部分的得分,這樣的數(shù)據(jù)就存在無法判斷的問題。此外,本次研究抓取選取的數(shù)據(jù)全部來源于豆瓣網(wǎng),用來分析的書籍只有兩本,選取的數(shù)據(jù)量還不夠多,因此在后面的研究中,怎樣去選擇更加合適的研究對象值得我們進(jìn)一步去考慮。

猜你喜歡
分類文本情感
分類算一算
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
在808DA上文本顯示的改善
分類討論求坐標(biāo)
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨立
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
主站蜘蛛池模板: 亚洲人成人无码www| 夜夜操天天摸| 亚洲精品视频免费看| 国产麻豆91网在线看| 99久久精品国产综合婷婷| 亚洲无码高清一区| 色综合中文| 自偷自拍三级全三级视频| 美女毛片在线| 毛片三级在线观看| 亚洲另类国产欧美一区二区| 草草线在成年免费视频2| 亚洲国内精品自在自线官| 午夜国产不卡在线观看视频| 精品精品国产高清A毛片| 婷婷久久综合九色综合88| 亚洲人成色在线观看| 日韩欧美91| 伊人久久大香线蕉综合影视| 高潮毛片免费观看| 国产成人无码播放| 亚洲国产系列| 精品福利视频导航| 国产精品lululu在线观看| 99资源在线| 亚洲水蜜桃久久综合网站| 欧美不卡视频一区发布| 国产精品自在拍首页视频8 | 一级不卡毛片| 天天摸天天操免费播放小视频| 69综合网| 国产网站一区二区三区| 日韩精品久久久久久久电影蜜臀| 国产高潮视频在线观看| 亚洲天堂网站在线| 国产老女人精品免费视频| 日韩精品一区二区三区视频免费看| 亚洲视频四区| 国产一国产一有一级毛片视频| 国产亚洲精久久久久久无码AV | 亚洲精品亚洲人成在线| 亚洲精品视频免费看| 尤物在线观看乱码| 亚洲第一区精品日韩在线播放| 午夜在线不卡| 伊人久久福利中文字幕| 91丝袜在线观看| 成年看免费观看视频拍拍| 亚洲狼网站狼狼鲁亚洲下载| 欧美国产日韩在线| 久久网欧美| 亚洲人成色在线观看| 99久久精品国产自免费| 国产精品久久久久鬼色| 毛片网站在线播放| 一区二区影院| 特级aaaaaaaaa毛片免费视频| 久久大香伊蕉在人线观看热2 | 亚洲动漫h| 中文字幕有乳无码| 国产1区2区在线观看| 免费观看男人免费桶女人视频| 国产亚洲欧美在线人成aaaa| 福利国产微拍广场一区视频在线| 国产欧美性爱网| 国产 日韩 欧美 第二页| 国产微拍一区二区三区四区| 久久久久青草大香线综合精品| jizz在线免费播放| 18禁黄无遮挡网站| 91在线国内在线播放老师| 亚洲成人免费在线| 婷婷激情五月网| 亚洲全网成人资源在线观看| 欧美性色综合网| 婷婷激情五月网| 国产精品入口麻豆| 欧美a在线| 欧美日韩免费在线视频| 亚洲一级色| 国产三级国产精品国产普男人 | 日韩人妻无码制服丝袜视频|