999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于樸素貝葉斯的影評情感分析研究

2023-02-27 09:49:54鄧慈云余國清
關(guān)鍵詞:分類文本情感

鄧慈云, 余國清

(湖南信息職業(yè)技術(shù)學(xué)院, 長沙 410200)

0 引 言

隨著社會和經(jīng)濟(jì)的高速發(fā)展,人們在精神生活、娛樂等方面的需求越來越高,電影已經(jīng)成為大眾精神生活中不可分割的一部分。2021年中國電影市場累計(jì)票房達(dá)472.58億,較2020年增長131.5%。2021年國產(chǎn)電影總產(chǎn)量740部,同比2020年增長13.8%。面對日益壯大的電影市場以及不同的題材,經(jīng)常會發(fā)現(xiàn)同一部影片在不同平臺上的評分存在較大的差異。

情感分析是指用機(jī)器學(xué)習(xí)的方法解析出文本中情感極性信息,歸納出用戶的情緒、態(tài)度、傾向等情感意向的過程,其是自然語言處理(Natural Language Processing,NLP)的一個分支內(nèi)容[1]。文本情感分析是指提取文本中主觀信息的一種NLP任務(wù),其具體目標(biāo)通常是找出文本所對應(yīng)的正負(fù)情感態(tài)度。情感分析可以在實(shí)體、句子、段落乃至文檔上進(jìn)行。對于情感分析,只需要準(zhǔn)備標(biāo)注了正負(fù)情感的大量文檔,就能將其視作普通的文本分類任務(wù)來解決[2]。

近年來,諸多學(xué)者對影評的文本情感分析以及如何提高結(jié)果的準(zhǔn)確率進(jìn)行了研究,并取得了一定的研究成果。如:文獻(xiàn)[3]中提出了在影評的文本情感分析中,將機(jī)器學(xué)習(xí)方法與分層技術(shù)結(jié)合,針對具有異質(zhì)結(jié)構(gòu)的文本數(shù)據(jù)的算法。文獻(xiàn)[4]提出了使用Keras內(nèi)置的Tokenizer模塊建立字典,利用字典將影評文字進(jìn)行預(yù)處理后,通過Keras框架構(gòu)建MLP模型并訓(xùn)練。文獻(xiàn)[5]提出了一種加入注意力機(jī)制的聯(lián)合神經(jīng)網(wǎng)絡(luò)模型,用來對影評進(jìn)行情感分析。文獻(xiàn)[6]提出了一種基于Keras平臺實(shí)現(xiàn)的雙向LSTM(BiLSTM)的影評情感分析算法。綜上研究分析,影評的文本情感分析的準(zhǔn)確率依然不高,亟待進(jìn)一步探索和研究更具實(shí)用性、通用性的算法和模型。

為了能夠客觀全面的了解觀眾對影片的真實(shí)感受,本文利用python作為編程語言,使用Scrapy框架爬取豆瓣電影網(wǎng)站影評數(shù)據(jù),構(gòu)建分類模型完成訓(xùn)練,并評估訓(xùn)練器的分類效果;最后利用訓(xùn)練后的分類器,對中文影評文本進(jìn)行情感分析和文本分類,讓觀影者能夠快速地從大量影評中得到有價(jià)值的信息,也讓影視工作人員了解觀影者的喜好以及主觀情感傾向。

1 文本情感分析

1.1 數(shù)據(jù)來源

本文使用豆瓣網(wǎng)電影(https://movie.douban.com/chart)影評數(shù)據(jù)信息,其中數(shù)據(jù)字段包含:電影詳情信息(電影類型、上映時間、演員列表等);電影短評內(nèi)容(用戶、是否觀看、五星評分、評論時間、有用數(shù)、評論內(nèi)容等),將其作為分析的目標(biāo)數(shù)據(jù)。

1.2 數(shù)據(jù)采集

Scrapy是用Python語言開發(fā)的一個快速、高層次的屏幕/Web抓取框架,用于抓取Web站點(diǎn)并從頁面中提取結(jié)構(gòu)化數(shù)據(jù)。Scrapy使用Twisted異步網(wǎng)絡(luò)請求框架來處理網(wǎng)絡(luò)通信,不需要額外實(shí)現(xiàn)異步框架,而且包含各種中間件接口,能夠靈活地實(shí)現(xiàn)各種需求[7]。

使用Scrapy框架爬取豆瓣電影影評數(shù)據(jù)的過程為:首先利用selenium實(shí)現(xiàn)模擬自動登錄,然后從Top250電影排行榜里爬取電影信息和鏈接地址,接下來根據(jù)鏈接地址爬取相關(guān)影片的具體信息和影評信息并保存到csv文件中。

1.3 數(shù)據(jù)清洗

數(shù)據(jù)清洗是指在獲取文本數(shù)據(jù)之后,對數(shù)據(jù)進(jìn)行重新審查和效驗(yàn)的工作。主要包括:缺失值清洗、重復(fù)值清洗和錯誤值清洗。通過對采集的數(shù)據(jù)進(jìn)行查看和分詞后,影評文本中存在以下情況及相應(yīng)處理方法:

(1)對于英文、長度過短、重復(fù)及無實(shí)際意義的灌水文本,可通過正則表達(dá)式進(jìn)行英文識別,通過長度過濾內(nèi)容過少的評論。

(2)對于有缺失值的文本,通過查找確認(rèn)存在有缺失值的記錄,然后使用Pandas庫實(shí)現(xiàn)刪除相應(yīng)記錄。

(3)對于存在簡體、繁體混雜的文本,通過使用opencc庫,實(shí)現(xiàn)將繁體中文轉(zhuǎn)換成簡體中文。

(4)去除停用詞。漢語中有一類沒有多少意義的詞語,比如助詞“的”、連詞“以及”、副詞“甚至”、語氣詞“吧”,稱為停用詞。借助預(yù)先準(zhǔn)備好的停用詞字典,通過查詢字典的方式,剔除停用詞。

1.4 基于樸素貝葉斯的情感分析算法

1.4.1 算法流程

基于樸素貝葉斯的情感分析的實(shí)現(xiàn)過程如圖1所示。首先對影評使用jieba庫進(jìn)行分詞,去停用詞等預(yù)處理,然后構(gòu)建分類模型并用訓(xùn)練集進(jìn)行訓(xùn)練,同時利用測試集評估訓(xùn)練器的分類效果,最后利用訓(xùn)練后的分類器對分類文本進(jìn)行情感分類。

圖1 訓(xùn)練過程和分類過程

1.4.2 樸素貝葉斯

樸素貝葉斯是分類器中最常用的一種生成式模型,其基于貝葉斯定理將聯(lián)合概率轉(zhuǎn)化為條件概率,利用特征條件及獨(dú)立假設(shè)簡化條件的概率進(jìn)行計(jì)算。樸素貝葉斯法的目標(biāo)是通過訓(xùn)練集學(xué)習(xí)聯(lián)合概率分布p(X,Y),由貝葉斯定理可以將聯(lián)合概率轉(zhuǎn)化為先驗(yàn)概率分布和條件概率分布之積[8],表達(dá)形式如下:

p(X=x,Y=ck)=p(Y=ck)P(X=x|Y=ck)

其中,類別的先驗(yàn)概率分布(p(Y=ck)),可以通過統(tǒng)計(jì)每個類別下的樣本多少(極大似然)來估計(jì)。即:

在預(yù)測時,樸素貝葉斯法最終的分類預(yù)測函數(shù)為

1.4.3 樸素貝葉斯分類器

樸素貝葉斯分類器通過計(jì)算一個樣本屬于某一類的概率(后驗(yàn)概率),進(jìn)而比較概率大小,來決定樣本的分類結(jié)果。分類器需要數(shù)據(jù)集作為已知樣本集,并且需要這些樣本的分類結(jié)果,最后對新給出的樣本集進(jìn)行分類。具體來說,假設(shè)已經(jīng)得到樣本集D={x1,…,xn},每一個xi都有k個特征,分別記為ai,可能類別為Y={y1,…,ym},根據(jù)每個xi的特征,其會被分類到某一個yj類中[9]。樸素貝葉斯分類器的特點(diǎn)是實(shí)現(xiàn)模型簡單,且分類快速而精確。

本文從豆瓣網(wǎng)站爬取Top250排行榜中約40 000條影評作為語料庫。對影評分析情感傾向時,將評分中的推薦、力薦、還行視為積極評論,用數(shù)字1表示;將較差和很差視為消極評論,用數(shù)字0表示,積極評論和消極評論各占50%。圖2給出了樣本實(shí)例,其中第一列數(shù)字為情感標(biāo)簽,第二列文字為影片評論內(nèi)容。

圖2 標(biāo)注情感標(biāo)注的影評評論示例

(1)訓(xùn)練集與測試集的分割比率

如何設(shè)定訓(xùn)練集和測試集的分割比率,對樸素貝葉斯分類器的性能影響十分明顯。本文使用Python的可視化工具pyecharts,繪制精確度和分割比例折線圖,找到訓(xùn)練集和測試集的最佳比例為6∶4。其中,影評數(shù)據(jù)的60%作為訓(xùn)練集,40%作為測試集。

(2)分類器的選擇

sklearn的naive_bayes模塊提供了高斯樸素貝葉斯、多項(xiàng)式樸素貝葉斯和伯努利樸素貝葉斯等3種用于構(gòu)建樸素貝葉斯模型的類,其分別對應(yīng)3種不同的數(shù)據(jù)分布類型。本文實(shí)驗(yàn)選擇的是多項(xiàng)式貝葉斯分類器。

2 實(shí)驗(yàn)結(jié)果分析

2.1 情感分類結(jié)果分析

通過模型訓(xùn)練,獲得適合影評情感分類的新模型。為了驗(yàn)證訓(xùn)練模型的效果,采集了300多條來自豆瓣網(wǎng)站的影評記錄,并事先進(jìn)行人工情感標(biāo)簽標(biāo)注(數(shù)字1、0分別對應(yīng)積極評論和消極評論)。測試中,將分?jǐn)?shù)大于或等于0.5的評論判斷為積極評論,否則判斷為消極評論。將預(yù)測結(jié)果與人工判定結(jié)果進(jìn)行對比,準(zhǔn)確率達(dá)到了92%,證明該模型訓(xùn)練過程是有效的。測試結(jié)果如圖3所示。

圖3 測試結(jié)果

2.2 情感值分析

通過對影評數(shù)據(jù)的情感分析得到情感值(取值范圍0~1)。通過使用matplotlib可視化工具,繪制出情感建議值的直方圖,如圖4所示。由圖中可以發(fā)現(xiàn),觀眾對該電影整體的情感傾向是積極的。其中情感值分布在0.1和1.0左右的數(shù)量占比約為3.2%,情感值分布在0.5以上的數(shù)量占比約為84.1%。

圖4 情感值區(qū)間統(tǒng)計(jì)

3 結(jié)束語

在各種各樣的分類器中,樸素貝葉斯法可算是最常用的一種生成式模型,其具備實(shí)現(xiàn)簡單,收斂速度快等特點(diǎn),但由于特征獨(dú)立性假設(shè)過于強(qiáng)烈,有時會影響準(zhǔn)確性。本文提出使用Scrapy框架爬取網(wǎng)站數(shù)據(jù),選用多項(xiàng)式貝葉斯分類器構(gòu)建樸素貝葉斯模型,jieba庫進(jìn)行分詞,正則表達(dá)式和pandas庫進(jìn)行數(shù)據(jù)清洗,opencc庫實(shí)現(xiàn)中文繁體和簡體的轉(zhuǎn)換的方法實(shí)現(xiàn)影評情感分類。通過使用python語言編程,利用真實(shí)影評數(shù)據(jù)驗(yàn)證了本方法的有效性。但是本次試驗(yàn)的影評大多數(shù)是短評,文字?jǐn)?shù)量在100個字左右,在將來的研究中會考慮文字?jǐn)?shù)量更多的長篇評論。

猜你喜歡
分類文本情感
分類算一算
如何在情感中自我成長,保持獨(dú)立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
在808DA上文本顯示的改善
分類討論求坐標(biāo)
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨(dú)立
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
主站蜘蛛池模板: 一本色道久久88综合日韩精品| 黄色一级视频欧美| 亚洲国产精品无码AV| 国产主播喷水| 日韩无码黄色| 国产亚洲精品无码专| 波多野结衣一区二区三视频 | 亚洲一区免费看| 国产无遮挡猛进猛出免费软件| 老司机精品一区在线视频| 成人福利在线观看| 色综合久久88| 国产精品成| 婷婷六月综合网| av一区二区三区在线观看| 国产激爽大片在线播放| 婷婷综合在线观看丁香| 亚洲AV无码久久精品色欲| 成人精品区| 中文字幕在线看| 亚洲欧美日韩色图| 国产高清免费午夜在线视频| 无码中文AⅤ在线观看| 国产成人免费观看在线视频| 青青草原偷拍视频| 国产后式a一视频| 欧洲亚洲一区| 久久久久久久久18禁秘| 国产精品专区第一页在线观看| 午夜日b视频| 成人av专区精品无码国产| 色屁屁一区二区三区视频国产| 久久综合久久鬼| 国产av一码二码三码无码| 秋霞午夜国产精品成人片| 免费A∨中文乱码专区| 精品91视频| 日本91视频| 老司机久久99久久精品播放| 国产又粗又爽视频| 一本大道香蕉久中文在线播放| 欧美一区中文字幕| 亚洲成A人V欧美综合天堂| 国产原创演绎剧情有字幕的| 99精品国产自在现线观看| 亚洲成年人网| 国产精品第一区在线观看| 激情综合图区| 九色在线视频导航91| 国产爽爽视频| 国产成人精品亚洲77美色| 日本在线免费网站| 精品综合久久久久久97超人该| 亚洲无码高清一区二区| 欧美成人日韩| 干中文字幕| 99精品在线看| 国产精品爆乳99久久| 亚洲h视频在线| 国产精品女同一区三区五区| 免费在线视频a| 午夜电影在线观看国产1区| 韩日免费小视频| 久久大香香蕉国产免费网站| 97免费在线观看视频| 亚洲成年网站在线观看| 国模极品一区二区三区| 四虎永久免费在线| 成人无码区免费视频网站蜜臀| 久草性视频| 综合色区亚洲熟妇在线| 亚洲一级无毛片无码在线免费视频| 亚洲男女天堂| h网站在线播放| 在线欧美日韩| 中文字幕波多野不卡一区| 国产乱人激情H在线观看| 国产va视频| 久久亚洲日本不卡一区二区| 久久精品aⅴ无码中文字幕| 无码免费试看| 欧美日韩北条麻妃一区二区|