999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于彈幕的網(wǎng)絡(luò)輿情文本挖掘與情感分析

2022-11-04 03:41:02洪小娟
軟件工程 2022年11期
關(guān)鍵詞:文本情感分析

白 健,洪小娟

(南京郵電大學(xué)管理學(xué)院,江蘇 南京 210003)

1535179246@qq.com;1291823970@qq.com

1 引言(Introduction)

隨著新媒體技術(shù)的不斷蓬勃發(fā)展,人們獲取信息和表達(dá)情緒的方式更加多元化。以Bilibili為代表的新媒體傳播平臺(tái)在傳統(tǒng)評(píng)論的基礎(chǔ)上引入彈幕評(píng)論,為網(wǎng)民提供全新表達(dá)途徑的同時(shí),也構(gòu)建了全新的網(wǎng)絡(luò)輿情空間,逐漸成為新的“網(wǎng)絡(luò)輿情傳播載體”。

傳統(tǒng)評(píng)論是網(wǎng)民基于整體感知做出的“滯后”評(píng)論,因而更加偏于“理性”表達(dá)。而彈幕作為一種新媒體時(shí)代下的短信息表達(dá)方式,以實(shí)時(shí)評(píng)論的方式表達(dá)了用戶對(duì)于當(dāng)前視頻的即刻認(rèn)知與行為傾向,相比于傳統(tǒng)評(píng)論方式具有更強(qiáng)的情感色彩和時(shí)效性,這對(duì)于網(wǎng)絡(luò)輿情情感分析研究具有獨(dú)特的研究?jī)r(jià)值。通過(guò)對(duì)彈幕內(nèi)容進(jìn)行數(shù)據(jù)可視化、情感分析以及主題分類,有助于動(dòng)態(tài)把握網(wǎng)絡(luò)輿情態(tài)勢(shì)走向,追蹤網(wǎng)民關(guān)注熱點(diǎn),尋找彈幕背后所蘊(yùn)含的情感傾向和輿情熱點(diǎn),為防范化解網(wǎng)絡(luò)輿情風(fēng)險(xiǎn),完善輿情分析機(jī)制,構(gòu)建和諧穩(wěn)定網(wǎng)絡(luò)空間做出貢獻(xiàn)。

2 研究設(shè)計(jì)(Research design)

本文研究設(shè)計(jì)思路:首先,使用Python編寫(xiě)網(wǎng)絡(luò)爬蟲(chóng)技術(shù)代碼進(jìn)行網(wǎng)絡(luò)輿情彈幕文本數(shù)據(jù)采集和數(shù)據(jù)清洗;其次,使用中文分詞組件Jieba進(jìn)行彈幕數(shù)據(jù)的分詞、去停用詞以及高頻詞統(tǒng)計(jì),得到網(wǎng)絡(luò)輿情的高頻關(guān)鍵詞及權(quán)重;再次,調(diào)用WordCloud庫(kù)設(shè)置詞云圖樣式并將經(jīng)過(guò)Jieba分詞器處理的彈幕數(shù)據(jù)進(jìn)行詞云圖呈現(xiàn);最后,基于SnowNLP進(jìn)行情感分析,判斷彈幕數(shù)據(jù)中積極、消極、中性的情感比例并進(jìn)行分析,得出情感分析占比圖、直方圖和波動(dòng)圖,并基于LDA主題模型得到焦點(diǎn)主題。具體研究流程如圖1所示。

圖1 基于彈幕的網(wǎng)絡(luò)輿情文本挖掘與情感分析流程Fig.1 Text mining and sentiment analysis process of network public opinion based on bullet screen

3 數(shù)據(jù)采集與數(shù)據(jù)清洗(Data acquisition and data cleaning)

3.1 數(shù)據(jù)源選取

Bilibili作為一個(gè)快速崛起的新媒體平臺(tái),具有超過(guò)3億的用戶數(shù)量,其活躍用戶群體大,彈幕數(shù)量豐富且具有較好的包容性,因而本文選擇Bilibili作為數(shù)據(jù)源,進(jìn)行數(shù)據(jù)采集操作。

3.2 數(shù)據(jù)采集

首先使用開(kāi)發(fā)者工具獲取視頻彈幕的異步請(qǐng)求包,觀察和分析網(wǎng)頁(yè)變化規(guī)律,找到網(wǎng)絡(luò)數(shù)據(jù)來(lái)源。通過(guò)對(duì)目標(biāo)網(wǎng)頁(yè)數(shù)據(jù)來(lái)源地解析,從Headers中獲取爬蟲(chóng)所需的URL、Cookie及User-agent。其次,使用Python的Requests第三方庫(kù),使用解析獲得的Cookie以及User-agent構(gòu)建headers{}請(qǐng)求頭,結(jié)合URL地址調(diào)用request.get()方法獲取原始彈幕數(shù)據(jù);最后,使用Python內(nèi)置Re庫(kù)的正則表達(dá)式re.findall()函數(shù)精確匹配要爬取的內(nèi)容,剔除無(wú)關(guān)數(shù)據(jù),并將彈幕數(shù)據(jù)進(jìn)行存儲(chǔ)。

3.3 數(shù)據(jù)清洗

數(shù)據(jù)清洗是網(wǎng)絡(luò)爬蟲(chóng)的重要一環(huán),通過(guò)剔除原始彈幕文本中的表情符號(hào)、數(shù)字、空白值等無(wú)效信息,可以有效提升數(shù)據(jù)質(zhì)量。

4 高頻詞統(tǒng)計(jì)與數(shù)據(jù)可視化(Statistics and data visualization of high frequency words)

在完成數(shù)據(jù)采集以及數(shù)據(jù)清洗后,調(diào)用第三方Jieba、WordCloud庫(kù)實(shí)現(xiàn)高頻詞統(tǒng)計(jì)與數(shù)據(jù)可視化。

4.1 Jieba分詞、去停用詞及高頻詞統(tǒng)計(jì)

Jieba分詞器是目前Python中最好的中文分詞組件,主要利用中文詞庫(kù)確定漢字間的相關(guān)概率,進(jìn)而產(chǎn)生正確分詞結(jié)果,此分詞方式的準(zhǔn)確率超過(guò)了97%,能夠很好地協(xié)助使用者完成主題詞抽取、潛在主題發(fā)現(xiàn)等工作,尤其適用于中文文本分類。Jieba支持用戶詞典和停用詞字典功能,這能夠在較大程度上提升分詞結(jié)果的準(zhǔn)確度,對(duì)分詞結(jié)果不太理想的詞組,也能夠采取引入用戶自定義字典的方法加以處理。因而本文選擇使用Jieba分詞器進(jìn)行彈幕文本數(shù)據(jù)的分詞、去停用詞及高頻詞統(tǒng)計(jì)。

首先,使用Pandas庫(kù)的read_csv()方法導(dǎo)入經(jīng)過(guò)簡(jiǎn)單數(shù)據(jù)清洗的彈幕文本數(shù)據(jù),并通過(guò)Jieba庫(kù)的jieba.lcut()方法實(shí)現(xiàn)對(duì)彈幕文本的分詞操作;其次,使用stopwords=[line.strip()for line in open().readlines()]導(dǎo)入停用詞詞典,并通過(guò)遍歷循環(huán)將“增加熱度、增熱專用、1、2”之類無(wú)效彈幕進(jìn)行剔除;最后,使用jieba.analyse.extract_tags()方法提取彈幕文本“Top10關(guān)鍵詞及權(quán)重”并通過(guò)遍歷操作實(shí)現(xiàn)存儲(chǔ)。

4.2 WordCloud詞云圖繪制

WordCloud庫(kù)以WordCloud對(duì)象為基礎(chǔ),以詞語(yǔ)為基本單位進(jìn)行詞云圖繪制。首先,通過(guò)wordcloud.WordCloud()函數(shù)進(jìn)行詞云圖參數(shù)設(shè)置,本文設(shè)置width=1200,height=900,font_path='msyh.ttc',background_color="white",max_words=1500,stopwords=stopwords,確定詞云圖的形狀、尺寸、背景色、字體等;其次,使用wordcloud.generate_from_text()方法將Jieba分詞處理后的彈幕文本數(shù)據(jù)傳入詞云圖中;最后通過(guò)wordcloud.to_file()方法輸出詞云圖。

5 彈幕情感傾向分析(Sentiment tendency analysis of bullet screen)

5.1 SnowNLP情感分析原理

傳統(tǒng)的Python自然語(yǔ)言處理庫(kù)大多都面向英文,對(duì)于中文文本處理兼容性較差,而SnowNLP庫(kù)的出現(xiàn)很好地彌補(bǔ)了這一點(diǎn)。SnowNLP庫(kù)自帶中文正負(fù)情感訓(xùn)練集,可以通過(guò)樸素貝葉斯原理實(shí)現(xiàn)情感分析、詞性標(biāo)注、文本分類等操作,很好地適用于中文文本數(shù)據(jù)的處理,故本文選取SnowNLP進(jìn)行網(wǎng)絡(luò)輿情的情感分析。通過(guò)SnowNLP情感分析可以獲得情感分析占比圖、直方圖、波動(dòng)圖以及情感得分表等可視化結(jié)果。SnowNLP情感預(yù)測(cè)基本原理如下。

式(2)即為SnowNLP情感預(yù)測(cè)過(guò)程使用的基本式,該式還可以進(jìn)一步簡(jiǎn)化為式(3)。

5.2 LDA主題模型原理

LDA是潛在語(yǔ)義分析和概率語(yǔ)義分析的擴(kuò)展,在文本數(shù)據(jù)挖掘等領(lǐng)域廣泛使用。LDA模型可以自動(dòng)將文本自動(dòng)編碼為一定數(shù)量具有實(shí)質(zhì)性意義的主題,可極大減少人為干預(yù)負(fù)擔(dān)。運(yùn)行LDA模型,可以獲得每個(gè)主題下的詞語(yǔ)分布概率,以及文檔對(duì)應(yīng)的主題概率,其模型結(jié)構(gòu)如圖2所示。

圖2 LDA模型結(jié)構(gòu)示意圖Fig.2 Structure diagram of LDA model

LDA模型分為文檔、主題和詞語(yǔ)三層,是典型的生成式主題模型,具體文檔生成過(guò)程如下。

5.3 實(shí)驗(yàn)與分析

為了驗(yàn)證基于彈幕的網(wǎng)絡(luò)輿情文本挖掘與情感分析的可行性以及可靠性,以“鴻星爾克捐款”為主題構(gòu)建實(shí)驗(yàn)數(shù)據(jù),進(jìn)行效果檢驗(yàn)。

首先,爬取相關(guān)彈幕并對(duì)數(shù)據(jù)進(jìn)行清洗,獲得視頻地址、彈幕地址、彈幕時(shí)間以及彈幕內(nèi)容等數(shù)據(jù),如圖3所示。

圖3 爬蟲(chóng)結(jié)果展示(部分)Fig.3 Crawler results show (partial)

其次,經(jīng)過(guò)Jieba分詞、去停用詞、高頻詞統(tǒng)計(jì),獲得“Top10關(guān)鍵詞及權(quán)重”表,詳見(jiàn)表1。其中,“國(guó)貨、格局、鴻星爾克、支持”等網(wǎng)絡(luò)輿情關(guān)鍵詞赫然在列,其權(quán)重分別為1.426044、1.144364、0.934489、0.518985。同時(shí),通過(guò)WordCloud繪制詞云圖,可以得到以“鴻星爾克捐款”為主題的彈幕詞云圖,如圖4所示。圖中“支持國(guó)貨、格局、鴻星爾克”等關(guān)鍵詞詞頻較高。

圖4 詞云圖Fig.4 Word cloud

表1 Top10關(guān)鍵詞及權(quán)重Tab.1 Top10 keywords and their weights

最后,調(diào)用SnowNLP和LDA進(jìn)行最為重要的彈幕情感傾向分析和主題提取。通過(guò)SnowNLP情感分析,可以得到與“鴻星爾克捐款”相關(guān)的網(wǎng)絡(luò)輿情彈幕情感分析占比圖、直方圖和波動(dòng)圖,如圖5—圖7所示。圖5從情感得分占比的角度給出了情感分析數(shù)據(jù),可以直觀看出積極、消極及中性情感分別占比為87.93%、10.66%和1.41%。圖6以直方圖的形式呈現(xiàn)了情感得分的區(qū)間分布,從圖中可以看出整體情感分布靠右,說(shuō)明網(wǎng)民對(duì)于該網(wǎng)絡(luò)輿情事件呈現(xiàn)較為積極的態(tài)度。圖7以波動(dòng)圖的形式呈現(xiàn)了彈幕時(shí)間與情感得分的關(guān)系。圖中,橫軸為彈幕時(shí)間,縱軸為彈幕情感得分,波動(dòng)曲線整體分布靠上,且隨著時(shí)間推移越發(fā)穩(wěn)定于上側(cè)區(qū)間,一方面說(shuō)明情感得分均值高于0.5,網(wǎng)民對(duì)該事件大多持積極觀點(diǎn),另一方面說(shuō)明隨著時(shí)間推移持有積極觀點(diǎn)的網(wǎng)民逐漸占據(jù)多數(shù)。

圖5 鴻星爾克情感分析占比圖Fig.5 Proportion chart of sentiment analysis for Hongxing Erke

圖6 情感分析直方圖Fig.6 Histogram sentiment analysis

圖7 情感分析波動(dòng)圖Fig.7 Fluctuation graph of sentiment analysis

通過(guò)實(shí)驗(yàn)分析不難發(fā)現(xiàn),情感分析占比圖、直方圖和波動(dòng)圖三者分別從情感得分占比、分布和時(shí)間三個(gè)角度呈現(xiàn)了彈幕背后蘊(yùn)含的輿情信息,說(shuō)明以“鴻星爾克捐贈(zèng)”為主題的相關(guān)網(wǎng)絡(luò)輿情,整體情感傾向較為積極,網(wǎng)絡(luò)輿情態(tài)勢(shì)穩(wěn)步向好。

通過(guò)LDA進(jìn)行主題詞提取可以獲得彈幕數(shù)據(jù)主題聚類表,詳見(jiàn)表2。從表2可以看出“格局、國(guó)貨、鴻星爾克、吳榮照老板”四個(gè)主題是彈幕背后隱藏的核心主題詞,是網(wǎng)民真正的關(guān)注焦點(diǎn)。

表2 主題聚類表Tab.2 Theme clustering table

不難發(fā)現(xiàn),利用LDA進(jìn)行主題詞提取獲得的主題聚類表與Jieba分詞獲得的“Top10關(guān)鍵詞及權(quán)重”表及WordCloud繪制的詞云圖所示結(jié)果一致,三者相互印證,說(shuō)明無(wú)論是詞頻角度還是聚類角度,“格局、國(guó)貨、鴻星爾克、吳榮照老板”均為該網(wǎng)絡(luò)輿情的核心焦點(diǎn),進(jìn)一步呈現(xiàn)了彈幕與網(wǎng)絡(luò)輿情之間的潛在聯(lián)系,這對(duì)于切實(shí)把握網(wǎng)民關(guān)注焦點(diǎn),防范化解衍生輿情具有重要意義。

6 結(jié)論(Conclusion)

彈幕相較于傳統(tǒng)評(píng)論具有更強(qiáng)烈的情感色彩以及更強(qiáng)的時(shí)效性,本文通過(guò)對(duì)彈幕數(shù)據(jù)的文本挖掘和情感分析探索隱藏在彈幕背后的網(wǎng)絡(luò)輿情信息。實(shí)驗(yàn)結(jié)果顯示,歷經(jīng)網(wǎng)絡(luò)爬蟲(chóng)、數(shù)據(jù)清洗、數(shù)據(jù)可視化、SnowNLP情感分析和LDA主題詞分類等步驟后,獲得的網(wǎng)絡(luò)輿情彈幕詞云圖、情感分析占比圖、直方圖、波動(dòng)圖及LDA主題聚類表等結(jié)果較好地呈現(xiàn)了網(wǎng)民的情感傾向與關(guān)注焦點(diǎn),這對(duì)于把握網(wǎng)絡(luò)輿情動(dòng)態(tài)走向、防范化解網(wǎng)絡(luò)輿情風(fēng)險(xiǎn)具有一定的現(xiàn)實(shí)意義。新媒體時(shí)代下,網(wǎng)民群體意見(jiàn)表達(dá)渠道更加多元化,彈幕這一新興情感表達(dá)方式的出現(xiàn),是對(duì)現(xiàn)有輿情研究的良好補(bǔ)充,通過(guò)深入對(duì)網(wǎng)絡(luò)輿情彈幕的研究可以更好地響應(yīng)網(wǎng)民合理關(guān)切,完善輿情分析機(jī)制,進(jìn)而為構(gòu)建更加和諧清明的網(wǎng)絡(luò)空間做出貢獻(xiàn)。

猜你喜歡
文本情感分析
隱蔽失效適航要求符合性驗(yàn)證分析
如何在情感中自我成長(zhǎng),保持獨(dú)立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
在808DA上文本顯示的改善
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長(zhǎng),保持獨(dú)立
電力系統(tǒng)及其自動(dòng)化發(fā)展趨勢(shì)分析
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 久久www视频| 久草视频中文| 欧美自慰一级看片免费| AV网站中文| 成人福利一区二区视频在线| 久久久久88色偷偷| 国产色爱av资源综合区| 在线观看国产黄色| 92午夜福利影院一区二区三区| 国产成人91精品免费网址在线| 国产精品九九视频| 国产精品女人呻吟在线观看| 中文一级毛片| 国产69囗曝护士吞精在线视频| 亚洲人精品亚洲人成在线| 日韩欧美国产综合| 青草视频网站在线观看| 丝袜亚洲综合| 久久综合亚洲色一区二区三区| 热久久综合这里只有精品电影| 欧美亚洲一区二区三区在线| 一级毛片免费观看久| 国产制服丝袜91在线| 美女一级免费毛片| 国产欧美综合在线观看第七页| 情侣午夜国产在线一区无码| 素人激情视频福利| 国产人妖视频一区在线观看| 91美女视频在线观看| 国产又爽又黄无遮挡免费观看| 伊伊人成亚洲综合人网7777| 精品成人一区二区| 亚洲爱婷婷色69堂| 亚洲成年人网| 欧美日韩v| 国产一二三区在线| 欧美区国产区| 谁有在线观看日韩亚洲最新视频| 国产啪在线91| 国产精品片在线观看手机版 | 久久国产成人精品国产成人亚洲| 国产导航在线| 色噜噜狠狠色综合网图区| 亚洲欧美另类专区| 日本免费a视频| 91探花在线观看国产最新| 国产高清免费午夜在线视频| 天堂网国产| 国产一区二区在线视频观看| 久久窝窝国产精品午夜看片| 国产在线观看第二页| 国产簧片免费在线播放| 99久久亚洲综合精品TS| 四虎影视8848永久精品| 大香伊人久久| 视频一区视频二区日韩专区| 午夜免费视频网站| 免费一级无码在线网站| 亚洲第一成网站| 成人综合久久综合| 亚洲不卡网| 中文字幕av一区二区三区欲色| 国产v精品成人免费视频71pao| 欧美激情成人网| 久久久久国产精品免费免费不卡| 国产日韩欧美在线视频免费观看 | 亚洲无码在线午夜电影| 免费又爽又刺激高潮网址| 国产系列在线| 国产婬乱a一级毛片多女| 中文成人在线视频| 久久精品人人做人人综合试看| 国产欧美精品一区二区| 国产91久久久久久| 91蜜芽尤物福利在线观看| 亚洲天堂成人在线观看| 亚洲av日韩综合一区尤物| 亚洲有码在线播放| 国产91麻豆免费观看| 日韩亚洲综合在线| 国产一区二区免费播放| 免费a级毛片视频|