999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據條件下國產電影影評的情感分析

2022-06-15 13:57:42包淑華石盈鑫
呼倫貝爾學院學報 2022年2期
關鍵詞:文本情感分析

包淑華 石盈鑫

(呼倫貝爾學院 內蒙古 海拉爾 021008)

隨著人們生活質量的提高和國內電影市場的迅速發展,去電影院觀看電影已成為人們休閑娛樂的活動之一。有關數據顯示,2020年國產電影達到了歷史最高,占全年電影放映量的84%,對國產電影影評研究的多樣性也日以展現。

近年來,自然語言處理技術得到了以計算機科學為代表的自然科學領域到社會科學領域的廣泛關注,并且在新聞傳播、輿論管理、觀點分析等問題中展示了不容忽視的價值。[1]

國外從事情感分析的相關人員開發了很多基于實用方向的情感分析文本分類系統。[2]國內從20世紀90年代起,多位學者開始了對情感分析實用價值的研究,并建立了輔助研究情感分析的自動圖書分類系統。例如,東北大學圖書館“圖書分類系統”、長春地質學院圖書館“圖書分類系統”[3]。

每個人都是信息的締造者也是使用者,越來越多的企業都嘗試從數據中挖掘有價值的信息來解決業務的問題。[4]身處大數據時代,人們如何精確、快速地找到所需信息已經成為當前研究的焦點。[5]本文正是以此為初衷,針對同一時期上映的相似主題的電影影評進行不同角度的情感分析,使觀眾獲得怎樣去“多選一”地觀看電影的參考依據。為體現所用方法的有效性,文章選取了觀眾所熟悉的兩部國產電影《媽媽再愛我一次》和《你好,李煥英》。邵小青等[6]以Python語言在情感分析中的應用為基礎,通過爬取豆瓣影評《你好,李煥英》的評論數據,對電影的情感評價程度進行了可視化展示;不足之處是只適用于單個文本的情感分析。本文在它的基礎上改用應用軟件Python與ROSTCM6相結合的方法,對影評進行分析。其中,ROSTCM6統計軟件用于電影影評的詞頻統計,它對于較大的影評數據操作方便,統計出來的數據的估計值也更加精確。通過SnowNLP進行影評的情感分析。本文在李伊淑[7]的研究基礎上進行了文本的高頻詞提取,估計出電影所要表達出的情感趨向。這不僅能為媒體、電影市場、社交網站提供口碑及相關服務,[8]也有助于提高情感分析準確率的目的。

1 基礎理論知識介紹

1.1 情感分析

情感分析是自然語言處理領域的一個任務,又稱傾向性分析、情感挖掘、主觀性分析等,它是對帶有情感色彩主觀性文本進行分析、處理、歸納和推理的過程。[9]

對于短評的情感分析方法可以分為兩大類:基于情感詞典匹配法和基于Python語句的機器情感分析。基于情感詞典匹配的情感分析是指,對影評中的文本內容進行分詞和停用詞處理,然后用Python(相關)軟件結合情感詞典匹配情感詞語,找出積極和消極詞匯。基于Python語句的機器情感分析也叫基于機器學習的情感分析,主要是利用軟件篩選文本中有積極情感與消極情感的語句,再用機器學習法對篩選出的語句進行分析。

1.2 中文分詞

本文利用Python軟件第三方Jieba庫進行中文分詞。分詞模式及函數如表1所示:

表1 分詞三種模式

1.3 TF-IDF算法

TF-IDF算法通過TF來反映文本內部特征,[10]可用以評估一詞(字)對于一份文本的重要程度。它實際上是TF(詞頻)與IDF(逆文檔頻率)的乘積,算法如下

(1)

其中,ω代表計算的詞或字,N代表語料庫的文檔總數,n代表語料庫中包含ω的文檔數。

這里的特征項為詞語或單獨的字。

2 影評數據處理

2.1 數據來源

利用第三方爬蟲軟件“八爪魚”對所要分析的兩部電影《你好,李煥英》和《媽媽再愛我一次》進行電影影評數據的爬取。由于軟件的局限性,只爬取了豆瓣電影上的影評數據,每部電影影評220條。

2.2 數據預處理

2.2.1 利用情感詞典分詞

本文選擇知網HowNet情感詞典與臺灣大學NTUSD簡體中文情感詞典作為基礎情感詞典。利用情感詞典分詞步驟如下:

對這兩個情感詞典進行整合與去重。將知網HowNet中的正面中文情感詞語和正面評價中文詞語進行組合,再與臺灣大學NTUSD情感詞典中的積極詞語進行去重合并作為積極情感詞典導入Python軟件中備用。

將知網HowNet中的負面情感中文詞語和負面評價中文詞語進行組合,再與臺灣大學NTUSD情感詞典中的消極詞語進行去重合并作為消極情感詞典導入Python軟件中備用。

將知網HowNet情感詞典中的程度中文詞語進行分類。如,將程度詞“極其”和“最”的意義詞語分為第一類;將“很”的意義詞語作為第二類;將“較”的意義詞語分為第三類;將“稍”的意義的詞語分為第四類,并作為程度情感詞典導入Python軟件中。利用Python軟件Jieba庫進行分詞處理。

2.2.2 去除停用詞

將影評分詞后的文檔進行停用詞處理,本文選擇了哈爾濱工業大學的停用詞作為自定義停用詞表,對影評進行了停用詞處理。

2.2.3 文本特征抽取

分詞進行去停用詞后,對兩部電影的影評數據進行詞頻分析,得到“電影”“媽媽”為第一、第二高頻詞。前10個詞語及出現次數情況如表2:

表2 影評高頻詞

將相關數據(截止2021年7月,豆瓣電影網爬取的數據)代入算式(1),可以得到下列影評TF-IDF值表:

表3 影評TF-IDF值(排序前10的高頻詞)

表3中的TF-IDF值越大,這說明詞語在文本的重要性越強。更加清晰地展現了這些詞在影評中的重要程度。

3 影評情感分析

3.1 共詞矩陣

共詞矩陣用于公共的關鍵詞,它通過關鍵詞出現在不同評論中的次數列出矩陣,以便更加快速地計算分類信息與共詞矩陣,以此來描述詞組間的親密度。

本文利用表2與分詞后的影評數據相結合得到兩部電影的共詞矩陣。因得到的共詞矩陣數據較為龐大,依據詞與詞之間存在的相關性較強的進行篩選,列出具有相關性的10個詞構成以下共詞矩陣。

3.1.1 《你好,李煥英》共詞矩陣

根據,“電影、媽媽、賈玲、觀眾、母親、女兒、導演、李煥英、穿越、小品”等10個詞的順序構成的共詞矩陣如(圖1):

圖1 《你好,李煥英》共詞矩陣

由圖1可以看出,詞“電影”與“賈玲”之間存在最高的關聯。因為,賈玲是本電影的導演且是主演之一。其次,“電影”與“觀眾”之間存在較高的關聯,這說明,一部電影的口碑與觀眾對于電影的評價密切相關;“電影”與“母親”“媽媽”等詞語之間的親密度也明確了這部電影的主題。

3.1.2 《媽媽再愛我一次》共詞矩陣

根據,“電影、媽媽、電影院、小時候、記得、小學、組織、學校、這部、當年”等10個詞的順序構成的共詞矩陣如下:

圖2 《媽媽再愛我一次》共詞矩陣

由圖2可以看出,“電影”和“媽媽”有高度的關聯性,也明確了電影的主題。其它與“電影”存在密切關系的詞也說明了這部電影的久遠。

3.2 語義網絡圖

語義網絡圖是指,語義網絡中信息被表達為一組結點,結點通過一組帶標記的有向直線彼此相連,用于表示結點間的關系。

本文用ROSTCM6軟件與情感詞典相結合的方法對電影進行情感分析,得出電影評論數據的積極、中性、消極評論,并進行語義網絡構建。圖3是電影《你好,李煥英》的積極語義網絡圖:

圖3 《你好,李煥英》積極語義網絡圖

3.3 SnowNLP情感分析

SnowNLP情感分析是基于情感詞典來實現,它將所要分析的文本歸為兩類來進行處理。情感一般為積極、中性和消極,本文在處理過程中只研究了文本的積極與消極情感。在SnowNLP情感分析中,情感分數區間為[0,1],越接近1,表明情感越積極,越接近0,表明情感越消極。

通過Python軟件第三方SnowNLP庫得到相關影評的情感分數,如表4:

表4 影評的情感分數

根據表4繪制出兩部電影的情感分數圖,更直觀地展示出兩部電影趨于積極還是消極的情感。

圖4 《你好,李煥英》情感分數圖

圖5 《媽媽再愛我一次》情感分數圖

情感分數圖以橫坐標0.5作為影評積極評價與消極評價值的分界,情感分數分布在[0,0.5)區間內為消極評價,情感分數分布在(0.5,1]內為積極評價,縱坐標表示評價量。

由圖4、圖5看出,對于電影《你好,李煥英》的情感分數主要集中于區間(0.5,1],電影《媽媽再愛我一次》的情感分數明顯集中在[0.8,1]區間。這體現電影《媽媽再愛我一次》的積極性情感更強。

對表4的數據,利用Python軟件第三方庫SnowNLP情感分析進行操作,放入代碼得到圖6、圖7。其中,橫坐標表示電影所爬取的影評數,縱坐標表示評價值,設置大于0.5為積極情感評價,小于0.5表示消極情感評價,0.5為分界值。圖4中的波動圖在大于0.5的范圍內未見明顯集中趨勢;圖5中的波動圖在大于0.5的范圍內相對集中在[0.8,1]區間。此結果與“情感分數圖”的結論一致。情感分數圖與情感波動圖在本質上體現的意義是相同的,讀者可根據實際需要自行選擇。

圖6 《你好,李煥英》情感波動圖

圖7 《媽媽再愛我我一次》情感波動圖

結語

本文使用大數據軟件與統計軟件相結合的方法,尋找文本所需要的不同情感傾向,使其以量化的形式展現了出來。利用TF-IDF統計方法估計文本的重要詞,并構建出共詞矩陣,解決了因影評數據過多的繁瑣性且使用的文本研究方法具體、準確。特別是對同一時期上映的相似主題的電影進行不同角度的情感分析,使觀眾能按自己的喜好進行多選一觀看。本文只對小于四字詞語進行了分析,爬取了豆瓣電影中的部分短評,在影評數據爬取上存在量的不足,數據較單一。在后期的研究中可以對研究的領域和角度進行進一步的探究。

猜你喜歡
文本情感分析
隱蔽失效適航要求符合性驗證分析
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
在808DA上文本顯示的改善
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨立
電力系統及其自動化發展趨勢分析
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 国产网站一区二区三区| 在线观看亚洲人成网站| 国产激爽爽爽大片在线观看| 成年A级毛片| 亚洲国产精品日韩av专区| 区国产精品搜索视频| 97精品伊人久久大香线蕉| 色首页AV在线| 亚洲日韩精品欧美中文字幕 | 四虎AV麻豆| 日韩中文精品亚洲第三区| 国产成人高清精品免费软件| 第一页亚洲| 国产精品99r8在线观看| 久久精品国产亚洲麻豆| 香蕉蕉亚亚洲aav综合| 午夜福利视频一区| 日本国产精品| 国产精品一区二区不卡的视频| 91在线精品麻豆欧美在线| 国产精品久久久免费视频| 高清欧美性猛交XXXX黑人猛交 | 狠狠ⅴ日韩v欧美v天堂| 日韩资源站| 伊人久久婷婷五月综合97色| 黄色网页在线观看| 久久精品国产精品国产一区| 国内精品视频| 欧美午夜网站| 九色综合伊人久久富二代| 国产成人无码Av在线播放无广告| 国产在线观看91精品| 亚洲综合亚洲国产尤物| 亚洲无码视频图片| 亚洲男人的天堂久久精品| 国产福利在线观看精品| 亚洲精品你懂的| 日本久久网站| 666精品国产精品亚洲| 最新日本中文字幕| 亚洲精品无码AⅤ片青青在线观看| 欧美午夜在线视频| 免费国产好深啊好涨好硬视频| 日韩成人在线网站| 亚洲国产天堂久久综合| 中文成人在线| 国产一区二区丝袜高跟鞋| 97久久精品人人做人人爽| 国产在线91在线电影| 无码精油按摩潮喷在线播放| 国产69精品久久| 国产黄色免费看| 毛片手机在线看| 久久特级毛片| 亚洲欧美极品| 国产日本一线在线观看免费| 亚洲国产欧美国产综合久久| 日韩国产一区二区三区无码| 国产女人18毛片水真多1| 一级全黄毛片| 亚洲国产综合自在线另类| 国产免费怡红院视频| 国产v欧美v日韩v综合精品| 午夜视频www| 精品无码国产自产野外拍在线| 色综合成人| 中文字幕永久在线看| 人妻无码中文字幕一区二区三区| 亚洲色图综合在线| 国产免费观看av大片的网站| 久久99国产视频| 亚洲91精品视频| 午夜影院a级片| 国产精品免费入口视频| 成人国产精品2021| 国产精品免费入口视频| 亚洲无码高清视频在线观看| 国产欧美日韩va另类在线播放| 无码国产伊人| 91激情视频| 91一级片| 日本中文字幕久久网站|