張乃芳 張鈺彬
摘 要 隨著中國電影行業和社交網絡的高速發展,公眾平臺匯聚了大量用戶對于電影的評論。2021年春節檔獲得高票房的電影《你好,李煥英》引起了網友的高度關注。文章主要運用LDA主題模型對豆瓣網站上網友對《你好,李煥英》的短評文本進行數據分析,定量分析與定性分析相結合,挖掘觀眾對這部電影的態度和評論的焦點與特點。分析發現,觀眾對該電影有高度的情感認同,討論主要聚焦在典型情節和主演的演技;關于喜劇電影是否應該笑中帶淚的問題,成為對該電影評價的主要分歧點。《你好,李煥英》產生了良好的娛樂效果和社會教育效果。
關鍵詞 LDA主題模型;數據分析;電影評論;可視化呈現
中圖分類號 G2 文獻標識碼 A 文章編號 2096-0360(2021)09-0113-05
2021年2月12日電影《你好,李煥英》上映,截至2021年3月26日豆瓣評分為8.1分,是2021年春節檔上映電影中唯一超過8分的電影,這一成績好于89%的喜劇片,好于77%的劇情片。這部講述母女親情的喜劇電影,熱度持續上漲,主演張小斐的演技備受好評,導演賈玲備受關注。作為一部現象級電影,《你好,李煥英》的成功必然是多方面因素共同作用的結果,電影獲得超高票房的背后,契合觀眾需求是最重要的一點。從消費者角度評價電影,貼近大眾生活,才能創作出人民群眾喜聞樂見的電影。
1.1 研究思路
本研究先從豆瓣網友評價的整體態度入手,然后分析網友短評中的高頻詞,之后分析最受關注的熱評,最后對采集到的所有短評進行主題聚類。分析對象由態度,到詞語,再到段落,最后是對所有短評的數據分析,整個過程是對網友觀后感的逐漸深入的分析過程。
具體來說:第一步,根據豆瓣網友的評價星級分布,從整體上把握觀眾對這部電影的推薦指數;第二步,分析觀眾的短評高頻詞有哪些,從總體把握觀眾對于這部電影關注的側重角度;第三步,提取觀眾短評里最受關注的熱評,分析這些認同度最高的短評都是從哪些角度評價電影,以及其中包含的情感態度如何;最后,運用LDA主題模型,將觀眾的短評進行數據分析,根據數據結果劃分內容主題,細致把握觀眾的關注點。
1.2 研究方法
一直以來,廣大導演、演員、自媒體都將豆瓣網評分、評論內容作為評論電影的重要依據并采用各種方式對豆瓣評論的內容進行分析。但是,時代發展使得越來越多的觀眾在網站發表自己對電影的看法,有一定知名度的電影在豆瓣上都有數量龐大的網友評論。傳統影評分析方法無法應對海量的大眾媒體新聞報道和公共輿論,如何利用自動化的方式對網友影評進行分析在此情況下顯得尤為重要。
本研究主要采用LDA主題模型對電影短評內容進行分析,并利用詞云圖對電影短評內容中詞頻較高的詞進行可視化呈現。作為一種基于機器學習的文本內容分析技術,主題模型是一種使用概率的產生式模型來挖掘文本主題的新方法[1]。LDA是Blei等在2003年提出的一種統計主題模型[2],是近年發展起來的一種重要提取潛在主題的建模方法[3],該模型已經得到研究人員廣泛認可,并被運用至各個研究領域。“LDA主題模型的主要作用是將語料庫中大量非結構化的文本數據轉換為可供研究人員進行分析的數據,并依據選定的參數進行文檔-主題、主題-詞的聚類工作,從而使研究者能夠在較短時間內從語料庫中得到一組可供解讀的主題。”[4]
相較于單純的統計數據而言,LDA主題模型輸出結果為一段包含各類意義的詞群,人文研究者能夠利用這些詞群進行證偽、定性與定量相結合等方面的研究。這種技術方法在人文社科領域具有傳統研究方法難以企及的優勢。《你好,李煥英》影評屬于帶有主題性質的大規模文本,適合用此方法。
首先,根據豆瓣937 198名網友對《你好,李煥英》打出的星級分數,統計出各星級所占比例,從總體上初步了解觀眾對這部電影的推薦態度。其比例分布如圖1所示,其中1星和2星的評價只占2.8%,4星和五星占比高達77.6%,可見大多數觀眾對此電影持推薦態度,認為該電影值得一看。

其次,以豆瓣網友的觀后短評為分析對象,刪除重復評價、無意義的短評以及星級評分為空值的短評后,共獲得492條熱度最高的有效短評。計算其詞頻,取詞頻最高的前50個詞進行高頻詞分析。在這一部分的分析中,輸出了圖2的詞云圖和表1正負面評價高頻詞。為從可視化角度透視短評的熱詞分布,本文根據詞頻數值降序排列,截取排名前50的詞組制作詞頻云圖。在詞云圖中,我們可以看到表達態度類的詞匯較多,因此將帶有明顯正負面態度的評論高頻詞整理成表1。
詞云圖如2圖所示,從圖2可以看出提及較多的詞匯是電影內容以及觀眾對電影的情感態度。進一步區分詞云圖中的高頻詞,可以看到觀眾討論的熱點主要集中三個方面:其一集中在電影母女親情的代入感,體現詞匯有“母親”“遺憾” “年代”“年輕”;同時,能夠體現觀眾情感態度的詞匯也有很多,既有正面詞匯,如“真誠”“真摯”“喜歡”等,也有“尷尬”這樣的負面詞匯;也有部分觀眾從喜劇的形式與深度加以探討,主要表現在對“煽情”的把握和喜劇電影里表達悲劇內核“反轉”的藝術技巧。


3.4 “喜劇是否應該笑中帶淚”成為爭議的一大焦點
大部分觀眾認為這部電影前期輕松、笑點密集,后半部分淚點和痛點并存,讓觀眾體會到了滿滿的母愛。但也有觀眾評論:“前期可能期待值太高,本來以為淚點低的我,會哭的稀里嘩啦,死去活來,結果并沒有,劇情稍顯平淡,反轉也在意料之中,煽情比較老套,笑點包袱有點尬,年代感也沒有讓人懷念逝去時光,總之 我還是更喜歡夏洛特煩惱”。喜劇作品里的煽情,向來是觀眾爭議的焦點。能做到讓觀眾身臨其境的感同身受而不是流于表面的個人情感宣泄,是考驗導演和編劇能力之處。喜劇的“內核”是悲劇,但這個“內核”如何包裹更是喜劇作品應該反復打磨的地方。
《你好,李煥英》作為現象級的高票房電影,獲得了巨大的商業成功,也贏得了觀眾的廣泛認可。同時,電影熱映后還引發人們一系列的“跟帖式”活動,如“#我和我媽的閨蜜照#”的接龍式曬圖,可見它輸出了正能量,為今天的親子關系和諧發展貢獻了力量,事實上起到了良好的社會教育效果。因此,對電影以及觀眾短評的分析,有助于在電影中注入教育因素的探索,也有助于將電影教育的成功因素引入思想政治教育。
參考文獻
[1]Lukins S K,Kraft N A,Etzkorn L H.Source code retrieval for bug localization using Latent Dirichlet Allocation[C].Proceedings of the 15th Working Conference on Reverse Engineering.Los Angeles:IEEE,2008:155-164.
[2]Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation[J].J Machine Learning Research Archive,2003(3):993-1022.
[3]唐曉波,房小可.基于文本聚類與LDA相融合的微博主題檢索模型研究[J].情報理論與實踐,2013,36(8):85-90.
[4]鄭石明,蘭雨瀟,黎楓.網絡公共輿論與政府回應的互動邏輯:基于新冠肺炎疫情期間“領導留言板”的數據分析[EB/OL].(2021-03-11)[2021-03-25].公共管理學報,https://doi.org/10.16149/ j.cnki.23-1523.20210311.002.