謝金孜 楊蘭



摘要:本文基于文本挖掘技術,根據八爪魚軟件采集到微博熱搜話題數據,分析得出網民的話題中心,挖掘網民對中心話題的評論,對評論數據的情感走勢以及高頻情感熱詞進行分析判斷,并對微博熱搜數據分析在實踐應用上研究探討。通過本文的研究,了解到微博熱搜對公眾的日常生活、心理情緒方面的影響,并從青年價值觀引導、分析監測社會輿論兩個應用場景進行分析,引導政府、官方平臺有效利用微博熱搜,實時對評論風向進行監管,宣揚正能量,打破謠言。
關鍵詞:社會輿論;監測
互聯網給大眾的生活帶來了各個方面的顯著變化,同時形成了全新的輿論環境,網絡輿情已成為網絡管理、社會管理的重要內容。[1]微博提供簡單的發文方式使用戶能夠公開、實時地發表內容。快速的傳播方式,讓用戶之間的互動緊密相連,微博已經成為大眾獲取信息、了解時事、發表看法的主要渠道之一。因此,對微博社交媒體中的熱搜評論進行情感分析具有重要意義。[2]目前國內外的情感分析研究主要利用分析模型對數據挖掘技術的理論、技術進行探索,但是對于具體的微博評論內容情感分析以及微博熱搜的應用領域還需進一步研究討論。
一、研究設計
文本挖掘技術是一個新型的研究領域,在近年的信息分析中得到了廣泛的研究應用,利用該技術可以從大量無結構的文本信息中挖掘潛在的價值,并且利用這些信息更好地重組信息。本文基于文本挖掘技術,利用微博數據采集內容進行分析,首先對“微博熱搜話題” 進行數據提取,根據關鍵詞詞頻提取出該段時間內網民的重點關注話題;其次針對重點話題的用戶評論數據進行ROST情感分析,判斷不同情緒比例;最后基于結果對網絡輿情管理提出針對性建議。根據上文對微博及微博熱搜的研究,選擇微博作為本次數據源挖掘平臺,將微博熱搜作為本次數據來源具有一定的代表性和時效性。
二、數據采集與整理
(一)數據采集
本次研究選擇八爪魚大數據爬蟲軟件抓取數據。本次研究分為兩個步驟:第一,在八爪魚軟件中,使用自定義采集數據;第二,使用微博熱搜榜(含評論)模板采集當前熱搜榜單的全熱搜詞,以及每個熱搜詞對應的最熱前50條評論內容。為確保研究的準確性與真實性,采集數據2021年12月—2022年1月時間段內的微博熱搜話題數據3850條,用戶評論數據23920條。
(二)數據整理
本次研究爬取的初始數據存在以下問題:第一,評論內容漏采問題。刪除相關不規范數據后,獲得規范數據,微博熱搜話題數據3528條、用戶評論數據22680條;第二,數據冗余。采集的評論數據包含了發布時間、博主名稱、轉發數量、點贊數量等,將與本次研究無關的數據直接刪除。
三、數據分析
(一)詞頻統計及詞云
將分詞后的詞語使用ROST-CM-6的中文詞頻統計功能進行詞頻統計,并按照詞頻展示詞語(詳見表1);本文選擇使用“易詞云”詞云生成器生成詞云圖,可以更為直觀地了解人們的微博熱搜話題關注點(詳見圖1)。
(二)情感分析
情感分析又稱意見挖掘,是一種基于用戶發表的文本內容的情感分類方法,目的在于研究人們對某一實體、話題的判斷態度:支持、反對或無關。根據ROST-CM-6的情感分析算法,支持情感即積極情緒用正數表示,分段區間分別為一般(5,15),中度(25,+∞);反對情感即消極情緒用負數表示,分段區間為一般(-15,-50),中度(-25,-15),高度(-∞,-25);無關情感即中性情緒不作區間分段,情感參數為0。以下分析內容選取所有話題中“北京冬奧會” 話題進行情感分析,分析結果如下(詳見表2)。
通過“表2北京冬奧會” 話題評論內容情感分析能直觀地感受到,針對“北京冬奧會” 的話題,呈現出的是絕大多數的積極情緒,人們毫不吝嗇地使用“最棒”“中國牛”“偉大” 這類詞語去表達對為國爭光的奧運健兒們的美譽,這是滿滿的民族榮譽感。本次的北京冬奧會秉持著“更快、更好、更強、更團結” 的奧林匹克格言,充分展現了中國人民對美好未來的殷切期望,帶來了一系列新的就業機會,給冰雪產業帶來了新的生機與希望,也在人們沉悶的日常生活中增添一抹色彩,“全民滑雪、滑冰熱潮”,奧運健兒們的熱血、奮斗激勵著大家。
通過“表3評論內容情感分析結果統計” 的分析,對于同時間段其他話題和“北京冬奧會” 話題,積極情緒評論數量高達10585條,占總量50.77%。由此可知,在冬奧會的開展下,我國奧運健兒的精彩表現,有著鼓舞人心、引領人們積極對待生活的正面作用。
四、應用探討
(一)應用場景一:利用微博熱搜數據挖掘結果引導當代青年正確的價值觀
對微博熱搜數據進行文本挖掘,分析微博用戶的情感傾向,可以引導社會青年正確的網絡行為,樹立正確的價值觀。結合上文研究結果可見,在數據采集的這段時間內微博熱搜呈現出的內容層次比較豐富。但是,熱搜榜單具有的一個特點是“娛樂化”。微博的絕大多數用戶是生活閱歷較淺、容易受到輿論影響的年輕群體,青年作為微博的主要受眾群體,在如此泛濫的“熱搜文化” 下,對于正處于思想認知成長、啟迪階段的他們而言,對其樹立優良的價值觀有較大影響。青年作為國家的未來、民族的希望,若長期受此類“熱搜文化” 的影響,他們的社會責任感、社會敏銳度、社會感知力都會被潛移默化的降低。[3]
利用文本挖掘技術,對微博熱搜進行采集,去糟取精,利用優秀的、有益的熱搜內容來引導青年人增強辨別優劣信息的能力,自覺過濾虛假、低俗信息,堅定個人信念,獨立思考,不盲從不跟風。除此之外,微博平臺要加強信息管制,從源頭抵制“糟粕”,提高熱搜的質量,宣揚正確價值觀;政府要加強網絡監管,打擊利用網絡傳播違法違規的行為,也要學會利用微博官方平臺,及時發聲,破除謠言,把控輿論風向。
(二)應用場景二:利用熱搜數據文本挖掘結果分析社會輿論走向
在本次研究爬取的熱搜話題中,能明顯看出主流輿論占據著更大的比重,3850條熱搜話題內容中,娛樂新聞僅占據了一小部分內容,絕大多數內容是與國家時政、社會要點有關。微博應切實履行其社會責任,加強違法違規信息管控,健全完善內部審核處置流程,積極維護網上傳播秩序,構建微博社區的良好生態。微博熱搜的整改,是規范網絡環境、網絡秩序的一個開端,今后微博平臺更應為社會傳遞更多具有價值的信息。[4]要為國家大事、社會要聞提供更多的傳播渠道,讓主流輿論能夠及時地為公眾及青年接收、討論。
政府相關部門可利用“微博熱搜+文本挖掘” 這一模式,實時分析社會輿論,把控輿論走向,檢測網絡輿情。任何事件一旦在網上發酵便會引起廣泛的討論,而輿論需要政府部門的監測、管理,只有在政府的正確領導下,會對事件起著正面意義。相反,若是被有心之人利用虛假信息所刻意引導煽動,任何一條言論都會無意之中成為他人的“幫兇”。因此,政府相關部門應利用好文本挖掘技術,分析研究熱搜數據,及時分析社會輿論走向,監測網絡輿情,對輿論話題進行正向引導。[5]
五、總結
微博熱搜能夠反映出公眾的日常生活、心理情緒等方面,利用文本挖掘技術、詞頻分析技術和情感分析技術能夠較好的分析出微博熱搜數據里的隱藏信息。各相關組織應有效利用與挖掘微博熱搜數據,重視微博熱搜對公眾的作用,把控輿論走向,發揚其正能量。
參考文獻:
[1] 楊單,程鍵,姚怡琦,等.基于文本挖掘的高校輿情用戶情感分析研[J].武漢紡織大學學報,2020,33(5):74-80.
[2] 李娟.社交媒體中高校輿情用戶情感圖譜研究:以新浪微博反學術不端話題為例[J].情報科學,2020,(7):100-104.
[3] 王楠,宮欽浩.微博“熱搜”與當代青年的共同建設研究[J].山西青年職業學院學報,2021,34(1):1-4.
[4] 李晨曦.微博熱搜榜整頓的原因及影響分析[J].傳播與版權,2018,(4):90-91.
[5] 曹馨予.淺析微博熱搜對公眾輿論的影響:以樂清女孩乘滴滴順風車遇害案為例[J].新聞研究導刊,2018,17(9):62-63.