邱澤國 賀百艷
(哈爾濱商業大學,黑龍江哈爾濱 150028)
隨著近幾年互聯網和信息技術的飛速發展,微博微信等社交平臺已經成為人們獲取新聞信息的重要來源。據中國互聯網絡信息中心(CNNIC)發布第45次《中國互聯網絡發展狀況統計報告》顯示,截至2020年3月,我國網民規模為9.04億,較2019年底新增網民7508萬,互聯網普及率達64.5%,手機網民規模為8.97億,網民使用手機上網的比例達99.3%[1],越來越多的人通過網絡獲取新聞等熱點事件。如新浪微博、微信等已經成為人們社交生活中不可或缺的一部分。在社交平臺上,用戶可以通過點贊、評論、轉發等形式參與到發生的熱點事件中,不受約束的與眾多用戶互動溝通。由于社交平臺具有開放性、便捷性和匿名性等特點,導致新聞信息在社交網絡中的傳播廣度、傳播深度和傳播速度都有著驚人的潛力,輿論會在短時間內發酵達到最后形成網絡輿情,引起社會大眾的廣泛關注。因此,十分有必要動態跟蹤網民對輿情事件話題討論內容以及情感的變化,了解網民對于輿情事件的主觀看法和情感傾向性,對于整體把握輿情事件的發展方向,引導和控制輿情有重要的意義。
關于微博話題發現,學者們的研究主通過計算機領域,改進經典聚類算法來提高主題發現的有效性。Chen等人設計開發了一個增量聚類框架來檢測識別新的主題,并利用文本的內容和時間特征來及時發現熱門主題[2];Stilo等人基于時間序列的相似性,提出了一種在微博中用于詞聚類的新方法[3];Hu等人從用戶評論中挖掘用戶的觀點看法[4];李亞星等人改進了Single-Pass算法,提出一種基于實時共現網絡的微博話題發現模型[5];宋莉娜等人提出了SOM聚類方法用于微博的話題發現,研究表明該方法可以有效改善傳統文本聚類不準確的缺點,從而有效的發現微博話題[6]。
情感分析,又被稱為觀點挖掘,是一種分析、處理、歸納和推理具有情感色彩的主觀文本的過程[7]。情感分析主要包括機器學習和基于情感詞典兩種方法。分析研究用戶發布的觀點看法在很多領域有著非常重要的作用,對于用戶情感的挖掘研究具有廣泛的應用價值,目前對此國內外已有諸多學者開展了研究。在國外,對于網民情感態度的研究主要集中于Twitter、Facebook等社交平臺上,Bollen等人對發布在Twitter平臺上的推文進行情感分析,并以日為單位計算時間軸上的情緒向量,進而對網民的情感態度進行分析與預測[8]。由于基于中文環境的微博與基于英文環境的Twitter在語言表達習慣上存在著很大的差異,因此用于微博文本的情感分析工具與Twitter平臺上的情感分析相比有很大不同。劉智等人從集成學習的角度出發,設計了一種基于樣本空間動態劃分的機制,在此機制上構建了微博文本情感分類器,通過實驗實現了大規模評論集的情感分析以及用戶觀點挖掘[9]。史偉等人提出了一種基于KBANN的情感分析方法來解決沒有情感關鍵詞存在的文本,通過構建隱性知識來推測文本的情感狀態[10]。
眾多研究學者為微博話題發現和輿情文本情感分析注入了新的研究方法和思想理念。而基于多源數據挖掘與融合來研究輿情文本情感與輿情演化規律的研究很少。故本文從多源數據角度出發,利用文本情感分析技術,對不同數據源中的網絡輿情情感狀況進行分析,實現對網民情感的挖掘,為網絡輿情的引導和控制提供有益借鑒。
在中文語言環境中,輿情案例的數據源一般都來自新浪微博。它是一個為大眾提供信息交流共享和娛樂休閑的平臺。據央視財經統計,截止 2020年第三季度,微博的月活躍用戶數達5.11億。因此,以新浪微博為數據源進行的研究具有一定的代表性。
在明確研究對象和數據來源后,要對輿情案例的相關數據進行采集。根據新浪微博平臺的數據開放程度和網頁結構特點,采用Python軟件通過網絡爬蟲的方式獲取文本數據,并且有針對性的編寫Python腳本抓取微博文本數據。
利用新浪微博的高級搜索功能,選定時間范圍為2019年3月1日到2019年8月30日,以“經貿磋商”為搜索關鍵詞,編寫Python爬蟲程序進行數據采集,采集的主要字段包括:用戶名、發布內容、發布時間。共采集到17436條微博文本數據。
由于微博平臺具有大眾化,不受任何的時空限制,靈活度較高的特點,用戶在發表博文的過程中,不會受到文字格式的約束,因此文本內容中往往包含大量噪聲數據,如網址HTML標簽、話題標簽、無用的表情符號等。這些噪聲數據對文本的分詞和詞頻統計都會造成影響,所以在數據預處理階段要對這些無意義的信息進行清洗。
使用正則表達式對文本內容數據進行清洗,刪除重復的文本數據,刪除@、數字、無用網址、表情等無關內容,提取文本內容,再將清洗后的數據進行分詞處理,利用python中的JIEBA分詞工具包,對文本內容逐條進行分詞,去除停用詞、標點符號等無意義的詞。對處理好的數據進行高頻詞統計并繪制詞云圖,其結果如表1和圖1所示。

表1 微博文本詞頻Top10
由高頻詞可以看出,網民支持國家做出的決定,紛紛為國家加油打氣,表示中國絕不會被此事件嚇倒,此事件的發生會讓國家變得越來越強大,不畏懼對方提出的挑戰,表現出了網民的愛國主義情懷。
情感詞典包含基礎詞典和基于特定事件情境下的情感詞典。利用大連理工大學開發的情感詞典作為基礎詞典,但在針對某一特定事件的研究,只利用基礎詞典中的情感詞往往不夠準確,因此在研究特定事件中網民的情感態度時,需要加入有關于該事件情境下的高頻詞匯。因此,通過人工篩選,對比大連理工大學情感詞典本體庫對情感詞的打分情況,構建經貿磋商事件情境下的特定情感詞典。最終統計得到情感詞包括“中國”、“中美”、“經貿磋商”等在大部分文本中都出現的詞語,權重較高,因此需要去除這些詞語。利用大連理工大學情感詞典本體庫進行對比,如詞庫中某個詞為積極情感詞,而計算后為消極情感詞,則對其分數進行校正。若校正之后大于0,則歸入積極情感詞典中,若校正后仍然小于 0,則繼續留在消極情感詞典中。將校正后的分數作為該詞的最終情感分數。表2中序號1~10為排名前十的積極情感詞,序號11~20為排名前十的消極情感詞。

表2 積極情感詞Top10(1~10)與消極情感詞Top10(11~20)
基于中文文本情感詞典,計算17436條微博文本數據的情感得分。情感得分取值范圍為[-1,1],若情感得分大于0則判定該文本情感為積極傾向,情感得分小于0則判定該文本情感為消極傾向,情感得分等于0則判定該文本情感為中性。根據計算結果,最終得到13526條積極情感微博,占比為77.6%;消極情感微博3298條,占比為18.9%,中性情感微博612條,占比為3.5%,圖2為微博情感極性分布結果。

圖2 微博情感極性分布結果
圖3為微博積極情感強度時序圖,可以從圖中看出2019年5月~2019年8月期間網民對經貿磋商結果的情感強度高于2019年2月~2019年5月期間的情感強度。且網民的積極情感強度在2019年5月15日達到峰值,當天積極情感博文為2669條。次高峰發生于2019年5月23日,博文數量為2352條。

圖3 微博積極情感強度時序圖
圖4為微博消極情感強度時序圖,整體的變化趨勢與積極情感強度時序圖呈現的效果一致,同樣在2019年5月15日消極情感強度到達低谷,當天發文數量為1130條。次谷值同上也發生在2019年5月23日,發文數量為1091條。但消極情感強度的分值低于積極情感強度分值,大約為積極情感強度分值的一半,經分析得到在經貿磋商期間,微博上網民表現出的積極情感占多數,并且積極情感強度要遠大于消極情感強度。

圖4 微博消極情感強度時序圖
通過上述分析可以發現在微博平臺上網民的積極情感占多數。由整個事件可以看出,隨著事件的發展在主要時間節點上網民的情感狀態會產生波動,由于兩國之間存在著文化差異,導致雙方的觀點立場不同,造成情感傾向的主要原因也會不盡相同。
通過對情感分析之后的文本進行主題聚類分析,挖掘每種情感下的子主題。通過構建 LDA主題模型,將有關“經貿磋商”的文本進行聚類和主題提取。LDA主題模型是通過給出每個主題下的高頻詞來確定當前的主題內容,利用每個主題的主題詞還原網民討論的熱點話題。由于LDA主題模型沒有明確的主題個數,因此要經過不斷調試與對比分析才能得出最優的主題數量。經過調試最終確定積情感為5個討論主題。表3為LDA主題模型提取的各個主題關鍵詞。

表3 微博各主題關鍵詞
從微博積極情感主題1可以看出,國民表示支持華為、華為加油等,為民族企業加油打氣。主題2反映了鼓勵大眾進行創新,不畏懼挑戰。主題3反映了中國不斷優化對外貿易環境,營造了良好的對外貿易氛圍,塑造了大國形象。主題4反映了中國可以克服自身不足,擺脫對其他國家的技術依賴,在世界經濟體系中更加自信自強。主題5反映了中國的產業結構因此會做出調整,使得企業可以快速發展。
對爬取到的數據分析發現,原創微博的占比為39.7%,轉發占比為60.3%。其中39.7%的網民利用微博平臺,發表原創信息表達對此事件的看法和意見。對網民的情感分析可以發現,大部分網民能夠理性看待該事件發生的前因后果,60.3%的網民通過轉發官方微博的方式表達自己對該事件的態度,將該事件話題傳播的范圍擴大,并引導其他網民支持自己國家所做的決定,進一步提高了該事件的積極影響力和傳播效果。
通過對網民的情感分析可以得到,網民對于事件的情感變化會受到主流媒體報道、周圍用戶和新聞內容的影響,因此相關部門和政府應該充分利用主流媒體,把控好網民情感變化的節點,有針對地對網絡輿情進行引導管控。輿情信息爆發快、蔓延廣、消散期后輿情信息不斷,相關管理部門要加強對突發事件網絡輿情的信息管理。在事件輿情突發期,把握輿論信息導向,引導網民參與正向的、積極的輿論討論中;在蔓延期應發揮意見領袖作用,主流媒體應及時發布信息資訊,避免輿情傳播的過程中謠言的產生;在消散期應重視各大網站的信息推送,保證推送信息的準確性,避免出現衍生輿情。