徐建國 劉夢凡 劉泳慧



摘 要:增強突發事件研判、預警與快速響應能力,對加強網絡輿情監管與引導,維護社會安全和穩定具有重要意義。首先基于網絡輿情演化機制與特征建立科學、合理的指標體系;然后選取重要程度與分類性能均比較優異的末級指標作為特征屬性,構造C4.5決策樹風險預警模型;最后將突發事件網絡輿情相關數據帶入風險預警模型,得到預警風險等級。實驗結果表明,該方法能夠對突發事件網絡輿情進行風險預警,預警準確率高達94.7%。
關鍵詞:突發事件;網絡輿情;風險預警;C4.5決策樹
DOI:10. 11907/rjdk. 201053 開放科學(資源服務)標識碼(OSID):
中圖分類號:TP301文獻標識碼:A 文章編號:1672-7800(2020)007-0070-06
Research on Risk Early Warning Model of Emergent Network Public Opinion
XU Jian-guo,LIU Meng-fan,LIU Yong-hui
(College of Computer Science and Engineering,Shandong University of Science and Technology,Qingdao 266590,China)
Abstract: It is of great significance to strengthen the supervision and guidance of network public opinion and maintain social security and stability by strengthening the ability to judge, warn and respond quickly. First, a scientific and reasonable index system is? established based on the evolution mechanism and characteristics of network public opinion, and then the last-level indicators that have excellent importance and classification performance are selected as feature attributes to construct a C4.5 decision tree risk early warning model.Finally, the data related to the emergent network public opinion is brought into the risk early warning model to obtain the early warning risk level. The experimental results show that this method can give correct risk early warning to emergency public opinion, and the early warning accuracy rate is as high as 94.7%.
Key Words: emergencies; network public opinion; risk warning; C4.5 decision tree
0 引言
突發事件,顧名思義就是指毫無征兆的突然發生,可能或者已經給社會造成不同程度的危害,需要相關部門采取應急處置措施予以應對。突發事件包含自然災害、事故災難、公共衛生和社會安全4類事件[1]。其中社會安全事件帶有很強的隨機性與突然性,具有引發突然性、目的明確性、瞬間聚眾性、行為破壞性以及狀態失衡性等特點[2],不僅造成巨大的人員傷亡和財產損失,而且給人們帶來巨大的心理壓力及一定程度的社會動蕩,妨礙正常的工作與生活秩序,嚴重阻礙經濟發展。
社交網絡[3]在給人們工作、生活帶來極大便利的同時,也為突發事件充當傳播媒介,促使突發事件得以更快速、廣泛地傳播與擴散,繼而催生突發事件網絡輿情風險。根據2019年中國互聯網絡信息中心發布的第43次《中國互聯網絡發展狀況統計報告》,截至2018年12月,我國網民規模已達8.29億[4],一旦某地發生突發事件,就會迅速傳播與擴散,使原本局部、區域性問題發酵至全民熱議的網絡輿情熱點事件,嚴重的甚至導致突發性群體事件。政府部門應對突發事件網絡輿情的能力成為全社會普遍關注的焦點。由此可見,對突發事件迅速作出準確研判、制定相應的應急預案,對保障人民群眾生命財產安全、維護社會穩定發展具有重要意義。
1 相關工作
本文以中國知網作為源數據庫,將“突發事件” “網絡輿情” “風險預警”等作為主題和關鍵詞,檢索近10年(2010-2019年)間發表在中文核心期刊及CSSCI期刊文獻共330篇,通過Citespace可視化工具,構建突發事件網絡輿情風險預警關鍵詞共現圖譜[5],如圖1所示。
突發事件網絡輿情發生前的預防與預警是應對突發事件網絡輿情重點。郝楠等[6]從輿情本體、輿情主體、輿情客體3個方面完善網絡輿情預警指標體系,采取模糊綜合評價方法實現網絡輿情預警;蘭月新等[7]將網絡輿情生長周期從潛伏期、擴散前期、擴散后期和消退期4個階段簡化為潛伏期與擴散期兩個階段,采用基于K-means聚類和多項logistics分析等方法,構建網絡輿情多維動態分類與預測模型;劉建準等[8]將情報介入體系融入突發事件應急管理的事前預警、事中控制與事后止損3個階段,構建突發事件應急管理情報介入與融合模型,加快突發事件處理效率,提高準確性;次雨桐[9]創新性地在突發事件應急領域引入情報監督理念,這一舉措對提高突發事件應急管理能力與決策水平具有重要意義。
以重大刑事案件、校園安全事件等為代表的社會安全事件,通常因人民內部矛盾引發,或因人民內部矛盾處理不當而累積、爆發[10],具有極大的社會復雜性。該類事件一旦在社交網絡曝光,極易引發社會公眾的情感共鳴,演化為網絡輿情熱點問題,繼而轉化為輿情危機。一旦導致群體性事件爆發,后果和危害難以估量。突發事件網絡輿情演化要素關系如圖2所示。
本文主要針對突發事件中社會安全事件的網絡輿情進行風險評估,構建預警模型,旨在加強政府對該類突發事件網絡輿情的監管與引導,避免因輿情爆發導致經濟損失、人員傷亡等社會問題。
本文選取全球恐怖主義數據庫(GTD)中近20年世界發生的恐怖襲擊事件記錄,先使用系統聚類尋找類間相似性統計量,再結合K-means聚類算法對其進行量化分級,從中尋找關鍵指標及劃分標準,為構建突發事件網絡輿情風險預警指標體系提供依據。結合上述量化分級標準與關鍵指標,建立并完善突發事件網絡輿情風險預警指標體系,繼而構建基于C4.5決策樹算法的風險預警模型。
2 網絡輿情風險預警模型
2.1 指標體系構建
科學、合理的指標體系是構建突發事件網絡輿情預警模型的基礎和重要依據。通過分析網絡輿情演化機制及其特征,從輿情主體屬性、輿情受體(客體)屬性、輿情的傳播與擴散特性以及輿情信息特性4個維度構建指標體系[11],如表1所示。
由表1可知,突發事件網絡輿情主體屬性包括事件要素和危害級別,事件要素包含事件類型、受害者類型、發生地區3個三級指標。通過對全球恐怖主義數據庫(GTD)中1999-2018年(近20年)發生的全球范圍內恐怖襲擊事件記錄數據,采用系統聚類方法進行處理,找到類與類間的相似性統計量作為危害級別的下一級關鍵指標,包括人員傷亡、財產損失、持續時間、襲擊方式4個特征屬性。輿情客體屬性分為公眾關注度、公眾參與度、公眾態度以及風險網民。其中,公眾關注度通過累計瀏覽數量、累計轉發數量和累計評論數量等計量;公眾參與度通過參與話題的用戶數量計量;公眾態度分為公眾情感傾向與情感轉移;風險網民則包括利益誘導下影響輿論走勢的網絡水軍和粉絲基礎雄厚、言論可能產生較大影響的意見領袖。
輿情傳播與擴散特性由輿情來源與擴散程度兩部分構成。輿情來源主要考慮權威性與準確性,擴散程度則以新聞網站數量、自媒體數量、論壇數量體現。
輿情信息特性選擇話題熱度和內容特性兩個二級指標。其中,話題熱度通過用戶對該話題詞搜索程度獲得;內容特性表現為內容敏感度、內容詳細程度、內容真實性與全面性。
2.2 指標賦值
科學、準確實現末級指標量化及標準化,對整個指標體系的科學性、準確性以及后續風險預警模型的建立和應用具有十分重要的意義。末級指標包含連續型變量、無序分類變量及有序多態變量3種類型,如表2所示。考慮到不同類型變量之間存在較大差異,因此對上述3種指標類型的量化方法也各不相同。
2.2.1 連續型變量賦值
由表2可知,在眾多末級指標中,人員傷亡、財產損失、持續時間、累計瀏覽數量、累計轉發數量、累計評論數量、用戶參與數量、網絡水軍、意見領袖、新聞網站數量、自媒體數量、論壇數量均屬連續型變量,可利用網絡爬蟲技術爬取相關字段,或通過政府有關部門公布的數據報告等途徑獲取數據信息,最后根據實際收集到的數據分別對其賦值。
2.2.2 無序分類變量賦值
無序分類變量通常使用代碼表示變量中包含的每一項類別,如事件類型包含5種類別,用1代表重大刑事案件,2代表恐怖襲擊事件,3代表民族宗教突發群體事件,4代表校園安全事件,5代表其它社會安全事件。
2.2.3 有序多態變量賦值
來源權威性、準確性、內容真實性、全面性等指標均采取調研法,結合專家打分法獲得定量值,從而對指標量化。某個話題搜索量隨時間變化曲線如圖3所示。
搜索程度S用單位時間的搜索量表示,公式如下:
內容詳細程度可參考文字字數和視頻音頻時長進行判定和量化;內容敏感度屬于定性指標,可通過設計開放式問卷結合專家打分法對其量化。
2.3 指標權重計算
本文選取定性與定量相結合的層次分析法計算指標權重。層次分析法是基于對指標體系中各項指標的相對重要性判斷,首先對每一層級指標進行兩兩比較并用數字1~9進行標度[12],從而構造權重判斷矩陣;然后對權重判斷矩陣的每一列進行歸一化處理,再對其完成一致性檢驗。若判斷矩陣滿足一致性檢驗要求,則認為判斷矩陣的一致性可接受[13];否則,需要調整判斷矩陣,直至其滿足一致性檢驗要求為止。
2.4 突發事件輿情風險預警模型構建
決策樹作為一種常用的機器學習分類或預測模型,具有可讀性好、描述性強、有助于人工分析以及效率高等特點[14]。本文基于C4.5決策樹算法構造突發事件網絡輿情風險預警模型[15]。根據突發事件網絡輿情誘發群體性事件的可能性大小以及對社會造成的影響,將社會安全事件網絡輿情風險劃分為5個等級作為決策樹輸出變量,見表3。
突發事件網絡輿情數據多為分類且非二值變量,為避免二叉樹非0即1的絕對選項造成信息流失[16],本文選擇的決策樹形態為多叉樹。同時,在相同預測精度條件下,多叉樹的分裂次數通常少于二叉樹,決策樹判別次數大大減少,從而提高決策樹生長效率[17]。
指標體系末級指標涵蓋較全面的特征屬性,故決策樹輸入變量將指標體系分為主體屬性、客體屬性、傳播與擴散特性及輿情信息特性4部分。考慮到網絡輿情風險各個等級的數據記錄數量滿足近似正態分布的現實,本文多次對指標體系中的末級指標進行相應處理,如表4所示。
為提高決策樹學習效率,通常需要在決策樹構造前進行特征選擇,選取對訓練數據具有分類能力的特征。通常使用信息增益率作為決策樹分類模型特征選擇準則[18]。
在決策樹特征選擇過程中,除信息增益率外,還要考慮指標權重對最終結果的影響,故構造決策樹分裂屬性的影響因子IF(Impact Factor)如下:
其中,[wi,wij和wijk]分別表示一級指標、二級指標和末級指標權重,[1i,j,k4];[Gainrate]表示信息增益率;[λ,θ]為比例系數。
在C4.5決策樹算法中,將信源發出的信息記作[U(u1,][u2,?,ui,?,ur)],信宿收到的信息記為V,稱E(U)為信息熵,表示信息發出前的先驗概率,即
當收到信息V=[vj]時,發出信號的概率分布為[P(U|vj)],則稱[E(U|vj)]為信息發出的后驗概率,即
信息傳輸過程中由于受到噪聲影響,通常用Gain(U,V)表示信息增益,反映信息傳遞過程中消除的不確定性大小。
根據輸入變量中任一屬性用決策樹進行分類時,需要用到“分裂”屬性:
通過“分裂”屬性完成分裂后的樣本集信息增益率為
選擇影響因子IF較大的屬性作為分裂屬性構造決策樹。隨著遞歸計算,被計算的屬性影響因子會越來越小。
C4.5決策樹的剪枝算法采用PEP剪枝法,這是根據錯誤率判定子樹是否需要修剪的一種自上而下的剪枝法[19]。若一棵子樹包含L個葉子節點,設[ei]為子樹中第i個葉子節點包含的錯誤分類樣本數量,[ni]表示子樹第i個葉子節點中樣本的總數量,則該子樹的誤判率為
將子樹對樣本進行分類后正確分類的樣本記為0,錯誤分類的樣本記為1,那么子樹誤判次數服從伯努利分布[19],從而求得其均值和標準差分別為
將子樹替換成葉子節點,代入式(8)、式(9),求得葉子節點誤判次數的均值為[Errmeani],剪枝條件為
滿足上述條件時,用所得的葉子節點代替子樹即完成剪枝操作。至此,C4.5決策樹構建完成,即突發事件的網絡輿情風險預警模型已成功構建。
2.5 風險預警模型應用
網絡輿情風險預警模型將突發事件網絡輿情風險分為5個等級[20],詳見表3。
當風險預警等級為一級時,表明該事件將對社會造成重度危害,此時必然引發較大規模的群體性事件,造成極大的經濟損失和重大人員傷亡事故,需要引起政府高度重視。此時應采取危機管理預案,在采取措施引導并控制網絡輿情發展走向的同時,還需部署警力與醫護人員應對群體性事件,力求將損失與惡劣影響降至最低。
當風險預警等級為二級時,將對社會產生中度危害,極有可能引發局部小規模群體事件,甚至可能造成較大規模群體性事件,需要政府進行嚴密監控并采取治理措施,引導并控制輿情發展,安撫網民情緒,避免群體性事件爆發。
當風險預警為三級時,對社會危害程度為一般危害,存在引發輿情危機并激發群體性事件的可能性,但無必然性,此時政府應適度進行實時監測,避免因人工處置不及時帶來大面積爆發,有序有效控制輿情發展。
當風險預警為四級時,表明網絡輿情在其發展演化過程中會對社會產生輕度危害,通常表現為網民在參與輿情討論過程中出現惡評、謾罵等不文明現象,但導致輿情危機并激發群體性事件的可能性極小,無需干預,給予適當關注即可。
當風險預警為五級時,表明網絡輿情的演化發展階段對社會不存在危害,無需加以干預。
3 實證分析
本文選取2018-2019年發生的幾個典型社會安全事件引發的網絡輿情作為研究對象進行實證分析,包括長春長生生物公司假疫苗事件、“7.14”香港暴力襲警事件以及知名網紅“宇芽”自曝多次遭遇家暴的網絡輿情熱點事件。考慮到上述幾個案例運用本文模型進行風險預警時處理方法一致,故選取“7.14”香港暴力襲警事件為例進行具體分析。
3.1 “7.14”香港暴力襲警案例描述
2019年7月14日,香港反對派和一些激進勢力在中國香港沙田區借和平集會及游行活動之名,進行非法集結。他們破壞、堵塞道路,更有甚者使用磚頭、石塊、頭盔以及不知名粉末等物品襲擊警察、圍毆警員,對香港警員及市民安全造成嚴重威脅。當晚,有13名香港警務人員受傷較嚴重,需住院接受治療,該事件引起輿論高度關注。幾天之后,在香港政府及警方明確發出反對通知書的情況下,仍有部分人多次舉行非法集會鬧事。這一行為徹底將公眾早已郁積多日的憤怒情緒引爆,該事件受到各方持續關注,引發社會廣泛討論。
3.2 風險預警模型應用
3.2.1 風險預警指標權重計算
對指標體系中一級指標構造判斷矩陣如下:
計算得到權重向量[W=(0.391,0.246,0.132,0.231)],[λmax=4.64],一致性比率CR=0.04<0.1,故判斷矩陣A滿足一致性要求。因此,指標體系中一級指標對應權重分別為0.391、0.246、0.132和0.231,二級指標和三級指標權重計算方法同上,此處不再贅述。最終得到風險預警指標體系的各級指標權重如表5所示。
3.2.2 風險預警評估
計算得到各級指標權重后,根據公式
計算各指標對決策樹分裂屬性的影響因子IF(Impact Factor)大小,從而選擇決策樹的分裂屬性,完成決策樹構造過程。
在“7.14”香港暴力襲警事件中,求得排名前12位的末級指標及相應的影響因子IF值如表6所示。
選取IF值大于等于0.14的指標,即表6中排名前7的人員傷亡、搜索程度、用戶參與數量、財產損失、內容真實性、瀏覽數量以及情感轉移,依次作為決策樹的分裂屬性構造決策樹,得到最終的風險預警結果。
用上述方法與模型分別對長生生物公司假疫苗事件和網紅“宇芽”自曝多次經歷家暴事件進行風險預測,得到預警結果如表7所示。
對長生生物公司假疫苗事件、“7.14”香港暴力襲警事件以及網紅“宇芽”自曝多次遭受家暴3個網絡輿情熱點事件,運用本文模型分別對其進行風險預警,從表7可知,上述事件風險預警等級分別為二級(中度危害)、一級(重度危害)以及二級(中度危害),模型預測結果符合實際情況。
4 結語
本文基于突發事件網絡輿情危機預警需求,針對現有網絡輿情預警方法準確率有限、針對性不強等問題[21],在深入研究社會安全事件特點及復雜性基礎上,建立了針對社會安全類突發事件網絡輿情的風險預警模型。在決策樹構建過程中,結合指標體系與信息增益率共同作用下的影響因子尋找特征屬性,構建C4.5決策樹的風險預警模型。實驗結果表明,本文模型對于社會安全類突發事件網絡輿情風險預警更具針對性,準確率高達94.7%。迅速、準確的風險預警有助于相關部門了解輿情動態,掌握輿情演化趨勢,及時、有效地采取措施控制與引導網絡輿情,避免輿情過度發酵導致群體性事件發生。
參考文獻:
[1] 翟劼. 微博突發事件網絡輿情規律與預測方法研究[D]. 大連:大連理工大學,2016.
[2] 趙滿坤. 網絡突發事件預警研究[D]. 天津:天津大學,2014.
[3] ERIN M,ANDERSON GOODELL,RENEE M,et al. Risk and protective effects of social networks on alcohol use problems among Army Reserve and National Guard soldiers[J].? Addictive Behaviors,2020(103):1022-1034.
[4] CNNIC. 第43次CNNIC中國互聯網報告發布[J].? 中國廣播, 2019,18(4):14-16.
[5] 李綱,巴志超. 共詞分析過程中的若干問題研究[J]. 中國圖書館學報,2017,43(4):93-113.
[6] 郝楠,馮晶,高媛. 基于模糊綜合評價的網絡輿情預警方法研究[J]. 重慶理工大學學報,2019,33(8):227-236.
[7] 連芷萱,蘭月新,夏一雪,等. 面向大數據的網絡輿情多維動態分類與預測模型研究[J]. 情報雜志,2018,37(5):123-140.
[8] 劉建準,唐霈雯,石密,等. 突發事件應急管理中情報介入與融合模型研究[J]. 圖書情報工作,2019,63(18):78-86.
[9] 次雨桐,李陽,李綱. 應急決策活動中的情報監督問題思考[J]. 情報雜志,2017,36(12):45-51.
[10] 葉利明. 淺議新媒體環境下群體性事件中的信息傳播[J]. 新聞世界,2014,13(3):186-187.
[11] 高航,丁榮貴. 政府重大投資項目輿情風險預警指標體系研究[J]. 圖書館論壇,2014,34(7):28-33.
[12] 張芳,薛歡義,白鳳嶺,等. 阜新市農產品物流配送中心選址問題研究[J]. 遼寧工程技術大學學報(社會科學版),2017,19(4):412-418.
[13] WEI H L,LI T W,FAN M B,et al. Efficiency evaluation of DVL based on AHP and fuzzy integrated estimation[J]. Ship Elec tronic Eng ineering,2010(30):921-930.
[14] 王宏志. 大數據分析原理與實踐[M]. 北京:機械工業出版社,2017.
[15] YE J,LI D? H .? Improvement and application of decision tree C4.5 algorithm[P].? DEStech Transactions on Computer Science and Engineering,2018.
[16] 張麗麗,呂靖. 基于決策樹的水上交通事故影響因素耦合分析[J]. 上海海事大學學報,2018,39(4):63-69.
[17] 孫軼軒,邵春福,趙丹,等. 交通事故嚴重程度C5.0決策樹預測模型[J]. 長安大學學報,2014,34(5):109-116.
[18] 程華,李艷梅,羅謙,等. 基于決策樹方法的到港航班延誤預測問題研究[J]. 系統工程理論與實踐,2014,13(34):239-247.
[19] 周楊.? 決策支持系統在物聯網自動售貨機上的應用研究[D]. 哈爾濱:哈爾濱工程大學,2018.
[20] 呼雨,陳新杰,蘭月新,等. 網絡輿情監測及預警指標體系研究綜述[J]. 情報探索,2012,11(11):7-10.
[21] 張鵬,李昊青,蘭月新,等. 基于BP神經網絡的突發事件網絡謠言危機預警[J]. 電子政務,2016,15(11):40-47.
(責任編輯:杜能鋼)