張馨怡,張正霞,閆遠芳,閆曉美
(1.山西省地震局,山西 太原 030021;2.太原大陸裂谷動力學國家野外科學觀測研究站,山西 太原 030025)
地震謠言事件一般指由地震謠言信息的傳播、擴散而引發的人群聚集、社會恐慌事件,會造成社會秩序混亂,使公眾態度、行為失范,經濟生產停滯等一系列消極后果,尤其是在地震發生后一段時間內,地震謠言呈爆發式增長。隨著移動智能設備及移動互聯網技術的快速發展,各種地震不良言論散布快速且廣泛[1]。因此,如何高效地識別網絡上千變萬化的地震謠言,解決在新媒體時代下其傳播快、廣的問題,做好群眾維穩和防震減災宣傳工作,亟須研究一種新的解決方案。
通過對歷年來我國發生影響較大的地震謠言事件進行分析、歸納后發現,大多數謠言是以“移花接木”的方式通過變換地震信息的地名、時間、數據等內容重復出現,使用大量的真實地震事件、地點的材料通過圖片拼湊、視頻剪輯連接到一起,使得謠言在大眾媒體和人與人之間進行迅速傳播。根據這一特性,可利用網絡爬蟲技術對這些地震謠言進行爬取,并將各類謠言進行分類,形成謠言數據庫,面向公眾提供謠言信息查詢推送平臺,通過各種媒介平臺進行信息公開,使公眾更加理性看待地震時傳播的信息,不僅有助于平息謠言,還能建立良好的媒體形象[2]。
地震謠言的產生有其特定的社會原因和心理原因,下面從產生地震謠言的客觀原因方面對地震謠言進行分類。通過分類有利于后期盡可能豐富常用的關鍵詞,不斷優化檢索的主題詞及常用搭配語句,以便獲取和判斷謠言信息的源頭[3]。
(1) 片面理解特殊時段的地震監測、震災預防、地震應急工作產生的謠言。
當遇到各級政府及企事業單位制定破壞性地震應急預案,相關單位開展防震減災知識宣傳活動等時,被公眾誤認為即將發生破壞性地震,造成缺乏地震知識的公眾以自己的主觀理解傳播扭曲后的信息,最終導致大規模的地震謠傳發生。
(2) 非正常渠道獲取地震預測意見引發的謠言。
相關人員個人的地震預測意見,地震震情會商形成的地震預報意見,或地震預報意見的評審結果被擅自向社會散布,使部分公眾對網絡上地震專業人士的言論深信不疑,或有“寧可信其有,不可信其無”心態的網民對信息進行加工化傳播,使其更具蠱惑性,從而產生地震謠言。
(3) 各種前兆異常引發的謠言。
由于群眾對地球物理異常現象的片面解讀,把洪水、干旱、地面沉陷、隆起、地裂縫等自然現象和動物異常當作破壞性地震發生的前兆,認為這些現象和地震有某種必然聯系,并巧妙地把以往在地震中出現的前兆異常聯想到一起,消解了謠言的荒謬性使其更趨于合理,導致社會公眾的普遍恐慌,助長了謠言的迅速傳播。
(4) 異地或海外的預測、預報意見引發的地震謠言。
由于公眾對地震成因、機理的科學認知不到位及對政府的不信任感,使其盲目相信異地或海外的預測預報意見,主動成為謠言的傳播者。
(5) 利用封建迷信或其他原因編造地震謠言。
以“消息靈通人士”為幌子,這種地震謠言制造者并不是出于恐震心理,而是別有用心,如被封建迷信所驅使,或有其他社會背景因素。
通過分析網絡謠言的特點,可以得出,謠言傳播一方面具有非線性特征,其傳播過程包含爆發期和變種期,謠言的內容和受眾在傳播過程中不斷發生變化,線性模型難以對其進行衡量;另一方面謠言內容長短不一,辨識模型的獲取結果很大程度上取決于提取的特征值。提取可以代表謠言文本的關鍵特征值至關重要,具體而言,一個謠言的關鍵性因素包含非理性和非客觀用詞。例如,容易引起公共突發事件的謠言通常包含有煽動性和強烈感情色彩的詞語,這是識別的關鍵。因此,需要在文本特征提取和非線性辨識模型上進行針對性設計[4]。
應用網絡謠言智能辨識模型開展網絡辟謠是謠言甄別的關鍵環節,現階段,人工智能技術如決策樹、隨機森林、神經網絡、SVM、貝葉斯網絡等已廣泛應用,具備自主學習的數據特征并基于所學模型進行自主辨識的能力。其中,BP神經網絡是一種模擬人腦邏輯思考的連接模型,它基于數以萬計的神經元節點(是否連接和連接權值)實現信息的傳遞,形成非線性的實時并行處理系統。具有非線性標準能力強、自主學習效率高、模型布局維護難度小等優勢,是實現網絡謠言智能辨識的首選。
辨識模型對網絡平臺進行實時監測,需要具備網絡數據的自動抓取能力。網絡爬蟲技術是一種通過關鍵詞、敏感詞獲取網絡數據的方法。通常可預先設置謠言關鍵詞匯(例如地震謠言可以是地震關鍵詞、發生時間、地點等),在初始種子和主題確立后,爬蟲技術通過文本爬行、頁面分析、相關度計算、數據過濾、相關度評價和調度排序等方式對網絡數據進行篩選,獲取相關的網絡數據。主題爬蟲技術具有比通用搜索引擎更高的信息獲取效率,極大地釋放了爬取時間和存儲空間。現階段,主題爬蟲技術的研究成果已在地震宏觀異常研究、公安刑偵辦案的網絡輿情監控領域發揮著重要作用。
目前,機器學習方法已能輔助進行較好的網絡數據篩選,提高網絡地震謠言識別的效率。基于人工智能技術,采集地震謠言信息的方法流程主要包括以下三方面。
網絡謠言的鑒別屬于文本內容識別領域,文本關鍵詞是否包含敏感詞匯,發布時間、地點判斷是否與實際情況一致等都可作為重要的甄別依據。以地震謠言為例,地震謠言通常發表在論壇、微博、微信等自媒體平臺,建立地震謠言數據集要,選取與其相關的關鍵詞來描述地震主題。主題詞的確定尤為關鍵,主題關鍵詞的變化通常會影響謠言信息的獲取和辨識,在選取主題詞時,通常是結合專家意見和特征提取兩種方式,可分為上級、政府、專家、地震局、預測、意見、發布等官方用語;7級、8級等衡量指標;青蛙、蛇、池塘、暴雨、大風、地光等關聯現象;常見的地震帶、斷裂帶等專業詞匯。在不影響檢索效率和檢索精度的前提下,盡可能選取常用的詞匯。
地震謠言的辨識模型包括樣本庫構建、特征提取和模型學習等環節。其流程包括:通過人工挑選的形式建立謠言(正樣本)和非謠言樣本庫(負樣本);然后采取自然語言技術進行特征轉換和提取,將文本形式變換成特征數據的描述形式;最后再輸入到合適的辨識模型進行學習。在構造樣本庫環節,通常將謠言樣本標注為1,將非謠言樣本標注為0;從文本到特征數據的轉換通常采用One-Hot編碼格式;機器學習模型可采用SVM支持向量機、KNN近鄰分類器、BP神經網絡、貝葉斯網絡等。
地震謠言辨識模型根據已有標準樣本數據,通過自學習和參數自調整方式不斷修改辨識網絡的神經元連接方式和連接權值,使其達到穩定狀態。由于地震消息的復雜性和實時動態變化性,地震謠言辨識模型是一個長期學習的過程,需要不斷的更新迭代樣本集,用辨識出錯的樣本案例對模型進行修正,最終輸出穩定性高的謠言甄別概率。
利用網絡爬蟲技術實時監測搜索引擎、新聞門戶、論壇、微博、微信、博客的數據內容,在輿情系統應用領域發揮著重要的作用。通常,可將網絡爬蟲技術理解為使用某種語言(通常選用Python)按照一定規則(主題詞、敏感詞)主動從互聯網抓取特定信息的程序或腳本。基于Python的網絡爬蟲實現原理大概包括如下兩個步驟。
(1) 數據平臺。
主要針對目標地區的論壇、微博、微信等自媒體平臺。
(2) 數據采集。
通過Python網絡模塊(URLIB2、HTTPLIB、Requests)模擬用戶瀏覽器向服務器正常發送HTTP請求,服務器在正常接受、解析和響應用戶請求后會反饋相關數據,用戶主機此時要基于Python過濾模塊(LXML、HTML、RE)解析出所需內容。
(3) 數據預處理。
通過文本去重、短語去重及語義過濾等預處理方法對爬取的數據進行去重處理,為輿情分析準備好數據。
(4) 數據建模。
將爬取的信息進行分類,標注每類信息的背景、時間、關鍵詞等形成謠言樣本庫。
采用Python模塊化編程技術、編寫文字、匹配圖片、視頻信息并利用HTML5技術,實現無需安裝、跨平臺使用。借助微信、微博、官方網頁等接口為公眾提供網絡謠言信息查詢平臺。
因對地震本身的恐懼或是惡意制造導致的地震謠言,不僅給社會發展帶來危害,對人類的發展、生存也將帶來不良影響。因此,通過技術手段爬取地震謠言,并將其進行分類,建立謠言數據庫,面向公眾提供謠言信息查詢推送平臺,通過各種媒介平臺進行信息公開,
有利于嚴格把控虛擬空間內地震謠言的產生和發展動態,提高公眾了解各類謠言套路后的鑒別能力,使公眾更加理性看待日常生活中所傳播的地震謠言信息,對地震造成破壞的危害性和可能性產生客觀、理性的認識,增強社會公眾的防震減災意識,有效防控地震謠言。