王敬泉,王 凱
(河北省第二測繪院,河北 石家莊 050000)
目前政府鼓勵人民通過網絡參與國家大事討論,但是由于網民數量大且互聯網具有的開放性、實時性等原因,導致突發事件爆發后能夠迅速經由社交媒體網絡平臺傳播、發酵,構成網絡輿情,容易造成輿論危機。因此,如何迅速地了解網絡輿情信息、掌控網絡輿情態勢,迅速處理輿論危機,已成為政府部門眼下亟待解決的關鍵性需求。
在大數據時代,社交數據挖掘成為一種從大量數據中提取隱藏信息并將非結構化數據轉化成一種可以理解的結構化數據進行研究的常見方法[1],通過對采集到的社交媒體網絡數據進一步挖掘來獲取公眾輿論傳播模式。當一個地區發生惡性社會安全事故時,消息經由社交媒體迅速地傳遍網絡世界,隨之而來的大量討論也會出現在大型的社交媒體上面,如微博、QQ空間及微信等。社交媒體為用戶提供了針對各類事件表達個人觀點和意見的平臺,社交媒體數據成為獲取公眾輿論的重要來源。
在中國,微博有著龐大的用戶群體,在2015年第三季度報告中,其每月平均活躍用戶數量已經達到了2.22億[2]。目前很多研究只是專注于微博中虛擬人際關系,對于消息傳播與現實地理世界聯系研究并不多,本文主要是將網絡輿情的傳播與地理信息的時空關系相聯系[3],將用戶間的虛擬網絡聯系通過可視化的方式映射到現實地理空間中,探究基于可視化基礎上的網絡輿情傳播的空間分布規律。為了達到這一目標,利用微博的API接口獲取昆山工廠爆炸事故數據并進行挖掘。地理分析的方法應用到事故相關的網絡輿情空間分布分析中,最后利用統計分析挖掘用戶發布內容與空間分布的關系,探究網絡輿情傳播的可視化結果。
本文選取的試驗實例是發生在2014年8月2日江蘇省蘇州市昆山市昆山經濟技術開發區的昆山中榮金屬制品有限公司拋光二車間的特別重大鋁粉塵爆炸事故,最終共有97人死亡、163人受傷。該事件屬于涉及公共安全的突發事件[4],并且在2014年國內重大網絡輿情事件排名第八,引起的新聞量有515 000條,與之相關的微博量高達82萬條,很具有代表性。
數據采集時,首先通過微博開放的API接口[5],利用代碼收集并存入數據庫中;然后利用查詢來提取并過濾數據;最后用GIS技術進行地理空間的可視化表達。為了研究數據是否為隨機分布,采用平均最近鄰分析,如果結果是集群分布的,說明在一些地區存在熱點。隨后利用熱點分析來發現集群區域,接著使用回歸分析尋找輿情發生地與事件不同關注度的空間距離關系,用來探究輿情傳播的規律。
利用微博平臺的API接口獲取相關數據,每小時平均收集到用戶實時發布的消息記錄可以達到9000多條[5]。采集到的記錄包括以下信息:用戶ID、微博名稱、微博消息、省、城市、性別和創建時間7個方面的信息,采集的數據存入本地數據庫中。本次選用的是非關系型數據庫——MongoDB,其強大的查詢和管理功能能夠滿足試驗需求。獲取的數據具有詳細地理位置坐標信息的數據只占整體數據的很小一部分,應用到研究中樣本總體數量過少。因此,將數據中可獲取到的省市信息作為用戶的地理位置信息,來增加試驗的樣本整體數量,以減少試驗個體性和隨機性。
將采集的數據利用關鍵詞查詢來提取相關記錄。本次研究我們關鍵詞選取“昆山”“工廠”“爆炸”中的兩個或三個來查詢收集,其中“昆山”與“爆炸”作為最高優先級,得到記錄后進行噪音處理,將存在地理位置信息模糊、錯誤或者記錄重復等方面問題的記錄數據進行篩除,利用剩下關聯性強的記錄進行整理后準備進一步的處理。最終獲取2014年8月2日至8月8日期間用于本次研究的總共4462條獨特的微博記錄。圖1是樣本數據的數量時間變化折線圖。
處理具有位置信息的記錄時直接采用轉化后的經緯度信息,若沒有具體位置信息,則使用記錄所屬用戶的注冊信息中對應位置的經緯度作為對應記錄的地理位置信息。由于絕大多數人日常生活的活動范圍有限,因此利用用戶微博的城市屬性的地理坐標作為位置信息并被隨機標記進城市區域。相對于整體樣本數據的空間覆蓋大于3000 km2的事實,隨機分布的誤差可以被忽略。圖2是利用數據本身或被賦予的位置信息進行地圖分布可視化的結果。
平均最近鄰分析是一種用來找出分析對象分布模式是集中還是分散的有效工具。該分析可以測量每個要素的質心與其最近鄰要素的質心位置之間的距離[6],然后計算所有這些最近鄰距離的平均值。如果小于假設隨機的距離值,則表明所分析的要素點是聚類分布的; 反之即為分散分布[6]。
該方法返回值5個:平均觀測距離、預期平均距離、最近鄰比率、Z得分和P值。如果比率大于1.0,那么這些點發的分布被認為是分散的;反之,則被認為是集群的。Z得分是標準差的倍數,描述的是最鄰近的重要性。P值是概率,表示所觀測到的空間波形是由某一隨機過程創建而成的概率,只有P值低于0.05才被認為數據具有統計學意義。
通過表1每個結果的最近鄰比率小于1.0,P值小于0.05并且有很小的Z得分,這就表明觀測的空間模式不可能反映零假設所表示的理論上的隨機性,因此可知這些維持高關注度的事件數據分布具有統計學意義,并且明顯存在熱點。

表1 8月2日事發至8月8日上午7點微博分布集群平均最近鄰分析結果
熱點分析通過對數據集的每個記錄計算其統計結果來找出具有更高或更低值的要素集群空間位置。統計學具有顯著意義的熱點不僅本身具有高值,同時也要有被其他具有高值的要素包圍的特征。熱點分析需要將每個要素與所預期的局部總和相比具有更大的差距時,這些要素被認為無法有隨機分布產生,進而被確認具有熱點特征[7]。
為了發現地圖上的熱點區域,將與事件相關的記錄數據點通過映射方式,使其屬性投射到格網上進行分析,首先將地圖上利用1600個被創建的格網來分割成單獨的地圖瓦片;然后以每個瓦片作為一個多邊形要素,計算落入格網中點的數量作為瓦片的數量屬性;最后,根據具有數量屬性的多邊形地圖瓦片進行熱點分析(如圖3所示)。
圖4是“8.2昆山工廠爆炸”事件發生后6天中每天與事件相關的微博消息數據圖上分布可視化與熱點分析結果展示圖。4(a)是事故發生后24 h內收集的相關微博數據的圖上分布。可以發現新聞在本地快速傳播擴散,并在附近分布最為密集,然后與本地關注度處于同一級別的是北京和廣州;接下來幾天新聞消息再進一步擴散并在全國各地都引起了關注,與第一天事故發生地有著同樣的熱點等級的地區出現在河北省、廣東省、山東省和河南省等地區;隨著時間推移進入第五天,分布規律變化不大,但是熱點等級低于之前幾天一個等級,這標志著突發事件進入緩解期[8],同時網絡輿情也進入相對緩和的階段;最后一天的數據分布可以發現數量減少很多,熱點區域也主要集中在北京和廣州以及事發地附近。為了進一步挖掘更多的關于該事件網絡輿情的擴散模式,下一步會對整體的數據采用回歸分析進行分析處理。
回歸分析是一種確定兩種或兩種以上估計變量間相互依賴的定量關系的傳統統計分析方法,能夠幫助了解因變量變化時,其對應的獨立變量變化的特點。對上面的數據進行回歸分析,可以得到兩個返回值:顯著性和皮爾遜相關系數。獲得的顯著性值小于0.05時才會被認為具有統計學意義。在這個前提下,皮爾遜相關系數越接近±1.0意味著兩個變量之間的相關性就越高。
本次事件中,各地到事發地的歐氏距離被設定為一個探索性變量。計算圖5中含有數量屬性的地圖瓦片集合中心到事發地的歐氏距離。然后,每個瓦片網格的數量屬性和到事發地的歐氏距離被設為因變量和自變量來完成線性回歸分析。
從圖5(a)可以明顯看出,當距離在300 km范圍內顯著性值大于0.05,300~800 km范圍內的顯著性值小于0.05,即該范圍內數據分布的差異并不是巧合,具有統計學意義的,可以經由這個樣本數據的差異推論至其他事件。
圖5(b)所示的是在熱點位置與事發地點距離發生變化時,與事件相關的微博數據量同距離變化的相關性??傮w來說都是負相關的,隨距離增加,數據數逐漸減少。而在低于200 km的范圍內皮爾遜相關系數值與其他截然不同,其顯著性值也遠遠高于0.05,并不具有代表性的統計學意義,原因是:處于事故發生地,數據具有獨特性。
將圖5(a)與圖6結合起來可以發現,在低于300 km范圍內即圖6中小圈內,每個地圖瓦片的微博記錄數量與事件發生地的距離沒有相關性。數據量大的原因是距離事發地近,附近的人對身邊惡性社會安全事件關注度極高;距離在300~800 km時,圖5(b)顯示了兩個變量間中等級別的負相關性;距離達到800~1200 km時,相關性逐漸消失。主要原因是:該距離內兩個熱點區域被添加進來并且影響關聯性。這兩個熱點區域位于中國兩個特大城市:北京和廣州;這兩個城市盡管遠離昆山,但也在事故發生后幾天內對事故保持一個較高的關注度。當距離達到1200 km時顯著值增加到0.130 5(遠大于0.05),且皮爾遜相關系數向0值靠攏,可以推斷兩個變量間的關聯關系逐漸消失。
該結果顯示,公眾對于熱點新聞的關注度在一定程度上受到距事故發生地點的距離影響;同時在大城市的集中度不太可能受到距離的影響,因此突發事件產生的網絡輿情分布也與事件關注度有著同樣規律。
本文探討了在微博中公眾對突發事件產生的輿情的傳播模式。通過數據挖掘分析地域差別下突發事件網絡輿情傳播的空間分布可視化。與之前專注于虛擬用戶之間關系的研究不同,本文將自然地理空間加入考慮范圍并使用GIS技術來進行可視化內容,同時為了挖掘有關傳播規律,利用統計學來分析驗證結論。
在空間維度上,有公眾關注度的突發事件網絡輿情的分布與事故發生地的距離存在負相關關系。距離事件位置近的人們展現了對事故更高的關注度,同時這種關注度會隨著距離的增加而減小。當距離達到一定閾值時,關聯性消失。其中一個可能的原因是,人們住在像北京和廣州這種級別的大城市也顯示了對事件更高的關注度。這種突發事件的網絡輿情的分布和傳播模式可以發行并為公眾輿論監督提供信息,同時當災害發生時可以幫助進行態勢感知。即使本研究使用的數據只占采集的全部數據中的一小部分,但發現的規律也可以在其他事故中證實,接下來的工作將會用更多的數據進行試驗并驗證這一發現。