趙學志,肖 爽,程顯洲
(上海市地震局,上海200062;上海佘山地球物理國家野外科學觀測研究站,上海200062)
發生地震災害后,如何準確高效地獲取災情信息是政府和應急管理部門一直研究的課題[1]。隨著科技的發展和互聯網的普及,利用震后互聯網上輿情數據對災情信息快速感知和有感范圍的快速獲得提供新的思路和途徑。
根據中國互聯網信息中心發布的第47次《中國互聯網絡發展狀況統計報告》,截至2020年12月,中國的網民規模達9.89億,網民使用手機上網的比例達99.7%。從統計的數據中可以看出,互聯網的發展正在改變人們的生活習慣。網民個體更愿意借助網絡購物、網上外賣等方式解決生活所需,也更傾向于通過社交平臺表達自己的想法、情感、狀態與訴求。尤其是在重特大突發事件后,在中心輻射范圍內,會有大量受影響的民眾在社交平臺上發布和災情有關信息。往往這些輿情信息能夠快速直觀地反映出災區的真實情況。因此在地震災害發生后,能夠快速收集和處理大量的網民在社交平臺上發布與地震相關的信息,對于政府和應急管理部門應急指揮以及輿情監控有著重要的意義。
在地震輿情數據分析處理方面,很多國內專家學者已經做了大量研究。2015年,褚俊秀等[2]建立了位置微博地震災情抓取框架,實現微博地震災情的提取與展示;2016年張方浩等[3]根據中國地震烈度表和地震現場工作調查規范,將微博特征詞庫和地震災情速判指標進行關聯匹配,建立了微博信息分類指標體系;2017年,曹彥波等[4-5]調用新浪微博APⅠ,通過對微博數據清洗挖掘,分析微博災情時空演變特征以及災區民眾的情感。2017年至今,多位專家學者[6-8]利用地震輿情數據對四川九寨溝7.0級地震、云南通海5.0級地震和新疆伽師6.4級地震等地震事件進行了分析研究,研究成果在地震應急工作中得到了很好的應用。
設計建立一套基于微博輿情數據的地震有感范圍自動成圖系統,完成震后對微博輿情數據的自動收集、處理和可視化展示功能。
1.2.1 輿情信息數據的獲取
面對震后海量的微博輿情信息,為提高信息收集的效率和準確性,需要通過自動化的方式進行收集[9]。由于微博建立的反爬機制,通過傳統網絡爬蟲技術,無法確保收集到信息的全面性和系統的穩定性,需要借助微博開放平臺的商業APⅠ接口,才能高效穩定地獲取帶有地理信息位置的微博輿情信息數據[2]。
1.2.2 輿情信息的預處理
對于收集到的數據,由于內容表達方式的隨意性、復雜性和個體感受不一致性,需要對數據進行自動分析清洗,并剔除一些與地震災害事件無關條目。再對進行過預處理的信息數據與相應的規則對應進行分級賦值,存入地震輿情數據庫。
1.2.3 建立輿情信息數據庫
通過數據庫的建設,分類存儲微博輿情數據。可在未來的研究中,對地震輿情的時空變化規律、情緒變化分析進行進一步研究,也可以針對單個地震事件進行更加細致的研究。同時可以作為輿情信息共享平臺,方便為其他協作部門提供地震輿情信息。
1.2.4 自動成圖
由于獲取到的輿情數據均為離散分布的位置點,需要通過地理信息系統的空間插值方法建立有聯系性的連續分布,形成的震后有感范圍圖需在系統中展示。
1.2.5 人工干預
由于信息表達方式的隨意性,分類和賦值的準確性無法完全保證,需要建立人工復核機制和功能,干預系統自動產出的結果。
當發生地震后,根據地震的發震時間、震中、震級,通過調用微博開放平臺APⅠ接口獲取微博的內容,包括文本、發布時間、圖片、視頻、經緯度信息等,并對數據進行清洗去重、識別分類,存入輿情數據庫中,再從輿情數據庫與特征詞庫進行比對,根據《中國地震烈度表》和《地震現場工作調查規范》,建立地震災情速判指標進行分級賦值,建立空間和屬性關聯。最后通過空間插值將離散分布的坐標點轉換為連續分布的有感范圍自動化產出。系統框架如圖1所示。

圖1 系統框架圖
由于獲取到的微博內容隨意性較強,口語化程度高,人口判讀工作量巨大,為提高數據處理效率和準確率,系統需要提供對原始微博數據自動解析、去重、清洗、過濾的數據分析處理功能,支持根據關鍵詞庫自動提取與地震災情相關的特征詞進行比對,對微博數據進行分級賦值[10],如表1所示。同時需提供人工復核解譯、手動重分類的功能。

表1 關鍵詞對應分級賦值參考表(部分)
由于微博輿情信息為民眾的主觀感受,由于個體對地震的感受不一,描述的信息也不一致。為使有感范圍空間數據更加接近實際,需要對離散的分布點進行空間插值。常見的空間插值方法有反距離加權插值法(ⅠDW)、克里金插值法(Kriging)、核密度算法、自然鄰點插值方法(Natural NeighborⅠnterpolation)等,本系統根據既往研究,設計采用反距離加權插值法(ⅠDW)、克里金插值法(Kriging)和核密度算法這3種主要的空間插值算法。
微博數據的空間可視化表達是實現分析災情時空演變規律的基礎,震后獲取到的微博災情數據往往在地理上是分布不規則的離散數據,為了能夠更加清楚、直觀地了解地震災情時空分布特征,系統需要提供數據可視化功能,支持清洗后的微博數據點生成空間插值面并在地圖上進行展示[11-12]。
該模塊可以實現地震事件和歷史地震的微博輿情數據的瀏覽查看、數據分析處理和可視化展示功能。可以通過輸入地震名稱或地震震級進行篩選查詢,同時也能進行地震定位、原始微博詳情查看、清洗后的輿情微博詳情查看和可視化展示操作,如圖2所示。在“原始微博詳情頁面”中,可以對原始微博詳情進行瀏覽查看。該功能模塊提供了“微博數據導入”功能,可以將獲取到新的微博數據導入到系統中進行處理查看,如圖3所示。

圖2 系統界面

圖3 原始微博詳情查看
提供了“一鍵清洗”功能,點擊后系統將自動進行微博數據的解析、去重、清洗、過濾、關鍵詞提取等后臺操作,清洗完成后的數據可以在“輿情微博詳情”界面進行查看,如圖4所示。

圖4 手工清洗操作
經過“一鍵清洗”后,有些輿情信息依舊不能被系統識別分類,為了增加產出結果的準確性,支持人工對微博增加“手工清洗”功能,對數據進行人工復核判別和關鍵詞分類、賦值,如圖5所示。

圖5 輿情微博詳情查看
系統提供3種空間插值方式進行插值計算以實現可視化展示:普通克里金插值、反距離加權插值(Ⅰnverse Distance Weighting,簡稱ⅠDW)和核密度插值[13],如圖6所示。可以使用系統默認的插值方法和參數進行插值計算,也可以手動選擇空間插值方法并調整相關參數進行地圖可視化效果瀏覽,如圖7所示。

圖6 可視化展示方法和參數設置

圖7 3種插值效果展示
該模塊可以實現關鍵詞庫的瀏覽查看和管理維護功能[14]。通過下拉菜單,選擇想要查詢的關鍵詞類別進行篩選查詢,如圖8所示,同時也能進行關鍵詞的新增和刪除操作。同一個類別下可以添加多個關鍵詞,當關鍵詞類別中沒有想要的選項時,可以自己輸入添加類別[15],如圖9所示。

圖8 查詢條件

圖9 關鍵詞新增
本系統設計開發完成為獲得地震災害有感范圍的提供了新的實現途徑,但本系統在未來的使用中還需繼續完善。輿情信息分類的特征關鍵詞庫根據實際情況還需要進一步研究和擴充,產出的結果還需和真實有感范圍進行比對,提高系統產出的準確率。
在今后實際應用過程中,可將儀器烈度、地震災害評估系統以及人口熱力數據相結合,能更好地服務地震應急工作,為政府和應急管理部門決策提供有力的幫助。在研究方向上,可以向其他災種研究進行延伸,例如爆炸和化學品泄漏等事故災害,以實現中國應急管理的“多災眾”和“大應急”的綜合防災減災救災理念。