李藍汐
摘 要:文章分別運用BP神經網絡模型和分形插值模型對水污染微博數量的年變化過程和一次事件的變化過程進行預測研究,分析和比較兩種方法的適用性。研究表明,BP神經網絡模型預測全年輿情變化的精度高于分形插值模型,而分形插值模型預測一次輿情過程的精度高于BP神經網絡模型,在微博輿情預測上各有優劣。分形插值模型的輿情預測結果具有預測誤差率較小、預測結果偏低和預測后一個時間點數值的準確率比預測長期輿情規律要準確的特性,適用于預測突發隨機事件的輿情。
關鍵詞:輿情;微博;預測;BP神經網絡;分形插值
1 研究背景
預測是指在對預測對象的過去和現在進行相應調查和分析之后,找出對象發展變化的實質,根據找出的實質來預測對象將來的發展變化情況[1]。預測分析是在對事物未來科學分析的基礎上,對事物發展和變化的規律性的調查和研究[2]。
輿情預測的研究可以分為兩大類:一類是以數理統計和微積分等傳統的數學物理方法為基礎的預測模型,如:微分方程模型、時間序列模型、參數回歸模型;另一類是基于智能機器學習算法的預測模型,如:灰色理論模型、支持向量機模型、神經網絡模型、馬爾科夫模型,這些方法各有優缺點。
1986年Barnsley 基于自相似性原理和迭代函數系理論提出了分形插值方法,適合于具有分形特征的曲線、曲面或非平穩數據的擬合,為函數逼近理論和計算機圖形學提供了新思想、新工具,已廣泛應用于自然科學、社會科學和工程技術的眾多領域。
本文以水污染網絡輿情(微博數量)為研究對象,運用分形插值模型和BP神經網絡模型對水污染微博數量的年變化過程和一次事件的變化過程進行預測研究,分析比較兩種方法的適用性。
2 水污染微博輿情預測方法與功能
2.1 水污染微博輿情預測方法概述
考慮到水污染微博輿情既有日常的話題討論,又有水污染事件發生時的微博輿情突然增大到減少的過程,因此選擇具有學習訓練能力的BP神經網絡模型和具有擬合非線性、不光滑、非平穩過程的分形插值模型。
BP神經網絡模型通過數據訓練,即確定兩組數組:一組為輸入數組,一組為輸出數組。當輸入某一數組后,對數據進行反復迭代使輸出的結果與既定輸出數組值接近,以確定各神經節點的權重,并根據該神經神經網絡模型預測未來的數據。如以2015年的水污染微博輿情時間分布變化為輸入數組,2016年的水污染微博輿情時間分布變化為輸出數組,反復進行迭代以確定神經節點的權重。確定權重后可根據該神經網絡模型,預測其他時間段的微博輿情時間變化分布。其優勢體現在方法成熟,非線性擬合能力良好,目前BP神經網絡是輿情預測技術中最為常見的技術,已有現有研究證明,BP神經網絡模型與其他的時間序列模型、微分方程模型相比具有更好的穩定性和優越性。
分形插值是分形幾何理論及其應用研究中的一個重要內容,它能很好地刻畫現實中存在的復雜的曲線或曲面[3]。由于分形插值函數具有很強的靈活性和穩定性[4],只要適當調整其參數,所形成的插值曲線的維數就能取到1和2之間的任意值,因此它既可以擬合光滑曲線和平穩數據,更是在不光滑曲線和非平穩數據的擬合中顯示出獨特的優勢。此外,利用分形插值的外延特性,即可以根據過去的規律預測未來時間點的數值。
3 水污染微博輿情時間變化預測的比較
微博作為網民高活躍度、信息高透明化的平臺,對日常輿情和突發輿情反應敏感,本文以2015年1月1日至2017年12月31日微博平臺上涉及的“水污染”輿情的微博數量隨時間變化作為研究對象,分別采用BP神經網絡模型和分形插值方法進行實驗和預測研究。
為了比較兩種預測模型對水污染微博輿情時間變化的預測精度,分別對1年和一次事件(10天左右)的預測結果進行比較分析。
3.1 一年微博輿情過程預測比較
采用BP神經網絡模型和分形插值模型對2017年每日微博數預測與實際值比較如圖1所示。仍采用計算值與實際值之差的絕對值作為誤差,對累計誤差平均值進行統計,得BP神經網絡模型的累積平均誤差為49,分形插值模型的累積平均誤差為52。由此可見,對于一年這樣長時間的水污染微博輿情預測,BP神經網絡模型經過2015和2016年兩年的數據訓練,其預測值與實際值的累積平均誤差小于分形插值模型;但從圖形上看,BP神經網絡模型對峰值的預測能力不如分形插值模型,不過由于分形插值法預測的微博峰值與實際峰值之間存在著相位差,因此統計的累積誤差還是比BP神經網絡模型大。
3.2 一次微博輿情過程預測比較
一次微博輿情從開始增加-到達峰值-然后下降的整個發展過程也是十分關心的問題。從2017年微博數變化可以看出,單日微博數超過500條的有4次,即2017年1月6日、6月3日、8月 15日和9月7日,下面分別針對其中3個高微博數輿情過程,比較兩種模型的預測結果,預測時所用方法和參數均與一年微博輿情過程預測相同。
3.2.1 事件一
2017年1月1日至13日是由柴靜霧霾調查引發的一次水污染話題微博突然增加的過程,在13天里共有微博2077條,每日平均約159.8條,單日最少微博數49條,單日最多538條(1月6日)(見圖2)。從BP神經網絡模型和分形插值模型的預測結果(見圖3)看,兩個模型預測的峰值都比實際發生時間滯后1天,且都沒有達到實際的峰值,相對而言,分形插值模型預測的峰值比BP神經網絡模型要高一點;分形插值模型預測的日最小微博數也與實際值更接近,但分形插值模型預測的日平均微博數不如BP神經網絡模型與實際值接近;BP神經網絡模型和分形插值模型預測的總微博數均較實際值小10%和20%。具體特征值比較如表1所示。
3.2.2 事件二

2017年6月1日至9日是由兒童飲用水引發的關于水污染話題微博突增的過程,9天內共有微博1 550條,每日平均約172.2條,單日最少微博48條,單日最多687條(6月3日)。從BP神經網絡模型和分形插值模型預測的結果看,分形插值模型預測的峰值比實際發生時間滯后1天、峰值達到實際的58%、日最少微博數也與實際值相同;BP神經網絡模型沒有預測出峰值,日均微博數與分形插值模型預測值接近,但都小于實際值。BP神經網絡模型和分形插值模型預測的總微博數較實際值分別小36.8%和32%。具體特征值比較如表2所示。
3.2.3 事件三
2017年8月12日至20日是由雄安新區治理水污染政策發布引發的關于水污染話題微博突增的過程,9天里共有微博2376條,每日平均約264條,單日最少微博105條,單日最多947條(8月15日)。從BP神經網絡模型和分形插值模型預測的結果看,BP神經網絡模型和分形插值模型預測的峰值均比實際發生時間滯后1天,兩者預測的峰值分別是實際峰值的32%和62.3%;分形插值模型預測的日最小微博數小于實際值、但大于BP神經網絡模型的預測值;BP神經網絡模型預測的日均微博數與實際值接近,分形插值模型預測的日均微博數比實際值大34%;BP神經網絡模型和分形插值模型預測的總微博數較實際值分別小26.3%和14.5%。具體特征值比較如表3所示。
3.3 水污染微博輿情時空變化預測結果分析討論與啟示
3.3.1 分形插值模型預測結果的原因分析
(1)預測誤差率較小。分形插值模型因為有參數的隨機性,因而在預測不確定事件中顯示出一定的優勢,因此預測準確性較高。
(2)預測結果偏低。筆者認為原因在于預測過程中對于預測點yN+1采用了以步長ε=0.01從0到1進行逐步搜索方法,找到最小均方差對應的yB。因此在預測累計微博數的時候就會出現低于實際值的情況。


(3)預測后一個時間點數值的準確率比預測長期輿情規律要準確。由于分形插值模型的外延性特征,適用于預測后一個未知時間點的數值,但預測后若干個時間點結果精度較低。若將較長的輿情序列分成多個部分進行預測,分形插值模型的參數將有所變化,會有效提高預測結果的準確度。
3.3.2 BP神經網絡模型與分形插值模型的預測結果差異及原因分析
在水污染輿情變化預測過程中,其預測結果上BP神經網絡模型預測長時間輿情更為準確,分形插值模型預測一次微博突增的事件更為準確。
對于長時間(一年)的水污染輿情預測,BP神經網絡模型的累積平均誤差小于分形插值模型;對于一次微博數突增的事件過程,分形插值模型在每日最多微博數、微博總數和日均微博數上的平均誤差小于BP神經網絡模型。
上述預測結果差異的根本原因在于BP神經網絡模型和分形插值模型的原理不同。BP神經網絡模型是一種以數據樣本進行訓練為基礎的基于智能機器算法的預測模型,而分形插值模型預測是根據分形理論所特有的隨機性和不確定性進行預測的模型,基于傳統統計學理論。
4 結語
本文基于微博平臺,對水污染輿情進行分析并設計水污染輿情預測的實驗方案對水污染微博輿情進行預測。得到以下結論:
(1)水污染微博輿情根據時空變化特征分為一般水污染微博輿情和水污染突發事件微博輿情,以一般水污染微博輿情數量較少、波動較小,水污染突發事件微博輿情迅猛增長、波動大為特征。
(2)本文運用BP神經網絡模型和分形插值模型對水污染微博輿情時間分布進行預測。根據2015年1月1日至2016年12月31日水污染微博輿情時間分布,建立上述兩種模型預測2017年全年時間分布,并與2017年全年實測微博輿情分布情況進行比較。由于分形模型預測是基于分形理論所特有的隨機性和不確定性,在預測不確定事件中顯示出一定的優勢。通過兩種方法的對比可知,對于全年輿情,BP神經網絡模型所預測的2017年微博數比分形插值模型預測的精度要高一些;對于一次微博數量徒增的峰值預測,而分形插值模型的預測結果比BP神經網絡模型更接近實際峰值,分形插值模型預測的每日最少微博數、最多微博數和平均誤差比BP神經網絡模型更接近實際值,日平均微博數不如BP神經網絡模型的接近實際值。此外,由于分形插值理論的特性,該理論在更適用于連續的非線性曲線的預測中,因此對于大量的連續時間區間內的輿情,分形插值理論的預測方法可以得到更加連貫的預測結果。通過BP神經網絡模型和分形插值模型對水污染微博輿情時間分布的預測實驗顯示出兩種模型由于其理論不同,在微博輿情預測上各有優勢。
[參考文獻]
[1]GLYNN C J. The spiral of silence: public opinion--our social skin. by Elisabeth Noelle-Neumann University of Chicago Press[J]. Social Forces,1986(3):828-829.
[2]張華. 基于優化BP神經網絡的微博輿情預測模型研究[D].武漢:華中師范大學,2014.
[3]BARNSLEY M F. Fractal functions and interpolation[J].Constructive Approximation,1986(2):303-329.
[4]WANG H Y, YU J S. Fractal interpolation functions with variable parameters and their analytical properties[J].Journal of Approximation Theory,2013(175):1-18.
(編輯 姚 鑫)
Comparison and analysis of microblog public opinion prediction of water pollution based on type interpolation model and BP neural network model
Li Lanxi
( Business School, Hohai University , Nanjing 210000, China)
Abstract:This paper takes the quantitative characteristics of micro blog public opinion of water pollution as the research object, obtains micro blog data related to water pollution through crawler tools, uses BP neural network model and fractal interpolation model respectively to predict the annual change process of water pollution micro blog number and the change process of an event, analyzes and compares the applicability of the two methods. The research shows that the accuracy of BP neural network model is higher than that of fractal interpolation model, while the accuracy of fractal interpolation model is higher than that of BP neural network model. There are advantages and disadvantages in microblog public opinion prediction. The results of the model are low and the error rate is small, and the accuracy rate of the last time point is more accurate than that of the long-term public opinion, so it is suitable to predict the public opinion of the unexpected random events.
Key words:public opinion; microblog; prediction; BP neural network; fractal interpolation