馬占飛,江鳳月,李克見,鞏傳勝
(1.內蒙古科技大學包頭師范學院 計算機系,內蒙古 包頭 014030;2.內蒙古科技大學 信息工程學院,內蒙古 包頭 014010)
近年來,由于外界環境污染,草原環境受到了嚴重影響,特別是草原沙漠化[1]現象越來越嚴重。關于污染物預測模型的研究頗多,例如:楊陽等利用與城市空氣質量相關的10個因子,進行構建RBF神經網絡模型,結果發現RBF網絡模型學習速度快且模擬預測的準確性較高[2];王國勝等利用深圳市的大氣污染物監測濃度數據和氣象資料,分別通過BP網絡和RBF網絡建立對應的空氣質量預測模型,對SO2、NO2、PM10這3種空氣污染物的濃度進行預測,發現RBF網絡用于環境空氣污染物濃度預測有更強的適用性[3];Patricio Perez等利用前饋神經網絡對PM2.5每小時濃度進行預測,結果表明,前饋神經網絡對污染物的預測有更好的魯棒性[4];方彥將灰色預測模型和RBF神經網絡結合構建組合預測模型,既減少樣本數據中隨機性,又提高復雜非線性函數逼近能力[5];劉杰利用改進的聚類算法在北京市污染物預測的研究中驗證了預測的準確性有明顯提高[6]。由于草原環境污染物的數據比較復雜、多樣,具有非線性的特點,所以常常利用徑向基函數去擬合草原環境污染物的變化,但是傳統的RBF網絡參數泛化能力弱,且參數初值的計算容易導致預測誤差偏高。為了解決RBF參數學習不足的問題,本文將利用改進的最近鄰聚類算法和共軛梯度下降法,混合調整RBF的學習參數,構造一種更為穩定的神經網絡模型(即IRBF神經網絡模型),并與不同模型在預測誤差指標、隱含層節點數目、訓練時間等綜合性能上進行對比,這為神經網絡運用于草原污染物預測研究做一個新的探索。
徑向基函數(radial basis function,RBF)神經網絡是由Broomhead和Lowe提出的一種使用徑向基函數作為激活函數的人工神經網絡[7]。一般由輸入層、隱含層和輸出層3層構成。當用于時序逼近時,利用過去時間間隔的數據樣本作為RBF神經網絡的輸入,輸出的是目標預測值。RBF神經網絡結構模型如圖1所示。

圖1 RBF神經網絡結構模型
第一層為輸入層,主要是將輸入樣本傳輸給隱含層,它們之間權值為1。假設有N個輸入樣本Xp,則每個輸入樣本為n維列向量,即Xp=(x1p,x2p,…,xnp)T,其中p=1,2,…,N。
第二層為隱含層,計算輸入矢量與中心樣本矢量之間的歐氏距離(RBF)的值。隱含層節點的激活函數都可采用高斯函數,隱含層輸出為p個K維列向量,即hp=(h1p,h2p,…,hKp)T,其中K表示RBF神經網絡的隱含層節點,所以隱含層第l個神經元的輸出為

l=1,2,…,K
(1)

第三層為輸出層,通過連接權值對隱含層各層的輸出結果進行線性加權求和,即Yp=(y1p,y2p,…,ymp)T。輸出層第p個樣本中第j個節點的表達式如下
(2)
其中,ωjl是第l個隱含節點到第j個輸出節點的連接權值,本文研究中RBF模型的閾值將忽略不計。
在傳統RBF網絡中,大部分采用K-means聚類算法確定聚類中心。傳統的K-means聚類算法[8]是一種無導師學習的過程,根據歐氏距離來進行聚類,通過均值迭代把數據對象劃分到不同的簇中,同簇內對象的相似度比較高,不同簇間對象的相似度較小。該算法需提前得到聚類中心的數目,以及初始聚類中心,但在實際研究中這些初值我們是無法事先得到的。
通過文獻[9]提出的最近鄰聚類算法來動態調整隱含層節點的數目,這樣能減少對聚類中心初值的依賴,此算法學習時間較短,符合RBF網絡快速學習的優點,而且所得到的RBF網絡是最優的。但是此算法中取樣本輸入向量作為聚類中心,這樣不具有全局性質,會降低RBF網絡的泛化能力,所以本文算法將利用均值的思想對最近鄰聚類算法進行改進,并將聚類之后的每個類的平均值作為新的聚類中心,這樣動態地調整每個聚類中心的值,更能反映出聚類的全局信息。改進后的最近鄰聚類算法步驟如下:
步驟1確定適合的高斯函數的寬度r,定義A(l)、B(l)矢量,前者用來存放各類輸出的矢量之和,而后者是計數器,用來統計各類的樣本個數,其l為類別數;定義變量nr用來統計隱含層的節點數目。
步驟2計算輸入向量和聚類中心的最小歐式距離。

步驟3根據最小歐式距離求解最近聚類中心。
步驟4計算所有樣本的聚類中心Cl和隱含層的節點數nr。

傳統RBF學習算法利用梯度下降法優化權值,容易陷入局部最小值,不利于RBF網絡的泛化能力。通過文獻[10]可知共軛梯度下降法能改善RBF網絡權值參數的不足。優化權值的具體步驟如下:
步驟1根據共軛梯度下降法調節隱含層到輸出層的權值ωjl。其中,權值的初始向量為
共軛梯度下降的更新公式如下所示:
當n=1時
ωjl(1)=ωjl(0)+ηgωjl(0)
(3)
當n≥2時
ωjl(n)=ωjl(n-1)+ηgωjl(n-1)+
α[ωjl(n-1)-ωjl(n-2)]
(4)
下降的方向分別為
(5)

gωjl(n-2)
(6)
(7)
其中,η(0<η<1)為下降算法中的學習速率;α是矩量參數,在[0,1]之間取值。
步驟2當滿足誤差條件MSE≤GOAL或者當n≥N時,則訓練結束,否則轉到步驟1,再次調整權值進行迭代計算。網絡輸出的總和均方誤差MSE的計算由式(8)求解
(8)

為此,本文將利用改進的最近鄰聚類算法,并結合共軛梯度下降法,對RBF神經網絡的學習參數(C,ω,r)訓練,此改進方法稱為IRBF(improve RBF)。
本文以包頭市的賽汗塔拉城中草原作為研究對象。城中草原總面積770公頃,其中林地150公頃,草地500公頃,是全國城市中最大的天然草原園區。圍繞城中草原的周邊有多個國控檢測站點,其中距離城中草原最近的站點為包頭市環境監測站。因此,本文選取該站點從2017年1月1日至2019年10月31日期間污染物的日均觀測數據為實驗樣本數據。污染物數據來源于中國空氣質量在線檢測分析平臺環境監測總站:https://www.aqistudy.cn/。氣象數據來源于中國氣象局:http://weather.com.cn/。近3年污染物濃度的部分數據見表1。
說明:表1中各個污染物濃度日均數據是監測站點每天24小時的平均濃度的算術平均值,其中O3是采集的連續8個小時平均濃度的算術平均值。

表1 近3年6種污染物濃度
歸一化處理:從監測站獲得的歷史數據上看,指標數據不在同一個數量級上,數值大小差異明顯,為了解決數據指標的可比性,需要在訓練和測試之前,針對樣本數據進行歸一化處理,通過歸一化處理之后的數據才能作為RBF的樣本數據。本文采用了最大最小值法完成對污染物和氣象數據的歸一化操作,在早期的文獻研究中,輸入數據一般都在[0,1]之間,由于區間的選擇要有限度,若區間過大,隱含層節點容易發生飽和,而最近幾年大量文獻研究發現區間控制在[0.2,0.8]會更好[11],為此,本文實驗也選取了這一區間。歸一化公式為
(9)
式中:x為各項污染物、氣象因子的歷史數據,xmax、xmin表示同一個指標不同日期的最大值、最小值,x′表示x歸一化后的數據。同時,得到的輸出結果需要經過反歸一化處理后得出預測的污染物濃度數據。反歸一化公式為
(10)
其中,y′為經過網絡訓練得到的輸出數據。y表示對y′的反歸一化的輸出數據,ymax、ymin表示同一個指標不同日期的最大值、最小值。
從包頭市環境監測站選取影響草原環境惡化的主要污染物為本文的預測目標,其指標為PM2.5、PM10、SO2、O3。通過文獻[12]可知,氣象參數對污染物濃度預測有著較大的影響,需要分析氣象參數和污染物之間的相關性,因此,在構建污染物濃度預測模型時,為了提高預測的準確度,將對各項污染物濃度數據融合氣象參數作為輸入;同時可知同期的溫度、風速和濕度對各項污染物的濃度影響也比較大。對于研究目標的預測,本文需要通過線性相關性篩選出具有代表性的變量(污染物和氣象因子)。
包頭市環境監測站點通過布置傳感器來監測數據,其中有PM2.5、PM10、NO2、SO2、O3、CO、風速、溫度、濕度等數據,本文采用線性相關系數分析降維,篩選出和目標指標相關系數較大的因子。線性相關系數分析公式如下
(11)
其中,Var[X]為X的方差,Var[Y]為Y的方差。cov(X,Y)為X與Y的協方差。
通過式(11)計算分析影響預測目標的特征因子,并將這些因子作為IRBF神經網絡的輸入,能提高預測的精度。結合城中草原監測站點的實驗樣本數據,利用線性相關系數法篩選影響預測目標的特征因子。預測模型相關因子見表2。

表2 模型相關因子
通過MATLAB對樣本數據分析篩選出r(X,Y)大于0.8的特征因子,其結果發現模型因子為1,2,3,4,5,6,19,20,21與當天目標污染物的r(X,Y)都在0.8左右。所以選取以上模型因子為預測模型的輸入節點。
本文將前一天污染物因子的日均濃度值PM2.5、PM10、NO2、SO2、O3、CO和當天的風速、溫度、濕度作為IRBF網絡的輸入節點,隱含層節點通過IRBF網絡的學習算法進行訓練,對當天草原環境下主要污染物PM2.5、PM10、SO2、O3的日均濃度值進行預測。基于IRBF的草原環境污染預測模型如圖2所示。

圖2 預測模型結構
通過監測站點得到的歷史數據,經過數據預處理后共1033組數據,其中826組用于神經網絡的訓練,207組測試數據用來驗證模型的泛化能力和預測能力。以MATLAB為仿真平臺,對IRBF網絡進行訓練建模。在IRBF網絡訓練中,由于寬度常數r能衡量輸入數據和已經存在的聚類中心的歐式距離,這樣來看r的選取對預測結果有較大的影響,所以寬度常數的確定需要事先給定。通過多次實驗與預測誤差對比,最后寬度常數取值為r=0.2。
在IRBF網絡訓練中,目標誤差GOAL為0.01,學習速率η為0.05,矩量參數α=0.01,本模型對各污染物濃度測試數據的結果如圖3~圖6所示。

圖3 PM2.5真實值和預測值

圖4 PM10真實值和預測值

圖5 SO2真實值和預測值

圖6 O3真實值和預測值
從圖3可知,在IRBF網絡訓練預測中PM2.5的真實濃度和預測濃度的擬合情況來看,中間樣本擬合的趨勢基本一致,而個別變化大的樣本擬合誤差較大,其中PM2.5的擬合誤差的絕對值最大為:0.37 ug/m3,最小為0 ug/m3。
從圖4可知,在IRBF網絡訓練預測中PM10的真實濃度和預測濃度的擬合整體趨勢一致,其中PM10的擬合誤差的絕對值最大為:0.233 ug/m3,最小值為0 ug/m3。
從圖5可知,在IRBF網絡訓練預測中SO2的真實濃度和預測濃度的擬合整體趨勢一致,其中SO2的擬合誤差的絕對值最大為:0.187 ug/m3,最小為0 ug/m3。
從圖6可知,在IRBF網絡訓練預測中O3的真實濃度和預測濃度的擬合大部分趨勢一致,個別變化比較大,其中O3的擬合誤差的絕對值最大為:0.363 ug/m3,最小為0 ug/m3。
各污染物指標的預測誤差結果如圖7所示。

圖7 IRBF擬合預測相對誤差
從圖7可知,主要污染物在預測時間段內預測效果總體保持平穩,個別值變化有些大,但是都在目標誤差周圍上下波動。PM2.5濃度擬合最大的相對誤差為0.0379,最小的相對誤差為-0.0011,平均相對誤差為1.12%;PM10濃度擬合最大的相對誤差為0.0112,最小的相對誤差為-0.0052,平均相對誤差為0.22%;SO2濃度擬合最大的相對誤差為0.0374,最小的相對誤差為-0.0061,平均相對誤差為0.42%;O3濃度擬合最大的相對誤差為0.0351,最小的相對誤差為-0.0067,平均相對誤差為0.19%;多輸出總的平均相對誤差MRE為0.49%。通過最終的實驗結果可以看出,本文提出的IRBF網絡具有很好的預測效果,其泛化能力較強,對多輸出節點的預測有很好穩定性。
為了進一步驗證IRBF網絡模型的有效性,本文將模型1(BP網絡模型)、模型2(K-means+梯度下降法RBF)、模型3(IRBF網絡模型)的迭代次數和訓練時間等進行了比較。3類預測模型的比較結果見表3。

表3 3類模型的預測結果分析
從表3可以看出,模型3比模型1和模型2的訓練時間明顯縮短,是由于模型3的迭代次數少。模型1預測的誤差比較大,是由于其BP網絡容易陷入局部最小值,導致預測的泛化能力弱。同時,可以看出模型2預測效果比模型3預測較差,其原因是由于模型2中用K-means算法進行中心參數和寬度常數的學習,在此聚類學習中,需要事先知道隱含層節點的數目,但在實際情況下,不可能提前預知,需要進行不斷訓練,因此,此方法得到的聚類中心不具有全局性質,不能動態調整,從而影響神經網絡的參數學習,導致誤差較大;而優化權值是通過梯度下降法調整,其下降算法需要進行初始化權值,其值的選擇直接影響了神經網絡的訓練速度和泛化能力,由此可知,模型2在實際情況中,預測誤差較大,泛化能力不理想。通過上表的對比結果可知,模型3對草原環境污染物預測的效果比較好,預測誤差明顯比前兩個模型低。且模型3是利用改進的最近聚類算法,動態調整聚類中心的數目,這樣更符合全局樣本性質,同時避免權值的初始化隨機性;然后再混合共軛梯度下降法對權值進行迭代優化,此下降法既能加快權值參數的收斂速度,又能最大程度的避免陷入局部最小值,此改進只需要確定寬度常數的值,這樣的改進更加高效,并且有較好的泛化能力。
近年來,RBF網絡已經在環境污染物預測上得到了廣泛應用,為環境污染物的防治提供了一定的參考價值。本文針對草原污染物預測中存在的問題,從傳統RBF模型的局限性出發,提出了基于IRBF網絡的草原污染物預測模型,并通過與多種預測模型進行對比,實驗結果驗證了本文提出的IRBF網絡運用于草原污染物預測中的有效性,并可為預測模型的優化和后期的污染物防治提供依據。但是IRBF網絡模型在草原污染物預測中也存在一定的局限性,今后將繼續優化寬度系數r等參數,以進一步提高模型的準確性和泛化能力。