陳韶金 劉子維, 周 浩 江 穎, 翟篤林
1 防災(zāi)科技學(xué)院信息工程學(xué)院,河北省三河市學(xué)院街465號(hào),065201 2 中國(guó)地震局地震研究所,武漢市洪山側(cè)路40號(hào),430071 3 武漢引力與固體潮國(guó)家野外觀測(cè)研究站,武漢市洪山側(cè)路40號(hào),430071
我國(guó)是一個(gè)地質(zhì)災(zāi)害頻發(fā)的國(guó)家,破壞性的地震往往會(huì)造成巨大的人員傷亡和經(jīng)濟(jì)損失。預(yù)測(cè)震后死亡人數(shù)對(duì)救援工作和物資分配都起著十分關(guān)鍵的作用,而預(yù)測(cè)地震死亡人數(shù)的影響因素錯(cuò)綜復(fù)雜,傳統(tǒng)的方法難以解釋地震死亡人數(shù)的關(guān)鍵影響因素。張瑩等[1]利用層次分析方法構(gòu)建以地震震級(jí)、人口密度、地震烈度、建筑物抗震性能以及發(fā)震時(shí)刻等主要影響指標(biāo)形成的指標(biāo)體系,為后續(xù)的震后死亡人數(shù)預(yù)測(cè)提供了重要的參考。
隨著機(jī)器學(xué)習(xí)的盛行,許多學(xué)者將其應(yīng)用到地震死亡人數(shù)預(yù)測(cè)中。Tang等[2]采用經(jīng)驗(yàn)回歸法快速估計(jì)中國(guó)地震傷亡人數(shù);楊帆等[3]和吳昊昱等[4]建立BP神經(jīng)網(wǎng)絡(luò)對(duì)震后傷亡人數(shù)進(jìn)行快速預(yù)測(cè);周德紅等[5]將傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)和遺傳算法優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)對(duì)地震傷亡人數(shù)預(yù)測(cè)模型效果進(jìn)行對(duì)比,結(jié)果表明后者精度更高;Li等[6]提出支持向量回歸(SVR)的分區(qū)傷亡預(yù)測(cè)方法;王晨暉等[7]和劉立申等[8]分別建立PCA-GSM-SVM和PCA-PSO-SVM模型對(duì)地震死亡人數(shù)進(jìn)行預(yù)測(cè),并取得良好的效果;Cui等[9]建立集成學(xué)習(xí)方法分別對(duì)地震受傷和死亡人數(shù)進(jìn)行預(yù)測(cè)。上述研究主要是利用機(jī)器學(xué)習(xí)的不同方法對(duì)地震死亡人數(shù)進(jìn)行建模,雖然均有良好的非線性擬合效果,但訓(xùn)練速度慢,網(wǎng)絡(luò)易陷入局部最優(yōu)。針對(duì)該問(wèn)題,Huang等[10]提出一種新型的單層前饋神經(jīng)網(wǎng)絡(luò)(single-hidden layer feedforward neural network, SLFN),該算法被稱為極限學(xué)習(xí)機(jī)(extreme learning machine, ELM)。相比于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò),ELM具有學(xué)習(xí)速度快、精度高、參數(shù)設(shè)置簡(jiǎn)單等優(yōu)勢(shì)。景國(guó)勛等[11]加入預(yù)報(bào)水平作為影響指標(biāo),構(gòu)建PCA-ELM的地震死亡人數(shù)評(píng)估模型,并對(duì)比ELM和傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)模型,結(jié)果表明PCA-ELM模型準(zhǔn)確率更高。
基于此,本文對(duì)PCA-ELM模型進(jìn)行改進(jìn),引入粒子群優(yōu)化算法對(duì)ELM進(jìn)行參數(shù)優(yōu)化,構(gòu)建PCA-PSO-ELM地震死亡人數(shù)預(yù)測(cè)模型。首先對(duì)影響指標(biāo)進(jìn)行主成分分析降維;然后通過(guò)粒子群智能算法對(duì)ELM網(wǎng)絡(luò)權(quán)重進(jìn)行訓(xùn)練優(yōu)化,避免網(wǎng)絡(luò)陷入局部最優(yōu),得到網(wǎng)絡(luò)最佳參數(shù);最后對(duì)比ELM、PCA-ELM、PCA-PSO-ELM三個(gè)模型的預(yù)測(cè)精度。
主成分分析本質(zhì)上是通過(guò)線性變換方式將高維數(shù)據(jù)變換成一組各維度線性無(wú)關(guān)的數(shù)據(jù),其具體計(jì)算過(guò)程參考文獻(xiàn)[12]。主成分分析算法步驟如下:
1)對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,消除不同量綱和量級(jí)的影響。
2)計(jì)算相關(guān)系數(shù)矩陣。
3)計(jì)算特征值和與之對(duì)應(yīng)的特征向量。通過(guò)求解特征方程,計(jì)算特征根,按從大到小依次排序,同時(shí)得到對(duì)應(yīng)的特征向量。
4)計(jì)算貢獻(xiàn)率和累積貢獻(xiàn)率。
5)綜合分析。當(dāng)累積貢獻(xiàn)率達(dá)到85%~95%時(shí),取前n個(gè)主成分作為新的綜合指標(biāo)變量替代原來(lái)的高維特征變量。
在粒子群優(yōu)化算法模型中,粒子通過(guò)群體信息的共享和更新不斷優(yōu)化目標(biāo)。粒子速度、位置計(jì)算公式以及更新公式參考文獻(xiàn)[13-14]。
由于慣性權(quán)重的大小對(duì)算法的搜索能力具有顯著影響,其值較大時(shí),有利于全局搜索;其值較小時(shí),有利于局部搜索。因此,為有效平衡全局搜索與局部搜索能力,使用線性遞減權(quán)重公式[15]:
(1)
式中,ωmax和ωmin分別為慣性權(quán)重系數(shù)的最大值和最小值,Tmax為粒子群優(yōu)化算法的最大迭代次數(shù)。
ELM本質(zhì)上是一種單隱含層的前饋神經(jīng)網(wǎng)絡(luò),其輸入權(quán)重和偏置項(xiàng)權(quán)重均采用隨機(jī)生成的方法進(jìn)行賦值,且其訓(xùn)練方式不采用傳統(tǒng)的梯度下降方式,而是在最小二乘法架構(gòu)下,通過(guò)解算對(duì)應(yīng)的廣義逆矩陣計(jì)算最優(yōu)輸出權(quán)值。因此,ELM具有收斂速度快且不易陷入局部最優(yōu)等優(yōu)點(diǎn)。ELM網(wǎng)絡(luò)具體計(jì)算過(guò)程可參考文獻(xiàn)[10],其網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)見(jiàn)圖1。

圖1 極限學(xué)習(xí)機(jī)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)Fig.1 Topological structure of extreme learning machine network
本文提出的PCA-PSO-ELM 預(yù)測(cè)模型流程分為3個(gè)階段:1)PCA處理階段。通過(guò) PCA對(duì)影響地震死亡人數(shù)的7個(gè)影響因子進(jìn)行降維處理,消除各個(gè)影響因子之間的相關(guān)性、冗余性。2)粒子群算法尋優(yōu)階段。將 PCA 計(jì)算的主成分得分作為 PSO-ELM 預(yù)測(cè)模型的輸入,設(shè)置PSO優(yōu)化算法的粒子速度、位置等參數(shù)和模型終止條件,并進(jìn)行模型訓(xùn)練。3)ELM網(wǎng)絡(luò)訓(xùn)練階段。將PSO優(yōu)化好的初始權(quán)重代入ELM模型進(jìn)行測(cè)試并分析其結(jié)果。模型處理流程見(jiàn)圖2。

圖2 PCA-PSO-ELM模型流程Fig.2 The flow chart of PCA-PSO-ELM model
影響地震死亡人數(shù)的指標(biāo)錯(cuò)綜復(fù)雜,本文從數(shù)據(jù)獲取難易程度和重要性角度綜合考慮,選取地震震級(jí)、震源深度、震中烈度、抗震設(shè)防烈度、震中烈度與抗震設(shè)防烈度之差(ΔL)、人口密度以及發(fā)震時(shí)刻等7個(gè)影響因素作為模型輸入。
地震震級(jí)是表示地震強(qiáng)弱的度量,地震震級(jí)越大,其對(duì)建筑物的破壞力越強(qiáng),造成的死亡人數(shù)也越多。震源深度表示震源在地面上的垂直投影距離,一般來(lái)說(shuō),震源越靠近地面,對(duì)地表的破壞力越強(qiáng)。震中烈度是指地面受到地震震動(dòng)作用的強(qiáng)烈程度,在同等震級(jí)大小條件下,震源深度越淺,震中烈度也越大。抗震設(shè)防烈度是在工程建設(shè)時(shí)對(duì)建筑物進(jìn)行抗震設(shè)計(jì)的地震烈度,通常情況下,抗震設(shè)防水平越高的地區(qū),同等地震條件下造成的人員死亡越少。震中烈度和抗震設(shè)防烈度之差(ΔL)可體現(xiàn)建筑物抵御地震破壞的能力,如果ΔL>0且兩者差值越大,則說(shuō)明建筑物抗震能力越弱,地震造成的死亡人數(shù)也越多;如果ΔL<0且兩者差值的絕對(duì)值越小,說(shuō)明建筑物破壞程度越嚴(yán)重,地震造成的死亡人數(shù)也越多。此外,人口密度和發(fā)震時(shí)間也是直接影響地震死亡人數(shù)的重要指標(biāo)。若地震發(fā)生在人口密度大的地區(qū),所造成的人員死亡數(shù)遠(yuǎn)大于人煙稀少地區(qū);若發(fā)震時(shí)間為夜晚,由于缺少反應(yīng)時(shí)間,死亡人數(shù)也會(huì)增加。
本文從相關(guān)文獻(xiàn)[5,7,11]中篩選42個(gè)歷史地震震例數(shù)據(jù)(表1),選取地震震級(jí)、震源深度、震中烈度、抗震設(shè)防烈度、震中烈度與抗震設(shè)防烈度之差(ΔL)、人口密度以及發(fā)震時(shí)刻7個(gè)影響因子作為網(wǎng)絡(luò)模型的輸入數(shù)據(jù),實(shí)際死亡人數(shù)作為模型的輸出數(shù)據(jù)。

表1 地震震例信息
由于抗震設(shè)防烈度[16]與發(fā)震區(qū)域有關(guān),本文選取的是發(fā)震地區(qū)抗震設(shè)防烈度的最大值。發(fā)震時(shí)刻分為2個(gè)時(shí)間段:發(fā)震時(shí)刻“1”表示白天(07:00~19:00),“0”表示夜晚(19:00~次日07:00)。
對(duì)原始數(shù)據(jù)的7個(gè)影響因子進(jìn)行PCA降維處理。表2為影響因子的特征值、貢獻(xiàn)率和累積貢獻(xiàn)率,由表可知,前4個(gè)主成分累積貢獻(xiàn)率達(dá)88.607%,說(shuō)明其包含原始數(shù)據(jù)的絕大多數(shù)信息,滿足替代條件。主成分得分是由因子載荷矩陣與原始數(shù)據(jù)線性組合,計(jì)算公式如下:

表2 特征值、貢獻(xiàn)率和累積貢獻(xiàn)率
(2)
式中,S1為地震震級(jí),S2為震源深度,S3為震中烈度,S4為抗震設(shè)防烈度,S5為震中烈度與抗震設(shè)防烈度之差(ΔL),S6為人口密度,S7為發(fā)震時(shí)刻。將降維后的4個(gè)主成分替代原始數(shù)據(jù)的7個(gè)影響因子,并對(duì)主成分得分進(jìn)行歸一化處理,公式如下:
(3)

選取經(jīng)過(guò)PCA處理后的37個(gè)震例數(shù)據(jù)作為訓(xùn)練樣本,其余5個(gè)數(shù)據(jù)(樣本2、9、15、29、38)作為測(cè)試樣本。由于地震死亡人數(shù)數(shù)值離散且跨度較大,為了更直觀地對(duì)比預(yù)測(cè)值與真實(shí)值,本文采用自然對(duì)數(shù)對(duì)地震死亡人數(shù)進(jìn)行處理。

建立好網(wǎng)絡(luò)模型后,將37個(gè)震例數(shù)據(jù)分別輸入到ELM、PCA-ELM和PCA-PSO-ELM模型中進(jìn)行訓(xùn)練,經(jīng)過(guò)多次實(shí)驗(yàn),得到粒子群優(yōu)化算法的最佳參數(shù)設(shè)置和3個(gè)模型的訓(xùn)練集預(yù)測(cè)值與實(shí)際值對(duì)比結(jié)果,具體見(jiàn)表4和圖3。

表4 PSO-ELM網(wǎng)絡(luò)參數(shù)

圖3 不同模型訓(xùn)練集預(yù)測(cè)值與實(shí)際值對(duì)比Fig.3 Comparison between predicted values and actual values of different models
由圖3可知,除個(gè)別樣本數(shù)據(jù)是ELM或PCA-ELM預(yù)測(cè)值更接近實(shí)際值,從整體上看,PCA-PSO-ELM模型的擬合效果最好,其預(yù)測(cè)值和實(shí)際值非常接近,該模型可用于測(cè)試樣本數(shù)據(jù)進(jìn)行預(yù)測(cè)。
選取樣本2、9、15、28、36作為測(cè)試樣本數(shù)據(jù)檢驗(yàn)?zāi)P偷臏?zhǔn)確度。將5個(gè)測(cè)試數(shù)據(jù)分別代入到ELM、PCA-ELM和PCA-PSO-ELM模型中進(jìn)行實(shí)驗(yàn),可得到3個(gè)模型的預(yù)測(cè)值和平均誤差率結(jié)果(表5)。

表5 不同模型結(jié)果對(duì)比
由表5可知,未經(jīng)PCA處理的ELM模型平均誤差率為29.25%,而經(jīng)過(guò)PCA處理的ELM模型平均誤差率相較前者減少8.70個(gè)百分點(diǎn),說(shuō)明采用PCA對(duì)數(shù)據(jù)進(jìn)行預(yù)處理十分必要,可以去除原始數(shù)據(jù)的冗余性。本文提出的PCA-PSO-ELM模型的平均誤差率為10.87%,比PCA-ELM模型提高9.68個(gè)百分點(diǎn),說(shuō)明經(jīng)過(guò)優(yōu)化的模型可避免網(wǎng)絡(luò)陷入局部最優(yōu),并找到最優(yōu)的模型參數(shù),進(jìn)而提高模型的預(yù)測(cè)精度。因此,該組合模型可為地震死亡人數(shù)預(yù)測(cè)提供新方法。
本文利用主成分分析對(duì)原始數(shù)據(jù)特征進(jìn)行降維,再通過(guò)粒子群優(yōu)化極限學(xué)習(xí)機(jī)網(wǎng)絡(luò)對(duì)數(shù)據(jù)進(jìn)行仿真實(shí)驗(yàn),對(duì)比3個(gè)模型的實(shí)驗(yàn)結(jié)果,得到以下結(jié)論:
1)在眾多影響地震死亡人數(shù)的因素中,構(gòu)建以地震震級(jí)、震源深度、震中烈度、抗震設(shè)防烈度、震中烈度與抗震設(shè)防烈度之差(ΔL)、人口密度以及發(fā)震時(shí)刻為主的影響指標(biāo)體系。
2)經(jīng)過(guò)PCA降維處理,能夠極大地去除原始數(shù)據(jù)之間的相關(guān)性和冗余性,可強(qiáng)化模型的泛化性,提升模型的預(yù)測(cè)精度。
3)對(duì)比ELM模型和PCA-ELM模型,本文提出的PCA-PSO-ELM模型不僅能避免網(wǎng)絡(luò)陷入局部最優(yōu),而且模型的預(yù)測(cè)值與實(shí)際值的平均誤差率最低,可為地震死亡人數(shù)預(yù)測(cè)提供一種新的評(píng)估方法。
然而,由于收集的歷史震例數(shù)據(jù)還不夠豐富,構(gòu)建影響地震死亡人數(shù)的評(píng)估體系還不夠完善,此外模型精度和穩(wěn)定性仍有進(jìn)一步提高的空間,這將是未來(lái)研究的重點(diǎn)。