王 軍, 劉春國, 樊俊屹
(中國地震臺網(wǎng)中心, 北京 100045)
地震前兆臺網(wǎng)建設的目的是獲取地震、地殼形變、地球電磁、地下流體等動態(tài)變化圖像,捕捉地震前兆信息,為地震預測提供依據(jù)。受觀測環(huán)境等諸多因素的影響,監(jiān)測數(shù)據(jù)常常呈現(xiàn)出區(qū)別于正常背景動態(tài)變化的異常變化。如何快速、準確判斷引起異常圖像的原因,一直是地震監(jiān)測預報人員研究的重要課題。
目前,利用相關分析、差分檢測、固體潮相關檢測、方差檢測、臺階檢測、分段線性斜率和高度等多種檢測方法提取異常特征值,可以對臺網(wǎng)觀測數(shù)據(jù)的異常進行檢測[1-2],難點在于檢測方法及異常特征值的選取,不同的異常圖像類型需采用不同的檢測方法,而且這些方法大都只適應于形態(tài)較為規(guī)則的異常圖像,對大部分的異常圖像基本無效。此外,即使這些方法能夠檢測到是否出現(xiàn)了異常,而這種異常變化是哪類因素引起的則還需要人工利用自己的經(jīng)驗來判斷。識別的準確率與具體操作人員對觀測點測項的背景正常動態(tài)變化、典型異常動態(tài)及其因素了解程度有關。
卷積神經(jīng)網(wǎng)絡(CNN)模型是一種新興的人工神經(jīng)網(wǎng)絡系統(tǒng),具有深度學習能力且適應性強,善于挖掘數(shù)據(jù)局部特征,全局訓練特征抽取器和分類器等優(yōu)點。卷積神經(jīng)網(wǎng)絡在模式識別中的多個領域取得了很好的成果。本文選擇無需手動提取特征的CNN對觀測數(shù)據(jù)異常圖像進行識別。
我國地震前兆臺網(wǎng)由地下流體、地殼形變和電磁三大學科臺網(wǎng)組成,觀測項目超過五十種,主要觀測手段包括水位、水溫、氡、汞、地傾斜、地應變、重力、地磁、地電阻率、地電場等十多種[3]。
地震前兆臺網(wǎng)的基本組成單元是臺站,臺站一般由觀測場地(觀測井或泉、山洞、鉆孔、觀測墩等)、觀測室、觀測裝置、觀測儀器等構成。據(jù)最新統(tǒng)計,匯集到國家前兆臺網(wǎng)中心數(shù)據(jù)庫的地下流體臺站共計約有713個,地殼形變觀測臺站353個,電磁觀測臺站367個。大部分臺站均配備了氣象三要素觀測儀器對氣壓、氣溫和降雨進行輔助觀測。
觀測數(shù)據(jù)變化圖像可分為正常圖像和異常圖像。正常圖像是指某一個觀測項目的觀測值具有自身的變化規(guī)律和特征,如潮汐類形變觀測、重力觀測和地下水位觀測一般具有明顯的日波、半月波潮汐圖像特征;長期觀測資料在相對穩(wěn)定的影響因素影響下數(shù)據(jù)變化水平無明顯變化,觀測值呈有規(guī)律地變化。
因突發(fā)的觀測事件或固有的影響因素水平發(fā)生變化均會引起數(shù)據(jù)變化偏離正常圖像,出現(xiàn)異常圖像。數(shù)據(jù)出現(xiàn)異常圖像的影響因素大致可以分為5種:(1)與臺站觀測系統(tǒng)故障有關的因素,如儀器故障、觀測裝置故障及供電故障等;(2)與氣象變化相關的因素:如氣壓、降雨、雷電、臺風、風擾等;(3)與觀測場地周邊環(huán)境干擾相關的因素,如地下水開采與注水、地表水體漲落、灌溉、塌方爆破、施工干擾等;(4)與觀測系統(tǒng)人為干擾相關的因素:如儀器檢修與安裝調(diào)試、觀測井取水與放水、井水流量調(diào)節(jié)等;(5)與地質(zhì)災害、構造活動等變化相關的因素,如地震、震后效應、滑坡、泥石流、礦震等。
引起異常圖像的影響因素很多,具體對于某個臺站的某個觀測手段,影響因素可能有多種。不同的臺站、觀測手段同一影響因素引起的地震監(jiān)測數(shù)據(jù)異常圖像具有不同的圖像特征。異常圖像影響因素的確定往往需要結合觀測日志、儀器性能、環(huán)境調(diào)查、氣象資料收集、數(shù)據(jù)處理分析等多方面進行分析判斷。
自2014年以來,通過地震前兆臺網(wǎng)觀測數(shù)據(jù)跟蹤分析工作[4-5],對出現(xiàn)的大部分異常圖像進行了跟蹤、核實和分析,確定了其成因,這些異常圖像及影響因素標識等相關信息均保存在數(shù)據(jù)跟蹤分析知識庫中[6-8]。這些資料為我們開展本項研究奠定了基礎。
人工神經(jīng)網(wǎng)絡是一種模仿生物神經(jīng)網(wǎng)絡行為,進行數(shù)據(jù)處理的算法模型。這種網(wǎng)絡通過反向傳播(BackPropagation,簡稱BP)調(diào)整內(nèi)部大量神經(jīng)元節(jié)點之間相互連接的權重,從而達到處理信息的目的。1989年Yann LeCun利用BP算法來訓練多層神經(jīng)網(wǎng)絡識別手寫郵政編碼;1998年他提出的LeNet5模型是卷積神經(jīng)網(wǎng)絡(CNN)問世的標志。2016年的ImageNet圖像識別競賽,基于CNN的ResNet識別率已經(jīng)超過人類,它的網(wǎng)絡層數(shù)達到152層之多。經(jīng)典的CNN模型有LetNet、AlexNet[9]、ZF Net 、VGG、GoogLeNet、ResNet等。
基于CNN的異常圖像識別方法的基本思路是首先設計一個CNN模型,根據(jù)監(jiān)測數(shù)據(jù)產(chǎn)生訓練集,對訓練集進行預處理,訓練CNN模型,測試模型,利用模型進行識別。具體如下。
卷積神經(jīng)網(wǎng)絡(CNN)主要由輸入層、卷積層、池化層(Pooling層)、全連接層和輸出層組成。輸入層可以處理多維數(shù)據(jù),對于本項研究,為三維輸入數(shù)據(jù),即紅、綠、藍三個通道的二維平面像素點;卷積層的主要功能是對輸入數(shù)據(jù)進行特征提取;Pooling 層也叫下采樣層,主要用于保留有用信息的基礎上減少數(shù)據(jù)處理量,加快訓練網(wǎng)絡的速度;全連接層等價于傳統(tǒng)前饋神經(jīng)網(wǎng)絡中的隱含層,全連接層通常搭建在卷積神經(jīng)網(wǎng)絡隱含層的最后部分,并只向其它全連接層傳遞信號。特征圖在全連接層中會失去3維結構,被展開為向量并通過激勵函數(shù)傳遞至下一層;輸出層結構和工作原理與傳統(tǒng)前饋神經(jīng)網(wǎng)絡中的輸出層相同。對于圖像分類問題,輸出層使用邏輯函數(shù)或歸一化指數(shù)函數(shù)(softmax function)輸出分類標簽[8]。
本文構建的網(wǎng)絡模型與AlexNet相似,在Google的tensorflow框架下進行模型結構設計、訓練、測試和參數(shù)優(yōu)化,如圖1所示。

圖1 網(wǎng)絡模型示意圖Fig.1 Diagram of the convolutional neural network model
該模型包括1個輸入層、2個卷積層和2個池化層、2個全連接層和1個輸出層。其中第1組為卷積層,包括64個大小為[5,5,3]的濾波器,輸出[24,24,64],然后用激勵函數(shù)(ReLU)激活,最大池化層輸出[12,12,64];第2組為卷積層,包括64個大小為[5,5,64]的濾波器,輸出[12,12,64],再使用激勵函數(shù)(ReLU)激活,最大池化層輸出[6,6,64];第3組為全連接層,將第2組的輸出展開成一維[2304],用384個神經(jīng)元連接,用ReLU激活,輸出[384];第4組為全連接層,將第3組的輸出用192個神經(jīng)元連接,用ReLU激活,輸出[192]。最后為線性輸出層,將第4組的輸出用2個(分類的個數(shù))神經(jīng)元連接,輸出[2],即為圖片屬于兩個類的得分值。
從國家前兆臺網(wǎng)中心數(shù)據(jù)庫讀取某一臺站觀測項目的觀測數(shù)據(jù),一個異常圖像持續(xù)時間的觀測數(shù)據(jù)保存為一個文件,通過文件名稱來表示各類觀測事件類型,各類觀測事件類型及正常類型的文件數(shù)目比例應基本一致。觀測事件類型來源于數(shù)據(jù)跟蹤分析標識。
根據(jù)保存的數(shù)據(jù)文件,繪制時序圖并保存到分辨率為32×32的PNG圖片(PNG為無損壓縮)。為了減少干擾,時序圖片不包含坐標軸。然后將圖片讀入內(nèi)存,分離出紅、綠、藍三個通道,將這三個通道數(shù)據(jù)合并,并在前面加上1個字節(jié)的label(0表示正常,1-Z分別表示不同的事件類型),即為一張圖片的訓練數(shù)據(jù)。所有的圖片訓練數(shù)據(jù)順序合并到一起形成訓練文件,即為訓練集。
根據(jù)構建的網(wǎng)絡模型的輸入要求,對訓練集進行預處理。將訓練集中的32×32的圖片在長、寬兩個方向上剪裁為24×24大小;以50%的概率將圖片沿水平方向進行翻轉(zhuǎn);隨機調(diào)整圖像亮度和對比度;將圖像標準化:
(1)
式中:x為圖片的RGB某通道像素值;mean分別為通道像素的均值;stddev為通道像素的標準差;pixels是通道的像素個數(shù)。
利用訓練集對設計的模型進行訓練。權值使用truncated normal distribution初始化,采用BP算法來調(diào)整CNN模型各層權值與偏置;使用指數(shù)衰減的學習率進行梯度下降(BP算法的學習速率),訓練方式為批量訓練。利用生成訓練集的方法生成其他時段的測試集,進行測試。
我們選取引起數(shù)據(jù)變化的影響因素清楚且類型較少、異常形態(tài)不規(guī)則的拉薩井的水位資料來進行實驗研究。用于實驗的觀測井深111.2 m,觀測含水層為第四系潛水含水層,井水位受降雨影響較明顯,在每年雨季6—9月水位出現(xiàn)峰值變化(圖2)。

圖2 2016—2017年用于實驗的拉薩井水位時序曲線Fig.2 Time series curve of observed well water level in Lhasa from 2016 to 2017
經(jīng)現(xiàn)場調(diào)研與資料分析,在該井東面50多米處有一水池每天不定期抽水用于澆地,抽水導致觀測井水位出現(xiàn)小幅下降變化,抽水結束后出現(xiàn)回升,抽水引起的異常圖像持續(xù)時間30 min左右。
選取2017年5月9日到9月8日的水位觀測數(shù)據(jù)(分鐘采樣)作為訓練樣本的數(shù)據(jù)來源。這段時間異常圖像均為抽水干擾引起。我們的目的是自動識別出正常與抽水干擾異常圖像。
使用實驗觀測站2017年5月9日到9月8日的水位分鐘值數(shù)據(jù),用軟件對形態(tài)明顯的干擾段數(shù)據(jù)進行提取,共獲得干擾樣例151個。同時對非干擾時段的數(shù)據(jù)也提取了121個樣例。提取出的數(shù)據(jù)保存為csv格式,通過文件名來區(qū)別是正常形態(tài)還是抽水干擾。依據(jù)上面的方法生成訓練集。正常與抽水干擾訓練圖片見表1,對訓練樣本進行預處理。

表1 訓練集的部分正常圖像和干擾圖像
由于數(shù)據(jù)量很小,在英偉達GTX1080GPU上訓練2 000次網(wǎng)絡收斂。利用訓練好的模型進行該觀測站水位干擾的自動識別。
選擇兩段時間的數(shù)據(jù)來檢驗。2017年2月1—2日是干擾較少的時段,11月14—15日是干擾較嚴重的時段。
以5 min為步長,40 min為窗口長度進行滑動,每個窗口生成一張圖片,將圖片用處理訓練文件的同樣方法生成二進制文件,輸入模型后給出分類得分,使用softmax公式將得分轉(zhuǎn)換為概率值:
其中:a0,a1為模型的分類得分。
當樣本屬于類別1的概率大于0.999時認為是抽水干擾,檢驗結果如圖3所示。
2017年2月1—2日共計識別出6個時段存在抽水干擾異常圖像[如圖3(a)所示]:2月1日的08:40—09:20、12:25—13:15、17:55—18:45、21:55—22:50和2月2日的 13:30—14:25、18:15—19:00。其中2月1日08:40—09:20,這是一個正常變化,識別錯誤,分析認為是人工標注時對正常圖像類型提取不完整所致。其他時段都正確識別,準確率為 95%。此外,2月2日 13:30—14:25的異常不完整,應該是從10:55開始,這應該是用于異常識別的圖像是按固定時間長度生成而導致的。

圖3 標識識別的抽水干擾時段的觀測數(shù)據(jù)變化曲線Fig.3 Change curve of observed values during pumping interference period
2017年11月14—15日共計識別出16個時段抽水干擾圖像[圖3(b)]:11月14日的 06:40—07:30、12:10—13:35、13:40—14:25、15:30—16:10、21:40—22:35,11月15日的05:20—06:15、08:05—08:45、09:05—09:50、09:55—10:40、11:30—12:15、13:35—14:20、14:35—15:30、16:10—16:55、17:10—18:05、18:25—19:15、21:45—22:35,經(jīng)核實這些時段均存在干擾,其中11月15日的11:30—12:15干擾時段并不完整,完整時段應為11:20—12:25。此外11月14日的19:25—20:30和11月15日的20:25—21:40存在較長時間地抽水干擾并未識別出來,識別的準確率約為88%。識別出錯的原因與2月1—2日的情形類似,與輸入圖像的定長以及訓練樣本中異常圖像樣本類型不全有關。
本文構建了一個6層結構的CNN網(wǎng)絡模型,采用構建的模型對實際觀測井水位抽水干擾引起的異常圖像進行了自動識別實驗。實驗結果顯示識別準確率較高,驗證了CNN網(wǎng)絡模型應用于復雜異常圖像識別的可行性。當然,識別方法還有待進一步完善,特別是數(shù)據(jù)到圖像的生成及預處理方法,包括訓練樣本正常圖像類型提取完整性評估方法、自動提取完整的異常圖像的多尺度異常圖像生成方法、異常圖像的幅度不被夸大或弱化的預處理方法等。
本文只針對一種異常圖像進行了識別,實際上,大部分臺站的數(shù)據(jù)變化的影響因素不可能只有一種,不同的影響因素引起的異常圖像特征可能存在明顯差異,也可能相似;每個臺站觀測手段每種影響因素引起的異常圖像次數(shù)并不相同,像實驗臺站頻繁出現(xiàn)(盡管這對于CNN模型來說仍是太少)抽水干擾異常圖像的臺站較少,大部分影響因素引起的異常圖像只出現(xiàn)過幾次,訓練樣本太少,模型識別的準確率會大幅降低。將CNN模型應用于實際的觀測站異常圖像的快速識別還有大量的研究工作要做。