虢 韜 沈 平 王 偉 時 磊 楊 淵 張 磊 陳 玥* 胡 有 羅 飛
1(貴州電網有限責任公司輸電運行檢修分公司 貴州 貴陽 550005)2(國網電力科學研究院武漢南瑞有限責任公司 湖北 武漢 430074)3(武漢大學計算機學院 湖北 武漢 430074)
雷電是一種常見的自然現象,它會對人們的日常生活及公共財產造成安全影響。尤其是一些重點設施,如輸電網,雷電現象伴隨的熱效應和過電壓會對電力線路產生破壞[1]。我國人口生活的稠密地區多屬于季風帶,每年都有較多的雷電發生,這也增加了雷電對電網影響的機率。為了盡可能地降低雷電災害造成的經濟損失,需要對雷電進行監測。目前主流的雷電監測設備包括了地基雷電定位儀、氣象雷達、氣象衛星,大氣電場儀等。這些設備通過監測雷電發生的伴隨信號,能夠識別或預報雷電的發生。這些設備在使用成本和效果上有所差別,氣象雷達和氣象衛星造價成本較高[2],而雷電定位儀是記錄雷電發生的儀器并不能預報雷電發生。
大氣電場儀由定片和動片組成,利用導體在電場中產生感應電荷的原理,動片的旋轉使定片的感應電荷轉換為和大氣電場成正比的電壓量,從而測量大氣電場數據[3]。當大氣中有雷雨、大風、冰雹、大氣湍流等強對流活動發生時,大氣中的電荷會被不斷地分離和聚集,尤其是將要有雷電發生時,地面電場強度的變化尤為明顯。因此可以通過監測地面大氣電場強度的變化來預測雷電的發生。目前已有基于大氣電場儀數據進行雷電預警與雷電識別的相關研究。在預警雷電方面,有基于大氣電場幅值的雷電預警方法[4-7]。在雷電識別方面,多是以電場幅值作為識別指標,或利用快速傅里葉變換提取電場信號在頻域的特征。傅里葉變換通過識別信號中頻率的成分來對信號進行識別,對于雷電的0.5小時預警有著較好的識別能力。但是傅里葉變換作為全局性的變換忽略了信號在時域上的變化,對于在時域上變化的雷電過程,有著很大的局限性。文獻[8]利用大氣電場數據結合小波包分解和BP神經網絡分類器來區分不同天氣現象,但BP神經網絡訓練需要有大量的數據并且可解釋性差。
為了提高對由雷電引起大氣電場波動識別的準確性,降低假陽性率,本文提出了一種基于小波包提取特征并以隨機森林作為分類器的識別方法。相對其他的工作,本文有三大優勢:一是小波包可以提取大氣電場數據完整的時頻數據。二是應用隨機森林作為分類器,隨機森林可對分類特征有更好的解釋性,可比較各個特征的區分權重,輔助優化模型。三是在區分度更加精細。客觀上,不同雷電過程的雷電發生數量差異很大,在一個等長時段內可從幾次到上百次變化。本文以雷電頻次對雷電數量強度進行分級,分為弱、中、強三個等級,區分實驗在三個級別上進行,更清楚地揭示在不同雷電強度下,本方法用大氣電場值區分真假雷電現象的能力。
從雷電形成原理上,當天氣變化導致大氣中存在可以擊穿空氣介質的電勢差超過臨界值時產生放電現象,即大氣電場強度的變化確實與雷電現象存在聯系。但是這種聯系的量化關系依然沒有準確的描述,而且如前所述雷電不是唯一引起大氣電場值變化的原因,當大氣電場值有波動時,也會出現雷電假陽性發生情況,如圖1所示。

圖1 在假陽性雷電發生情形下的大氣電場值波形
從信號形式角度,大氣電場在時域上是等時間間隔連續采樣信號,本文以s(t)代表;而雷電發生在時域上是隨機離散值,本文以g(t)代表。基于大氣電場值區分雷電真假發生的情況,本質上是以雷電發生的事件頻次劃分大氣電場值的類別,提取構建大氣電場連續時頻信號的分類特征,進而用這些特征區分雷電事件發生的真假陽性情況。為此,本文提出使用小波包技術提取大氣電場值的時頻特征,然后用隨機森林作為分類器的方法,在雷電發生數量弱、中、強三個強度上(如圖2所示,左側Y軸對應柱狀表示雷電數量,右側Y軸對應曲線圖表示大氣電場值的波形),進行大氣電場區分雷電發生的真假陽性情況。


圖2 不同雷電發生情形下的大氣電場值波形
小波理論可以對時頻信號進行多種目的的處理。有工作對雷電條件下的大氣電場值進行小波多尺度分析達到降噪的目的[9-10]。與它們不同,本文不過濾任何時頻信息,相反需要從任何細微的信息中提取特征,因此本文選擇使用小波理論中的小波包進行特征提取。
小波包適于提取信號的分類特征主要基于其具有的兩個特性。
(1) 信號頻帶分解是完整的。
(2) 滿足能量守恒性。
以Mallat[11]為代表的多尺度分析的尺度函數是按二進制變換的,在逐層細分的過程中,每次都只將低頻部分帶入下一層繼續分解。因此在高頻段其頻率分辨率較差,而在低頻頻段其時間分辨率較差。但是小波包在每個層次的分解時,對高頻部分的信息進行保留,這樣小波包對信號進行分解得到的是一顆完全二叉樹(圖3-圖4),包含各個子帶的全部信息,這樣不會損失用于區分樣本真假陽性的頻帶信息。

圖3 Mallat多尺度分析的分解樹

圖4 小波包的分解樹
對于待分解的信號s(t),小波包設置分解層次深度k和小波基函數un(t)后可以分解為2k個小波分量之和:
(1)

(2)

(3)
并且:
(4)
小波包的能量守恒性使得對于第k層的能量Ek等于該層各子頻帶能量的總和,即:
(5)
同時,s(t)無論分解到第幾層,各層總能量保持不變。對于原始信號的能量E以及第k層的能量Ek有:
E=E1=E2=…=Ek
(6)

(7)
(8)
(9)

除了上節大氣電場值變化的頻率特征外,大氣電場值的強度幅值在雷電預警相關研究中也使用過。如宋佳軍等[12]設定2 kV/m,5 kV/m,8 kV/m,12 kV/m,15 kV/m五級預警。為此,引入s(t)的均值和方差描述其強度幅值特征。考慮到電場值有正負性,如以下情況:
如圖5所示,給定sin(x/100)和2sin(x/100)兩個信號,其幅值的均值在一個周期內均為0,出現正負極性能量相互抵消的情況,兩信號不能區分。但這兩個信號在能量絕對大小上不同。如對大氣電場值的均值做絕對化處理后|sin(x/100)|和|2sin(x/100)|,幅值的均值能很好地區分開兩個信號。所以,本文選擇大氣電場強度幅值經過絕對化處理后的均值和方差作為分類特征的一部分。

圖5 幅值能量絕對值化對區分影響的對比
最終,本文構建表1所列舉的指標作為分類特征。所有的特征在使用之前都進行歸一化處理。

表1 分類特征
隨機森林是一種基于統計學習理論的組合分類器,相對于其他分類器,隨機森林有分類精度高,模型泛化能力強,可以在分類過程中給出特征重要性等優點。
隨機森林將bootstrap重抽樣方法和決策樹算法相結合,算法的本質是構建一個樹型分類器{h(X,θk);k=1,2,…}的集合,然后使用該集合通過投票進行分類和預測。
一個隨機森林分類器具有多棵決策樹。對于第k棵樹,引進隨機變量θk,它與森林中的任意一棵樹的隨機變量θj都是獨立同分布的。利用訓練集合θk來生成第k棵樹,等價于產生一個分類器h(X,θk),其中X是一個輸入向量。Θ由介于0到N之間某些的隨機整數組成。Θ的性質和維度(量綱)依賴樹的構造過程。在生成大量的樹之后,讓這些樹進行投票選出最流行的類,其結果即為分類器分類結果:
(10)
式中:H(x)表示組合分類模型,hi是單個決策樹的分類模型,Y表示輸出變量(或稱目標變量),I(·)為示性函數。式(10)說明了使用多數投票決策的方法來確定最終的分類。
本實驗選用大氣電場數據為江蘇利港的大氣電場儀(120.079 E,31.991 N)于2016年2月至12月測量所得,采樣頻率為每秒一次。該數據集的基本數值特征為全年的電場強度平均絕對值約為0.19 kV,場強絕對值方差為0.1。同時,雷電監測網提供該地區同期的雷電發生定位數據,考慮到大氣電場儀的探測有效距離為20千米,將以大氣電場儀為中心半徑20千米內的所有雷電記錄視為可檢測記錄,匹配大氣電場儀數據。
由于該數據時間跨度大,大氣電場數據采樣密度高,特別是提取負樣本時,必須先從時間軸掃描大氣電場儀數據,找到有波動的時段,所以對電場數據進行預處理:大部分情況下電場值在0附近,以場強絕對值超過0.3 kV定位波動點,并將間隔5分鐘內的相鄰波動點間的數據相連,組成最長波動時間段。將時間段內平均場強絕對值超過0.4 kV的情況結合同時期的雷電定位數據劃分正負樣本。某個時期大氣電場值有波動而無雷電發生,則為負樣本(如圖1);反之大氣電場值波動有對應的雷電匹配則為正樣本(如圖2)。
雷電從發生、發展、高潮到結束有一個時間過程。因此,每一個樣本按7 200秒時間跨度對齊,小于7 200秒的波動時間段,兩端擴展;大于7 200秒的兩端截斷。
獲取正負樣本之后,因為正樣本之間的雷電頻次數量相差很大(從1次到1 700余次),對正樣本進一步細分。即存在電場波動且發生雷電的樣本,分成弱、中和強3組,分別按以下三個數量區間劃分:4~18次、18~100次、100次以上(排除4次以下的突發特殊情況)。經統計,一共提取了符合標準的樣本430個,其中包括389個負樣本、16個弱樣本、14個中等樣本和11個強樣本。
本研究目的是為區分負樣本和正樣本,所以使用后面兩個指標對分類結果進行評估:真陽性率TPR(True Positive Rate)和假陽性率FPR(False Positive Rate)。即:
TPR=TP/P
FPR=FP/N
式中:TP為被分類為陽性的陽性樣本數量;FP為被分類器錯分為陽性的陰性樣本數量;P為測試集中陽性樣本的數量;N為測試集中陰性樣本的數量。
由于提取出的正樣本數量相對較少,在對方法進行評估時,選擇留一法驗證進行性能評估:每次將樣本分為兩部分,每次取一個樣本作為測試用例,其余樣本作為訓練集。假設有K個樣本,則輪流將其中的每個樣本作為測試其他作為訓練集,循環K次。留一法交叉驗證樣本利用率最高,適合于小樣本的情況。
由于強雷電樣本的數量為11個。為保證正負兩類樣本對分類器訓練的樣本平衡性和各個正樣本之間的訓練強度相等性,每次訓練均從389個負樣本隨機抽選11個負樣本和11個正(弱和中是隨機抽11個)樣本使用留一法交叉驗證。小波包提取層次為3層。實驗程序在MATLAB和Python環境實現。
對每種情況均進行3次訓練-測試過程,其結果如表2所示。

表2 分類結果
從結果上,負樣本與弱正樣本的區分難度大于中和強等級情況。但是總體上,三個等級的準確率以及誤報率都非常好,證明本方法對于雷電的正負樣本識別在不同雷電級別下均有很好的分類效果。
雷電現象的成因與雷云中電荷分布、電場變化有著因果關系。大氣電場儀通過測量大氣電場值可用于雷電識別與預警。本文針對大氣電場識別雷電發生時會出現假陽性結果的問題,提出了基于小波包和隨機森林的方法。在三個雷電數量等級上與負樣本進行區分實驗,實驗結果的優良性證明本方法的有效性。
[1] 田鋒濤.雷電對電力線路的危害以及雷擊計算方法探討[J].機電信息,2012(18):158-159.
[2] 張義軍,孟青,馬明,等.閃電探測技術發展和資料應用[J].應用氣象學報,2006,17(5):611-620.
[3] 張淑霞,吳安坤,丁旻,等.大氣電場儀的工作原理淺析[J].電子世界,2014(22):399-399,400.
[4] 潘家利,王明亮,吳海,等.基于大氣電場的雷電監測預警技術研究[J].氣象研究與應用,2012,33(3):94-97.
[5] 郭鈞天,曾瑜,田浩,等.基于大氣電場動態自適應閾值的雷電預警方法研究[C]//第30屆中國氣象學會年會論文集.2013:1-5.
[6] 王振會,徐棟璞,曾慶鋒,等.利用地面大氣電場和雷達資料進行雷電臨近預報方法[J].科技導報,2012,30(14):42-48.
[7] 丁德平,李迅,鄧長菊,等.北京地區大氣電場的特征及雷電預警中的訂正分析[J].沙漠與綠洲氣象,2012,6(4):68-73.
[8] 康海龍,劉成,姜秀杰,等.基于大氣電場特征的天氣現象識別算法研究[J].計算機仿真,2014,31(12):312-315,324.
[9] 余蓉,杜牧云,杜九三,等.大氣電場儀資料的小波去噪研究[J].成都信息工程大學學報,2016,31(2):175-179.
[10] 李艷,王振會,陳紅兵,等.基于小波技術的地面大氣電場數據處理[J].氣象科學,2012,32(2):177-181.
[11] Mallat S G.A Theory for Multiresolution Signal Decomposition:The Wavelet Representation[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,1989,11(7):674-693.
[12] 宋佳軍.DNDY地面電場儀的研制及電場數據融合閃電數據進行雷電監測預警的研究[D].中國科學院研究生院,2008.