楊冰雪,姚修遠,蘇宇,丁玉劍*
(1.華北電力大學,北京 昌平 102206;2.中國電力科學研究院有限公司,北京 海淀100192)
特高壓輸變電工程的高壓電氣設備外絕緣介質大多由空氣充當,長空氣間隙的擊穿特性是高壓電氣設備外絕緣設計的重要依據,而間隙結構和氣象條件的改變都會對其造成較大的影響[1-3]。作為典型電極結構之一,棒-棒空氣間隙擊穿電壓有效計算方法的提出對空氣間隙放電特性研究具有重要意義。
數十年來,國內外學者開展了大量空氣間隙放電真型試驗,積累了一些實用的經驗公式,但這些經驗公式大多是基于統計回歸的單參數模型,不能給出不同大氣條件下空氣間隙的擊穿電壓數值[4-8]。空氣間隙的擊穿電壓與間隙結構、電壓波形、大氣條件等多種因素之間存在復雜的多維非線性關系,傳統回歸分析和統計方法難以對其進行有效的分析[9]。而神經網絡、隨機森林、支持向量機(SVM)等機器學習算法能夠很好地處理這種多維非線性關系[10-11],利用合適的機器學習算法建立不同氣象條件下不同距離棒-棒長空氣間隙擊穿電壓預測模型可以有效解決傳統計算方法存在的不足。
早期研究者主要應用BP神經網絡、自組織神經網絡等人工神經網絡算法構建空氣間隙擊穿電壓預測模型,并在小范圍測試集上取得了較好的預測效果[12-14]。然而,神經網絡的參數較多,訓練一個準確率高的神經網絡往往需要較多的數據量和訓練時間,其在小樣本數據上的表現往往不如SVM[15]。支持向量機基于結構風險最小化原則訓練模型,通過引入正則項可以有效避免過擬合現象,其在高維、非線性、小樣本數據的分類和回歸上表現良好[16]。近年來,基于SVM的空氣間隙擊穿電壓預測方法越來越多地被提出[3,17-18]。由于空氣間隙放電真型試驗成本較高,研究者們往往只能得到少量放電數據,所以空氣間隙放電數據是多維非線性的小樣本數據,而SVM可以針對這樣的數據建立精度較高的預測模型。目前空氣間隙的智能計算模型大多都是針對較短間隙,而實際工程應用中長空氣間隙才是常用的絕緣形式。對長空氣間隙的擊穿電壓預測研究也大多只針對棒-板間隙,其他典型電極結構間隙則很少被涉及。
中國電力科學研究院在國家電網特高壓直流試驗基地的不同氣象條件下得到了71組棒-棒長空氣間隙操作沖擊試驗數據。本文選取棒-棒間隙距離、氣壓、干溫和絕對濕度4個特征作為建模的輸入變量,以棒-棒長空氣間隙正極性操作沖擊擊穿電壓作為輸出,首先將數據歸一化,以排除各變量數量級和量綱不同的影響,然后對4個變量進行灰色關聯分析,計算出4個輸入變量與擊穿電壓之間的灰關聯度,定量分析其對棒-棒長間隙放電的影響。然后基于去量綱處理后的樣本建立基于BOA-SVR的棒-棒長空氣間隙正極性操作沖擊擊穿電壓預測模型,在測試集上測試該模型的預測精度,驗證這種計算方法的可行性。最后,利用該預測模型對特高壓直流試驗基地極端溫濕度下的棒-棒間隙擊穿電壓進行了計算。
灰色關聯分析是一種通過系統各因素變化曲線幾何形狀的相似程度確定因素之間關聯性的算法,以灰色關聯度定量刻畫不同因素間的關聯性[19-20]。其基本步驟如下:
第一步,將原始數據進行歸一化(或標準化等)。
第二步,確定參考序列:x0={x0(k)|k=1,2,…,n};比較序列:xi={xi(k)|k=1,2,…,n}(i=1,2,…,m)。
第三步,計算參考序列與比較序列每個對應點的點關聯系數:

第四步,計算參考序列與比較序列的灰色關聯度γ(x0,xi):

SVR是一種監督式學習的方法,其主要思想是通過核函數將輸入變量映射到高維空間,然后在這個高維特征空間中進行簡單的多元線性回歸[21]。
給定訓練樣本(x1,y1),(x2,y2),…,(xn,yn),希望學得一個超平面使得f(x)與y盡可能接近:

式中:ω為回歸系數,b為偏值項;給定一個小的正數λ,若有:

則可以認為f(xi)對yi的回歸是無損的,即,支持向量回歸允許有一定偏差,當偏差小于等于λ時可以忽略,反之則要計算損失。則SVR問題可形式化為

式中:C為正則化常數;lε為ε-不敏感損失函數:

引入非負松弛變量ζi、ζi和拉格朗日乘子

對ω、b、ζi和ζi'求偏導,令其等于0,將原問題轉化為其對偶問題,然后引入核函數,將其原始數據映射到一個高維平面,求解后得到超平面表達式:

核函數的作用是避開高維空間中向量內積計算困難的問題,選擇適當的核函數使構造一個高性能SVR模型的關鍵之一。常用的核函數有線性核、多項式核、徑向基核函數(RBF)等,其中RBF是應用最廣的一個。RBF是一種局部性強的核函數,在大樣本和小樣本數據上都有較好的性能,且參數較少,對噪聲有較強的抗干擾能力。因此本文選取RBF作為SVR的核函數:

從上文的推導中不難發現有3個參數的值不能直接通過樣本得到,需要人為選取,即:損失函數參數ε,正則化常數C和核函數參數γ。其中,ε影響著支持向量的數目,ε越小則支持向量越多,同時也能在訓練樣本上取得更高的回歸精度,但會一定程度降低模型泛化能力。因此ε不能太小,一般取0.01較為合適,故本文選取ε=0.01,而C和γ的選取則通過參數尋優算法實現。正則化常數C反映了算法對超出軟間隔的樣本懲罰程度,若C過小會導致訓練誤差較大,過大則會導致泛化能力較差。而核函數參數γ反映了支持向量間的相關程度,γ過小會導致支持向量間相關度較低,泛化能力較差,而過大時會導致支持向量間的相關度較高,使得訓練誤差較大。因此C和γ都不宜取得過大或過小,本文設置其尋優范圍為[0,50]。
常見的參數尋優方法包括網格搜索、隨機搜索和貝葉斯優化3大類。其中,網格搜索算法通過窮舉的方式在一定范圍內按照給定步長將待定超參數進行排列組合,然后計算比較不同組合訓練的模型損失從而選取最優組[22]。這種方法的計算開銷大,而SVR算法本身計算復雜度較高,使用網格搜索算法尋優效率較低。近年來,以一系列群智能優化算法為代表的隨機搜索方法被廣泛應用與機器學習模型的超參數選擇中,然而,隨機搜索算法往往容易陷入局部極小值,缺乏較強的全局搜索能力[23]。而貝葉斯優化(Bayesian optimization algorithm,BOA)是一種十分有效的全局優化算法,能夠充分利用之前觀測到的先驗信息進行下一次優化,極大提高了搜索效率與全局搜索能力[24]。因此,本文將5折交叉驗證的SVR均方誤差作為優化目標,采用貝葉斯優化算法尋找最優的C和γ。
貝葉斯優化使用代理函數代替目標函數,在采集點的過程中不斷擬合更新該代理函數,使之逐漸逼近真實目標函數,根據擬合結果主動選擇最有潛力的評估點進行評估,避免不必要的采樣[25]。其基本流程如下:
(1)選取一個數據點x使得采集函數最大;
(2)將x輸入目標函數得到其對應的目標值y;
(3)使用新數據(x,y)更新代理函數;
(4)重復上述3個步驟直至達到迭代停止條件。
本文中,代理函數為TPE(tree parzer estimator),采集函數根據代理函數的后驗概率分布構造而來[26]。
本文采取以下兩種指標分析模型在測試集上的誤差。
絕對誤差百分比(absolute percentage error,APE)

平均絕對誤差百分比(mean absolute percentage error,MAPE)

式中:Ut和Up分別為樣本的試驗值和預測值,N為預測樣本個數。
基于貝葉斯優化支持向量回歸算法,本文提出的棒-棒長空氣間隙擊穿電壓預測方法流程圖如圖1所示。

圖1 基于BOA-SVR算法的擊穿電壓預測流程
本文以不同氣象條件下的71組棒-棒長空氣間隙操作沖擊試驗數據作為樣本,選取棒-棒間隙距離d(m)、干溫t(℃)、氣壓p(kPa)和絕對濕度h(g/m3)4個特征作為建模的輸入變量,構建基于BOA-SVR的棒-棒長空氣間隙正極性操作沖擊擊穿電壓預測模型。基于試驗數據的樣本分布情況,選取涵蓋2~7.24 m間隙距離的15組數據作為測試集,其余數據作為訓練集。訓練集和測試集的特征取值范圍如表1、表2所示。

表1 訓練數據輸入特征范圍

表2 測試數據輸入特征范圍
首先,對歸一化后的全部樣本進行灰色關聯分析,取參數ζ=0.5,得到4個特征與擊穿電壓的灰關聯度如圖2所示。
由圖2可知,上述4個灰關聯值均大于0.55,表明4個因素均對棒-棒間隙放電有不可忽視的影響,選取它們作為擊穿電壓預測模型的輸入變量是合理的。其對放電的影響力由高到低排序為:間隙距離、氣壓、溫度、絕對濕度。其中間隙距離與擊穿電壓的灰關聯度顯著高于氣象因素,而氣象因素中氣壓的影響力高于溫濕度。

圖2 4個影響因素與棒-棒間隙擊穿電壓的關聯度
將5折交叉驗證的均方誤差作為適應度函數,通過貝葉斯優化算法搜索SVR的最優參數。BOA的參數設置為:迭代次數=1000,代理函數為TPE,C和γ的尋參范圍為[0,50]。輸入訓練集,得到最優參數:C=38.38,γ=0.09。尋優過程中,模型損失隨兩參數變化的情況如圖3、圖4所示。

圖3 模型損失隨懲罰系數變化情況

圖4 模型損失隨核函數系數變化情況
在得到的最優模型下,測試集的預測結果如表3所示。結果表明:測試樣本的最大絕對誤差百分比為8.5%,平均絕對百分比誤差為3.2%。15個測試樣本中,模型預測的絕對誤差百分比在5.5%以下的有13個,表明該模型預測效果良好。將預測與試驗結果繪制到同一張圖上,并使用冪函數擬合試驗數據得到相應曲線,如圖5所示。由圖5可知模型預測結果與試驗值相近,且預測值更接近擬合的曲線,驗證了本文所提出的棒-棒長空氣間隙擊穿電壓智能計算模型的有效性。

圖5 測試集試驗值和預測值對比

表3 BOA-SVR模型預測結果
綜合考慮北京市氣象參數的變化范圍和棒-棒間隙50%擊穿電壓預測模型中訓練數據的氣象參數變化范圍,由于訓練模型中缺少高溫干燥條件的數據,所以本文選取了高溫高濕、低溫高濕、低溫干燥3種極端氣象條件下的氣象參數如表4所示。對表4中的3種極端溫濕度條件下的棒-棒間隙50%擊穿電壓進行計算,計算結果如圖6所示。通過對3種極端溫濕度條件下的棒-棒間隙50%擊穿電壓計算結果進行分析,發現:高溫高濕條件下的棒-棒間隙50%擊穿電壓最小,而低溫干燥和低溫潮濕下的棒-棒間隙50%擊穿電壓差距不大,可能是因為這兩種條件下的絕對濕度相差僅有1.8 g/m3,而模型代表濕度的輸入是絕對濕度而不是相對濕度,因此導致這兩種情況的預測值極為相似。另外,在間隙距離為2 m時,不同氣象的擊穿電壓最高相差22.0%,而在10 m時,不同氣象的擊穿電壓最高相差降為9.1%,表明隨著間隙距離的增大,氣象因素對放電的影響占比更小,這正與試驗得到的結論相符。

表4 不同極端環境的參數選擇

圖6 極端環境下的棒-棒間隙放電特性曲線預測
本文以棒-棒間隙距離、氣壓、干溫、絕對濕度作為輸入變量,構建了基于BOA-SVR算法的棒-棒長空氣間隙50%擊穿電壓預測模型,得到如下結論。
棒-棒間隙50%擊穿電壓的影響因素與其的灰關聯度排序從高到低依次為:間隙距離、氣壓、空氣溫度、濕度。
構建了基于BOA-SVR算法的棒-棒長空氣間隙50%擊穿電壓預測模型,模型在測試集上的最大絕對誤差百分比為8.5%,平均絕對百分比誤差為3.2%。15個測試樣本中,模型預測的絕對誤差百分比在5.5%以下的有13個,驗證了本文算法的有效性。
基于構建好的棒-棒長空氣間隙50%擊穿電壓預測模型,對高溫高濕、低溫干燥、低溫高濕3種極端溫濕度條件下的棒-棒間隙50%擊穿電壓進行計算,結果與試驗得到的規律基本一致。