楊月,孫博,馬曉忱,羅雅迪,孫英云
(1.華北電力大學電氣與電子工程學院,北京市 102206;2.中國電力科學研究院有限公司,北京市 100192)
輸電線路裸露在大氣中,其運行狀態直接受天氣變化制約。近年來,極端氣象災害頻發,高溫熱浪、低溫冷害以及冰雪、臺風等極端氣候嚴重影響著電網安全[1-4]。2021年初,美國德克薩斯州電網受北極寒潮影響,發電機組因結冰而無法運轉,電力供應急劇下降,造成嚴重的經濟損失和社會影響[5]。因此,預測由天氣導致的線路故障概率可以為電力部門提供預警參考,使其合理地制定線路防護和修復計劃,保證電力系統的安全穩定運行[6]。現有的研究中,對輸電線路故障進行預測大致可分為統計學方法[7-19]和人工智能類方法[20-25]。
統計學方法可分為參數模型[7-11]和非參數模型[12-19]兩類。參數模型如傅里葉級數和泊松模型可以對氣象信息和歷史線路故障樣本進行回歸分析[7-8]。這種參數方法將故障發生的概率限制在給定的分布中,但線路故障發生概率遵循何種分布還未有定論。現有的研究為避免考慮故障概率的先驗知識,給出了2種研究方法。一是忽略掉系統故障環節,直接將配電系統的可靠性建模為天氣條件的直接函數[9-10],二是基于電力系統風險評估理論,選擇描述模糊集合的函數來描述線路故障概率受氣象因素的影響[11]。雖然一定程度減輕了先驗知識的束縛,但本質上還是依賴給定函數對故障概率分布進行擬合。非參數模型包括馬爾可夫模型、分位數法、區間法等,是一種基于數據但不依賴先驗分布的方法。馬爾可夫模型是建立氣象與電網故障關系常用的一種非參數模型[12-14],有二態模型、三態、多態模型[15]和衍生模型[16]。馬爾可夫模型假設狀態變化的概率是固定的,缺乏對天氣特征不確定性的考慮。天氣特征具有天然的模糊性和不確定性,在對與天氣相關輸電線路故障進行精確概率預測時存在困難[17-18]。應用平均故障率和故障預測區間的模型則在一定程度上考慮了模型對氣象不確定性。統計類方法中的非參數方法相較于參數類方法能在很大程度上減輕對故障先驗分布知識的依賴,并且提高預測精度[19]。非參數法限制條件少、適應性廣,但對于大樣本數據,如若不采用適當的近似方法,將面臨繁復的計算問題。
人工智能方法擁有強大的非線性表達能力,并且對噪聲數據的容錯性較強。文獻[20-21]分別通過建立極限學習機(extreme learning machine,ELM)模型和融合注意力機制的自然語言處理網絡來學習極端天氣條件與給定分布參數之間的非線性關系,但模型有過擬合傾向,泛化能力較差。在機器學習算法中,以集成為基礎的方法相較于單一的學習方法能提供更好的故障估計,并能利用模型優秀的泛化能力來應對過擬合問題[22-24]。這些模型僅建立起單一氣象條件或極個別氣象條件對線路故障的影響,實際并未考慮氣象條件間復雜的相關性,忽略了其余潛在氣象條件對電網故障的影響[23]。利用神經網絡對概率進行非參數法的預測在氣象相關故障的不確定性預測中有良好的表現。為了克制過擬合現象,并且考慮多種氣象間的相關性,文獻[25]基于貝葉斯神經網絡(Bayesian neural network,BNN)建立了預測風、雨和閃電天氣相關故障模型。該模型具有不確定性估計的能力,但BNN依靠輸入氣象信息的確定性有向圖,無法發掘有向圖外其他氣象間的潛在聯系。注意力機制則是一種能夠依據輸入間的相關性對輸入序列進行權重分配的機制,在負荷的短期預測和風電出力的超短期預測中得到應用[26-28],而在氣象相關故障概率預測中應用較少。引入注意力機制能發掘氣象輸入數據間的相關性,突出關鍵氣象特征,提升預測精度。
綜上,考慮到天氣相關線路故障概率分布的未知性,非參數模型是研究該問題的有效工具。目前的人工智能方法利用多線程的集成學習來應對過擬合現象,但仍欠缺對氣象條件間相關性以及氣象條件不確定性的挖掘。多頭注意力(multi-head attention,MHA)機制是一種通過多次并行計算注意力的概率分布,來量化每個輸入對輸出影響大小的神經網絡結構[29],具有集成學習擁有的克服過擬合的優點,能夠提煉多輸入間的相關性并進行注意力權值分配,可用于提取輸入氣象間以及氣象和故障概率間的相關性。本文研究的工作內容為分析氣象相關輸電線路典型故障的物理化學作用機理和統計特征,建立基于融合注意力機制的輸電線路故障概率預測模型,并使用停電數據對模型進行檢驗,驗證模型的有效性。
輸電線路典型故障可大致分為機械類故障和絕緣類故障兩類[30]。氣象因素在輸電線路故障成因中占比很高,其中風害、冰害、雷害是最為活躍的影響因子。
在常規的氣象預報中,風的預報包括風向和風速2個特征,風向在一定程度上決定了輸電塔迎風的受力面積,風速則決定了輸電塔受風力破壞的大小。當風向與桿塔及導線構成了某些特殊角度,此段線路會因受較大的側向風荷載的壓迫,使塔底的承重超過設計的最大限值。風速越大,塔底受風的作用力越強。當作用力超過桿塔及線路的承受能力時,便會發生倒塔斷線或桿塔傾斜事件。除上述機械故障外,風還會使線路發生風偏閃絡、跳閘等絕緣性故障。
覆冰的形成與大氣溫度、濕度、風有關,在低溫高濕的風口環境尤易形成。線路上的覆冰增加了導線(地線)開裂、桿塔變形、金具破損的可能性。在大風天氣下,線路的不均勻覆冰會導致線路發生覆冰舞動、短路跳閘或更嚴重的短路燒傷事件。在溫度升高時,若融冰過程中氣溫達不到使覆冰全部溶解的溫度,融化的水和凝結的冰凌均會導致絕緣子的絕緣特性降低,增大絕緣性故障發生的可能。
雷電集中發生在濕度溫度雙高的環境中,此時云層形成的既快又厚,易產生雷電。相較于由風害和冰害導致的輸電線路機械類故障,雷害導致的機械類故障通常是在發生絕緣類故障后,因絕緣損害導致金具遭到不可逆的破壞,而非使金具受到直接的機械性損害。
以上的分析表明,輸電線路與天氣有關的故障主要是由風害、覆冰以及雷電災害造成的。形成這些氣象災害的基礎氣象條件間的物理化學作用機理復雜且難以量化,溫度、濕度、風速、日照強度等基礎氣象條件的不同組合,可能會誘發不同的災害氣象。注意力機制可以選擇性地關注部分輸入數據,對樣本中的不同特征賦予不同的權重分配,實現神經網絡對輸入特征的動態分析,并將加權求和后的信息輸入神經網絡學習,適于反映常規氣象條件在極端氣候形成時的權值。
多頭注意力機制指在注意力機制的基礎上進行多次并行運算,使網絡能夠從多維的角度挖掘相關性,集成單次注意力運算的擬合效果,能有效防止網絡過擬合。因此,本文使用多頭注意力機制來建立氣象信息間的相互影響和氣象信息對故障的影響。
注意力機制的計算本質藏匿在查詢Q、鍵K、值V三個向量中[31]。首先使用單個特征對應的查詢向量Q和所有與該特征有相關的特征的鍵向量K進行相似度計算得到兩者間相關性的權重值,反映各鍵向量對應的特征對查詢向量Q所對應特征的影響大小。常用于計算Q、K間相關性權重值的函數有向量點積、矩陣轉換、向量拼接等。接著使用softmax函數將計算所得權重映射到(0,1),令所有權值相加為1,并將權重和對應的每個特征的值向量相乘并求和,給出所有特征對該查詢向量影響的概率乘性,以此得到當前查詢向量的注意力值,如式(1)所示。在本模型中選用向量點積作為相似度計算函數,如式(2)所示。
(1)
f(Q,Ki)=QTKi
(2)
式中:fsoftmax(·)為softmax函數;Ki為第i個輸入的鍵向量;Vi為第i個輸入的值向量;f(·)為相似度函數。
注意力機制中,將查詢向量來自某組輸入本身,提取輸入對象間相關性的方法稱作自注意力機制。Q、K、V都是由原先的輸入向量通過矩陣變換或網絡變換得到的,如式(3)所示。Q向量最大限度地保留了輸入本身的特點;K向量是為了區別于Q向量來放大輸入數據間的異同,為計算各輸入間相似度和相關性構建的向量;V向量與Q向量相似,用于反映輸入的特征。在進行Q、K向量的相似度以及加權計算后,所得結果與V向量相乘即得最后自注意力機制的輸出。
(3)
式中:X為輸入向量,在本文中為由氣象數據組成的向量X=[x1,x2,…,xn],其中xi(i=1,2,…,n)表示第i個氣象特征,n為氣象特征的個數;WQ為查詢向量系數矩陣;WK為鍵向量系數矩陣;WV為值向量系數矩陣。
多頭注意力機制通過將并行運算得出的D維結果拼接在一起,再由多頭系數矩陣進行線性轉換來從更多維的角度挖掘輸入間的隱含關系,從而得到最終的多頭注意力值。其表達式如式(4)所示:
(4)

在本文所提出的預測模型中,多頭注意力運用在模型的2個部分。第1部分的輸入是各類氣象特征,稱為MHA1層,其目的是建立各類氣象特征間的相關性,輸出隱含氣象特征向量;第2部分的輸入是MHA1層輸出的各類隱含氣象特征向量和故障特征向量,稱為MHA2層,其目的是建立各類氣象特征與故障特征間的相關性。
圖1為MHA1層的示意圖。輸入的氣象特征向量以自身的查詢向量Q為基準,與其余氣象特征的鍵向量K、值向量V進行注意力運算,并行進行N次運算后得到的隱含氣象特征向量即為第一個多頭注意力網絡的輸出。通過MHA1層,各類氣象特征相互間復雜的物理化學作用機理被隱性地包含在隱含氣象特征向量中。

圖1 氣象間注意力特征挖掘網絡Fig.1 Inter-meteorological attention feature mining network
圖2為MHA2層的示意圖。隱含故障特征向量和總氣象隱含向量進行水平拼接后得到上下文向量h′c,h′c以自身的查詢向量Q為基準,與其余隱含氣象特征向量的鍵向量K、V進行注意力運算。h′c作為既包含了氣象特征也包含了故障特征的向量,在其余氣象特征向量與其做注意力計算時能夠反映各類氣象特征對故障的影響程度,還能夠讓2倍維度的拼接向量回歸隱含向量的維度大小。

圖2 氣象與故障間注意力特征挖掘網絡Fig.2 Attentional feature mining network between meteorological and faults
MHA2層的輸出作為單頭注意力層的輸入。數據在單頭注意力層中并未進行完整的注意力機制運算,而只進行各隱含氣象特征與上下文向量的相似度計算,表示各氣象特征對故障特征的影響力大小,最終以softmax函數歸一化處理后的數值作為各氣象特征造成線路故障狀態的概率值的大小。
網絡整體結構如圖3所示,首先將預處理后的氣象數據通過一個多頭注意力層網絡和一個前饋(feed forward,FF)層網絡進行氣象數據相關性的信息挖掘和維度擴充,并在這2層結構后分別增設殘差歸一化(add and norm,AN)層,該層的結構能夠提升網絡的訓練效率,使氣象信息在網絡層傳遞時依舊保持良好的梯度傳播功能,避免由于網絡較深,而在傳遞過程中丟失最初網絡氣象輸入的特征。

圖3 故障概率預測網絡總結構示意圖Fig.3 Schematic diagram of total structure of fault probability prediction network
經過這4層網絡結構后得到的向量稱為隱含氣象特征向量,其中包含了氣象間相互影響,如式(5)所示。計算隱含氣象特征向量的平均值,如式(6)所示,即得到包含所有氣象特征的總氣象隱含向量。
hi=fAN(fFF{fAN[fMHA1(Qi,K,V)]})
(5)
(6)
式中:Qi為第i個輸入的查詢向量;fMHA1(·)為多頭注意力MHA1層過程函數;fAN(·)為殘差歸一化函數;fFF(·)為前饋層過程函數。
為了挖掘故障次數與氣象數據間的關系,將故障數據z作為另一輸入通過一個前饋層網絡擴充其維度使其與隱含氣象特征向量維度相同,得到的輸出向量稱為隱含故障特征向量,如式(7)所示。將隱含故障特征向量hz和總氣象隱含向量hg進行水平拼接,得到包含氣象及故障所有信息在內的上下文向量h′c,如式(8)所示。
hz=fFF(z)
(7)
h′c=[hz,hg]
(8)
在得到上下文向量后,將此向量再輸入另一個多頭注意力層MHA2。該層的目的與MHA1層并不同,MHA2層注重挖掘各隱含氣象特征向量對拼接向量的影響程度,得到隱含拼接向量hc,如式(9)所示。此時的hc為將故障特征和氣象特征納入考慮的綜合向量,其維度與隱含氣象特征向量維度相同。
hc=fMHA2[h′c,(h1,…,hn)]
(9)
式中:fMHA2(·)表示多頭注意力MHA2層過程函數。
在注意力機制的計算過程中,網絡通過計算各輸入相互間的權重并對輸入加權求和得到輸出,其中的權值代表輸入間的影響力。為得到各氣象特征在綜合向量中的權重,在MHA2層后添加一個單頭注意力(single-head attention,SHA)層來計算各隱含氣象特征向量對隱含拼接向量hc的相似度,即各個氣象因素對此次故障發生的影響占比,如式(10)所示:
Pi=fSHA(hc,hi)
(10)
式中:Pi表示第i個輸入對應的故障概率;fSHA(·)表示單頭注意力層過程函數。
最后,將各個氣象特征造成故障發生的影響占比P1,…,Pn在前饋層網絡中進行維度的伸縮變換,得到該氣象特征下線路故障的概率,如式(11)所示:
P=fFF(P1,…,Pn)
(11)
本文所提出的預測模型中,用于深度擬合的前饋層有2個作用:一是對信息進行前饋傳播,加深網絡深度,增強網絡的擬合能力;二是對信息進行維度變換,使網絡最終輸出單個故障概率值。
停電算例數據來源于美國華盛頓州西雅圖市,數據包括該市共5 664天的氣象數據及對應天氣下的線路停電次數,7個氣象特征分別為日照長度、平均溫度、平均濕度、最大風速、平均風速、最大陣風和降水。表1為因自然氣象災害影響導致的故障事件統計數據。

表1 算例數據統計Table 1 Case data statistics
如表1所示,該市受自然氣象災害影響較大,因天氣條件發生的故障事件極多。發生1~3次停電事故和發生4次及以上停電事故的天數分別占數據總量的21%和48%。由于該市5 664天的電網停電數據相對來說數量較大,因此可先將此數據中正常、輕微故障事件(1~3次)及嚴重故障事件(4次及以上)發生的頻率值近似看作概率值的先驗,人為對該數據進行離散概率賦值。
在神經網絡訓練中,若特征之間具有不同的值范圍,不僅會使神經元的權重在不同的范圍內波動,導致權值相乘時產生數值問題,還會使梯度在傳播時發生梯度爆炸或消失等問題。因此,在數據輸入網絡之前需對數據進行歸一化處理,以滿足網絡穩定求解的需要。
根據式(12)將原始的氣象數據處理為標準正態分布的數據:
(12)
式中:μi為氣象特征i的均值;σi為氣象特征i的方差;x′i表示氣象特征i歸一化后的數值。
相較于將線路故障事件采用故障與否的二元分類的方法,根據輸電線路歷史運行數據將故障程度劃分為3個區段能更直觀地體現出線路故障程度。利用概率學中的大數定律,將每種事件發生的頻率值Y1,Y2,Y3近似看作概率值的先驗,人為對該數據進行離散的概率賦值。在發生的頻率區間范圍內進行隨機賦值:
(13)
式中:ynormal為正常故障概率標簽;yslight為輕微故障概率標簽;ysevere為嚴重故障概率標簽。
由此,每條日氣象數據均在對應的頻率區間內被賦予了故障概率標簽值y。
將5 664條日氣象數據隨機打亂后進行數據集分割,前4 000條氣象故障數據作為該預測模型的訓練集,后1 664條氣象故障數據作為該預測模型的測試集,分別使用測試集和訓練集計算模型的準確率。
通過對比預測網絡模型的輸出概率值所在的先驗概率分布的三類區間(正常概率為0~0.31、輕微故障概率為0.31~0.52、嚴重故障概率0.52~1.00)與標簽概率對應區間是否相同來判斷預測結果是否相對準確,將判斷準確的數據量占總體數據量大小的百分數作為模型的準確度。
采用BP網絡與本文所提注意力機制模型做對比,所得損失值和準確率如表2和圖4—6所示。從圖4可知,BP網絡與本文所提模型均能夠有效收斂,但本文所提模型具有更好的收斂性。結合圖5、6與表2可知,2種模型在訓練收斂時對訓練集均有較好的擬合能力。但在訓練過程中,BP網絡訓練集準確度逐步上升時,測試集準確度出現下降趨勢。這表明BP網絡在訓練收斂時存在嚴重的過擬合現象。而融合注意力機制網絡訓練準確度曲線和測試準確度曲線在訓練中較為同步,具有更好的泛化性能。

圖5 本文網絡與BP網絡訓練集準確度對比Fig.5 Comparison of the accuracy of the training set between the proposed network and BP network

表2 本文網絡和BP網絡效果對比Table 2 Effect comparison between the proposed network and BP network

圖4 本文網絡與BP網絡訓練損失對比Fig.4 Comparison of training loss between the proposed network and a BP neural network
表3提取了部分數據作為模型效果展示,前3條數據中日照強度相同,因第1天和第3天有降雨,對應日均濕度較第2天更大,日均氣溫更小。第2天的日最大陣風風速達到了23.9 m/s,達到9級風力,預測的故障概率值為41.7%,實際造成了電網1次故障。第3天日最大風速達到了17.1 m/s,達到7級風力,由于同時伴有低溫和小雨,增大了輸電線路特殊部分受風害及冰害的可能性,預測的故障概率為67.2%,實際造成了電網10次故障。同樣,由于第5天的氣象條件相較于第4天有更強的13級大風并伴有中雨,環境濕度更大,預測故障概率為42.8%,實際導致了西雅圖市在當天共發生了2次停電故障。

圖6 本文網絡與BP網絡測試集準確度對比Fig.6 Comparison of the accuracy of the test set between the proposed network and BP network

表3 典型數據對比Table 3 Comparison of typical data
數據結果證明了該融合了注意力機制的神經網絡模型在西雅圖市算例中能對線路故障概率進行較準確的預測,可以為電力公司制定運維和修繕計劃提供支持。
本文提出了一種融合注意力機制的線路故障概率預測模型,經過算例分析,可得以下結論:
1)相較于傳統BP模型,注意力機制可以有效提取重要的特征信息,具有更好的預測精度與泛化能力;
2)相較于傳統統計學模型,本文模型在進行概率預測時不依賴于對預測目標先驗概率分布知識的掌握;
3)相較于對故障進行二元分類的分類模型,本文模型用概率值表示系統故障程度的大小能夠提供更直觀的預警信息。
此次工作依舊存在一些不足:本文對模型的參數解釋不夠,忽略了模型中注意力層的參數效果;數據集正常狀態的樣本較故障狀態的樣本更少,與實際中故障發生的頻率存在一定差異,外推能力較弱。后續研究可以從以上所提缺陷出發,依次對模型進行修改與完善。