


摘要:針對電氣故障檢測過程中,時效性和準確性低的特點,提出了一種基于Q-Leaming算法的電氣故障檢測模型(QLEFDM)。該模型將Q-Learning算法運用到電氣故障檢測技術當中,可以對熔斷器故障進行有效的檢測。該模型可以有效地判斷熔斷器的故障,提高故障檢測的時效性和準確性。經過實驗證明了該模型的有效性。
關鍵詞:熔斷器;故障診斷;強化學習;Q-Learning算法
中圖分類號:TP391 文獻標識碼:A
文章編號:1009-3044(2020)05-0258-03
開放科學(資源服務)標識碼(OSID):
1 概述
隨著經濟的發展,城市化進程日益加快,電力負荷對供電的可靠性要求越來越高,這時候就必須保障供配電系統的安全可靠。熔斷器是指一種當電流超過規定的值時,由其本身產生的熱量使熔體熔斷,從而斷開電路的一種電流保護電器…。熔斷器被廣泛地應用于高低壓配電系統,控制系統以及用電設備中,通常被作為短路和過電流的保護器[2]。在電力系統當中,熔斷器可以保護電力設備的安全運行,但是由于電力網絡中的各種故障,以及熔斷器本身的缺陷,會造成熔斷器的熔斷故障,造成不可挽回的損失,因此熔斷器故障檢測技術的研究日益重要起來。
隨著電氣設備使用數目的增多,熔斷器故障發生越來越頻繁,由于大部分熔斷器故障無法及時預知,造成的損失越來越多,因此熔斷器的故障檢測技術研究尤為重要。當熔斷器的端電壓超過額定范圍,電流超過額定范圍,端電壓差超過額定范圍,這些都有可能引起熔斷器的故障。而目前的熔斷器故障檢測技術主要是對熔斷器進行巡視檢查,檢查熔斷器的額定電流與實際是否相匹配。檢查熔斷器外觀有無損傷,變形,開裂現象,絕緣部分有無損傷或閃絡放電痕[3]。而當熔斷器發生故障,端電壓,電流超出額定范圍的時候,熔斷器可能暫時會處于正常運行狀態,不會立即損壞,因此熔斷器無法及時維修更換,故障檢測準確性低。
隨著人工智能技術的興起,越來越多的人工智能技術開始運用到實際領域當中,強化學習是目前機器學習領域一個重要的分支,它能夠完成從環境到動作映射的自我學習的過程,實現與環境的交互,強化學習通過尋找智能體在環境中獲得的最大累積獎賞值,從而獲得最優策略[4]。而強化學習技術目前也被很好的運用到了現實生活當中,已經在優化調度,游戲博弈等領域得到了很好的應用[5]。針對現有的熔斷器故障檢測技術時效性和準確性低的缺點,該模型將強化學習中的經典算法Q-Learning[6]算法運用到熔斷器故障檢測當中,利用Q-Learn-ing算法的優勢,收集熔斷器運行過程中的實時數據,運用該模型對這些數據進行分析計算,以達到對熔斷器故障的準確檢測,降低熔斷器故障的發生率。
2 相關工作
在通過強化學習算法解決問題的時候,我們通常可以將問題建模成一個馬爾可夫決策過程(MDP,Markov decision pro-cess)。一個馬爾可夫決策過程可以用一個四元組來表示,在熔斷器故障檢測模型中,包含一個環境狀態集合S;熔斷器故障動作集合A;狀態轉移概率P(s,a,s'),表示在狀態s下采取動作a轉移到狀態s的概率;獎賞函數R(s,a,s),表示Agent在狀態s下采取動作a轉移到狀態s所獲得的瞬時獎賞值。而對Agent在給定一個狀態或者一個狀態動作對時,為了要對狀態或者狀態動作對的好壞程度做出評估的時候,在強化學習中,通常會引入值函數的定義,通過值函數對策略的好壞程度做出評價,而值函數有狀態值函數Vπs)和動作值函數Qπ(s,a)兩種,其中Qπ(s,a)表示在狀態動作對fs,a)在采取策略π的情況下所得到的累積期望獎賞。Vπfs)表示在狀態s下由策略π所得到的累積期望獎賞。他們的所對應的Bellman方程如公式(1)和公式(2)所示:
3 檢測模型
該熔斷器故障檢測模型主要包括:數據采集單元,數據處理終端和故障處理終端。以上單元通過協同合作完成對熔斷器故障的檢測。
3.1 模型的創建
模型框架由三部分組成,其體系結構如圖1所示。
數據采集單元,主要用于采集熔斷器的狀態數據,所述狀態數據包括端電壓以及熔斷器兩端的電極溫度,本次模型主要采集端電壓數據。數據處理終端,所述數據處理終端與所述數據采集單元相連,所述數據處理終端用于獲取所述數據采集單元的狀態數據,所述數據處理單元包括數據存儲庫和o-學習算法模型,所述Q-學習算法模型用于利用獲取的狀態數據對熔斷器的狀態數據進行預測,然后通過這個模型輸出預測的狀態數據。
從以往所收集的熔斷器端電壓歷史數據可知,它的每個時刻測量的電壓值在區間[0.1,0.3]之間,將連續的三個時刻的熔斷器端電壓數據作為一個狀態集,將該狀態集作為Q-Iearning算法的輸入,在強化學習算法中動作A和狀態S是對應的,當SE[O.1,0.3],通過,在該區間上選擇最優的動作,達到預測下一時刻熔斷器狀態目的。
假設下一狀態的所預測到的端電壓值為U'+l,實際的端電壓值為vt+l,那么他們兩者之間誤差為E=|Ut+1-Vt+1|,那么設模型中的獎賞為一個負值的變量,相當于預測結果的懲罰值。如公式6所示:
r=-E
(6)
當預測值與真實值越靠近的時候,獲得的獎賞值越大,反之所獲得的越小。
故障處理終端,所述故障處理終端分別與數據采集單元和數據處理終端相連,所述故障處理終端用于獲取數據采集單元的熔斷器的真實狀態數據,以及獲取數據處理終端的熔斷器的預測狀態數據。所述故障處理終端包括比較單元、判斷單元和報警單元,所述比較單元用于將熔斷器的預測狀態數據與對應的真實狀態數據進行比較,所述判斷單元用于判斷比較單元輸出的比較結果是否大于閾值,如果比較單元輸出的比較結果大于閾值則啟動報警單元。
在該熔斷器故障檢測模型中,將持續獲得的熔斷器的正常工作下的狀態數據,Q一學習算法模型,通過該模型可輸出熔斷器的預測狀態數據,預測狀態數據為預測正常工作下的狀態數據。然后,故障處理終端將真實狀態數據與預測的狀態數據比較,如果實測獲得真實數據與預測的狀態數據偏差比較大,說明熔斷器發生故障,此時就需要報警。其邏輯框圖如圖2所示。
3.2 模型分析
該模型將Q-learning算法運用到熔斷器的故障檢測模型當中,直接利用熔斷器的真實數據構造檢測模型,利用Q-學習算法對熔斷器的下一狀態進行預測,所以具有很好的目的性,能夠大大提高檢測的準確度。同時模型具有很強的適應性。
4 實驗分析
4.1 實驗數據及設置
為了驗證該模型的有效性,將本文所提出的方法運用到熔斷器的故障檢測當中,數據采集來自實驗室某一熔斷器的真實數據,實驗中的熔斷器數據來自2019年1月1日下午1點到2019年1月1日下午2點。部分實驗數據如表1所示:
如圖表中所示,數據集中包括電流值,端電壓值,電極溫度,電極溫度差等信息。 在實驗中,數據集可以分為兩個部分,一部分用于該模型的訓練,一部分數據用來測試該方法的性能。算法程序基于python編程,仿真環境為python3,模型中的學習速率α=0.4,折扣率因子γ=0.99。
4.2 實驗結果分析
(1)預測結果
圖3中主要展示了運用Q-Iearning算法對熔斷器的端電壓預測值與實際值得對比圖,橫坐標表示時間步,縱坐標表示熔斷器端電壓,在本次實驗中,算法被執行了25次,圖中數據為25次實驗的平均值,從圖3中可以看出,該算法可以較為準確的預測熔斷器的端電壓數據。
(2)誤報率對比
圖4將該模型對熔斷器的故障誤報率與NINES模型做出對比,可以看出隨著熔斷器故障發生次數的增多,系統對故障的誤報率都呈逐漸增加的趨勢,但是整個測試過程中,該模型的誤報率都要低于對比模型。
5 結論
本文提出了一種基于Q-Iearning算法的熔斷器故障檢測模型,吸收了Q-learning算法的優點,克服傳統熔斷器故障檢測的缺點,能夠及時準確的檢測出熔斷器的故障,具有很好的準確性。能夠很好地降低熔斷器的故障發生率。在該模型中我們運用強化學習的思想來解決問題,是一個很好的嘗試,但是模型中的預設判斷故障閥值是與檢測結果密切相關的,以及該模型是基于單一的端電壓基礎之上,而熔斷器的正常運行與端電流值和電極溫度也有一定的相關性,因此該模型還需要繼續改進,以提高對熔斷器故障檢測的準確性。
參考文獻:
[1]吳江華.基于用電安全性的輸配電工程建設[J].中國科技信息,2013(24):75-76.
[2]呂俊霞.低壓熔斷器的運行維護與故障診斷技術[Jl.燈與照明,2012,36(1):55-57.
[3]孫路陽.10KV跌落式熔斷器故障分析及防范[J].中國新技術新產品,2010(4):156-157.
[4] SUTTON R S,BARTO G A.Reinforcement learning: an intro-duction[M]. Cambridge: MIT PRESS,1998.
[5]馬騁乾,謝偉,孫偉杰.強化學習研究綜述[J].指揮控制與仿真,2018,40(6):68-72.
[6]褚建華.Q-learning強化學習算法改進及其應用研究[D].北京化工大學,2009.
【通聯編輯:梁書】
收稿日期:2019-11-24
作者簡介:楊薛鈺(1995-),男,江蘇南通如皋人,碩士研究生,主要研究方向為強化學習,深度學習。