999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于有監督機器學習的光伏故障監測系統研究進展

2024-01-01 00:00:00董煌鋒郭信平冀璇肖文波
成都大學學報(自然科學版) 2024年3期

摘 要:系統性總結了有監督機器學習在光伏故障監測技術中的應用.支持向量機(SVM)對懲罰因子和核函數非常敏感,通過優化參數選擇和數據預處理可以提高監測準確率.決策樹(DT)容易過擬合,可以通過剪枝技術避免過擬合問題.隨機森林(RF)對數據量和參數調節要求較高,可以通過算法生成數據和優化參數來滿足要求,從而提高監測準確率.K-近鄰(KNN)在處理高維數據時能力較差,可以引入合適的核函數和數據預處理技術來提高準確率.神經網絡(ANN)需要大量數據和參數選擇,優化算法可以解決這些問題.ANN和SVM具有最高的準確率但耗時較長,DT耗時短但準確率較低.未來的趨勢是進一步優化算法,結合深度學習和智能化發展.由于ANN在故障監測中具有高準確率,基于ANN的光伏故障監測系統預計將成為主流方法.

關鍵詞:光伏故障;有監督機器學習;神經網絡;監測系統

中圖分類號:TM615;TP274

文獻標志碼:A

0 引 言

可再生能源系統被用作以化石燃料為基礎的能源生產系統的替代品,以滿足日益增長的能源需求[1].由于太陽能具有應用廣、無污染與易獲取等優點,已成為了主流的可再生能源之一.近年來,光伏系統的使用量呈指數級增長,光伏市場以驚人的速度發展.

光伏系統主要有太陽能電池板/電池、逆變器、電池、電纜和控制器等組件[2].然而,由于光伏系統較為脆弱,再加上長期在惡劣的環境下工作,就可能發生故障,主要故障如圖1所示.主要分為物理故障、電氣故障與環境故障.物理故障主要分為電池破裂、逆變器故障與接線盒故障等;電氣故障主要分為短路故障、開路故障、接地故障與電弧故障等;環境故障分為暫時遮擋、永久遮擋,以及由于遮擋形成的熱斑故障.一旦出現故障如果不能及時處理就會導致光伏發電能量的大量損失甚至是發生火災,而且光伏系統一般都處于偏遠地帶或者沙漠之中,這為維護與檢修帶來了不便.光伏電站的生產和初始投資的回報主要取決于光伏組件的性能和使用壽命,光伏組件的使用壽命和可靠性的提高是降低光伏系統成本的主要因素.因此,為了提高光伏發電系統的穩定性和安全性,急需開發出一種實時的、迅速的與準確的光伏故障監測系統.

常用于光伏故障監測的技術有目視觀察法、基于伏安(I-V)曲線特性分析法、基于紅外熱成像法與基于數字模型的監測方法等.目視觀察法是通過人眼對光伏系統進行檢查,可以識別明顯的物理故障,如電池破裂與電纜損壞等故障,但不能識別電池隱裂與短路等類型的故障,該方法操作雖相對簡單,但是效率低,且監測故障類型有限;基于I-V曲線特性分析法,是通過與正常的系統或者標準情況下的伏安特性進行對比,從而實現故障監測功能,該方法可以直觀地顯示監測結果,但受環境與測量方法等的影響時,I-V曲線有時會含有大量噪聲,導致無法準確地監測故障,且部分故障的I-V曲線相似,難以區分;基于紅外熱成像法是一種檢測評估區域熱量分布的技術,利用紅外設備得到光伏系統的紅外圖像,再通過對比溫度差異判斷是否存在故障,該方法可以對故障進行定位,但所需設備昂貴且監測精度不高;基于數學模型的監測方法需要對光伏系統進行仿真模擬,并輸入對應參數(如光照幅度等)得到仿真系統輸出的電流、電壓或者功率等數據,再與真實的光伏系統輸出進行對比,從而實現故障監測,使用數學模型的狀態監測系統可實現大多數的監測任務,能夠監測電流、電壓和功率等參數及變化情況,但也存在一些不足,如監測的準確性太低,存在很大的誤差問題.

為了克服傳統光伏故障監測系統的局限性,研究人員開發了基于機器學習的監測系統.隨著計算機與算法的快速發展,機器學習也迎來了又一個高速發展期.由于機器學習的強大功能,已被應用于各個領域來解決復雜的實際項目,同樣地,機器學習在光伏故障監測中也有著強大的競爭力.機器學習主要分為有監督機器學習、無監督機器學習與半監督機器學習[3].有監督機器學習是指使用已知標簽數據來構建、訓練和測試機器學習模型以預測未知結果的方法.通常,有監督機器學習由訓練集、驗證集和測試集構成,其中訓練集與驗證集包含帶有標簽的數據,用于訓練及驗證所使用的模型,而測試集可能只包含未標記的數據,用于對訓練之后的模型進行準確率測試.監督機器學習的技術主要包括支持向量機(support vector machine,SVM)、決策樹(decision tree,DT)、K-近鄰(K-nearest neighbors,KNN)、隨機森林(random forest,RF)與人工神經網絡(artificial neural networks,ANN)等.相比于無監督與半監督機器學習而言,有監督機器學習具有高準確率的優點,因此有監督機器學習更多地被用于光伏故障監測系統中.本文對常見的基于有監督機器學習的光伏故障監測系統進行了全面總結,以期為有監督機器學習在光伏故障監測系統中的應用提供參考.

1 技術簡介

1.1 SVM

SVM是最流行的分類算法之一,是一種具有監督學習的二元分類模型[4],SVM在故障診斷領域應用廣泛,其數學推理嚴格,具有堅實的理論基礎,SVM不僅可以解決線性分類問題,還可以解決非線性分類問題,同時相對于其他機器學習算法,SVM可以避免過擬合或欠擬合的問題[5],SVM的原理如圖2[6]所示.圖2中的坐標軸即為所選的特征值,其中黃色圓點和藍色方塊分別代表不同故障類型的數據(也可以是正常數據),wTx+b=0為超平面方程(optimal hyperplane),可將數據分為2類,wTx+b=1以上為同一類數據,wTx+b=-1以下為另一類數據.其中,w代表SVM的權重向量,b代表偏置量,x即特征向量,最接近決策邊界的數據被稱為支持向量(support vector)[5].對于非線性數據,則可以利用合適的核函數將數據映射到高維空間,進而對數據進行分類,使得高維數據能夠實現線性分類,從而提高分類的泛化能力和置信度.但是在處理大數據集時,該操作會導致SVM對計算資源與樣本數量的要求更高.因此,SVM更適用于小樣本與高維度的數據集.

在使用光伏數據訓練SVM時,需要對懲罰系數等超參數進行選擇,選擇合適的超參數是決定基于SVM的監測故障系統準確率的一個重要因素.此外,SVM處理非線性數據時,會將數據映射到高維空間,這樣就需要設置合適的維數,只有在維數合適的情況下,才能發揮SVM良好的分類性能[4].為了解決SVM超參數及核函數的選擇問題,研究人員引入了優化算法,如Cai等[4]使用粒子群優化算法(particle swarm optimization,PSO)對SVM的超參數進行優化,該方法不僅能準確辨識故障發生所在位置,而且普適性也較好,準確率均在98.21%以上.Eskandari等[7]引入遺傳算法(genetic algorithm,GA)對SVM的核函數進行選擇,使該模型在不同情況下(包括低失配水平和高故障阻抗)對線線故障的分類平均準確率達到了97.5%.Ahmed等[8]引入灰狼優化(grey wolf optimization,GWO)算法對SVM模型超參數進行優化,并對比了多種優化算法結果,最終發現經GWO優化之后的SVM分類模型對于故障檢測的準確率達到了97.28%.但是這些方法存在收斂速度慢、易陷入局部最優解的問題.在GWO算法中,當參數A≤1時,算法進行局部搜索,當Agt;1時,則算法進行全局搜索,同時參數A隨著控制因子a的變化而不斷地變化.傳統的GWO算法中參數A是線性遞減的,但算法的優化過程卻不一定也是線性遞減的,尤其是對于多峰值問題,這樣就容易陷入局部最優.因此,宋玉生等[9]對GWO進行了改進,提出一種非線性控制因子策略,在迭代初期,控制因子a遞減速率較小,參數A的值則較大,更容易克服局部最優的問題,到了迭代后期,控制因子a遞減速率較大,算法更容易找到更優解.同時,對起引導作用的灰狼隨機賦予權重值,從而也可以很大程度上克服陷入局部最優的問題.然而,由于初期控制因子變化較小,可能會導致算法收斂速度下降.

除參數選擇問題之外,基于SVM的光伏故障監測系統處理異常值與噪聲的能力較差.為了解決該問題,研究人員引入了數據進行預處理技術,從而提高系統的性能.例如,引入主成分分析(principal component analysis,PCA)算法,Yuan等[10]利用PCA對數據降維處理,并將處理之后的數據用于訓練模型,從而使模型能更好地實現故障監測;Wang等[5]利用熱甲板(hot-decking)算法進行數據預處理,并采用K均值(K-means)聚類算法對結果進行優化,用相似的完整故障數據的相應參數來替代缺失故障數據的相應參數,該方法可以一定程度上克服故障值帶來的影響,但是該方法可能會丟失部分信息.此外數據的特征提取也影響著最終準確率,Miao等[11]采用經驗模態分解(empirical mode decomposition,EMD)分析了赫斯特指數,并使用各模態的熵和標準差訓練SVM,從而實現故障監測.EMD雖然具有一定的自調整能力,但具有較強的模式混雜效應,難以獲得良好的檢測效果.Wang等[12]利用變分模態分解(variational mode decomposition,VMD)獲得多模態的實測電流,然后利用改進的電弧故障相關模態的多尺度模糊熵作為檢測特征,通過SVM實現故障診斷.由于VMD是一種基于迭代運算的時頻域分離算法,如果參數選擇不當,則會導致執行時間過長.因此,Cai等[4]將皮爾遜相關系數與VMD相結合,得到了改進的VMD算法,可以節省VMD執行時間.該算法對于低頻信號很敏感,但對于中高頻信號表現較差.

除了上述方法之外,Yi等[13]提出了一種2階段的SVM系統,使用訓練集對第一階段SVM進行訓練,再使用第一階段的輸出作為第二階段SVM的輸入并訓練SVM2,進一步進行監測,這樣可以更好地區分故障數據與正常數據,從而提高準確率.類似地,Yuan等[10]也提出一種基于PCA-SVM的二次分類故障診斷策略,第一種分類用于對所有類型的故障進行初步故障診斷,而第二種分類用于區分2組相似的故障,監測準確率達到了99.03%.這些系統具有強大的魯棒性與高準確率,但是使用了2次算法模型,因此需要消耗更多的計算資源與時間.Sun等[14]提出一種基于貝葉斯框架中最小二乘支持向量機(least squares support vector machine,LSSVM)的故障監測方法,傳統SVM模型的目標是找到一個最優的超平面,即wTx+b=0,使得樣本點離該超平面具有最大的間隔,并將不同類別的樣本點分隔開.但在某些情況下,數據可能存在噪音數據,導致傳統的SVM無法直接應用.LSSVM使用一個帶有線性約束的最小二乘線性系統誤差平方和損失函數作為訓練樣本集的經驗損失,將約束條件從不等式更改為方程,然后,對凸二次規劃問題進行變換,從而提高了模型的計算速度,LSSVM可以大大地減少傳感器的數量與監測成本.但是該方法需要設置許多參數,而這些參數又會影響到最終結果.Chouay等[15]提出了三階段分類算法來監測故障,第一階段通過比較測量值和預期產生的功率來識別潛在故障的存在,第二階段通過比較提取的光伏電池(PV)特性和參考PV特性來識別故障類型,最后一階段SVM進一步對故障進行區分,該方法具有很高的準確率,但是其對計算資源要求更高.

在小樣本數據集上,基于SVM的光伏故障監測系統表現優異.通過引入核函數,SVM也能處理高維數據集,但需選擇合適參數,優化算法選擇和改進至關重要.基于SVM的光伏故障監測系統優點包括優秀的泛化能力和高準確率,良好的魯棒性,以及處理非線性問題效果好.然而,其不足在于對懲罰因子和核函數敏感,需操作人員具備專業知識;處理異常值和噪聲能力較差,可能影響準確率.

1.2 DT

DT的結構可以用等價的規則來表示,這些規則可以用“如果……否則”來翻譯[16],可以根據不同的特征將數據進行分類.DT一般可使用迭代二分器3(ID3)、ID3的后續算法(C4.5),以及分類和回歸樹(CART)等分類算法生成DT模型,而每個算法都有專屬的分裂標準,如使用ID3算法時,可以與香農熵相結合,而使用C4.5時,則可以與歸一化香農熵值相結合,原理圖如圖3所示[6].圖3中左端坐標系的坐標軸為特征值,ε為邊界,區分不同類型的數據,不同顏色的符號代表不同故障類型的數據(也可以是正常數據).圖3中右端為DT的流程圖,DT利用分類算法生成根節點(root node),當數據輸入到DT中,經過內部節點(internal node)條件判斷確定分支(branch)方向,從而確定數據類型,葉節點(leaf node)是沒有任何分支的最終節點.如需要監測的數據輸入到模型中,通過第一個內部節點判斷該數據的特征值φ1是否大于ε1,若大于則將其視為該類型數據(該圖中將其視為紅色菱形類型的數據),否則將會通過分支進入下一個節點,并再次進行判斷,從而達到分類的功能,DT的優點便是在于易于理解和實現.

雖然DT算法容易理解與實現,但是如果內部節點與分支過多就容易出現過擬合問題,這會嚴重影響光伏故障監測系統的性能,因此如何克服DT過擬合問題也是提高系統監測準確率的一個重要課題.對此,Benkercha等[16]使用C4.5實現光伏故障監測功能,克服過擬合問題,并使故障監測準確率達到了99.80%,且故障分類準確率也達到了99%.C4.5算法是一種DT算法,是ID3算法的升級版.ID3算法是一種經典的DT算法,其基于信息熵的概念來進行特征選擇.C4.5算法在ID3算法的基礎上進行了改進,能夠處理連續性數據和缺失值,使用信息增益比來選擇最優的分裂屬性,并采用剪枝技術避免過擬合,即減少DT的分支.此外,CART等算法也可以實現剪枝功能,CART算法是一種DT算法,使用基尼指數生成DT,可以用于分類和回歸問題,選擇最優特征和特征值,將數據集劃分為2個子集,使得每個子集的純度最大.但是該方法無法很好地處理故障值與噪聲.此外,還可以利用PCA對數據進行預處理,這不僅可以有效地提高準確率,也能一定程度上克服DT容易過擬合的問題.

除傳統的DT算法之外,研究人員還開發了許多基于DT的集成算法,例如極端梯度提升(extreme gradient boosting,XGBoost)與多類自適應增效(adaptive boosting,AdaBoost)等.XGBoost是一種基于梯度提升樹的算法,通過逐步優化損失函數構建強學習器.XGBoost使用自定義損失函數,結合梯度和Hessian矩陣,在每輪迭代中計算分裂增益,選擇最佳特征和閾值以最小化損失,并利用L1和L2正則化避免過擬合.AdaBoost是一種集成學習算法,通過訓練多個弱分類器并調整樣本權重,特別關注被錯誤分類的樣本,逐步構建強學習器,直到滿足條件停止迭代.Wang等[17]提出了一種網格搜索法和交叉驗證(GridSearchCV)與XGBoost算法相結合的故障監測系統,使用GridSearchCV對XGBoost進行參數優化,使模型擁有更高的準確率、更低的過擬合風險與更強的泛化性能.類似地,Liu等[18]也使用網格搜索法與XGBoost算法實現故障檢測和診斷,同時還采用合成少數類過采樣技術(synthetic minority over-sampling technique,SMOTE)算法對不平衡數據集進行擴展,提高模型的精度.SMOTE通過對少數類樣本進行插值,生成一些新的合成樣本,使得少數類樣本數量增加,從而平衡數據集.Du等[19]提出一種基于改進AdaBoost算法的故障監測方法,并使用K均值算法對檢測數據進行2次分類.這些基于集成算法的故障監測系統都具有很高的準確率,但是AdaBoost在處理不平衡數據集時可能會出現問題,而XGBoost對于噪聲和異常值的魯棒性相對較低.Kapucu等[20]則利用了DT、二次判別分析和帶熵的額外樹結合構建了光伏故障監測系統,該模型的準確率從97.46%提高為97.67%.但是該模型的準確率提高十分有限,花費的成本與性能提升不符.

基于DT的故障監測系統快速且易于調試,但易過擬合,需結合剪枝技術.基于DT的集成算法,如XGBoost和AdaBoost提高了監測準確率,部分克服了過擬合問題,但處理非線性數據能力較差,AdaBoost對不平衡數據集表現不佳,XGBoost對噪聲和異常值魯棒性較低.總之,基于DT的故障監測方法優點包括直觀易懂,簡化復雜決策過程;高效處理多分類問題,快速學習和分類數據集.然而,基于DT的故障監測方法也存在不足,比如易過擬合,優化復雜;無法很好處理連續數據,需離散化處理,可能導致信息丟失.

1.3 RF

RF由多個DT組成,每個DT對不同的特征進行判決,并對輸出進行處理,從而實現故障監測.常用的處理方法有平均法(對所有DT的輸出進行平均)、投票法(對所有DT的輸出進行投票)、加權平均法(對所有DT的輸出進行加權平均)和閾值法(針對二分類問題,可以將每個DT的輸出結果看作一個概率值,然后根據設定的閾值來進行分類).RF原理圖如圖4所示,輸入Xi(input)然后經過N個DT(tree i)進行判斷,每個DT都輸出1個結果,共計N個輸出結果(output for tree i),并最終對這N個結果進行處理,得到最終的監測結果(final result).RF可用于分類、回歸和聚類問題等,也可以很好地處理高維數據,具有更高準確性和穩健性[21].

與大多數算法一樣,RF也需要對例如DT的數量與樹的深度等參數進行設置,這也會對RF的性能造成影響.對此,Chen等[21]利用網格搜索方法對RF算法的參數進行優化;同樣地,劉新鋒等[22]也利用網格搜索法和K折交叉驗證法通過遍歷給定的參數組合來對RF進行優化,從而選擇準確率最高的參數組合作為模型參數.然而網格搜索算法無法保證找到全局最優解,因為該算法只能在給定的范圍內進行搜索.

此外,準確率也是光伏故障監測系統的一個重要指標,因此,也有許多研究者旨在提高系統的監測準確率,而數據預處理便是提高準確率的一個重要手段.Dhibi等[23]使用2個間縮減核PCA(interval reduced kernel principal component analysis,IRKPCA)對數據進行預處理,去除了特征提取過程中不相關和多余的樣本,提高了RF的監測準確率并減少了計算時間.值得一提的是,除了PCA技術降維之外,Yang等[24]引入修正獨立分量分析(modified independent component analysis,MICA),MICA技術也實現了數據降維.但是使用這些技術對包含許多異常值的數據的性能不佳,且無法處理非線性數據.除此之外,另一個常用的數據預處理技術便是小波變換.吳忠強等[25]便利用小波變換對電壓信號進行分解,從而提取到各頻帶能量作為故障特征,再將其輸入到RF中進行處理.還有研究將獨立成分分析(independent component analysis,ICA)用于對數據預處理[24].這些方法都能夠提高監測的準確率,但是也提高了模型的復雜度,同時可能存在信息損失等問題.除數據預處理外,RF模型的準確率可能還會受到不平衡數據集的影響.為解決該問題,Yang等[24]引入隨機欠采樣與SMOTE分別解決2種不同數據不平衡的問題,使該模型對這2種數據集的準確率分別達到了99.88%和99.43%.隨機欠采樣算法是通過減少多數類樣本的數量來平衡數據集.但是隨機欠采樣算法可能會導致部分重要的數據丟失,而SMOTE算法生成的數據可能會含有大量噪聲.張治等[26]也將自適應模糊C均值聚類(adaptive fuzzy c-means,AFCM)、SMOTE與RF模型結合,通過算法生成部分數據,增加訓練數據量,從而提高故障監測的準確率,但是該方法對于噪聲與故障值表現較差.

除上述之外,汪洋等[27]提出了一種RF的改進算法,使用RF作為監測模型的同時,使用stacking法改進了傳統RF投票機制不合理的問題,將模型準確率提高到了97.5%.傳統的RF模型使用投票機制決定最終的輸出結果,但是一些表現差的DT會對最終輸出造成影響,而在許多情況下,stacking方法比投票法更有效,因為其通過訓練1個次級分類模型來組合多個初級分類模型的輸出.具體而言,stacking方法會首先訓練多個不同的初級分類模型,然后以這些模型的輸出作為輸入,訓練1個次級分類模型.最后,stacking方法通過次級分類模型輸出最終的分類結果.但是該方法沒有涉及RF的過擬合問題,無法克服RF容易過擬合的問題.Dhibi等[28]提出2種增強型RF分類器,即基于歐氏距離的簡化核RF和基于K均值聚類的簡化核RF,第一種方法包括使用歐氏距離作為相異性度量,以便在樣本之間存在冗余的情況下僅保留1個測量值.第二種方法旨在減少基于K均值聚類技術的訓練數據量,該模型被證實了在較短的計算時間下具有較高的分類精度.但是歐氏距離簡化核的RF模型對高維數據處理能力較差,基于K均值聚類的簡化核RF對于離群值與故障值表現較差.葉進等[29]提出一種基于級聯RF的光伏組件在線故障診斷模型,通過使用多個RF模型提高模型的最終準確率,優于傳統RF模型.但是該模型在準確率與收斂時長上提升十分有限.

基于RF的光伏故障監測系統精度高、泛化性能強,對噪聲具有魯棒性,但對不平衡數據集表現較差,易過擬合,且計算開銷大.RF由多個決策樹組成,準確性和魯棒性高;能有效處理高維數據和非線性關系,適用于光伏故障監測.但也存在處理不平衡數據集能力較差及易過擬合等缺點.

1.4 KNN

KNN是一種非參數的、基于實例的學習方法,通過利用距離度量函數比較每個新實例與現有實例的狀態,從距離最近的實例為新實例分配類別,如果使用更多數量的最近鄰居,則為新實例分配最近K個鄰居的多數類[30].KNN算法只需要1個整數K、1組標記樣本(訓練數據)和1個距離度量,具有簡單、易實現的優點.距離度量是用來計算任意2個樣本點之間距離的方法,從而決定哪些鄰居點被選為K個最近鄰居.KNN是一個理論上比較成熟的方法,也是最簡單的機器學習算法之一,因此該方法也運用于光伏故障監測,原理圖如圖5所示[6].圖5中坐標軸為特征值,不同顏色的符號代表訓練數據中的不同故障類型的數據(也可以是正常數據),Pt為需要監測的值,K為選定的鄰居數.

KNN常用的距離度量有歐氏距離、曼哈頓距離和余弦相似度.歐氏距離是指2個樣本在各個維度上對應數值差值的平方和的開方;曼哈頓距離是指2個樣本在各個維度上對應數值差值的絕對值之和;余弦相似度是指2個向量在空間中的夾角余弦值,可以用來計算2個向量之間的相似度等[6].研究人員可以選擇適合的距離度量與K值運用于KNN模型之中.由于KNN處理高維數據較差,因此,研究人員便將核函數引入KNN模型之中,從而提高KNN模型對高維數據的監測能力,但是引入核函數容易造成過擬合問題.部分研究也使用數據預處理技術來提高KNN光伏故障監測系統的監測準確率,例如,PCA與小波變換.Manohar等[30]提出了一種基于離散小波變換(discrete wavelet transform,DWT)和KNN相結合的故障監測系統,利用DWT對信號進行預處理確定近似系數,并使用處理之后的數據作為基于KNN的分類器的輸入.除此之外,歸一化也是數據預處理的常用手段之一[31].但是這些方法都可能會導致信息損失,從而使系統性能無法達到期望值,且處理非線性數據的能力較差.此外,Harrou等[32]提出了一種改進型KNN模型,將KNN與休哈特(Shewhart)和(具有參數和非參數閾值)指數加權移動平均(exponentially weighted moving average,EWMA)相結合,從而提高模型對異常數據的監測能力,模型監測故障的準確率超過了90%,其中,不含參數的EWMA與KNN結合的模型準確率達到了98%.EWMA使用指數加權的方式對歷史數據進行平滑處理,給予過去觀測值的權重逐漸減小.在EWMA中,較新的觀測值會被賦予較高的權重,而較舊的觀測值則獲得較低的權重,因此,EWMA方法在檢測微小變化方面很敏感.

總之,KNN原理簡單易懂,僅需選擇K值和距離度量,調參要求不高,小數據集下監測速度快.然而,KNN分類需計算每個樣本與訓練數據的“距離”,處理大數據集時需大量計算資源且耗時長,易受故障值與噪聲影響.

1.5 ANN

ANN的結構由1個輸入層、1個或多個隱藏層和1個輸出層組成.ANN在非線性、高維度、故障和噪聲環境中處理信息的能力引起了許多領域研究人員的興趣.ANN是一種強大的非線性模型,適用于復雜的非線性問題,可以更熟練地處理復雜的問題.ANN的原理圖如圖6所示,特征向量通過輸入層(input layer)輸入到模型之中,再到隱藏層(hidden layer),經過權重向量與激活函數處理之后,從輸出層輸出結果.其中,xi代表不同的特征值,wp代表權重向量,φi代表激活函數,yi代表輸出結果.總的來說,ANN具有很高的容錯性,可以處理大量的故障統計數據,以準確識別光伏系統中發生的故障.

ANN包括許多不同的技術模型,例如,徑向基函數神經網絡(radial basis function neural network,RBF)、多層感知器神經網絡(multi-layer perceptron,MLP)、概率神經網絡(probabilistic neural network,PNN)和卷積神經網絡(convolutional neural network,CNN)等技術.RBF通過徑向基函數將輸入空間映射到高維特征空間,適用于非線性問題,具有良好的泛化能力和對噪聲的魯棒性,但需選擇合適參數,容易過擬合,處理高維數據時計算資源需求高,且訓練時間長.MLP由輸入層、多個隱含層和輸出層組成,利用非線性激活函數處理非線性問題和多輸入多輸出問題,但需大量訓練數據,可能過擬合.PNN是基于RBF的前饋神經網絡,學習簡單快速,分類準確且容錯率高,但復雜問題需較多神經元,易過擬合且需手動設置神經元數量.CNN由卷積層、池化層和全連接層組成,高效處理圖像數據,減少參數和過擬合風險,但需大量計算資源和數據預處理,處理非圖像數據能力較差.此外還有反向傳播神經網絡(back propagation neural network,BPNN)、長短期記憶網絡(long short-term memory,LSTM)、循環神經網絡(recurrent neural network,RNN)、生成對抗網絡(generative adversarial network,GAN)和深度神經網絡(deep neural network,DNN)等模型.不同的模型可能會對故障監測的準確率造成影響,因此,針對不同的要求,研究者可以選擇自己所需的神經網絡模型進行故障監測.

對于ANN模型而言,參數(例如權重向量等)對最終結果有著決定性作用,不同的參數可能會導致不同的結果,因此,對其參數進行優化可以得到更好的性能.對此,Hichri等[33]使用GA對ANN模型進行結構優化,性能超過了傳統ANN,使該模型對不同故障的監測平均準確率達到了97.63%,且耗費時間更短.Eldeghady等[34]則使用PSO算法優化BPNN,將BPNN的局部搜索能力和PSO中的全局搜索能力相結合,與傳統的BPNN相比,該模型收斂更快,節省時間,并將準確率提高了8%.Yu等[35]使用改進的蟻群算法(ant colony algorithm,ACA)對RBF神經網絡的中心值和寬度進行優化,ACA優化的RBF神經網絡具有收斂速度快、診斷精度高的特點.然而,這些算法都沒有考慮局部最優的問題.

此外,數據預處理也是提高準確率的一個重要手段,Attouri等[36]使用多尺度主成分分析(multiscale principal component analysis,MSPCA)優化ANN,MSPCA將原始過程樣本分解為多尺度分量,將PCA通過提取線性關系來解相關變量的能力與小波分析能力相結合,以提取確定性特征,并大致去相關自相關度量.MSPCA在每個尺度上執行并計算小波系數的PCA,然后再在適當的尺度上組合結果.因此,在減少不太相關的信號特征后,通過僅保留那些捕獲變量之間關系的潛在變量來獲得每個場景的重要特征.變量之間的關系通過PCA去相關,而隨機測量值之間的關系通過小波分解近似地去相關.因此,一旦測量值可用于代表過程中健康和不同的可能錯誤場景,就會使用小波分解來消除誤差,并解除隨機測量之間的關系,然后創建PCA模型.從數據中提取和分離隨機和確定性特征,以限制噪聲和異常值的影響,并將模型準確率提高到了93.63%,但是MSPCA涉及到計算協方差矩陣和特征值分解等操作,在處理大數據集或高維數據集時可能會非常耗時.Kurukuru等[37]利用小波變換分析了識別輸出的銳點,并提取了相應的特征,使RBF的準確率達到了97.05%,并可以有效地克服噪聲帶來的干擾.然而,該方法只考慮了低頻信號.Alves等[38]使用數據增強技術(data augmentation,DA)、欠采樣與過采樣來克服數據不平衡問題.DA是一種常用于深度學習中的技術,通過對原始數據進行隨機變換(如翻轉、旋轉和裁剪等),生成新的數據集,以增加原有數據集的樣本數量.但是DA只適用于照片等數據集,無法對常規數據集進行操作.

ANN在光伏故障監測中具有高準確率、強魯棒性和對異常值的容錯能力,尤其適用于處理復雜的非線性數據.然而,ANN也存在不足,例如,需要大量訓練數據和較長訓練時間,對參數選擇要求高,且數據質量直接影響監測結果.總體而言,ANN在需要高準確率的場景下具有顯著競爭力.

1.6 其他算法

除了上述算法外,研究人員還提出了線性回歸、非線性回歸、樸素貝葉斯(NB)和邏輯回歸等優化算法.線性回歸結構簡單但無法處理非線性數據.Harrou等[39]結合支持向量回歸(SVR)、高斯過程回歸(GPR)與核密度估計(KDE)進行故障監測,發現基于GPR的系統性能優于SVR.非線性回歸更能處理非線性數據,但易過擬合且需選擇合適參數.Jia等[40]提出的基于邏輯回歸的電弧故障監測系統在實驗中準確率達到100%,但缺乏廣泛性和真實測試.Niazi等[41]基于NB的光伏熱斑故障監測系統分類準確率為94.10%,但無法分類故障類型.集成算法如XGBoost、AdaBoost、RF與多種技術結合的方法常用于故障監測.Yang等[42]提出的基于投票的線性回歸、DT和SVM系統,經過歸一化處理后,在不同情況下準確率均超過99.89%.盡管多種技術結合提高了準確率,但性能提升與成本消耗不成正比.

2 監測結果

不同技術在故障監測中的性能表現差異顯著.對于含噪數據集,提取8個特征值時,SVM準確率最高(94.83%),KNN、DT、RF和ANN分別為83.63%、85.88%、89.5%和94.21%;直接使用I-V曲線數據時,SVM、KNN、DT、RF和ANN準確率分別為99.25%、89.83%、94%、96.5%和99.92%;使用特征提取技術后,SVM、KNN、DT、RF和ANN準確率分別為98.88%、95.42%、97.21%、98.25%和100%[43].數據預處理顯著提高了監測準確率,證明其重要性.對于大數據集,DT和KNN準確率分別為89.92%和82.50%,SVM和ANN分別為98.64%和99.65%,且ANN、SVM、KNN和DT花費時間分別為205.26、15.58、0.71和0.75s[44].另一組數據集下,SVM、KNN和ANN準確率分別為80.3%、56.8%和92.8%[45].SVM與ANN在光伏故障監測中表現出較高的準確率,尤其是ANN在大數據集上表現更佳.不同“內核”模型性能各異,經過歸一化預處理的較大數據集上,KNN(歐式、曼哈頓、馬氏和余弦)準確率分別為98.6%、99.29%、99.04%和97.85%,DT(基尼指數、系綜規則和偏差)分別為99.73%、99.73%和99.79%,SVM(線性、二次項、三次項和高斯徑向基)為99.97%、100%、100%和100%[6].SVM在故障檢測上表現優異,但在故障分類時準確率(平均為82.34%)低于DT(平均為85.55%).此外,KNN監測故障耗時最長(平均為1 608.72 ms),其次是SVM(平均為5.82 ms),DT最短(平均為3.44 ms).分類時,KNN耗時最長(平均為1 247.94 ms),其次是SVM(平均為185.52 ms),DT最短(平均為6.151 ms).綜上,ANN與SVM耗時較久,DT實現故障監測更快,而KNN耗時與數據集大小相關.

對于ANN,不同模型在故障監測中的表現各異.在無噪聲情況下,MLP對短路和斷路故障的準確率分別為99.1%和100%,優于PNN的96.7%和99.4%.在含噪聲數據中,MLP分別為97.2%和100%,而PNN為67.5%和92.2%[46].MLP的準確率優于RBF(高出0.5%),但計算時間更長(MLP需290 ms,RBF需45 ms).PNN比RBF準確率更高且耗時更短(PNN平均為15.3 s,RBF平均為30 s).在高維大數據集上,CNN優于PNN,精度更高,損失更低,收斂更快.

總體而言,SVM適用于小樣本數據集,ANN適用于復雜數據集,但兩者耗時較長.DT監測速度快,適合多元分類,但處理非線性數據能力較差.高維數據推薦使用SVM、RF和ANN.對于含故障數據集,ANN表現最佳.由于真實數據集通常非線性且復雜,對模型準確率要求高,雖然優化模型可提升準確率,但也引入其他問題.隨著ANN技術和硬件的發展,基于ANN的光伏故障監測系統將受到更多關注.

3 結 語

由于傳統監測技術的局限性,以及相關技術的飛速迭代,研究人員對基于有監督機器學習的光伏故障監測技術進行了大量研究.本文對常用基于有監督機器學習的光伏故障監測系統進行了全面總結,包括不同的技術及其在光伏故障監測中的應用、優缺點及發展趨勢等方面,不同技術總結見表1.基于有監督機器學習的光伏故障監測系統已經逐漸發展成為重要的監測手段,并且已經取得了一些顯著的研究成果,由于ANN模型在光伏故障監測領域的優勢(高準確率,高魯棒性,很好地處理故障數據、高維數據與非線性數據),因此,預測基于ANN的監測系統將逐步成為研究主流.不同的技術各有其優缺點,在實際應用中需要根據具體情況選擇合適的算法.雖然這些算法和技術已經有了很好的發展,但仍需要進一步研究以提高其性能,優化算法,并對優化算法進行改進,多模態數據分析(如除能處理數字數據集之外,還能夠處理圖像和視頻等數據集)、智能化發展與多種技術相結合將會是光伏故障監測系統的發展趨勢.

參考文獻:

[1]Sayyad J,Nasikkar P.Design and development of low cost,portable,on-field IV curve tracer based on capacitor loading for high power rated solar photovoltaic modules[J].IEEE Access,2021,9:70715-70731.

[2]Santhakumari M,Sagar N.A review of the environmental factors degrading the performance of silicon wafer-based photovoltaic modules:Failure detection methods and essential mitigation techniques[J].Renew Sust Energ Rev,2019,110:83-100.

[3]Pilario K E,Shafiea M,Cao Y,et al.A review of kernel methods for feature exratction in nonlinear process monitoring[J].Processes,2020,8(1):24-1-24-47.

[4]Cai X,Wai R J.Intelligent DC arc-fault detection of solar PV power generation system via optimized VMD-based signal processing and PSO-SVM classifier[J].IEEE J Photovolt,2022,12(4):1058-1077.

[5]Wang J,Gao D,Zhu S,et al.Fault diagnosis method of photovoltaic array based on support vector machine[J].Energ Source Part A,2019,45(2):5380-5395.

[6]Badr M M,Hamad M S,Abdel-Khalik A S,et al.Fault identification of photovoltaic array based on machine learning classifiers[J].IEEE Access,2021,9:159113-159132.

[7]Eskandari A,Milimonfared J,Aghaei M,et al.Autonomous monitoring of line-to-line faults in photovoltaic systems by feature selection and parameter optimization of support vector machine using genetic algorithms[J].Appl Sci,2020,10(16):5527-1-5527-15.

[8]Ahmed Q I,Attar H,Amer A,et al.Development of a hybrid support vector machine with grey wolf optimization algorithm for detection of the solar power plants anomalies[J].Systems,2023,11(5):237-1-237-20.

[9]宋玉生,劉光宇,朱凌,等.改進的灰狼優化算法在SVM參數優化中的應用[J].傳感器與微系統,2022,41(9):151-155.

[10]Yuan W,Wang T,Diallo D.A secondary classification fault diagnosis strategy based on PCA-SVM for cascaded photovoltaic grid-connected inverter[C]//IECON 2019-45th Annual Conference of the IEEE Industrial Electronics Society.Lisbon,Portugal:IEEE,2019,1:5986-5991.

[11]Miao W,Xu Q,Lam K H,et al.DC arc-fault detection based on empirical mode decomposition of arc signatures and support vector machine[J].IEEE Sens J,2020,21(5):7024-7033.

[12]Wang L,Qiu H,Yang P,et al.Arc fault detection algorithm based on variational mode decomposition and improved multi-scale fuzzy entropy[J].Energies,2021,14(14):4137-1-4137-16.

[13]Yi Z,Etemadi A H.Line-to-line fault detection for photovoltaic arrays based on multiresolution signal decomposition and two-stage support vector machine[J].IEEE T Ind Electron,2017,64(11):8546-8556.

[14]Sun J,Sun F,Fan J,et al.Fault diagnosis model of photovoltaic array based on least squares support vector machine in Bayesian framework[J].Appl Sci,2017,7(11):1199-1-1199-14.

[15]Chouay Y,Ouassaid M.A multi-stage SVM based diagnosis technique for photovoltaic PV systems[C]//Advances in Robotics,Automation and Data Analytics:Selected Papers from iCITES 2020.Berlin,Germany:Springer International Publishing,2021:183-193.

[16]Benkercha R,Moulahoum S.Fault detection and diagnosis based on C4.5 decision tree algorithm for grid connected PV system[J].Sol Energy,2018,173:610-634.

[17]Wang H,Sun F.Optimal sensor placement and fault diagnosis model of PV array of photovoltaic power stations based on XGBoost[C]//IOP Conference Series:Earth and Environmental Science.Beijing,China:IOP Publishing,2021,661(1):012025-1-012025-9.

[18]Liu B,Wang X,Sun K,et al.Fault diagnosis of photovoltaic array based on xgboost method[C]//2021 IEEE Sustainable Power and Energy Conference (iSPEC).Nanjing,China:IEEE,2021:3733-3738.

[19]Du Y,Ding R,Wang D S,et al.Research on islanding detection method of distributed photovoltaic power supply based on improved AdaBoost algorithm[C]//2020 IEEE Power amp; Energy Society General Meeting (PESGM).Montreal,Canada:IEEE,2020:1-5.

[20]Kapucu C,Cubukcu M.A supervised ensemble learning method for fault diagnosis in photovoltaic strings[J].Energy,2021,227:120463-1-120463-12.

[21]Chen Z,Han F,Wu L,et al.Random forest based intelligent fault diagnosis for PV arrays using array voltage and string currents[J].Energ Convers Manage,2018,178:250-264.

[22]劉新鋒,張旖旎,徐惠三,等.基于隨機森林和專家系統的分布式光伏電站陰影遮擋診斷[J].山東大學學報(工學版),2021,51(2):98-104.

[23]Dhibi K,Fezai R,Mansouri M,et al.A hybrid fault detection and diagnosis of grid-tied pv systems:Enhanced random forest classifier using data reduction and interval-valued representation[J].IEEE Access,2021,9:64267-64277.

[24]Yang N C,Ismail H.Robust intelligent learning algorithm using random forest and modified-independent component analysis for PV fault detection:In case of imbalanced data[J].IEEE Access,2022,10:41119-41130.

[25]吳忠強,曹碧蓮,侯林成,等.基于小波包變換和隨機森林算法的光伏系統故障分類[J].計量學報,2021,42(12):1650-1657.

[26]張治,馬輝,王林.采用AFCM-SMOTE-RF的光伏電站故障診斷方法[J].電源技術,2021,45(11):1495-1499.

[27]汪洋,閆天一,陳鳳云,等.基于FCM和SRF組合的光伏組件故障診斷研究[J].電源技術,2019,43(12):2009-2013,2057.

[28]Dhibi K,Fezai R,Mansouri M,et al.Reduced kernel random forest technique for fault detection and classification in grid-tied PV systems[J].IEEE J Photovolt,2020,10(6):1864-1871.

[29]葉進,盧泉,王鈺淞,等.基于級聯隨機森林的光伏故障診斷模型研究[J].太陽能學報,2021,42(3):358-362.

[30]Manohar M,Koley E,Kumar Y,et al.Discrete wavelet transform and kNN-based fault detector and classifier for PV integrated microgrid[C]//Advances in Data and Information Sciences:Proceedings of ICDIS-2017.Singapore:Springer Singapore,2018:19-28.

[31]Swarna K S V,Vinayagam A,Ananth M B J,et al.A KNN based random subspace ensemble classifier for detection and discrimination of high impedance fault in PV integrated power network[J].Measurement,2022,187:110333-1-110333-20.

[32]Harrou F,Taghezouit B,Sun Y.Improved KNN-based monitoring schemes for detecting faults in PV systems[J].IEEE J Photovolt,2019,9(3):811-821.

[33]Hichri A,Hajji M,Mansouri M,et al.Genetic-algorithm-based neural network for fault detection and diagnosis:Application to grid-connected photovoltaic systems [J].Sustainability,2022,14(17):10518-1-10518-14.

[34]Eldeghady G S,Kamal H A,Hassan M A M.Fault diagnosis for PV system using a deep learning optimized via PSO heuristic combination technique[J].Electr Eng,2023,105(4):1-15.

[35]Yu J,Liu Y.Research on fault diagnosis of photovoltaic array based on ACA-RBF neural network model[C]//2022 4th International Conference on Power and Energy Technology (ICPET).Beijing,China:IEEE,2022:731-735.

[36]Attouri K,Mansouri M,Hajji M,et al.Effective fault diagnosis in grid connected photovoltaic systems using multiscale PCA based artificial neural network technique[C]//2022 8th International Conference on Control,Decision and Information Technologies (CoDIT).Istanbul,Turkey:IEEE,2022,1:1318-1323.

[37]Kurukuru V S B,Blaabjerg F,Khan M A,et al.A novel fault classification approach for photovoltaic systems[J].Energies,2020,13(2):308-1-308-17.

[38]Alves R H F,de Deus Junior G A,Marra E G,et al.Automatic fault classification in photovoltaic modules using Convolutional Neural Networks[J].Renew Energ,2021,179:502-516.

[39]Harrou F,Saidi A,Sun Y,et al.Monitoring of photovoltaic systems using improved kernel-based learning schemes[J].IEEE J Photovolt,2021,11(3):806-818.

[40]Jia F,Luo L,Gao S,et al.Logistic regression based arc fault detection in photovoltaic systems under different conditions[J].Journal of Shanghai Jiaotong University (Science),2019,24:459-470.

[41]Niazi K A K,Akhtar W,Khan H A,et al.Hotspot diagnosis for solar photovoltaic modules using a Naive Bayes classifier[J].Sol Energy,2019,190:34-43.

[42]Yang N C,Ismail H.Voting-based ensemble learning algorithm for fault detection in photovoltaic systems under different weather conditions[J].Mathematics,2022,10(2):285-1-285-18.

[43]Li B,Delpha C,Migan-Dubois A,et al.Fault diagnosis of photovoltaic panels using full I-V characteristics and machine learning techniques[J].Energ Convers Manage,2021,248:114785-1-114785-13.

[44]Da Costa C H,Moritz G L,Lazzaretti A E,et al.A comparison of machine learning-based methods for fault classification in photovoltaic systems[C]//2019 IEEE PES Innovative Smart Grid Technologies Conference-Latin America (ISGT Latin America).Gramado,Brazil:IEEE,2019:1-6.

[45]Ul-Haq A,Sindi H F,Gul S,et al.Modeling and fault categorization in thin-film and crystalline PV arrays through multilayer neural network algorithm[J].IEEE Access,2020,8:102235-102255.

[46]Vieira R G,Dhimish M,de Araújo F M U,et al.Comparing multilayer perceptron and probabilistic neural network for PV systems fault detection[J].Expert Syst Appl,2022,201:117248-1-117248-16.

(實習編輯:林 璐)

Review of Supervised Machine Learning Based on Photovoltaic Fault Monitoring System

DONG Huangfeng1,2,GUO Xingping1,2,JI Xuan1,2,XIAO Wenbo1,2

(1.Key Laboratory of Nondestructive Testing Technology of Ministry of Education,Nanchang Hangkong University,Nanchang 330063,China;

2.Engineering Laboratory of Optoelectronics Detection Technology in Jiangxi Province,Nanchang Hangkong University,Nanchang 330063,China)

Abstract:

This article provides a systematic summary of supervised machine learning techniques for photovoltaic fault monitoring.Support Vector Machine (SVM) is sensitive to the penalty factor and kernel function,and its accuracy can be improved by optimizing parameter selection and preprocessing the data.Decision Tree (DT) is prone to overfitting,but this can be avoided by using pruning technique.Random Forest (RF) requires high-quality data and tuning,which can be achieved by generating data through algorithms and by using optimization algorithms for parameter tuning,thereby improving the monitoring accuracy.K-Nearest Neighbors (KNN) has poor performance in handling high-dimensional data,but an appropriate kernel function can be introduced to address this issue,and data preprocessing techniques can also improve KNN’s monitoring accuracy.Artificial Neural Network (ANN) requires a large amount of data for training and parameter selection,which can be addressed by optimization algorithms.Furthermore,ANN and SVM have the highest accuracy,albeit time-consuming,whereas DT is faster,but less accurate.The future trend is to further optimize the algorithms,integrate them with deep learning,and develop intelligent systems.ANN’s high accuracy in fault monitoring,and the prediction systems based on neural networks are expected to become the mainstream method of fault monitoring.

Key words:

photovoltaic fault;supervised machine learning;neural network;monitoring system

收稿日期:2023-07-13

基金項目:國家自然科學基金(12064027、62065014);研究生創新專項(YC2022-113、YC2022-118)

作者簡介:董煌鋒(1999—),男,碩士研究生,從事監督機器學習的光伏故障監測系統研究.E-mail:1833202664@qq.com

通信作者:肖文波(1975—),男,博士,教授,從事半導體光電檢測研究.E-mail:70075@nchu.edu.cn

主站蜘蛛池模板: 色综合色国产热无码一| 欧美精品1区| 国产成人凹凸视频在线| 欧美日韩精品一区二区视频| 日韩在线播放中文字幕| 色男人的天堂久久综合| 青青青草国产| 少妇精品网站| 久久精品91麻豆| 成人免费黄色小视频| 伊人久久大线影院首页| 色成人亚洲| 99在线视频精品| 亚洲一区二区视频在线观看| 高清无码不卡视频| 亚洲侵犯无码网址在线观看| 免费av一区二区三区在线| 免费无码网站| 国产精品成人观看视频国产| 国产精品无码AV片在线观看播放| 国产亚洲高清视频| 蜜臀av性久久久久蜜臀aⅴ麻豆| 免费观看三级毛片| 精品久久久久无码| 91系列在线观看| 日韩欧美中文亚洲高清在线| 国内a级毛片| 久久人人妻人人爽人人卡片av| 色妞www精品视频一级下载| 中文字幕在线不卡视频| 成人福利一区二区视频在线| 亚洲中文字幕无码mv| 日韩精品无码不卡无码| 国产亚洲精品无码专| 日韩AV无码一区| av在线人妻熟妇| 麻豆国产原创视频在线播放| 亚洲精品成人福利在线电影| 曰AV在线无码| 国产人成在线观看| 日a本亚洲中文在线观看| 国产一级毛片yw| 女人爽到高潮免费视频大全| 国产免费看久久久| 日韩无码黄色网站| 国产成人精品一区二区秒拍1o| 久久国产香蕉| 国产成人综合日韩精品无码首页| 亚洲娇小与黑人巨大交| 女人av社区男人的天堂| 欧美性久久久久| 日本一本正道综合久久dvd| 国产精品夜夜嗨视频免费视频 | 大香伊人久久| 国产成人精品男人的天堂下载| 亚洲视频欧美不卡| 国产成人综合在线观看| 日本免费精品| 国产乱人伦偷精品视频AAA| 国产91特黄特色A级毛片| 欧美激情视频一区二区三区免费| 91在线精品免费免费播放| 欧美丝袜高跟鞋一区二区| 日本在线欧美在线| 国产激爽大片高清在线观看| 在线观看精品自拍视频| 色网在线视频| 97久久超碰极品视觉盛宴| 国产精品永久免费嫩草研究院| 高清免费毛片| 国产理论精品| 好吊日免费视频| 日韩毛片在线播放| 国产一区二区三区免费| 欧美乱妇高清无乱码免费| 日本欧美视频在线观看| 国禁国产you女视频网站| 欧美日韩久久综合| 久久精品国产免费观看频道| 免费看a级毛片| 五月丁香伊人啪啪手机免费观看| 亚洲国产看片基地久久1024|