吳振庭
(中山市技師學院計算機應用系,廣東 中山 528400)
復雜的室外環境導致光伏系統容易發生短路或接地等電氣故障,光伏電池內部出現異常老化或熱點問題,以及外部物體引起部分遮光故障等[1-2]。灰塵堆積是戶外光伏系統不可避免的問題,灰塵附著在光伏組件表面會導致兩種后果。首先,直接影響的是光伏發電的損耗,灰塵沉積將光伏系統的發電量減少20%,甚至80%衰減。此外,光伏組件表面不同程度積灰也會造成光伏系統相應程度的失配故障。另一方面,長期不清潔的光伏組件可能導致光伏組件下邊緣出現熱點和不可逆的損壞。因此,監測灰塵沉積狀況,診斷污染環境下的光伏故障,是提高光伏系統可靠性的重要任務。
近年來針對各種光伏故障檢測和分類方法發展了很多先進的技術。文獻[3]將擴頻時域反射計用于確定光伏系統的阻抗變化,以檢測線路接地故障。然而,其精度容易受到光伏系統不同配置的影響。文獻[4]通過降低故障光伏組件的溫度水平來消除各種類型的熱點,并改進了部分遮光條件下的發電。文獻[5]研究了一種基于統計的方法,通過特定的檢測規則檢測線路和線路接地故障。文獻[6]中的主成分分析和文獻[7]中的小波包也被用來檢測光伏系統的故障,但上述方法通常依賴于通過對故障系統的嚴格分析得出的手動閾值,這可能會限制監測性能和應用成效。
此外,隨著人工智能技術的發展,機器學習技術得到了廣泛的應用。文獻[8]通過測量光伏系統的總電壓和串電流,采用隨機森林(Random Forest,RF)算法識別光伏故障。雖然RF 訓練模型可以避免過擬合問題,但是其收斂時間隨著決策樹的數目而增加。文獻[9]介紹了一種將閾值法與人工神經網絡(Artificial Neural Network,ANN)相結合的診斷算法,用于識別六種PV 故障。然而,人工神經網絡方法學習速度慢,缺乏泛化能力。文獻[10]研究了一種基于I-V曲線測量的優化核極值學習機來識別PV 故障。為了利用最大功率點跟蹤算法檢測低輻射下的線間故障,現有文獻多基于多分辨率信號分解提取故障特征,然而,基于瞬態信號的方法可能無法檢測在無輻照度條件下發生的故障。文獻[11]提出了一種基于I-V曲線不同點的面積和斜率的變維降維,然而該方法需要計算太多的特征來進行最優選擇,并且需要為多類問題訓練多個模型。文獻[12]將功率比和電壓比作為人工神經網絡和模糊邏輯系統的輸入特征,用于檢測故障組件和部分陰影條件,但僅通過兩個參數無法檢測出異常老化或嚴重積塵的內部故障。此外,文獻[11-12]中的檢測精度容易受到PV 仿真模型的影響,并且性能受限于它們的特征歸一化方法。
上述文獻提出的PV 故障診斷的機器學習方法中,監督學習占主導地位。然而,監督學習往往需要大量昂貴的標記數據,這受到從實際光伏發電廠獲取錯誤數據的困難限制。實際光伏系統運維(Opera-Tional & Maintenance,O&M)公司往往會在云中存儲大量未標記的歷史數據以供充分利用。而半監督學習算法可以利用這些未標記的歷史數據和少量的標記數據進行分類,在光伏故障診斷中具有良好的應用前景。文獻[13]提出了半監督ELM(semi-supervised ELM,SSELM)算法,與其他算法相比,具有更好的性能。然而,超參數的選取直接影響到分類精度,因此在SSELM 中訓練模型的泛化能力需進一步提高。
綜上,本文分析了光伏串在不同故障狀態下的I-V曲線。在光伏串正常運行的情況下,利用低成本數據對I-V曲線的特征參數歸一化方程進行調整。研究了一種混合人工蜂群優化和半監督極值學習機(ABC-SSELM)作為光伏串故障診斷的模式識別方法。所提光伏故障診斷技術能有效識別短路、局部遮光、異常老化、非均勻污穢和污穢條件下的故障。所提診斷模型只需要少量的標記數據,就可以利用光伏系統的歷史未標記數據。此外,采用模擬故障標記樣本代替實驗樣本,進一步節省了人工成本和時間。本文使用兩個不同的光伏組件來驗證模擬與實驗數據,最終,通過與其他機器學習方法的比較驗證了所提方法可靠性和準確性。
本節光伏系統是由13 個串聯光伏組件組成的,每個組件由60 個串聯單元組成,這些單元通過三個旁路二極管均勻地聚集成三個子串。MATLAB/Simulink 仿真的I-V測試電路和光伏組件如圖1 所示,通過控制電壓源輸出值的線性增加,記錄光伏串的輸出電流和電壓,然后將相應的數據輸入MATLAB,得到最終的I-V曲線。光伏串的輸出采用整流二極管,從而避免負電流的產生,輻照度和溫度由每個子串的增益放大器設置。

圖1 基于MATLAB/Simulink 的I-V 測試電路及光伏組件建模
本文研究的光伏串故障包括短路、異常老化、兩種類型的局部遮光和不均勻沾污。STC 單一故障條件下的典型I-V曲線如圖2 所示。異常老化使I-V曲線的下端變形,老化電阻可由式(1)和式(2)定義。根據在全局最大功率點跟蹤點(Global Maximum Power Point tracking,GMPPT)激活陰影光伏組件內部的旁路二極管,陰影故障可分為兩種類型:旁路二極管反向部分陰影(partial shading with the bypass-diode reversed,PSBR)和旁路二極管開啟部分陰影(partial shading with the bypass-diode,PSBD)。在污穢情況下,灰塵附著在光伏組件的表面,從而減少了面板上的入射輻射量,這種現象對I-V曲線的電流有很大的影響。本文認為灰塵堆積是一種特殊的遮光形式。值得注意的是,光伏組件的輸出電流由陰影度決定,因此,短路電流(Isc)是衡量PV 串積灰嚴重程度的重要指標。在實際的光伏電池串中,因為每個光伏組件都有不同程度的灰塵沉積,因此短路電流(Isc)能更具體地表示電池串中污染最小的光伏組件。

圖2 STC 下單個故障典型I-V 曲線

式中:(I1,V1),(I2,V2)和(I3,V3)是離(0,Voc)最近的三個I-V點。為了抑制外部干擾和測量噪聲,可以通過平均Rs的三個估計值對式(1)、式(2)進行修正。
表1 總結了STC 單一故障狀態下I-V曲線的特征參數,將開路電壓Voc、短路電流Isc、最大功率點電壓Vm和電流Im、等效串聯電阻Rs作為光伏故障診斷特征。這些不同變化的特征表現了STC 下不同故障的特征,因此,當光伏串的選定特征可以轉換為STC 下的特征時,可以準確地判別光伏系統的故障類型。在STC 中,短路、PSBO 和非均勻污穢下的異常老化特性可視為單一故障狀態的疊加。

表1 STC 故障特征的變化
為了消除輻照度和溫度對光伏系統和傳感器布置的影響,本文采用文獻中的特征歸一化方法進行精確識別。利用光伏串在不同輻照度下的低成本正常運行數據,對輸出I-V曲線特性方程的未知系數(a、b、c、d、e)進行校正,如式(3)~式(7)。將輸出方程移位,除以相應的參考值,即可得到式(8)~式(12)的歸一化方程。對I-V曲線的特征參數(Voc、Isc、Vm、Im、Rs)進行式(8)~式(12)歸一化,可以形成一個五維診斷特征。

式中:G是測量的輻照度;Gstc是值為1 000 W/m2的常數;dT是測量的溫度減去STC 溫度;Voc,f、Isc.f、Vm.f、Im.f和Rs.f代表開路電壓、短路電流、MPPT 點的電壓和電流,并分別對不同輻照度和不同溫度下的等效串聯電阻進行參數擬合。Voc.stc、Isc.stc、Vm.stc、Im.stc和Rs.stc分別表示STC 下的開路電壓、短路電流、MPPT 點的電壓和電流以及等效串聯電阻;Voc、Isc、Vm、Im和Rs分別表示開路電壓、短路電流、MPPT 點的電壓和電流以及等效串聯電阻的測量值。
極限學習機類似于單隱層前饋網絡(Single Hidden Layer Feed Forward Network,SLFN),包括輸入層、隱藏層和輸出層。ELM 具有快速訓練速度的能力,其結構如圖3 所示。

圖3 ELM 網絡
ELM 的關鍵是以最小的誤差找到從輸入到輸出的映射空間,對于N樣本(xi,yi),其中xi∈Rp,yi∈Rq,p和q代表個體維度。給定隱藏節點L和激活函數g(*),根據連續概率分布隨機生成連接權重(wj)和隱藏偏差(bj)。隱藏層(H)的輸出矩陣可以定義為:

ELM 網絡的輸出層可以表示為:

式中:β是隱藏層和輸出層之間的權重,且通過以下Moore-Penrose 求逆可以得到唯一的最小范數最小二乘解:

式中:?是矩陣的Moore-Penrose 逆。
ELM 通常不太適合處理超出校準數據范圍的數據。作為一種有監督的學習算法,ELM 要求大的標記樣本難以獲得,并且不能使用未標記樣本。基于流形假設,將流形正則化框架引入到ELM 中,以改進ELM 的損失函數,形成半監督ELM(SSELM)。流形的正則化項可以表示如下:

式中:wij是xi和xj之間的成對相似度,如式(17)所示。L∈R(l+u)×(l+u)是定義如(18),其中l和u分別表示有標記和無標記訓練樣本的數目,本文選取了10 個最近鄰圖。Tr(*)表示矩陣的跟蹤運算符。

式中:矩陣D是具有以下元素的診斷矩陣:

SSELM 的目標函數定義為:

式中:λ是流形項的懲罰系數;εi是第i個標記訓練樣本引起的誤差向量。與加權ELM 類似,Ci是針對不同類別模式的懲罰系數,用于解決不平衡數據的問題,其定義為:

式中:C0是用戶定義的參數;Ni是標記為yi的訓練樣本數。
根據文獻[13],當標記的訓練數據的數目大于或等于隱藏層中的神經元數目時,可以通過下式求解:

當標記訓練數據的個數小于隱層神經元個數時,采用以下替代方法計算解:

SSELM 與傳統的支持向量機(TSVM)和拉普拉斯支持向量機(LAPSSVM)相比的優點是能自然地處理多分類問題,其主要實現是計算H矩陣和求解輸出權重β。然而,懲罰系數λ和C0的選取與SSELM 的性能有關,通常采用人工設定的經驗值。此外,由于缺少有標記的驗證數據集,可能導致不適定的SSELM 模型,從而出現過擬合問題。因此,采用人工蜂群算法對懲罰系數進行優化,提高了SSELM 模型的泛化能力。
人工蜂群算法(Artificial Bee Colony,ABC)是一種受蜂群覓食行為啟發的群體智能算法。在控制參數較少的情況下,ABC 算法的性能優于或類似于其他基于種群的算法,如粒子群優化(Particle Swarm Optimization,PSO)和遺傳算法(Genetic Algorithm,GA)。ABC 的搜索模型包括四個基本部分:食物來源、雇傭、旁觀者和偵察蜂,優化的目標是尋找食物源周圍的最佳花蜜。ABC 算法在SSELM 中的實現可以解釋如下。
(1)初始化:本文將種群數S設為10,最大循環數(MCN)設為100。采用擬優化的SS-ELM 參數(λ和C0)的實數編碼方法進行降維。

此外,ABC中每個食物源的位置可以用以下二維空間表示:

式中:S是蜜蜂種群的數量。食物源位置的上下限限制如下:

此外,初始食物來源的位置可以隨機生成為:

(2)受雇蜜蜂:每種食物源xi相應地被送到一只受雇的蜜蜂尋找花蜜,如式(28)。如果發現了更好的花蜜,則食物源就更新到新位置,即更新xi為vi。否則,食物源xi仍然存在。在這項研究中,ABC的目標是尋找適應度函數的最小值,如(29)所示。

式中:φid是均勻分布在[-1,1]上的隨機數;當滿足條件(*)時,I(*)趨于統一和yk表示標記樣本的預測和原始標記表示未標記樣本的預測值表示xi的10 個鄰近鄰的預測。式(29)右側的第一項是標記數據的訓練錯誤數據,中間項表示未標記樣本的聚類,這意味著具有相同結構的未標記樣本屬于同一類,第三項是SSELM 中輸出權重的范數,系數(af和bf)是互補權重,這意味著有標記和無標記數據的重要性與其數量成反比。cf的值遠小于af,bf代表了從最滿足適應度函數前兩項的值中找到的SSELM 模型的最佳泛化能力。
(3)旁觀者蜜蜂:根據雇傭蜜蜂提供的新的食物來源信息,根據適應度值(30),發給旁觀者蜜蜂以一定概率進一步探索食物來源,旁觀者蜜蜂的搜索策略與雇傭蜜蜂相同(28)。

(4)偵察蜂:一些食物來源可能在幾代受雇和旁觀的蜜蜂之后保持不變,這可能會陷入局部最優。因此,根據式(27),偵察蜂經營者丟棄未改變的食物來源,而尋找新的食物來源。
在有足夠標記數據的情況下,基于驗證集的訓練誤差,采用ABC 算法確定最優懲罰參數λ和C0。然而,在實際的光伏系統中,故障標記數據很難獲得。SSELM 的訓練模型可能導致基于標記數據不足的訓練誤差的不適定模型。本文還考慮了未標記數據的聚類度和SSELM 的輸出權重,前饋神經網絡的權值范數越小,其泛化性能越好。由于ABC 的適應度函數(29)是為了優化相應的參數,并尋找SSELM 模型的最佳泛化能力,因此,可通過權衡系統性能和計算時間來選擇SSELM 中隱藏的節點數。
通過ABC 法進行參數優化,得到最優的PV 故障診斷模型,所提光伏故障診斷技術如圖4 所示。值得注意的是,利用正常I-V曲線的參數對規范化方程進行定期調整,可以適應光伏組件的自然老化,保持光伏故障診斷模型的長期可靠性。

圖4 提出的光伏故障診斷方法的框架
本文根據光伏系統的積灰特性,分析了粉塵對光伏組件輸出特性的影響,在故障識別類型中考慮了光伏系統中的非均勻污垢和非均勻污垢發生時的故障。現有文獻還沒有同時考慮粉塵的影響來解決光伏故障診斷問題。圖4 是基于機器學習的光伏故障診斷技術的總體框架,包括數據采集、數據預處理和診斷模型建立。與其他文獻相比,該方法的一個創新點是步驟4 的ABC-SSELM 半監督學習算法。該算法只需要少量的標記數據,可以利用光伏系統的歷史未標記數據建立故障診斷模型。以往的研究中,有監督學習算法只能使用昂貴的標記數據來建立相應的模型。本文將參數規范化方法與模擬標號數據相結合,可以使模擬標記數據代替實際光伏系統的故障標記數據,大大降低了光伏電站信息再處理的人力和時間成本。
如第1 節所述,正常運行和五種故障類型包括短路、旁路二極管反向部分遮光(PSBR)、旁路二極管開啟部分遮光(PSBO)、異常老化和不均勻臟污。此外,本文還研究了短路、PSBO 和非均勻污穢下的異常老化等混雜故障。因此有九種光伏運行狀態,包括正常運行模式和非正常運行模式,需要加以全面判別。
兩種類型的組件,包括多晶硅制造的PVM1 和單晶硅制造的PVM2,如表2 所示,用于形成兩個光伏系統(3.51 kWp 和3.9 kWp),13 個組件串聯,用于仿真模擬和實驗驗證。

表2 PVM1 和PVM2 光伏組件參數
(1)仿真數據采集
第1 節中,在不同的條件下建立了I-V測試電路,得到了相應的I-V曲線。輻照度增益放大器的值在[0.3,0.6]范圍內隨機選取以模擬PSBO 條件,而在[0.88,0.95]范圍內隨機選取以模擬PSBR 條件。作為一種特殊的陰影,各模塊的輻照度增益放大器范圍設為[0.7,0.9],以模擬非均勻污染情況。非正常老化故障時,老化電阻值為[3 Ω,10 Ω]。輻照度在100 W/m2到1 200 W/m2之間,溫度在35 ℃到65 ℃之間同步變化。這些變化的步驟由式(31)中的確定值(A)和隨機變化值(B)確定,以反映真實的環境。每9 類有600 個模擬數據樣本,一個PV 串的模擬數據樣本總數為5 400 個。

(2)實驗數據采集
實驗現場布置如圖5 所示。在實驗案例中,光伏系統的I-V曲線由美國TES 電子公司生產的太陽系分析儀(PROVA011)采集,光伏板的實時輻照度和溫度由匹配的傳感器測量。如圖5 所示,短路故障是由Y 分支連接器引起的。使用小塊,例如小磚塊或丟棄的煙盒,來模擬PSBR 條件。使用薄塑料片或紙片來模擬PSBO 條件。

圖5 實驗硬件平臺與故障產生機制
此外,本文亦以硬紙板作為外部物體,模擬局部陰影情況。異常老化故障采用滑動變阻器作為老化電阻,與光伏子串串聯。圖6 描繪了非均勻土壤及其混合斷層的實驗。在本研究中,以面粉模擬灰塵沉積,并在每個模組中加入50 克面粉。由于每個模塊子串的輸出電流受最大陰影單元的限制,一些沒有足夠陰影區域的單元不會影響整體輸出特性,然而,這將增加由嚴重陰影形成熱點的可能性。在這個實驗裝置中,人工噴霧很難確定每個子串中最嚴重陰影單元的相同程度,這自然會產生非均勻粉塵沉積的等效輸出特性。實驗環境的輻照度范圍為100 W/m2~1 000 W/m2。圖7 描繪了在單次故障發生,輻照度為700 W/m2時的實驗I-V曲線。圖7中的特性與圖2 中的特性相似,PVM1 和PVM2 的測量數據總數分別為3 064 和3 013。實驗中的數據選擇準則是測量I-V曲線時天氣穩定,也就是說,排除了在測量期間天氣變化劇烈時的實驗數據。

圖6 非均勻腐蝕條件下的實驗故障設置

圖7 單故障條件下700 W/m2 輻照下的實驗I-V 曲線
通過數值模擬和實驗平臺的搭建,得到了不同輻照度下光伏串的I-V曲線,以及開路電壓Voc、短路電流Isc、最大功率點電壓Vm和電流Im的特性參數,并提取等效串聯電阻Rs作為診斷特征。此外,通過參數歸一化消除了實驗中的客觀誤差,如光伏板與被測背板之間的溫差;電池與被測電池之間的輻照度不一致,以及被測設備引起的誤差等。因此,在本研究中,測量值可作為參考值,盒形圖是通過設置單個故障來直觀地顯示參數規范化的性能。以PVM1 為例,圖8 描繪了歸一化模擬和實驗數據的統計分布,這些特征在STC 中表現出相同的聚類和統一特征。雖然實驗樣本受到各種環境因素的干擾而存在異常值,但其分布與仿真樣本相似。該結果驗證了參數規范化的有效性,為無數據情況下用仿真數據代替實測數據提供了依據。

圖8 五個標準化特征變量的盒形圖
為了驗證所提出的ABC-SSELM 算法對9 種PV狀態的分類性能,從相應的數據集中隨機獲得不同數量的未標記歷史數據,并且在每次訓練中標記數據的數量是遞增的,剩下的數據用于檢驗訓練模型。此外,在每種情況下運行50 次,并使用平均精度來衡量所提出算法的性能。
(1)算例1:仿真驗證
在這種情況下,標記和未標記的訓練和測試數據是從仿真數據集創建的。PVM1 和PVM2 在不同情況下的ABC-SSELM 仿真結果如圖9(a)和10(a)所示,隨著標記樣品數量的增加,測試精度迅速提高,“UL”表示算例中要使用的未標記數據的數量。此外,隨著未標記數據的增加,訓練模型的穩定性得到提高,測試精度得到進一步提高。當標記數據的個數達到總數據的0.67%時,在不同未標記數據個數情況下,平均識別率都在98%以上。結果表明,大量未標記數據可以用來提高訓練模型的泛化和精度。此外,標記數據的個數占總數據個數的0.67%以上,在仿真驗證中能夠很好地實現對9 種光伏狀態的分類。

圖9 基于PVM1 的ABC-SSELM 在不同情況下的性能

圖10 基于PVM2 的ABC-SSELM 在不同情況下的性能
(2)算例2:實驗驗證
在實驗算例中,由實驗平臺生成有標記和無標記的訓練和測試數據。PVM1 和PVM2 在不同情況下的ABC-SSELM 仿真結果如圖9(b)和10(b)所示,未標記數據和標記數據的數量對測試精度的影響與模擬數據相似。需要注意的是,與模擬數據不同,測量的實驗數據中存在很多干擾因素,這將降低整體精度。然而,隨著未標記樣本和標記樣本的增加,所提出的ABC-SSELM 仍然表現良好。當標記樣本數增加到45 個(僅占總樣本數的1.5%)時,PVM1 和PVM2 在所有情況下的平均準確度都高于96%。值得注意的是,少數標記數據的質量直接影響檢測結果,換句話說,診斷模型會受到帶有相當大噪聲的標記數據的影響。
(3)算例3:混合仿真與實驗驗證
在這種情況下,由于光伏系統的故障數據很難獲取,通常用仿真數據代替被測數據,驗證相應的性能。從仿真數據集中提取有標記的樣本,而將測量數據集分為無標記樣本和測試樣本。從圖9(c)和10(c)中可以看出,未標記數據對測試精度的影響高于前兩種情況,主要原因是模擬數據和實測數據的分布不同。所提出的ABC-SSELM 方法可以從未標記數據的分布中學習,提高訓練模型的泛化能力,隨著未標記樣本的增加,實驗數據的分布更加明確,訓練模型的性能更加穩定,測試精度明顯提高。
表3 總結了90 個標記數據和500 個未標記數據的分類結果(平均值±方差),標記數據在所有情況下占相應數據集不到總數據數的3%。需要注意的是,算例3 中PVM2 的測試精度甚至優于算例2 中的測試精度,這意味著使用模擬標記數據替換具有足夠歷史未標記數據的被測數據可能具有更好的性能。其原因是,被測標記數據可能帶有稱為離群值的大噪聲,會影響模型的建立,而模擬數據在圖8(a)中顯示出更好的聚類效果。

表3 在不同情況下ABC-SSELM 的性能
表1 STC 下的診斷特征是建立PV 診斷模型的必要條件,降維方法可能更適合于連續數據或高維數據,但在本文的框架中很難應用。例如,文獻[6]使用了一種基于主成分分析(PCA)的多元統計方法對PV 故障進行分類,輸入數據都是I-V曲線上的采樣點,其數據預處理過程各不相同。本節以PVM1 為例,對ABC-SSELM 方法與其他機器學習方法進行了性能比較。在此比較中,基于參數網格搜索的原始SSELM,和基于分類和回歸樹(SAMMECART)的多類指數損失函數的階段性建模,以及文中介紹的粒子群優化算法SSELM(PSO-SSELM),應用局部和全局一致性學習(LGC)算法。
圖11(a)和11(b)分別描述了由監督學習(包括ELM 和SAMME-CART)進行比較的分類結果。對于算例2,在充分的數據條件下,所提出的ABC-SSELM與ELM 和SAMME-CART 具有競爭性的準確性。然而,監督學習需要大量的標記數據進行訓練,對未標記數據不敏感。因此,ELM 和SAMME-CART 在算例2中沒有標記數據的情況下性能較差,特別是ELM。而所提出的ABC-SSELM 保持了良好的性能。由于算例3 的訓練和測試數據分布不同,即使增加訓練標記,也無法改善ELM 和SAMME-CART 的性能,而所提出的ABC-SSELM 在這種情況下仍能保持很好的性能。對于圖11(a)中的情況3,隨著模擬標記數據的增加,所提出的ABC-SSELM 在識別測量樣品方面的測試精度略有下降。當模擬標記數據的個數遠大于被測數據的個數時,訓練模型會明顯地被模擬標記數據所支配,而從未標記數據中學習的較少。因此,在實際應用中,模擬標記數據的數量不應超過未標記歷史數據的數量。

圖11 ABC-SSELM 與其他機器學習方法的性能比較
圖11(c)和圖11(d)描述了所提出的ABCSSELM 與文獻[13]中的原始SSELM 和PSO-SSELM進行比較的分類結果。原始SSELM 在沒有標記數據的情況下容易產生不適定模型。此外,PSO 用于優化SSELM 中的懲罰系數,形成具有相同目標函數的PSO-SELM,與所提出的ABC-SSELM(的性能進行比較,兩種群優化算法迭代次數均設置為100。從圖11(d)可以看出,算例2 情況下,兩種算法運行結果類似。算例3 情況下,ABC-SSELM 算法的性能比PSO-SSELM 算法要好得多,且ABC 算法比PSO算法需要確定的參數更少。
在文獻[14-15]中,采用基于圖形的半監督學習算法適合于診斷PV 故障,其中引用了LGC 算法。LGC 是一種標記傳播算法,不需要初始訓練模型就可以識別樣本。文獻[14]將測試數據不斷地輸入到LGC 中,并實時更新相應的模型,具有O(n3)的時間復雜度。為了降低算法的計算復雜度,并與ABC-SSELM 算法進行比較,文章采用300 個隨機未標記數據和不同數量的標記數據,在不通過測試數據更新模型的情況下,對LGC 算法進行驗證,其設置與ABC-SSELM 算法相同。從圖11(e)可以看出,對于算例2 和3,所提ABC-SSELM 的分類結果都優于LGC 算法。此外,LGC 的每一個測試樣本都需要重新訓練模型進行預測,且耗時顯著。此外,LGC的實際應用更容易受到異常值的影響,導致性能下降。顯然,所提光伏故障診斷技術可以解決文獻[14-15]中用模擬數據代替實測數據的問題。
以帶有90 個標記數據和500 個未標記數據的PVM1 模塊為例,表4 總結了不同診斷方法的計算時間比較,結果表明,本文提出的ABC-SSELM 的樣本測試時間與其他基于ELM 的方法相當,比SAMME-CART 的監督學習方法和LGC 半監督方法測試時間短得多。此外,文獻[14-15]中LGC 方法的測試時間會隨著數據的增加而減慢,這將增加大數據的計算復雜度。而ABC-SSELM 方法結構簡單,因此在線測試速度最快。

表4 不同診斷方法計算時間對比
以帶有90 個標記數據和500 個未標記數據的PVM1 模塊為例,在算例2 和算例3 中運行100 次。圖12 給出了所提ABC-SSELM 方法中受隱藏節點數影響的平均精度。從圖12 可以看出,當隱藏節點的數目增加到7 個時,平均精度可以逐漸提高。由于診斷特征的規范化和參數的優化,少量的隱藏節點即能夠滿足該方法的要求。因此,本研究將ABCSSELM 方法中的隱藏節點數設為7。

圖12 ABC-SSELM 中隱藏節點數的影響
在第3.3 節和第3.4 節中,使用標記樣本和未標記樣本的動態變化來驗證所提出的ABC-SSELM 方法的優越性能。圖9~圖11 中的每一點表示9 個光伏運行狀態下的平均分類精度。以帶有90 個標記數據和500 個未標記數據的PVM1 模塊為例,每種情況下運行10 次,表5 總結了9 種光伏運行狀態的平均精度。從表5 可以看出,所提出的ABC-SSELM 方法對9 種光伏運行狀態的平均分類精度均超過98.44%。

表5 PVM1 在三種情況下的分類精度 單位:%
從以上三個算例的驗證和與其他方法的比較來看,本文提出的ABC-SSELM 方法具有明顯的優越性。在實際應用中,所提光伏故障診斷技術可以充分利用光伏公司存儲的大量歷史數據。此外,少量的標記數據可以被模擬數據代替,這進一步節省了人力和時間成本。雖然在實際應用中需要一個在線的I-V跟蹤器和相關的傳感器,但所提出的光伏故障診斷技術可以監測每個光伏串的運行狀態,以告知潛在的故障,并帶來經濟效益。根據全球不同的環境,結合當地的天氣預報,可以對光伏板實施有效的清潔方案。
本文設計了一種混合人工蜂群算法和半監督極值學習機(ABC-SSELM)用于光伏發電故障診斷。其考慮了短路、旁路二極管反向部分遮光(PSBR)、旁路二極管開啟部分遮光(PSBO)、異常老化和非均勻污穢五種故障類型和正常運行情況。此外,還研究了短路、PSBO 和非均勻污穢下的異常老化等混合故障。最后通過3.51 kWp 和3.9 kWp 的實際光伏串,驗證了所提方法的有效性。
與有監督的機器學習不同,ABC-SSELM 算法可以充分利用未標記的歷史數據,只需要總數據集中1%~3%的標記數據,同時,優化了診斷模型的泛化能力。在混合仿真和實驗驗證中,所提出的ABCSSELM 的平均精度比LGC 算法提高了2.94%,比SSELM 提高了1.26%,比SAMME-CART 提高了7.37%,比ELM 提高了69.28%,比PSO-SSELM 提高了0.42%。
對于所提出的光伏故障診斷技術,可以用模擬的故障數據代替難以獲取的標記故障數據。在大規模光伏發電系統中,甚至可以實現更好的分類精度,避免潛在的安全問題和額外的人工成本。