魏東, 代敏, 唐九齡, 馮炳赫, 易建波*
(1. 四川晟天新能源發(fā)展有限公司, 成都 610000; 2. 電子科技大學(xué)機(jī)械與電氣工程學(xué)院, 成都 611731)
光伏系統(tǒng)在野外條件下,模組表面不可避免地會(huì)有風(fēng)沙、落塵、污穢等積灰問題,嚴(yán)重時(shí)可能導(dǎo)致光伏模組局部熱斑損壞[1-2]。光伏系統(tǒng)亦存在霧霾、雨霧和云層等陰影遮擋的問題,且積灰和陰影影響光伏運(yùn)行的特性相似,所以積灰的識(shí)別易受陰影問題的干擾。在光伏今后的發(fā)展中,要加入自動(dòng)清洗機(jī)器人來提高清洗效率,機(jī)器人的維護(hù)成本要低于人工清洗成本,而且可以讓機(jī)器人在排除陰影的情況下對(duì)積灰及時(shí)清理,使光伏板的安全得到保障,對(duì)陰影的準(zhǔn)確識(shí)別也可以使光伏機(jī)器人做出正確的判斷,提高清洗效率和減少機(jī)器人的運(yùn)行損耗。
鑒于積灰問題對(duì)光伏發(fā)電系統(tǒng)的經(jīng)濟(jì)性和運(yùn)行安全性有至關(guān)重要的影響,光伏模組積灰和陰影情況的特性差異和識(shí)別判據(jù)需要深入研究,高準(zhǔn)確度的識(shí)別模型和智能算法亟待工程實(shí)現(xiàn)。針對(duì)積灰情況的識(shí)別,紅外熱斑成像輔以圖像處理算法[3-4]是目前比較常用的診斷積灰的方法。文獻(xiàn)[5]應(yīng)用神經(jīng)網(wǎng)絡(luò)算法檢測(cè)光伏紅外熱斑區(qū)域,積灰區(qū)域的識(shí)別效果較好。文獻(xiàn)[6]將光伏熱斑圖像準(zhǔn)確分割出局部有效區(qū)域,文獻(xiàn)[7]進(jìn)一步辨識(shí)出太陽的反射光等熱斑虛警,提高了積灰區(qū)域識(shí)別準(zhǔn)確度。文獻(xiàn)[8]提出無人機(jī)熱斑檢測(cè)平臺(tái),可隨時(shí)擴(kuò)展積灰檢測(cè)區(qū)域,有效降低了紅外監(jiān)視設(shè)備的成本投入。紅外熱斑檢測(cè)易受外界因素影響,特別是局部陰影遮擋條件下,熱斑與積灰區(qū)域的關(guān)聯(lián)關(guān)系遭到顯著破壞,導(dǎo)致后續(xù)的識(shí)別算法難以適用。文獻(xiàn)[9]采用ELM(extreme learning machine)和優(yōu)化電壓數(shù)據(jù)作為輸入,通過訓(xùn)練辨識(shí)陰影等異常分類。文獻(xiàn)[10]通過分析總結(jié)光伏陣列的故障類型和對(duì)應(yīng)的輸出特性,提出基于GA-BP(genetic algorithm-back propagation neural network)神經(jīng)網(wǎng)絡(luò)光伏模組故障診斷方法。文獻(xiàn)[11]提出了利用光伏特性曲線的時(shí)變特性來判別積灰和陰影的方法,文獻(xiàn)[12]進(jìn)一步根據(jù)I-V(電流-電壓)曲線拐點(diǎn)、臺(tái)階、曲線下積分面積(S)等特征,提出基于S-V曲線特性的光伏組件陰影遮擋診斷方法。文獻(xiàn)[13]在光伏系統(tǒng)故障診斷中引入了CatBoost算法,篩選了10個(gè)特征輸入量,相比其他人工智能算法,訓(xùn)練集規(guī)模和計(jì)算量?jī)?yōu)勢(shì)明顯,工程應(yīng)用可行性更強(qiáng),但是10個(gè)特征量線性相關(guān),特征量過多占用資源,且診斷精度有待提高。
因此,在積灰與陰影問題識(shí)別中引入CatBoost算法,研究篩選簡(jiǎn)化輸入特征量的依據(jù),提升識(shí)別模型診斷精度。首先,分析積灰和陰影的光伏特性曲線的特征,對(duì)特征量進(jìn)行有依據(jù)的選擇。其次,選取簡(jiǎn)化的6個(gè)輸入特征量,建立基于CatBoost算法的訓(xùn)練識(shí)別模型并設(shè)定深度和迭代次數(shù)等參數(shù)。最后,將CatBoost算法與ID3和GA-BP算法進(jìn)行對(duì)比,驗(yàn)證本文算法的準(zhǔn)確性和先進(jìn)性。
光伏模組的積灰和陰影遮擋現(xiàn)象具有極其相似的光伏出力特性曲線,本節(jié)分析特性曲線,探尋區(qū)分程度高的特征量。選擇典型的光伏模組全交叉連接(total cross tied, TCT)結(jié)構(gòu)[14],討論輸出特性曲線。
如圖1為3×4的TCT結(jié)構(gòu)光伏模組均勻積灰和不均勻積灰的假設(shè)示意圖,由于積灰對(duì)光伏板的影響為削弱光照強(qiáng)度,所以等效光照強(qiáng)度為

圖1 各積灰情況Fig.1 Dust accumulation situation
E′=ηSCE
(1)
式(1)中:ηSC為光伏板陰影上標(biāo)識(shí)的遮擋系數(shù);E為原始光照強(qiáng)度。
當(dāng)光伏板放置在戶外無外力影響時(shí)會(huì)有積灰情況a和b這樣程度不同的均勻積灰,當(dāng)光伏板放置在小風(fēng)速(<3 m/s)環(huán)境下[15]會(huì)有積灰情況c、d、e這樣類型不同的不均勻積灰,積灰情況f主要是污穢物掉落導(dǎo)致。根據(jù)積灰示意圖來設(shè)置光伏模組的積灰情況,然后得到各個(gè)情況的I-V和P-V(功率-電壓)光伏特性曲線。
如圖2所示為試驗(yàn)光伏模組在表面光潔的條件下與一定程度積灰情況的I-V、P-V特性曲線對(duì)比情況,其中各組試驗(yàn)光照條件均設(shè)定為在中午12:00的光照強(qiáng)度。從圖2中可以看出,積灰情況a、b和積灰情況d遮擋的曲線和正常狀態(tài)的曲線相似,但是最大功率點(diǎn)Pmax、短路電流Isc和開路電壓Voc不同。積灰情況c、e和f與理想運(yùn)行相比增加了拐點(diǎn),而積灰情況c、e比情況f多一個(gè)拐點(diǎn)。

圖2 理想運(yùn)行與各積灰情況特性曲線Fig.2 Characteristic curves of normal conditions and each deposit situation
從分析結(jié)果來看,積灰情況的特征在于其光伏特性曲線的形狀不會(huì)隨時(shí)間變化,只有最大功率點(diǎn)和短路電流會(huì)有所不同,在一些不均勻積灰的情況下,拐點(diǎn)數(shù)量和相應(yīng)的功率也會(huì)不同,但是整個(gè)曲線的形狀是不變的。
除了積灰,影響光伏板的因素還有陰影遮蔽,從作用效果來說,積灰和陰影都是通過削弱光照強(qiáng)度來影響光伏模組出力的,在某一時(shí)刻的光伏特性曲線可能相似,所以對(duì)于此類情況要通過分析陰影形狀的變化來判斷。如圖3所示為光伏模組陰影的假設(shè)示意圖,此類陰影會(huì)隨著太陽位置的變化而變化。

圖3 陰影a、b遮擋情況Fig.3 The occlusion shadows a and b
陰影a類似柱狀物的遮擋,陰影b類似云層的遮擋,通過改變時(shí)移這一環(huán)境變量,模擬太陽的移動(dòng),相當(dāng)于改變太陽的方位角和高度角,從而也就得到了陰影的位置和形狀變化。
隨著陰影形狀和位置變化,光伏特性曲線的形狀也會(huì)有相應(yīng)的變化,故每個(gè)特征指標(biāo)在不同的時(shí)刻也會(huì)有所差別,尤其是拐點(diǎn)數(shù)量的變化,這就作為了區(qū)分積灰和陰影的重要條件。從表1中對(duì)比可知,在陰影情況下各個(gè)電流電壓指標(biāo)都要小于正常時(shí)的指標(biāo),與不均勻積灰情況相比,陰影的拐點(diǎn)數(shù)量會(huì)隨著時(shí)間變化,而不均勻積灰情況的拐點(diǎn)數(shù)量是不變的。

表1 不同時(shí)刻正常與各指標(biāo)對(duì)比Table 1 Comparison of normal and various indicators at different time
通過分析可知,積灰與陰影情況均通過削減光照強(qiáng)度來減小輸出功率,但是通過對(duì)一天當(dāng)中不同時(shí)刻的光伏特性曲線分析可知,在不同時(shí)刻太陽的方位角和高度角不同,陰影形狀也會(huì)有相應(yīng)的變化,所以陰影的特性曲線的形狀會(huì)隨時(shí)間變化,而積灰情況的光伏特性曲線形狀則不隨時(shí)間變化。
綜上所述,從特性曲線中可知Pmax、Isc、Voc和拐點(diǎn)數(shù)量可作為各個(gè)工況的評(píng)判指標(biāo),因?yàn)樽畲蠊β蔖max是最大功率點(diǎn)電流Imax與電壓Vmax的乘積,故將Imax、Isc、Vmax、Voc和拐點(diǎn)數(shù)量分別記為特征量S1~S5,即

(2)
由光伏熱斑形成的原理可知,當(dāng)光伏模組被遮擋時(shí),其光照強(qiáng)度減小,輸出電壓也相應(yīng)減小,正常運(yùn)作的光伏模組電壓會(huì)對(duì)遮擋的模組反向充電,此時(shí)旁路二極管導(dǎo)通,導(dǎo)致局部溫度升高。
為了利用這種特性,引進(jìn)特征量S6,即
(3)
該特征量稱為熱電壓,文獻(xiàn)[16]中用于區(qū)分由低錯(cuò)配和高故障阻抗導(dǎo)致的故障,以及接近低輻照度和高溫的工況。本文中熱斑下的運(yùn)行狀態(tài)正是低輻照度和高溫,故將這種特性作為區(qū)分積灰和陰影的一個(gè)重要特征量。
通過分析上述的6個(gè)特征量可知,積灰和陰影是一個(gè)復(fù)雜的非線性問題,傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)需要大量的訓(xùn)練數(shù)據(jù),而且耗時(shí)長(zhǎng),在該類問題上難以適用。本文中使用的CatBoost算法采用的是對(duì)稱二叉樹結(jié)構(gòu),該算法的平衡樹結(jié)構(gòu)有助于高效的 CPU 實(shí)現(xiàn),減少預(yù)測(cè)時(shí)間,模型結(jié)構(gòu)可作正則化以防止過度擬合[17]。更為重要的是,它可以讓CatBoost模型的推斷過程極快。對(duì)于CatBoost的樹的預(yù)測(cè)過程來說,每個(gè)特征的分裂都是獨(dú)立的,不分先后順序,多個(gè)樣本可以一起預(yù)測(cè)。在每一步中,前一棵樹的葉子都使用相同的條件進(jìn)行拆分。選擇損失最低的特征分割對(duì)并將其用于所有級(jí)別的節(jié)點(diǎn)。算法流程如圖4所示。

圖4 CatBoost流程圖Fig.4 CatBoost flowchart
(1) 為模型設(shè)置學(xué)習(xí)速率rL,樹的深度d以及迭代次數(shù)I,這三個(gè)參數(shù)都會(huì)影響模型的精度和速度。
(3) 隨機(jī)選取一個(gè)數(shù)列σ,將第0個(gè)序列中每個(gè)特征值的模型初始化,從而得到對(duì)稱決策樹中每片葉子的均值,進(jìn)一步更新第0個(gè)序列的模型,用于后面的識(shí)別。
(4) 在亂序模型中選取一個(gè)序列,若該序列中的模型已初始化,則計(jì)算該序列中所有特征量的梯度值,若沒有初始化,則初始化過后計(jì)算梯度。
(5) 建立新的決策樹候選節(jié)點(diǎn),計(jì)算候選新樹所有樣本在葉子上的值,在同一葉子節(jié)點(diǎn)上計(jì)算得平均值,并以此來確定分裂點(diǎn)。
在決策樹中,標(biāo)簽平均值將作為節(jié)點(diǎn)分裂的標(biāo)準(zhǔn)。而CatBoost算法使用了改進(jìn)的Greedy TS (target-based statistics)的方式。該方法添加先驗(yàn)分布項(xiàng),這樣可以減少噪聲和低頻率類別型數(shù)據(jù)對(duì)于數(shù)據(jù)分布的影響[18],用公式表達(dá)為
(4)
式(4)中:P為添加的優(yōu)先級(jí);a為大于0的權(quán)重系數(shù);j為樣本的標(biāo)簽類別;k為對(duì)應(yīng)標(biāo)簽下的樣本編號(hào)。
添加優(yōu)先級(jí)是一個(gè)普遍做法,針對(duì)類別數(shù)較少的特征,它可以減少噪聲數(shù)據(jù)。在本文中,沒有特別設(shè)置每個(gè)優(yōu)先級(jí)的權(quán)重,所以每個(gè)優(yōu)先級(jí)的權(quán)重都默認(rèn)為1。
(6) 選擇分割點(diǎn),使分裂后的樣本值與之前的樣本值最接近,得到每個(gè)序列中對(duì)應(yīng)葉子節(jié)點(diǎn)的值,最后更新模型Mt。
(7) 將0序列得到的均值與更新得到的模型對(duì)比。
(8) 當(dāng)更新的序列數(shù)t≠迭代次數(shù)I時(shí),將重復(fù)第(4)步,直至迭代完成。
在實(shí)際應(yīng)用中,CatBoost算法的運(yùn)算速度快,準(zhǔn)確度高,足以適用光伏系統(tǒng)的異常識(shí)別,在識(shí)別模型輸出識(shí)別結(jié)果時(shí),與比對(duì)數(shù)據(jù)做進(jìn)一步分析,并根據(jù)積灰和陰影類型對(duì)光伏模組進(jìn)行清理。
為了驗(yàn)證本文方法的可行性和準(zhǔn)確性,選取2021年6月21日,坐標(biāo)為(東經(jīng)122.27°,北緯43.6°)東北通遼光伏基地測(cè)量的數(shù)據(jù),光照強(qiáng)度采樣間隔為6 min,全天的光照強(qiáng)度變化符合高斯分布,12:00時(shí)光照強(qiáng)度最大值為956 m2/W,選擇4.3~19.7 h區(qū)間內(nèi)1 395組數(shù)據(jù)。其中隨機(jī)抽樣252組數(shù)據(jù)作為辨識(shí)結(jié)果比對(duì)數(shù)據(jù),剩下的1 143組數(shù)據(jù)作為CatBoost算法訓(xùn)練樣本數(shù)據(jù)。
在訓(xùn)練模型中需要為各類積灰和陰影情況添加標(biāo)簽:0-理想運(yùn)行,占比11.11%;1-積灰情況,占比66.67%;2-陰影,占比22.22%。因?yàn)榉e灰情況在仿真時(shí)種類較多,所以在整個(gè)訓(xùn)練模型中占比較大。
利用252組比對(duì)數(shù)據(jù),將本文CatBoost算法訓(xùn)練完成的積灰陰影識(shí)別模型與ID3算法和GA-BP神經(jīng)網(wǎng)絡(luò)進(jìn)行對(duì)比,3種算法的深度、迭代次數(shù)和診斷精度等關(guān)系的對(duì)比測(cè)試如表2所示。

表2 算法性能對(duì)比Table 2 Algorithm performance comparison
可見,本文中CatBoost識(shí)別模型的診斷精度隨著迭代次數(shù)的增加不斷提高,當(dāng)?shù)螖?shù)在420左右時(shí)精度可以達(dá)到96.03%,此時(shí)模型已穩(wěn)定,再提升模型的迭代次數(shù)已無意義。其中識(shí)別模型對(duì)稱樹的深度選擇為7效果最佳,通過對(duì)比測(cè)試可知,過深的樹形不但增加訓(xùn)練時(shí)長(zhǎng),而且影響模型的識(shí)別精度。選擇7級(jí)深度迭代420次最佳訓(xùn)練模型,訓(xùn)練耗時(shí)1 s左右,其診斷結(jié)果與識(shí)別標(biāo)簽相關(guān)系數(shù)可達(dá)0.876 4,這表明診斷結(jié)果具有很高的可靠性,在實(shí)際工程中具有很高的應(yīng)用價(jià)值。
經(jīng)對(duì)比發(fā)現(xiàn),在使用同樣的訓(xùn)練樣本數(shù)據(jù)和特征輸入量的情況下,ID3決策樹算法的深度為5,迭代次數(shù)為490時(shí)的診斷精度最高為0.912 7,而且識(shí)別模型的訓(xùn)練速度略快于CatBoost算法,但是診斷精度偏低。由于ID3算法結(jié)構(gòu)簡(jiǎn)單,會(huì)忽略數(shù)據(jù)的相關(guān)性,且容易出現(xiàn)過擬合情況,所以當(dāng)?shù)螖?shù)不斷增加時(shí),其識(shí)別模型的診斷精度和相關(guān)系數(shù)難以提升。反觀GA-BP神經(jīng)網(wǎng)絡(luò)算法,受輸入特征量的影響,計(jì)算復(fù)雜度高,神經(jīng)元深度為11時(shí)診斷精度最高為0.904 8,診斷精度和相關(guān)系數(shù)較低,且模型訓(xùn)練時(shí)間遠(yuǎn)遠(yuǎn)高于其他兩種算法。
綜上所述,本文提出的基于CatBoost積灰與陰影識(shí)別算法在6特征量輸入情況下,模型訓(xùn)練時(shí)間、診斷精度和結(jié)果相關(guān)性方面均優(yōu)于其他人工智能算法。
利用深度為7,迭代次數(shù)為420的CatBoost識(shí)別模型的診斷結(jié)果如圖5所示。

圖5 診斷結(jié)果Fig.5 Diagnostic results
從圖5可以看出,有10個(gè)點(diǎn)診斷錯(cuò)誤,誤診點(diǎn)和修正點(diǎn)的特征有很多的相似,所以會(huì)出現(xiàn)診斷錯(cuò)誤。從診斷結(jié)果可以看出,理想運(yùn)行情況下的數(shù)據(jù)占比11.11%,診斷結(jié)果較差,準(zhǔn)確率為89.29%,由于數(shù)據(jù)較少,正確率會(huì)相對(duì)較低;積灰情況下的數(shù)據(jù)占比66.67%,準(zhǔn)確率為98.21%,該情況的數(shù)據(jù)較多,模型訓(xùn)練充分,準(zhǔn)確率高;陰影情況下的數(shù)據(jù)占比22.22%,準(zhǔn)確率92.86%,該情況的數(shù)據(jù)相對(duì)較少,準(zhǔn)確率相比于積灰情況下較低。雖然有部分誤診點(diǎn),但是整體效果理想,為了進(jìn)一步分析誤診點(diǎn)出現(xiàn)的原因,將這10個(gè)出現(xiàn)診斷錯(cuò)誤的組列出,對(duì)比其各個(gè)特征量分析出現(xiàn)錯(cuò)誤的原因。
如表3所示,將各個(gè)診斷出錯(cuò)的組單獨(dú)列出,編號(hào)相鄰兩組的各個(gè)特征值相似,而且與修正點(diǎn)的組中部分特征量相似,這就導(dǎo)致了診斷的錯(cuò)誤。前4組數(shù)據(jù)的S3、S5和S6數(shù)據(jù)相似,S5是區(qū)分陰影和積灰的重要特征量,但是在某些時(shí)刻陰影的光伏特性曲線跟積灰相似,故無法準(zhǔn)確識(shí)別,并且第112組數(shù)據(jù)的光照強(qiáng)度較低,光伏特性曲線的各個(gè)特征量均數(shù)值較小,此時(shí)的識(shí)別難度較大;后6組數(shù)據(jù)的光照強(qiáng)度較高,S1~S4要高于前4組,而S6是識(shí)別高輻照情況下的重要指標(biāo),所以184~215這4組數(shù)據(jù)會(huì)出現(xiàn)識(shí)別混淆的情況,第240和241組數(shù)據(jù)的S6數(shù)值較小,所以在識(shí)別過程中會(huì)和前四組數(shù)據(jù)混淆。

表3 診斷出錯(cuò)數(shù)據(jù)組Table 3 Diagnostic error data groups
通過修改對(duì)稱樹深度和迭代次數(shù)可能改變識(shí)別模型的相關(guān)性,所以在不同的訓(xùn)練條件下,誤診和漏診的數(shù)據(jù)組可以被修正,具體測(cè)試情況如表4所示。

表4 各組識(shí)別成功所需參數(shù)Table 4 Parameters required for successful identification of each group
從前述的算法測(cè)試結(jié)果可知,沒有一個(gè)固定的迭代次數(shù)和深度可以滿足100%的診斷精度,特別是當(dāng)標(biāo)簽不同的兩組數(shù)據(jù)相似度較高時(shí),識(shí)別模型的區(qū)分度會(huì)明顯失真。由表4的修正分析可知6~9組相對(duì)更容易識(shí)別;2組和10組從表3中可知6個(gè)特征量的區(qū)分度很小,所以當(dāng)深度和迭代次數(shù)增加后才能將其正確識(shí)別;1組的S1和S2與其他組差別較大,所以較易識(shí)別;3組和4組在特定的深度下才能正確識(shí)別,而5組的正確識(shí)別沒有合適的參數(shù)。通過修正分析,在整體的識(shí)別精度較高時(shí),給無法識(shí)別的數(shù)據(jù)組增加限定條件可以使識(shí)別精度最高達(dá)到98.41%。
本文提出了一種基于CatBoost算法的光伏模組積灰與陰影工況分析與識(shí)別方法,通過將分析所得的6個(gè)特征量作為向量輸入,建立了基于CatBoost算法訓(xùn)練的診斷模型,通過測(cè)試和分析,得出以下結(jié)論。
(1) 對(duì)積灰和陰影的光伏特性曲線分析,提出將電流電壓和拐點(diǎn)等特征量作為該算法的輸入,簡(jiǎn)化了識(shí)別模型訓(xùn)練所需的特征量,該算法用于識(shí)別積灰的可行性好,診斷精度高。
(2) 經(jīng)過對(duì)算法參數(shù)的設(shè)置和選取,該算法的識(shí)別準(zhǔn)確度可以達(dá)到96.03%,相比于同為決策樹算法的ID3和不同類型的GA-BP算法結(jié)構(gòu)簡(jiǎn)單,準(zhǔn)確度高。
(3) 在整體精度最高時(shí),為無法正確識(shí)別的數(shù)據(jù)組改變深度和迭代次數(shù)使其最大程度地被正確識(shí)別,識(shí)別精度最高可達(dá)98.41%。