柳玉賓,王 勇,孫思宇,王恒濤,紀宇飛
(1.華電電力科學研究院有限公司北京分院,北京100000;2.華電湖北發電有限公司新能源分公司,湖北 武漢430000)
光伏產業在本世紀由于受到國家重點扶植,其產業規模迅速擴大,國家能源局的資料顯示,從2018年開始至今,我國光伏裝機容量擴大至44.2GW,達到了約174.6GW,居世界首位。2019年5月30日,國家能源局正式下發《2019年光伏發電項目建設工作方案》,光伏產業得到了國家政策的大力推廣。同時,光伏產業作為扶貧的項目之一,將光伏產業融入鄉村,能夠發展分布式能源,加快農村現代化建設,為脫貧提供保障。與此同時,隨著國家大力扶持集中式發電站,產業發展迅猛。隨著光伏電站規模的增大,運行年限的增加,光伏組件揮發產生各種各樣的問題,維護光伏電站的成本也隨之增加。由于受到各種影響因素的制約,光伏組件中的電池受損越來越嚴重。另外,由于粉塵、光伏電站直流側(組件、匯流箱、逆變器、直流電纜)產生的缺陷占總缺陷的90%以上,其中組件缺陷又占直流側缺陷的73.5%,積雪、陰影遮擋光伏組件,對效率的轉換產生很大的影響,形成熱斑。
光伏電站維修主要有兩種方法,第一個是對現場進行監控,第二個是進行人工巡檢。隨著互聯網技術、遙感技術和通訊技術發展,光伏發電系統監控的主要工作逐漸被機器所替代,通過對數據的采集、傳輸和通信,完成對光伏發電設備的檢修和控制,以此來實現遠程監控。使用“MAPGIS地理信息系統”軟件平臺提供的外部數據庫功能,建立“太陽能供電系統用戶”信息數據庫[1],數據庫中主要包含:姓名、地址、地理位置(經緯度和海拔高度)、電話、太陽能系統型號、電度表指示數、使用電器情況、日志(記載用戶使用過程中發生的故障)等。通過對歷史運行數據進行數據跟蹤,能夠反映用戶和設備的使用情況,對后期的設備技術維護提供了技術支持[2]。
國內目前針對發電設備檢修和維護的方法并沒有實現自動化,因為沒有融合大數據、人工智能、GPS等新興技術在光伏設備運維方面的研究[3],因此本研究具有很好的開創性和探索性,具有重要意義與工程應用價值。
通過獲得光伏發電系統實時數據,對光伏設備海量監測信息進行相關性分析,能夠實現對照度、環境溫度、光伏板正板溫度、光伏陣列輸出電流、輸出功率的相關性挖掘;同時,統計同一時刻光伏的輸出功率,分析不同功率區間的概率,由于等效額定裝機容量的組串在同等環境下的輸出功率具有集中相似性這一特性,因此,提取光伏監測數據的主要能效指標,采用深度學習自編碼的多特征模型進行診斷;獲取光伏陣列紅外圖像,通過分析紅外圖像,能夠對電池故障分類和檢測。
與此同時建立管理域、設備域和量值域三段KKS編碼的設備統一信息模型,將數字制圖、數據庫管理及空間融為一體,構成空間信息系統,融合設備狀態與故障信息,對故障設備進行定位。研究包含編制計劃、工期管控、檢修進度跟蹤的雙代號網絡圖的關鍵路徑法則,將檢修項目與資源間使用深度學習進行匹配,在多設備故障條件下,基于故障精準定位信息,引入智能優化算法,以設備檢修資源管控與檢修路徑規劃為目的,建立光伏設備智能運維管控一體化模型。“云-端”容器為一體的數據層、服務層、應用層以及表示層的邏輯結構和組成,實現的平臺具有故障預警、故障診斷、能耗分析、檢修資源和路徑優化等功能。
數據挖掘的典型周期如圖1所示,包括6個階段:工程理解、數據理解、數據準備、建立模型、模型評價和模型安放。周期步驟并不固定,上一個階段的結果影響下一步的計劃。

圖1 數據挖掘項目周期
(1)工程理解:對數據進行挖掘。在這個階段清晰地定義工程需求,認清數據挖掘的目的是這一階段的主要任務。
(2)數據理解:數據理解主要對數據進行收集,以此來收集系統感興趣的子集。
(3)數據準備:數據準備階段貫穿整個周期。數據準備的工作需要反復進行多次,沒有任何順序,是完全隨機的。數據準備工作包含選擇數據表、記錄、屬性以及轉換和清除數據等。
(4)建立模型:需要選擇和應用不同的建模技術,并將其參數調整到最優值。數據結構對建模技術具有一定的影響,因此經常需要返回到第一步對數據進行簡單處理。該階段主要建立的模型包括關聯規則、分類與預測、數據聚類、異常檢測等。
(5)模型評價:在進行模型檢驗之前,需要從頭至尾地對模型進行評估,以此來確定模型是否適合目標工程。主要評估的問題是一些安全隱患。評估階段最后應作出數據挖掘結果的使用決定。
(6)模型部署:根據具體工程具體需求,對模型進行可視化操作或生成文檔報告等方法組織與呈現數據挖掘模型獲得的知識。
數據挖掘涉及多種學科領域和方法,不同的工程應用環境需要不同的方法和建模技術,主要包括以下幾種方法。
貝葉斯推理是修正數據集概率分布的基本工具,前提是需要知道數據狀態。回歸分析可以有效得到輸入和輸出映射關系,或者得到一個參數的走向,同時可以得到其他變量值的線性回歸,也可以進行對數回歸。
直觀是決策樹的最佳優點,對高維數據分類這一問題應用廣泛。缺點就是數據的輸入數量越多,它的建模就越加的復雜,分類的種類也隨之變得復雜。另外,該方法對缺失的數據處理存在缺陷。
通過模擬大腦的結構和神經元的工作機制建立一個模型,該模型稱之為神經網絡模型。MP模型和Hebb模型是神經網絡的基本模型,在此基礎上又發展出了前饋、反饋和自組織的模型,對數據類型進行準確預測是神經網絡的主要優點。神經網絡魯棒性強、泛化能力強、能夠并行處理數據和容錯性高,由于具有大量的優點,神經網絡成為了數據分類的有效工具。
上世紀80年代,Pawlak提出了粗糙集理論,它把知識進行論域的劃分,該方法屬于數據分析方法,認為知識是通過粒度構成的,利用相對核這一概念進行知識相關性分析和約簡。
粗糙集理論可以在數據缺失的情況下,對數據進行很好的分類處理,能夠獲得其中的潛在規律,在當前數據挖掘中具有廣泛的應用。
典型數據挖掘各階段涉及到的方法如表1所示。

表1 數據挖掘各階段主要涉及方法
基于大數據的光伏設備早期故障預警技術,構建基于模型和多源異構大數據驅動的光伏設備故障診斷方法,原理圖如圖2、圖3所示。首先根據光伏設備建立動態模型,利用實際系統的輸出數據和所建立模型的基準值來產生偏差(即殘差),實現基于模型的光伏設備潛在故障早期預警;基于多源異構大數據驅動的技術常常需要用先驗故障樣本進行訓練,揭示輸入與輸出的映射關系,并用于在線檢測,從而進行設備故障診斷;基于此,在研究內容1的基礎上提出了數據挖掘與特征融合技術,通過實時更新故障知識庫(故障標準樣本集),建立基于時間序列變化的故障診斷模型,提出了一種基于時間序列模型的故障診斷和性能退化分析的算法,能夠對光伏設備進行早期潛在故障的診斷與預警,使設備具有更高的安全性與可靠性。

圖2 數據驅動的診斷技術原理圖

圖3 模型診斷技術原理圖
本研究的重要部分之一就是光伏設備故障診斷,通過獲得電廠的各種重要參數,采用深度學習神經網絡和SVM等故障診斷模型對設備進行有效的故障診斷,從而對故障設備進行故障定位。在模式識別方面,深度學習通過對歷史數據中的輸入數據和對應的故障數據進行擬合,可以有效地對其進行評估分類。通過將大數據與深度學習進行融合,擺脫傳統意義上需要人工經驗以及大量數據的故障診斷方法,完成設備故障特征提取與健康狀況評估。
深度學習神經網絡具有多個隱藏層,通過發掘數據內在特征,使其分類更加容易,提高分類的準確性。其主要方法為受限玻爾茲曼機(Restricted Boltzmann Machine,RBM)。每一層RBM包含一個可視層v和一個隱藏層h,結構如圖4所示。

圖4 RBM結構