武煜昊,王永生+,徐 昊,陳 振,張 哲,關世杰
1.內蒙古工業大學 數據科學與應用學院,呼和浩特 010080
2.內蒙古自治區基于大數據的軟件服務工程技術研究中心,呼和浩特 010080
隨著化石能源的日益消耗殆盡,清潔可再生能源成為各國發展的重點。風能以其存儲量大、可再生的特點得以快速發展,僅2021 年全球新增裝機容量高達97 272 MW,相較于2020年增加約13%[1]。
風能具有間歇性、高可變性及強隨機性等特點,對電網并網造成負面影響。提前進行風電功率預測是降低風電并網影響的方式之一,因此對于高精準度、低時延性風電功率預測技術成為目前研究中的一大重點[2]。采集過程中不可控因素的存在,使得采集到的原始風電數據中存在異常數據及缺失數據。這些異常數據對參數估計及未來預測造成不可或缺的影響。在風電技術研究中,對采集到的數據進行相應的數據預處理操作后再進行相應的預測(如圖1所示)。其中數據的質量對預測結果效果產生極大影響,因此在進行風電功率預測前通常進行相應的異常值檢測和缺失值插補操作。

圖1 風電輸出功率預測流程Fig.1 Flow chart of wind power output forecasting
本文對風電輸出功率預測中異常值檢測、缺失值插補和風電功率預測模型的理論方法進行梳理,并對其中重要的研究方向進行介紹。
異常值指處在特定范圍外明顯偏離該樣本數據集其余觀測數據偏離的個別數據[3]。異常數據有點異常、子序列異常和序列異常三種,這些異常值的存在會顯著影響預測模型的性能,降低預測值的可信度[4]。異常檢測則是在數據中尋找不符合預期行為的數據的過程[5],采用相關的異常檢測算法對原始風電數據中的異常數據進行準確識別[6],為預測提供更精準的數據。
本章主要從異常檢測方法和異常數據解釋技術兩個方面進行介紹,并對相應的方法發展進行總結與展望。
目前,異常值檢測方法可分為全監督[7]、半監督[8]和無監督[9]三種學習方式。在工業數據檢測領域數據集中,特別是在風電領域中,采集數據種類多,時序長,依靠人工標注數據集的監督學習和半監督學習可行性及適應性較低,因此在現有時序數據異常值檢測領域(特別涉及風電原始數據異常檢測領域)中,大多數檢測算法采用無監督方式的檢測技術。
根據處理技術的不同,異常檢測方法大致可分為基于概率統計的異常檢測方法、基于聚類的異常檢測方法、基于距離的異常檢測方法、基于密度的異常檢測方法、基于偏差的異常檢測方法和基于集成的異常檢測方法。本節主要對不同檢測方法進行分析介紹,并對該領域異常檢測方法未來挑戰進行分析。目前現有研究中,通常采用精準率[10]、召回率[11]及F1-score[11]等評價算法效果[12],相應文獻中均有介紹,本文不再詳細闡述。
1.1.1 基于統計的異常檢測方法
基于統計的異常檢測方法通過對數據中變量進行描述性的統計,以此判斷數據是否異常。基于統計的異常檢測方法有兩種:使用參數的異常檢測方法和非參數的異常檢測算法[13]。
(1)簡單統計量分析法通過統計數據集中各變量(特征)特點(如最大值、最小值等)判斷該數據是否為異常。文獻[14]使用簡單統計量分析法將數據按照不同風向等分別進行統計,并根據所設置的閾值進行異常判別。該方法直觀上簡便易懂,但僅適用于數據量小且集中型的數據,檢測方式粗糙難以滿足實際需求。文獻[13]中的HBOS(histogrambased outlier score)算法將數據樣本根據特征分成多個區間,計算每個數據的異常得分,樣本少的區間異常的可能性較大。與其他異常檢測算法相比,該算法運行時長較短,特別在大量數據檢測中具有明顯優勢。整體來看,基于簡單統計量分析的檢測方法適用于不在有效范圍內大量堆積的風電原始數據,數據量過大或數據分散時并不適用[15]。
(2)3σ準則又稱拉依達準則。當數據為正態分布時,分布在(-∞,μ-3σ)和(μ+3σ,+∞)中的概率僅占不到0.3%,因此可以認為分布在該區間內的數據為異常數據[16]。前期風電研究中常采用3σ進行異常值檢測[17]。3σ算法簡便、計算速度快且可以較好地識別極端數據,但在一些實驗結果中顯示該算法整體檢測準確率一般,通常為30%左右。實際中風電數據原始分布并不完全服從正態分布,因此3σ準則在風電數據異常檢測中識別出的異常數據值遠小于實際存在的異常數據。
基于統計的異常檢測方法所存缺陷:(1)需提前確定數據分布,如正態分布等。風電數據并不完全服從正態分布,此類異常檢測方法在風電數據異常檢測領域適用性較差。(2)對于模型的選擇要求十分嚴格,模型選擇對最終檢測結果影響很大。這使得基于統計的異常檢測方法在實際應用中存在許多困難。
1.1.2 基于聚類的異常檢測方法
基于聚類的異常檢測方法通過聚類算法對數據進行聚類,將未歸類的數據及數據少的類判定為異常[18]。目前常用的聚類方法有K-means、高斯混合模型(Gaussian mixed model,GMM)及DBSCAN(densitybased spatial clustering of applications with noise)[19]等。
K-means 算法與馬氏距離結合的方式用于檢測風機中的多元異常值[20],但K-means算法聚類類別及聚類中心值選取的不同對最終結果產生較大影響。針對上述問題,文獻[21]提出DPC(clustering by fast search and find of density peaks)算法,以解決傳統Kmeans 中需提前進行初始化聚類類別個數對結果造成影響的問題。該算法能夠快速發現密度峰值點,適用于大量數據的聚類分析。為解決DBSCAN中需設置關鍵參數半徑和鄰域密度閾值的問題,文獻[22]提出基于自適應密度聚類的異常檢測算法。該算法避免了人為原因造成的誤差現象,更高精度地識別出風電機組數據中存留的異常數據。
整體來看,基于聚類的異常檢測方法模型雖具有較強的遷移能力,但檢測所需時耗較長。同時,此類算法大多以單點形式進行檢測,并未挖掘時間序列間的時序性信息。
1.1.3 基于距離的異常檢測方法
基于距離的異常檢測方法通過計算每個數據間的距離,當檢測數據與其他數據之間距離較大時將該數據認定為異常[23]。此類算法是目前機器學習方法中應用最為廣泛的算法之一,其中K近鄰(K-nearestneighbors,KNN)算法最為常用。
KNN算法廣泛應用于風電數據異常檢測中。針對KNN算法計算量大、異常值檢測時間長的問題,文獻[24]提出一種基于反向最近鄰的數據流異常檢測算法。該算法結合時序窗口,進一步提高了KNN 檢測的速度。針對流式數據,文獻[12]提出一種通過時間滑動窗口構建非歐幾里德對,以此判斷當前時刻點數據是否異常的AnomalyDetect 算法。該算法雖具有不錯的效果,但僅適用于互聯網運維、病人心電圖等依據歷史數據對比的異常檢測中,整體應用受限。文獻[25]將KNN 異常檢測算法與四分位距方法、3σ方法進行對比分析,證明普通機器學習模型中,KNN 用于異常檢測的效果最優。此外,基于KNN 的異常值檢測算法應用于網絡異常檢測[26]、區塊鏈異常交易[27]等領域。
通過分析發現,基于距離的異常檢測方法早期研究中占有重要位置,但該方法對參數敏感程度高,若沒有數據的先驗知識,難以獲得理想的檢測結果且該類方法無法區分數據異常的程度。
1.1.4 基于密度的異常檢測方法
基于密度的異常檢測方法作為基于距離的異常檢測方法的改進,通過數據局部的密度信息判斷數據是否異常。目前常見的方法有:LOF(local outlier factor)[28]、INFLO(influenced outlierness)[29]、LoOP(local outlier probability)[30]等。
文獻[31]采用LOF 算法實現原始風電數據的異常檢測任務,該算法作為經典的異常檢測方法之一,算法簡單、直觀且要求條件少,可以很好地量化各個數據點的異常程度;但數據龐大時計算時間復雜度過高,同時針對時間序列的時序性信息挖掘較差。為進一步提高LOF算法的檢測效果,文獻[32]采用基于主成分的LOF 計算風機每個區段的異常程度,但該算法中k值選取對檢測效果存在極大的影響。Zhang 等[33]也在LOF 的基礎上提出一種基于相關子空間的上下文異常檢測算法,通過利用局部數據屬性維度的局部稀疏度重新定義相關子空間,并根據這些子空間的屬性維度視作數據對象的上下文信息,以此檢測隱藏在子空間中的上下文敏感異常值。這些算法進一步提升了模型的檢測效果。為提高算法運算效率,Bai 等人[34]采用網格劃分(girdbased partition,GBP)算法將原始數據分為多個網格,再采用DLC(distributed LOF computing)方法進行異常值檢測。
整體來看,相較于上述其他檢查方法,基于密度的異常檢測方法在檢測效果上有進一步提升,但整體計算時長較高,同時仍保留基于距離的異常檢測算法所具有的參數選取敏感的缺陷。
1.1.5 基于偏差的異常檢測方法
基于偏差的異常檢測方法包含基于序列的異常檢測和基于預測的異常檢測兩種[18]。
(1)基于序列的異常檢測方法原理是當相鄰序列中存在明顯的偏差時,將該數據標記為異常。SCREEN(speed constraint-based stream data cleaning)模型[35]通過在兩個連續值之間建立最大和最小可能斜率判斷股票價格數據中是否存在異常。但風電原始數據中風速、風電輸出功率等具有高隨機性和波動性,在部分區間內相鄰數據存在大幅度偏差,因此該類型的異常值檢測方法并不適用于風電數據。
(2)基于預測的異常檢測方法[19]根據預測值與實際值間誤差值來判斷數據是否異常,改善傳統基于距離和密度的異常檢測技術無法檢測流數據中常見周期性和季節性相關的點異常。該類型的檢測方法原理是通過預測模型對風電輸出功率數據進行擬合,并根據擬合后的曲線對異常值進行判別。但此類方法對于模型的預測效果要求極高,同時異常檢測效果與其他方法相比較低。
文獻[10]提出LSTM-AE 異常檢測模型,長短期記憶單元(long short-term memory,LSTM)作為AE的隱藏神經元,并結合支持向量回歸(support vector regression,SVR)進行閾值的自適應。該模型改善了單一預測異常檢測方法中擬合差、閾值設置選取不當的問題,進一步提高自編碼器(auto-encoder,AE)模型的異常檢測效果,但是其未考慮隨機變量間的時間依賴性,且原始AE模型生成樣本具有較強的不確定性,使得模型仍有進一步優化的空間。Munir等人[36]提出的DeepAnT 異常值檢測方法,通過卷積神經網絡(convolutional neural networks,CNN)預測后計算與實際值間的歐氏距離,以判斷此時間戳是否異常。該模型可以在相對較小的數據集上進行訓練,具有良好的泛化能力,但當原始數據中異常值過多時,CNN會對異常數據進行建模,出現些許異常數據無法準確識別的現象。模型參數更新是提升預測效果的關鍵之一,但定期或每次到達新點時,重新訓練以適應數據變化的方式增大模型的計算開銷和存儲成本,同時容易造成模型過時。針對這一問題,在現有研究中常采用在線增量學習方式,保持模型參數最新的同時降低數據存儲和維護的成本[37]。
整體來看,基于偏差的檢測方法與模型擬合效果成正相關,整體效果與其他類型的檢測方法相比仍存在一定差距。
1.1.6 基于集成的異常檢測方法
隨著數據涉及領域的增加,整體數據維度不斷擴大。現有文獻中針對多變量時序數據檢測常采用單變量檢測技術進行識別,這一方式導致變量間相互依賴關系丟失。基于集成的異常檢測方法[38]可以較好地改善上述問題。該算法是通過結合不同異常檢測算法的優點,提高模型的魯棒性和異常檢測的效果。降維(將原始高維數據集轉換為一維互相關函數后判斷數據是否異常[39])、AE等應用于多元數據異常檢測中。
Sakurada 等[40]構建了一種具有非線性降維的自編碼器,用于航天器數據的異常檢測,并與其他降維異常檢測模型進行對比。針對該模型并未考慮多變量內部的時序性的問題,Kieu 等人[41]提出一種基于CNN 和LSTM 的AE 框架用于檢測駕駛員行為數據中的異常值,結合滑動窗口和自編碼器以實現更高準確度的檢測。CNN-AE 充分地對每一矩陣進行信息提取,但無法捕獲矩陣間的時序信息,而LSTM-AE克服了這一限制,進一步提高了模型的檢測效果。針對多元時序數據異常檢測效果差的問題,Su 等[42]提出基于門控循環單元(gated recurrent unit,GRU)和變分自編碼器(variational auto-encoder,VAE)的檢測方法,并采用Planar NF(planar normalizing flows)改善VAE 只能生成高斯分布數據的不足,同時結合隨機變量連接進一步挖掘隱變量間的時序性。相較于上述LSTM-AE 等簡單結合的AE 模型,該模型結合的隨機變量連接使得映射后的隨機變量保留原始數據的時序性信息,進一步提高了VAE 模型的檢測效果,但該模型并未考慮數據特征間的相關性影響。文獻[43]提出一種模糊聚類算法與概率方法相結合的風電數據過濾技術,用于在線檢測有效數據。相對于傳統單一異常檢測方法在生成建模精度方面有效性有所提高,但參數選取對最終結果產生決定性影響,因此如何精準地進行參數選取顯得格外重要。針對現有檢測算法中子序列固定不變的問題,SLADETS和SLADE-MTS可以自動識別異常事件序列及其確切的可變長度異常子序列,防止傳統算法中固定子序列問題及可變子序列中異常子序列在其他維度序列下誤判為正常情況的發生[44]。
基于集成的異常檢測方法博眾家所長,相較于其他單一檢測方法具有較高的精準度和較好的魯棒性。此類方法也是目前時序數據研究中的重要方式之一。
隨著異常值檢測技術的日益復雜,異常值檢測模型和結果的解釋開始受到研究人員的關注。異常解釋有助于運維人員及時發展故障所在,及時進行修復工作。
根據風速-風電功率數據的分布特征,正常數據分布在風速-風電功率曲線附近,而異常數據常顯示為橫向數據帶的聚集分布且明顯偏離風速-風電功率曲線。異常類型主要有四類(如圖2所示),第一類至第四類異常存在的原因分別是計劃外的停機檢修和風機零件故障[22]、棄風限電[45]、傳感器故障[15]、氣象波動等[46]。

圖2 風速-風電功率分布曲線Fig.2 Wind speed-wind power distribution curve
近年來,機器學習等技術成為實際應用中的重要工具,研究人員越來越重視機器學習模型工作機制的研究,對于異常數據的解釋性研究日益增多。時序數據中異常值的存在顯著影響后期預測效果,盡管現在用于時序數據異常值檢測技術眾多,但對于檢測到的異常值進行解釋及其潛在的生成機制遠未解決。文獻[47]嘗試采用聚類算法對異常數據進行分析解釋,但這一方式無法量化每一特征對異常的影響程度。基于此,文獻[10]通過計算原始數據單個變量與性能指數間的關聯性,根據排序結果確定影響異常的特征參數。文獻[42]通過對每一時刻單變量重構概率值求和計算當前時刻數據的異常性,并根據單變量重構概率判斷該變量對整體的影響程度,以此給出對當前異常產生影響的變量排序。該方法通過神經網絡重構來解釋數據異常的可能性,可以遷移至其他多變量時序數據的異常檢測算法中。與之相似的是,文獻[48]同樣采用每個維度的重建誤差來分析和解釋異常。由于原始數據中異常數據的存在,導致這類依靠原始重建概率方式判斷異常方法中的一些正常數據得到較差的重建,以此用于解釋異常的方式存在偶然性。針對這一問題,文獻[49]通過計算窗口內數據多次重建概率均值,并在整個窗口的數據中尋找重建誤差較大的時刻點作為異常來源。這一方式通過多次基于馬爾可夫鏈蒙特卡洛(Markov chain Monte Carlo,MCMC)的解釋過程可以減輕嚴重異常的影響,提高了整體異常檢測的效果。此外,文獻[50]認為數據來源于正常和受污染兩種方式,采用改進的SIF(single-valued metric based on the influence functional)方法計算當前數據異常的可能性。這些方法或通過尋找多變量中每一特征的影響大小來解釋異常的原因,或計算單值指標來衡量異常值對未來預測的影響大小。
現有異常值檢測方法對比效果如表1 所示。針對現有方法中存在的一些問題與不足,認為以下幾點或將成為未來研究中的重點。

表1 風電機組異常檢測方法對比Table 1 Comparison of wind turbine anomaly detection methods
(1)閾值自適應:部分模型檢測方法(如基于統計、聚類的異常檢測方法等)需提前對異常閾值進行設置,參數選取得過高或過低均將會降低模型的準確率,因此如何準確進行閾值的自適應選擇尤為重要。
(2)時間響應:盡管許多基于集成的異常檢測方法在效果等方面取得較為不錯的成績,但針對實際需要,其整體響應時長仍存在降低空間。較短的時間響應意味著及時提醒,便于運維人員進行查驗、維修。因此,短時間的異常檢測響應是必要的。
(3)單變量檢測技術遷移問題:多變量時序數據異常檢測方法研究中多數采用單變量檢測技術對不同變量分別進行檢測,如基于統計、聚類、距離等檢測方法,這些方法造成特征間相互性信息丟失,可能出現單變量檢測正常而實際異常情況的發生。如何將單變量檢測技術遷移至多變量數據中,充分挖掘變量間相互性關系將是關注的重點之一。
(4)時序數據不規則采樣的異常檢測問題:由于不同特征數據采集時采樣頻率的不同,需要對不同特征數據進行重采樣。重采樣過程中通常會造成數據信息的缺失,這對后期數據挖掘的效果產生一定影響。因此,如何針對不同采樣頻率的數據進行異常檢測將是一個可觀的研究思路。
(5)異常解釋機制問題:近些年來,隨著深度學習技術的快速發展,異常檢測模型逐漸復雜化,而對于檢測結果的異常解釋機制仍未解決。異常解釋可以為運維人員提供相應的提示,以便于更短時間內篩選出數據異常原因。因此認為,針對檢測結果的異常性,其解釋的研究或將成為未來研究中的一個重要方向。
數據采集過程中常伴隨數據缺失現象,小規模的數據缺失雖對后期分析挖掘影響不大,但大量數據的缺失使得數據分析挖掘變得困難,因此對缺失數據的插補及插補質量格外重要。針對不同情況的缺失,處理方法也有所不同[51]。為有效地評估插補后數據效果,現有研究中通常采用平均絕對誤差(mean absolute error,MAE)、平均絕對偏差(mean absolute differences,MAD)[52]、準確率r等進行評價。
本章主要對不同處理技術的異同及適用情況進行討論,并在最后對未來研究中可能存在的挑戰進行分析。
常規處理方法包含直接刪除法、均值插補法、零值插補法、上一次觀測值插補法等。這一類處理方法通常操作簡單且計算復雜度低,但存在一定局限與不足。如直接刪除法將原始數據中的缺失樣本進行刪除,使得整體數據規模減小,缺失率提高,造成數據信息丟失,進而影響數據挖掘效果。這一方法適用于缺少樣本數量較小的情況,但為更好地挖掘數據中的信息,并不建議采用該方法;而均值插補法、零值插補法、上一次觀測值插補法等忽略了不同特征間的相互關聯程度,改變原始數據分布,缺乏對時間信息的利用,使得這類插補方法適用面較小。
辨別式的插值方法是將模型估計的缺失值填充至缺失位置的方式。這類方法包含回歸插補法(線性回歸、非線性回歸等)、遞推式非鄰均值補全法[53-54]、三次樣條插值法、鏈式方程多元插值(multiple imputation by chained equations,MICE)、矩陣分解(matrix factorization,MF)、多層感知機(multilayer perceptron,MLP)[55]、KNN、循環神經網絡(recurrent neural networks,RNN)及其改進等。
基于線性回歸的插補方法容易構造且計算量小,但實際數據中大多數并不滿足線性條件,使得基于線性回歸的插補方法并不符合實際應用。非線性回歸插補方法相較于常規處理方法來說精度進一步提升,同時適應性更廣,但并未考慮特征間相互性,且數據間信息挖掘并不充分,主要作為粗糙插補使用。
三次樣條插值法原理是將原始區間分為多個連續的子區間,每個子區間由一個三次多項式函數進行擬合。同時需要滿足在區間邊界節點的兩邊具有相等的一階和二階導數,以便插值是兩次全局連續且可微的[56]。文獻[57]采用三次樣條插值法對風機功率曲線進行擬合,并與制造商功率曲線進行對比。這種插值方法插值節點處函數值的波動僅對該點兩邊的分段存在影響,對于其他較遠分段影響會逐漸減小,因此該方法具有較好的穩定性。同時相比深度學習方法,三次樣條插值法等數學方法訓練量更小,建模更為簡單。相對其他數學方法而言,三次樣條插值根據空缺值附近的觀測數據,使用具有良好平滑性的插值函數進行缺失值插補,使得插補后的數據具有良好的平滑性。當缺失值所處區間平滑性較差時,該方法不能準確反映真實數據[58],同時隨著區間大小的增加,模型的性能會有所下降。
MICE 方法通過多次插補降低單次插補造成的標準誤差,但僅適用于隨機缺失(missing at random,MAR),完全隨機缺失(missing completely at random,MCAR)等缺失并不適用[59]。Yu 等人[60]在MF 的基礎上結合時間正則化提出TRMF(temporal regularized matrix factorization)插補框架,并在電力及交通數據集上驗證了該框架的有效性。此外,基于MF的插補模型被應用于降水數據[61]等。但整體來看,MF 方法需保證原始的共現矩陣是稠密的,無法使用于大量缺失情況下。同時該技術未挖掘上下文特征間的相互性,喪失部分的有效信息。
基于均值插補、回歸插補、樣條插補等傳統插補方法往往存在較大的偏差和誤差率,特別是當數據長時間連續缺失情況下,插補效果極差。隨著機器學習技術的快速發展,基于機器學習技術的支持向量機(support vector machines,SVM)、MLP、KNN、RNN及其改進的模型等應用于時序數據缺失值插補中。如文獻[62]提出相關向量機插補模型,相對于常規插補方法,進一步挖掘數據特征與功率值間的關系。文獻[63]將模糊推理與神經網絡進行結合,提出的ANFIS(adaptive neuro-fuzzy inference system)模型進一步提高了插補的準確率。
MLP 由多個神經元構成,前一層的輸出結果作為后一層神經單元的輸入,MLP 在數據處理中具有良好的適用性,無需進行模型假設,同時在估計噪聲模型時具有很大的靈活性[64]。文獻[65]對統計線性插值、樣條插值、線性模型和MLP插值進行對比。結果發現,線性插值法在短期數據缺失插補中效果最優,MLP次之;在長期數據丟失情況下,線性插值、樣條插值和回歸插值效果有所下降,但MLP 的精度保持穩定。文獻[66]采用MLP 對長時間連續缺失的空氣質量數據進行回歸建模,實驗發現連續缺失時間越長,MLP 相較于回歸插補等傳統插補方法的插補效果越好。但MLP的隱藏節點個數選取仍是目前研究中的一大難題,同時其伴隨著學習速度慢、易陷入局部極值的缺陷。
KNN 作為機器學習中最為常見的插補算法之一,整體計算成本高,同時很少考慮兩個變量間的相互關系。針對這一問題,SPCA+GKNN[52]方法在KNN 基礎上考慮到多變量間的相互關系,同時自適應K值選擇,以此提高KNN插值效果。Che等[67]中的GRU-D 模型在GRU 的基礎上結合mask 和time interval(時間間隔)來捕獲缺失信息,同時計算時間和空間復雜度相似于RNN,但該模型對一般數據集有諸多限制。此外,M-RNN[68]利用雙向RNN 對缺失數據進行估計。該模型將估計值當作常數進行固定,無法進行更新,同時該模型丟棄了缺失變量之間的關系。與M-RNN 相似的是,BRITS(bidirectional recurrent imputation for time series)[69]根據其歷史數據及鄰居數據的測量值估計缺失值的測量值。BRITS雖考慮時間及多特征因素,但并不能很好地應對高缺失率的情況,無法保證準確的預測[70-71]。
基于生成式的插補算法是通過學習數據的聯合概率分布密度,再求解條件概率分布的方法。目前基于生成式的插補方法主要包含基于EM(expectation maximization)的插補算法、基于AE 的插補算法和基于生成對抗網絡(generative adversarial networks,GAN)的插補算法等。
EM 插補算法迭代計算期望E 和最大化M 以獲得插補數據。該類算法整體計算簡單、填補精度較高,但對整體數據集依賴性較強,很少考慮兩個觀測值之間的時序關系。如文獻[72]中要求原始數據為離散數據,當數據為連續數據時無法很好地適用;文獻[73]結合EM 算法和遺傳算法,在輸入變量間幾乎沒有或沒有相互依賴的情況下具有較好的表現效果。
近年來,深度學習已被證明能夠捕捉復雜高維數據的潛在表示,使用神經網絡生成模型插補缺失數據逐漸成為主流。AE(自編碼器)等作為較為常用的生成模型,將原始數據通過Encoder 和Decoder 后重建原始數據,以完成缺失值插補操作。基于AE的插補模型種類較多,且風格各異。如ELM-AE[74]在AE 的基礎上結合ELM(extreme learning machine)網絡進行插補實驗。該方法結合了ELM訓練速度快和AE重構的特點,相較于辨別式的插補方法性能更好,但該方法需足夠的完整數據集來保證模型的訓練效果,整體應用受限。Lai等[75]基于AE提出TFAE(trackingremoved autoencoder)框架,重新設計隱藏單元用于不完整數據插值訓練。該方法消除了網絡的自追蹤性,但并未考慮數據間的時序性影響,同時該算法在缺失率較大的數據集中的應用效果更好。傳統AE模型通過潛在空間重構原始數據分布,將生成的偽時間序列值填充至缺失部位。
VAE 在AE 的基礎上進行優化,對AE 重構損失中的潛在表示添加約束,增加了生成樣本的不確定性。針對現有數據種類繁多、類型復雜問題,Gondara等[76]提出一種基于深度去噪自編碼器的多重插補模型,可適用于不同數據下的不同缺失條件/機制中。該方法改善AE 模型需大量完整原始數據訓練的缺陷,但重構后的數據無法確定是否保留原始數據特點間的相互性。對于家庭用電負載數據不規則問題,文獻[77]提出一種基于DLP(daily load profile)的缺失值插補框架。該框架不需要迭代地對多個缺失值進行插補或確定適當的聚類和K值。文獻[78]假定原始數據可以從潛在空間中生成,采用VAE 學習生成數據分布的缺失數據,以此作為預測前的預處理步驟,證明VAE 的插補提高了后期的預測性能。該方法解決了自編碼器中非正則化潛在空間的問題,但同時使得潛在分布為正態分布,難以滿足風電數據等不完全滿足正態分布的數據特點。針對現有文獻中沒有關于如何在深度生成模型的訓練過程中合并缺失數據的明確討論,Nazabal 等[79]提出的HIVAE(heterogeneous-incomplete VAE)框架可以有效結合不完整數據和異質的觀察結果。
此外,GAN 網絡作為生成模型中的一大重點模型,可以學習數據的潛在分布,并能夠從隨機的“噪聲”中生成“真實”的樣本數據。與傳統網絡插值算法訓練需要完整數據不同的是,GAN 能夠在原始數據不完整的情況下仍很好地運行,但其生成器易生成多種分布數據。為更好地訓練模型,GAIN(generative adversarial imputation nets)[80]在GAN 網絡的基礎上添加“hints”為鑒別器提供額外的信息,以確保生成器生成最接近原始數據分布的數據。該方法充分挖掘原始數據分布特點,但并未考慮數據間時序性特點,適用于非時序數據缺失插補中。
VIGAN(view imputation via generative adversarial networks)[81]結合CycleGAN 和DAE(denoising autoencoder)用于多模態數據插補,但風電等相關時序數據通常為單模態數據,直接遷移的效果并不理想。而GAN網絡訓練不穩定的缺陷也是目前研究中的重點之一,Che等[82]提出MaliGAN模型,用于解決GAN網絡訓練不穩定、離散數據變量反向傳輸困難的問題。這幾種模型雖在一定程度上解決GAN網絡在時序數據插補中存在的一些問題,但仍未考慮數據間的時序性影響。針對這一問題,Luo等[83]提出一種基于GRUI(gated recurrent unit for data imputation)神經單元的GAN網絡用于多元時序數據插值。同時采用Wasserstein 距離的WGAN 提高學習階段的穩定性,擺脫模式崩潰的問題,以便于GAN 模型的優化。文獻[84]提出基于WGAN 的插補模型,該模型生成器部分使用多頭自注意力機制(multi-head self-attention,MSA)進行AE 搭建,以學習數據的時序信息,解決RNN中無法并行運算且長時間出現遺忘問題。但此模型整體計算復雜度高,針對這一問題,文獻[84]結合ProbSparse自注意力機制和VAE進行插補實驗,實驗結果得知兩組模型效果相近,但VAE-PSA(VAEprobsparse)模型時間效率更優。此外,MaskGAN[85]、SeqGAN[86]等基于GAN 改進的模型用于文本填補等領域。
從上述文獻中可以看出,相較于傳統AE 模型,GAN網絡插補效果更優,但其存在訓練不穩定、不可逆且不提供密度估計的缺陷。但并不說明AE 模型效果完全差于GAN 模型,如VAE 作為AE 模型的一種改進,以概率的形式描述潛在空間觀察,取得與GAN類似的效果,同時避免了GAN網絡訓練不穩定的缺陷。
基于物理特性的插補方法通過采用臨近風場/風機數據進行插補。如文獻[87]采用臨近風電場的數據進行填補,并與多點三次樣條插值方法進行對比,結果表明當臨近風電場距離較近時插補效果優于基于統計學的插補方法。文獻[88]采用相鄰風電場的功率值對本風電場缺失數據進行插補。這類方法雖然簡便,但對風機、地形等信息要求嚴苛,因此在整體研究中應用較少。
現有缺失值插補方法對比效果如表2 所示。針對現有方法中存在的一些問題與不足,以下兩點或將成為未來研究中的重點方向。

表2 風電機組缺失值插補方法對比Table 2 Comparison of missing value interpolation methods for wind turbines
(1)特有領域模型應用:近些年基于機器學習、深度學習插補模型層出不窮,但大多針對時序數據這一廣泛領域中。不同數據間具有較大的差異性,針對不同數據特點進行的多變量插補模型遷移是未來工作中應當關注的一個問題。
(2)非固定時延問題:近年來基于VAE 和GAN的生成模型成為時序數據插補乃至圖像、文本等領域的熱點方法,與圖像插補、文本填充等領域不同的是,時序數據插補時數據間所具有非固定時延問題,即數據缺失后導致數據時延增大。如文獻[73]中研究所述,針對不同技術特點,如何完善模型不足,充分挖掘數據間時序性、數據分布及多變量相關性,提高模型插補效果和降低模型計算時長將是未來關注的另一個問題。
可靠的風電輸出功率預測可以大大降低這種不確定性,增強電力系統運行的穩定性及提高經濟可行性。根據預測時長不同可劃分為超短期預測[89]、短期預測[90]、中期預測[91]和長期預測[92]。具體時長和作用如圖3 所示。不同預測方法根據預測值形式的不同分為確定性預測和概率性預測。在不確定的市場環境中,單一依賴確定性預測結果遠遠不夠,而概率性預測通過調整模型初始化、改變模型結構和使用多種模型結合的三種方式結合NWP(numerical weather prediction)數據,給定預測結果的概率分布特征[93],進一步縮小預測誤差,但所消耗的計算資源隨之升高[94]。根據國家《風電功率預測功能規范》[95]所示,確定性預測通常采用均方根誤差(root mean square error,RMSE)、MAE、最大誤差(σ)和相關性系數(R)等進行衡量;概率性預測則采用可靠性(reliability)和銳度(sharpness)[96]等進行模型評價。本章對現有模型方法進行分析總結,并對目前研究中存在的挑戰及未來可能的發展方向進行介紹。

圖3 風電功率預測分類Fig.3 Classification of wind power forecasting
物理模型是指根據數值天氣預報(numerical weather prediction,NWP)數據,用物理方法計算風電場輸出功率的模型。該模型也是目前研究較為成熟、深受人們認可的一種方法[97],通過NWP 數據模擬風電場區域內地形變化等,以預測該電場輸出功率[98-99]。特別是在中期預測時,NWP 是提高預測精準度的首要環節[100]。
物理模型對氣象、地形等數據依賴性較強、抗干擾性和可移植性差[101],同時高精度預測的計算復雜度和時間復雜度高。隨著時長增加其預測精準度下降,導致單一物理模型的短期風電功率預測并不可靠[102],因此添加高精度NWP 數據作為模型輸入,可進一步提高模型的預測準確性[103]。
統計方法通過已有的歷史數據和風電功率數據間的映射關系來建立預測模型[104]。統計模型可分為傳統統計模型、時間序列模型、其他機器學習模型及深度學習模型。
3.2.1 傳統統計模型
持續法作為最為經典的傳統統計方法,將當前時刻的風電功率值作為未來時刻的預測值使用[105],這種方法雖然簡單,但僅限于超短期預測使用,因此該方法通常作為基準模型進行使用,而非單獨預測模型[94]。
3.2.2 時間序列模型
時間序列模型通過分析歷史數據信息來預測未來數據,常用的時間序列模型有自回歸模型(autoregressive,AR)、滑動平均模型(moving average,MA)、自回歸滑動平均模型(autoregression moving average,ARMA)、自回歸差分滑動平均模型(autoregressive integrated moving average,ARIMA)等。
AR 模型是處理數據內部關聯的模型,其認為觀測點后某一(段)時刻的值由該點前若干時刻觀測值進行描述,即觀測點xt值由前p個觀測值與一個誤差項構成,如式(1)所示:

其中,?0,?1,…,?p為回歸系數,εt為白噪聲序列。
Poggi 等[106]使用AR 模型進行風速的預測和模擬。ARMA 模型由AR 和MA 兩部分構成,結合了AR 和MA 的優點,相較于AR 模型更為常用。ARMA模型中xt的取值取決于過去p個觀測點值與過去q個隨機干擾項構成,具體如式(2)所示:

其中,θ1,θ2,…,θq為干擾項系數。
文獻[107-109]采用ARMA進行風電功率數據預測,取得良好效果。文獻[110]采用基于時間序列分析的風電場風速預測模型進行風速預測。文獻[111]將校正后的ARMA 模型用于風電功率預測,結果表明該模型顯著提高了中短期風電功率預測精度。AR、ARMA模型適用于平穩數據中,非平穩數據的使用將造成較大的誤差。ARIMA模型在ARMA模型的基礎上結合差分運算,將非平穩數據轉換為平穩數據。因此,ARIMA 模型的應用更為廣泛。為了提高模型的整體預測效果,研究人員還在ARIMA的基礎上研究出許多組合預測模型,將在3.3節進行介紹。
時間序列模型僅分析了時序數據變量的潛在關系,很難用于挖掘數據間的非線性關系。因此這類模型僅適用于靜態數據分析,這是此類模型的一個明顯缺陷。同時伴隨著時間序列數據復雜度的增加,單一時間序列分析模型對數據間特征提取效果不足以滿足預測精度需要。
3.2.3 其他機器學習模型
機器學習模型作為人工智能領域研究的一個分支,模型可以根據給定的數據自適應學習做出決策并預測新的或未來一定時期的數據[112]。常見的回歸模型、SVM、隨機森林(random forest,RF)[113]、貝葉斯加性回歸樹(Bayesian additive regression trees,BART)、KNN 等機器學習算法廣泛應用于風電輸出功率預測、風速預測及其相關領域。
SVM被廣泛應用于風速[114]、風電預測[115]領域,針對風電數據特點,后續研究人員在SVM 模型基礎上進行改進,提出PSVM(piecewise support vector machine)[116]、LSSVM(least squares support vector machine)[117]等模型,這些模型進一步提升了SVM 模型的魯棒性,提高風電輸出功率預測精度。此外,基于SVM、PSVM、LSSVM等模型的組合預測模型相應提出。基于SVM的預測模型建立在嚴格的數學基礎之上,具有高維計算速度快、不易陷入局部最優解等優點。但這類方法的效果與核函數及參數的選取緊密相關,這一點對使用者經驗具有較強的依賴性。
由于RF 具有的簡單性和多樣性特點,被廣泛應用于風電輸出功率預測及相關領域。隨機森林預測原理如圖4所示。

圖4 RF預測原理Fig.4 Principles of RF prediction
Lahouar 等[118]采用RF 提前預測一小時的風電輸出功率,相較于其他經典的機器學習方法不需要調整和優化;Shi等[119]提出了一種基于兩階段特征選擇和決策樹重組的RF模型,取代了訓練樣本和特征變量的無監督雙隨機抽樣過程,進一步提高了模型的預測精度、效率及魯棒性;文獻[120]將RF 算法與決策樹進行對比。此外,Wang 等[121]采用RF 算法進行風速輸入特征選取,進一步簡化風速預測模型結構并降低模型訓練時間,從而提高了模型的準確性和泛化能力。整體來看,RF 算法適用于海量數據集分析,相較于人工神經網絡(artificial neural network,ANN)和SVM 等算法具有較高的準確率和計算速度;在某些噪聲較大的分類和回歸問題上會出現過擬合現象,同時當訓練數據少于分類類別時效果較差。
BART是一種基于貝葉斯回歸樹的方法,它是單個樹模型的平均值[122]。Chen等[123]提出GKGPR(composite kernel methods based on Gaussian process regression)模型。該模型結合高斯回歸過程和BART,改善現有BART 模型預測耗時問題。為更好地驗證BART 模型效果,文獻[124]對BART、GLM(generalized linear model)、GAM(generalized additive model)、RF 等模型進行對比分析。相較于其他機器學習算法,BART 方法預測精度高且不易出現過擬合現象,但預測所需時間較長,這并不利于實時預測需要。
綜上所述,基于機器學習的預測方法可以根據數據自適應學習數據特點,相較于物理模型、傳統統計模型和時間序列模型具有較高的預測精度,但該類模型對于數據集大小具有相應的要求,易造成過擬合現象。
3.2.4 深度學習模型
隨著深度學習的快速發展,人工智能技術在語音識別、計算機視覺等領域廣泛應用,同時相關技術也被應用于風電功率預測領域[125]。基于深度學習的預測模型由最初的反向傳播網絡(back propagation,BP)、RNN、CNN等單一模型預測到基于RNN等模型改進的模型進行預測。隨著生成式模型的快速發展,基于AE、注意力機制(attention)[126]等模型解決了循環神經網絡中遞歸計算無法并行的問題,同時減少了由于長期依賴性而導致的性能下降問題。此外,GAN網絡作為生成式模型中的一大代表,也被廣泛用于風電等時序數據預測領域。
單一的BP、RNN等模型是先前預測模型研究中的重點,如主成分分析(principal component analysis,PCA)與BP 相結合的風電功率預測模型[127]、結合滑動窗口的LSTM 預測模型[128]、CNN 進行特征提取的預測模型[129]及小波神經網絡(wavelet neural network,WNN)預測模型[130]等。這些模型相較于其他機器學習模型具有較高的預測準確率,但仍存在一些問題。
人們普遍認為RNN的模型效果較差的原因是模型訓練和推理時間長以及訓練困難[131]。因此,在RNN、CNN的基礎上進行改進,并基于RNN、CNN等單一模型構建深度學習框架。LSTM等RNN模型由于梯度消失問題的存在,預測過程中無法捕捉到極長時期的相關性。LSTNet[132]模型中提出RNN-skip結構用于解決上述問題,并將該模型用于太陽能發電等時間序列數據預測中,證明該模型的有效性。文獻[133]提出一種以RNN 為基礎的DeepState 時間序列預測模型,相對于DeepAR 模型[134],在訓練及預測階段不需要輸入上一時刻的真實值或預測值,以解決DeepAR 模型訓練和預測不一致的問題。目前在時序數據預測領域中,基于RNN 模型占有極其重要位置。但在最近的一些實驗研究中發現,一些簡單的CNN模型在不同的序列建模任務中比循環體系結構(如LSTM)更有效,如TCN(temporal convolutional network)[135-136]、基于殘差的CNN模型[137]等。但是上述預測模型中大多數仍為單步超前預測,此類模型預測結果不足以支撐電力調度規劃和運行,此外極個別的多步風電功率預測模型仍存在忽略不同預測任務間的相關性問題。同時,現有預測中常采用NWP 數據作為輸入進行預測,而常規模型無法很好地對NWP數據中多元數據的長期依賴性很好地提取。AGRU(attention-based gated recurrent unit)[138]模型、MSTAN(multi-source and temporal attention network)[139]模型對上述不足進行了完善,但是導致空間復雜度等新型問題出現。
AE 由編碼器和解碼器兩部分構成,其將原始數據壓縮成潛在空間特征,然后經過解碼器進行重構輸出。近年來基于AE 及其改進模型被廣泛應用于風電功率預測領域(AE 結構示意如圖5 所示)。如SAE-BP[140]將SAE(stacked auto-encoders)與BP 結合進行風電功率預測,使得模型相對于BP等模型更穩定;SDAE(stacked denoising auto-encoders)[141]能夠模擬給定風場間的空間相關性和相互依賴性,提高NWP 精度以進行風電功率預測等。AE 作為無監督模型中的一種,可以在數據提取過程中過濾噪聲。文獻[142]對現有基于Attention機制的預測模型進行對比分析,證明基于Attention 機制的模型在一定程度上預測效果優于傳統模型。但這并不能完全說明基于Attention機制的模型一定會比LSTM等RNN模型效果好,如attention-LSTM(在注意力層上疊加一個LSTM層)模型的預測效果低于vanilla LSTM。從上述文獻中可以看出,單一結合Attention 機制與RNN等網絡的預測方法效果并不一定會優于傳統模型,同時也會導致新的問題的出現。現有基于Attention 模型預測效果多數優于RNN 等傳統模型,降低了該類模型中CNN 特征提取時的內存消耗,但存在權重冗余現象。

圖5 AE結構示意圖Fig.5 Schematic of AE structure
近些年來,GAN受到廣泛關注,其中生成器將噪聲變量映射至多層感知機網絡,使生成的數據盡可能接近訓練樣本的分布;辨別器再確定輸入數據是來自訓練樣本還是生成模型(GAN結構示意圖如圖6所示)。文獻[143]分別采用GAN進行確定性和概率性風電輸出功率預測,以證明最新發展的GAN 網絡可用于風電輸出功率等時序數據預測中。基于GAN網絡的改進的RAC-GAN[144]、PG-GAN[145]應用于風電預測領域,并取得良好的效果。基于GAN 網絡的模型為半監督模型,不需要人工大量標注數據。即使沒有任何標簽,其也可以根據歷史數據對概率分布進行建模。但從整體來看,該類模型計算效率較低且無法描述輸入數據特征。

圖6 GAN結構示意圖Fig.6 Schematic of GAN structure
深度學習模型相較于物理模型、傳統統計模型、時間序列模型能夠更好地挖掘數據間信息,提高整體的預測精度。深度學習預測模型中BP、RNN、CNN等模型能夠較好地提取數據內部的時序特性或短時信息;基于RNN、CNN 等改進的LSTNet(long and short-term time-series network)等模型針對RNN等模型的局限進行改進,雖提高模型的檢測效果,但仍引進模型過于復雜等新型問題;基于AE、GAN 等模型改進的生成式預測模型進一步挖掘數據的隱特征信息。這些模型具有較強的學習能力和魯棒性,但隨著數據量的增大,特別是模型過于復雜時,對于計算資源等具有較大的要求,同時深度學習模型的可解釋性仍是目前研究界的一大難點。
由于風電功率具有高隨機性和波動性特點,單一模型的預測效果往往無法滿足實際需要[146]。近些年來,結合多個單一模型優點的組合模型研究成為風電功率預測研究中一個熱門方向。目前,組合預測模型可大致分為四類[147],即基于多模型加權的組合預測方法、基于數據分解的組合預測方法、基于優化技術的組合預測方法和基于誤差修正的組合預測方法。
3.3.1 基于多模型加權的組合預測方法
基于多模型加權的組合預測方法通過多個子模型分別進行預測,并將結果進行加權輸出(如圖7 所示),如LSSVM 與RBFNN(radial basis function neural network)加權組合預測方法[148],SVM與LSTM、ARIMA等模型加權組合預測方法[149],極限學習機、雙向長短期記憶網絡(bi-directional long short-term memory,BiLSTM)和Elman 網絡加權組合預測方法[150]等。這些方法將多個單一基礎模型進行組合,以提高模型的預測結果。為證明加權組合模型預測效果優于單一模型,文獻[151]采用ARMA、徑向基模型、SVM模型等與組合模型進行對比,以驗證組合模型的優異性和準確性。

圖7 基于多模型加權的組合預測方法示意圖Fig.7 Schematic diagram of combined forecasting method based on multi-model weighting
此外,模型內部結構優化及多特征預測方式也可以進一步提高整體效果。文獻[152]利用非參數下限估計框架結合LSTM(長短期記憶網絡)進行短期風電功率預測,結果顯示該模型性能優于典型的RNN(循環神經網絡)。多特征預測通過對原始數據中某些特征數據進行預測,并將該預測值作為補充數據輸入風電預測模型中,以提高風電預測模型的預測效果和魯棒性。如文獻[153]考慮NWP 數據不確定性,采用DBN(deep belief network)進行短期風速數據預測,并將風速預測值作為補充數據采用隨機森林算法進行預測,結合加權投票法(weighted voting approach)進行模型更新。
基于多模型加權的組合預測方法通過權重更新器,可自動調整每個子模型權重。其靈活性、適應性、預測精度較高,同時其計算效率低、應用場景較窄。
3.3.2 基于數據預處理的組合預測方法
利用數據預處理技術將原始風電數據分解成多個平穩的子序列,并采用模型對子序列分別進行預測的組合預測方法如圖8所示。

圖8 基于數據預處理的組合預測方法示意圖Fig.8 Schematic diagram of combined forecasting method based on data preprocessing
此類方法結合信號分解思想,采用經驗模式分解(empirical mode decomposition,EMD)、變分模式分解(variational modal decomposition,VMD)等數據分解技術對原始風電(或風速)數據進行分解,并采用預測模型對分解后的數據分別進行預測。如文獻[15]提出基于EMD和人工神經網絡的混合方法用于風力預測。文獻[154]提出使用改進的VMD 來分解風電數據,并采用LSTM進行預測。但上述文獻均未考慮風速等數據的季節性影響,基于此,文獻[155]提出LSTM-SARIMA(LSTM-seasonal autoregressive integrated moving average)超短期風電功率預測模型,在分解過程中考慮氣象和季節因素影響,大幅度提高模型的預測精度。
基于數據預處理的組合預測方法相較于其他組合預測方法結構更為簡單、計算效率高,易遷移至點預測、多步預測、日前預測等場景,但整體預測精度有限,缺乏對預測誤差的理論分析。
3.3.3 基于優化技術的組合預測方法
基于優化技術的組合預測方法通過采用優化技術優化模型參數,以此提高模型的預測效果(如圖9所示)。基于遺傳算法(genetic algorithm,GA)的WSVM-GA[156]模型、基于引力搜索算法(gravitational search algorithm,GSA)的LSSVM-GSA[157]模型等結合優化算法選取最優參數,以提高模型預測精度。

圖9 基于優化技術的組合預測方法示意圖Fig.9 Schematic diagram of combined forecasting method based on optimization technique
傳統優化算法由于自身局限性等因素的影響,無法滿足高水準參數優化需求,基于傳統優化算法改進的優化技術也被廣泛應用于風電預測領域。如文獻[158]提出一種改進的果蠅算法優化SVM,并用于短期預測。文獻[159]采用貧富優化算法對離群魯棒極限學習機的參數進行優化,提高模型的泛化能力并用于風電功率預測。文獻[160]提出一種混合改進布谷鳥搜索算法來優化支持向量機的超參數,用于短期風電功率預測。
大多數深度學習預測模型訓練受參數初始化影響,初始化策略基于在神經網絡初始化時實現一些很好的性質,基于優化技術的組合預測方法成為近些年研究的一大重點。相較于傳統優化技術應用受限問題,GA等智能優化技術針對數據的不確定性也有很強的適應能力,有些能夠得到更快的收斂率和更好的泛化誤差。但相較于傳統優化技術,此類理論分析不夠完善,且存在求解無法保證最優解的問題。
3.3.4 基于誤差修正的組合預測方法
基于誤差修正的組合預測方法是利用數據后期處理技術的組合方法來減少預測方法中誤差所帶來的負面影響的組合預測算法(如圖10所示)。

圖10 基于誤差修正的組合預測方法示意圖Fig.10 Schematic diagram of combined forecasting method based on error correction
該類方法通常采用統計方法對誤差進行估計,以提高模型的整體預測效果。如文獻[161]采用馬爾可夫對模糊神經網絡(fuzzy neural networks,FNN)模型預測結果進行修正;文獻[162]在高斯過程中使用時空局部滑動窗口技術來檢查預測誤差,進而提高預測效果等。此外,機器學習方法也常用于誤差估計中。文獻[163]采用SVM和Elman網絡進行預測和誤差模型的構建;文獻[164]采用基于RBF的LSSVM進行誤差修正。與未修正誤差的預測模型相比,修正后的預測模型預測精度明顯提高。
基于誤差修正的組合預測方法量化模型誤差大小和數據噪聲的不確定性,擁有較高預測精度,可提供預測誤差的統計分析。但相較于其他組合算法來看,整體計算效率較低。
在工業界和學術界的時間序列預測數據中,通常具有分層結構,其中每個上層時間序列是通過對對應的下層時間序列求和進行計算的,即上層時序數據等于下層時序數據之和[165]。在過去幾十年中,共有三種協調方法用以確保預測的連貫性,即自下而上、自上而下和兩者結合的中間向兩邊的方式。每個方法都側重于不同的聚合級別以產生預測,如自下而上的方法首先對底層時間序列進行預測,并根據聚合方式來獲得高層次時間序列預測值。該方法優點是幾乎不丟失信息,但往往會隨著時間序列級別的上升而積累預測誤差。自上而下的方法首先對頂層時間序列進行預測,并根據較低層次的歷史比例進行預測。該方法在底層節點預測存在誤差時是穩定的,但往往無法利用較低級別時間序列的詳細信息。中間向兩邊的方法首先對中間某層時間序列進行預測,并結合自上而下和自下而上的方法完成剩余層級的預測。MA(moving average)等方法廣泛應用于多層時序數據預測中,但其準確率低,同時當其受到時間變化或任何突然變化的影響,它們可能無法很好地執行[166]。
上述方法通常采用基礎預測和根據層次結構協調預測兩部分進行,預測效果不佳。針對這一問題,文獻[166]提出一種結構化的正則化方法,同時進行上述兩個階段以產生更好的時間序列預測。該方法相較于傳統機器學習方法,更易于擴展至ANN 模型中。與此不同的是,文獻[167]提出一種新的支持向量回歸方法來處理多層時間序列預測,其通過兩種變體進行跨層級匯集信息,防止底層預測相對于上層序列存在很大偏差。為降低低層次預測誤差累計問題,文獻[168]使用DLSTM-AE(deep long short-term memory model in auto-encoder)對底層時間序列數據進行訓練和預測,并采用遷移學習對上層結構時間序列數據進行同步訓練,以估計目標預測。該方法相對于MA等靜態方法考慮更多有用信息,并結合遷移學習降低模型訓練及預測所需時間,顯著提高模型的預測效率。但在現有的大多數方法中僅可進行點預測,而不是概率性預測。在實踐中,概率性預測能幫助運維人員更好地制定決策和風險管理。針對這一問題,文獻[169]提出一種多層次概率性預測方法,采用end-to-end模型同時進行基礎預測和層次協調。相對來說,該方法更適用于高斯分布數據,對于非高斯分布數據,作者并未進行相應的探討和研究。整體來看,此類文獻或對三種協調技術進行優化,或提高模型預測精度以降低預測誤差,或將前者組合,提高基礎模型預測效果的同時,充分提取多層次時序數據間的層次關系,以提高整體效果。
自適應為軟件系統配備一個反饋回路,使得系統可以自動執行原本需要由操作人員執行的任務。近些年來,機器學習成為支持自適應的流行方法。但針對機器學習技術處理自適應中的幾個方面,仍面臨著一些問題。
Gheibi 等[170]介紹了在自適應系統中機器學習解決的問題、自適應學習時考慮的關鍵工程及自適應系統中使用機器學習所面臨的挑戰。自適應系統中機器學習問題包含適應問題和學習問題:適應問題包括質量提高、平衡質量與資源、平衡質量與成本、改進資源分配和防御網絡威脅;機器學習解決的具體問題包括更新/更改適應規則/策略、預測/分析資源使用、保持運行時模型最新、減少大適應空間、檢測/預測異常、收集不可用的先驗知識。
風電預測系統中如何保持運行時模型最新是學習問題的一大重點,而終身機器學習(lifelong machine learning)是機器學習系統學習未提前定義的新任務的能力[171],但目前終身機器學習存在處理時災難性遺忘和機器學習管道機制規范不足的問題,即學習新信息時丟失以前學習到的信息和模型訓練到部署時性能顯著下降問題。Chen[172]使用所有可用數據在每個循環中重新訓練一個新模型,以及使用新到達的數據樣本重新訓練現有模型兩種方法來處理自適應學習中的概念漂移。Chen等[173]利用自適應多學習器,動態選擇最佳模型進行預測,并在云環境中進行評估。針對數據中存在的概念漂移和協變量漂移問題,Gheibi 等[174]提出一種新的自適應方法,以更新自適應系統的學習模型。
整體來看,目前自適應系統內機器學習算法研究以監督學習方式為主,無監督學習、對抗學習及主動學習方式研究較少。同時,學術界與工業界對于研究的認可存在差異,學術界傾向于最新的研究發現,而工業界更側重于成熟的研究,這也或將是目前基于自適應預測系統研究不成熟的問題之一。
現有預測方法對比效果如表3 所示。針對目前研究中不同方法及應用存在的問題,大致分為以下幾點:

表3 現有風電功率預測方法對比Table 3 Comparison of existing wind power forecasting methods
(1)NWP數據精度提升問題:針對3.1節中,NWP數據中存有誤差,使得后期風電功率預測時存在一定程度的誤差,因此如何通過提升原始NWP 數據精度以提高風電預測模型精度將是未來研究中的一個重點及難點[175]。
(2)組合預測模型缺陷完善問題:針對3.3 節中,多個單一模型組合構成的組合模型在一定程度上解決了單一模型自身存在的弊端,使得整體風電功率預測精度超過或等于最優單一模型預測精度。但上述四種不同類型的組合模型具有不同的優缺點,針對實際問題揚長補短是今后研究中著重考慮的問題之一[176-177]。
(3)風電功率爬坡事件預測問題:為解決風電功率爬坡事件并網時對電網產生損害情況,提前對風電輸出功率爬坡事件的預測是必要的[178]。同時,將儲能系統研究與風電預測相結合的方式可以減緩風電爬坡事件帶來的影響,目前雖有些許相關研究,但整體來看仍有一定進步空間[179]。
(4)模型可解釋性及子任務協同問題:目前研究中,大多數文獻將預測模型認定為黑盒問題,并未深入研究模型內部參數與實際預測值精度間相關性;同時針對3.4節分析,多層級預測等預測子任務間協同訓練也是目前研究中亟待解決的重要問題之一[180]。
(5)模型融合問題:現有基于時間序列分析的深度學習框架中,許多通過些許修改以用于異常值檢測、插值等領域。現有研究中,異常檢測、插值和預測等模型研究通常是相互獨立的,大多針對數據本身研究,這也或將成為導致同時進行異常值檢測、插值及預測的模型框架目前研究較少的主要原因。采用模型融合思想,使模型可同時進行數據清洗和預測將是未來研究的一個方向[181]。
(6)基于模型的自適應風電預測系統研究問題:常規預測系統仍為目前風電功率預測系統研究中的研究重點,該類系統仍停留在以代碼為中心的自適應系統或未添加自適應性系統的情況下。如3.5 節所述,基于機器學習的自適應系統在發生變化時應當具有自動進行規劃的能力[182],使得預測系統具有自主規劃、及時響應特點的研究是未來發展的一個重點方向。
風電數據存在較強的隨機性和不確定性,使得高精準度的風電功率預測模型難以構建。針對風電數據采集過程中存在的異常及缺失數據,本文對現有研究中的異常值檢測技術、缺失值插補技術和風電功率預測技術的研究現狀根據模型特點進行劃分和分析,并對未來技術進行展望。由技術角度發現,現有模型朝著組合化、復雜化發展。希望本綜述對風電等時序數據的異常檢測、缺失插補及數據預測領域的研究提供一定的參考價值,可以為相應模型的深入研究提供一定的幫助。