
賽題背景
由于風電場(尤其海上風電場)地處偏遠,人工維護困難,遠程數據監控系統(SCADA)能夠遠程獲取風機運行狀態數據,是風電場健康運行的保障。但是SCADA系統往往受到傳感器失效、網絡阻塞等各種因素的影響,導致數據的缺失。我們希望通過大數據分析,利用已知數據對缺失的部分數據進行估計,盡量挽回由于數據缺失帶來的損失。
任務描述
我們抽取某一海上風電場實際SCADA數據,并人為地去除其中的部分數據,包括但不限于刪去某個時間段的全部數據、某臺機組在某段時間的數據、某臺機組在某段時間的部分字段信息等,參賽者需要利用剩余數據對刪去的數據進行恢復,最終以恢復的準確度為評價基準。
賽題內容和方向
數獨游戲很多人都喜歡,尤其是小朋友。在一個9×9的矩陣里填入缺失的數字,使得每行每列以及每個粗線格(3×3)內的數字均含1到9,且不重復。在填滿數字的那一刻,就能立刻判斷是否正確。如果全部正確,將獲得極大的滿足感。那么SCADA數據又是什么呢?SCADA數據是用來記錄傳感器狀態的時間序列,包含多種數據類型。每行代表一個記錄時間點,每列代表一個傳感器測點。從形式上來看,SCADA數據也是一個矩陣,只不過規模上比9×9的數獨游戲大得多。那么SCADA數據能不能也用來玩數獨游戲呢?答案是顯然的。《海上風場SCADA數據缺失智能修復》賽題正是模仿數獨游戲的做法,巧妙地刪除SCADA數據中的部分信息,希望比賽選手利用SCADA數據的相關性和冗余性,恢復刪除的SCADA數據,二者的區別在于恢復的正確與否,不能通過簡單的規則進行判斷。
賽題價值
在目前工業互聯網時代,數據在工業領域起著非常重要的作用,數據不僅僅給產品的設計改良帶來指導,同時通過數據分析,可以進行智能運維,提高發電量,可以為業主帶來更大的經濟價值,對于海上風機的智能運維更加重要。
賽題難點
對于風電行業SCADA數據而言,“風”是最關鍵的環境變量。由于風是瞬息萬變的,所以為了更好地記錄風的軌跡,SCADA數據的采樣頻率在逐漸增大。然而其他的一些變量(比如溫度)則是緩慢變化的,過高的采樣頻率將會帶來很大的冗余性,給網絡吞吐和存儲帶來很大的壓力。如果針對不同變量采用不同采樣頻率,又會增大SCADA系統的復雜性。如果確定一個合理的采樣頻率不是重點,這里只是說明數據冗余性的來源。SCADA數據中不同傳感器還存在很大的相關性,風電機組是根據風速的大小調節葉輪轉速和扭矩,以期最大程度地捕獲風能,將風能轉化為機械能,并進一步轉化為電能的設備。
一方面,風速的變化將會引起風電機組內部狀態變量(比如葉輪轉速、扭矩、發電功率等)一系列的連鎖反應,這些狀態變量跟風速是強相關的。另一方面,在實際中SCADA數據真的會丟失,有時丟失比例還很驚人。原因有很多,有的是傳感器錯誤導致的,有的是人為斷網導致的,有的是極端天氣造成的,還有程序出問題導致記錄不完整的。比起這種完全不可控的數據丟失,賽題相對容易處理。相比當今數據競賽場上千篇一律的分類和回歸的預測類問題,本賽題獨樹一幟的視角,從實際應用出發,巧妙地利用數獨游戲的思想,相信能給每個參賽選手不一樣的感覺。