劉林元
(嘉陵江亭子口水利水電開發有限公司 四川省蒼溪縣 628400)
隨著大數據時代的來臨,數據分析方法和工具不斷進步,各種智能分析系統不斷涌現,發電企業可以從大量數據中獲取新的洞察力,并將其與已知業務的各個細節相融合,營造出全新的生產力,促進傳統電站向智慧電站轉型升級。為此,我們應當將數據視為發電企業的核心資產,即“數據資產”
數據成為資產,已經是行業共識,甚至有人建議將數據計入資產負債表。數據資產是指由企業擁有或者控制的,能夠為企業帶來未來經濟利益的,以物理或電子的方式記錄的數據資源,如文件資料、電子數據等。在企業中,并非所有的數據都構成數據資產,數據資產是能夠為企業帶來產生價值的數據資源。
提升數據質量、降低成本已經成為行業企業熱點關注話題。如果不能對數據進行有效梳理及精細化管理,其價值就得不到很好體現,嚴重影響數據價值發揮,甚至會給運營管理帶來負面作用。數據資產管理的重要性,主要體現在缺乏統一數據標準、數據周期規劃混亂、難以統籌業務管理、數據處理效率低下、數據質量參差不齊和安全監管不到位等。
(1)針對水電站站控層和風電場控制系統發電業務數據進行檢查和梳理。檢查和梳理現有站控層系統在一定時間范圍內的全部測點數據,對其中存在重復、缺失、異常、錯誤、不一致等問題的數據進行標記,并分析其可能產生的原因,形成數據評估報告。
(2)針對有問題的數據源,深入水電和風電機組內部,對機組業務數據和通信規約進行檢查和梳理。對有深層次問題的數據,深入數據的源頭,從機組內部通信系統的設計和通信規約進行梳理,對內部相關的測點進行梳理,通過摸排有問題的數據和數據源,進行標記,提高電廠業務數據的完整性和質量,形成數據排查報告。
(1)數據清理是清洗和管理方法的結合使用,貫穿數據生命周期,從數據采集、數據標準化、數據存儲、數據訪問使用等各環節進行不同維度的清理方法研究,為數據質量的保障提供科學的方法。
(2)數據的生產環節,基于數據本質屬性和生產方式兩個維度進行清洗,保證數據從源端到使用端的整個流向過程中的質量,綜合運用范圍定義、線性插值,關聯判斷等方法。
(3)數據管理,從數據資產清冊的梳理和建立,數據分類存儲的設計、數據安全使用和數據服務等方面,對數據進行有效的管理,保證數據載體的可管理性,使用環境的可靠性。
(1)數據清理是從始至終的存在,是一個長期的、專業性工作,需要合適的軟件系統作為技術保障。
(2)軟件系統的設計要采用主流大數據平臺框架,結合人工智能等技術手段。
使用風電、水電兩種類型數據,結合設計實現的數據軟件系統,進行數據清理的設計有效性驗證。
數據的清洗和管理伴隨著數據全生命周期,從數據的生產、維護到最終的使用,都起著至關重要的作用。
4.1.1 數據屬性維度
數據屬性是數據的本質信息,伴隨數據產生,也是數據清理的重點部分,按三種分類進行清洗和管理。
(1)時間分類:依據時間標識、采用頻率和時長、停采時間等信息分類。
(2)模型分類:按照設備模型、通信模型和信息分類。
(3)源系統分類:通過源系統的特點進行清洗和管理分類。
4.1.2 生產方式維度
數據的生產方式不同,導致數據的獲取通道不同,依據不同通道的特點進行數據清理。
(1)數據采集:通信協議的采集、數據庫的采集,API 接口采集等。
(2)數據抽取:表結構解析,檢索查詢。
(3)衍生計算:數據變形、時序特征、復合計算、關聯特征、語義識別、圖像識別、數據轉換等。
4.2.1 建立數據資產清冊
(1)檢索模式:建立數據標識體系,按設備域、生產域和管理域三個角度進行定義,明確數據檢索模式。
(2)全量數據表:建立全量標準數據表,明確數據存量狀態,建立數據資產表。
(3)主備源數據:對重要數據實行主備模式,保證數據安全。
4.2.2 實現多樣性存儲
(1)時序庫:用于存儲設備產生的實時數據。
(2)關系庫:用于存儲ERP、設備臺賬等數據。
(3)非結構庫:用于存儲試驗記錄、兩票信息等數據。
(4)流媒體庫:用于存儲安全監控,巡檢視頻等數據。
4.2.3 建立牢固安全保障
(1)鏈路安全:建立數據加密通道,共享訪問接口權限和專網傳輸路徑。
(2)租戶安全:建立多租戶認證和權限管理,實現數據安全訪問。
(3)內容安全:完善數據存儲策略,保障數據安全存儲。
(4)防護安全:加強部署環境的安全,分區分級進行管理。
4.2.4 提供多種數據服務
(1)調度管理:實現多數據庫之間的關聯數據調度。
(2)多租戶管理:實現多租戶的訪問權限管理。
(3)數據同步:實現數據的自定義目標同步。
(4)隔離同步:實現數據跨隔離安全同步。
(5)數據檢索:實現數據的多模式檢索服務。
(6)數據調用:實現數據的本地和遠端的雙重調用機制。
4.3.1 依據應用場景
(1)實時監視:對原始數據的實時監視。
(2)關聯展示:對多個原始數據的綜合關聯實時展示。
(3)歷史展示:對歷史數據的不同維度的展示。
(4)模型展示:對特殊機理模型數據的展示。
4.3.2 依據算法模型
(1)單一量時間模型:單一監測量的時間模型。
(2)多個量時間模型:多個監測量的時間模型。
(3)多個量關聯模型:多個監測量的關聯模型。
(4)多個量機理模型:行業專業機理模型,例如頻譜模型,旋轉模型等。
(5)多個量其它模型:主流大數據算法類,例如神經網絡,線性回歸等。
為滿足本項目所提出的業務需求,從不同用戶的使用角度,并能支撐此后需求的加深和擴展,本系統必須具有穩定高效、便于使用、易于管理、性能可擴展、功能易增加等特點。系統架構圖如圖1 所示。
針對數據處理部分,應當設置專門的轉換總線,對數據處理過程進行合理規劃,統一流程,提煉能夠復用的組件,進行流程組態化設計。
5.1.1 采集輸入
數據轉換總線中的輸入數據,由其他外部系統采集而來,依照相關協議的不同,可以支持被動接收和主動采集兩種方式,主動采集模式需要支持調度設置,以調整獲取的頻率,針對采集的目標不同,需要支持通用工業協議、私有協議、數據庫、系統、文件等。采集后的數據需存放在轉換總線的緩存內,由后續其他服務進行處理。
5.1.2 邊緣計算
數據轉換總線提供邊緣計算功能,可通過算法對緩存內的數據進行計算、轉換。
數據轉換需要采用組態化設計,將計算單元封裝為不同的算子,例如過濾、分解、合并、統計、換算等,多個算子可以組成不同的處理流程,處理的流程以及順序可以靈活配置。
對于經過邊緣計算的數據,重新編碼,放回緩存中。
5.1.3 緩存輸出
對于數據轉換總線中采集到的、計算后的數據,均放置在緩存中,需要將其發布輸出到其他系統、服務、文件等目標中,針對不同的目標,需要以插件的形式包裝其交互協議,其余部分應當采用統一的操作方式,以簡化使用成本。
針對不同的發布目標,可以支持通用工業協議、私有協議、數據庫、系統、文件等目標的輸出。
5.1.4 數據監視
對于整個處理過程,需要以組態的方式進行設計、配置和管理和監控。通過在輸入和輸出端點之間,組裝多個處理流程,既能直觀地對處理過程進行把控,也使得設定好的流程一目了然,便于維護和調整。同時組態過程中,可以對在不同環節查看處理的結果,以用于轉換流程的設計和調試。對于正常運行的流程,還可以統計每個節點的處理情況,例如已處理的總數。
5.1.5 任務調度
處理流程需要對處理的速率進行控制,對于輸入端,同時支持主動獲取和被動接收兩種處理方式,對于輸出端,支持被動調用和主動發送兩種方式。而在主動進行獲取和發送的模式內,應當支持設定不同的頻率,避免無意義的重復調用,在滿足業務需求的情況下,合理分配和使用資源。
5.2.1 數據檢索
系統應當提供標識和數據的檢索服務;
針對標識,需要支持樹狀檢索、條件檢索、精確檢索、模糊檢索等;
對于時序數據的檢索,需要支持按照標識獲取最新數據、按照時間范圍獲取歷史數據的功能,歷史數據還需要支持按照一定的方法進行稀疏或補全;
對于關系數據的檢索,需要支持標識檢索、條件檢索、關聯檢索、分組統計等功能。
5.2.2 數據調用
系統應當提供通用、規范的Restful 接口,供應用以及外部系統調用數據時使用;

圖1:系統架構圖
除被動調用外,還可以采用主動發送的方式,供外部系統獲得數據,例如通過數據發送程序,將數據發送到指定的目標。
5.2.3 數據同步
對于分布于不同數據池內的數據,應當提供同步機制,以滿足不同數據池之間的共享需求。數據同步需要支持歷史同步和實時同步功能,同時支持增量同步和全量同步兩種模式。針對不同的數據類型,設定不同的同步頻率和方式。
基于安全的考慮,在某些情況下,進行同步的兩個系統之間,只能單向傳送,在此類情況下就需要同步服務進行支持,針對不同的隔離系統,其傳送限制也不盡相同,因此需要支持組件化開發,在面對新的隔離限制規則時,僅開發相應的適配協議即可。
5.3.1 時序數據庫
時序庫適合存儲隨時間進行變化的動態數據,由于其不需要關系庫中復雜的關聯關系,因此檢索時間窗口內的數據效率很高,同時由于數據結構簡單,占用存儲空間少,因此可以長期存放高密度數據,為基于數據的分析工作提供支持。
對于通過儀器、系統自動采集的測量數據,通常滿足以上特點,因此建議采用時序庫進行存儲。
5.3.2 關系數據庫
關系庫適合以定義好的結構存放具有不同屬性的靜態信息,且可以在不同信息之間建立關系,適合存放需要進行不同維度關聯分析的數據,例如設備臺賬信息、設備故障信息、技術監督數據等。
5.3.3 其他數據庫
對于無法定義結構的靜態數據,如各類結構圖、人工分析的報告、圖像、音頻、視頻等數據,需使用非結構庫進行存放,如對于文檔類型可采用文檔庫,影音視頻類可采用流媒體庫等,本項目不展開設計。
當前專業數據開放共享不足,業務數據質量不高、數據對外價值未充分體現等問題依然存在,需進一步加強數據資產化管理,發揮企業數據資產價值。云平臺、大數據、物聯網、移動應用等新技術的快速發展,加快了企業數據整合、數據存儲、計算、分析與挖掘步伐,為能源互聯網發展及數據共享的實現奠定了基礎。