邱子良
(深圳供電局有限公司,廣東 深圳 518033)
中國電力行業正在經歷變電站計算機和通信設備飛速發展的時代。因此,大量的測量數據被不斷地收集、交流和處理[1]。現有技術正面臨巨大的挑戰,需要開發適當、高效的分析方法來利用非結構化文本、音頻和視頻3種格式的海量異構數據[2]。關于智能電網中基于云的大數據分析軟件平臺的研究可以在許多文獻中找到[3]。此外,大數據正在改變能源的生產方式和能源的消費模式。因此,大量研究都集中于大數據驅動的智能能源管理領域[4-6]。
目前,大多數現有的電力系統公司都沒有準備好處理不斷增長的數據。其中一個很大的障礙就是缺乏集成大數據處理、知識提取和呈現的智能平臺,大數據技術的成功將為電網帶來許多好處,包括改進的設備故障診斷、狀態估計和可視化、更細粒度的負載、可再生資源預測以及全面的政策影響分析等。該文將為輸配電設備的狀態監測提供一個新的大數據處理和分析平臺。
該文提出了電力系統狀態監控大數據處理與分析平臺的框架,如圖1所示。一般來說,平臺有4個主要模塊/系統,分別是數據采集、大數據分析、輔助決策和信息集成。該文將簡要介紹該框架,重點介紹大數據分析模塊的大數據管理和大數據分析技術。在電網中,由不同的子系統采集大量的數據,例如能源管理系統、設備監控系統、維護管理系統以及生產管理系統等。數據可以是異構的,例如設備狀態數據、電能質量數據以及環境數據等。在數據狀態方面,大數據處理和分析都需要歷史數據、實時數據和數據流,因此,該平臺可以提供有用和及時的信息來輔助決策,并且所有的信息和知識可以被集成并用于系統維護、系統操作系統評估、系統檢查以及構建進行特殊實驗的策略。

圖1 電力系統狀態監控大數據處理分析平臺
該文提出的平臺具有特殊的數據采集結構,如圖2所示。大數據采集和處理系統的3個主要部分(具體來說,3種不同形式的信息獲得數據的方法),包括數據導入、批量數據文件和消息隊列遙測傳輸(MQTT)協議,其中MQTT是“物聯網”的典型消息協議。為了支持頂層應用,該文設計了各種數據存儲方法,其中包括Hadoop分布式文件系統,它非常適合在大規模數據集上應用。

圖2 大數據采集系統、分布式數據存儲引擎和數據處理引擎的構造模型
在電力系統中,需要在不同的尺度下對一些特定的數據進行收集或分析,然后到另一個維度進行知識提取。在對這些異構數據進行投影或將其轉換為統一形式時,需要重新協調不同數據結構和語義之間的沖突,并考慮數據融合的不確定性和動態性。因此,大數據平臺根據數據對象之間復雜的邏輯關系,采用廣義管理模型,通過對主體信息的歸一化和提取來表示數據。同時,還需要對時空數據模型(例如電網故障擴散模型和對設備的影響程度)進行高效搜索。一個巨大的挑戰是設計一個靈活的數據管理系統架構,從而適應多模式電力數據。
數據管理系統架構的設計思路如下:大數據管理技術為了維護系統的穩定性和可靠性,對電網的關鍵設備進行監控至關重要。因此,電網大數據代替了傳統的數據流產生,由于實時性、突發性、隨機性以及無限性等新特點,對數據流管理提出了更高的要求。傳統的數據流依賴于集中式數據庫,數據量少、數據對象單一,不能滿足用戶對大數據流管理的要求。該文在隨機混合系統中,通過由幾個組件和中間的緩沖器組成的數據流管道來對電源管理系統進行優化,這是因為數據流管道系統的預期平均功耗最小。圖3和圖4顯示了傳統數據處理模型和該文數據流處理模型之間的對比。傳統的數據庫管理系統建立在持久數據集的概念上,該數據集被可靠地存儲在穩定的存儲中,并可以在其整個生命周期中查詢/更新。用戶發送數據操作語言(DML)語句作為查詢,系統在數據庫或數據倉庫中搜索數據后返回結果。然而,當數據量很大時,由于輸入輸出交換量的原因,搜索效率會很低,不能滿足實時數據處理的要求。相反,整個數據其實并不保存在數據流過程中,而是以很小的容量存儲在大綱數據結構中,對于數據流管理,該文引入了2個關鍵技術的思路。首先,使用了海量數據流彈性訪問和高吞吐量技術,根據數據到達的速率,靈活、及時地調度內存資源,在極短的時間內分配訪問點,從而實現基于多個輸入點的并行訪問。這是為了在多層和長持續時間中存儲流數據,在每個接入點中應用多級存儲結構。其次,海量流媒體數據管理技術的應用,數據流的及時性與數據值和分析結果的準確性密切相關。通過時效性對數據進行組織和管理,利用多重時效性索引策略對流中的數據單元進行多層次提取,因此,可以大大提高數據訪問和存儲的效率,還可以防止數據丟失。

圖3 傳統數據處理模型

圖4 數據流處理模型
可以將上述方法作為分析引擎的一部分對其進行編程和集成,從而支持電力大數據的處理。因此,數據處理引擎可以通過建立動態的、全局的和抽象的功率數據模型來支持整個系統的操作和控制,基于該模型推斷結果并做出決策。
針對以上傳統數據處理模型,該文提出一種新的數據流處理模型,而且展示了其具體的運行算法過程,同時將其與傳統數據流處理模型的時間測試結果進行了比較。
新的數據流處理模型可以運用Hadoop分布對文件進行了系統分類,從而減少了統計時間。
新的數據流處理模型的Hadoop使快速處理大量數據成為可能,并且具備對對象進行索引的能力。與普通的處理方法相比,新的數據流處理模型的Hadoop具備以下2個主要的優點:1)知道空間數據的性質。因為有些數據并不是單一存在的,其中一些數據相互關聯,例如移動物體軌跡。每個移動對象由多個文件輸入行組成。傳統數據流處理模型只處理一堆文件;而該文的數據流處理模型可以將大數據文件分割成塊文件,在群集的數據節點上存儲和復制。數據拆分過程是一個移動對象的數據可能會通過新的數據流處理模型中的多個塊文件進行分區的過程。因此,任何操作都需要更多的時間來訪問這些文件,以便重建移動對象。顯然,這將對移動對象查詢的效率產生明顯的負面影響。該文的數據流處理通過將移動對象的文件注入相應的數據流模型架構來解決該問題。因此,新的數據流處理模型能夠了解它們的存儲結構,并在拆分文件時服從該結構。2)Hadoop提供能夠在操作前修剪某些數據的索引結構。在傳統的數據處理模型中,操作員按順序和并行進行鏈式和嵌套,以構建復雜的分析作業。然而,在實驗中,運行時間成本主要是由于傳統數據流處理模型將數據復制到所有節點而造成的,這增加了不必要的工作,也限制了獲取數據的時間優勢。因此,研究人員通過引入分區技術來解決該問題。
該文的數據流處理的內部具體構造,如圖5所示。首先,先確定Hadoop的啟動,未啟動就直接結束程序,隨后重新啟動。確定完成后,對Hadoop監控代理,對里面的文件源進行分類,并對其數據來源進行修剪,盡可能地去除不必要的部分;其次,對文件源的數據進行采集,確認數據在電能存儲的有效性,在這里也可以直接丟棄無效文件數據,為后續搜索運行節省了大量的時間;再次,對有效的文件進行空間分配,方便以后搜索文件;最后,在界面顯示所得的結果,并將其保存在數據庫中。為了更好地體現數據流處理模型的優越性,接下來對其進行了文件源大小和處理時間的測試。

圖5 數據流處理模型的過程
如圖6所示,數據流處理模型的處理時間比傳統數據處理模型的處理時間少。在輸入單一數據時,數據流處理模型的處理時間沒有體現出明顯的優勢,但是隨著數據的增多,當以信息流的形式出現時,就能明顯發現傳統數據處理模型的處理時間是數據流處理模型處理時間的7倍,足以說明該文的數據流處理模型的優越性。而且隨著社會的發展,信息一定越來越多、越來越雜,一定也會要求信息處理的時間要越來越短,該文所提到的數據流處理模型是解決未來信息處理問題的一種選擇。

圖6 傳統數據處理模型和數據流處理模型處理時間的對比
該文討論了最近提出對處理現代電力系統產生的大數據新型處理平臺的應用。該框架包括從整個電網收集電力數據的數據采集子系統、由數據流管理系統和數據值管理系統組成的大數據分析子系統、集成了許多強大的開源計算算法、進一步優化策略的決策輔助子系統和信息集成子系統。需要注意的是,該文僅提供了大數據系統的概述框架,未來的工作將在早期工作的基礎上開發一套全面的技術。該文對最新大數據技術和智能電網技術的協同作用進行了全面闡述,這在未來智能電網的實時監控和狀態評估方面具有巨大的潛力。