沈夢雪,李屹然
(1.國網棗陽市供電公司,湖北 棗陽 441200;2.國網老河口供電公司,湖北 老河口 441800)
在過去的十年,各個行業對電力的需求不斷加大,用電高峰季缺電現象更是時有發生。隨著可再生能源的發展,發電方式變得十分多樣。智能電網提供了一種安全可靠的集成方式,在保證電力系統安全運行的前提下,有效結合可再生能源與傳統發電方式。智能電網可以視作是電力系統與海量信息的結合體,由傳感器、執行器、智能電表、分布式管理系統、決策支持系統組成,與電力系統與統計學、應用數學和智能算法等領域相融合。但由于電力網絡的復雜性,巨大的網格產生了高維的數據,除結構化數據外,還包含大量的半結構化、非結構化數據,為數據的提取、存儲帶來了許多困難[1-2]。對智能電網而言,數據提取、轉化、存儲以及決策管理是智能電網運行的關鍵所在,為大數據技術在智能電網中的應用提供了廣闊的平臺[2]。尤其是在削峰填谷、提供分布式系統的能源效率、提高配電系統可靠性等方面,大數據技術將會起到關鍵性的作用。基于當前智能電網中數據的特點,本文主要介紹了一種基于云計算的智能電網大數據分析系統體系結構,并指出大數據技術在智能電網中運用的發展方向以及需要解決的問題和面臨的挑戰。
大數據技術是一種廣泛收集數據并從其中提取知識的技術[3]。大數據分析由以下幾個部分構成:分布式文件系統框架構成的多用戶數據庫,如Hadoop,Mahout等;數據庫管理系統,如Cassandra,HBase以及查詢語言,如HiveQL。將大數據分析應用于智能電網中,可以存儲各類智能電網中的歷史數據,例如溫度數據、用戶電能需求和電能生產數據等。這些數據可以存儲在云環境中并進行處理。現將大數據分析的框架介紹如下。
Hadoop又稱作Hadoop分布式文件系統(Hadoop Distributed File System,HDFS),它可以通過本地計算從一臺服務器擴展到數千臺計算機。而MapReduce是Hadoop的并行數據處理系統,它可以在大量潛在的高級語言中執行,如C、C++和腳本編程語言,Python等。Hadoop MapReduce模型體系結構如圖1所示。

圖1 Hadoop MapReduce模型體系結構
MapReduce由每個集群的單個主節點和一個從節點組成,可將多個任務并行分配給單個集群或共享集群中的數據節點并對結果進行整理、過濾、排序,然后傳遞出去作為輸出。如圖2所示,如果分配給某個節點的任務在集群中過載或是分配失敗,則該任務由集群中的另一臺服務器執行。然而,在多個集群上運行會導致運算時間增加,并降低處理速度。但由于MapReduce沒有交互模式,需通過添加Hive Hadoop使用戶有一個接口來處理MapReduce范式。

圖2 MapReduce軟件框架
Cassandra數據庫是一種非關系型的數據庫(Not only Structured Query Language,NoSQL),專門用于存儲大型數據集。Cassandra支持云基礎設施,使其更適用于智能電網。在國外,Cassandra數據庫已經在網飛、易趣、推特等著名網絡公司中得到了應用。該數據庫擁有擴展性強、模式靈活、多數據中心等優點,能夠很好地存儲智能電網中的各類數據。
Apache Hive數據庫軟件用于查詢存儲在分布式環境中的大型數據集并分析計算大數據。Hive使用一種類似SQL的查詢語言HiveQL (HQL)來查詢數據庫。Hive由兩個組件組成,分別為Hcatum和WebHcat。Hcatum是一個表,允許用戶在其網格上編寫數據。WebHcat使用HTTP接口運行Hadoop MapReduce和Hive服務。HQL查詢由Hive解析器編譯為一組MapReduce程序。與關系數據庫類似,Hive將數據組織做成表并存儲到HDFS[4]。
智能電網由智能電表、傳感器、決策支持系統等組件組成,以實現使傳統電網表現為“智能”的目標。本文討論的基于云計算的智能電網架構包含大數據分析模塊,以分析智能電網中的各類數據,例如消費者使用數據、歷史天氣數據等,并預測傳統能源和可再生能源的電能生產。一些典型的大數據在智能電網中的應用如圖3所示。

圖3 智能電網中的大數據應用
云計算建立在互聯網的基礎上,是對互聯網相關服務的增加、使用、交付的一種全新模式[5]。云計算環境提供各種服務模型,如基礎設施服務(IaaS)、網絡即服務(NaaS)、平臺即服務(PaaS)和軟件即服務(SaaS)。云計算也擁有不同類型的云部署,如私有云、公共云、分布式云等。云計算技術可以與智能電網中的大數據分析一起使用,以平衡電網中的電能供需。將智能電網、大數據分析和云計算這3種技術的優點匯集在一起,生成基于云計算智能電網大數據分析系統架構,以執行以下功能:
(1)分析歷史天氣數據,預測電能產量;
(2)分析消費者行為模式,以提前預測需求;
(3)跟蹤各種來源的電能生產,并決定在高優先級/低優先級需求之間的切換;
(4)需求/供應鏈之間的平衡負載;
(5)有效地完成發電量的存儲/傳輸。
如圖4所示,上述的體系架構主要由智能電網側和基于云計算的大數據分析框架兩個部分組成。智能電網端將所需的數據傳遞至大數據分析所用的數據庫,數據庫由歷史天氣數據、消費者行為模式、電能供需等數據庫組成。每次系統根據歷史天氣數據和消費者行為模式預測電力需求和計算所需的電力供應,并將智能決策反饋到智能電網端。上述數據均存儲在云端Cassandra數據庫。為了管理數據的存儲和檢索,系統使用Hadoop分布式文件系統。HDFS負責將存儲分配到機架中的節點。Map函數每次將一個輸入(key,value)對轉換為一組中間結果(key,value)對;Reduce函數對key相同的一組value進行處理,產生最終結果并寫入分布式文件系統HDFS[4]。

圖4 基于云計算的智能電網大數據分析系統
對智能電網中的各類數據而言,數據的提取、傳輸和存儲環節仍然有許多挑戰值得關注,現將其中較為關鍵的問題總結如下。
由于傳感器的數據有時會被更新和覆蓋,導致之前收集的數據被覆蓋。但在提取數據中的有效信息之前,歷史數據不應該被覆蓋。一旦被覆蓋,則會嚴重影響數據收集的準確性。
數據生成的精度為秒,由此會產生TB級別的數據,增加了數據流傳輸的負擔,且對如此級別的數據進行分析的價值很低。
在分析測量點或傳感器上產生的數據時,通常不進行流式傳輸或直接傳輸到存儲單元。因此在數據分析的預處理步驟,應選擇合適的方法處理數據丟失帶來的問題。
考慮到智能電網中的應用程序時常需要根據實時數據進行數據處理、分析,這對數據清理的時間提出了較高的要求。就已有的技術而言,具有Hadoop或spark的基于云的基礎設施是保障數據能夠進行快速實時處理的較好解決方案。然而,此類方案仍存在著延遲、網絡擁塞、算法復雜和計算速度有限等固有問題。
快速、安全、可靠的通信信道是涉及實時分析的應用程序面臨的一個挑戰。保護通信通道的信息安全是一項復雜而耗時的任務。而電網數據需要通過維護數據的完整性和機密性來保護電網數據的安全。
在大數據時代,信息是影響決策的關鍵因素之一。因此,本文提出了在智能電網中實施大數據分析和云計算的架構,使得智能電網的運行更加高效。對于發展中的智能電網而言,有效提取相關信息能夠很好地促進節能減排并促進電力資源的合理利用,亦具有很高的商業價值。但該過程也對利用大數據技術提取、存儲智能電網中各類數據的安全性、準確性、實時性提出了更高的要求。大數據技術未來在智能電網中進一步的發展應圍繞數據提取的安全性和高效性、增強數據處理的實時性、數據庫的橫向擴展以及數據的可視化等方面來進行。此外,在法律層面,提取公共用電數據進行分析有可能侵犯用戶個人隱私,有關部門也應建立健全相關法規,讓大數據技術更好地為社會服務。