摘 要:隨著電力系統信息化的進步和智能電網的發展,電力系統相關的數據量急增,這些數據是客觀的記錄,是系統運行情況的真實反映,如果我們想要通過對數據的挖掘來把握電力系統運行行為,那么首先我們就需要對數據進行管理,如何更加科學的管理電力大數據是我們所面臨的一個問題。文章綜述了數據庫一體機、基于Hadoop平臺hive數據倉庫以及面向列數據庫hbase的內部構成和應用范圍,詳細地分析各自的優勢和缺點,并梳理這些數據管理電力大數據時面臨的問題。
關鍵詞:電力大數據;管理;工具;對比
引言
電力系統中的能量流——即電能的產生、傳輸到應用消耗過程,是由用電需求驅動的,既能反映電力系統結構特點,又能反映電力系統運行狀況,還能反映電力系統與外部環境(如國民經濟、社會活動)的相互作用。因此,把握電力系統中能量流的時空分布特性對提高電力系統運行經濟性及安全性具有重要價值,作為電力系統能量流數字化的電力大數據,全面記錄了電網的運行狀況,包含了電力系統整體動、靜態行為的豐富信息。深入挖掘這些信息的價值,有助于提高電力系統運行安全性及經濟性。
目前從數據形成知識的過程是借由數據挖掘來實現的,即通過對數據的分析和有效組織和整合提取蘊含在內部的隱層信息、潛在有用信息和知識。實現這一過程需要對數據進行初步核實、建立相應的數學模型、評估分析結果,這些都是依賴數據科學,因此對于如何科學的管理數據、處理數據是一個重要的問題。
1 數據庫一體機
數據庫一體機是將軟件層面的數據庫產品與實體計算機硬件有機結合的專門服務于數據處理、傳輸、儲存的實物科技產品。
國內對于數據一體機的探索和研發從未間斷過,電力系統數據庫一體機經歷了上個世紀80年代引進應用系統通用機、90年代建立國產應用通用機、2000年后的open3000系統的應用到現在國網D5000系統的逐步推廣,形成了一個數據傳輸網絡化、運行監視全景化、安全評估動態化、調度決策精益化、運行控制自動化和源網協調最優化的一體化智能電網調度系統。
2 基于hadoop運行平臺的數據管理工具
2.1 hive數據倉庫
Hive是建立在 Hadoop上的數據倉庫基礎構架。具有簡單的類SQL查詢語言,稱為HQL。同時,MapReduce開發者的可以借此開發自定義的mapper和reducer來處理內建的mapper和reducer無法完成的復雜的分析工作。
Hive構建在基于靜態批處理的Hadoop之上,Hadoop通常都有較高的延遲并且在作業提交和調度的時候需要大量的開銷。Hive查詢操作過程嚴格遵守Hadoop MapReduce的作業執行模型,Hive將用戶的HiveQL語句通過解釋器轉換為MapReduce作業提交到Hadoop集群上,Hive的最佳使用場合是大數據集的批處理作業,例如,網絡日志分析。
2.2 Hbase數據庫
HBase是一個開源數據庫,兼具有分布式和列存儲的特點。現存的研究主要集中在多種數據庫混合研究上。
國內對于大數據技術相關的數據庫的研究也在不斷推進中,研究方向和重點主要集中在性能優化、混合數據庫的移植性研究上。
3 大數據技術與數據庫一體機對比
硬件架構:大數據應用平臺和數據一體機隸屬于同一梯次,實物架構基本一致,都是通過硬件系統兼容的并行計算來完成上層任務。不同的是,數據化一體機更具有獨特性、自身優化特點。
軟件體系:兩者的最大不同點主要集中在自身軟件體系中,數據化一體機軟件核心的出口和入口都是面向數據查詢語言體系,當然,絕不僅僅局限在語言解析上,還囊括查詢過程的優化,數據本身的優化索引,對各種事務數據的掌控能力。
大數據技術中的各種技術更加靈活和易于組織,可以在底層進行服務于自身需求的更新和更改,以mapreduce為例如果運行人員想要實現計算目的,需要手動編譯大量的MR程序,把握各種計算邏輯。大數據技術中的另一項突出優點是對非結構化數據的分析能力,hadoop分布式儲存系統對非結構化數據的天然兼容性和對數據原始性的保障,可以對非結構化數據進行類結構化數據的查詢和索引。
當然數據化一體機由于自身硬件的限制,無法像大數據技術和平臺這樣易于擴展,對于超大型復雜數據和內在互聯邏輯不能完美計算,但是數據化一體機在一定層面上已經改善了傳統方式的瓶頸。
4 存在的問題和展望
電力大數據是以結構化數據為主,數據庫一體機對于2維數據有著高效的支持度,對于結構性數據具有良好的適應性,但由于數據庫一體機下層數據庫的建立往往依賴于關系型數據庫,內在關聯在數據庫設計時就已經設定,其上層應用開發受數據組織形式約束,所以在挖掘隱含信息和知識方面沒有優勢。另外面對非結構化數據(如社會化數據、各種日志甚至圖片、視頻等)無法映射為關聯化和結構化的2維數據時,無法對其進行有效處理。
大數據技術相關的數據管理工具底層數據庫隸屬于非關系型數據庫,由于弱化內在關聯關系,所以在數據存儲方面可以通過分布式存儲來實現大規模數據儲存,并且在挖掘隱含信息方面,不受底層數據組織的影響,可以通過自身設計模式進行數據挖掘,但值得注意的是現在大數據并非萬金油,在面對處理小型數據量的時候存在高延遲的現象,在離線處理方式mapreduce計算框架下,map和reduce過程都需要初始化,并行任務對HDFS中數據的讀取磁盤開銷巨大,如何科學的數據分塊,如何控制合理的任務總量和并行任務執行數量,如何能夠最大限度的發揮服務器的性能,優化存儲和查詢是需要解決的問題。
2014年2月Spark取代MapReduce成為Apache頂級項目,作為一個基于內存計算為核心的spark逐漸在各個領域上面體現出比mapreduce更快的計算效率,在處理電力大數據方面的研究剛剛起步,如何將內存式計算融入到電力系統多次計算迭代同樣也是一個待解決的問題。
參考文獻
[1]岳峻松,趙俊峰,趙偉,等.數據庫一體機技術架構解析[J].電力信息化,2013,11(4):60-64.
[2]王為國,曾偉民,代偉,等.基于數據倉庫的一體化電力調度自動化系統[J].電力系統自動化,2003,27(12):67-70.
[3]馮黃俊,趙景霖,臧菲,等.OPEN3000與DF8003自動化系統應用區別及建議[J].電力與能源,2013,34(z1):53-56,60.
[4]李功新,周文俊,林靜懷,等.基于D5000平臺的調控操作與防誤一體化系統[J].電力自動化設備,2014,34(7):168-173.