廣西計算中心 楊 程
智能電網大數據技術發展初探
廣西計算中心 楊 程
針對現有文獻對國家智能電網數據研究和利用探討的不足,本文結合大數據的存儲、計算及分析等技術,給出利用大數據技術研究國家智能電網數據的初步想法,探索國家智能電網數據的潛在規律和應用價值,充分發揮大數據的潛在應用價值.
智能電網;大數據技術;大數據應用
計算機信息技術的發展將人類帶入了數據社會,帶動了互聯網、物聯網、智能電網、新能源、智能城市、網絡金融[1]等現代服務業發展,數據的充分利用和挖掘正成為各行各業運營和發展的引擎。但這個引擎正面臨著數據量大而復雜等巨大的挑戰。各種業務數據正以幾何級數的形式爆發[2],其格式、收集、儲存、檢索、分析、應用等中存在諸多問題,不再能以傳統的信息處理技術加以解決。數據的格式也由傳統的結構化數據轉化為非結構化數據,數據處理的實時效應要求也更高。大數據技術經過幾年的發展,已經形成了一個完整的生態技術圈,包括海量數據的的存儲及分析技術。
電網是國民工業發展的基礎,合理、高效地分配電力資源對經濟的發展起著重要的影響。目前我國的電力系統存在運行效率低、成本高、受環境影響較大等缺點,可靠性、自愈能力、穩定性差、自身數據利用不充分等不足。
目前在中國大數據技術的應用已比較普遍,多應用于一些大型的國家服務機構。隨著電力能源需求的不斷提升,國家電力機構需要處理的用戶信息數以億計,對于所有的這些用電居民的信息整合對于工作人員來說數據是十分的龐大的[1]。作為大型數據的典型,為了處理這些大宗的服務數據,國家智能電網將大數據技術應用到其中。
本文針對國家電網存在的不足,結合大數據的生態技術圈,研究建設智能電網的一套方案,包括計算機集群的規劃,電網數據的采集、存儲、分析及應用。
隨著智能電網建設和物聯網的應用,電網大數據涉及到發電、輸電、變電、配電、用電、調度各環節數據,是由結構化數據和非結構化構成混合異構數據,是跨單位、跨專業、跨業務數據集合,一個省的年新增數據量超過百T。
想要對海量電網數據進行分析并挖掘數據當中有用的價值,首要解決的問題就是海量數據的存儲。目前存儲海量數據主要有兩種解決方法:
(一)購買云服務,如阿里云,購買云端ECS,搭建云端的計算機集群,將現有數據上傳到云端。下面是云服務器的參考配置:

數量(臺) CPU 內存 硬盤 操作系統至少15臺 至少2x8核 至少64M 10T CentOS
購買云服務器適合資金預算不足的小型企業,優點是計算資源可以隨時購買、隨時調整;缺陷也顯而易見,因為機器在云端,管理不方便;云端存儲空間昂貴;本地數據采集不方便。
(二)購買物理機搭建集群。購買實體的服務器,在本地搭建計算機集群,方便管理,服務器推薦的配置如下:

數量(臺) CPU 內存 硬盤 操作系統至少15臺 至少2x8核 至少64M 15T以上 CentOS
購買實體服務器搭建的集群初始成本高,但總體成本相對云端的集群要低很多,因為機器在本地,管理起來較為方便。
集群上部署的服務推薦:

存儲框架 計算及分析框架 數據轉換組件 數據庫框架 數據挖掘組件Hadoop Spark Sqoop HBase、Hive Mahout
海量數據的存儲是對海量數據進行分析和挖掘的前提,計算機集群為是存儲大數據的解決方案,以上兩種集群建設方法為后續對海量數據研究打基礎。
(一)存儲在傳統數據庫中的電網數據采集
集群部署階段安裝的Sqoop服務提供了數據轉化的功能,該服務可以將存儲在數據庫中的電網數據抽取到分布式的存儲架構HDFS中,已有的數據就可以很方便地被拉取到集群中。
為便于后期對數據進行分布和挖掘,我們可將抽取到HDFS中的數據導入Hive中。Hive針對表中數據提供了一種類sql查詢和分析語法,只要掌握簡單的sql語法即可對海量的數據進行分析,而不必掌握復雜的大數據技術。
(二)網絡中的電網數據采集
Internet上有許多電力企業用戶的行為數據,這些數據中蘊含著豐富的價值,采集和分析這些數據也成為企業發展的重要內容。目前網絡上的數據主要通過專業的爬蟲團隊從個網站上爬取,爬取的數據大多數是非結構化的。爬取到的網絡數據先將其上傳到HDFS中,針對這些非結構化的數據可將其導入HBase表中,HBase對非結構化的數據提供了一種列式存儲的分布式技術,該技術不但方便存儲復雜的數據,且因其列式存儲的特點,非常利于大量數據的壓縮存儲。
數據的采集和存儲是大數據應用的前提,對大數據進行分析和挖掘,找出數據中蘊藏的規律來指導企業的規劃和發展才是我們的最終目的。
目前,對存儲在分布式架構中的海量數據已經集成了一套數據分析和挖掘的組件:
數據預處理階段,Hive提供的類sql功能可用于數據的過濾和清洗,初步篩選數據,減少數據的處理量以提高數據的處理速度。
數據的分析和挖掘階段,mahout框架提供了一系列數據挖掘相關的算法,如分類算法、聚類算法、協同過濾算法、模式挖掘算法等,可針對數據運用相應的算法,挖掘數據中的規律,為商業活動提供指導。
機器學習階段,Spark的MLlib包中提供了一系列機器學習的模塊,包括樸素貝葉斯、SVM、隨機森林等,深度學習數據中蘊藏的規律,利于對企業的發展做預測。
通過大數據技術對智能電網海量數據的分析和挖掘所獲得的規律,可以指導決策者在企業運營中做出更加合理的決策。如根據分析所得的結果,調整時間段的供電量,減少資源的浪費。通過這一系列的科技手段,既有效的提升了電力部門的績效,又降低電力信息管理的成本,相應的也減少了電力系統運行帶來的環境污染。尤其是智能電網的大數據技術已經發展成為促進電力系統發展的重要因素。大數據技術不僅可以協助智能電網進行用戶數據采集,該可以借助大數據的挖掘分類技術,將這些信息分門別類,發送到各個不同的部門以減輕工作人員的工作壓力,或借助大數據可視化技術,在紛亂復雜的海量數據中,實現的智能在線監控、可視化調度、趨勢分析、預測與報警、事件應急處理和輔助決策等智能應用。
本文將大數據技術與智能電網相結合,先給出一套計算機集群服務器的配置要求,接著給出集群上部署的服務。接下來,結合現有的大數據技術,給出數據采集、數據分析和挖掘的初步解決方案。目前我國對于智能電網大數據技術的研究,尚處于探索的初級階段,還是擁有相當大的的發展空間。不斷完善與大數據技術的相關的其他的新型科技,促使在智能電網中的大數據技術得到更好的應用,使其逐漸成為國家智能電網發展的依靠。
[1]朱正凱.淺議智能輸電網線路狀態監測數據傳輸技術的發展現狀及應用[J].中國新通信,2017,(03):88-89.
[2]馮國瑞,王亮.基于大數據和云計算的電網財務系統決策研究[J].通信電源技術,2017,(01):113-115.
楊程(1982-),男,廣西桂平人,大學本科,畢業于廣西大學,中級工程師,研究方向:計算機應用技術。