999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Hadoop平臺的電力行業大數據分析技術應用

2017-02-23 12:03:43王天軍沈佳尹蕊馬宗達
電子技術與軟件工程 2016年24期

王天軍+沈佳+尹蕊+馬宗達

本文通過對基于Hadoop平臺的電力行業大數據分析技術研究,構建了結構化和非結構化數據抽取模型,及基于map/reduce的數據分析模型。實現發電、輸電、變電、配電、用電等各環節數據的共享融合,在數據挖掘分析上由原來的點狀分析,過渡到跨專業的網狀數據分析,進一步提高了分析精度和分析效率。

【關鍵詞】Hadoop 電力行業 大數據分析

隨著互聯網+時代的到來,各行業數據的共享與融合越來越迫切。電力生產關系民生和經濟發展,隨著電力信息化的發展,涉及發電、輸電、變電、配電、用電等各個環節的數據呈爆發性增長,PB數量級的數據,已無法通過傳統的數據管理、抽取、分析技術挖掘數據間的多重關聯關系,從而更有效的實現電力風險預警,提高生產效率和智能調度功能。

1 Hadoop平臺介紹

Hadoop是Apache軟件基金會旗下的一個開源分布式計算平臺。以Hadoop分布式文件系統和MapReduce為核心的Hadoop為用戶提供了系統底層細節透明的分布式基礎架構。HDFS的高容錯性、高伸縮性等優點允許用戶將Hadoop部署在低廉的硬件上,形成分布式系統,MapReduce分布式編程模型允許用戶在不了解分布式系統底層細節的情況下開發并行應用程序。所以用戶可以利用Hadoop輕松地組織計算機資源,從而搭建自己的分布式計算平臺,并且可以充分利用集群的計算和存儲能力,完成海量數據的處理。

Avro是doug cutting主持的RPC項目,有點類似Google的protobuf和Facebook的thrift。是用于數據序列化的系統。提供了豐富的數據結構類型、快速可壓縮的二進制數據格式、存儲持久性數據的文件集、遠程PRC調用以及簡單的動態語言集成功能。

實現了MapReduce編程框架,用于大規模數據集的并行運算。能夠使編程人員在不理解分布式并行編程概念的情況下也能方便將自己的程序運行在分布式系統上。

HDFS分布式文件系統,其設計目標包括:檢測和快速恢復硬件故障;數據流的訪問;簡化一致性模型等。

Zookeeper是Google的Chubby一個開源的實現。它是一個針對大型分布式系統的可靠協調系統,提供的功能包括:配置維護、名字服務、分布式同步、組服務等。ZooKeeper的目標就是封裝好復雜易出錯的關鍵服務,將簡單易用的接口和性能高效、功能穩定的系統提供給用戶。

Pig是SQL-like語言,是在MapReduce上構建的一種高級查詢語言,把一些運算編譯進MapReduce模型的Map和Reduce中,并且用戶可以定義自己的功能。Yahoo網格運算部門開發的又一個克隆Google的項目Sawzall。

Chukwa是基于Hadoop的大集群監控系統,是開源的數據搜集系統。通過HDFS來存儲數據,并依賴MapReduce來處理數據。

2 數據抽取分析模型

目前電力行業數據包含結構化數據如常規oracle,MySQL等數據庫類型,同時也存在大量log日志文件,e文件等非結構化數據,為能全面有效的實現多業務,多數據綜合建模分析,設計如圖2所示,數據處理模型。主要由數據抽取、格式清洗和DFS分布式文件系統構成,同時為下一步大數據建模分析打好基礎。

數據抽取模塊主要負責從原業務系統獲得結構化和非結構化業務數據。通過在數據抽取工具中配置前端機器名稱、端口號、加密用戶名密碼、數據表等信息,實現結構化數據的抽取工作。對于日志類文件由于在原服務運行期間日志文件是持續寫入狀態,因此必須在原系統設置,系統日志按時間節點分割,一般可按具體業務運行情況和日志產生量和產生大小進行設定,避免因日志文件過大或網絡繁忙,在抽取時對業務造成影響。

格式清洗模塊主要是對原始數據中多種不同配置格式進行統一,特別是對非結構化數據,需定義每個字段的含義和位置以及統一分隔符,同時還會去掉一些記錄不完整的壞數據,保證數據的格式統一,信息完成。最后導入HDFS文件系統進行存儲。

數據分析通過Map/Reduce操作實現,通過設計業務分析模型,定位此項數據分析所需輸入數據,并將數據數據分割成若干獨立的塊,并根據Inputformat把資料讀入成一組(key,value)對,然后通過mapper count分給不同的mapper進行處理。再設計模型中,通過設置滿足要求的map任務值,并引入哈希算法,將mapper對應初始的(initialkey,initialvalue)生成中間數據集(interkey,intervalue)劃分為多個任務,將模值相等的任務丟到統一節點上計算,以實現比較平衡的分類效果。

Reducer對mapper產生的(interkey,intervalue)中間數據集,進行驅蟲、過濾等后期處理后,得到結果。為實現輸出文件格式支持通過key來高效的自由訪問,并得到有序的數據輸出,在reducer中加入排序環節,將所有的中間數據集根據key來排序的。這樣每個小塊都很容易生成一個序列化的輸出文件。

通過展示系統,實現各業務模型數據分析結果圖形化的展示在監控大屏上,同時桌面用戶還可通過瀏覽器或客戶端在終端上查詢分析結果。

3 總結

通過hadoop平臺構建電力行業大數據分析模型,可按照業務需要進行靈活進行組合,提高各專業間的數據共享融合,實現由點狀業務分析模式,到貫穿“三集五大”各專業的網狀業務分析模式,可進一步提高電網的健壯性、互動性和智能化,為社會經濟穩定發展提供保障。

作者單位

國網新疆電力公司信息通信公司 新疆維吾爾自治區烏魯木齊市 830000

主站蜘蛛池模板: 69av在线| 亚洲天堂视频在线观看免费| 日本高清在线看免费观看| 久久精品aⅴ无码中文字幕| 99re热精品视频国产免费| 午夜日本永久乱码免费播放片| 最新日本中文字幕| 九色91在线视频| 亚洲国产成熟视频在线多多| 亚洲男人天堂网址| 一级毛片在线直接观看| 国产精品一区在线麻豆| 精品国产乱码久久久久久一区二区| 亚洲国产天堂在线观看| 亚洲无码精品在线播放| 国产69精品久久| 免费在线看黄网址| 国产精品女人呻吟在线观看| 国产精品污视频| 久久精品亚洲专区| 久久国产成人精品国产成人亚洲 | 国产区91| 就去吻亚洲精品国产欧美| 亚洲一区二区精品无码久久久| 日本人妻一区二区三区不卡影院| 黄色网址手机国内免费在线观看| 波多野结衣一区二区三区四区视频 | 一级全黄毛片| 国产人成网线在线播放va| 欧美精品v欧洲精品| 久久五月视频| 午夜福利网址| 91外围女在线观看| 99草精品视频| 日本久久久久久免费网络| 国产日韩精品欧美一区灰| 日韩在线中文| 毛片一区二区在线看| 国产精品xxx| 一级毛片免费高清视频| 国产高清精品在线91| 久久精品无码国产一区二区三区| 免费99精品国产自在现线| 91色在线观看| 欧美精品伊人久久| 免费国产小视频在线观看| 中文字幕人成乱码熟女免费| 999国产精品| 国产精品成| 秋霞一区二区三区| 国产在线精彩视频二区| 国产精品永久不卡免费视频| 精品久久香蕉国产线看观看gif | 日韩中文字幕免费在线观看| 91香蕉视频下载网站| 国产精品无码一二三视频| 亚洲天堂免费在线视频| 亚洲一区波多野结衣二区三区| 美女无遮挡免费视频网站| 成人国产精品网站在线看| 亚洲三级视频在线观看| 亚洲一级毛片| 中国一级毛片免费观看| 日韩福利在线视频| 亚洲浓毛av| 欧美三级不卡在线观看视频| 日韩中文精品亚洲第三区| 日韩专区欧美| 蜜臀av性久久久久蜜臀aⅴ麻豆 | 国产91全国探花系列在线播放 | 制服丝袜一区| 午夜福利在线观看成人| 老色鬼欧美精品| 国产欧美日韩在线一区| 国产精品分类视频分类一区| 在线精品亚洲国产| 999福利激情视频| 无码人妻免费| 欧美日本在线一区二区三区| 午夜啪啪福利| 亚洲视频色图| 91人妻在线视频|