999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大數據Hadoop技術對電網客戶違約情況的分析和預測

2017-02-23 12:04:18鄒岳琳劉昆
電子技術與軟件工程 2016年24期
關鍵詞:數據挖掘大數據

鄒岳琳+劉昆

隨著智能電網的發展,電網公司的各類業務應用產生了海量的數據,基于Hadoop的大數據處理技術是以分布式文件系統為基礎的大規模并行數據處理平臺,它能充分利用硬件集群的資源,進行并行計算和內存流計算,大大提高了數據運算分析的效率,全面支撐電網公司如客戶欠費風險預測等對海量準實時數據處理分析的需求。

【關鍵詞】大數據 Hadoop 存儲計算 數據挖掘 用電行為

1 公司數據建設現狀分析

隨著公司“三集五大”管理體系和調控、運監、客服三中心的全面建設,信息系統已全面融入公司生產經營管理業務的各個方面,積累了大量的結構化數據、非結構化數據、海量歷史準實時數據和地理信息數據,有效支撐企業數據共享融合、分析決策系統建設。但隨著公司各業務系統數據量不斷增大,以及數據價值挖掘需求的增長,針對平臺需要在橫向擴展、實時快速處理能力方面進一步提升,針對應用功能建設需要在跨業務跨部門分析能力方面需進一步優化。為適應公司信息化管理手段,需引入大數據關鍵技術的研究、驗證和示范應用來促進公司支撐一體化、專業化、扁平化、集約化管理,構建新型電網企業運營體系,增強價值創造力和核心競爭力。

2 大數據在企業的應用情況

在國外,互聯網企業已經對大數據技術進行了深度探索和研究,并投入關鍵應用領域。同時,傳統的金融、電信、能源等領域也引入大數據技術,用于解決數據處理環節上遇到的瓶頸,創新了業務應用,助力企業從激烈的競爭環境中脫穎而出。

與國外市場相比,國內除少數大型的互聯網公司外,絕大多數企業對于大數據的研究與應用還處于探索階段,但這些局部的合理嘗試已經為這些企業帶來了豐厚回報和成長優勢,這也初步驗證了“大數據”在中國所具有的廣闊應用前景。

3 大數據應用關鍵技術

3.1 分布式存儲及實時計算能力

Hadoop技術體系中具備全分布式架構、數據塊粒度切分、在線擴容減容、復制備份等關鍵技術,支撐了安全的PB級以上規模數據在線存儲,為解決公司逐漸膨脹的數據體量提供存儲支撐。

3.2 海量異構數據存儲及處理

針對電網業務中海量規模的結構化、非結構化數據存儲,傳統的集中式、陣列式存儲模式,存在擴容性不強、可靠性及高可用性不佳等問題。采用Hadoop技術體系中分布式存儲技術,可有效解決海量數據存儲的難題,且利用Hadoop提供Map/Reduce統一的并行計算框架對非結構化、半結構化數據進行綜合分析利用,解決了公司海量異構數據類型的共存及計算分析問題。

3.3 高效智能的數據挖掘與分析工具

針對公司各業務系統中已存在,即將采集的低價值密度的數據,Hadoop提供了豐富的統計分析、多維分析、挖掘算法庫、數據挖掘工具,滿足公司對價值密度較低的數據的分析需求。

4 研究場景

4.1 研究內容

完成基于客戶歷史違章用電的檢查結果,構建客戶違約違章用電模型,評估客戶當前是否正在發生違約違章風險。

4.2 研究方法

分類預測輸出的預測結果是給出待預測對象從屬于某個類別的判斷。例如:根據客戶歷史用電數據,判斷其為可能違約用電客戶或為正常用電客戶。

4.3 算法選型

在實際工程應用中采用較多的算法主要有:決策樹、BP神經網絡、樸素貝葉斯、Logistic回歸等。通過對比研究,我們采用決策樹算法的隨機森林算法,其精確度優于其它算法,且其運行速度較快。

4.4 算法實驗

取烏魯木齊公司地區2014年12個月及2015年1至3月的客戶基礎信息、用電信息及繳費行為信息數據為原始數據進行實驗。

第1組實驗:

訓練集:2014年10、11、12月份數據。

測試集:隨機森林算法預測得到的2015年1月份數據。

驗證集:2015年1月份真實數據。

混淆矩陣:

預測正常客戶 預測壞客戶 客戶總數

實際正常客戶 2368823 294896 2663719

實際壞客戶 249459 214699 464158

查準率:42.13%,查全率:46.26%。

第2組實驗(非居民)

訓練集:2014年10、11、12月份數據,采樣1000條記錄。

測試集:隨機森林算法預測得到的2015年2月份數據。

驗證集:2015年2月份真實數據。

混淆矩陣:

預測正常客戶 預測壞客戶 客戶總數

實際正??蛻?138655 61965 200620

實際壞客戶 32885 52108 84993

查準率:45.68%,查全率:61.31%。

第3組實驗(非居民)

訓練集:2014年10、11、12月份數據,采樣1000條記錄。

測試集:隨機森林算法預測得到的2015年1月份數據。

驗證集:2015年1月份真實數據。

混淆矩陣:

預測正常客戶 預測壞客戶 客戶總數

實際正常客戶 137707 51944 189651

實際壞客戶 44661 51301 95962

查準率:49.69%,查全率:53.46%。

從以上測試結果看出,該模型的查準率為40%-50%,查全率為50%-60%,滿足預測要求。

5 總結

基于大數據技術對電網客戶違約情況的分析和預測,能使得公司提前對預測的客戶違約情況做好應對策略,降低公司虧損風險。目前,基于Hadoop的大數據平臺已具備數據接入、存儲、計算、分析和可視化展現等基礎功能,初步具備支撐基于平臺進行應用建設。下一步將新增跨域協同計算、自助式分析、數據安全管理等功能,規范數據存取和計算標準化服務,支撐業務部門進行快速構建應用,提高公司數據分析應用水平。

作者單位

國網新疆電力公司信息通信公司 新疆維吾爾自治區烏魯木齊市 830018

猜你喜歡
數據挖掘大數據
探討人工智能與數據挖掘發展趨勢
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
大數據環境下基于移動客戶端的傳統媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數據+輿情:南方報業創新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
主站蜘蛛池模板: 国产一区二区三区夜色| 久久亚洲黄色视频| 亚洲成A人V欧美综合| 特级欧美视频aaaaaa| 999国产精品永久免费视频精品久久| 素人激情视频福利| 精品国产成人av免费| 国产中文一区二区苍井空| 91精品综合| 国产情侣一区二区三区| 制服丝袜 91视频| 91精品亚洲| 日韩小视频在线播放| 亚洲欧美综合精品久久成人网| 国内精品视频在线| 人妻21p大胆| 午夜综合网| 播五月综合| 国产久草视频| 欧美成人午夜视频| 婷婷色婷婷| 中文字幕日韩丝袜一区| 久久国产成人精品国产成人亚洲| 性做久久久久久久免费看| 久久99国产综合精品1| 免费人成在线观看视频色| 欧美一级夜夜爽| 成人免费午夜视频| 最新国产在线| 久久国产亚洲偷自| 日韩资源站| 午夜日b视频| 国产永久在线视频| 亚洲伊人电影| 国产免费怡红院视频| 国产素人在线| 日日噜噜夜夜狠狠视频| 久久免费精品琪琪| 日本伊人色综合网| 91视频免费观看网站| 久久九九热视频| 亚洲国产精品VA在线看黑人| 国产91丝袜在线播放动漫| 97成人在线视频| 五月天婷婷网亚洲综合在线| 高潮毛片免费观看| 久久黄色毛片| 毛片一区二区在线看| 国产网站免费观看| 日本精品αv中文字幕| 国产91小视频| 国产一区二区三区在线观看免费| 国产精品真实对白精彩久久| www.亚洲天堂| 91精品国产情侣高潮露脸| 六月婷婷综合| 亚洲中文制服丝袜欧美精品| 久久精品国产精品一区二区| 国产女人综合久久精品视| 国产成人AV综合久久| 久久久久亚洲av成人网人人软件| 无码'专区第一页| 精品国产成人a在线观看| 第一区免费在线观看| 国产粉嫩粉嫩的18在线播放91| 香蕉久久永久视频| 国产小视频网站| 日韩天堂视频| 久久精品视频一| 毛片基地美国正在播放亚洲| 亚洲最黄视频| 国产福利2021最新在线观看| 欧美特黄一级大黄录像| 日本一区二区不卡视频| 日本午夜视频在线观看| 日韩无码真实干出血视频| 69国产精品视频免费| 欧美一级黄片一区2区| 中文字幕 欧美日韩| 人与鲁专区| Jizz国产色系免费| 亚洲va在线∨a天堂va欧美va|