999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于集成學習的電費數據異常檢測方法

2021-12-31 01:20:04廣東電網有限責任公司客戶服務中心冼文祥伍廣斌
電力設備管理 2021年13期
關鍵詞:用戶檢測模型

廣東電網有限責任公司客戶服務中心 康 峰 冼文祥 伍廣斌 舒 暢

隨著供電企業智能電網的不斷建設發展,智能電網終端能夠采集海量用戶用電數據,采集到的海量電力數據將存儲在供電企業內部的電力營銷系統的服務器中,供電企業通過結合電費核算的人為經驗,建立相應的用戶電費數據異常檢測數學模型,對大批量的用戶電費數據進行處理分析,設計出相關的電費異常檢測規則。供電企業通過對用戶電費數據異常檢測規則的配置與優化,達到過濾排除絕大部分用電正常客戶,篩選出電費數據異常的客戶進行再次復核,從而縮小了電費數據復核的范圍,提高電費復核工作的效率。

據調研,廣東電網公司現有的用戶電費數據異常檢測判斷規則達100多條,如果在電費數據核查過程中每一條電費數據都需要遍歷一次全部的規則,將會給電力營銷部門帶來繁重的工作量,并且核查時間長,極大降低了電力營銷部門的運行效率,并且通過規則篩選出的異常電費數據命中率低,加重了電費復核工作的負擔,急需引入智能化的用戶電費數據異常檢測手段,提高檢出率和準確性。近年來,隨著計算機智能化的機器學習技術的逐漸成熟,電網企業和高校的研究人員開始關注用戶用電數據計算機智能篩選的潛在價值,基于機器學習的用戶用電行為分析逐漸成為電力數據挖掘的一個熱門的應用場景。

周李等[1]利用用電數據的時序特征,使用稀疏編碼的模型方法來挖掘用戶的原始用電數據,通過各個特征的使用頻率來判斷用戶用電行為模式和異常行為。莊池杰等[2]提出局部離群因子檢測算法,計算不同類別的用戶的不同用電模式,按登記的用戶類型事先分類,然后對每一類用戶分別運用離群因子檢測算法檢測用電異常。許剛等[3]建立用戶側行為模式信息簇,利用隨機權網絡的有監督學習得到隨機森林模型,并對其進行稀疏化處理,依據異常積累量指標來判斷樣本是否存在異常。

隨著大數據技術的快速發展,很多學者也在嘗試結合大數據平臺解決海量用電數據處理問題,取得了一定的成果。其中,趙莉等[4]在Hadoop 平臺上實現改進k-means 算法的用電數據分析,提高了數據處理效率。張素香等[5]提出了基于k-means聚類算法的用戶用電行為分析模型在云平臺上的實現方法。ANGELOS 等[6]提出基于模糊集原理與聚類分析的用戶側異常行為檢測方法。DEPURU 等[7]利用歷史數據建立了用戶模式數據集,并對多用戶在線異常檢測技術進行了研究。

本文的主要研究內容包括三方面:首先是對電費數據進行預處理;然后是選取深度森林等機器學習算法對電費數據進行檢測,測試各機器學習算法的檢測性能;最后通過對深度森林等算法的集成學習,測試集成學習的檢測性能。

1 研究模型設計

基于集成學習的電費數據異常檢測方法模型設計流程如圖1所示。在電費數據異常檢測方法研究之前,需要對電費數據進行預處理,由于獲取的電費數據當中異常電費數據占比極低,存在樣本不平衡的問題,若直接采用原始電費數據樣本進行實驗,將會降低電費數據異常檢測的表現性能。

圖1 電費數據異常檢測方法模型設計流程

為解決樣本不平衡的問題,本文采用了過采樣算法和欠采樣算法對電費數據進行處理。欠采樣處理采用了隨機欠采樣算法,隨機欠采樣算法通過隨機抽取多數類電費數據樣本,在本文中為非異常電費數據,異常數據樣本保持不變,最終使得非異常數據與異常數據樣本的比例趨于平衡。過采樣處理采用了SMOTE 算法,它是基于隨機過采樣算法的一種改進方案,解決了隨機過采樣容易產生模型過擬合的問題。經過欠采樣和過采樣算法處理之后,得到了本文實驗所用的某供電局的真實電費數據集,通過對電費數據集進行缺失值補全和對文本類數據進行標簽編碼,進一步使電費數據符合機器學習算法訓練的要求。

從上一步獲取到了經過數據預處理的電費數據集之后,通過實驗選出了表現性能較好的深度森林(DF)、XGBoost、隨機森林(RF)、CatBoost、決策樹(DT)和GBDT 六種機器學習算法進行電費數據異常檢測。后五種機器學習算法在異常檢測分類領域應用較為成熟,深度森林算法于2017年提出,這是一種集合了決策樹的機器學習方法,借鑒了深度神經網絡的結構,由多粒度掃描和級聯森林兩部分結構組成,作為一種基于決策樹的算法,深度森林超參數較少,便于對參數進行調節,從而更易訓練得到較好電費數據異常檢測結果。

最后,通過對六種機器學習算法的預測結果進行集成學習,對不同機器學習模型進行了融合,綜合了六種機器學習算法各自的優點。本文設計了相或集成與相與集成的算法來集成多個機器學習分類器。相或集成算法指的是只要六個機器學習模型中有一個檢測到了電費數據異常,集成學習模型就判斷該條電費數據存在異常;相與集成算法指的是只有當所有六個機器學習模型都檢測到了電費數據異常時,集成學習模型才判斷該條電費數據存在異常。

2 數據來源與評估指標選取

本文選取的是廣東電網某供電局2020年9個月的真實電費數據,為了確保用電用戶隱私,獲取的電費數據均經過了脫敏處理,本文研究所用的電費數據集僅用以學術研究。原始的電費數據集共有1600余萬條,經過數據欠采樣及過采樣算法處理之后,最終獲取了30萬條電費數據用以實驗,其中包括1139條真實異常電費數據,其余均為非異常電費數據。電費數據集包括了88個原始字段,其中包括了一個人為添加的異常標記字段。經過分析發現,這88個字段當中部分字段存在一定的相關性,為了避免電費數據的信息冗余以及模型過擬合,本文采用基尼重要性來對全部電費數據字段進行重要性排序,基尼重要性由隨機森林算法訓練和計算得出。

根據特征重要性排序的結果以及人為經驗的分析,最終刪除了21個字段,保留了67個字段的電費數據進行實驗。電費數據異常檢測基于用戶分類的角度完成異常檢測工作,首先所有的電費數據都是未知異常數據,檢測出為異常數據標記為1,其他非異常數據標記為0。表1所示的誤差矩陣比較清晰的展示了機器學習模型的電費數據異常檢測結果。

表1 誤差矩陣

本文中將電費異常數據分為正類,電費非異常數據分為負類,機器學習算法在測試集上預測異常或者非異常,最終是為了生成一個泛化程度高的機器學習模型。在誤差矩陣中TP 是正確預測異常電費數據的數量,FN 是正確預測非異常電費數據的數量,FP 和TN 是異常和非異常電費數據錯誤分類的數量。以下介紹本文選取的評估指標:

查準率(Precision)本文中又稱命中率,表示所有預測為異常數據的結果中,真正的電費數據異常的比例,其表達式為;查準率(Recall)本文中又稱檢出率,表示測試集中所有真正的電費異常數據中,被機器學習模型找出來的比例,其表達式為。

F值(F-Score),是命中率與檢出率的加權調和平均值,度量了命中率對檢出率的相對重要性,其表達式為,當α 為1時,就是常用的機器學習模型評估指標F1值,F1值綜合考慮了電費數據異常命中率與檢出率的影響,通常F1值越大說明機器學習模型的檢測效果越好,其表達式為。

3 實驗及結果分析

將電費數據集以8:2的比例隨機抽樣劃分為訓練數據集和測試數據集,并且進行五折交叉驗證,以避免因為電費數據集劃分引起的偶然誤差,保證所得電費數據異常檢測結果的可靠性。首先使用全量數據集分別對深度森林、XGBoost、隨機森林、CatBoost、決策樹和GBDT 六種機器學習算法模型進行實驗驗證,對比各個機器學習算法對電費數據異常檢測的評估指標并對結果進行分析,其查準率、查全率、F1值分別為0.889/0.692/0.778/0.778/0.5/0.583,0.8/0.9/0.7/0.7/0.9/0.7,0.842/0.783/0.737/0.737/0.643/0.636。

通過實驗結果可以看出,深度森林的表現效果在六種機器學習算法中整體最優,GBDT 算法的電費數據異常檢測效果較差。隨后使用相或集成與相與集成的算法來集成多個機器學習模型的電費數據異常檢測結果,查準率、查全率、F1值的相或集成與相與集成學習算法的實驗結果分別為0.357/1、1/0.6、0.526/0.75,可看出二算法分別能夠最大化提高電費數據異常檢測的查全率和查準率,相比當前供電企業采用傳統的規則篩選電費異常數據的方法,雖然可以保證檢出的電費異常數據數量最大化,但命中率低于10%,相或集成算法的實驗結果展示了在測試集中查全率接近100%的情況之下,電費數據異常的命中率能夠達到35%左右,已經高于當前供電企業規則篩選異常電費數據的方法。

相與集成算法結果表明,在舍棄電費數據異常查全率的前提下,電費異常數據的命中率能夠達到將近100%的水平,相與集成算法能夠幫助供電企業發現部分難以發掘的異常電費數據,為供電企業后續電費核算工作的完善提供支持。

綜上,集成學習的應用能夠幫助供電企業在滿足電費異常數據的檢出率最大化的同時提高電費異常數據的命中率,與傳統規則篩選異常電費數據的方法相比,具有更快的響應時間和更高的命中率,能夠滿足當前智能電網的發展要求,有利于減輕電費數據復核部門的工作負擔,為供電企業服務水平的提高提供了新的借鑒價值。

猜你喜歡
用戶檢測模型
一半模型
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
小波變換在PCB缺陷檢測中的應用
主站蜘蛛池模板: 免费无码一区二区| 免费国产高清精品一区在线| 日韩欧美网址| 亚洲最大福利视频网| 韩日无码在线不卡| 四虎成人免费毛片| 国产97色在线| 国内毛片视频| 91香蕉国产亚洲一二三区| 日韩天堂视频| 91精品啪在线观看国产91九色| 亚洲欧美日韩中文字幕在线| 亚洲精品无码AV电影在线播放| 欧美a在线| 青青草原偷拍视频| 一区二区欧美日韩高清免费| 九九热精品视频在线| 亚洲区欧美区| 无码精品福利一区二区三区| 深爱婷婷激情网| h网址在线观看| 国产成人资源| 成人在线视频一区| 日韩精品一区二区深田咏美| 真人高潮娇喘嗯啊在线观看| 成人va亚洲va欧美天堂| 国产大片喷水在线在线视频| 巨熟乳波霸若妻中文观看免费| 欧美成人手机在线观看网址| 亚洲性一区| 天天综合天天综合| 老熟妇喷水一区二区三区| 国产网站一区二区三区| 国产正在播放| 国产真实乱子伦精品视手机观看| 国产一级无码不卡视频| 亚洲国产成人无码AV在线影院L| 在线国产综合一区二区三区| 成人夜夜嗨| 久久精品视频一| 国产成人无码Av在线播放无广告| 久久一日本道色综合久久| 国产精品视频免费网站| 一级毛片免费播放视频| 欧美精品亚洲精品日韩专区| 欧美日韩国产综合视频在线观看| 色综合久久88色综合天天提莫 | 99精品免费在线| 国产天天色| 国产乱子伦无码精品小说| 91青青草视频| 国产麻豆精品久久一二三| 亚洲高清在线天堂精品| 凹凸精品免费精品视频| 欧美一区中文字幕| 亚洲欧美日韩中文字幕一区二区三区 | 成年人国产视频| 午夜丁香婷婷| 国产自无码视频在线观看| 一级黄色片网| 亚洲最猛黑人xxxx黑人猛交| 国产无遮挡裸体免费视频| 三上悠亚在线精品二区| 日本亚洲成高清一区二区三区| 国产乱子精品一区二区在线观看| 国产资源站| 国产精品自在线天天看片| 精品自窥自偷在线看| 国产成年女人特黄特色毛片免 | 日本免费a视频| 国产精品久久久久久久久| AV无码一区二区三区四区| 综合色在线| 免费人成黄页在线观看国产| 国产精品浪潮Av| 国产第一页亚洲| 国产精品美女免费视频大全 | 欧美日韩资源| 亚洲人成成无码网WWW| 美女高潮全身流白浆福利区| 精品视频一区二区三区在线播| 中文字幕一区二区视频|