999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

機(jī)器學(xué)習(xí)算法在反竊電分析中的應(yīng)用

2020-04-15 09:39:16浩馬迅劉安磊賈旭超紀(jì)書軍駱云娟徐冬冬
河北電力技術(shù) 2020年1期
關(guān)鍵詞:特征用戶模型

王 浩馬 迅劉安磊賈旭超紀(jì)書軍駱云娟徐冬冬

(國網(wǎng)河北省電力有限公司電力科學(xué)研究院,石家莊 050021)

隨著科學(xué)技術(shù)的不斷發(fā)展,利用高科技進(jìn)行竊電的手段越來越普遍[1],比如強(qiáng)磁竊電、無線干擾竊電、更改電能表編程器竊電等。這些技術(shù)手段不但隱蔽性強(qiáng),而且不容易控制,用戶的竊電量大,查處難度非常大。

針對(duì)高科技竊電現(xiàn)象,有學(xué)者提出采用時(shí)域和頻域的曲線相似性分析方法,通過判斷用戶負(fù)荷曲線與異常饋線線損曲線之間的相似性來識(shí)別竊電行為;有學(xué)者提出根據(jù)“在一個(gè)數(shù)據(jù)集中,會(huì)出現(xiàn)偏離集群中其他數(shù)據(jù)的數(shù)據(jù)點(diǎn),若數(shù)據(jù)點(diǎn)的偏離程度較大,則懷疑形成這種偏離的原因不屬于集群內(nèi)部因素導(dǎo)致,而是外界干擾因素導(dǎo)致的這種不正常的現(xiàn)象”建立基于距離的離群點(diǎn)檢測方法檢測電壓、電流異常,進(jìn)而判斷用戶是否存在竊電行為;有的學(xué)者提出通過獲取智能電表數(shù)據(jù)和配電變壓器的數(shù)據(jù),構(gòu)建數(shù)據(jù)模型,進(jìn)而判斷用戶是否竊電[2]。上述判斷方法,主要根據(jù)用戶用電數(shù)據(jù)進(jìn)行異常判斷,判斷方式單調(diào),構(gòu)建的數(shù)據(jù)特征較少,導(dǎo)致數(shù)據(jù)挖掘的效率不高,數(shù)據(jù)價(jià)值沒有得到充分利用,所以分析效果并不理想。而基于機(jī)器學(xué)習(xí)算法構(gòu)建反竊電模型,從用戶用電數(shù)據(jù)、計(jì)量異常事件以及線損3個(gè)角度切入,多方位偵測用戶竊電行為,能夠有效地提高竊電檢測率,對(duì)構(gòu)建基于大數(shù)據(jù)的反竊電稽查監(jiān)控系統(tǒng)具有重要的社會(huì)和經(jīng)濟(jì)意義。

1 模型簡介

模型選用隨機(jī)森林算法是利用多棵樹對(duì)樣本進(jìn)行訓(xùn)練并預(yù)測的一種分類器。其反復(fù)二分?jǐn)?shù)據(jù)進(jìn)行分類或回歸,計(jì)算量大大降低。在變量(列)的使用和數(shù)據(jù)(行)的使用上進(jìn)行隨機(jī)化,生成很多分類樹,再匯總分類樹的結(jié)果。目前反竊電的特征中多數(shù)的特征無共同性,因竊電的形式可能多種,竊電用戶的數(shù)據(jù)不具備一定的共同性,隨機(jī)森林算法可以根據(jù)這些竊電用戶的特征以及非竊電用戶的特征,在子樹中對(duì)每一個(gè)分裂過程選擇部分特征,從所有特征中隨機(jī)選取一定的特征,之后再在隨機(jī)選取的特征中選取特征,每棵樹重復(fù)上述過程,最后投票選擇出最正確的分類。此模型可提升反竊電稽查監(jiān)控系統(tǒng)的多樣性,從而提升數(shù)據(jù)的可利用性和結(jié)果預(yù)測的正確性,同時(shí)防止過擬合。隨機(jī)森林算法可以在運(yùn)算量沒有顯著提高的前提下提高了預(yù)測精度,其原理如圖1所示。

圖1 隨機(jī)森林算法的原理

隨機(jī)森林算法是機(jī)器學(xué)習(xí)中的重要算法,在許多領(lǐng)域應(yīng)用[4]。隨機(jī)森林模型[5]是一個(gè)包含多個(gè)決策樹的分類器,并且其輸出的類別是由個(gè)別樹輸出的類別的眾數(shù)而定。在機(jī)器學(xué)習(xí)中,決策樹是一個(gè)預(yù)測模型,他代表的是對(duì)象屬性與對(duì)象值之間的一種映射關(guān)系。

在決策樹中每個(gè)節(jié)點(diǎn)表示某個(gè)對(duì)象,而每個(gè)分叉路徑則代表某個(gè)可能的屬性值,每個(gè)葉結(jié)點(diǎn)則對(duì)應(yīng)從根節(jié)點(diǎn)到該葉節(jié)點(diǎn)所經(jīng)歷的路徑所表示對(duì)象的值。隨機(jī)森林由多個(gè)決策樹構(gòu)成,每個(gè)決策樹都表述了一種樹型結(jié)構(gòu),由它的分支來對(duì)該類型的對(duì)象依靠屬性進(jìn)行分類。每個(gè)決策樹可以依靠對(duì)源數(shù)據(jù)庫的分割進(jìn)行數(shù)據(jù)測試,這個(gè)過程可以遞歸式的對(duì)樹進(jìn)行修剪。當(dāng)不能再進(jìn)行分割或一個(gè)單獨(dú)的類可以被應(yīng)用于某一分支時(shí),遞歸過程完成。隨機(jī)森林分類器將許多決策樹結(jié)合起來可以提升分類的正確率[6]。具體的決策樹與隨機(jī)森林的算法介紹見參考文獻(xiàn)[7]。

2 模型框架

2.1 設(shè)計(jì)理念

隨機(jī)森林算法的基本思路是基于歷史的用電信息數(shù)據(jù),構(gòu)建特征向量用來表征竊電行為和正常用電行為的差異性,進(jìn)而訓(xùn)練二分類機(jī)器學(xué)習(xí)模型,基于過去一段時(shí)間的用電信息,自動(dòng)判斷用戶在該時(shí)間段內(nèi)是否發(fā)生了竊電,如圖2所示。

2.2 特征選擇

圖2 隨機(jī)森林模型算法設(shè)計(jì)框架

特征所使用的基礎(chǔ)表如圖3所示。其中歷史用電信息,是指用戶在一段時(shí)間區(qū)間內(nèi)(1個(gè)月/季度/年)所產(chǎn)生用電行為信息和用戶基本屬性信息。具體而言,可以分為三類:時(shí)間序列類型信息、事件類信息、靜態(tài)類信息。其中時(shí)序類信息包含了用戶每天用電量的時(shí)序數(shù)據(jù)和臺(tái)區(qū)每天線損量的時(shí)序數(shù)據(jù);事件類信息,主要記錄了不同異常類型用電事件的發(fā)生時(shí)刻信息;靜態(tài)類信息,指用戶的基本信息,例如地址、職業(yè)、愛好、性別等。

圖3 隨機(jī)森林模型算法特征

2.2.1 基礎(chǔ)表說明

a.日用電量:日凍結(jié)有功電能示值、測量點(diǎn)日凍結(jié)電能量。

b.日臺(tái)區(qū)線損:臺(tái)區(qū)線損率明細(xì)。

c.用電異常事件:電能表的潮流反向、電流不平衡、電壓逆相序、電源異常、斷相、輔助電源掉電、負(fù)荷開關(guān)誤動(dòng)拒動(dòng)、過流、恒定磁場干擾、開表蓋、開端鈕蓋、欠壓、全失壓、失流、失壓、校時(shí)、電能事件清零、飛走、倒走等事件。

d.用戶基本信息表:用戶檔案。

2.2.2 主要特征數(shù)據(jù)提取

根據(jù)上述基礎(chǔ)表,以竊電手段判別,根據(jù)短接偷電、電能表停轉(zhuǎn)、電能表反轉(zhuǎn)、欠電壓法竊電,欠電流法竊電、移相法竊電,擴(kuò)差法竊電、無表法竊電等,可得出異常事件行為記錄表記錄的信息將是本模型數(shù)據(jù)權(quán)重較大部分,根據(jù)此表判斷竊電用戶的行為,取異常事件發(fā)生時(shí)間點(diǎn),以此用戶、發(fā)生時(shí)間,關(guān)聯(lián)出其對(duì)應(yīng)時(shí)間的用電量、臺(tái)區(qū)線損,觀察其突變度,并取突變度最大值,主要特征如下:

a.異常事件發(fā)生次數(shù)(對(duì)取出的所有異常事件進(jìn)行計(jì)數(shù));

b.異常事件時(shí)刻用電突變度(異常事件發(fā)生的時(shí)間節(jié)點(diǎn)所對(duì)應(yīng)的用電量的突變度);

c.異常事件時(shí)刻線損突變度(異常事件發(fā)生的時(shí)間節(jié)點(diǎn)所對(duì)應(yīng)的臺(tái)區(qū)線損的突變度);

d.用戶用電突變點(diǎn)個(gè)數(shù)(所有時(shí)間下的用電量突變點(diǎn)的計(jì)數(shù));

e.用電突變時(shí)刻線損突變度(所有時(shí)間下的用電量突變點(diǎn)的時(shí)間所對(duì)應(yīng)的線損突變度)。

2.2.3 其他特征

根據(jù)用戶日用電量的均值、方差、異常值、突變點(diǎn)、工作日、休息日用電量等,統(tǒng)計(jì)如下信息:時(shí)間序列的空值占比、時(shí)間序列0值占比、時(shí)間序列異常電占比、時(shí)間序列中位數(shù)、時(shí)間序列方差、時(shí)間序列標(biāo)準(zhǔn)化中位數(shù)(<=>中位數(shù)/時(shí)間序列最大值)、時(shí)間序列標(biāo)準(zhǔn)化方差(<=>方差/時(shí)間序列最大值)、突變點(diǎn)個(gè)數(shù)、突變點(diǎn)躍遷最大值、工作日平均用電量、休息日平均用電量、工作日平均用電比例、休息日平均用電比例、星期用電比例的信息熵。此部分特征為預(yù)想可能存在影響該樣本是否為竊電用戶,因而選用部分。

3 模型訓(xùn)練

模型輸入數(shù)據(jù)部分選擇了360天的數(shù)據(jù)(包含竊電以及非竊電用戶),從基礎(chǔ)表提取出主要的5個(gè)特征,訓(xùn)練數(shù)據(jù)2W正樣本+5W普通竊電用戶,交叉驗(yàn)證準(zhǔn)確率為80%,隨機(jī)抽取模型中1個(gè)樹的過程,如圖4所示。

圖4 隨機(jī)森林模型樹的預(yù)測過程

由100多棵樹隨機(jī)抽取特征,根據(jù)訓(xùn)練數(shù)據(jù)擬合模型后,將新樣本輸入,執(zhí)行上述過程,得到結(jié)果。

訓(xùn)練模型:第一步將要提取特征,但在進(jìn)入特征提取前,需要抽取一定比列的訓(xùn)練樣本(竊電用戶和未發(fā)現(xiàn)竊電的用戶),此部分需手動(dòng)設(shè)置,提取完訓(xùn)練樣本后,數(shù)據(jù)將交給feature_extract抽取數(shù)據(jù),后續(xù)將會(huì)調(diào)用feature_util中的方法對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換,于feature_combine中整合成用來訓(xùn)練的數(shù)據(jù)(特征),于model_train_script中訓(xùn)練模型,訓(xùn)練完成后將導(dǎo)出一份訓(xùn)練完后的文件,內(nèi)含訓(xùn)練完畢的模型,后續(xù)預(yù)測時(shí)將直接調(diào)用該文件。

4 模型應(yīng)用

4.1 模型預(yù)測

模型預(yù)測嫌疑用戶流程如下:

a.提取預(yù)測數(shù)據(jù);

b.執(zhí)行preprocess腳本創(chuàng)建臨時(shí)表;

c.臨時(shí)表中提取預(yù)測數(shù)據(jù),通過feature_extract抽取數(shù)據(jù)(調(diào)用feature_util中的方法對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換);

d.在feature_combine中整合成預(yù)測的數(shù)據(jù);

e.通過model_predict_util打開訓(xùn)練完成的模型文件;

f.將數(shù)據(jù)導(dǎo)入模型進(jìn)行預(yù)測,并輸出結(jié)果;

g.調(diào)用output_database導(dǎo)出txt文件;

h.使用hadoop命令將文件導(dǎo)入hive的臨時(shí)表;

i.住址姓名通過表內(nèi)ID信息關(guān)聯(lián),導(dǎo)入Oracle完成。

4.2 模型結(jié)果

模型選取滄州某縣進(jìn)行驗(yàn)證測試工作,對(duì)部分嫌疑用戶的部分特征進(jìn)行分析,根據(jù)輸出結(jié)果進(jìn)行嫌疑度排名,選取其中嫌疑度較高的嫌疑用戶,將其用電采集數(shù)據(jù)繪制成圖,見圖5、圖6,其中虛線部分代表用戶日用電量,實(shí)線部分代表臺(tái)區(qū)日線損。

圖5 隨機(jī)森林模型嫌疑用戶1臺(tái)區(qū)線損與日用電量相關(guān)性

圖6 隨機(jī)森林模型嫌疑用戶2臺(tái)區(qū)線損與日用電量相關(guān)性

2019年5月,選取圖5、圖6對(duì)應(yīng)的嫌疑用戶,在滄州某縣城進(jìn)行現(xiàn)場稽查工作。最終,確定2戶均為竊電用戶,其中一戶嫌疑用戶存在繞越計(jì)量竊電,表內(nèi)計(jì)量電流為0 A,實(shí)際流入電流為4.97 A,屬竊電行為;另外一戶嫌疑用戶存在動(dòng)表竊電,使計(jì)量不準(zhǔn)確,達(dá)到竊電目的。

2019年4月起至8月,根據(jù)文本模型得出的嫌疑用戶,于石家莊、保定、滄州3個(gè)地市開展試點(diǎn)工作,共51戶派發(fā)進(jìn)行現(xiàn)場核查,查實(shí)用戶10戶,準(zhǔn)確率19.6%。

5 結(jié)束語

由此可見,隨機(jī)森林算法可以有效快速地實(shí)現(xiàn)竊電嫌疑用戶的追蹤。隨機(jī)森林采用了集成算法,本身精度比大多數(shù)單個(gè)算法要好。在測試集上表現(xiàn)良好,由于2個(gè)隨機(jī)性的引入,使得隨機(jī)森林不容易陷入過擬合(樣本隨機(jī),特征隨機(jī)),訓(xùn)練速度快,可以運(yùn)用在大規(guī)模數(shù)據(jù)集上。利用機(jī)器學(xué)習(xí)算法對(duì)竊電嫌疑用戶的追蹤,實(shí)現(xiàn)了快速有效的反竊電目標(biāo),為國家以及社會(huì)反竊電領(lǐng)域創(chuàng)造了應(yīng)用價(jià)值。

猜你喜歡
特征用戶模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
如何表達(dá)“特征”
不忠誠的四個(gè)特征
抓住特征巧觀察
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
主站蜘蛛池模板: 亚洲天堂色色人体| 中文字幕首页系列人妻| 一级毛片在线播放| 精品自窥自偷在线看| 亚洲欧美日韩中文字幕在线| 国产综合在线观看视频| 青青青国产免费线在| 成年女人a毛片免费视频| 欧美亚洲一区二区三区在线| 玖玖精品视频在线观看| 无码 在线 在线| 欧美日韩激情在线| 国产精品55夜色66夜色| 91视频国产高清| 日日摸夜夜爽无码| 中文字幕乱妇无码AV在线| 久久这里只有精品2| 五月婷婷丁香综合| 日本黄色不卡视频| 欧美一级高清片久久99| 日本免费高清一区| 欧美a级在线| 亚洲三级色| 成人av手机在线观看| 免费人成在线观看成人片| 国产幂在线无码精品| 国产原创演绎剧情有字幕的| 国内精品视频在线| 成年人国产网站| 亚洲天堂网2014| 国产91九色在线播放| 国产成人8x视频一区二区| 精品国产成人高清在线| 国产精品污视频| 超碰精品无码一区二区| 91探花在线观看国产最新| 992Tv视频国产精品| 色综合天天娱乐综合网| 成人免费午间影院在线观看| 国产成人av大片在线播放| 国产欧美精品一区二区 | 蝴蝶伊人久久中文娱乐网| 国产精品视频白浆免费视频| 午夜成人在线视频| 国产青榴视频| 国产成人福利在线视老湿机| 国产无码性爱一区二区三区| 国产一区二区在线视频观看| 欧美精品v欧洲精品| 国产青青草视频| 99视频只有精品| 亚洲精品麻豆| 亚洲第一成网站| 成年人视频一区二区| 97狠狠操| 國產尤物AV尤物在線觀看| 一区二区三区成人| 国产欧美高清| 无码粉嫩虎白一线天在线观看| 国产福利在线免费观看| 亚洲天堂在线免费| 日韩小视频网站hq| a网站在线观看| 国产精品亚洲一区二区在线观看| 久久国产乱子伦视频无卡顿| 亚洲一区二区黄色| 久久久久亚洲AV成人网站软件| 这里只有精品国产| 成年人国产网站| 99国产精品免费观看视频| 一级毛片在线直接观看| 三区在线视频| 日韩A级毛片一区二区三区| 国产欧美日韩另类| 激情爆乳一区二区| 日本欧美一二三区色视频| 一区二区三区毛片无码| 亚洲最新在线| 国产激爽爽爽大片在线观看| 国产成人你懂的在线观看| www.国产福利| 欧美日韩一区二区三区四区在线观看 |