999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進(jìn)快速密度峰值聚類算法的電力大數(shù)據(jù)異常值檢測分析

2022-02-17 12:11:20楊峰劉勝強
電子設(shè)計工程 2022年3期
關(guān)鍵詞:檢測

楊峰,劉勝強

(廣東電網(wǎng)有限責(zé)任公司佛山供電局,廣東佛山 528000)

隨著智能配電網(wǎng)信息化、自動化的不斷發(fā)展,各行業(yè)廣泛使用先進(jìn)配用電自動化和管理系統(tǒng),多源異構(gòu)數(shù)據(jù)也在不斷增加。有效挖掘數(shù)據(jù)并且使用能夠提高智能配電網(wǎng)運行管理水平,此為電力企業(yè)在大數(shù)據(jù)背景下發(fā)展的需求[1]。由于存在不同的數(shù)據(jù)統(tǒng)計口徑與來源,從而使數(shù)據(jù)出現(xiàn)異常。異常數(shù)據(jù)存在異常信息,異常數(shù)據(jù)研究尤為重要,能夠提供實際使用幫助,包括用電設(shè)備故障監(jiān)測與設(shè)備監(jiān)測。傳統(tǒng)異常檢測為技術(shù)人員到現(xiàn)場排查,此方法效率低,而且物力、人力等資源較為浪費。通過數(shù)據(jù)方法自動鎖定異常事件,能夠提高異常事件查處命中率,降低稽核成本與電網(wǎng)企業(yè)經(jīng)濟(jì)損失[2]。以此,文中就分析改進(jìn)了檢測快速密度峰值聚類算法電力數(shù)據(jù)異常值。

1 傳統(tǒng)算法分析

基于密度峰值的空間聚類算法(CFSFDP)首先利用其他非類中心點到大密度且臨近數(shù)據(jù)點類別中歸類。類中心要滿足以下特征:自身密度比較大;對比其他大密度數(shù)據(jù)點,距離比較大。在該模型中,CFSFDP 算法要對數(shù)據(jù)點局部密度ρi和高密度點距離δi進(jìn)行計算。

假設(shè)聚類數(shù)據(jù)集為S=(x1,x2,…,xn),指示坐標(biāo)集設(shè)置為:

數(shù)據(jù)點xi與xj的距離表示為:

在具備離散值數(shù)據(jù)點時,局部密度表示為:

式中的i和j不相等,函數(shù)x(x)表示為:

在連續(xù)值為數(shù)據(jù)點時,局部密度表示為:

公式中的橫斷距離dc>0,ρi指的是S中和數(shù)據(jù)點xi的距離比dc要小的數(shù)據(jù)點數(shù)量[3]。

和高密度點的距離表示為:

相應(yīng)指標(biāo)集Is為:

通過以上公式表示,在xi指的是最大局部密度的時候,Is指的是空集,δi指的是S中和xi最大距離數(shù)據(jù)點和xi的距離。

對各個數(shù)據(jù)點局部密度和距離進(jìn)行計算之后,CFSFDP 算法利用啟發(fā)式的方式對決策圖繪制,選擇類中心并實現(xiàn)類標(biāo)記的初始化。使非聚類中心根據(jù)下述規(guī)則實現(xiàn)聚類:目前數(shù)據(jù)點類別標(biāo)簽指的是比數(shù)據(jù)點密度要高的最近數(shù)據(jù)點類別,之后對類邊界區(qū)域進(jìn)行計算,尋找類邊界高密度值的點,從而將噪聲點去除。

CFSFDP 算法直接操作數(shù)據(jù)集,沒有對數(shù)據(jù)空間分布的特性進(jìn)行考慮,選擇并且使用全局密度閾值dc。在數(shù)據(jù)密度與類間距分布出現(xiàn)不均勻或者某個類中具有多密度峰值的時候,無法對合適dc值選擇實現(xiàn)聚類,所以得到的聚類結(jié)果也不精準(zhǔn)[4]。

2 改進(jìn)的快速密度峰值聚類算法

2.1 選擇自適應(yīng)參數(shù)

在信息論中使用香農(nóng)熵作為系統(tǒng)不確定性度量,熵越大,就會提高其不確定性。n個樣本點局部密度估計值設(shè)置為ρ1,ρ2,…,ρn,假如其中樣本點密度估計值是一樣的,對于底層數(shù)據(jù)分布具有較大的不確定性,并且香農(nóng)熵較大。相反,不確定性最小,香農(nóng)熵也最小。所以,使用以下密度估計熵對樣本點局部密度估計合理性進(jìn)行衡量,也就是:

式中,Z表示標(biāo)準(zhǔn)化因子。

在對密度估計熵性質(zhì)進(jìn)行分析的過程中0≤H≤log(n)。以此得到,全部樣本點局部密度估計值是近似相等的,所以密度估計熵最大[5]。

針對給定核函數(shù)的形態(tài),對密度參數(shù)dc通過0到+∞的遞增過程中密度估計熵H變化的情況:在dc→0的時候,H滿足Hmax=log(n)。在dc不斷增加的過程中,首先H減小,在某優(yōu)化dc地方為最小值。之后增大,在dc→+∞的時,為最大值Hmax=log(n)。參數(shù)優(yōu)化值為最小密度估計熵dc值,對dc值進(jìn)行優(yōu)化的過程中就是單變量非線性函數(shù)最優(yōu)化的問題,也就是:

該問題中具有模擬退火法、簡單試探法等大量的標(biāo)準(zhǔn)算法,在實際使用過程中會在樣本容量不斷增加過程中,使dc值時間開銷得到降低。n越大,使用抽樣率在2.25%以下的隨機(jī)抽樣方法使算法優(yōu)化性能得到提高[6]。

2.2 選擇聚類中心

利用以上對CFSFDP 算法的分析表示,該算法的基本立足點為:

1)聚類中心具有較大的局部密度;

2)聚類中對比其他大局部密度數(shù)據(jù)點的距離大。

以此表示,聚類中心局部密度和距離具有較大的值。那么本文所提出的改進(jìn)快速密度峰值聚類算法自動選擇策略為:利用標(biāo)準(zhǔn)化局部密度與距離的乘積對聚類點差異度進(jìn)行評測,之后將高斯分布應(yīng)用到乘積中實現(xiàn)異常檢測,從而能夠得出異常點。針對需要聚類數(shù)據(jù),此異常點也就是聚類中心。高斯分布能夠滿足異常檢測需求,在兩端分布的小概率事件為異常點,通過此點能夠得出數(shù)據(jù)集聚類中心[7]。

首先,使用簇中心權(quán)值概念對數(shù)據(jù)點簇中心權(quán)值γi進(jìn)行定義:

公式中的和指的是分別使用z-score的標(biāo)準(zhǔn)化結(jié)果。之后通過以下公式對γi均值和方差:

之后針對閾值ε關(guān)系對數(shù)據(jù)點是否為異常點進(jìn)行判斷,本文的閾值設(shè)置為0.005。針對交叉驗證集使用多個閾值,并且將此閾值作為基礎(chǔ),對交叉驗證集中的F1 值進(jìn)行計算,得到最高值進(jìn)行返回[8]。F1定義為:

在閾值為0.001~0.01的時候并不會影響到實驗結(jié)果,但是不能夠過大或者過小。如果p(γi)<ε的時候,此數(shù)據(jù)點就是聚類中心。圖1 為三螺旋數(shù)據(jù)集,圖2 為高斯分布得出聚類中心。一般,閾值設(shè)置的值比較小,所以圖2 接近橫軸點利用五角星標(biāo)記,也就是數(shù)據(jù)集聚類中心[9]。

圖1 三螺旋數(shù)據(jù)集

圖2 高斯分布的聚類中心

聚類中心的選擇步驟為:

1)實現(xiàn)數(shù)據(jù)點局部密度和距離的標(biāo)準(zhǔn)化;

2)對每個點簇中心權(quán)值γi計算;

3)對每個點均值μi與方差進(jìn)行計算;

4)對點概率密度p(γi)計算;

5)對p(γi)和閾值大小關(guān)系進(jìn)行判斷,如果p(γi)<ε,那么此數(shù)據(jù)點就是簇中心,要不然就是聚類中心[10]。

3 仿真實驗

3.1 算例分析

為了對分析算法有效性進(jìn)行驗證,該文進(jìn)行了仿真實驗。案例使用某省交流10 kV 配電變壓器負(fù)荷數(shù)據(jù),設(shè)置1 h 為采集頻率,所以日負(fù)荷曲線中的數(shù)據(jù)點共有24 個。

圖3 為交流10 kV 配電變壓器日負(fù)荷數(shù)據(jù)的標(biāo)準(zhǔn)化曲線,該變壓器在常規(guī)運行過程中的曲線偏離正常的運行模式[11]。

圖3 日負(fù)荷數(shù)據(jù)標(biāo)準(zhǔn)化曲線

根據(jù)以上分析對數(shù)據(jù)集中樣本K各近鄰進(jìn)行計算,并且計算樣本局部密度與KNN 距離。圖4 為異常值檢測的決策圖,表示大部分的樣本距離都在小于0.2 區(qū)域中集中,局部密度在大于0.95 區(qū)域中集中。只有部分樣本點具備大距離與小局部密度,也就是異常值[12]。

圖4 異常值檢測的決策圖

對比分析表示,該文算法能夠有效監(jiān)測和正常運行模式不同的曲線,在120 條曲線中所篩選的異常曲線共有7 條。表1 為曲線時間分布,在異常曲線中的時間是中國的信念,也就是表示該文所提算法能夠?qū)Ξ惓S秒娔J竭M(jìn)行檢測[13]。

表1 曲線時間分布

3.2 聚類算法的性能對比

以不同的規(guī)模實現(xiàn)研究對象子集:對比傳統(tǒng)算法與改進(jìn)算法的聚類分析,分析兩種算法的內(nèi)存小號與執(zhí)行時間,兩種算法性能對比詳見表2。通過改進(jìn)前后傳統(tǒng)算法與其他算法的聚類分析,對比算法內(nèi)存消耗與執(zhí)行時間。為了保證算法執(zhí)行時間客觀性,在不同規(guī)模數(shù)據(jù)中的算法集中運行20 次,得出此數(shù)據(jù)規(guī)模中運行平均時間的執(zhí)行時間[14]。

表2 兩種算法的性能對比

通過表2 可知,傳統(tǒng)算法只能夠?qū)? 000 條負(fù)荷曲線進(jìn)行處理,在超過8 000 條的時會由于算法內(nèi)存消耗過大導(dǎo)致計算機(jī)內(nèi)存空間不足的情況,從而無法繼續(xù)的進(jìn)行執(zhí)行。該文所分析的算法在數(shù)據(jù)集規(guī)模達(dá)到140 000 條以上時才會導(dǎo)致內(nèi)存溢出,也就驗證了該文設(shè)計的算法能夠降低原本算法內(nèi)存消耗[15-16]。

4 結(jié)束語

該文提出了基于改進(jìn)的快速密度峰值聚類算法,通過全新思想對局部密度和距離進(jìn)行定義,使傳統(tǒng)算法中的問題進(jìn)行了改善,并且對異常值判斷的規(guī)則進(jìn)行定義,基于異常值檢測角度實現(xiàn)優(yōu)化。該方法在某變壓器日負(fù)荷曲線仿真實驗中使用具有良好的性能,在對異常值進(jìn)行檢測之后能夠結(jié)合實際業(yè)務(wù)實現(xiàn)異常用電的分析和設(shè)備的狀態(tài)監(jiān)測,還能夠以業(yè)務(wù)規(guī)則修正異常值,使數(shù)據(jù)質(zhì)量得到提高。

猜你喜歡
檢測
QC 檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
“幾何圖形”檢測題
“角”檢測題
“有理數(shù)的乘除法”檢測題
“有理數(shù)”檢測題
“角”檢測題
“幾何圖形”檢測題
主站蜘蛛池模板: 亚洲最大福利视频网| 亚洲国产日韩视频观看| 亚洲欧美日韩综合二区三区| 国产高清自拍视频| 日韩毛片在线播放| 欧美中文字幕在线播放| 多人乱p欧美在线观看| 4虎影视国产在线观看精品| 强乱中文字幕在线播放不卡| 欧美一级在线看| 香蕉久久国产超碰青草| 国产成人综合日韩精品无码不卡| 91久久偷偷做嫩草影院精品| a级毛片免费网站| 又爽又大又黄a级毛片在线视频| 国产av色站网站| 成人伊人色一区二区三区| 中国精品自拍| 97成人在线观看| 91精品国产丝袜| 久久这里只有精品2| 精品人妻一区二区三区蜜桃AⅤ| 欧美成人午夜视频免看| 久久福利网| 欧美黄网站免费观看| 日韩不卡高清视频| 香蕉视频在线观看www| 国产精品99r8在线观看| 日韩a在线观看免费观看| 亚洲91精品视频| 美女视频黄又黄又免费高清| 手机精品福利在线观看| 超薄丝袜足j国产在线视频| 欧美有码在线观看| 午夜色综合| 亚洲乱强伦| 日韩欧美高清视频| 日韩av手机在线| 亚洲国产日韩欧美在线| 这里只有精品在线播放| 国产成人艳妇AA视频在线| 波多野结衣无码中文字幕在线观看一区二区 | 欧美一级99在线观看国产| 91综合色区亚洲熟妇p| 久久综合九九亚洲一区| 成人精品视频一区二区在线| 国产在线98福利播放视频免费| 精品福利视频网| 看国产一级毛片| 伊人久久福利中文字幕| 又黄又爽视频好爽视频| 国产视频一二三区| 亚洲av无码成人专区| 成人午夜久久| 国产永久免费视频m3u8| 亚洲一区毛片| 国产h视频免费观看| 999精品视频在线| 国产情侣一区| 亚洲视频免费在线| 青青草91视频| 欧美在线观看不卡| 久99久热只有精品国产15| 三区在线视频| 九色视频线上播放| a欧美在线| 欧美啪啪网| 日本一区二区三区精品国产| 午夜a级毛片| 欧美精品亚洲日韩a| 孕妇高潮太爽了在线观看免费| 国产资源站| 欧美色综合久久| av尤物免费在线观看| hezyo加勒比一区二区三区| 韩国自拍偷自拍亚洲精品| 免费看a级毛片| 国产欧美精品午夜在线播放| 国产拍在线| 污网站免费在线观看| 亚洲中文字幕97久久精品少妇| 国产区精品高清在线观看|