基于K-means算法的電能表檢定誤差分析與研究

2018-07-13 01:40:24左黎斌何東瑩

軟件 2018年6期

何　傲，左黎斌，王　昕，何東瑩，趙　楠

（1. 云南電網(wǎng)有限責(zé)任公司電力科學(xué)研究院；云南昆明　650217；2. 南方電網(wǎng)電能計(jì)量重點(diǎn)實(shí)驗(yàn)室，云南昆明　650217；3. 昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院，云南昆明　650000）

0　引言

近年來(lái)，隨著社會(huì)經(jīng)濟(jì)的快速發(fā)展，電力需求也在不斷增長(zhǎng)。電能的準(zhǔn)確計(jì)量是供電企業(yè)生產(chǎn)經(jīng)營(yíng)管理及電網(wǎng)經(jīng)濟(jì)穩(wěn)定運(yùn)行的重要環(huán)節(jié)。電能表是供電企業(yè)與用電客戶(hù)進(jìn)行電量結(jié)算的重要計(jì)量器具，電能表的計(jì)量準(zhǔn)確性直接關(guān)系到供電企業(yè)和用電客戶(hù)的經(jīng)濟(jì)效益[1]。作為電能表全生命周期質(zhì)量評(píng)價(jià)的重要一環(huán)[2]，目前沒(méi)有成熟的電能表檢定的質(zhì)量評(píng)價(jià)策略[3]，僅以合格與否來(lái)判斷同類(lèi)別電能表檢定的質(zhì)量的依據(jù)，無(wú)法全面反映電能表檢定的質(zhì)量差距。本文提出一種基于K-means算法的電能表檢定誤差分析方法，對(duì)電能表歷史檢定數(shù)據(jù)進(jìn)行分析與研究，為電能表質(zhì)量評(píng)價(jià)、設(shè)備選型、狀態(tài)評(píng)價(jià)甚至后期的運(yùn)行維護(hù)策略選擇提供科學(xué)、可靠的依據(jù)。

1　聚類(lèi)算法

1.1　聚類(lèi)的含義

聚類(lèi)又稱(chēng)聚類(lèi)算法、聚類(lèi)分析、群分析等，它主要是運(yùn)用統(tǒng)計(jì)分析的思想，將樣本或指標(biāo)依據(jù)一定的原則，分成不同的聚類(lèi)簇，從而使得聚類(lèi)下的簇內(nèi)間樣本或指標(biāo)具有較大的相似性，簇外的相似性較小。同時(shí)，聚類(lèi)也是解決數(shù)據(jù)挖掘的方法之一[4]。

聚類(lèi)分析是由聚類(lèi)（Cluster）分析是由若干模式（Pattern）組成的，通常，模式是一個(gè)度量（Measurement）的向量，或者是多維空間中的一個(gè)點(diǎn)。

聚類(lèi)分析法在人們的生產(chǎn)、生活中應(yīng)用廣泛，例如在商業(yè)上，聚類(lèi)可以幫助商家從數(shù)據(jù)庫(kù)中劃分出不同的消費(fèi)群體，依據(jù)消費(fèi)者的消費(fèi)習(xí)慣，針對(duì)性的進(jìn)行銷(xiāo)售。在數(shù)據(jù)挖掘上，聚類(lèi)可以幫助人們發(fā)現(xiàn)數(shù)據(jù)庫(kù)中一些深層的信息，并表述其特點(diǎn)，或者在某一個(gè)類(lèi)上做深度分析[5]。

1.2　聚類(lèi)算法的數(shù)學(xué)表達(dá)式

聚類(lèi)算法的定義是指根據(jù)某一條件或者基準(zhǔn)將數(shù)據(jù)分成多個(gè)類(lèi),相同類(lèi)中間的數(shù)據(jù)有著符合要求的相似度，不同的類(lèi)中數(shù)據(jù)有著可解釋的差異性。

假定數(shù)據(jù)集 X，包含一個(gè)空間數(shù)據(jù) A， xi=(xi1, xi2,…xid)，描述為數(shù)據(jù)集X中的第i個(gè)點(diǎn)。第i個(gè)數(shù)據(jù)點(diǎn)的j個(gè)屬性描述為xij。假定數(shù)據(jù)集X中包含 N個(gè)數(shù)據(jù)，即 xi( i =1 ,2,… ,N )，那么就可以將數(shù)據(jù)集X描述為一個(gè)N· d階矩陣。根據(jù)聚類(lèi)的思想，它主要是運(yùn)用統(tǒng)計(jì)分析的思想，將樣本或指標(biāo)依據(jù)一定的原則，分成不同的聚類(lèi)簇，從而使得聚類(lèi)下的簇內(nèi)間樣本或指標(biāo)具有較大的相似性，簇外的相似性較小。即設(shè)k為數(shù)據(jù)集分割的次數(shù)，則每個(gè)聚類(lèi)集為 Cm(m =1 ,2,… ,k)。則聚類(lèi)的數(shù)學(xué)表示如下：

1.3　聚類(lèi)的要求

聚類(lèi)方法雖然可以較好的解決分類(lèi)上的問(wèn)題，但是如果應(yīng)用不得當(dāng)，可能得不到預(yù)想的結(jié)果[6]，因此，聚類(lèi)方法具有幾點(diǎn)要求：

（1）可伸縮性

多數(shù)的聚類(lèi)算法在解決少量的數(shù)據(jù)是具有較好的聚類(lèi)性，但面對(duì)大規(guī)模數(shù)據(jù)時(shí)，可能把控力不強(qiáng)，從而造成聚類(lèi)上的偏差。

（2）不同屬性

聚類(lèi)算法不單單用來(lái)解決數(shù)值類(lèi)型的聚類(lèi)，還可以應(yīng)用在二元類(lèi)型、標(biāo)稱(chēng)類(lèi)型或其混合型等。

（3）任意形狀

對(duì)于每個(gè)聚類(lèi)下的簇來(lái)說(shuō)，它的形狀可以是任意的，但是許多人對(duì)于相似度的度量方法都是采用歐幾里得距離或者曼哈頓距離，而這兩種度量方法更多的是解決球狀簇的，所以，人們應(yīng)該提出更多針對(duì)性的度量方法用以解決各種形狀的簇。

（4）領(lǐng)域最小化

用戶(hù)在使用聚類(lèi)算法進(jìn)行聚類(lèi)分析的時(shí)候，需要自行設(shè)定一個(gè)閾值，而這個(gè)閾值控制著簇內(nèi)的數(shù)目，聚類(lèi)的結(jié)果對(duì)于這個(gè)閾值的設(shè)定十分敏感。通常情況下閾值的大小很難確定，尤其是對(duì)于高維的數(shù)據(jù)集來(lái)說(shuō)。這樣使得用戶(hù)的負(fù)擔(dān)加重了，同樣也使得聚類(lèi)的質(zhì)量無(wú)法得到保障。

（5）處理“噪聲”

對(duì)于需要進(jìn)行聚類(lèi)的數(shù)據(jù)來(lái)說(shuō)，有些數(shù)據(jù)是缺失或者錯(cuò)誤的，而這些錯(cuò)誤或者缺失的數(shù)據(jù)很有可能造成聚類(lèi)的錯(cuò)誤或者聚類(lèi)質(zhì)量的降低。

（6）記錄順序

對(duì)于有些具有順序的數(shù)據(jù)來(lái)說(shuō)，當(dāng)以不同的順序輸入到同一個(gè)聚類(lèi)算法中時(shí)，可能造成不同的結(jié)果，所以，人們應(yīng)該提出更多針對(duì)具有順序性數(shù)據(jù)的聚類(lèi)方法。

（7）高維度

對(duì)于海量的數(shù)據(jù)源來(lái)說(shuō)，可能包含高維度的數(shù)據(jù)，而很多聚類(lèi)算法只是擅長(zhǎng)處理低維度的數(shù)據(jù)，最高二到三維，因此，在高維空間中進(jìn)行聚類(lèi)是非常具有挑戰(zhàn)性的。尤其是這樣的數(shù)據(jù)可能呈現(xiàn)出非常稀疏的分布規(guī)律，而且高維度呈現(xiàn)偏斜的情況。

（8）基于約束

對(duì)于聚類(lèi)分析在實(shí)際生產(chǎn)、生活中的應(yīng)用，這就要考慮在各種約束條件下進(jìn)行。假定任務(wù)是要對(duì)給定數(shù)目下的自動(dòng)取款機(jī)設(shè)置安放位置，那么，既要考慮到居民較為密集的活動(dòng)地點(diǎn)進(jìn)行聚類(lèi)，又要考慮到交通問(wèn)題，如城市中河流的分布情況、公路情況等，還需要考慮客戶(hù)的需求性等。因此，既要找到特定的約束條件，又要具備聚類(lèi)的數(shù)據(jù)分組，這對(duì)于實(shí)際分析來(lái)說(shuō)是比較困難的。

（9）解釋性、可用性

對(duì)于聚類(lèi)的結(jié)果，用戶(hù)往往希望是可解釋的、可用的。即聚類(lèi)需要和特定的語(yǔ)義解釋、應(yīng)用相結(jié)合。應(yīng)用目標(biāo)如何影響聚類(lèi)方法的選擇也是一個(gè)重要研究?jī)?nèi)容。

（10）樣本間的距離與相似度

在對(duì)數(shù)據(jù)進(jìn)行聚類(lèi)分析是，首先應(yīng)找出數(shù)據(jù)間的相似度，按照數(shù)據(jù)間相似程度越高，數(shù)據(jù)越相似的思想進(jìn)行分類(lèi)，其公式為：

式中，d——變量間的距離；

c——變量間的相似系數(shù)。

因此，需要計(jì)算出樣本間的距離。常用的計(jì)算樣本間距離的方法包括以下幾種。

（1）馬哈拉諾比斯距離（Mahalanobis Distance）

（2）閔可夫斯基距離（Minkowski Distance）

（3）歐幾里得距離（Euclidean Distance）

（4）切比雪夫距離（Chebyshev Distance）

（5）城區(qū)距離（City-block Distance）

（6）蘭氏距離（Canberra Distance）

（7）標(biāo)準(zhǔn)化歐幾里得距離（Standardized Euclidean Distance）

除了利用距離來(lái)度量樣本數(shù)據(jù)間的相似度，還可以利用夾角余弦和相關(guān)系數(shù)來(lái)確定。

（1）夾角余弦

（2）相關(guān)系數(shù)

總結(jié)上述公式，如果利用距離公式進(jìn)行相似度考量，則距離越小，相似度越高，如果利用相似系數(shù)進(jìn)行相似度考量，則結(jié)果越大，相似度越高。

1.4　聚類(lèi)的常用方法

聚類(lèi)算法是一類(lèi)將未知標(biāo)簽的數(shù)據(jù)對(duì)象集進(jìn)行分組的無(wú)監(jiān)督學(xué)習(xí)方法，其主要目的是實(shí)現(xiàn)同一組的數(shù)據(jù)對(duì)象間的相似性較高，而不同類(lèi)的數(shù)據(jù)對(duì)象間的相似性較低。在探索性數(shù)據(jù)分析和數(shù)據(jù)挖掘中，聚類(lèi)算法經(jīng)常用來(lái)發(fā)掘隱藏在數(shù)據(jù)中的部分或全部模式。因此，近幾年來(lái)聚類(lèi)算法得到了廣泛的關(guān)注。常用的聚類(lèi)算法分為七類(lèi)，分別是劃分聚類(lèi)法（Partition）、層次聚類(lèi)法（Hierarchical）、密度聚類(lèi)法（Density）、圖論聚類(lèi)法（Graph）、網(wǎng)格聚類(lèi)法（Grid）、模型聚類(lèi)法（Model）以及混合聚類(lèi)法（Hybrid）。

（1）劃分聚類(lèi)法（Partition）

劃分聚類(lèi)法的思想是首先對(duì)數(shù)據(jù)進(jìn)行相似性分組，然后將劃分好的數(shù)據(jù)依次放入到每組中，每一組即代表一個(gè)類(lèi)，同時(shí)滿(mǎn)足每個(gè)類(lèi)中至少含有一個(gè)數(shù)據(jù)；每個(gè)數(shù)據(jù)僅屬于一個(gè)類(lèi)。然后，通過(guò)一個(gè)數(shù)據(jù)對(duì)象定位技術(shù)循環(huán)調(diào)整數(shù)據(jù)對(duì)象所處的劃分，即反復(fù)迭代的過(guò)程。最終得到較好的分類(lèi)效果。基于劃分聚類(lèi)的常用方法有K-means算法、PAM算法、CLARA算法、CLARANS算法、K-modes算法以及FCM算法等[7]。

基于劃分聚類(lèi)的K-means算法的基本思想是根據(jù)預(yù)先設(shè)定好的參數(shù)K作為分組，然后從數(shù)據(jù)樣本中隨機(jī)選取K個(gè)數(shù)據(jù)作為各組的中心數(shù)據(jù)，隨后依據(jù)相似度將其他數(shù)據(jù)進(jìn)行分類(lèi)。將分類(lèi)好的數(shù)據(jù)依據(jù)每類(lèi)中的中心平均值再次聚類(lèi)，經(jīng)過(guò)反復(fù)迭代得到最優(yōu)解[8]。

K-means算法的計(jì)算公式如下：

式中x——某個(gè)樣本；

ct——聚類(lèi)中心樣本；

E——數(shù)據(jù)的平方差之和。

modes算法與K-means算法的唯一不同之處在于K-means算法選取的是中心平均值作為再次聚類(lèi)的中心，而K-modes算法選用距離中心點(diǎn)距離最近的樣本代表該類(lèi)。

（2）層次聚類(lèi)法（Hierarchical）

層次聚類(lèi)法的基本思想是采用距離作為樣本數(shù)據(jù)間相似程度的衡量標(biāo)準(zhǔn)，自底向上的凝聚，或者自頂向下的分裂來(lái)達(dá)到最終的聚類(lèi)效果。同時(shí)，在聚類(lèi)的過(guò)程中，無(wú)法取消已經(jīng)完成的聚類(lèi)，從而可以有效避免因生成類(lèi)的數(shù)目問(wèn)題而造成的誤差，但也正因如此，一旦聚類(lèi)中發(fā)生錯(cuò)誤，整個(gè)聚類(lèi)都將錯(cuò)誤。基于層次聚類(lèi)的常用方法有：Birch算法、CHAMELEON算法、CURE算法以及 MSCMO算法等[9]。

（3）凝聚層次聚類(lèi)法

基于層次聚類(lèi)的凝聚法的基本思想是首先將集合中的每個(gè)樣本數(shù)據(jù)分別看做一個(gè)類(lèi)，然后根據(jù)樣本數(shù)據(jù)間的距離作為相似程度進(jìn)行聚類(lèi)，得到的新類(lèi)再次迭代，直到滿(mǎn)足條件為止。

凝聚算法的計(jì)算公式如下：

式中Ci——集合中第i個(gè)類(lèi)；

Cj——集合中第j個(gè)類(lèi)；

D(Ci,Cj)——集合中第i個(gè)類(lèi)與集合中第 j個(gè)類(lèi)的距離；

dpi,dpj——樣本i與樣本j之間的距離。

（4）分裂層次聚類(lèi)法

基于層次聚類(lèi)的分裂法的基本思想恰恰與凝聚法相反，即首先將所有樣本數(shù)據(jù)都放到一個(gè)類(lèi)里邊，然后對(duì)整個(gè)類(lèi)進(jìn)行迭代分裂，直到分裂為不同的類(lèi)，滿(mǎn)足滿(mǎn)足條件為止。

（5）密度聚類(lèi)法（Density）

密度聚類(lèi)法的基本思想是針對(duì)非球狀數(shù)據(jù)集，將樣本數(shù)據(jù)看成是空間的，從而將數(shù)據(jù)密集的歸為一類(lèi)。對(duì)密度聚類(lèi)法的評(píng)價(jià)一般采用類(lèi)內(nèi)方差法，基于密度聚類(lèi)的常用方法有：DBSCAN算法、OPTICS算法、DENCLUE算法，SNN算法以及Fast Clustering算法。

（6）圖論聚類(lèi)法（Graph）

圖論聚類(lèi)法的基本思想是先將樣本數(shù)據(jù)集看成是一張圖，然后在一定的條件下，將圖分為若干個(gè)子圖，即分為若干個(gè)類(lèi)，從而將樣本數(shù)據(jù)進(jìn)行聚類(lèi)劃分。基于圖論聚類(lèi)的常用方法有：AUTOCLUST算法、MST算法以及2-MSTClus算法等。

（7）網(wǎng)格聚類(lèi)法（Grid）

網(wǎng)格聚類(lèi)法的基本思想是首先將數(shù)據(jù)樣本集進(jìn)行空間量化，從而形成有限數(shù)目的、具有多分辨率的網(wǎng)格，然后在每個(gè)網(wǎng)格中進(jìn)行聚類(lèi)。網(wǎng)格聚類(lèi)法因?yàn)椴皇軙r(shí)間復(fù)雜度和數(shù)據(jù)大小的影響，所以運(yùn)行速度較快，但不適合高維數(shù)據(jù)的聚類(lèi)。基于網(wǎng)格聚類(lèi)的常用方法有：STING算法、STING+算法、CLIQUE算法以及Wave Cluster算法等。

（8）模型聚類(lèi)法（Model）

模型聚類(lèi)法的基本思想是假設(shè)數(shù)據(jù)符合潛在分布規(guī)律的基礎(chǔ)上，它首先為每個(gè)聚類(lèi)簇假設(shè)一個(gè)用于參考的模型，然后將數(shù)據(jù)集中的數(shù)據(jù)樣本與參考模型作比較，找到最佳逼近擬合即為分類(lèi)結(jié)果。基于模型聚類(lèi)的常用方法有：EM 算法以及 SOM算法。

（9）統(tǒng)計(jì)學(xué)法

Fisher提出的COBWEB方法的基本思想是采用啟發(fā)估算度量模式將樣本數(shù)據(jù)的最高效用值劃分到各類(lèi)中。Genai提出的 CLASST方法是建立在COBWED方法的基礎(chǔ)上，主要針對(duì)處理連續(xù)性數(shù)據(jù)增量的問(wèn)題。而Cheseman等人提出的AutoClass方法主要建立在貝葉斯的統(tǒng)計(jì)分析上，從而實(shí)現(xiàn)分類(lèi)個(gè)數(shù)的估計(jì)，也是生活中較為常用的。

（10）神經(jīng)網(wǎng)絡(luò)法

神經(jīng)網(wǎng)絡(luò)法的基本原理是采用樣本間數(shù)據(jù)距離的相似程度分析，并以此為依據(jù)將每個(gè)類(lèi)描述為不對(duì)應(yīng)的對(duì)象實(shí)例。由于神經(jīng)網(wǎng)絡(luò)法是模擬人的大腦進(jìn)行實(shí)際處理，因此處理過(guò)程較為復(fù)雜，所以神經(jīng)網(wǎng)絡(luò)不適用于大量的樣本數(shù)據(jù)的聚類(lèi)分析與處理。

（11）混合聚類(lèi)法（Hybrid）

混合聚類(lèi)法的基本思想是將多種聚類(lèi)方法結(jié)合的思想，由于每種聚類(lèi)都存在一定的確定，而將多種聚類(lèi)方法相結(jié)合可以有效規(guī)避不足，吸收優(yōu)點(diǎn)。基于模型聚類(lèi)的常用方法有：NN-Density算法、CSM算法等。

1.5　聚類(lèi)的指標(biāo)評(píng)定

聚類(lèi)有效性的評(píng)價(jià)標(biāo)準(zhǔn)有兩種：一是外部標(biāo)準(zhǔn)，通過(guò)測(cè)量聚類(lèi)結(jié)果和參考標(biāo)準(zhǔn)的一致性來(lái)評(píng)價(jià)聚類(lèi)結(jié)果的優(yōu)良；另一種是內(nèi)部指標(biāo)，用于評(píng)價(jià)同一聚類(lèi)算法在不同聚類(lèi)數(shù)條件下聚類(lèi)結(jié)果的優(yōu)良程度，通常用來(lái)確定數(shù)據(jù)集的最佳聚類(lèi)數(shù)[6]。

對(duì)于內(nèi)部指標(biāo)，通常分為三種類(lèi)型：基于數(shù)據(jù)集模糊劃分的指標(biāo)；基于數(shù)據(jù)集樣本幾何結(jié)構(gòu)的指標(biāo)；基于數(shù)據(jù)集統(tǒng)計(jì)信息的指標(biāo)。基于數(shù)據(jù)集樣本幾何結(jié)構(gòu)的指標(biāo)根據(jù)數(shù)據(jù)集本身和聚類(lèi)結(jié)果的統(tǒng)計(jì)特征對(duì)聚類(lèi)結(jié)果進(jìn)行評(píng)估，并根據(jù)聚類(lèi)結(jié)果的優(yōu)劣選取最佳聚類(lèi)數(shù)，這些指標(biāo)有 Calinski-Harabasz（CH）指標(biāo)，Davies-Bouldin（DB）指標(biāo)Weighted inter-intra（Wint）指標(biāo)，Krzanowski-Lai（KL）指標(biāo)，Hartigan（Har）指標(biāo)，In-Group Proportion（IGP）指標(biāo)等。

本文主要使用較為常用的外部指標(biāo)和內(nèi)部指標(biāo)中的Calinski-Harabasz（CH）指標(biāo)、Davies-Bouldin（DB）指標(biāo)。

對(duì)于聚類(lèi)分析所產(chǎn)生的聚類(lèi)程度的結(jié)果好壞，一般由以下幾種方式進(jìn)行評(píng)定。

（1）假定分類(lèi)中，集合 G中的類(lèi)與類(lèi)所設(shè)定的范圍為 T，則類(lèi)與類(lèi)之間任意兩個(gè)元素間的聚類(lèi)dij均滿(mǎn)足：

（2）假定分類(lèi)中，集合G中的類(lèi)與類(lèi)所設(shè)定的范圍為T(mén)，G中包含n個(gè)元素，則每個(gè)i元素均滿(mǎn)足：

（3）假定T和H都為給定的正數(shù)，且HT?,集合G中的n個(gè)元素間的平均距離均滿(mǎn)足：

（4）假設(shè)類(lèi)中 G有 n個(gè)樣本，n個(gè)樣本中的Xi的維度為 m，則每個(gè)數(shù)據(jù) Xi可以從以下幾個(gè)方面來(lái)描述G類(lèi)。

1）平均值

2）樣本的離差矩陣

將其簡(jiǎn)化整理得到：

3）類(lèi)的直徑

或?qū)⑵浔硎緸椋?/p>

4）CH指標(biāo)

CH指標(biāo)通過(guò)類(lèi)內(nèi)離差矩陣描述緊密度，類(lèi)間離差矩陣描述分離度，指標(biāo)定義為：

式中n——聚類(lèi)的數(shù)目；

k——當(dāng)前的類(lèi)；

trB(k)——類(lèi)間離差矩陣的跡；

trW(k)——類(lèi)內(nèi)離差矩陣的跡。

從表達(dá)式中可以得出 CH越大代表著類(lèi)自身越緊密，類(lèi)與類(lèi)之間越分散，即更優(yōu)的聚類(lèi)結(jié)果。

5）DB指標(biāo)

DB指標(biāo)通過(guò)描述樣本的類(lèi)內(nèi)散度與各聚類(lèi)中心的間距，定義為：

式中K——聚類(lèi)的數(shù)目；

Cij——類(lèi)與類(lèi)之間的距離；

Wi——類(lèi)Ci中的所有樣本到其聚類(lèi)中心的平均距離；

Wj——類(lèi) Ci中的所有樣本到類(lèi) Cj中心的平均距離。

從表達(dá)式中可以看出，DB越小表示類(lèi)與類(lèi)之間的相似度越低，從而對(duì)應(yīng)越佳的聚類(lèi)結(jié)果。最佳聚類(lèi)數(shù)的確定過(guò)程一般是這樣的：給定 K的范圍[Kmin,Kmax]，對(duì)數(shù)據(jù)集使用不同的聚類(lèi)數(shù)K運(yùn)行同一聚類(lèi)算法，得到一系列聚類(lèi)結(jié)果，對(duì)每個(gè)結(jié)果計(jì)算其有效性指標(biāo)的值，最后比較各個(gè)指標(biāo)值，對(duì)應(yīng)最佳指標(biāo)值的聚類(lèi)數(shù)即為最佳聚類(lèi)數(shù)。

2　聚類(lèi)算法確定

針對(duì)電能表檢定數(shù)據(jù)的特點(diǎn)，選擇基于劃分聚類(lèi)的K-means算法。

K-means聚類(lèi)算法是用隸屬度確定每個(gè)數(shù)據(jù)點(diǎn)屬于某個(gè)聚類(lèi)的程度的一種聚類(lèi)算法。把n個(gè)向量xi（i=1,2,…,n）分為 c個(gè)模糊組，并求每組的聚類(lèi)中心，使得非相似性指標(biāo)的價(jià)值函數(shù)達(dá)到最小。每個(gè)給定數(shù)據(jù)點(diǎn)用值在0，1間的隸屬度用來(lái)確定其屬于各個(gè)組的程度[10]。與引入模糊劃分相適應(yīng)，隸屬矩陣 U允許有取值在 0，1間的元素。不過(guò)，加上歸一化規(guī)定，一個(gè)數(shù)據(jù)集的隸屬度的和總等于1：

那么，K-means的價(jià)值函數(shù)（或目標(biāo)函數(shù)）的一般化形式：

這里iju介于0，1間；ci為模糊組I的聚類(lèi)中心，dij=||ci-xj||為第I個(gè)聚類(lèi)中心與第j個(gè)數(shù)據(jù)點(diǎn)間的歐幾里德距離；且是一個(gè)加權(quán)指數(shù)。

構(gòu)造如下新的目標(biāo)函數(shù)，可求得使（25）式達(dá)到最小值的必要條件：

這里ij，j=1到n，是（24）式的n個(gè)約束式的拉格朗日乘子。對(duì)所有輸入?yún)⒘壳髮?dǎo)，使式（25）達(dá)到最小的必要條件為：

和

由上述兩個(gè)必要條件，模糊C均值聚類(lèi)算法是一個(gè)簡(jiǎn)單的迭代過(guò)程。在批處理方式運(yùn)行時(shí)，K-means用下列步驟確定聚類(lèi)中心ci和隸屬矩陣U：

步驟1：用值在0，1間的隨機(jī)數(shù)初始化隸屬矩陣U，使其滿(mǎn)足式（24）中的約束條件

步驟 2：用式（25）計(jì)算c個(gè)聚類(lèi)中心 ci，i=1,…,c。

步驟 3：根據(jù)式（25）計(jì)算價(jià)值函數(shù)。如果它小于某個(gè)確定的閥值，或它相對(duì)上次價(jià)值函數(shù)值的改變量小于某個(gè)閥值，則算法停止。

步驟4：用式（26）計(jì)算新的U矩陣。返回步驟2。

上述算法也可以先初始化聚類(lèi)中心，然后再執(zhí)行迭代過(guò)程。由于不能確保K-means收斂于一個(gè)最優(yōu)解。算法的性能依賴(lài)于初始聚類(lèi)中心。因此，我們要么用另外的快速算法確定初始聚類(lèi)中心，要么每次用不同的初始聚類(lèi)中心啟動(dòng)該算法，多次運(yùn)行K-means。

3　數(shù)據(jù)預(yù)處理

檢定數(shù)據(jù)中存在粗大誤差會(huì)直接影響電能表的檢定結(jié)論。粗大誤差是指明顯超出規(guī)定條件預(yù)期的誤差，也稱(chēng)疏忽誤差或粗差，其會(huì)明顯歪曲測(cè)量結(jié)果，故也稱(chēng)異常值（壞值）。導(dǎo)致粗大誤差產(chǎn)生的原因主要有：測(cè)量?jī)x器不符合測(cè)量要求，本身存在缺陷；由于不可抗力或不可預(yù)估的瞬時(shí)性事件導(dǎo)致的計(jì)量器具測(cè)量偏差等等。在對(duì)測(cè)量數(shù)據(jù)進(jìn)行分析時(shí)，由于測(cè)量誤差客觀存在無(wú)法消除且具有分散性，很難直觀判別測(cè)量數(shù)據(jù)是否存在粗大誤差，因此需要運(yùn)用一定的判別準(zhǔn)則對(duì)粗大誤差進(jìn)行剔除，以得出較為準(zhǔn)確的結(jié)論，保障數(shù)據(jù)分析結(jié)果的可信度[11]。

3.1　粗大誤差的判別準(zhǔn)則

可疑數(shù)據(jù)是一組測(cè)量數(shù)據(jù)中，明顯偏離其他次數(shù)測(cè)量值的測(cè)量數(shù)據(jù)，需要進(jìn)行粗大誤差判別。測(cè)量數(shù)據(jù)含有粗大誤差情況極少發(fā)生，但為保證數(shù)據(jù)分析結(jié)論的準(zhǔn)確性，一方面需要對(duì)數(shù)據(jù)進(jìn)行判別并剔除其中的粗大誤差，另一方面也需要采用較為妥當(dāng)?shù)臏?zhǔn)則進(jìn)行判別，避免由于粗大誤差誤判對(duì)分析結(jié)果造成影響，因此在進(jìn)行測(cè)量數(shù)據(jù)分析之前，需要進(jìn)行預(yù)處理。數(shù)據(jù)的預(yù)處理是利用冗余測(cè)量數(shù)據(jù)來(lái)減少數(shù)據(jù)的隨機(jī)誤差的影響，實(shí)現(xiàn)粗大誤差識(shí)別，常用于統(tǒng)計(jì)實(shí)驗(yàn)中識(shí)別嚴(yán)重錯(cuò)誤的數(shù)據(jù)。

對(duì)選出來(lái)的特征進(jìn)行數(shù)據(jù)預(yù)處理，主要有抽樣、空值處理、聚類(lèi)處理幾個(gè)步驟，數(shù)據(jù)預(yù)處理的環(huán)節(jié)見(jiàn)圖1。

圖1　數(shù)據(jù)預(yù)流程示意圖Fig.1　Data preprocess diagram.

3.2　抽樣

對(duì)所有數(shù)據(jù)進(jìn)行訓(xùn)練，會(huì)受到內(nèi)存和運(yùn)行時(shí)間的限制，因此對(duì)數(shù)據(jù)進(jìn)行抽樣是必經(jīng)步驟。抽樣方式的選擇影響最后的模型輸出。抽樣方式主要有隨機(jī)抽樣、系統(tǒng)抽樣、整群抽樣、分層抽樣四種[12]。

（1）隨機(jī)抽樣是用得最多的一種抽樣方法，用隨機(jī)抽簽的方式或隨機(jī)數(shù)字的方式確定抽樣結(jié)果。隨機(jī)抽樣原理簡(jiǎn)單，但不適合數(shù)據(jù)分布層次明顯的數(shù)據(jù)集。

（2）系統(tǒng)抽樣是指按固定的間隔距離進(jìn)行抽樣，系統(tǒng)抽樣可操作性強(qiáng)，但易受到參數(shù)發(fā)展趨勢(shì)持續(xù)遞增或遞減的影響。

（3）整群抽樣是指在抽樣前將被抽樣群體分成幾個(gè)類(lèi)，抽樣結(jié)果直接選擇某個(gè)子類(lèi)。

（4）分層抽樣顧名思義，在數(shù)據(jù)集分層基礎(chǔ)上，按比例對(duì)每層數(shù)據(jù)進(jìn)行抽取，形成一定大小數(shù)據(jù)集。一般在抽樣前需要對(duì)數(shù)據(jù)進(jìn)行摸底，瀏覽數(shù)據(jù)分布情況，如果數(shù)據(jù)時(shí)序性質(zhì)比較強(qiáng)則選擇線(xiàn)性隨機(jī)抽樣，保證參數(shù)的時(shí)序性。如果數(shù)據(jù)呈現(xiàn)出類(lèi)別或?qū)哟我?guī)律，則選擇分層抽樣法，確保每種類(lèi)別的數(shù)據(jù)都在抽樣數(shù)據(jù)集中。如果無(wú)法了解數(shù)據(jù)集的分布情況，數(shù)據(jù)隨機(jī)性強(qiáng)，可以考慮系統(tǒng)抽樣。如果抽樣只為了提高數(shù)據(jù)處理效率，則選擇系統(tǒng)抽樣。本實(shí)驗(yàn)采用的抽樣方式為線(xiàn)性隨機(jī)抽樣，因?yàn)槟繕?biāo)預(yù)測(cè)量為帶著時(shí)序性質(zhì)的溫度指標(biāo)，在建模預(yù)測(cè)過(guò)程中，要盡量保持其時(shí)序性。

3.3　空值處理

數(shù)據(jù)清洗一般是對(duì)數(shù)據(jù)為空的值進(jìn)行清洗。空值一般包括兩種情況：第一種是數(shù)值的不完整，另外一種則是數(shù)值為空。數(shù)值不完整是指值實(shí)際存在，但數(shù)據(jù)不完整，或者說(shuō)沒(méi)有存入所屬字段。數(shù)據(jù)清洗所處理的是缺失值。處理方法有：可以從本數(shù)據(jù)源或其它數(shù)據(jù)源利用相關(guān)性推導(dǎo)出某些缺失值；可以用數(shù)據(jù)源的最小值、中間值、平均值、最大值或推測(cè)值；最后也可以通過(guò)手動(dòng)輸入一個(gè)在接受范圍內(nèi)的人工經(jīng)驗(yàn)值等。

3.4　聚類(lèi)處理

聚類(lèi)指依據(jù)相似度把相似度高的數(shù)據(jù)放在一個(gè)類(lèi)，使得類(lèi)內(nèi)差異小，類(lèi)間差異大，常見(jiàn)的聚類(lèi)方法有 Partitioning algorithms，Hierarchy algorithms層次算法，Density-based基于密度，Grid-based基于網(wǎng)格，Model-based基于模型。聚類(lèi)除了進(jìn)行簡(jiǎn)單的類(lèi)別劃分，將聚類(lèi)進(jìn)行數(shù)據(jù)預(yù)處理的原理就是匹配實(shí)際的應(yīng)用場(chǎng)景，聚類(lèi)能使相關(guān)性比較大的數(shù)據(jù)聚集在一類(lèi)。本文基于聚類(lèi)算法在異常值檢測(cè)中的應(yīng)用，結(jié)合電能表檢定數(shù)據(jù)的特性，將K-means聚類(lèi)算法運(yùn)用在電能表檢定數(shù)據(jù)的處理上，得出電能表檢定誤差的幾種模式。

4　實(shí)驗(yàn)處理

4.1　聚類(lèi)質(zhì)量評(píng)估

K-means聚類(lèi)算法的K值大小和初始值的設(shè)定需要借助一定的評(píng)價(jià)標(biāo)準(zhǔn)。DBI（Davies-Bouldin 指數(shù)）是一種評(píng)估度量聚類(lèi)算法有效性的指標(biāo)。這個(gè)DBI就是計(jì)算類(lèi)內(nèi)距離之和與類(lèi)外距離之比，來(lái)優(yōu)化k值的選擇，避免K-means算法中由于只計(jì)算目標(biāo)函數(shù)J而導(dǎo)致局部最優(yōu)的情況。k取值太大，每組的分類(lèi)值太少，特征不明顯。K取值小，影響聚類(lèi)效果。對(duì)比K值從2到8的取值，DBI指數(shù)發(fā)現(xiàn)其在K=4的情況下DBI指數(shù)最小，因此本實(shí)驗(yàn)用的K值為4，如圖2所示。

圖2　DBI指數(shù)圖Fig.2　DBI index diagram

4.2　數(shù)據(jù)描述

所使用的數(shù)據(jù)為來(lái)自于云南省地市供電局2017年4月的部分檢定數(shù)據(jù)。

不可預(yù)估的瞬時(shí)性事件導(dǎo)致的數(shù)據(jù)采集不成功，使原始智能電表數(shù)據(jù)產(chǎn)生臟數(shù)據(jù)，為保證結(jié)果的準(zhǔn)確性，首先對(duì)原始記錄數(shù)據(jù)進(jìn)行了簡(jiǎn)單的預(yù)處理，剔除了空值數(shù)據(jù)記錄。

選取4月份檢定數(shù)據(jù)3000條，剔除空值數(shù)據(jù)后剩余2910條檢定記錄。檢定部分?jǐn)?shù)據(jù)如下表1所示。表中數(shù)據(jù)為電能表在功率因數(shù)cos為0.5L和1.0時(shí)不同負(fù)載電流下的誤差。

將K-means聚類(lèi)算法運(yùn)用在電能表檢定數(shù)據(jù)的處理上，得到電能表檢定誤差的幾種模式，見(jiàn)圖3。

對(duì)應(yīng)的聚類(lèi)中心圖，見(jiàn)圖4。

不同生產(chǎn)廠家電能表檢定誤差處理后的散點(diǎn)圖，見(jiàn)圖5。

表1　部分電能表檢定數(shù)據(jù)Tab.1　verification data of some electric energy meter

圖3　電能表檢定誤差的幾種模式Fig.3　Several modes of verification error of electric energy meter

圖4　聚類(lèi)中心圖Fig.4　Cluster center diagram

圖5　不同生產(chǎn)廠家電能表檢定誤差處理后的散點(diǎn)圖Fig.5　Scatter plot of verification error of electric energy meters of different manufacturers

表2　不同評(píng)價(jià)標(biāo)準(zhǔn)下電能表檢定的質(zhì)量Tab.2　Quality of electric energy meter verification under different evaluation criteria

4.3　聚類(lèi)數(shù)據(jù)分析

從圖3、圖4、圖5可以看出，大部分電能表滿(mǎn)足仿真結(jié)果，從聚類(lèi)結(jié)果可以看到電能表檢定的質(zhì)量大致可分為4類(lèi)。

第一類(lèi)，廠家1、廠家2和廠家3生產(chǎn)的電能表誤差比較小。

第二類(lèi)，廠家 4在選取的標(biāo)準(zhǔn)下的百分比為80%左右。

第三類(lèi)，這些電能表在選取的標(biāo)準(zhǔn)下的百分比為80%以下，為廠家5、廠家6、廠家7。

第四類(lèi)，由于該廠家電能表數(shù)據(jù)樣本數(shù)少于50只，無(wú)法全面反映其質(zhì)量，不具備評(píng)價(jià)意義。

再次對(duì)第一檔的三家生產(chǎn)商電能表檢定質(zhì)量進(jìn)行對(duì)比，分別取評(píng)價(jià)標(biāo)準(zhǔn)為0~0.02、0~0.03和0~0.04三檔，得到表2數(shù)據(jù)。

從表中數(shù)據(jù)可以看出，廠家 1生產(chǎn)的電能表在 3個(gè)評(píng)價(jià)標(biāo)準(zhǔn)下的檢定質(zhì)量都優(yōu)于其他兩個(gè)廠商。

4　結(jié)論

針對(duì)供電企業(yè)對(duì)電能表檢定的質(zhì)量評(píng)價(jià)的需求，結(jié)合歷史電能表檢定數(shù)據(jù)的特點(diǎn)，本文提出運(yùn)用基于劃分聚類(lèi)的K-means算法對(duì)電能表歷史檢定誤差進(jìn)行分析與研究。該方法可以分析、評(píng)價(jià)電能表檢定的質(zhì)量，為電能表全生命周期質(zhì)量評(píng)價(jià)、設(shè)備選型等提供科學(xué)、可靠的依據(jù)。

軟件2018年6期

軟件的其它文章: 信息時(shí)代視角下電子信息工程技術(shù)的發(fā)展應(yīng)用; 中國(guó)聯(lián)通發(fā)布5G部署計(jì)劃六本白皮書(shū)覆蓋全產(chǎn)業(yè)鏈; 區(qū)塊鏈共識(shí)機(jī)制的規(guī)則特點(diǎn)：共享、共識(shí)與共贏的制度基礎(chǔ); 巨頭的云計(jì)算，誰(shuí)將是下一個(gè)霸主？; MOOC的突破與挑戰(zhàn)：一種課程觀點(diǎn); 組合數(shù)學(xué)課程教學(xué)改革與實(shí)踐

基于K-means算法的電能表檢定誤差分析與研究

0 引言

1 聚類(lèi)算法

1.1 聚類(lèi)的含義

1.2 聚類(lèi)算法的數(shù)學(xué)表達(dá)式

1.3 聚類(lèi)的要求

1.4 聚類(lèi)的常用方法

1.5 聚類(lèi)的指標(biāo)評(píng)定

2 聚類(lèi)算法確定

3 數(shù)據(jù)預(yù)處理

3.1 粗大誤差的判別準(zhǔn)則

3.2 抽樣

3.3 空值處理

3.4 聚類(lèi)處理

4 實(shí)驗(yàn)處理

4.1 聚類(lèi)質(zhì)量評(píng)估

4.2 數(shù)據(jù)描述

4.3 聚類(lèi)數(shù)據(jù)分析

4 結(jié)論