999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進K-means聚類算法在電力客戶價值分群的應用

2017-06-26 12:51:01朱州吳漾
計算機與數字工程 2017年6期

朱州吳漾

(貴州電網有限責任公司信息中心貴陽550003)

基于改進K-means聚類算法在電力客戶價值分群的應用

朱州吳漾

(貴州電網有限責任公司信息中心貴陽550003)

針對電力客戶特點實行不同的營銷策略和提供差異化服務,就需要對電力客戶做出準確的分群。傳統K-means聚類算法對數據分布均勻的類似球形的數據集聚類效果比較好,一旦數據集分布密度不均衡,類簇大小差異明顯時,傳統K-means算法容易使稀疏的大類簇被高密度小類簇瓜分,導致電力客戶分群正確率下降。論文基于電力客戶數據分布不均衡的特點,采用了一種改進的K-means聚類算法。改進的K-means算法提出一個新的加權聚類準則,并根據該準則修改了聚類迭代過程。文章最后在對電力客戶數據的分群聚類結果表明,改進的K-means聚類算法的分群聚類效果中各個群類的緊湊性得到有效提高,誤分情況明顯改善。

K-means算法;新聚類準則;迭代權重;正確率;標準差

Class NumberTP391

1 引言

21世紀是一個信息的時代,信息對于各行各業的影響都起到了一個至關重要的作用。面對目前供電企業每天都在產生和更新的龐大的企業運營管理數據,那么要怎樣去利用這些數據,從眾多凌亂的數據中挖掘出潛在的客戶價值,進而幫助電力企業改進營銷決策、降低運營成本、提高企業收益,是每個供電企業都在努力地方向[1]。數據挖掘技術作為一種可以在大量數據中發現潛在的信息的數據處理手段便在此脫穎而出,該技術已經成為處理電力行業信息化的建設過程中所積累的海量歷史數據的重要手段,數據挖掘技術的應用也將會為供電企業提供一個更為廣闊的發展空間[2]。

K-means聚類算法作為客戶分類常用的一種數據挖掘技術手段,其本身存在著各方面的局限。首先,初始聚類中心選擇的好壞在很大程度上會影響到聚類結果的好壞;其次,聚類的類別數沒辦法直接確定;同時,傳統K-means算法不適合密度不均衡的數據集等等。針對傳統K-means聚類算法的不足之處,已經有很多學者提出了改進的研究方案。李薈嬈[3]提出了適用于非負、類橢球形數據的基于I-divergence測度的K-means聚類算法;張永晶[4],翟東海[5]分別在確定初始聚類中心上提出了最大最小距離法和最大距離法以提高模型的聚類效果等等。

對于本文電力客戶數據分布密度不均衡的特點,如果直接采用傳統K-means聚類算法,顯然會造成高密度小群瓜分低密度大群的現象,于是一個符合電力客戶分布特點的改進K-means算法就顯得尤其重要。本文采用的基于改進聚類準則,同時改進聚類迭代過程的K-means聚類算法[6],應用在電力客戶價值分群上的分群聚類結果表明,該改進的聚類算法是適合實際運營數據的,并且達到了提高聚類緊湊性的效果。更加優質的分群聚類結果也可以保證決策高效實施,最終為供電企業帶來更高的收益。

本文應用的數據集來自貴陽供電局,考慮到客戶價值的關鍵指標為用電量和電費,不同客戶類在這兩個指標上的數量級差異很大,直接進行處理會造成較大的偏差,故先對該數據集人工分成了重要客戶、大客戶、重點關注客戶、居民客戶、其他客戶五個類數據,分別對這五個類數據的建模數據指標變量做了數據直方圖分布情況分析后,可以認為該數據集存在密度差異明顯,分布不均勻的特點。以居民客戶類別為例,其建模指標分布直方圖情況如圖1所示。

對應數據直方圖的各個參數取值情況如表1所示,其中,分位數可表示用于畫直方圖的數據占整個數據的百分比,范圍最小值和最大值表示畫直方圖的整個數據區間左右端點值,區間大小表示直方圖每個小區間內距離。

上面的數據分布直方圖可以看出,不管從哪個指標變量的角度看數據分布,都呈現出密度明顯不均,數據分布廣的特點。因此,直接采用傳統K-means聚類算法很容易造成瓜分稀疏大族類現象。進而本文針對貴陽供電局提供的數據特點,采用了基于改進聚類準則的K-means聚類算法,該算法可以有效地修正對于密度差異大,分布不均勻的數據集的聚類時誤分情況,使得聚類精度可以得到明顯的改善。

圖1 各指標變量頻數直方圖

表1 直方圖對應參數值

2 K-means算法及其改進

2.1 傳統K-means聚類算法

K-Means算法是在最小化誤差函數的基礎上將數據劃分為預定的類數K,采用距離作為相似性的評價指標,即認為兩個對象的距離越近,其相似度就越大。

1)傳統的聚類準則函數

其中,ni代表第i個類的樣本個數;xij代表第i個類中的第j個樣本;mi代表第i個類的聚類中心。

2)算法過程

(1)從數據集(N)中隨機選取K個對象作為初始聚類中心;

(2)分別計算每個樣本到各個聚類中心的距離,將對象分配到距離最近的聚類中;

(3)所有對象分配完成后,重新計算K個聚類的中心:

(4)與前一次計算得到的K個聚類中心比較,如果聚類中心發生變化,轉(2),否則轉(5);

(5)當質心不發生變化時停止并輸出聚類結果。

傳統K-means算法一般以歐式距離的大小度量數據對象的相似性,再加上其聚類準則函數以各個類內誤差平方之和最小為最優質結果,使得傳統算法更加適用于分布均勻,類似球形或超球體的數據。當數據分布不均衡時,該聚類結果的準確性也就會下降。

2.2 K-means聚類算法改進

2.2.1 聚類準則函數的改進

根據電力客戶數據分布密度差異明顯的特點,傳統K-means算法對數據分布的要求使其顯然已經不能滿足供電企業對其數據進行挖掘探索的要求。本文采用的基于改進聚類準則的K-means算法,將數據集中各個類的標準差和類中數據對象的個數作為改進的聚類準則函數的參考因素,以降低高密度小類瓜分稀疏大類的風險。改進的聚類準則函數如式(3)所示:

其中,N代表數據集樣本總個數,ni代表第i個類樣本個數,σi代表第i個類的標準差[7]。

改進的聚類準則函數ε中的類內標準差σi可以使得類內數據對象盡可能靠近聚類中心,其作用與傳統的聚類準則函數中各個類的誤差平方值的總和起到的作用是類似的;權重的作用主要是增加數據對象比較多的樣本類的標準差的貢獻度。

與該改進的聚類準則函數相對應的,在聚類算法的迭代過程也做了相應的修改,即將數據重新歸類到新的聚類中心時使用加權距離Wk·dist(Ck·x)取最小值的原則,權重為,該做法同樣是以增加權重的形式達到數據集大小密度不均時樣本也能準確歸類的目的。

2.2.2 改進的K-means聚類算法

K-means聚類算法改進后,聚類迭代過程中樣本對象不再被分配到距離最近的聚類中心的那個類,而是被分配到使加權距離Wk·dist(Ck·x)取最小值的那個聚類中心所在類。改進后的K-means聚類算法具體過程如下所示:

輸入:數據集(包含N個樣本)和預期類的個數(K)

輸出:聚類效果最好的K個聚類結果

1)使用隨機抽樣的方法確定初始K個聚類中心,將N個樣本對象分別分配到距離最近的聚類中心的那個類,獲得最初的N個類。

2)用傳統計算均值的方法計算出新的K個聚類的中心。

3)分別計算每個樣本到各個新的聚類中心的加權距離Wk·dist(Ck·x),將樣本對象分配到加權距離最小的類別中。

4)所有樣本對象重新分配完成后,再次計算K個聚類的中心,與前一次計算得到的K個聚類中心比較,如果聚類中心發生變化,轉3),否則轉5)。

5)當聚類中心不發生變化時停止并輸出聚類結果。

3 實驗驗證

3.1 實驗環境及模擬實驗的數據

本模擬實驗的數據集主要采用隨機[8~9]生成的方式形成,具體步驟有:1)選取兩個或三個相鄰且大小不一樣的矩形區間;2)在區間內隨機生成若干個點數據。實驗數據對象的x屬性值可以用式(4)產生,y屬性值可以用式(5)產生:

其中,rand表示在區間[a,b]上生成均勻分布的隨機數,而n表示產生隨機數的個數,a1,b1;a2,b2分別表示生成x,y的區間值。

實驗使用的參數值如表2所示,對應的可視化圖形如圖2所示。

表2 實驗數據集

圖2 實驗數據集

3.2 實驗的結果及其分析

根據生成的實驗數據集1和實驗數據集2,分別進行傳統K-means算法聚類和改進K-means算法聚類,實驗時前后兩個算法使用的初始聚類中心是保持一致的。使用實驗數據集1運行傳統K-means算法和改進K-means算法的聚類結果如圖3所示;實驗數據集2運行兩個算法的聚類結果如圖4所示。

圖3 實驗1

圖4 實驗2

對實驗結果的標準差進行對比分析如表3所示。

表3 實驗聚類各類標準差對比

K-means聚類算法[10~11]其目的是要讓類內數據對象相似度比較高,而類間的數據對象相似度較低的聚類結果,也就是得到的劃分結果中每一個類都盡可能地緊湊或者集中。從表3可以看出,實驗數據集1和實驗數據集2的平均標準差分別減少了4.09%和7.88%,數據集1類2的標準差雖然增加了4.22%,其類1的標準差卻減少了27.01%;數據集2中類2的標準差同樣增加了6.00%,但是類1和類3卻分別減少了43.61%和3.52%,總體來看,兩個數據集中大而稀疏的類其標準差都輕微變差,但是卻換來了其他小而密集的類標準差的顯著改善,達到了提高整體類內數據緊湊性的效果[12]。

由此可見,改進K-means算法通過犧牲兩個實驗數據集中的原本松散的兩個類,以提高整體的聚類效果。而原本松散的類本身就是缺少一些基本特性的類,其本身有可能是較為稀疏的類,亦或者是噪聲點、異常值之類的數據,所以將較為密集的類周邊的稀疏的數據劃分給周邊較松散的類,以達到整體聚類結果得到改進的效果。

4 改進K-means聚類算法在貴陽電力客戶價值分群的應用

4.1 改進聚類準則確定K值

對電力客戶數據進行數據探索性分析、預處理、變量標準化之后,需要先確定各類客戶的最優聚類數K,改進的K-means聚類算法有其對應的新的聚類準則函數,考慮到聚類數目的實用性以及方便決策[13~14],這里試行K值取2~5,并且取聚類準則值變化率最大的K值作為最優聚類數。分別對五大類客戶數據進行極差標準化后,運行改進的K-means聚類算法可以得到表4所示的不同情況下的聚類準則值。

表4 各個情形下聚類準則值

將以上新的聚類準則值畫成連線圖,得到圖5。

將五大類客戶數據的聚類準則函數值進行如上所示的可視化展示,不難發現適合這五大類客戶數據的最優聚類數,重要客戶數據得到聚類準則函數值在K=3時變化率達到最大,K=4時準則函數值幾乎沒什么變化,故重要客戶的最適合的分群數取3。大客戶在K=3時的聚類準則值反而比K=2時的值還要大,當K取4時聚類準則值迅速收斂,即使K值繼續增大準則值也只是小幅度的減少,故可以認為大客戶的最優聚類數K取4最適宜。同樣的方式確認重點關注客戶、居民客戶、其他客戶的最適合K值,分別得到3,3,3;也就是所有客戶類別最適宜K值取值情況如表5所示。

圖5 五大類客戶新聚類準則值

表5 各個客戶類數據的最優K值

4.2 分群聚類結果比較分析

以上述分析各個類別客戶K值的取值情況為標準對數據集逐一進行聚類[15],為了對比K-means聚類算法改進前與改進后在貴陽電力客戶分群聚類上的效果,本研究同步進行了傳統K-means聚類算法和改進K-means聚類算法,對分別聚類出來的各個群標準差進行比較分析,查看改進后的K-means聚類算法得到的分群結果對比傳統K-means聚類算法是否更密集,效果是否更優[16]。具體分群聚類效果分析如表6所示。

從表6可以看出,改進的K-means聚類算法使得電力客戶數據分群聚類結果的所有平均客戶群標準差都有顯著減少,5個客戶類的客戶群標準差平均減少14.50%,這說明改進的K-means聚類算法使得電力客戶分群聚類的各個客戶群更為緊湊。特別地,居民客戶的分群聚類結果中,所有客戶群的標準差都減少了,減少率范圍是4.88%~96.00%,明顯改善了分群聚類的效果。其他4個客戶類中雖然都會出現有一個客戶群的標準差變差了,但是促使了其它客戶群的標準差更顯著地改善,從而保證了整體分群效果的緊湊性。改進的K-means聚類算法是通過犧牲原本比較松散的簇類為代價,以確保整體的聚類效果的改善[17]。而且,原本比較松散的的簇類本身就是比較模棱兩可的簇類,很可能就是一個比較松散的群體,或者是噪聲點、異常值之類的數據,故將密度大的簇類周邊比較松散的電力客戶數據對象劃分到松散的群體,可以保證整體分群聚類效果的改進[18~19]。

表6 傳統聚類與改進聚類結果各群標準差比較

以上分析結果表明改進的K-means聚類算法顯然更適合電力客戶分群的實際情況。接著就可以對其聚類分群的結果進行進一步的解析。由于數據集在建模聚類之前使用了極差標準化的處理,這些標準化后的數據展現出來的聚類分群中心對觀察數據來說是不夠直觀明了的。為了能夠清晰明朗地觀察聚類結果的情況,可以將最終的分群中心結果還原到了原始數據集量綱的狀態下,進行分析各個客戶類的分群聚類結果。

根據改進K-means聚類算法對電力客戶分群聚類的結果與分析,銷售和管理人員可以可以根據該分析結果,針對不同的客戶群體實行差異化營銷和服務策略,進而為企業的創造更多的價值。

5 結語

綜上所述,本文采用的一種基于改進K-means聚類算法在電力客戶價值分群上的聚類效果具有更高的準確度。該算法根據實際情況運用了改進的K-means聚類的準則函數,函數目標是使得加權的簇類標準差總和達到最小,而權重為各個簇類數據對象的個數占總體數據對象個數的比例,與該聚類準則函數相匹配的,同時也在聚類的迭代過程中加了權重,即使用了各個簇類的標準差開方后的倒數為距離的權重替代傳統K-means聚類的直接計算歐氏距離的迭代過程。經研究驗證,本文采用的改進K-means聚類算法在電力客戶價值分群上聚類效果得到明顯改善。下一步,可以在K-means聚類算法的初始聚類中心上做優化。

[1]盧建昌,樊圍國.大數據時代下數據挖掘技術在電力企業中的應用[J].廣東電力,2014,27(9):88-93.

LU Jianchang,FAN Weiguo.Application of data mining technology in electric power enterprisses in era of big data[J].Guangdong Electric Power,2014,27(9):88-93.

[2]李泓澤,郭森,王寶,等.基于遺傳改進蟻群聚類算法的電力客戶價值評價[J].電網技術,2012,36(12):256-261.

LI Hongze,GUO Sen,WANG Bao,et al.Evaluation on power customer value based on ants colony clustering algorithm optimized by genetic algorithm[J].Power System Technology,2012,36(12):256-261.

[3]李薈嬈.K-means聚類方法的改進及其應用[D].哈爾濱:東北農業大學,2014.

LI Huirao.Improved K-means clustering method and its application[D].Harbin:Northeast Agricultural University,2014.

[4]張永晶.初始聚類中心優化的K-means改進算法[D].吉林:東北師范大學,2013.

ZHANG Yongjing.Improved K-Means algorithm based on optimizing initial cluster centers[D].Jinlin:Northeast Normal University,2013.

[5]翟東海,魚江,高飛,等.最大距離法選取初始簇中心的K-means文本聚類算法的研究[J].計算機應用研究,2014,31(3):714-719.

ZHAI Donghai,YU Jiang,GAO Fei,et al.K-means text clustering algorithm based on initial cluster centers selection according to maximum distance[J].Application Research of Computers,2014,31(3):714-719.

[6]AGGARWALCC,LI Yan,WANG Jian-yong,et al.Frequent pattern mining with uncertain data[C]//Proc of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM Press,2009:29-38.

[7]郝拉娣,于化東.標準差與標準誤[J].編輯學報,2005,17(2):116-118.

HAO Lati,YU Huadong.Standard deviation and standard error[J].Acta Editologica,2005,17(2):116-118.

[8]宋勇,陳賢富,姚海東.隨機數發生器探討及一種真隨機數發生器實現[J].計算機工程,2007(5):71-73.

SONG Yong,CHEN Xianfu,YAO Haidong.Discussion on high-quality RNG and scheme of true RNG[J].Computer Engineering,2007(5):71-73.

[9]張宜浩,金澎,孫銳,等.基于改進k-means算法的中文詞義歸納[J].計算機應用,2012,32(5):1332-1334.

ZHANG Yihao,JIN Peng,SUN Yue,et al.Chinese word sense induction based on improved k-means algorithm[J].Journal of Computer Applications,2012,32(5):1332-1334.

[10]張世博.基于優化初始中心點的K-means文本聚類算法[J].計算機與數字工程,2011,39(10):30-31.

ZHANG Shibo.AK-means text clustering algorithm based on optimizing initial points[J].Computer&Digital Engineering,2011,39(10):30-31.

[11]李應安.基于MapReduce的聚類算法的并行化研究[D].廣州:中山大學,2010.

LI Yingan.Research on parallelization of clustering algorithmbasedonmapReduce[D].Guangdong:Sun Yat-sen University,SYSU,2010.

[12]宋亞奇,周國亮,朱永利,等.智能電網大數據處理技術現狀與挑戰[J].電網技術,2013,37(4):927-935.

SONG Yaqi,ZHOU Guoliang,ZHU Yongli,et al.Present status and challenges of big data processing in smart grid[J].Power System Technology,2013,37(4):927-935.

[13]李智勇,吳晶瑩,吳為麟,等.基于自組織映射神經網絡的電力用戶負荷曲線聚類[J].電力系統自動化,2008,32(15):66-70.

LI Zhiyong,WU Jingying,WU Weilin,et al.Power customers load profile clustering using the SOM neural network[J].Automation of Electric Power Systems,2008,32(15):66-70.

[14]劉友波,劉俊勇,趙巖,等.基于多目標聚類的用電集群特征屬性計算[J].電力系統自動化,2009,33(19):46-51.

LIU You,LIU Junyong,ZHAO Yan,et al.Present status and challenges of big data processing in smart grid[J]. Power System Technology,2009,33(19):46-51.

[15]王錦,王會珍,張俐.基于維基百科類別的文本特征表示[J].中文信息學報,2011,25(2):27-31.

WANG Jin,WANG Huizhen,ZHANG Li.Text representation by the Wikipedia category[J].Journal of Chinese Information Processing,2011,25(2):27-31.

[16]何永秀,王冰,熊威,等.基于模糊綜合評價的居民智能用電行為分析與互動機制設計[J].電網技術,2012,36(10):247-252.

HE Yongxiu,WANG Bin,XIU Wei,et al.Analysis of residents'smart electricity consumption behavior based on fuzzy synthetic evaluation and the design of interactive mechanism[J].Power System Technology,2012,36(10):247-252.

[17]索紅光,王玉偉.一種用于文本聚類的改進k-means算法[J].山東大學學報,2008,43(1):60-64.

SUO Hongguang,WANG Yuwei.An improved k-means algorithm for document clustering[J].Journal of Shandong University,2008,43(1):60-64.

[18]王利朋,劉東權.基于粒子群算法的柔性形態學濾波器[J].計算機應用,2010,30(10):2811-2814.

WANG Lipeng,LIU Dongquan.Softmorphological filter based on particles warm algorithm[J].Journal of Computer Applications,2010,30(10):2811-2814.

[19]何徑舟,王厚峰.基于特征選擇和最大熵模型的漢語詞義消歧[J].軟件學報,2010,21(6):1287-1295.

HE Jingzhou,WANG Houfeng.Chinese word sense disambiguation based on maximum entropy model with feature selection[J].Journal of Software,2010,21(6):1287-1295.

Application of Improved K-means Clustering Algorithm in Clustering Based on Power Customer Value

ZHU ZhouWU Yang
(Information Center of Guizhou Power Grid Co.,Ltd,Guiyang550003)

This paper uses an improved criterion based on K-means clustering algorithm applied in electric power customer clustering research.According to the characteristics of electricity customers to implement different marketing strategies and provide differentiated services,accurate grouping of power customer need to be made.Traditional K-means clustering algorithm in data distribution uniform data of similar spherical agglomeration effect is better,once the unbalanced distribution density of data sets,class cluster size have significant difference,while the traditional K-means algorithm is easy to make thin categories carved up by high density small class clusters,resulting in electricity customer segmentation correct rate.This paper uses an improved K-means clustering algorithm based on the characteristics of the unbalanced data distribution of the actual power customers.Improved K-means algorithm puts up with a new weighting criteria,and modifies the clustering iterative process based on the criteria.The electricity customer data cluster results show that the improved K-means clustering algorithm and the cluster effect of each group of compactness can be improved effectively.The classification error conditions are improved obviously.

K-means algorithm,new clustering criterion,iterative weight,correct rate,standard deviation

TP391

10.3969/j.issn.1672-9722.2017.06.008

2016年12月15日,

2017年1月21日

朱州,男,博士,高級工程師,研究方向:電網信息化建設與數據分析管理。

主站蜘蛛池模板: 69视频国产| 亚洲品质国产精品无码| 麻豆精品国产自产在线| 美女无遮挡免费视频网站| 91色国产在线| 国产swag在线观看| 久久无码av一区二区三区| 中文字幕在线播放不卡| 欧美亚洲一区二区三区在线| 国产成人禁片在线观看| 国产精品无码AV片在线观看播放| 久久中文电影| 亚洲精品无码AⅤ片青青在线观看| 91口爆吞精国产对白第三集| 乱人伦中文视频在线观看免费| 美女国产在线| 4虎影视国产在线观看精品| 成人午夜视频在线| 中文字幕av无码不卡免费| 在线观看国产精品第一区免费| 曰AV在线无码| 中国美女**毛片录像在线| 福利片91| 欧美中文字幕在线视频| 久无码久无码av无码| 国产黄视频网站| 久久久久无码国产精品不卡| 一级全免费视频播放| 国产高清无码第一十页在线观看| 欧洲熟妇精品视频| 激情亚洲天堂| 亚洲天堂日韩在线| 四虎国产成人免费观看| 欧美.成人.综合在线| 久久国产亚洲偷自| 婷婷综合缴情亚洲五月伊| 国内精品小视频福利网址| 亚洲人人视频| 国内99精品激情视频精品| 青青草原国产一区二区| 久久人人妻人人爽人人卡片av| 一区二区无码在线视频| 亚洲IV视频免费在线光看| 无码免费视频| 一区二区影院| 91在线视频福利| 亚洲视频无码| 亚洲三级色| 国产精品va免费视频| 91福利片| 四虎永久免费地址在线网站| 国产精品视频导航| 精品人妻AV区| 亚洲色欲色欲www在线观看| 欧美一级大片在线观看| 欧美天堂在线| 澳门av无码| 亚洲男人的天堂久久香蕉| 亚洲h视频在线| 中文字幕精品一区二区三区视频| 国产福利小视频高清在线观看| 亚洲人在线| 婷婷综合缴情亚洲五月伊| 一本色道久久88| 成人一区在线| 制服丝袜无码每日更新| 26uuu国产精品视频| 中文字幕亚洲综久久2021| 亚洲一区二区三区香蕉| 日韩欧美成人高清在线观看| 波多野结衣一区二区三视频| 国产黄在线免费观看| 日韩a在线观看免费观看| 亚洲美女久久| 91亚洲精选| 亚洲动漫h| 国产成人久视频免费| 亚洲无码高清免费视频亚洲 | 亚洲综合18p| 亚洲妓女综合网995久久| 色视频久久| 久青草免费视频|