基于粗糙集及AC聚類算法的用電客戶信用知識挖掘

2012-04-29 00:00:00任國慶閆生

中華建設科技 2012年11期

【摘要】用電客戶信用關系是供電企業客戶關系管理的重要內容。在分析對用電客戶的信用評價指標體系的基礎上，提出基于粗糙集及AC聚類算法的用電客戶信用評價模型。首先借助粗糙集理論，對指標進行屬性約簡，并運用自組織數據挖掘中的Knowledge Miner軟件，采用AC聚類算法對用電客戶進行聚類分析，從而得到各個用電客戶的信用等級。最后結合聚類結果，利用ID3算法，建立決策規則，得出具有一般指導意義的用電客戶信用評價的規則知識。

【關鍵詞】粗糙集屬性簡約；AC聚類；ID3算法；用電客戶

1. 引言

（1）隨著電力體制改革的推進和電力市場化進程的加快，供電企業在電力市場上面臨著越來越激烈競爭。一方面，用電客戶逐漸成為競爭的焦點，提高用電客戶滿意度與供電企業自身的經濟效益緊密相關；另一方面，供電企業先消費后付款的特殊交易方式，造成有些用電客戶拖欠電費。因此，供電企業需要對用電客戶進行有效的信用評價，對不同信用等級的客戶采用不同的營銷策略，建立信用激勵機制，提高供電企業用電營銷輔助決策水平。

（2）目前，隨著用電客戶信用評價成為供電企業客戶關系管理的重要內容，有關用電客戶信用評價方面的研究成果也在不斷的增多。目前常用的方法主要有綜合評估法［3］、模糊多屬性方法［4］、主客觀評價的方法［5］、模糊偏序方法［6］等。這些研究從不同角度，為解決用電客戶信用評價問題提供了一些值得借鑒的思路和方法。上述方法在進行用電客戶信用評價時各有特點，但其評價指標較多，精煉性稍顯不足。隨著信用評價體系指標不斷增多，指標之間不可避免的存在一定的關聯性、交叉性，其重要性也不盡相同，從復雜的指標體系中篩選出重要的指標也是進行用電客戶信用評價的一個重要方面，因而本文把在指標屬性約簡方面具有強大優勢的粗糙集理論引入用電客戶的信用評價中。

（3）粗糙集是一種處理不精確、不相容和不完全數據的數學工具，這一理論主要的應用是對含有大量冗余信息的知識系統進行約簡，它不僅具有模擬人類邏輯思維的能力，而且能有效地分析和處理不精確、不一致、不完整的信息［9］。該方法的主要優點在于它不需要預先給定某些特征或屬性的數量描述和模型假定，但單純地使用粗糙集理論不一定總能有效地解決不精確或不確定的實際問題。因此本文在粗糙集基礎上，采用AC聚類的方法，實現對用電客戶的信用評價。最后結合ID3算法，得到用電客戶信用評價的決策規則，具有一般性的指導意義。

2. 基本原理

2.1 粗糙集理論［1，12］。

2.1.1 定義1 某個屬性子集PA，x，y∈U 為兩個數據實體，如果有a ∈B，f（x，a）=f（y，a）這時稱x ，y 在屬性集 A上是不可分辨的，也稱為等價關系。在信息系統中，不可分辨關系可以定義為：IND（P）=｛（x，y）∈U×U｜a ∈P，f（x，a）=f（y，a）｝

由這種等價關系導出的對 U的劃分記為 U/IND（P）。

2.1.2 定義2 粗糙集理論的不確定性是建立在上、下近似的概念上的。令XU 是一個集合， IND（P）是 U上的等價關系，則：上近似集 IND（P）-（X）=∪｛Y∈U/IND（P），YX｝，下近似集 IND（P）-（X）=∪｛Y∈U/IND（P），Y∩X≠｝

設T=（U，A，C，D）是決策表，如果去掉屬性 a，得到的表 T1=（U，A-｛a｝，c-｛a｝，D）與表 T=（U，A，C，D）相比，有PosC（D）=PosC- ｛a｝（D），則稱屬性 a是關于 D可省的。其中， PosC（D）=UX∈U/IND（D）P-（X）是D 關于 P的正域。

相對于決策屬性集合，如果有無條件屬性Ci 對決策屬性集合的影響不大，則可認為 Ci 的重要程度不大。屬性集中Ci 的重要度可表示為［9］：

μ（i） =card（PosC（D）-PosC-｜Ci｜（D））/card（U）（1）

其中，card 為元素個數屬性。

根據所求得屬性的重要度，可以獲得其在屬性集合中的相對權重。對求得的屬性重要度進行權值化處理可得［9］：

wi = μ（i） /∑n i=1 μ（i）（2）

其中， wi 是第i 項屬性的權重， μ（i）為第i 項屬性的屬性重要度， n為屬性的個數。

2.2 AC算法的原理。

（1）由Laurence發展起來的相似體合成算法AC （Analog Complexion）首先成功地應用于氣象的預測，經過不斷的發展與改進，在理論和應用方面取得了不少突破性的進展，已經能夠取得很好的預測效果。后來烏克蘭的A.G.Ivakheneko院士把它應用于聚類，并且把AC算法和GMDH結合起來，將GMDH的核心思想應用到AC聚類算法中。國內對AC算法的研究主要是建立在四川大學賀昌政教授研究的基礎之上。

（2）AC算法可以看作是對復雜對象的預測、聚類和分類的一種序列模式識別方法［14］。AC聚類算法，假設每個樣本（或者變量）作為一個模式，通過計算其他模式與該模式的相似程度，從而把較為相似的模式歸為一類，不相似的模式歸為不同的類。AC聚類算法中兩個模式的差異用兩個模式的距離表示，通常用歐式距離或海明距離表示。

（3）由于不同時期的相似模式可能具有不同的平均值和標準方差。為了下面將進行的模式間相似性的度量，必須尋找待選模式到參照模式的變換，來描述這些差異，即將模式變換到同一基準點上，從而使其具備可比性。一般取線性變換：

（4）AC聚類算法把所有的樣本組成的數據集和看作一個狀態空間，對每一個樣本的聚類，把他們看作是一個狀態空間的聚類。狀態空間以變量 x1，x2，…xm為軸，對象 Oi是空間待分類的點。每個對象Oi 或多或少與其他對象有所不同。這種差別能由 sikh算得，k=1，2， …，N；hi=1，2， …，N 。因此，聚類的基礎是對稱的相似性矩陣

siNN =｜sikh｜。聚類的任務是將狀態空間再分成個相似對象的類。

（5）近年來，AC算法由于結合歸納自組織數據挖掘方法和先進的選擇程序而增強了應用能力［13］，通常，AC算法包含3個步驟：一是待選模式的產生；二是待選模式的變換；三是相似模式的選取。

3. 粗糙集及AC聚類算法的應用

3.1 粗糙集對信用評價指標的約簡。

（1）信用評價根據評價對象的不同，可選取不同的評價指標。基于我國用電客戶的一些基本情況，確定本文信用評價的指標［4～5］（見圖1）：

以上指標屬于條件屬性C ，決策屬性 D=最后總得分（由專家打分得到）。

本文以某供電企業的12家客戶的數據為例，進行信用評價。首先采用等距離法對樣本數據進行離散化處理，STEP=（MAX-MIN）/3，MAX表示每一列的最大值，MIN表示每一列最小值，把每一列的屬性值分為3個等級，高（MIN+2*STEP，MAX）用3表示，中（MIN+ STEP，MIN+2*STEP）用2表示，低（MIN，MIN+ STEP）用1表示，得出個指標值轉換成Rough Set的數據格式。

由于條件屬性C1 的子指標資產負債率（C1 4 ）為逆指標，即比率越低則客戶償債能力越強，反之償債能力越弱。本文采用閾值法［2］對該指標進行了無量綱化處理，將其轉化為正指標。決策表1表示的是離散后的條件屬性 C1 的相關數據。

根據二級指標的權重，分別加權得到一級指標C1 的相關數據，結合其它指標的相關數據，匯總得到表2。其中D 表示各個客戶價值類型，即最終信用等級，將通過下文的AC聚類算法得到。

3.2 AC聚類算法的應用。

利用AC聚類法，運用Knowledge Miner軟件處理，按照90％相似度進行聚類，分為3類，按照從高到低的順序排列，具體分類如下：

根據AC聚類的Class Membership，我們設這三類的Y 值為3，2，1，分別表示高、中、低。整理后可得表2。

該供電企業的12個用電客戶可以分為三類，信用較好；信用一般；信用較差。

根據評價的結果，該供電企業可以針對不同信用等級客戶實行差異化的營銷策略。

4. 規則知識挖掘

根據以上計算分析結果，本文采用數據挖掘技術中的ID3算法對用電客戶的信用信息進行知識挖掘，從中得出可以對其他用電客戶進行信用評價的一般性規則知識。

利用ID3算法，得到以下信用評價的決策樹：

（1）首先，商業信用在用電客戶信用評價中占有最大的信息增益，在決策中決定作用。

商業信用較好的客戶，其信用也較好；商業信用較差的客戶，其信用也較差。商業信用一般的客戶需要結合其他三個方面的內容才能確定其信用等級。

（2）其次，法律信用的信息含量也很高，即使商業信用一般，如果法律信用較好，該客戶的信用等級仍屬于“高”。

（3）最后，當商業信用、法律信用及安全信用都處于“一般”的情況下，合作信用，無論是一般，還是較差，其信用等級都處在“低”的水平上。

5. 結論

本文運用粗糙集理論和AC聚類算法對用電客戶進行信用評價，結合了粗糙集在屬性簡約方面的強大功能，克服了冗余屬性對運算量的影響，從而簡化了信用評價的指標體系，提高了評估的效率。并利用AC聚類算法進行聚類分析，結合ID3算法挖掘出具有一般意義的用電客戶信用評價得規則知識。為用電客戶的信用評價以及供電企業的客戶關系管理提供了一種較為有效的決策支持方式。

參考文獻

［1］ Pawlak Z．Rough set theoretical aspects of reasoning about date［M］．Poland：Warsaw，1991．

［2］胡永宏，賀思輝．綜合評價方法［M］．北京：科學出版社，2000．

［3］伍萱．客戶信用管理體系的建立［J］．中國電力企業管理，2002 （11）：33～35．

［4］李翔，楊淑霞，黃陳鋒．基于模糊多屬性決策法的用電客戶信用評價［J］．電網技術，2004 ，28（21）：55～59．

［5］楊淑霞，呂世森，喬艷芬．用電客戶信用的主客觀評價及分析［J］．中國電力，2005，38（6）：1～4．

［6］吳為濤．電力客戶信用等級分析［D］．北京：華北電力大學學士學位論文，2004．

［7］鐘波，肖智，周家啟．組合預測中基于粗糙集理論的權重的確定方法［J］．重慶大學學報，2002．

［8］楊振峰，郭景峰，常峰．一種基于粗集的簡約方法［J］．計算機工程，2003（6）：15～16．

［9］雷紹蘭，孫才新，周濠，張曉星．模糊粗糙集理論在空間電力負荷預測中的應用［J］．電網技術，2005，29（9）：26～30．

［10］楊綸標，高英儀編著.模糊數學原理及應用［M］．3版.廣州：華南理工大學出版社，2001.3．

［11］張文修，吳偉志，梁吉業等. 粗糙集理論與方法［M］.北京：科學出版社， 2001.

［12］ Lemke F， Mueller J A. Self-organizing Data

Mining for a Portfolio Trading System. Journal for Computational Intelligence in Finance. 1997， 5（3）： 12～26.

［13］賀昌政.自組織數據挖掘與經濟預測［M］.北京：科學出版社，2005.

［14］廖斌，何躍.基于AC聚類方法和GMDH的品牌競爭力分析［J］.科技情報開發與經濟，2005， 15（15）： 135～137.

［15］張智勇，賀昌政。AC聚類方法與層次聚類方法的比較研究［J］．科技情報開發與經濟，2005，15（19）：168～169．

［16］朱迪茨．實用數據挖掘［M］．北京：電子工業出版社，2004．

中華建設科技2012年11期

中華建設科技的其它文章: 現澆混凝土箱梁兩種排架組合方式的比較; HFW的工藝研究; 淺談PLC在隧道智能監控系統中的應用; 公路高填方路段加筋土擋墻施工技術應用和優特點分析; 橋頭跳車的產生與防治探討; 對公路工程路基處理的探討