王巖, 陳孝文, 許家偉
(海南電網有限責任公司信息通信分公司, 海南, ???570203)
社會信用體系[1]已在各行各業全面展開,尤其是在金融、通信、電子商務等領域已有廣泛的應用基礎[2-4]。為此,可將信用評估體系引入電力系統,采用不同的信用評估模型,以在一定程度上遏制用戶竊電、欠費等行為。目前,大量研究提出了許多不同的信用評估模型。根據模型類型不同,常用信用評估模型[5-6]主要分為兩類:統計方法和人工智能方法。統計方法實現簡單,可移植性強,然而計算精度有限。
為此,本文提出了一種基于混合模型的電力用戶信用評估方案。首先,在低計算和操作成本下,使用改進的自適應彈性網絡模型,可從諸多的電力信用數據中取得了一些關鍵特征,讓分類結果變得更加準確。其次,基于自適應孤立森林方法構建噪聲增強數據集,從而增強模型對噪聲數據的魯棒性,同時,該方法也可緩解模型過度擬合的問題。最終,我們決定使用雙層集成模型來對ELM模型分類器進行改進,通過增加分類器之間的差異性讓訓練效果和性能等得以提升。
令電力用戶歷史信用評分數據表示為(xi,yi),i=1,2,…,N,xi是一個由xi1,xi2,…,xip組成的列表,用于描述電力客戶的信息。yi為類別標簽。因此,回歸模型可構建如下:
(1)

(2)
由式(2)可以看出,較大的λ使βj中的一些系數縮減至零,即Lasso模型[7]將系數逐漸減小到零,而λ逐漸增大。此外,考慮到Lasso模型能夠容納任意數量的變量,因此可以同時進行系數的縮減和特征(變量)的選取。

(3)

(4)
(5)

依照以上的計算結果,可挑選出更關鍵的特征。接下來,本文將這些重要特征組合出了一些特征向量,并輸入到且電力用戶信用評分模型中,以確保在成本不高的前提下,讓分類結果變得更加準確。
解決數據集中的噪聲問題是對分類或回歸準確度造成重要影響的一個巨大挑戰[8]。一般而言,電力用戶的信用數據可能會受到兩種干擾的影響:類別噪聲和屬性噪聲。前者指代數據被錯誤分類的情況,而屬性噪聲指代數據中有錯誤的屬性數值。
考慮到在實際情況下,對比數據空間中密集區域的數據,在數據稀疏分布區域的數據點出現的可能性不是很高,所以可把其作為是異常值。為了對這些噪聲數據進行檢測,文章提出了一種自適應孤立森林噪聲方法(AIFNM)。首先,此方法使用異常程度對離群值的分數進行計算,以便于對數據中的噪聲進行檢測。然后,把這些噪聲數據逐步加入到訓練集中,然后建立了一個適應噪聲的自適應訓練集。對比原始數據集,噪聲自適應訓練集中涵蓋了相對較多的噪聲數據。這樣做不只是可以讓模型對噪聲數據的適應性變得更強,也在一定程度上減少過擬合現象。
AIFNM執行過程如圖1所示。令訓練集大小為算法應用于大小為N。首先,通過計算每個數據點的離群值得分來確定分離數據點。其次,找到有著較高異常值得分的數據點,然后創建出能適應噪聲的訓練樣本,以便于讓訓練集的效果得以強化。

圖1 AIFNM執行過程
極限學習機(ELM)模型,本質上就是一種單隱層前饋神經網絡(SLFN)。對比其他模型,ELM模型的獨特之處在于它使用隨機選擇的輸入權重和隱含偏差,且避免了要進行調整的步驟[9]。同時,隱含層輸出矩陣的穆爾-彭羅斯廣義逆矩陣可用于分析和確定輸出權重。ELM模型具有良好的泛化性能,可有效減少訓練過程的迭代時間。
對于任意電力用戶歷史信用數據(xi,yi),輸入向量xi=(xi1,xi2,…,xip)T∈Rp為具有p維特征的第i個樣本,輸出Y=[y1,y2,…,yN]。其中,輸入神經元p個,用來對輸入特征的數量進行描述。同時還有隱藏神經元L個、輸出神經元C個,用來對輸出類別的數量進行描述。同樣地,存在一個稱為權重矩陣K的輸入矩陣。其中每個kj向量由p個輸入神經元與第j個隱藏神經元的連接組成。以b=[b1,b2,…,bj,…,kL]來描述隱藏神經元的偏差,其中bj為第j個隱藏神經元的偏差,ELM的輸出可在下式中來計算:
h(xi)=G(Kxi+b)
(6)
式中,G()為激活函數。令H為所有樣本的輸出,則H可計算如下:
(7)
ELM的輸出可以通過以下計算獲得,其中隱藏節點i的輸出向量表示為第i列,輸入xj的隱藏層輸出向量表示為第j行:
(8)
式中,αi=[αi1,αi2,…,αiC]T為連接第i個隱藏節點與輸出節點的權重向量。

(9)
將式(9)轉化為線性方程,則可得式(10):
Hα=Y
(10)
根據式(10),可以使用最小二乘法估計輸出權重值,具體計算如下:
(11)
式中,H+為矩陣H的穆爾-彭羅斯廣義逆矩陣。對于電力用戶信用評分分類,ELM的輸出計算如下:
(12)
當對ELM模型輸出的多組分類器進行組合優化時,當一個分類器明顯表現和其他分類器有所不同的時候,傳統的投票或堆疊方法有可能會對整個模型產生一些負面效應[10]。所以,在本節中,筆者提出了一種改進的雙層集成模型,旨在對ELM模型分類器組合的效果作出改進,以便于對“壞值”分類器帶來的不良影響作出改善。
根據圖2,雙層集成模型由2個組件而構成。第一層組件采用ELM模型作為分類器,其輸出包括(Cf1、Cf2、…、CfM)作為分類結果。首先,訓練3個分類器的時候,我們可以選擇按照以下順序使用投票或堆疊分類器的方法。這些訓練過程是:

圖2 雙層集成模型結構圖
(16)

在第二層中,使用投票或堆疊分類器的方法進行訓練。本文依次把4個第一層的集成分類器的輸出結果輸入到第二層,然后把其進行合并。具體而言,可以把合并后的結果當作其中的輸入,用于完成一個新的集成分類器的訓練如下:
(17)

最后,本文對多個評估指標做出計算,得出每個分類器的平均排名,且在測試集上評估排名最高的集成模型,以保證分類效果最好。
研究所用數據集為中國某電力公司提供的電網內部基礎數據,包括不同公司的用電基本屬性信息、用電業務行為信息、繳費方式信息、用電消費信息、用電可靠性信息、負荷特征信息、欠費信息、違章用電信息等共計13 472個樣本數據。數據集中的公司包含外貿、制造業、電信、信息技術、能源、農業、房地產、制藥等8類共計59個公司,每個公司包含15個特征屬性。
首先,通過針對這些數據集進行數據清洗和預處理,我們成功排除了樣本中有錯誤數據(缺失值超過80%)的樣本。因此,最終的數據集包括了9843個正常用電樣本和623個異常用電樣本。其次,通過使用自適應彈性網絡回歸模型,我們可確定出在眾多特征中有著很重要的特征。同時,將這些重要特征組成特征向量并帶入電力用戶信用評分模型,從而保證低計算和操作成本前提下,獲取更為精確的分類結果。經過特征提取后,數據集維度空間為8,其中包含4個連續屬性(用電消費信息、負荷特征信息、欠費信息、違章用電信息),4個離散屬性(電基本屬性信息、用電業務行為信息、繳費方式信息、用電可靠性信息)??梢钥闯?該數據集具有多維度、樣本不均衡(異常用電與正常用電比例約為1∶15.8)等特點。
此外,為保護用電客戶的隱私信息,將數據集中所有包含公司屬性相關的名稱去除。進一步,將數據集按8∶1∶1劃分為訓練集、測試集和驗證集。
首先,借助基于孤立森林的噪聲自適應模型,可以創建一個訓練集,其中包含了被用來處理噪聲數據的樣本,可以提高模型對這些數據的適應能力,從而在一定程度上把過擬合能力有所減少。其次,為了應對數據不均衡問題,本文提出了一種解決方案。首先,本文運用了ELM分類器針對這些數據開展分類,且確定了其中最佳的分類器數量。接著,本文通過一些訓練集針對上述分類器來完成相關的訓練。為了提升實驗結果的穩定性,并減少偶然性的影響,本文重復了每組實驗30次,且計算了這些實驗結果的平均值,以便于對模型的性能進行評估。
實驗時選取準確率、Brier分數和曲線下面積(AUC)作為指標驗證不同算法性能。同時,我們在這里選擇了決策樹(DT)、動態貝葉斯網絡(DBN)和極限學習機(ELM)等模型,以及對比了混合模型。
2.3.1 特征提取對比分析
依照表1的數據,應用自適應彈性網絡(AEN)特征提取方法,各個模型中的諸多性能得以改善。提取特征以后,DT模型的準確率直接提高了0.004,SVM模型提高了0.006,RF模型提高了0.013,DBN模型提高了0.006,ELM模型提高了0.003。因此,應用AEN對分類器的分類結果有很大的幫助。根據相關的分析結果來看,AEN能有效消除冗余和不相關的變量,讓模型訓練的效率有所提升,而且對訓練結果作出改善。

表1 特征提取前后不同模型性能
2.3.2 噪聲數據對比分析
在使用自適應孤立森林噪聲方法(AIFNM)之前和之后,不同模型性能的統計結果如表2所示。由表2可知,經自適應噪聲增強后,除RF模型準確率降低0.013之外,其余DT、SVM、DBN和ELM模型準確率分別提升0.003、0.002、0.002和0.007。因為數據集嚴重不平衡,導致隨機森林在提取有效信息和識別正樣本方面的表現相對較弱,模型性能沒有明顯的改善。所以,可以得出結論AIFNM方法有助于提高分類模型的性能并減少其隨機性。

表2 噪聲數據處理前后不同模型性能
2.3.3 最終性能
表3是所提方法應用特征提取、噪聲增強數據集后,在集成模型中最終的訓練結果。其中平均排名為第二層輸出的所有分類器進行平均排名統計后的結果(30次實驗中將第二層輸出分類器平均排名按從小至大統計)??梢钥闯?對比表1和表2中的基礎分類器,雙層集成分類器表現出明顯的優勢,其性能指標相對而言較為突出。最佳分類器的準確率大約可以達到88.1%。此外,模型的平均排名越高,性能越優,集成分類器的泛化性和魯棒性越好。

表3 所提模型最終性能
本文基于電網內部基礎數據提出了基于混合模型的電力用戶信用評估模型。首先,基于改進的自適應彈性網絡模型從大量電力信用數據中提取重要特征。其次,基于自適應孤立森林方法構建噪聲增強數據集,從而增強模型對噪聲數據的魯棒性。為了解決“不良”分類器對ELM模型分類器而帶來的不利影響,本文最終采用了雙層集成模型。通過該研究,提出了一種新的方法來對電網電力營銷風險進行分析,以改善電力風險管理和對營銷服務情況作出改善。
今后的研究,將會主要關注保護電力用戶隱私和增強配電網網絡安全,以進一步提升配電網數據的安全性和服務管理能力。