王鴻健
(邵陽醫專 網絡中心,湖南 邵陽 422000)
基于信息熵的電力負荷預測算法研究
王鴻健
(邵陽醫專 網絡中心,湖南 邵陽 422000)
從粗集理論和信息論出發,依據屬性約簡的判斷標準,提出了基于信息熵的電力負荷預測最佳屬性集發現方法.
數據挖掘;粗集理論;信息熵;屬性集
從粗集理論和信息論[1,2,3,4]出發,我們將電力負荷預測系統看作是一決策系統,相關環境因素變量即為條件屬性,待預測負荷量即為決策屬性.則從所有可能相關的環境因素中去除冗余或次要的環境因素以及選擇重要的環境因素,即是屬性約簡[5,6,7]及屬性重要性的衡量問題.
方法包括兩個主要步驟:
2.1 屬性值離散化:對待挖掘電力負荷數據庫T各屬性上的取值分別進行合理分類,并以類別標識代替各記錄在該屬性上的取值,形成離散化后的負荷數據庫TA.
2.2 電力負荷預測最佳屬性集發現:由離散化后的電力負荷數據庫TA,將全部相關環境因素屬性集C作為初始條件屬性集,依據粗集理論和信息論的屬性重要性的衡量標準及屬性約簡的判斷依據,對C進行逐步約簡,刪除冗余和次要的屬性,得到電力負荷預測最佳屬性集.
下面我們分別給出這兩部分的實現算法.
輸入:離散化后的電力負荷數據庫TA=,其中C、D分別為相關環境因素屬性集和負荷量屬性集
輸出:相關環境因素屬性集C的一個最佳屬性集B
Step1:計算TA中D相對于C的條件熵H (D|C)
Step2:計算D相對每個屬性ai∈C的條件熵H(D|{ai}),將ai按H(D|{ai})降序排列得隊列QUEUE(ai)(ai∈C)
Step3:令B=C.設置屬性重要程度閥值ε的初值
Repeat
(1)取隊列QUEUE(ai)的頭元素a1,并將a1從隊列中刪除
(2)計算屬性集D相對屬性集B在刪掉ai后的條件熵H(D|B-{ai})
(3)如果H(D|C)=H(D|B-{ai})
表明屬性ai為冗余屬性,應當約簡,B=B-{ai}否則
如果0<H(D|B-{ai})-H(D|C)<ε
表明屬性ai為非重要屬性,根據需要決定是否約簡.若約簡,B=B-{ai}
否則
表明屬性ai是重要屬性,不能被約簡,B不變until屬性集B不再發生變化
我們以電力預測日整點時刻的負荷值時,確定選擇哪些相關環境變量作為主要輸入變量對提出的電力負荷預測最佳屬性集發現算法進行了測試.我們的實驗設計如下:
我們收集了湖南省電力局09.2.l-09.5.31的每日12點時刻的負荷值共120條記錄樣本信息(列出其中21條,表1),其中每個樣本含有6個條件屬性和1個決策屬性.這些條件屬性為C={當天最高溫度、當天最低溫度、當天日期類型、前1天12點時刻的負荷值,前2天12點時刻的負荷值,前7天12點時刻的負荷值}.決策屬性為D={當天12點時刻的負荷值}.
利用該算法求最佳屬性集的過程如下:
(1)按1.1所述方法進行屬性值離散化.設屬性重要程度閥值ε=0
(2)計算決策屬性集D相對條件屬性集C的條件熵為H(D|C)=0
(3)計算屬性集D相對屬性集B在刪掉ai后的條件熵H(D|B-{ai}),得到結果如表2,在2中,前2天12點時刻的負荷值條件信息熵為0,說明前2天12點時刻的負荷值對預測當天12點時刻的負荷值沒有什么幫助,可以約簡.繼續用同樣的方法對剩下的屬性進行計算,發現再無法找到其他滿足條件的屬性,因此算法結束.最后得到的屬性集為{當天最高溫度、當天最低溫度、當天日期類型、前1天12點時刻的負荷值,前7天12點時刻的負荷值},圖1的數學擬合曲線證明了該算法的有效性和科學性.
通過和仿真擬合曲線的對比,發現這種算法能夠比較準確的反映真實值,預測誤差很低,不到5%,達到了理想的預測效果,證明了這種算法的科學和可行.

表1 湖南省電力局09年4月份負荷數據表

表2 各條件屬性的條件信息熵

圖1 負荷實際值與預測值的擬合曲線
a.該算法設計簡單,分類適中,利用該算法能夠比較準確的預測.
b.仿真和實例證明,在分類復雜或過少的不全面的前提下,該算法能夠迅速提煉最佳屬性集,能夠比較真實的預測實際值,大大減少工作的復雜度,提高工作效率.
〔1〕Pawlak Z,Grzymala-Busse J,Slow inskiR,et al.Rough sets.Communication ofthe ACM, 1995,38(11):88-95.
〔2〕Ivo Duntsch, Gunther Gediga.Uncertainty measures of rough set prediction.Artificial Intelligence,1998.106,109-137.
〔3〕Hu X, Cercone N.Learning in relation database:A Rough set approach.International Journal of Computational Intelligence,1995,11(2):323-338.
〔4〕苗奪謙,王鈺.粗糙集理論中概念與運算的信息表示[J].軟件學報,1999,10(2):113-116.
〔5〕常犁云,王國胤,吳渝.一種Rough Set理論的屬性約簡及規則提取方法[J].軟件學報,1999,10(11):1206-1211.
〔6〕Miao Duoqian,WangJue.An informationbased algorithm forreduction ofknowledge.IEEE ICIPS’97,1997.1155-1158.
〔7〕苗奪謙,胡桂榮.知識約簡的一種啟發式算法[J].計算機研究與發展,1999,36(6):681-684.
〔8〕Jiawei Han,Micheline Kamber.數據挖掘概念與技術[M].北京:機械工業出版社,2001.
TM715
A
1673-260X(2010)05-0098-03