侯文浩,凌云,2*,徐敬成,黃文威
(1. 湖南工業大學電氣與信息工程學院,湖南 株洲 412007;2. 電傳動控制與智能裝備湖南省重點實驗室,湖南 株洲 412007)
隨著用電設備的日益增加和對用電設備的監控能力不足,加強建設電器類型識別的技術十分必要。目前,主流的電器負載性質識別方法包括基于負載功率綜合系數算法的電器負載識別方法[1]、基于電磁感應的電器負載識別方法、基于神經網絡算法的電器負載識別方法、基于周期性離散變換算法的電器負載識別方法等。各種方法均能夠在一定程度上實現電器負載性質的識別,但是還是有識別手段單一,結構復雜等問題。
利用決策樹分類器具有需要訓練時間相對較少和貝葉斯分類器具有高精度和高效率的特點,使用決策樹和貝葉斯分類器相結合的組合分類器電器類型識別方法[2-5]。并且為了盡量減小誤差和電磁干擾對實驗的影響,本文提出采用電器的負載電流頻譜特征作為分類的參考依據,用快速傅里葉積分對負載電流進行積分,并且為了減少由于電網電壓不穩定造成電流幅值的變化,從而對實驗結果產生影響,所以實驗數據采用的是諧波幅值比而不是諧波幅值。并同同時采用決策樹分類器和貝葉斯分類器的組合分類器作為分類的方法,先用決策樹分類器對負載電器進行初步識別,然后再用貝葉斯分類器對負載電器進行精確分類,從而達到提高分類精確度的目的[6-7]。當兩種分類器一起進行工作時,把整個分類過程分為兩個步驟:
第一步先讓決策樹分類器對數據進行分類,先運用混合數據的處理方法或決策樹C4.5當中所采用的離散化[8-10]方法對數據進行處理:若x(j)在當前數據集中有m個取值,不妨假設它們為 u1,…,um;不失一般性、再不妨假設它們滿足u1<…<um(若不然,進行一次排序操作即可),依次選擇作為二分標準,計算它們的信息增益比,從而決定出最好的二分標準來劃分數據。想要計算信息增益的大小可以引入條件熵H(y|A)的概念來定義信息的增益,它有比較好的直觀:所謂條件熵,說就是根據特征A的不同取值{a1,…,am}對y進行限制后,先對這些被限制的y分別計算信息熵。換句話說,條件熵是由被A不同取值限制的各個部分的y的不確定性以取值本身的概率作為權重加總的到的。所以,條件熵H(y|A)越小、意味著y被A限制后的總的不確定性越小,從而意味著A更能夠幫助我們做出決策。其數學定義為:

通常來說,公式的對數的底數會取為2。同樣地,可以用經驗條件熵來估計真正的條件熵為:

這里的Dj表示在A=aj限制下的數據集。通常可以記Dj中的樣本yi滿足,而公式中的則表示著Dj中第k類樣本的個數。從條件熵的直觀含義,信息的增益就可以自然地定義為這里的g(y,A)作為特征選取的標準。最后選取最大增益的屬性當做這個分裂的決策屬性及樹結點,得到分裂點的結果之后,建立這個分支;當這個樣本在同一個類的時候,則該點成為樹葉,同時用該類標記。
第二步根據貝葉斯[11]分類器對3,5,7,9次諧波幅值比的數值進行貝葉斯分類。先根據各種電器數據集的組數求出各自所占的比例,然后將組合分類器的輸入特征集作為貝葉斯分類器的輸入特征X,且有X={C1,C2,…Cn}。將訓練得到的各類別下各個特征屬性的條件概率估計,分別確定各輸入特征屬性的分段所在并確定其對每類電器類別的概率電器類別集合為C={y1,y2,…,yn} 。確定的方法是采用訓練NBC分類器[12]過程中得到的各個特征屬性的條件概率估計。計算每種電器類別的后驗概率的公式如下:

因為分母P(x)對于所有電器類別為常數,令 P(x)=1替代實際的P(x)值,不影響每種電器類別后驗概率之間的相互大小比較,此時有:

根據訓練得到的各類別下各個特征屬性的條件概率估計,分別確定各輸入特征屬性的分段所在并確定其對每類電器類別的概率確定的方法是采用訓練NBC分類器過程中得到的各個特征屬性的條件概率估計的大小,哪個估計值的數值最大,那就是最大概率的為哪種電器。所以為了選取最大概率種類,應該選取估計值最大的電器。
為了驗證組合分類器的效果,選擇了4組數據,每組2個真實數據集來進行仿真實驗。這些真實數據的詳細情況見表1和表2,8組數據集來源于常用家用電器的波形測量與分析[13-14]。表1中的第一行是家用電器的種類,第二行是1次諧波的幅值比。由于1次諧波幅值比都是100,對電器類型的區分沒有任何幫助,所以舍棄第一行數據不使用,同理第三、四、五、六行分別為3,5,7,9次諧波幅值比。把數據分成純阻性線性負荷電流和電源模塊負荷電流兩大類。所有仿真在MATLAB上運行,在MATLAB上,用自帶的決策樹分類器和貝葉斯分類器對所有數據進行分類學習和驗證。

表1 純阻性線性負荷電流中的諧波幅值比Table 1 Harmonic amplitude ratio in pure resistive linear load current

表2 電子電源模塊負荷電流中的諧波幅值比Table 2 Harmonic amplitude ratio in load current of electronic power module
由于現在的分類技術需要離散值屬性,而負荷電流的諧波幅值比為連續值屬性,所以需要將連續值屬性進行離散化處理[15]。使用概念分層技術,可以將連續值屬性轉化為離散值屬性(即數據離散化)。在負載電流諧波幅值比數據庫中,根據分類的準確度更加高的需要,分別在純阻性純阻性線性負荷電流中的諧波幅值比和電子電源模塊負荷電流中的諧波比的3,5,7,9次諧波的各次諧波中依次選擇作為二分標準如表1中的3次諧波 v1=5,v2=10,v3=12可得:




表3 純阻性線性負荷電流中的諧波幅值比Table 3 Harmonic amplitude ratio in pure resistive linear load current
對每種電器類型均采集多組樣本作為訓練樣本,并且需要對每種電器類型樣本在所有電器類型樣本中占有的比例進行計算。即分別計算電器集合和集合這兩個集合,其中集合C1代表的是純阻性線性負荷電流,集合C1對應的電器類型包括電飯鍋(y1)空調(y2),集合C2代表的是電源模塊負荷,對應的電器類型包括LED燈(y3)和電腦(y4)。每種電器的數據集都是2組,組數一樣,所以的電器類型樣本中占有的比例一樣,由于運用貝葉斯分類器之前已經先運用決策樹分類器進行先行處理,已經過濾了兩種電器,所以只需要貝葉斯分類器從兩種電器中分析出正確的電器,所以每當運用貝葉斯分類器進行分類時,需要計算出相應的先驗概率,例如:當輸入三次諧波到九次諧波的數值分別位于在大于62且小于89、大于45且小于84、大于24且小于72、大于61的范圍內。由此可得先驗概率表見表5和表6。


表5 電子電源模塊負荷先驗概率Table 5 Load prior probability of electronic power module

表6 純阻性負載先驗概率Table 6 Pure resistive load prior probability
因為在第一步中決策樹分類器對電器類型進行了初步識別,在初步識別中就已經把y3和y4排除,所以概率為0。而在計算了y1和y2的的后驗概率之后,發現y1的數值大于y2。輸入的數據是y1的可能性要大于y2。所以要輸出的結果為y1(LED燈)。
本文介紹了在MATLAB中構建的基于決策樹和貝葉斯分類器相結合下的電器類型識別的結構、功能和特性,并且在平臺上實現了貝葉斯分類器和決策樹分類器結構學習和參數學習。經過測試,取得了較為理想的實驗結果,能夠實現對負載電器的準確識別。與以往文獻中的電器負載識別相比,MATLAB實驗平臺構建的決策樹和貝葉斯相結合的方法更容易理解,并且有較好的分類準確性。