邵 琪 ,包永強(qiáng) ,姜家輝 ,張旭旭
(1.南京工程學(xué)院 電力工程學(xué)院,江蘇 南京 211167;2.南京工程學(xué)院 信息與通信工程學(xué)院,江蘇 南京 211167)
非侵入式負(fù)荷監(jiān)測(cè)法(Non-Intrusive Load Monitoring,NILM)為實(shí)現(xiàn)智能電網(wǎng)和用戶之間的互動(dòng)提供了數(shù)據(jù)支持,該方法在接戶線入口處安裝傳感器,采集總負(fù)荷的電壓、電流等電氣量數(shù)據(jù)進(jìn)行分析,細(xì)化系統(tǒng)數(shù)據(jù),從而辨識(shí)家用電器的類別及運(yùn)行狀態(tài)[1]。相比于侵入式負(fù)荷監(jiān)測(cè)法(Intrusive Load Monitoring,ILM),NILM 具有成本低、用戶接受度高、后期維護(hù)方便等優(yōu)勢(shì),但是該方法對(duì)于負(fù)荷分解算法的要求較高。特征提取和負(fù)荷識(shí)別作為NILM 中兩大關(guān)鍵技術(shù)[2],為NILM 的發(fā)展提供了強(qiáng)有力的技術(shù)支持。特征選擇作為處理已提取特征的重要手段,是目前研究的熱點(diǎn)之一。
特征選擇是在原始高維特征中遵循某個(gè)評(píng)價(jià)準(zhǔn)則為后續(xù)任務(wù)選擇一個(gè)最佳特征子集,該理論基于少量具有代表性的特征,不僅可以加速模型的學(xué)習(xí)過程,而且可以提高模型的泛化能力。特征選擇在圖像處理、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等領(lǐng)域應(yīng)用廣泛[3],在處理包含了大量特征的高維數(shù)據(jù)時(shí),這些特征不可避免地包含了噪聲、不相關(guān)特征以及冗余特征[4]。在這種情況下,有必要提取出信息量最豐富、最有價(jià)值的信息。KIRA K 和RENDEL L A 提出了Relief 算法,該算法簡單運(yùn)行效率高,但僅適用于二分類問題的特征選擇[5]。在此基礎(chǔ)上,KONONENKO I提出了ReliefF 算法,解決了原Relief 算法無法對(duì)多類別數(shù)據(jù)進(jìn)行特征選擇的問題,且對(duì)于不完整和帶噪數(shù)據(jù)處理效果較好,但無法刪除冗余特征[6]。YUL和LIUH使用快速相關(guān)濾波器算法(Fast Correlation-Based Filter,F(xiàn)CBF)算法來減少高維數(shù)據(jù)中的特征,歸一化信息增益利用對(duì)稱不確定性來度量特征冗余度,算法可快速消除冗余特征但對(duì)稱不確定測(cè)量精度不高且無法量化特征之間與類別的依賴關(guān)系[7]。文獻(xiàn)[8]中Peng Hanchuan 等人提出了最大相關(guān)-最小冗余(mRMR)算法,采用互信息作為衡量特征和類別以及特征與特征之間冗余度的準(zhǔn)則,但同樣未考慮特征之間與類別的相關(guān)性。QU G 等人提出了決策相關(guān)分析(Decision Dependency Correlation,DDC)算法,指出所選特征與決策變量密切相關(guān)[9]。
在現(xiàn)有研究基礎(chǔ)之上,針對(duì)特征選擇方法存在的問題展開研究,本文提出了一種基于ReliefF-DDC 特征選擇算法。首先通過計(jì)算特征權(quán)重并按降序排列,選取權(quán)重較大的特征去除無關(guān)特征;其次計(jì)算各特征與決策變量之間的交互信息,利用決策相關(guān)分析刪除冗余特征得到最終特征子集;最后將其作為孿生支持向量機(jī)(TWSVM)的輸入向量進(jìn)行識(shí)別。實(shí)驗(yàn)以非侵入式用電負(fù)荷為研究對(duì)象,將本文方法與ReliefF、DCC 單項(xiàng)算法以及現(xiàn)有研究文獻(xiàn)[10]和文獻(xiàn)[11]所提算法進(jìn)行識(shí)別效果比對(duì),結(jié)果表明,本文所提出的特征選擇方法可有效提高負(fù)荷識(shí)別精度。
ReliefF 算法是一種基于特征權(quán)重的高效過濾式特征選擇算法,該算法根據(jù)特征屬性對(duì)于各類樣本的區(qū)分能力來估計(jì)特征權(quán)值衡量特征重要性[12]。設(shè)待處理的訓(xùn)練集為D,樣本X={x1,x2,…,xd},xd是表示第d 維特征。在訓(xùn)練集D 中隨機(jī)選取一樣本R,在與R 同類的樣本中尋找k 個(gè)最近鄰樣本Hj(j=1,2,…,k);在與R 不同類的樣本中尋找k 個(gè)最近鄰樣本Mj。若樣本R 與最近鄰樣本H 在該特征上的距離小于樣本R 與不同類最近鄰樣本M 的距離,此時(shí)該特征在同類和不同類最近鄰樣本上區(qū)分性較好,特征權(quán)重增大;相反,則表明該特征在區(qū)分同類和不同類最近鄰樣本效果不佳,權(quán)重則降低。其實(shí)現(xiàn)如下:

式中,P(C)表示類C 在數(shù)據(jù)集中的先驗(yàn)概率分布,Mj(C)表示第C 類第j 個(gè)最近鄰樣本。其中diff(d,A,B)表示樣本A 和樣本B 在第d 個(gè)特征值上的區(qū)分度,m 表示循環(huán)次數(shù)。
當(dāng)特征d 的值離散:

當(dāng)特征d 的值連續(xù):

ReliefF 算法通過計(jì)算特征與各類別之間的相關(guān)性來確定“重要特征”,排除無關(guān)特征,但其計(jì)算過程中忽略了冗余特征,模型中特征之間相似度越高,會(huì)導(dǎo)致模型訓(xùn)練時(shí)間越長,造成空間浪費(fèi),同時(shí)泛化能力降低[13],造成分類精度下降。
考慮到特征之間的相關(guān)性與冗余程度對(duì)決策變量的依賴程度[14],DDC 算法基于特征之間與決策變量之間的交互信息,通過使用一個(gè)簡單的SFS 計(jì)算方法獲得特征的排序列表,再根據(jù)特征之間與決策變量的相關(guān)性分析去除冗余特征。
隨機(jī)變量X 的熵H(X)表示該隨機(jī)變量的不確定性測(cè)度?;バ畔⑹侵鸽S機(jī)變量X 與隨機(jī)變量Y 的共享信息量,其定義如下:

由式(4)可知,互信息還可看成是兩個(gè)隨機(jī)變量的熵的交集,使用此屬性可以描述特征的相關(guān)性和冗余性。設(shè)f 和s 分別為兩個(gè)特征,C 為類別,考慮到所選特征必須與類別有最大相關(guān)性,而與其他特征相關(guān)性需最小,因此引入了相關(guān)測(cè)度來量化特征f 和s 與類C 之間的冗余程度,表示如下:

再者,利用I(C;f)與QC(f,s)共同構(gòu)成特征子集評(píng)價(jià)準(zhǔn)則,定義如下:

式(6)評(píng)價(jià)準(zhǔn)則直觀指定一個(gè)子集S,其中與決策相關(guān)的各個(gè)特征的相互信息I(C;f)作為對(duì)該特征子集的獎(jiǎng)勵(lì),而特征之間的決策相關(guān)QC(f,s)作為懲罰,該評(píng)價(jià)值e(S)越大,表明決策時(shí)該所選特征子集越優(yōu)。
ReliefF 算法依據(jù)特征權(quán)重來衡量屬性“重要性”,通過計(jì)算樣本與最近鄰?fù)悩颖竞彤愵悩颖驹诟鱾€(gè)特征上的距離獲取權(quán)重值[15]。ReliefF 算法效率高、魯棒性好,而且能有效處理帶噪數(shù)據(jù),降低噪聲對(duì)于特征選擇的影響[16]。由于只考慮特征與類別之間的關(guān)系,ReliefF 算法只能有效去除無關(guān)特征,但無法刪除冗余特征。針對(duì)在不確定性度量精度不高的情況下,所選特征可能提供錯(cuò)誤或者不完整信息的問題,DDC 算法通過引入新測(cè)度準(zhǔn)確量化特征之間的依賴關(guān)系或者相關(guān)性,提高了剔除冗余特征的準(zhǔn)確性,但其去除無關(guān)特征時(shí)的能力不如ReliefF 算法。
基于以上分析,本文結(jié)合了兩個(gè)特征選擇算法優(yōu)點(diǎn),提出了一種基于ReliefF-DDC 特征選擇算法實(shí)現(xiàn)特征選擇分階段處理。算法具體結(jié)構(gòu)如圖1 所示。

圖1 ReliefF-DDC 特征選擇算法結(jié)構(gòu)
為了進(jìn)一步闡述本文算法,給出去無關(guān)特征層和去冗余特征層的具體步驟如下:
(1)去無關(guān)特征層:利用ReliefF 算法計(jì)算各特征權(quán)重,按降序排列后去除無關(guān)特征,得到子集F。
(2)去冗余特征層:將特征子集評(píng)估度量e(S)與指定閾值δ 的比較作為判斷條件。對(duì)于每次遍歷,選擇同時(shí)滿足兩個(gè)條件的fj將其放入最優(yōu)子集中:
①與類別的相關(guān)性大于集合F 中其他特征;
②與已選特征子集中所有特征的相關(guān)性最小。
ReliefF-DDC 特征選擇算法的輸入為原始特征數(shù)據(jù)集D,輸出為最佳特征子集Fbest。算法執(zhí)行步驟如圖2所示。

圖2 ReliefF-DDC 特征選擇算法流程圖
(1)輸入提取的原始特征數(shù)據(jù)集D,確定迭代次數(shù)m、特征權(quán)重閾值τ、最近鄰樣本個(gè)數(shù)k、評(píng)價(jià)準(zhǔn)則閾值δ;
(2)將所有特征權(quán)重置0,F(xiàn) 為空集;
(3)令i 從1 循環(huán)至m,
①在訓(xùn)練集D 中隨機(jī)選取一樣本R,在與R 同類的樣本中尋找k 個(gè)最近鄰樣本Hj(j=1,2,…,k),與R 不同類的樣本中尋找k 個(gè)最近鄰樣本Mj;
②按照式(1)和式(3)更新d 維特征的權(quán)重:
(4)輸出W(d)中大于閾值τ 時(shí)對(duì)應(yīng)的特征向量,按降序排列添加至集合F,F(xiàn)={f1,f2,…,fn},n<d;
(5)置S 為空集;
(6)當(dāng)e(S)<δ 時(shí),
①若fi滿足以下兩條件:
(a)I(C;fj)>I(C;fi) ?i≠j,fi∈F
(b)QC(fj,s)≤QC(fi,s) ?i≠j,fi∈F,s∈S
則令F←F-{fj},S←S+{fj}
②若F≠φ,跳轉(zhuǎn)至步驟(6);
(7)得到最佳特征子集S,結(jié)束。
本文搭建了一套數(shù)據(jù)采集系統(tǒng),包括分壓模塊、隔離電路模塊以及VK701H 數(shù)據(jù)采集卡等,如圖3 所示。實(shí)驗(yàn)?zāi)M家用電器的運(yùn)行環(huán)境,利用該數(shù)據(jù)采集系統(tǒng)采集了若干個(gè)典型用電設(shè)備穩(wěn)定運(yùn)行時(shí)的電流數(shù)據(jù)各60組,在MATLAB2016a 平臺(tái)上進(jìn)行實(shí)驗(yàn)。

圖3 數(shù)據(jù)采集系統(tǒng)結(jié)構(gòu)圖
實(shí)驗(yàn)針對(duì)性地采集了8 種家用電器的穩(wěn)態(tài)電流數(shù)據(jù)用于負(fù)荷識(shí)別,采樣頻率為10 kHz,負(fù)荷類型與具體參數(shù)如表1 所示。

表1 負(fù)荷類型與具體參數(shù)
為了證明本文所提出的方法在負(fù)荷特征選擇上的有效性,對(duì)比實(shí)驗(yàn)設(shè)置ReliefF、DCC 單項(xiàng)算法。為了進(jìn)一步表明本文方法優(yōu)越性,另外設(shè)置現(xiàn)有研究文獻(xiàn)[10]中提出的Re-FCBF 算法和文獻(xiàn)[11]中利用MRMD 結(jié)合ReliefF 算法兩種方法作為對(duì)比,利用上述算法分別對(duì)特征數(shù)據(jù)進(jìn)行選擇。實(shí)驗(yàn)過程中將采集的數(shù)據(jù)210 組作為訓(xùn)練樣本,其余150 組作為測(cè)試樣本,采用TWSVM 進(jìn)行負(fù)荷識(shí)別,通過對(duì)比分析各特征選擇方法的識(shí)別準(zhǔn)確率來判斷其算法性能。
本文對(duì)采集的各用電負(fù)荷的穩(wěn)態(tài)電流數(shù)據(jù)進(jìn)行分析,提取其相關(guān)時(shí)頻域特征,包括電流諧波總畸變率、3次諧波幅值、5 次諧波幅值、7 次諧波幅值以及其倒譜低頻部分系數(shù)特征,共105 維。
按第2 節(jié)所述算法流程,首先利用ReliefF 算法對(duì)提取的原特征數(shù)據(jù)進(jìn)行處理,設(shè)定迭代次數(shù)m=20,最近鄰樣本個(gè)數(shù)k=10,特征權(quán)重閾值τ=0.02,此時(shí)得到降序排列后38 維特征子集,如表2 所示。

表2 特征權(quán)重及對(duì)應(yīng)維數(shù)
其次利用DDC 算法去除冗余特征,置評(píng)價(jià)準(zhǔn)則閾值δ=0.9,計(jì)算得到最終24 維特征子集:

最后將經(jīng)各算法處理后得到的不同特征子集分別作為孿生支持向量機(jī)的輸入特征向量進(jìn)行負(fù)荷識(shí)別。各算法用時(shí)結(jié)果如表3 所示,所得用電負(fù)荷在不同算法下的識(shí)別率如圖4 所示。

表3 各算法運(yùn)行時(shí)間
從表3 及圖4 可以看出,對(duì)于大功率負(fù)荷,文獻(xiàn)[10]與文獻(xiàn)[11]特征降維效果與DDC 算法相差不大。整體而言,本文提出的方法相較于其他4 種算法,負(fù)荷整體識(shí)別率明顯提高,分別為10.34%、7.5%、3.93%以及4.1%,同時(shí)模型運(yùn)行時(shí)間較其他算法相對(duì)減少了8.6 s、5.8 s、4.0 s 和4.2 s,表現(xiàn)出了較好的魯棒性。

圖4 用電負(fù)荷在各算法下的識(shí)別率
本文以非侵入式負(fù)荷監(jiān)測(cè)為研究背景,針對(duì)數(shù)據(jù)特征選擇優(yōu)劣影響負(fù)荷識(shí)別準(zhǔn)確率高低的問題,提出了一種基于ReliefF-DDC 特征選擇算法。算法上層對(duì)各用電負(fù)荷進(jìn)行特征提取,利用RefiefF 算法計(jì)算所選樣本在各特征上到最近鄰?fù)悩颖竞筒煌悩颖镜木嚯x得到各特征權(quán)重,按降序排列后依照設(shè)定的權(quán)重閾值去除無關(guān)特征;算法下層利用DDC 算法通過計(jì)算互信息來分析特征之間與類別的依賴程度,將特征子集評(píng)價(jià)度量與設(shè)定閾值之間比較作為判斷準(zhǔn)則,從而刪除冗余特征;最后利用孿生支持向量機(jī)識(shí)別分類觀察識(shí)別率。實(shí)驗(yàn)結(jié)果表明,本文提出的方法有效提高了負(fù)荷識(shí)別率,且縮短了運(yùn)行時(shí)間。