基于ReliefF-DDC 特征選擇算法的非侵入式負(fù)荷識(shí)別研究*

2021-08-02 08:55:30包永強(qiáng)姜家輝張旭旭

電子技術(shù)應(yīng)用 2021年7期

關(guān)鍵詞：特征

邵琪，包永強(qiáng) ，姜家輝，張旭旭

（1.南京工程學(xué)院電力工程學(xué)院，江蘇南京 211167；2.南京工程學(xué)院信息與通信工程學(xué)院，江蘇南京 211167）

0 引言

非侵入式負(fù)荷監(jiān)測(cè)法（Non-Intrusive Load Monitoring，NILM）為實(shí)現(xiàn)智能電網(wǎng)和用戶之間的互動(dòng)提供了數(shù)據(jù)支持，該方法在接戶線入口處安裝傳感器，采集總負(fù)荷的電壓、電流等電氣量數(shù)據(jù)進(jìn)行分析，細(xì)化系統(tǒng)數(shù)據(jù)，從而辨識(shí)家用電器的類別及運(yùn)行狀態(tài)[1]。相比于侵入式負(fù)荷監(jiān)測(cè)法（Intrusive Load Monitoring，ILM），NILM 具有成本低、用戶接受度高、后期維護(hù)方便等優(yōu)勢(shì)，但是該方法對(duì)于負(fù)荷分解算法的要求較高。特征提取和負(fù)荷識(shí)別作為NILM 中兩大關(guān)鍵技術(shù)[2]，為NILM 的發(fā)展提供了強(qiáng)有力的技術(shù)支持。特征選擇作為處理已提取特征的重要手段，是目前研究的熱點(diǎn)之一。

特征選擇是在原始高維特征中遵循某個(gè)評(píng)價(jià)準(zhǔn)則為后續(xù)任務(wù)選擇一個(gè)最佳特征子集，該理論基于少量具有代表性的特征，不僅可以加速模型的學(xué)習(xí)過程，而且可以提高模型的泛化能力。特征選擇在圖像處理、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等領(lǐng)域應(yīng)用廣泛[3]，在處理包含了大量特征的高維數(shù)據(jù)時(shí)，這些特征不可避免地包含了噪聲、不相關(guān)特征以及冗余特征[4]。在這種情況下，有必要提取出信息量最豐富、最有價(jià)值的信息。KIRA K 和RENDEL L A 提出了Relief 算法，該算法簡單運(yùn)行效率高，但僅適用于二分類問題的特征選擇[5]。在此基礎(chǔ)上，KONONENKO I提出了ReliefF 算法，解決了原Relief 算法無法對(duì)多類別數(shù)據(jù)進(jìn)行特征選擇的問題，且對(duì)于不完整和帶噪數(shù)據(jù)處理效果較好，但無法刪除冗余特征[6]。YUL和LIUH使用快速相關(guān)濾波器算法（Fast Correlation-Based Filter，F(xiàn)CBF）算法來減少高維數(shù)據(jù)中的特征，歸一化信息增益利用對(duì)稱不確定性來度量特征冗余度，算法可快速消除冗余特征但對(duì)稱不確定測(cè)量精度不高且無法量化特征之間與類別的依賴關(guān)系[7]。文獻(xiàn)[8]中Peng Hanchuan 等人提出了最大相關(guān)-最小冗余（mRMR）算法,采用互信息作為衡量特征和類別以及特征與特征之間冗余度的準(zhǔn)則,但同樣未考慮特征之間與類別的相關(guān)性。QU G 等人提出了決策相關(guān)分析（Decision Dependency Correlation，DDC）算法，指出所選特征與決策變量密切相關(guān)[9]。

在現(xiàn)有研究基礎(chǔ)之上，針對(duì)特征選擇方法存在的問題展開研究，本文提出了一種基于ReliefF-DDC 特征選擇算法。首先通過計(jì)算特征權(quán)重并按降序排列，選取權(quán)重較大的特征去除無關(guān)特征；其次計(jì)算各特征與決策變量之間的交互信息，利用決策相關(guān)分析刪除冗余特征得到最終特征子集；最后將其作為孿生支持向量機(jī)（TWSVM）的輸入向量進(jìn)行識(shí)別。實(shí)驗(yàn)以非侵入式用電負(fù)荷為研究對(duì)象，將本文方法與ReliefF、DCC 單項(xiàng)算法以及現(xiàn)有研究文獻(xiàn)[10]和文獻(xiàn)[11]所提算法進(jìn)行識(shí)別效果比對(duì)，結(jié)果表明，本文所提出的特征選擇方法可有效提高負(fù)荷識(shí)別精度。

1 特征選擇

1.1 ReliefF 算法

ReliefF 算法是一種基于特征權(quán)重的高效過濾式特征選擇算法，該算法根據(jù)特征屬性對(duì)于各類樣本的區(qū)分能力來估計(jì)特征權(quán)值衡量特征重要性[12]。設(shè)待處理的訓(xùn)練集為D，樣本X={x1，x2，…，xd}，xd是表示第d 維特征。在訓(xùn)練集D 中隨機(jī)選取一樣本R，在與R 同類的樣本中尋找k 個(gè)最近鄰樣本Hj（j=1，2，…，k）；在與R 不同類的樣本中尋找k 個(gè)最近鄰樣本Mj。若樣本R 與最近鄰樣本H 在該特征上的距離小于樣本R 與不同類最近鄰樣本M 的距離，此時(shí)該特征在同類和不同類最近鄰樣本上區(qū)分性較好，特征權(quán)重增大；相反，則表明該特征在區(qū)分同類和不同類最近鄰樣本效果不佳，權(quán)重則降低。其實(shí)現(xiàn)如下：

式中，P（C）表示類C 在數(shù)據(jù)集中的先驗(yàn)概率分布，Mj（C）表示第C 類第j 個(gè)最近鄰樣本。其中diff（d，A，B）表示樣本A 和樣本B 在第d 個(gè)特征值上的區(qū)分度，m 表示循環(huán)次數(shù)。

當(dāng)特征d 的值離散：

當(dāng)特征d 的值連續(xù)：

ReliefF 算法通過計(jì)算特征與各類別之間的相關(guān)性來確定“重要特征”，排除無關(guān)特征，但其計(jì)算過程中忽略了冗余特征，模型中特征之間相似度越高，會(huì)導(dǎo)致模型訓(xùn)練時(shí)間越長，造成空間浪費(fèi)，同時(shí)泛化能力降低[13]，造成分類精度下降。

1.2 DDC 算法

考慮到特征之間的相關(guān)性與冗余程度對(duì)決策變量的依賴程度[14]，DDC 算法基于特征之間與決策變量之間的交互信息，通過使用一個(gè)簡單的SFS 計(jì)算方法獲得特征的排序列表，再根據(jù)特征之間與決策變量的相關(guān)性分析去除冗余特征。

隨機(jī)變量X 的熵H（X）表示該隨機(jī)變量的不確定性測(cè)度?；バ畔⑹侵鸽S機(jī)變量X 與隨機(jī)變量Y 的共享信息量，其定義如下：

由式（4）可知，互信息還可看成是兩個(gè)隨機(jī)變量的熵的交集，使用此屬性可以描述特征的相關(guān)性和冗余性。設(shè)f 和s 分別為兩個(gè)特征，C 為類別，考慮到所選特征必須與類別有最大相關(guān)性，而與其他特征相關(guān)性需最小，因此引入了相關(guān)測(cè)度來量化特征f 和s 與類C 之間的冗余程度，表示如下：

再者，利用I（C；f）與QC（f，s）共同構(gòu)成特征子集評(píng)價(jià)準(zhǔn)則，定義如下：

式（6）評(píng)價(jià)準(zhǔn)則直觀指定一個(gè)子集S，其中與決策相關(guān)的各個(gè)特征的相互信息I（C；f）作為對(duì)該特征子集的獎(jiǎng)勵(lì)，而特征之間的決策相關(guān)QC（f，s）作為懲罰，該評(píng)價(jià)值e（S）越大，表明決策時(shí)該所選特征子集越優(yōu)。

2 ReliefF-DDC 特征選擇算法

ReliefF 算法依據(jù)特征權(quán)重來衡量屬性“重要性”，通過計(jì)算樣本與最近鄰?fù)悩颖竞彤愵悩颖驹诟鱾€(gè)特征上的距離獲取權(quán)重值[15]。ReliefF 算法效率高、魯棒性好，而且能有效處理帶噪數(shù)據(jù)，降低噪聲對(duì)于特征選擇的影響[16]。由于只考慮特征與類別之間的關(guān)系，ReliefF 算法只能有效去除無關(guān)特征，但無法刪除冗余特征。針對(duì)在不確定性度量精度不高的情況下，所選特征可能提供錯(cuò)誤或者不完整信息的問題，DDC 算法通過引入新測(cè)度準(zhǔn)確量化特征之間的依賴關(guān)系或者相關(guān)性，提高了剔除冗余特征的準(zhǔn)確性，但其去除無關(guān)特征時(shí)的能力不如ReliefF 算法。

基于以上分析，本文結(jié)合了兩個(gè)特征選擇算法優(yōu)點(diǎn)，提出了一種基于ReliefF-DDC 特征選擇算法實(shí)現(xiàn)特征選擇分階段處理。算法具體結(jié)構(gòu)如圖1 所示。

圖1 ReliefF-DDC 特征選擇算法結(jié)構(gòu)

為了進(jìn)一步闡述本文算法，給出去無關(guān)特征層和去冗余特征層的具體步驟如下：

（1）去無關(guān)特征層：利用ReliefF 算法計(jì)算各特征權(quán)重，按降序排列后去除無關(guān)特征，得到子集F。

（2）去冗余特征層：將特征子集評(píng)估度量e（S）與指定閾值δ 的比較作為判斷條件。對(duì)于每次遍歷，選擇同時(shí)滿足兩個(gè)條件的fj將其放入最優(yōu)子集中：

①與類別的相關(guān)性大于集合F 中其他特征；

②與已選特征子集中所有特征的相關(guān)性最小。

ReliefF-DDC 特征選擇算法的輸入為原始特征數(shù)據(jù)集D，輸出為最佳特征子集Fbest。算法執(zhí)行步驟如圖2所示。

圖2 ReliefF-DDC 特征選擇算法流程圖

（1）輸入提取的原始特征數(shù)據(jù)集D，確定迭代次數(shù)m、特征權(quán)重閾值τ、最近鄰樣本個(gè)數(shù)k、評(píng)價(jià)準(zhǔn)則閾值δ；

（2）將所有特征權(quán)重置0，F(xiàn) 為空集；

（3）令i 從1 循環(huán)至m，

①在訓(xùn)練集D 中隨機(jī)選取一樣本R，在與R 同類的樣本中尋找k 個(gè)最近鄰樣本Hj（j=1，2，…，k），與R 不同類的樣本中尋找k 個(gè)最近鄰樣本Mj；

②按照式（1）和式（3）更新d 維特征的權(quán)重：

（4）輸出W（d）中大于閾值τ 時(shí)對(duì)應(yīng)的特征向量，按降序排列添加至集合F，F(xiàn)={f1，f2，…，fn}，n＜d；

（5）置S 為空集；

（6）當(dāng)e（S）＜δ 時(shí)，

①若fi滿足以下兩條件：

（a）I（C；fj）＞I（C；fi） ?i≠j，fi∈F

（b）QC（fj，s）≤QC（fi，s） ?i≠j，fi∈F，s∈S

則令F←F-{fj}，S←S+{fj}

②若F≠φ，跳轉(zhuǎn)至步驟（6）；

（7）得到最佳特征子集S，結(jié)束。

3 實(shí)驗(yàn)與分析

3.1 實(shí)驗(yàn)環(huán)境的搭建

本文搭建了一套數(shù)據(jù)采集系統(tǒng)，包括分壓模塊、隔離電路模塊以及VK701H 數(shù)據(jù)采集卡等，如圖3 所示。實(shí)驗(yàn)?zāi)M家用電器的運(yùn)行環(huán)境，利用該數(shù)據(jù)采集系統(tǒng)采集了若干個(gè)典型用電設(shè)備穩(wěn)定運(yùn)行時(shí)的電流數(shù)據(jù)各60組，在MATLAB2016a 平臺(tái)上進(jìn)行實(shí)驗(yàn)。

圖3 數(shù)據(jù)采集系統(tǒng)結(jié)構(gòu)圖

實(shí)驗(yàn)針對(duì)性地采集了8 種家用電器的穩(wěn)態(tài)電流數(shù)據(jù)用于負(fù)荷識(shí)別，采樣頻率為10 kHz，負(fù)荷類型與具體參數(shù)如表1 所示。

表1 負(fù)荷類型與具體參數(shù)

為了證明本文所提出的方法在負(fù)荷特征選擇上的有效性，對(duì)比實(shí)驗(yàn)設(shè)置ReliefF、DCC 單項(xiàng)算法。為了進(jìn)一步表明本文方法優(yōu)越性，另外設(shè)置現(xiàn)有研究文獻(xiàn)[10]中提出的Re-FCBF 算法和文獻(xiàn)[11]中利用MRMD 結(jié)合ReliefF 算法兩種方法作為對(duì)比，利用上述算法分別對(duì)特征數(shù)據(jù)進(jìn)行選擇。實(shí)驗(yàn)過程中將采集的數(shù)據(jù)210 組作為訓(xùn)練樣本，其余150 組作為測(cè)試樣本，采用TWSVM 進(jìn)行負(fù)荷識(shí)別，通過對(duì)比分析各特征選擇方法的識(shí)別準(zhǔn)確率來判斷其算法性能。

3.2 實(shí)驗(yàn)結(jié)果及分析

本文對(duì)采集的各用電負(fù)荷的穩(wěn)態(tài)電流數(shù)據(jù)進(jìn)行分析，提取其相關(guān)時(shí)頻域特征，包括電流諧波總畸變率、3次諧波幅值、5 次諧波幅值、7 次諧波幅值以及其倒譜低頻部分系數(shù)特征，共105 維。

按第2 節(jié)所述算法流程，首先利用ReliefF 算法對(duì)提取的原特征數(shù)據(jù)進(jìn)行處理，設(shè)定迭代次數(shù)m=20，最近鄰樣本個(gè)數(shù)k=10，特征權(quán)重閾值τ=0.02，此時(shí)得到降序排列后38 維特征子集，如表2 所示。

表2 特征權(quán)重及對(duì)應(yīng)維數(shù)

其次利用DDC 算法去除冗余特征，置評(píng)價(jià)準(zhǔn)則閾值δ=0.9，計(jì)算得到最終24 維特征子集：

最后將經(jīng)各算法處理后得到的不同特征子集分別作為孿生支持向量機(jī)的輸入特征向量進(jìn)行負(fù)荷識(shí)別。各算法用時(shí)結(jié)果如表3 所示，所得用電負(fù)荷在不同算法下的識(shí)別率如圖4 所示。

表3 各算法運(yùn)行時(shí)間

從表3 及圖4 可以看出，對(duì)于大功率負(fù)荷，文獻(xiàn)[10]與文獻(xiàn)[11]特征降維效果與DDC 算法相差不大。整體而言，本文提出的方法相較于其他4 種算法，負(fù)荷整體識(shí)別率明顯提高，分別為10.34%、7.5%、3.93%以及4.1%，同時(shí)模型運(yùn)行時(shí)間較其他算法相對(duì)減少了8.6 s、5.8 s、4.0 s 和4.2 s，表現(xiàn)出了較好的魯棒性。

圖4 用電負(fù)荷在各算法下的識(shí)別率

4 結(jié)論

本文以非侵入式負(fù)荷監(jiān)測(cè)為研究背景，針對(duì)數(shù)據(jù)特征選擇優(yōu)劣影響負(fù)荷識(shí)別準(zhǔn)確率高低的問題，提出了一種基于ReliefF-DDC 特征選擇算法。算法上層對(duì)各用電負(fù)荷進(jìn)行特征提取，利用RefiefF 算法計(jì)算所選樣本在各特征上到最近鄰?fù)悩颖竞筒煌悩颖镜木嚯x得到各特征權(quán)重，按降序排列后依照設(shè)定的權(quán)重閾值去除無關(guān)特征；算法下層利用DDC 算法通過計(jì)算互信息來分析特征之間與類別的依賴程度，將特征子集評(píng)價(jià)度量與設(shè)定閾值之間比較作為判斷準(zhǔn)則，從而刪除冗余特征；最后利用孿生支持向量機(jī)識(shí)別分類觀察識(shí)別率。實(shí)驗(yàn)結(jié)果表明，本文提出的方法有效提高了負(fù)荷識(shí)別率，且縮短了運(yùn)行時(shí)間。