陳章國,周 波,喬治中,胡 超
(南京南瑞信息通信科技有限公司,江蘇 南京 210003)
城市基礎設施中的核心部分之一即為電力系統(tǒng),電力生產(chǎn)與工作的過程主要分成發(fā)電、輸電、變電、配電以及用電,其中,配電環(huán)節(jié)直接影響用戶對配電服務的滿意度。配電是通過一次設備所建立的配電網(wǎng),與二次設備聯(lián)合應用后建立為配電系統(tǒng),配電系統(tǒng)根據(jù)固定的規(guī)則運行,可以為用戶提供其所需的電力服務。
為實現(xiàn)配電網(wǎng)自動化管理,需要引入配電網(wǎng)信息智能分析技術,如文獻[5]方法和文獻[6]方法做出的貢獻,但是因電力領域數(shù)據(jù)量近幾年出現(xiàn)爆發(fā)式增長,導致配電網(wǎng)信息智能分析效率較低,實時性受限。
為此,提出基于機器學習的配電網(wǎng)監(jiān)控信息智能分析規(guī)則庫構建方法,主要使用此方法建立配電網(wǎng)監(jiān)控信息智能分析規(guī)則庫,并引入故障檢測識別、故障信息關聯(lián)規(guī)則更新方法,保證配電網(wǎng)監(jiān)控信息智能分析規(guī)則庫的使用效果,使其可滿足配電網(wǎng)監(jiān)控的信息分析需求。
為了保證各類設備(變壓器、電抗器、電容器、組合電器、斷路器)操作、電網(wǎng)操作規(guī)則及相互間的關系的完整性,使規(guī)則庫中的信息具有整體性,基于機器學習的配電網(wǎng)監(jiān)控信息智能分析規(guī)則庫結構圖如圖1所示。

圖1 基于機器學習的配電網(wǎng)監(jiān)控信息智能分析規(guī)則庫結構圖
如圖1所示,配電網(wǎng)監(jiān)控信息智能分析規(guī)則頭與規(guī)則選項2種邏輯部分統(tǒng)稱為規(guī)則,規(guī)則頭可描述規(guī)則行為信息,規(guī)則選項可描述警告信息、故障數(shù)據(jù)包所在方位。
首先,全部規(guī)則根據(jù)規(guī)則頭排序,并設成主鏈,按照配電網(wǎng)監(jiān)控信息智能分析規(guī)則選項,將規(guī)則導進鏈表里,生成規(guī)則集,此操作下,各個監(jiān)控信息數(shù)據(jù)包都存在一個分析規(guī)則。
其次,基于機器學習的配電網(wǎng)監(jiān)控信息智能分析規(guī)則庫運行時,使用Libpcap接口在配電網(wǎng)網(wǎng)絡里提取一個監(jiān)控信息數(shù)據(jù)包,建立數(shù)據(jù)包解析函數(shù),按照數(shù)據(jù)包種類與所在位置,實現(xiàn)監(jiān)控信息數(shù)據(jù)包的協(xié)議解析,解析后數(shù)據(jù)存儲于Packet結構里。
最后,在配電網(wǎng)監(jiān)控信息數(shù)據(jù)包解析后,使用基于機器學習的配電網(wǎng)故障數(shù)據(jù)分類方法,識別Packet結構中配電網(wǎng)監(jiān)控信息中的故障數(shù)據(jù),并按照所識別的故障數(shù)據(jù)分析規(guī)則(下文稱為頻繁項集),使用基于 MapReduce 的并行關聯(lián)規(guī)則增量更新算法,更新配電網(wǎng)監(jiān)控信息智能分析規(guī)則庫中的信息智能分析規(guī)則。
之后,可把配電網(wǎng)監(jiān)控信息中的其他數(shù)據(jù)包和配電網(wǎng)監(jiān)控信息智能分析規(guī)則庫里二維鏈表進行對比,若檢測到具有匹配性的規(guī)則條目,便可按照對應的模式實現(xiàn)警示,停止此數(shù)據(jù)包的處理,以此模式循環(huán),實現(xiàn)配電網(wǎng)監(jiān)控信息智能分析。
圖2是基于機器學習的配電網(wǎng)監(jiān)控信息智能分析規(guī)則庫運行流程示意圖。
為了保證相關運行規(guī)程符合操作的規(guī)則,即《中華人民共和國電力法》《電力監(jiān)管條例》和《電網(wǎng)調(diào)度管理條例》等,使用層次聚類方法分析配電網(wǎng)監(jiān)控信息中的故障數(shù)據(jù)的極端隨機數(shù),保證其符合實際情況,使用了配電網(wǎng)監(jiān)控信息中故障數(shù)據(jù)的故障出現(xiàn)概率與聚類頻次分布,以此描述故障元素在配電網(wǎng)監(jiān)控信息中出現(xiàn)差異頻次的概率,此概率設成sup(),那么配電網(wǎng)監(jiān)控信息中故障數(shù)據(jù)故障層次聚類的模糊迭代不等式能夠變換為:

(1)
式中,配電網(wǎng)監(jiān)控信息中故障數(shù)據(jù)的類間聚類分析元素在規(guī)則庫中出現(xiàn)的次數(shù)最大值是num();代表第個故障數(shù)據(jù)。
使用大數(shù)據(jù)分類全局檢索方法實現(xiàn)故障數(shù)據(jù)分類的動態(tài)規(guī)劃,以此運算sup()。則:


(2)


(-|()|)}}
(3)


圖2 基于機器學習的配電網(wǎng)監(jiān)控信息智能分析規(guī)則庫運行流程示意圖
將配電網(wǎng)監(jiān)控信息的所有數(shù)據(jù)樣本實施抽樣訓練,獲取故障數(shù)據(jù)的關聯(lián)特征量,通過一個四元素結構代表故障數(shù)據(jù)的關聯(lián)特征:
(,,(sup1(),…,sup()),
(1,…,))
(4)
式中,故障數(shù)據(jù)在1時間段抵達窗口的第次出現(xiàn)的第個數(shù)據(jù)元素是;輸出優(yōu)化訓練的最佳概率是;數(shù)據(jù)聚類中心擾動概率分布值是(sup1(),…,sup());目前窗口元素存在故障數(shù)據(jù)的頻繁項是(1,,)。通過機器學習算法,對故障數(shù)據(jù)實施分類,則機器學習迭代方法是:

(5)

綜上所述,基于機器學習的配電網(wǎng)故障數(shù)據(jù)聚類方法的具體步驟是:
輸入:配電網(wǎng)監(jiān)控信息數(shù)據(jù)流、故障數(shù)據(jù)關聯(lián)樣本閾值、統(tǒng)計分布概率閾值、采樣窗口長度。輸出:
(1)初始化機器學習參數(shù)與故障數(shù)據(jù)分類系數(shù);
(2)任意選擇一個配電網(wǎng)監(jiān)控信息數(shù)據(jù)點,建立故障數(shù)據(jù)分類的全部聚簇中心點;
(3)通過聚簇交叉運算它的概率;
(4)通過機器學習算法提取故障數(shù)據(jù)特征;
(5)更新目前窗口中故障數(shù)據(jù)樣本,運算故障種類的概率分布值;
(6)運算配電網(wǎng)監(jiān)控信息中大于頻次閾值的故障數(shù)據(jù)樣本集,使用累積概率分布方法獲取統(tǒng)計特征量;
(7)將故障樣本集實施回歸分析,把故障數(shù)據(jù)導進窗口集合中;
(8)檢索過期樣本元素并去除;
(9)將所有配電網(wǎng)監(jiān)控信息樣本實施抽樣訓練,刷新窗口概率分布值;
(10)提取配電網(wǎng)監(jiān)控信息中故障數(shù)據(jù)識別的頻繁項集,實現(xiàn)故障數(shù)據(jù)分類。
1.3.1 原始規(guī)則庫中并行頻繁項集挖掘
保證針對可能發(fā)生的故障,為迅速、有序地開展應急行動而預先制定的行動方案,本文主要使用MapReduce模型以并行挖掘的模式獲取監(jiān)控信息節(jié)點中數(shù)據(jù)分片的頻繁項集后保存,當配電網(wǎng)監(jiān)控信息逐漸更新時,使用MapReduce模型再次更新頻繁項集(信息智能分析規(guī)則)。
MapReduce模型將 MapReduce分解為 Map (映射)任務和 Reduce (歸約)任務, MapReduce將任務傳遞到配電系統(tǒng)中各個監(jiān)控信息節(jié)點,各個監(jiān)控信息節(jié)點的處理過程會引入2個函數(shù)map、reduce。MapReduce模型先按照監(jiān)控信息節(jié)點中數(shù)據(jù)分片的數(shù)目,建立多個Map任務并行處理,各個Map任務把輸入的數(shù)據(jù)分片為多個鍵值對,map函數(shù)會將數(shù)據(jù)分片都逐次處理成,將鍵值相同的數(shù)據(jù)分片放在一起設成中心結果變成Reduce的輸入;Reduce任務獲取存在一致性的鍵值,使用reduce函數(shù)對映射頻繁項集和原項集進行歸約處理后輸出。
將配電網(wǎng)監(jiān)控信息智能分析規(guī)則庫里全部項的頻繁項集集合設成={,,…,},把配電網(wǎng)監(jiān)控信息智能分析規(guī)則庫傳輸至Hadoop分布式文件系統(tǒng)中,配電網(wǎng)監(jiān)控信息智能分析規(guī)則庫或新增故障信息數(shù)據(jù)庫(此數(shù)據(jù)庫中故障信息主要來自2.2小節(jié)所識別的故障信息)都會保存在個節(jié)點中,此時={,,…,},={,,…,}。、都存在于一個數(shù)據(jù)分片中。
輸入:原始配電網(wǎng)監(jiān)控信息智能分析規(guī)則庫。
輸出:原始配電網(wǎng)監(jiān)控信息智能分析規(guī)則庫的頻繁項集。
(1)使用MapReduce模型計算原始配電網(wǎng)監(jiān)控信息智能分析規(guī)則庫全部頻繁項的支持計數(shù),獲取的1-項集;
(2)建立分組,使用把各項與支持度進行對比,獲取1-頻繁項集。然后將里的項分成個組,各組設置一個編碼id,把全部項標記成相應的分組號;
(3)并行挖掘頻繁項集,此過程需要使用MapReduce模型實現(xiàn),主要獲取每個數(shù)據(jù)分組的頻繁項集。
1.3.2 增量更新
輸入:新增故障信息數(shù)據(jù)庫、原始配電網(wǎng)監(jiān)控信息智能分析規(guī)則庫、原始配電網(wǎng)監(jiān)控信息智能分析規(guī)則庫的1-項集。
輸出:更新后規(guī)則庫的頻繁項集。
(1)使用MapReduce模型中的map函數(shù)計算各個監(jiān)控信息頻繁項集在更新后規(guī)則庫中的支持計數(shù),挖掘頻繁項集。頻繁項集各個項目在∪里的支持計數(shù)滿足以下條件:
support()≤()
(6)
其中,為小支持度閾值。

()=map(,)
(7)
由此建立挖掘監(jiān)控信息頻繁項集的map函數(shù)
函數(shù):map(),通過和編碼id尋找頻繁項集。
輸入:分組號,其中記錄著頻繁項目下次出現(xiàn)的組號。
:用戶設定的最小支持數(shù);填寫了相應支持數(shù)的向量。




函數(shù):Reduce(),通過和編碼id尋找分析規(guī)則庫的一致性鍵值。
輸入:候選項集。
遍歷原始配電網(wǎng)監(jiān)控信息智能分析規(guī)則庫在此組的映射事務集;
計算一致性鍵值=Reduce();


輸出:更新后規(guī)則庫的頻繁項集。
由此完成基于 MapReduce 的并行關聯(lián)規(guī)則庫增量更新。
在MATLAB仿真軟件中,編寫本文方法的應用程序,對本文方法的操作性能進行仿真測試。
將本文方法使用在虛擬的配電網(wǎng)設備信息監(jiān)控系統(tǒng)中,測試本文方法的使用效果。虛擬的配電網(wǎng)設備信息監(jiān)控系統(tǒng)參數(shù)如表1所示。

表1 虛擬的配電網(wǎng)設備信息監(jiān)控系統(tǒng)參數(shù)
配電網(wǎng)監(jiān)控信息智能分析規(guī)則庫的構建效果,主要通過配電網(wǎng)監(jiān)控中網(wǎng)絡故障信息識別效果凸顯,故障信息識別效果好,表示構建的規(guī)則庫中信息智能分析規(guī)則涵蓋范圍較為全面。故障信息主要以配電網(wǎng)信息監(jiān)控中DOS入侵信息(下文簡稱A-1故障)、R2L入侵信息(下文簡稱A-2故障)、U2R入侵信息(下文簡稱A-3故障)為主,測試本文方法、文獻[5]方法、文獻[6]方法的配電網(wǎng)監(jiān)控中故障信息識別效果,以準確度、檢出率、假陽性率三種指標體現(xiàn)。

(8)

(9)

(10)
其中,、、、依次表示配電網(wǎng)監(jiān)控中故障信息被準確識別的次數(shù)、非故障信息被識別成非故障信息的次數(shù)、故障信息被誤識的次數(shù)、非故障信息被誤識的次數(shù)。
三種方法的配電網(wǎng)監(jiān)控中故障信息識別效果如表2、表3、表4所示。

表2 A-1 故障識別效果

表3 A-2故障識別效果

表4 A-3故障識別效果
由表2、表3、表4可知,多次測試中,文獻[5]方法和文獻[6]方法識別配電網(wǎng)監(jiān)控信息中的A-1故障、A-2故障、A-3故障時,識別結果的準確度、檢出率均值都低于0.90,假陽性率都大于0.04;而使用本文方法,配電網(wǎng)監(jiān)控信息中,識別A-1故障、A-2故障、A-3故障時,識別結果的準確度、檢出率均值都大于0.97,假陽性率都是0.01,由此可知,本文方法可提升配電網(wǎng)故障監(jiān)控效果。
配電網(wǎng)監(jiān)控中,故障信息識別實時性可體現(xiàn)本文方法所構建規(guī)則庫的關聯(lián)規(guī)則更新具有實時性,在MATLAB仿真軟件中提前預設A-1故障、A-2故障、A-3故障的出現(xiàn)時間,測試使用本文方法、文獻[5]方法、文獻[6]方法的配電網(wǎng)監(jiān)控中故障信息識別實時性。測試結果如表5所示。

表5 關聯(lián)規(guī)則更新實時性測試結果
由表5可知,在MATLAB仿真軟件中提前預設A-1故障、A-2故障、A-3故障的出現(xiàn)時間后,本文方法所構建的配電網(wǎng)監(jiān)控信息智能分析規(guī)則庫,能夠協(xié)助配電網(wǎng)監(jiān)控系統(tǒng)實時識別配電網(wǎng)監(jiān)控中故障信息,由此證明本文方法所構建規(guī)則庫的關聯(lián)規(guī)則更新實時性,可滿足應用需求。
為了深入測試該方法構建的配電網(wǎng)監(jiān)控信息智能分析規(guī)則庫是否能滿足海量數(shù)據(jù)包智能分析的應用要求,測試該方法構建的配電網(wǎng)監(jiān)控信息智能分析規(guī)則庫的頻繁項集(信息智能分析規(guī)則)是否能隨數(shù)據(jù)包的增加而實時更新,測試了頻繁項集更新結果與更新速度,測試結果如圖3、表6所示。

圖3 規(guī)則庫頻繁項集更新結果

表6 頻繁項集更新速度
由圖3、表6可知,本文方法所構建的配電網(wǎng)監(jiān)控信息智能分析規(guī)則庫的頻繁項集可以伴隨數(shù)據(jù)包增多而實時更新,頻繁項集更新數(shù)量和新增數(shù)據(jù)包數(shù)量一致,更新時間與數(shù)據(jù)包新增時間一致。由此驗證,新增數(shù)據(jù)量對本文方法應用性能不存在負面影響,本文方法所構建的配電網(wǎng)監(jiān)控信息智能分析規(guī)則庫對配電網(wǎng)故障監(jiān)控工作存在實用價值。
配電網(wǎng)監(jiān)控信息智能分析規(guī)則庫對配電網(wǎng)監(jiān)控信息分析速度與分析效果存在直接影響,而配電網(wǎng)監(jiān)控信息分析效果對配電網(wǎng)故障監(jiān)控存在直接影響。為此,提出了基于機器學習的配電網(wǎng)監(jiān)控信息智能分析規(guī)則庫構建方法,利用所構建的配電網(wǎng)監(jiān)控信息智能分析規(guī)則庫,實現(xiàn)配電網(wǎng)監(jiān)控信息智能分析。實驗中,本文方法經(jīng)過仿真測試后,被驗證存在以下幾點實用價值:
(1)多次測試中,本文方法使用前,配電網(wǎng)監(jiān)控信息中,A-1故障、A-2故障、A-3故障識別時,識別結果的準確度、檢出率均值都低于0.90,假陽性率都大于0.04;使用本文方法后,配電網(wǎng)監(jiān)控信息中,A-1故障、A-2故障、A-3故障識別時,識別結果的準確度、檢出率均值都大于0.97,假陽性率都是0.01。
(2)本文方法所構建的配電網(wǎng)監(jiān)控信息智能分析規(guī)則庫,能夠協(xié)助配電網(wǎng)監(jiān)控系統(tǒng)實時識別配電網(wǎng)監(jiān)控中故障信息。
(3)本文方法所構建的配電網(wǎng)監(jiān)控信息智能分析規(guī)則庫的頻繁項集可以伴隨數(shù)據(jù)包的增多而實時更新,頻繁項集更新數(shù)量和新增數(shù)據(jù)包數(shù)量一致,更新時間與數(shù)據(jù)包新增時間一致。