高 軍, 侯廣松, 孟會(huì)增,吳翠娟(.國(guó)網(wǎng)菏澤供電公司,山東菏澤,74000;.山東安信源信息技術(shù)有限公司,山東濟(jì)南,5000)
?
基于主成分分析的多變量決策樹在接線方式識(shí)別建模工程化實(shí)用化應(yīng)用探討
高 軍1, 侯廣松1, 孟會(huì)增1,吳翠娟2
(1.國(guó)網(wǎng)菏澤供電公司,山東菏澤,274000;2.山東安信源信息技術(shù)有限公司,山東濟(jì)南,250100)
摘要:本文提出一種用于電網(wǎng)接線方式識(shí)別的工程化實(shí)用化技術(shù),該技術(shù)基于主成分分析的多變量決策樹,利用機(jī)器監(jiān)管學(xué)習(xí)的決策樹原理,建立電力系統(tǒng)接線方式智能識(shí)別軟件結(jié)構(gòu)。采用決策樹的思想訓(xùn)練接線方式特征模型樣本,生成分類器,實(shí)現(xiàn)了未知情況下的接線方式識(shí)別,且能夠不斷進(jìn)行接線方式特征模型學(xué)習(xí),對(duì)新出現(xiàn)接線方式進(jìn)行精準(zhǔn)的分類識(shí)別。
關(guān)鍵詞:主成分;多變量;決策樹
接線方式識(shí)別在電力系統(tǒng)主要的基礎(chǔ)軟件都有體現(xiàn),例如EMS,PAS等。主要通過人工識(shí)別和程序判據(jù)條件兩種方式實(shí)現(xiàn),但效率十分低下,識(shí)別判據(jù)十分不靈活,沒有很好的歸類和反饋,魯棒性不好,容易出現(xiàn)無(wú)法識(shí)別,甚至是誤判和漏判,維護(hù)的成本很高,且工作量巨大。
本文利用機(jī)器學(xué)習(xí)中的監(jiān)管學(xué)習(xí)的決策樹原理基于主成分分析的多變量建立了接線方式智能識(shí)別軟件結(jié)構(gòu),并采用決策樹的思想訓(xùn)練接線方式特征模型樣本,生成分類器,能夠進(jìn)行未知情況下的接線方式識(shí)別,具有較好的魯棒性,且能夠不斷進(jìn)行接線方式特征模型學(xué)習(xí),對(duì)新出現(xiàn)接線方式進(jìn)行精準(zhǔn)的分類,維護(hù)成本低。
數(shù)據(jù)準(zhǔn)備模塊根據(jù)電網(wǎng)模型數(shù)據(jù)構(gòu)建接線方式特征模型,對(duì)模型特征數(shù)據(jù)進(jìn)行處理,優(yōu)化模型特征,為構(gòu)建決策樹提供模型數(shù)據(jù),提高決策樹的分析精度。
1.1 電網(wǎng)模型與接線方式基礎(chǔ)特征
本文根據(jù)CIME電網(wǎng)模型文件構(gòu)建電網(wǎng)模型,建立結(jié)構(gòu)化設(shè)備樹形臺(tái)賬,然后在電網(wǎng)模型中查找連接關(guān)系設(shè)備集合API,實(shí)現(xiàn)電力系統(tǒng)中重要設(shè)備的統(tǒng)計(jì),最后通過搜索統(tǒng)計(jì)電網(wǎng)特征的接口,構(gòu)建接線方式基礎(chǔ)特征模型。
1.2 模型樣本數(shù)據(jù)標(biāo)準(zhǔn)處理
此環(huán)節(jié)在上一步建立的模型基礎(chǔ)上,訓(xùn)練樣本的抽樣,對(duì)抽樣之后的電網(wǎng)模型導(dǎo)出相應(yīng)的接線方式及其特征模型。為了滿足決策樹學(xué)習(xí)的要求,本環(huán)節(jié)將考察樣本模型能否覆蓋所有可能出現(xiàn)的情況。
1.3 接線方式屬性特征轉(zhuǎn)換
本文通過獲取原始接線方式屬性特征,并考察已有原始數(shù)據(jù)集屬性特征中必要的信息,自動(dòng)地進(jìn)行接線方式屬性特征構(gòu)造,利用設(shè)置特征條件、設(shè)置設(shè)備特征配比、設(shè)置設(shè)備連接特征條件的方法構(gòu)造接線方式屬性特征,完成新舊屬性特征轉(zhuǎn)換。
1.4 特征模型優(yōu)化
本步驟主要是訓(xùn)練模型優(yōu)化,是業(yè)務(wù)分析的難點(diǎn),建立的模型維度和訓(xùn)練的可靠性直接影響著識(shí)別器識(shí)別結(jié)果的準(zhǔn)確性。
接線方式特征模型的屬性間往往存在關(guān)聯(lián)關(guān)系,如果不加選擇模型特征,直接使用,大量混雜的特征,會(huì)使分類決策條件冗余,因此在決策樹無(wú)法計(jì)算時(shí)信息增益差異不明顯,導(dǎo)致決策樹過于簡(jiǎn)單或過擬合。在模型維度選取的時(shí)候,本文采用特征向量,正交矩陣等分析方法,選取最優(yōu)特征。具體實(shí)現(xiàn)方案采用主成分分析(PCA)的思想將n維特征映射到k維上(k 維度選取分析過程通過利用主成分分析找到最大方差理論、最小錯(cuò)誤理論和坐標(biāo)軸相關(guān)度理論,尋找各維度因素線性無(wú)關(guān)的標(biāo)準(zhǔn)正交特征向量,這樣獲得的模型特征選取減少了噪音、冗余、過度擬合的可能性。 1.5 重新歸一化 在篩選模型特征時(shí)候,主成分分析會(huì)形成數(shù)據(jù)模型標(biāo)準(zhǔn)化與歸一化,形成連續(xù)數(shù)據(jù)區(qū)間(0,1)和無(wú)量綱的數(shù)據(jù)。類似二分法的辦法有自己的特點(diǎn),但在現(xiàn)實(shí)中假定分類與屬性取值存在幾何分布概率的情況并不通用,會(huì)大大降低分類精度。為了便于理解結(jié)果,更好的反映數(shù)據(jù)分類與屬性值的關(guān)系,有必要對(duì)數(shù)據(jù)反歸一化,本方案選用基于屬性變換的多區(qū)間離散化方法將連續(xù)數(shù)值屬性轉(zhuǎn)換為類別的概率屬性,這樣在決策樹環(huán)節(jié)按照信息增益率劃分的指標(biāo)就轉(zhuǎn)換成了尋找最大概率指標(biāo),而尋找最大概率的指標(biāo)存在一個(gè)變化的區(qū)間之內(nèi),這樣的情景更加符合現(xiàn)實(shí)情況。通過以上步驟接線方式特征模型建立完畢,下面進(jìn)行決策分析。 2.1 構(gòu)建決策樹 選用算法 C4.5 構(gòu)建決策樹(Decision Tree),決策樹由算法劃分樣本直接產(chǎn)生,每個(gè)葉子節(jié)點(diǎn)表示一個(gè)特定的訓(xùn)練數(shù)據(jù)子集,訓(xùn)練數(shù)據(jù)集中的每個(gè)樣本只屬于一個(gè)葉子節(jié)點(diǎn),也就是說,任何一個(gè)給定的樣本通過決策樹只能得到一個(gè)預(yù)測(cè)結(jié)果。C4.5模型對(duì)大量的輸入數(shù)據(jù)非常有效,訓(xùn)練時(shí)間短并且較其它模型更容易理解。 2.2 決策樹修剪 決策樹構(gòu)建過程中,隨著遞歸深度的增加,剩余屬性的減少和算法支持的樣本數(shù)量不斷減少終止,降低了算法的時(shí)間復(fù)雜度,保證了收斂性,但是也使得算法在較深層次的樣本劃分中,過于使用于樣本集合中某個(gè)子集的統(tǒng)計(jì)特征,而忽略了各類樣本的整體分布情況,造成了對(duì)噪音數(shù)據(jù)的敏感。因此,一個(gè)完整的決策樹構(gòu)造過程還應(yīng)包含對(duì)決策樹的剪枝處理,其目的就是為了消除由噪音數(shù)據(jù)生成的分支所引起的過度擬合現(xiàn)象。 構(gòu)造過程中,需要對(duì)決策樹進(jìn)行修剪,這樣做是為了將一個(gè)過于特殊的或合身的樹一個(gè)更一般的形式,以提高未知樣本數(shù)據(jù)集其預(yù)測(cè)能力,主要采用兩種方法,預(yù)先修剪和事后修剪。 用ID3算法對(duì)接線方式流失問題進(jìn)行分析時(shí),可以區(qū)分不同流失接線方式的群組及每一群組的潛在流失因素。 決策樹正確識(shí)別率統(tǒng)計(jì)表 本文通過模型學(xué)習(xí)獲取相關(guān)信息構(gòu)建決策模式,通過決策樹模型學(xué)習(xí)相關(guān)信息,輸入預(yù)測(cè)模型,根據(jù)模型中樣本數(shù)據(jù)進(jìn)行預(yù)測(cè),并將其記錄,反復(fù)學(xué)習(xí),完成決策模式構(gòu)建。基礎(chǔ)的決策預(yù)測(cè)中樣本數(shù)據(jù)與數(shù)據(jù)準(zhǔn)備步驟相同,具有完全相同的數(shù)量,順序,類型和角色屬性,唯一不同的就是不需要對(duì)于預(yù)測(cè)列進(jìn)行設(shè)置,所有所需的參數(shù)都存儲(chǔ)在模型對(duì)象中。 決策預(yù)測(cè)可以使用以IF—Then形式形成分類規(guī)則,組成規(guī)則集。沿著給定路徑上的每個(gè)“屬性——值”對(duì)形成IF部分的一個(gè)合取項(xiàng),葉節(jié)點(diǎn)包含的類預(yù)測(cè),形成Then后的部分,將規(guī)則存入規(guī)則庫(kù),生成分類器,實(shí)現(xiàn)未知接線方式識(shí)別。 本方案采用K一折交叉確認(rèn)方法對(duì)決策樹進(jìn)行評(píng)估,K-折交叉驗(yàn)證就是把數(shù)據(jù)分成K份,然后用K-1份(訓(xùn)練集)去訓(xùn)練模型,剩下的一份(測(cè)試集)去測(cè)試模型的效果。因?yàn)橛蠯份,所以測(cè)試集可以有K份。 由訓(xùn)練數(shù)據(jù)集生成決策樹模型后,再使用測(cè)試數(shù)據(jù)集進(jìn)行驗(yàn)證得下表: 從表中可看出,采用閾值系數(shù)為0.3的時(shí)候,系統(tǒng)自動(dòng)識(shí)別效果較好。 本文的分類器在已知接線主要特征判定各種情況發(fā)生概率的基礎(chǔ)上,通過構(gòu)成決策樹來求取凈現(xiàn)值的期望值大于等于零的概率,這樣就避免了傳統(tǒng)軟件的中的固定判據(jù)的思路,而且針對(duì)數(shù)值類型的屬性,自動(dòng)斷定判斷判定系數(shù)閾值。針對(duì)重復(fù)出現(xiàn)的問題圖形和特殊圖形,有較好自動(dòng)適應(yīng)能力,識(shí)別率非常高,針對(duì)是誤判和漏判通過數(shù)學(xué)概率的方式,無(wú)須修改判據(jù)和程序擴(kuò)充升級(jí)等,解決了識(shí)別接線的時(shí)候的魯棒性,提高了識(shí)別的效率和準(zhǔn)確性。并且用圖形的方式展示確定的決策判定條件,可動(dòng)態(tài)調(diào)整判定系數(shù),滿足工程化使用要求。 參考文獻(xiàn) [1]王玉珍.基于數(shù)據(jù)挖掘的決策樹方法分析[J].電腦開發(fā)與應(yīng)用. 2007(5). [2]趙翔,劉同明.基于主成分分析的多變量決策樹構(gòu)造方法[J].計(jì)算機(jī)應(yīng)用研究,2005,(9): 37-38. [3]魏曉云.決策樹分類方法研究[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2007(9). Based on principal component analysis of multivariate decision tree in the connection mode identification modeling engineering practical application Gao Jun1,Hou Guangsong1,Meng Huizeng1,Wu Cuijuan2 Abstract:This paper presents an engineering practical for grid connection mode recognition technology,the technology is based on principal component analysis of multivariate decision tree,using supervised learning machine principle of decision tree based power system connection mode structure of intelligent recognition software. Connection mode characteristic model by adopting the idea of decision tree training samples,the generated classifier,realized the connection mode identification of unknown circumstances,and able to ongoing connection mode feature model to study,to identify the precise classification of emerging connection mode. Keywords:principal component;multivariate;decision trees2 決策分析

3 決策預(yù)測(cè)
4 模型解釋和校驗(yàn)
5 結(jié)論
(1.State Grid Heze Electric Power Company, Heze of shandong province,250012,2.Shandong AnXinYuan Information Technology co., LTD., jinan of shandong province,250100)