為了克服傳統(tǒng)診斷專家系統(tǒng)知識獲取困難的缺陷,將知識發(fā)現(xiàn)和數(shù)據(jù)挖掘技術(shù)引入診斷專家系統(tǒng)進(jìn)行探討分析,提出了一個新的系統(tǒng)框架并給與了試驗(yàn),結(jié)果表明,系統(tǒng)運(yùn)行后,對傳統(tǒng)診斷專家系統(tǒng)知識獲取困難的缺陷有一定的改善作用。
【關(guān)鍵詞】診斷專家系統(tǒng) 知識發(fā)現(xiàn) 數(shù)據(jù)挖掘
診斷專家系統(tǒng)是電力設(shè)備在線監(jiān)測系統(tǒng)幾種主要故障診斷方法之一。目前已研究的故障診斷專家系統(tǒng)模型有:基于規(guī)則、實(shí)例、行為、模糊邏輯和人工神經(jīng)網(wǎng)絡(luò)的五種診斷專家系統(tǒng)。它們的優(yōu)缺點(diǎn)如下:基于規(guī)則的診斷專家系統(tǒng)優(yōu)點(diǎn)為知識表述直觀、形式統(tǒng)一、易理解等,缺點(diǎn)為知識獲取困難、知識臺階窄和控制策略不靈活等,該種診斷系統(tǒng)只適用于具有豐富經(jīng)驗(yàn)的專業(yè)領(lǐng)域故障診斷;基于實(shí)例的診斷專家系統(tǒng)優(yōu)點(diǎn)為無須顯示領(lǐng)域知識、無須規(guī)則提取、降低知識獲取難度等,缺點(diǎn)為當(dāng)診斷實(shí)例檢索所有解空間時(shí),因覆蓋度小會導(dǎo)致搜索時(shí)可能漏掉最優(yōu)解,造成誤診或漏診;基于模糊理論的診斷專家系統(tǒng)優(yōu)點(diǎn)是有較強(qiáng)的結(jié)構(gòu)性知識表達(dá)能力,適用于處理診斷中的不確定信息和不完整信息,缺點(diǎn)是知識獲取困難,尤其是故障與征兆的模糊關(guān)系較難確定時(shí),容易發(fā)生漏診或誤診。基于行為的診斷專家系統(tǒng)優(yōu)點(diǎn)為在缺乏先驗(yàn)診斷知識的情況下,通過與診斷對象系統(tǒng)行為進(jìn)行交互作用,逐步學(xué)習(xí),能構(gòu)成一個完善的診斷系統(tǒng)。缺點(diǎn)是自動獲取故障行為征兆難度較大;基于人工神經(jīng)網(wǎng)絡(luò)的診斷專家系統(tǒng)優(yōu)點(diǎn)是有較好的容錯性、響應(yīng)快、強(qiáng)大的學(xué)習(xí)能力、自適應(yīng)能力和非線性逼近能力等,缺點(diǎn)是如果訓(xùn)練樣本集很少或訓(xùn)練樣本集選擇不當(dāng)?shù)那闆r下,很難有較好的歸納推理能力,很難指望它具有較好的歸納推理能力,另外,神經(jīng)網(wǎng)絡(luò)表達(dá)知識和利用知識的方式單一,通常的神經(jīng)網(wǎng)絡(luò)智能采用數(shù)值化的知識。可以發(fā)現(xiàn)以上五種故障診斷模型均存在知識獲取困難的缺陷。本文嘗試將數(shù)據(jù)庫技術(shù)中的知識發(fā)現(xiàn)和數(shù)據(jù)挖掘技術(shù)運(yùn)用到故障專家系統(tǒng)中進(jìn)行探討分析是否能有助于解決知識獲取困難的缺點(diǎn)。
1 知識發(fā)現(xiàn)和數(shù)據(jù)挖掘技術(shù)
1.1 基本概念
知識發(fā)現(xiàn)技術(shù)(Knowledge Discovery in Database)是指識別出存在于數(shù)據(jù)庫中有效的、新穎的、具有潛在效用的乃至最終可理解的模式的非平凡的過程。在此定義中,“數(shù)據(jù)”用來描述事物有關(guān)方面的信息,是一個有關(guān)事實(shí)F的集合,這個集合的數(shù)據(jù)一般來說都是準(zhǔn)確無誤的;“可理解”是指將數(shù)據(jù)庫中隱含的模式以容易被人們理解的形式表現(xiàn)出來,模式的可理解性常用模式的簡單程度來衡量,模式E的簡單程度S可用函數(shù)S(E,F(xiàn))來衡量;“模式”用來描述資料集F的某個子集,是一個用語言L來表示的一個表達(dá)式E;“過程”包括數(shù)據(jù)預(yù)處理、模式提取、知識評估及過程優(yōu)化,是指一個多步驟的處理過程,該過程要求是非平凡的,或者說要求有一定程度的自動性、智能性。
數(shù)據(jù)挖掘是指知識發(fā)現(xiàn)中的一個關(guān)鍵步驟,是一個抽取有用模式或建立模型的重要環(huán)節(jié)。數(shù)據(jù)挖掘的對象通常是大型數(shù)據(jù)庫或者數(shù)據(jù)倉庫,從廣義的角度上講,發(fā)掘?qū)ο笠部梢允俏募到y(tǒng),或者是其它數(shù)據(jù)集合。例如圖形圖像,WWW信息源,知識庫等。數(shù)據(jù)挖掘是在對數(shù)據(jù)集全面而深刻認(rèn)識的基礎(chǔ)上,對數(shù)據(jù)內(nèi)在和本質(zhì)的高度抽象與概括,也是對數(shù)據(jù)從理性認(rèn)識到感性認(rèn)識的升華。
1.2 基本原理
知識發(fā)現(xiàn)的基本原理體現(xiàn)于知識發(fā)現(xiàn)的基本過程之中,而發(fā)現(xiàn)那些有意義的、簡潔的、以模式表示的、正確的知識的前提則是加強(qiáng)虛假信息和偽裝知識的識別和監(jiān)控。可以把知識發(fā)現(xiàn)的基本過程劃分為數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、結(jié)果的評估與解釋等3個階段。
數(shù)據(jù)準(zhǔn)備是知識發(fā)現(xiàn)的第一個步驟,數(shù)據(jù)準(zhǔn)備主要是從各種信息媒體中獲取相關(guān)數(shù)據(jù),從中根據(jù)用戶的需求抽取相關(guān)數(shù)據(jù)和相關(guān)屬性,消除數(shù)據(jù)的噪音后根據(jù)利用數(shù)據(jù)屬性間的關(guān)系進(jìn)行數(shù)據(jù)簡約,減少有效數(shù)據(jù)的規(guī)模和維度。
數(shù)據(jù)挖掘是知識發(fā)現(xiàn)最重要的步驟。該步驟主要確定數(shù)據(jù)挖掘的目的和任務(wù)、算法的選擇以及確定算法的參數(shù)。挖掘算法采用較多的方法有聚類、粗集、決策樹、分類、關(guān)聯(lián)規(guī)則、神經(jīng)網(wǎng)絡(luò)與遺傳算法等。
結(jié)果的評估與解釋。該步驟是將數(shù)據(jù)挖掘的模式(知識)去除噪音后,根據(jù)用戶的需求對模式進(jìn)行評估,并轉(zhuǎn)換成易于人們理解的表達(dá)形式,經(jīng)過解釋以后,用戶可以理解、有價(jià)值和符合實(shí)際的模式形成知識,用于提供決策支持。
2 基于知識發(fā)現(xiàn)和數(shù)據(jù)挖掘技術(shù)的診斷專家系統(tǒng)
知識發(fā)現(xiàn)和數(shù)據(jù)挖掘技術(shù)引入診斷專家系統(tǒng)后體系結(jié)構(gòu)可形式化為圖1所示。其中,知識發(fā)現(xiàn)和數(shù)據(jù)挖掘技術(shù)模塊是系統(tǒng)的核心,它接受經(jīng)規(guī)范化處理后的原始證據(jù)輸入,給出處理后的結(jié)果。系統(tǒng)的知識預(yù)處理模塊及后處理模塊則主要承擔(dān)知識表達(dá)的規(guī)范化及表達(dá)方式的轉(zhuǎn)換,是知識發(fā)現(xiàn)和數(shù)據(jù)挖掘技術(shù)模塊與外界聯(lián)接的“接口”。
關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘方法中的一個重要分支,通過分析數(shù)據(jù)庫中不同數(shù)據(jù)屬性之間存在的潛在關(guān)系,找出滿足給定支持度和置信度的關(guān)系規(guī)則,對設(shè)備進(jìn)行在線故障診斷,表1是某電廠汽輪機(jī)響鈴報(bào)警記錄。
利用關(guān)聯(lián)規(guī)則挖掘算法,設(shè)置最小支持度、最小置信度均為為20%,(相關(guān)算法參見文獻(xiàn)[6]和[11]),對表1進(jìn)行分析后的故障記錄如表2所示。
通過分析可得強(qiáng)關(guān)聯(lián)規(guī)則:
A→C,支持度=0.75,置信度=0.75。
表明在A響鈴報(bào)警后不久就會出現(xiàn)C也響鈴報(bào)警。該規(guī)則可以向運(yùn)行人員提供早期故障預(yù)警,當(dāng)A響鈴報(bào)警后,運(yùn)行人員可以對C故障產(chǎn)生的原因進(jìn)行分析,查找到原因后從而在故障發(fā)生前將其排除,以確保設(shè)備的健康安全運(yùn)行。
3 結(jié)語
在知識獲取技術(shù)方面,基于數(shù)據(jù)挖掘的知識獲取并不需要知識工程師從領(lǐng)域?qū)<业慕?jīng)驗(yàn)中提取規(guī)則,它只是對領(lǐng)域?qū)<姨峁┑墓收蠈?shí)例進(jìn)行學(xué)習(xí),從故障實(shí)例中獲取知識,在應(yīng)用時(shí),知識會以統(tǒng)一的格式提取出來,這種知識獲取是自動的,不需要領(lǐng)域?qū)<液椭R工程師的直接對話,避免了在對話過程中導(dǎo)致診斷規(guī)則出現(xiàn)不一致的一切因素,這在一定程度上緩解或克服了傳統(tǒng)故障診斷專家系統(tǒng)中存在的知識獲取困難問題。
參考文獻(xiàn)
[1]吳明強(qiáng),史慧,朱曉華等.故障診斷專家系統(tǒng)研究的現(xiàn)狀與展望[J].計(jì)算機(jī)測量與控制,2005,13(12):1301-1304.
[2] 張代勝,王悅,陳朝陽.融合實(shí)例與規(guī)則推理的車輛故障診斷專家系統(tǒng)[J].機(jī)械工程學(xué)報(bào),2002,38(07):91-95.
[3]周東華,葉銀忠.現(xiàn)代故障診斷與容錯控制[M].北京:清華大學(xué)出版社,2000.
[4]Fayyad U M,Piatetsky-shapiro G,Smyth P.Advances in knowledge discovery and data mining.California:AAAI/MIT Press,1996.
[5]秦鴻霞.論知識發(fā)現(xiàn)的技術(shù)和方法[J].內(nèi)蒙古科技與經(jīng)濟(jì),2009,19(197):58-61.
[6]張?jiān)茲徚?數(shù)據(jù)挖掘原理與技術(shù)[M].北京:電子工業(yè)出版社,2004:1-2.
[7]R.Agrawal,T.Imeielinski,A.Swami.Mining association rules between sets of items in large databases[C].Processing of ACM SIGMOD,May 1993:207-216.
[8]R.Agrawal,and P.Yu.Online generation of association rules[C].In 14th Intl.Zonf.On Data Engineering,F(xiàn)eb.1998.
[9]M.-J Berry,G.Linoff.Data mining techniques for marketing,sales and customer support[M].Wiley Computer Publishing,1997.
[10]J.-S.Park,M.-S.Chen,and P.S.Yu.An effective hash based algorithm for mining association rules[C].Proceedings of ACM SIGMOD,May,1995:175-186.
[11]梁志瑞,陳鵬.關(guān)聯(lián)規(guī)則挖掘在電廠設(shè)備故障監(jiān)測中的應(yīng)用[J].電力自動化設(shè)備,2006,26(06):17-19.
作者簡介
李業(yè)順(1988-),男,山東省淄博市人。碩士學(xué)位。工程師。主要研究方向?yàn)榕潆姍z修。
作者單位
國網(wǎng)淄博供電公司 山東省淄博市 255100