劉繼清,黃金花
(武漢船舶職業技術學院,武漢 430050)
基于改進決策樹算法的設備故障智能診斷模型
劉繼清,黃金花
(武漢船舶職業技術學院,武漢 430050)
在20世紀80年代,人工智能及計算機技術的飛速發展,為故障診斷技術提供了新的理論基礎,產生了基于知識的故障診斷方法。如基于專家系統的故障診斷方法、基于模糊理論和神經網絡的故障診斷方法、基于數據融合和數據挖掘的故障診斷方法等。這些方法由于不需要對象的精確數學模型,而且具有某些“智能”性,因此比以前基于信號的故障診斷技術有更強的生命力。
但是,由于設備結構和功能日趨完善,設備故障征兆與故障特征的非線性特性也日趨復雜,從而導致現代故障診斷及識別難度不斷提高。僅僅靠一種理論、一種方法往往無法實現在復雜環境下準確、及時地進行設備的故障診斷。因此集多種理論和方法于一體的集成型智能故障診斷系統必將是設備故障診斷技術的新趨勢。
本文提出一種混合決策樹智能故障診斷方法。首先根據原始數據構建故障診斷原始決策表,然后利用離散優化理論和可辨識矩陣約簡算法得到屬性維數最少的離散數據決策表;最后利用C4.5 算法構造診斷決策樹;并對實例進行了故障診斷。結果表明:這種集多種理論為一體的智能故障診斷方法能大量減少計算量,有效降低決策樹規模,提高故障識別速度,具有很強的工程實用性。
決策樹(Decision Tree)[1]是數據挖掘技術中一種常用的分類方法。決策樹作為用于分類和決策的主要技術,是一種類似于流程圖的樹結構。決策樹也稱為判定樹,其方法就是利用信息論中的信息增益尋找樣本數據庫中具有最大信息量的屬性字段建立決策樹的一個節點,再根據該屬性字段的不同取值建立樹的分枝,并在每個分枝重復建立樹的下一個節點和分枝的過程。
決策樹的構建是一種自上而下、分而治之的歸納過程,本質是“貪心”算法[2]。在一棵決策樹中,每個內部節點表示一個屬性上的測試,每個分枝代表一個測試的輸出,而每個葉節點則存放一個類標號,樹的頂層節點是根節點。決策樹的構造從代表全部訓練樣本的根節點開始,為每個內部節點選擇一個分裂屬性,并根據該屬性的取值將樣本劃分為決策樹若干分枝,直到葉節點將樣本劃分為某一類[3]。典型的決策樹算法有ID3和C4.5兩種,它們在建樹的簡潔性、分類的快速性、可處理數據的范圍和規模等方面各有不同。以前進行故障分類診斷的常用方法為ID3。
ID3算法的主要缺陷是,用信息增益作為選擇分枝屬性的標準時,偏向于取值較多的屬性。而且,ID3算法只能處理離散值屬性,在數據處理范圍上存在一定的局限性。基于以上原因,本例中選擇C4.5算法進行故障分類診斷。
C4.5算法是由ID3算法演變而來的,有如下優點:
1)采用信息增益率進行屬性分割,克服了用信息增益來分割屬性時偏向選擇值多的屬性的不足。信息增益率定義為[4]:

其中,Gain(A)為信息增益,SplitI(A)是屬性A劃分子集的熵。采用增益率劃分屬性得到的決策樹,其中每個節點取具有最大信息增益率的屬性。
2)可以處理連續數值型屬性。C4.5在選擇某節點上的分枝屬性時,對于離散型描述屬性,C4.5的處理方法與ID3相同,按照該屬性本身的取值個數進行計算;而對于某個連續性描述屬性,C4.5將預先作以下離散化處理。具體如下:
(1)尋找該連續型屬性的最小值,并把它賦值給MIN,尋找該連續型屬性的最大值,并把它賦值給MAX;
(2)設置區間[MIN,MAX]中的N個等分斷點Ai,它們分別是

(3)分別計算把[MIN,Ai]和[Ai,MAX](i=1,2,…,N)作為區間值時的Gain值,并進行比較;
(4)選取Gain值最大的Ak做為該連續屬性的斷點,把屬性值設置為[MIN,Ak]和(Ak,MAX]兩個區間值。
3)決策樹構建后可進行剪枝。由于數據表示不當、有噪聲或者由于決策樹生成時產生重復的子樹等原因,都會造成產生的決策樹過大。因此,簡化決策樹是一個不可缺少的環節。決策樹構建后,可利用基于分類誤差率的剪枝算法對生成樹進行修剪。該方法使用訓練樣本集本身來估計剪枝前后的誤差,從而決定是否需要剪枝。方法中使用的公式如下:

其中N是實例的數量,f=E/N為觀察到的誤差率(其中E為N個實例中分類錯誤的個數),q為真實的誤差率,c為置信度(C4.5算法的一個輸入參數,默認值為0.25),z為對應于置信度c的標準差,其值可根據c的設定值通過查正態分布表得到。通過該公式即可計算出真實誤差率q的一個置信度上限,用此上限為該節點誤差率e做一個悲觀的估計:

通過判斷剪枝前后e的大小,從而決定是否需要剪枝。決策樹的剪枝可使生成的決策樹葉節點最少且每個葉節點的深度最小,從而簡化決策樹結構,在保證故障診斷正確率的前提下為決策規則庫“瘦身”。
表1為柴油機缸套活塞磨損的樣本數據[5],測取某型叉車柴油機缸體表面振動信號,對柴油機缸套活塞磨損程度進行診斷。由于缸套活塞間的磨損是循序漸進的,故不可能對磨損狀態定一個明顯的界限,選擇有代表性的3個狀態進行分析即正常工作狀態、輕微磨損狀態及嚴重磨損狀態。將時間-頻率平面等分為12個區域[6],條件屬性C={C1,C2,C3…C12}對應于這12個時域局部能量特征參數,決策屬性d={1,2,3}對應于正常狀態、輕微磨損狀態和嚴重磨損狀態。

表1 柴油機缸套活塞磨損的樣本數據

表2 離散化處理后的決策表
根據離散化優化算法對表1的樣本數據進行離散化,離散化后的決策表如表2所示。
如果直接對上表數據使用C4.5決策樹算法進行故障分類診斷,由于特征屬性維數較多,C4.5算法需要一個個計算C1-C12各節點的信息量,比較信息增益率,勢必導致計算量太大。即使C4.5可在決策樹構建后進行剪枝,但在生成決策樹前期仍有很大的計算量。因此,筆者考慮采用可辨識矩陣約簡算法先對表2進行約簡,然后再采用C4.5算法構建決策樹,進行故障分類診斷。
粗糙集(Rough Set)理論于1982年由波蘭科學家Pawlak提出,已成為信息科學最活躍的研究領域之一。屬性約簡作為粗糙集理論的核心內容,它的意義在于可以有效地刪除冗余信息[7],形成精簡的決策規則庫,提高人工或機器識別的快速性和準確性。目前,最常用的一致性數據屬性約簡方法是可辨識矩陣約簡算法。
Skowron可辨識矩陣定義為[8]:

可辨識矩陣約簡算法的原則是最后的約簡矩陣即包含了相對重要的屬性,且這些屬性之間的依賴度要充分小。在可辨識矩陣中只含單個屬性的元素構成了相對核,不含相對核的元素構成集合B=A-C0,其在可辨識矩陣中出現的頻率記為P(ak),則屬性ak的重要性為:


經過可辨識矩陣約簡算法處理后,去除了表2 中的冗余屬性,將表2約簡為只有{C2, C3, C4,C11}四個代表屬性的決策如表3所示。

表3 約簡后的決策表
筆者將可辨識矩陣約簡算法和C4.5決策樹算法結合,設計了一種改進型決策樹智能診斷模型。其基本結構如圖1 所示。它主要包括數據庫模塊、決策表模塊、診斷規則庫模塊、診斷決策樹模塊和診斷結果輸出模塊。在進行故障診斷時, 先將診斷規則和故障特征向量載入, 同時數據庫中的數據經離散化處理后實時送到診斷模塊,診斷模塊根據載入的診斷規則進行推理和診斷, 并將結果輸出。

圖1 基于改進決策樹算法的設備故障診斷模型

圖2 利用本方法約簡的決策樹
將約簡后的決策表3數據送入后續的C4.5 模塊, 根據增益率最大原則生成決策樹如圖2所示。由此產生6條IF-THEN規則。將測試數據送入此模型進行柴油機缸套活塞磨損情況的故障診斷,正確率達到90%以上。
這種將可辨識矩陣約簡算法和C4.5決策樹算法相結合的設備故障診斷模型可以對樣本特征參數進行約簡,去除冗余信息,有效減少C4.5決策樹的節點數,減少故障規則提取的工作量, 降低決策樹規模,實現故障類型的快速準確識別。比單純使用決策樹算法具有更強的工程實用性。當樣本數據充足時,該方法可推廣應用。
[1]SUN Weixiang,CHEN Jun,LI Jiaqing.Decision Tree and PCA Based Fault Diagnosis of Rotating Machinery[J]. Mechanical Systems and Signal Processing,2007, 21(3):1300-1317.
[2]蘇新寧,楊建林.數據倉庫和數據挖掘[M].北京:清華大學出版社,2006.
[3]蒲元芳,杜紅樂.決策樹在網絡入侵檢測中的研究與應用[J].電腦知識與技術, 2010(7):1560-1563.
[4]Quinlan J.C4.5 Programs for Machine Learning[M].New York:Morgan Kauffman,1993.
[5]黃廣君,郭洪濤,張孝國.基于粗糙集與神經網絡的故障診斷研究[J].計算機工程與應用,2008,44(35):229-231.
[6]王奉濤.基于局域波形法的時頻局部能量特征提取方法[J].中國機械工程,2003,14(23): 2012-2014.
[7]張超,馬存寶,宋東,等.基于粗糙決策樹模型的復雜設備智能故障診斷[J].兵工學報,2008(9):1123-1128.
[8]王國胤.粗糙集理論與知識獲取[M].西安交通大學出版社,2000.
Intelligent fault diagnosis method for equipments based on improved decision tree algorithm
LIU Ji-qing, HUANG Jin-hua
提出一種改進決策樹智能故障診斷方法。首先構建故障診斷原始決策表,然后對特征數據進行離散化處理;接著利用可辨識矩陣約簡算法對決策表進行屬性約簡;最后利用 C45 算法構造出最優診斷決策樹;并對實例進行故障診斷。結果表明:該方法能有效地刪除冗余信息,形成精簡的決策規則庫,提高故障識別速度, 具有很強的工程實用性。
決策樹;C4.5算法;可辨識矩陣約簡算法;故障診斷
劉繼清(1965 -),男,湖北孝感人,副教授,碩士,主要從事算法研究、計算機及網絡技術、軟件開發等工作。
TH166;TP391.7
A
1009-0134(2011)4(上)-0030-04
10.3969/j.issn.1009-0134.2011.4(上).10
2010-11-24