劉艷杰,陳炳發(fā),丁力平
(南京航空航天大學(xué) 機(jī)電學(xué)院,江蘇 南京 210016)
微電機(jī),全稱是微型電動機(jī),是指直徑<160mm或者額定功率<750mW的電機(jī),經(jīng)常被用于控制系統(tǒng)中實(shí)現(xiàn)機(jī)電信號的解析運(yùn)算和轉(zhuǎn)換等功能。微電機(jī)裝配過程已經(jīng)實(shí)現(xiàn)了自動化,但是在最終質(zhì)量檢測環(huán)節(jié)中,卻要依賴有經(jīng)驗(yàn)的工人聽微電機(jī)的轉(zhuǎn)動聲音來判斷是否有噪聲故障。雖然人耳是個極為精密的器官,但人耳對微電機(jī)裝配質(zhì)量的判定受諸多因素的影響,不同人對同一微電機(jī)、甚至同一個人對同一臺微電機(jī)的多次判定結(jié)果均可能不一致,因此識別率難以得到保證。隨著數(shù)字信號處理[1]和機(jī)器學(xué)習(xí)[2]等技術(shù)的發(fā)展,將機(jī)器學(xué)習(xí)技術(shù)用于聲音信號處理,以實(shí)現(xiàn)生產(chǎn)線中微電機(jī)裝配質(zhì)量的智能化識別,有利于提高裝配質(zhì)量的檢測精度和效率。
基于聲學(xué)特征的故障診斷主要包含特征提取和故障分類兩個部分。電機(jī)在運(yùn)行的過程中,會由自身的振動產(chǎn)生噪聲,噪聲信號中包含著電機(jī)的狀態(tài)信息。當(dāng)發(fā)生故障時,其噪聲的振幅、頻域都會發(fā)生變化[3]。聲音信號的特征參數(shù)一般可以分為時域特征、頻域特征和倒譜域特征[4]。信號處理的方法一般為時頻分析方法,主要有小波變換[5]和經(jīng)驗(yàn)?zāi)J椒纸鈁6]。胡文明等[7]對微電機(jī)聲音信號進(jìn)行小波包能量譜分析,將信號分成不同頻段,通過每個頻段內(nèi)能量分布的不同來識別故障類型。HUANG N E等[8]提出了經(jīng)驗(yàn)?zāi)B(tài)分解方法(EMD),這種分解方法是自適應(yīng)的,適用于非線性和非平穩(wěn)過程。
梅爾頻率倒譜系數(shù)(mel frequency cestrum coefficient,MFCC)[9]將人耳的聽覺感知特性和語音的產(chǎn)生機(jī)制相結(jié)合,廣泛適用于音頻信號處理。語譜圖是語音頻譜圖,它表達(dá)了語音信號不同頻段的信號強(qiáng)度,在語音情感識別中廣泛應(yīng)用此特征[10]。卷積神經(jīng)網(wǎng)絡(luò)(CNN)[11]是一種深度監(jiān)督學(xué)習(xí)下的機(jī)器學(xué)習(xí)模型,具有很強(qiáng)的適應(yīng)性,便于挖掘數(shù)據(jù)的局部特征,在語音識別、圖像處理[12]等領(lǐng)域都取得了很好的成果。
本文提出了一種基于聲學(xué)特征的微電機(jī)故障診斷方法,以融合CNN模型作為聲音識別模型。首先利用聲音采集裝置獲得微電機(jī)轉(zhuǎn)動聲音信號,然后提取信號的MFCC、短時能量和語譜圖等聲學(xué)特征,最后將提取的特征數(shù)據(jù)輸入到模型中進(jìn)行故障識別。本文對該方法的設(shè)計(jì)與實(shí)現(xiàn)的過程進(jìn)行闡述。
本文提出的微電機(jī)故障診斷方法的整體流程如圖1所示,主要包含以下5步。

圖1 微電機(jī)故障診斷的整體流程
1)聲音信號采集:使用聲音傳感器采集微電機(jī)聲音信號,并進(jìn)行預(yù)處理;
2)特征提取:提取聲音信號的39維MFCC、短時能量和語譜圖特征,用于后面的分析識別;
3)模型識別:將MFCC和短時能量輸入1D-CNN(一維卷積神經(jīng)網(wǎng)絡(luò))模型,語譜圖輸入2D-CNN(二維卷積神經(jīng)網(wǎng)絡(luò))模型中,分別得到各自識別的結(jié)果;
4)模型融合:給不同模型識別的結(jié)果賦予不同的權(quán)重,以提高識別的準(zhǔn)確率;
5)故障識別:輸出微電機(jī)的故障類型。
本文研究的微電機(jī)型號是24BYJ46,微電機(jī)聲音信號使用隔音裝置采集,沒有環(huán)境噪聲。首先將微電機(jī)接通電源,將聲音傳感器靠近微電機(jī)進(jìn)行采集,采樣頻率是16kHz,采樣位數(shù)是16位,采樣點(diǎn)是30 000,信號的保存格式是無損的WAV格式。采集的聲音信號有4種,正常微電機(jī)轉(zhuǎn)動聲音、齒輪嚙合不良故障、擦鐵異音故障、內(nèi)有垃圾故障。每種信號有480個樣本,總共1 920個樣本。4種微電機(jī)聲音信號的時域波形圖如圖2所示。


圖2 4種微電機(jī)聲音信號的時域波形圖
a)梅爾頻率倒譜系數(shù)
梅爾頻率倒譜系數(shù)是基于人耳的聽覺特性提出來的,它與頻率成非線性對應(yīng)關(guān)系。MFCC是一種常用的音頻特征,廣泛應(yīng)用于自動語音和說話人識別中。在實(shí)際應(yīng)用中,MFCC特征提取的過程[13]如圖3所示,具體計(jì)算過程如下。
1)預(yù)加重。將采集的聲音信號s(n)通過一個高通濾波器,以增強(qiáng)聲音信號中的高頻部分。高通濾波器的傳遞函數(shù)為
X(n)-s(n)-a×s(n-1)
(1)
式中a為預(yù)加重系數(shù),值介于0.9~1.0之間。
2)分幀。聲音信號具有短時平穩(wěn)性,分幀的過程就是將一段聲音信號分成N段,每一段為一幀,通常情況下每幀涵蓋的時間約為20~30ms,為了避免相鄰兩幀之間變化過大,因此會讓兩幀之間有一段重疊的區(qū)域,稱為幀移,一般為幀長的一半左右。
3)加窗。加窗可以增加幀兩端的連續(xù)性,減少頻譜泄漏。常用的窗函數(shù)是漢明窗(Hamming),表達(dá)式如下為
(2)
式中N為窗長,即幀長。
4)DFT。將聲音信號進(jìn)行離散傅里葉變換后得到頻譜,將頻譜取模平方得到信號的能量譜。聲音信號的頻譜為
(3)
5)Mel濾波器組。求出能量譜后,用M個Mel帶通濾波器組進(jìn)行濾波,將每個濾波頻帶內(nèi)的能量進(jìn)行疊加,這時第k個濾波器輸出功率譜x′(k)。
6)對數(shù)運(yùn)算。對m個濾波器組的輸出取對數(shù)運(yùn)算,得到相應(yīng)頻帶的對數(shù)功率譜。計(jì)算公式為
(4)
式中:s(m)是對數(shù)功率譜;Hm(k)是濾波器組。
7)DCT。將對數(shù)功率譜進(jìn)行DCT(離散余弦變換),得到L個MFCC系數(shù),計(jì)算公式為
(5)
式中c(n)是第n個MFCC系數(shù)。
8)動態(tài)差分參數(shù)的提取。上面直接得到的MFCC特征只反映了信號的靜態(tài)特征,對這種靜態(tài)特征做一階、二階差分,可得到相應(yīng)的動態(tài)特征。差分參數(shù)的計(jì)算公式為

(6)
式中:d(t)表示第t個一階差分;c(t)表示第t個倒譜系數(shù),Q表示倒譜系數(shù)的階數(shù);K表示一階導(dǎo)數(shù)的時間差,可取1或2。將上式結(jié)果再代入就能得到二階差分的參數(shù)。

圖3 MFCC的提取過程
b)短時能量
聲音信號的能量隨時間變化比較明顯,其短時能量可以分析這些幅度的變化。對于信號x(n),短時能量的定義如下:
(7)
式中h(n)=w2(n)。
4種微電機(jī)聲音信號的短時能量如圖4所示。

圖4 4種微電機(jī)信號的短時能量圖
c)語譜圖
語譜圖是語音頻譜圖,它的橫坐標(biāo)是時間,縱坐標(biāo)是頻率,坐標(biāo)點(diǎn)值為語音數(shù)據(jù)能量。由于語譜圖采用二維平面表達(dá)三維信息,所以能量值的大小是通過顏色來表示的,顏色越深表示該點(diǎn)的語音能量越強(qiáng)。語譜圖表達(dá)了語音信號不同頻段的信號強(qiáng)度,便于觀察頻率隨時間的變化情況。通過語音信號獲得語譜圖的過程如下:
1) 獲取音頻數(shù)據(jù);
2) 將聲音信號分幀加窗;
3) 對幀信號進(jìn)行FFT,得到幀信號的頻譜;
4)將各幀頻譜疊加,得到整個聲音信號的語譜圖。
4種微電機(jī)聲音信號的語譜圖如圖5所示。

圖5 4種微電機(jī)信號的語譜圖
本文訓(xùn)練了兩種模型:1D-CNN和2D-CNN,同時對微電機(jī)聲音信號數(shù)據(jù)集進(jìn)行訓(xùn)練,將兩種模型訓(xùn)練輸出的結(jié)果進(jìn)行加權(quán)平均后再輸出,獲得模型融合后的識別結(jié)果。1D-CNN和2D-CNN模型融合的整體流程如圖6所示。

圖6 1D-CNN與2D-CNN模型融合過程
1D-CNN的網(wǎng)絡(luò)結(jié)構(gòu)包括輸入層、2個卷積層、2個池化層、全連接層和輸出層。該網(wǎng)絡(luò)的輸入是大小為40(39維MFCC和短時能量)的特征向量。第一個卷積層卷積核的數(shù)目為16,卷積核大小為8,步長為2,卷積后使用relu激活函數(shù)引入非線性因素,卷積后得到的特征向量用0填充邊緣部分;第一個卷積層后連接第一個池化層對卷積后的特征向量進(jìn)行壓縮,以簡化網(wǎng)絡(luò)計(jì)算復(fù)雜度,采用大小為2的卷積核進(jìn)行最大池化,得到16個大小為1×8的特征向量;第二個卷積層卷積核的數(shù)目為32,卷積核大小為8,步長為2,激活函數(shù)是relu, 邊緣部分用0填充;第二個池化層采用大小為2的卷積核進(jìn)行最大池化,得到32個大小為1×2的特征向量;第二個池化層后是全連接層,用來連接所有的特征,將輸出值送給softmax分類器,經(jīng)全連接層后得到的64維特征向量;最后一個是輸出層,大小為4。
2D-CNN的網(wǎng)絡(luò)結(jié)構(gòu)包括輸入層、2個卷積層、2個池化層、全連接層和輸出層。該網(wǎng)絡(luò)的輸入是大小為32像素×32像素×3通道(RGB)的語譜圖。第一個卷積層卷積核的數(shù)目為32,卷積核大小為3×3,卷積后使用relu激活函數(shù)引入非線性因素,卷積后得到的特征圖用0填充邊緣部分,使其大小保持不變;第一個卷積層后連接第一個池化層對卷積后的特征圖進(jìn)行壓縮,以簡化網(wǎng)絡(luò)計(jì)算復(fù)雜度,采用大小為2×2的卷積核進(jìn)行最大池化,得到32個大小為16×16的特征圖;第二個卷積層卷積核的數(shù)目為64,卷積核大小為3×3,激活函數(shù)是relu,邊緣部分用0填充;第二個池化層采用大小為2×2的卷積核進(jìn)行最大池化,得到64個大小為8×8的特征圖;第二個池化層后是全連接層,用來連接所有的特征,將輸出值送給softmax分類器,經(jīng)全連接層后得到的4 096維特征向量;最后一個是輸出層大小為4。
本文采用加權(quán)平均法對2個模型的輸出結(jié)果進(jìn)行融合,加權(quán)平均的公式如下:
(8)

1)試驗(yàn)設(shè)計(jì)
從樣本中隨機(jī)選擇70%的樣本作為卷積神經(jīng)網(wǎng)絡(luò)的輸入訓(xùn)練樣本,剩下30%的樣本作為測試樣本。將訓(xùn)練樣本提取特征值并分別輸入到一維CNN和二維CNN模型中,獲得訓(xùn)練模型;再將測試樣本提取特征值并輸入到訓(xùn)練好的一維CNN和二維CNN模型中并輸出,然后將2個模型的結(jié)果融合后再輸出,對比3種模型的輸出結(jié)果。
2)狀態(tài)編碼
微電機(jī)狀態(tài)對應(yīng)編碼表如表1所示。

表1 微電機(jī)狀態(tài)對應(yīng)編碼表
編碼后的向量便是CNN的輸出向量。
3)結(jié)果分析
本文分析了3個模型:1D-CNN、2D-CNN和融合CNN。在融合CNN模型中,1D-CNN的權(quán)重為α1,2D-CNN的權(quán)重為α2,且α2=1-α1。融合CNN模型中每個模型的權(quán)重和識別準(zhǔn)確率的變化如表2所示。當(dāng)α1=0時,2D-CNN模型的準(zhǔn)確率為91.67%;當(dāng)α1=1時,1D-CNN模型的準(zhǔn)確率為90.63%。當(dāng)α1=0.4并α2=0.6時,準(zhǔn)確率最高,為93.58%。故本文融合CNN模型中,取1D-CNN的權(quán)重為0.4,2D-CNN的權(quán)重為0.6。不同深度學(xué)習(xí)模型的故障識別準(zhǔn)確率對比如表3所示。

表2 融合模型識別準(zhǔn)確率

表3 不同深度學(xué)習(xí)模型的故障識別準(zhǔn)確率對比
由表3可知,1D-CNN模型主要分析特征為時域特征和倒譜域特征,準(zhǔn)確率為90.63%;2D-CNN模型主要分析特征為頻域特征,準(zhǔn)確率為91.67%,融合CNN模型集合了兩個模型的優(yōu)勢,識別準(zhǔn)確率為93.58%,比1D-CNN和2D-CNN的準(zhǔn)確率各提高了2.95%和1.91%,平均提高了2.43%。
本文提出了一種基于聲學(xué)特征和融合CNN模型的微電機(jī)故障診斷方法。該方法提取了微電機(jī)聲音信號的MFCC特征、短時能量和語譜圖特征,并建立了一維CNN和二維CNN分類模型來進(jìn)行識別,然后利用模型融合技術(shù)將兩個模型訓(xùn)練的結(jié)果進(jìn)行加權(quán)平均,充分發(fā)揮了不同模型的優(yōu)勢,提高了準(zhǔn)確率。該方法具有很好的準(zhǔn)確度,在實(shí)際的工程中有良好的應(yīng)用前景。