999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

并行網絡與數據擴充方法在乘用車異響識別中的應用*

2023-05-23 10:28:56陳達亮張博文郝耀東安子軍鄧江華
汽車技術 2023年5期
關鍵詞:特征信號

陳達亮 張博文 郝耀東 安子軍 鄧江華

(1.中汽研(天津)汽車工程研究院有限公司,天津 300399;2.燕山大學,秦皇島 066000)

主題詞:異響識別 卷積神經網絡 Transformer編碼器棧 并行網絡 音頻剪切 數據增強

1 前言

目前,基于各種信號的故障診斷技術已廣泛應用于工業生產中,但針對乘用車系統中存在的異響問題,相關數據集的匱乏限制了該領域診斷技術的發展,因此有必要進行基于易獲信號的車輛異響診斷方法開發。

在故障診斷領域,研究人員采用梅爾頻率倒譜系數(Mel Frequency Cepstral Coefficients,MFCCs)特征[1]和小波特征[2]等作為聲信號特征輸入分類器,分類器利用自身的數據統計分析能力,最終實現分類功能。分類器可分為2 個階段,即傳統機器學習階段和深度學習階段。前者代表算法有支持向量機[3]、決策樹[4]和人工神經網絡[5]等;后者代表算法有卷積神經網絡(Convolutional Neural Network,CNN)[6]、循環神經網絡(Recurrent Neural Network,RNN)[7]等。

在傳統機器學習方面:文獻[8]針對旋轉機械出現的早期故障振動信號,進行了小波包分解和經典模式分解以獲得故障特征,并在機械軸承上得到試驗驗證;文獻[9]利用小波基函數逐級對軸承故障特征進行小波包分解,最終實現了超過99%的分類精度。

在深度學習方面:文獻[10]開發了一種車輛動力總成系統異響的分類方法,提取了MFCCs 特征作為RNN的輸入,最終實現了87.6%的分類精度;文獻[11]使用了2種數據增強方法,并利用含有殘差鏈接的CNN開發了針對旋轉機械的故障診斷技術,最終在公開數據集上實現了99.91%的識別率。

傳統機器學習和深度學習在分類問題上都存在一些不足:前者在分析處理復雜函數或龐大數據時計算能力不足,不適合智能分類領域的發展趨勢;后者在數據集小且稀疏的情況下極易造成深度學習模型過擬合現象。本文基于有限的7種異響數據,并利用數據擴充方法增加樣本數量,提出一種新的深度學習識別方法,驗證Transformer編碼器棧和CNN并行工作機制的有效性,同時提取輸入特征的空間和時序信息以獲得更高的識別精度。

2 數據處理與特征提取

2.1 異響數據處理

本文利用HeadLab前端設備進行若干車型的車內噪聲數據采集,為了降低訓練風險并保留聲音信號的完整信息,統一采樣頻率為48 kHz,量化位數為16 bit。對噪聲數據進行人工聽診作為初步主觀篩選,利用Testlab對噪聲數據進行時域和頻域分析作為客觀篩選,綜合主、客觀篩選結果并截取異常噪聲的出現時間段,最終作為有效數據保留。為驗證診斷模型的泛化能力,將有效數據以8∶1∶1的比例劃分為訓練集、驗證集和測試集,其中訓練集和驗證集的數據集合統稱為訓練數據,測試集為測試數據。

2.2 數據擴充方法

劃分數據集后,針對各數據集分別采用音頻剪切和數據增強方式來擴充數據。

2.2.1 音頻剪切

將一段音頻切分成若干個小時間塊,通過分析該段音頻波形圖,確定異常頻率之間的時間間隔。本文確定小時間塊的時長為3 s,為避免裁剪過程中相鄰時間塊出現信息丟失,設置切分步長為2 s。

2.2.2 數據增強

采用4種有效方法進行數據增強,分別是時間拉伸(Time Stretching)、時間平移(Time Shifting)、噪聲增加(Noise Addition)、音高修正(Pitch Shifting)。

2.2.2.1 時間拉伸

在音高不變的前提下,通過設置拉伸參數v改變原音頻信號的速度,v∈(1,+∞)或v∈(0,1)表示加快或減慢音頻速率為原音頻速率的v倍。為了防止音頻失真,本文對每個音頻數據設置了一組拉伸參數v∈{0.8,2}。

2.2.2.2 時間平移

保持音高不變,在時域范圍平移一定距離,平移參數σ可設置為正值或負值,分別代表音頻數據向前或向后平移。本文對每個音頻數據設置平移參數σ=fs∕2,其中fs為采樣頻率,本文取σ∈{-fs∕2,fs∕2}。

2.2.2.3 噪聲增加

噪聲增加是自然語言處理和圖像識別領域常用的增強技術,在聲音識別領域,噪聲增加是指為原音頻數據增加背景噪聲,如高斯噪聲、環境音等。本文選擇添加均值為0,標準差為1的高斯白噪聲。

2.2.2.4 音高修正

在音速不變的前提下,改變原音頻的音高,實際上音高的改變并不影響故障特征的標簽,通過設置修正參數ρ使音高向上或向下移動若干步(以半音為單位,ρ為正代表向上移,反之向下),本文取ρ∈{-6,3,6}。

所有的異響類型、樣本量、時長及數據擴充后的數據信息如表1 所示。圖1 所示為4 種增強技術的部分處理結果,原始音頻是一段經過篩選的減速器敲擊聲。

圖1 增強信號與原始信號波形對比

表1 數據信息

2.3 特征提取

為了獲取有效的故障診斷特征及可以用于深度學習的輸入數據,提取基于對數濾波器組能量(Logfbank)及MFCCs的特征參數,提取流程如圖2所示。

圖2 特征提取流程

具體操作過程如下:

a.預加重。噪聲數據通過預加重達到平衡頻譜和改善信噪比的目的,圖3 所示為一段原始敲擊噪聲,預加重結果如圖4 所示。時域信號X(n)預加重后的輸出為:

圖3 減速器敲擊異響

圖4 經預加重的減速器敲擊異響

式中,n為采樣點序號;α為濾波器系數。

b.分幀、加窗。使用漢明窗將信號分為若干短的時間段,每個短時間段稱為分析幀,可認為在分析幀內,信號的頻率平穩。為了保持信號的連續性,避免信號失真,相鄰的分析幀通常會有重疊,重疊部分稱為幀移。分幀操作可表達為:

其中,ω(n)為漢明窗函數:

c.傅里葉變換與功率譜計算。在每個分析幀上進行傅里葉變換,將時域信號轉換為頻域功率分布,然后計算功率譜:

式中,Pi(k)為第i幀對應的第k個功率譜;j為傅里葉變換時的虛部單位;K為傅里葉變換的長度。

d.梅爾濾波器組濾波。功率譜經過梅爾尺度的三角濾波器組便可以得到人耳感知頻率范圍內的音頻。音頻的實際頻率f與梅爾尺度頻率Mel(f)的關系為:

e.對數能量分析。對每個濾波器的輸出取對數得到對數能量,將濾波器組輸出的對數能量命名為Logfbank,對數能量輸出為:

其中,Hm(k)為三角濾波器組的定義函數:

式中,M為濾波器數量;f(m)為第m個濾波器的中心頻率。

f.離散余弦變換。去除Logfbank特征之間的高度相關性以獲得更為抽象的特征(MFCCs):

式中,n′為MFCCs的階數。

2.4 特征形狀

基于Pytorch框架(版本1.7.0),對訓練數據和測試數據應用5種數據擴充方法后,利用Python_speech_feature庫中的Logfbank函數提取Logfbank特征,利用Librosa庫中的Librosa.feature.mfcc函數提取MFCCs特征。函數設置細節如表2所示,特征形狀為本文擬議并行架構的輸入形狀(特征階數×時間的2維矩陣)。

表2 特征提取細節

3 深度學習

3.1 卷積神經網絡

卷積神經網絡目前仍然是計算機視覺領域的主流方法,原因在于它可以共享權重參數,且可以相對少的權值參數建立稀疏聯系[12]。以上特點使得網絡更易于優化,同時降低了過擬合的風險。

卷積網絡由若干典型層組成,典型層中一般包含卷積層和池化層,其中卷積層通過使用微型卷積核與輸入張量進行卷積運算,從而實現對局部信息的掃掠,同時還需要采用非線性激活函數(一般使用線性整流函數(Rectified Linear Unit,ReLU))加快特征學習能力。池化層則用于提取重要的局部信息,提高計算效率,一般使用最大池化或平均池化。最后經過全連接層實現分類功能。圖5展示了含有1個典型層和2個全連接層的簡化CNN結構。

圖5 簡化的CNN結構

3.2 Transformer編碼器

Transformer 目前已成為主流的序列到序列(Seq2Seq)模型。其利用由若干編碼器串聯而成的編碼器棧取代了以RNN 為核心的編碼器。如圖6 所示,編碼器棧中的每一個編碼器由多頭注意力(Multi-Head Attention,MHA)單元和前饋神經網絡單元串聯而成,每一個單元又附有殘差連接。加入殘差連接的原因在于:參數的分布在訓練時可能不斷變化,殘差連接可以使網絡對特征參數進行歸一化操作,從而能夠學習到更有效的梯度。

圖6 編碼器棧結構

3.2.1 多頭注意力機制

注意力機制將輸入的上下文序列向量映射為數字張量集合{ki,vi},通過Softmax函數使輸入矩陣Q和鍵矩陣K的相似度呈概率分布,然后與值矩陣V進行加權求和,最終映射為Z值并作為前饋神經網絡單元的輸入。

MHA 可以理解成若干基于縮放的點乘注意力(Scaled Dot-product Attention,SDA)并行的形式。SDA映射函數表示為:

式中,D為Q或K的矩陣維度,當Q=K=V時稱為自注意力;S()為概率化函數。

進一步,MHA可表示為:

3.2.2 求和與正則化

殘差連接借用殘差網絡(ResNet)[13]的思想,通過求和(Add)形式實現,目的是避免多層疊加網絡導致的梯度消失和爆炸問題。加入正則化(Norm)操作是對張量進行歸一化,從而達到降低學習難度的目的。最終殘差連接的輸出表示為:LN(x+Sub(x))。其中,x為輸入的恒等映射,Sub(x)代表網絡單元對x的激活映射,LN()為歸一化操作,其具體輸出表示為:

式中,Maxis(x)、Var(x)分別為給定通道軸的平均值和方差;ε為避免分母為0的參數;ω、b分別為可學習的權重與偏置項。

3.2.3 前饋神經網絡

前饋神經網絡也稱為全連接神經網絡,一般包括輸入層、隱含層和輸出層。在Transformer 中,其輸入層為編碼器在經過第1 個歸一化處理后的輸出張量。具體傳播形式為:

式中,a(l)為第l層的輸出;fl()為激活函數;W(l)、b(l)分別為第l層所使用的權重和偏置。

4 并行網絡診斷架構

卷積神經網絡針對復雜的輸入特征,通過正、反向傳播,使輸出盡可能逼近一個能匹配信號特征的非線性函數,得到輸入特征在空間尺度的信息。Transformer編碼器通過多頭注意力機制加上殘差連接捕獲連續信號各時序之間的隱藏關系,從而得到輸入的連續特征的時序信息。為了提高診斷模型的診斷能力,同時獲取信號的空間信息和時序關系信息,本文設置了深度卷積網絡和Transformer 編碼器棧同時工作的架構來提高診斷性能。

圖7展示了擬議架構,在架構中,設置了2條用于提取空間信息的并行CNN線路(CNN1、CNN2)和1條用于提取時序信息的編碼器棧線路(Transformer)。對于輸入的2D 特征,在CNN1 中設置了3 個卷積層,采用3×3的微型卷積核,在CNN2 中同樣設置3 個卷積層,與CNN1 不同的是,用3×1 和1×3 的非對稱卷積核取代了3×3 卷積核,這不僅極大減少了計算參數,而且可以獲得額外的空間信息。另外,每個卷積層最后均設有池化操作用于減少參數數量、加快訓練速度。在Transformer中,首先對輸入的特征圖進行池化,然后采用串聯Transformer 編碼器棧進行時序信息抓取。最終將3 條并行線路提取到的空間時序信息融合,再線性變換到全連接層,最后使用Softmax 函數輸出各噪聲類型的概率。并行線路可以實現CNN 與Transformer 協同工作,避免了深層網絡帶來的計算成本。

圖7 并行架構

表3 展示了并行架構的細節,(a,b,c,d)表示卷積層∕池化層卷積核∕池化核數量為a,卷積核∕池化核寬、高、步長分別為b、c、d,Dropout(0.4)表示隨機丟棄40%的神經元,5×()表示5 個編碼器,MHA(5)表示多頭注意力包含5 個自注意力。網絡加入了批量歸一化(Batch Normalization,BN)層,這對網絡訓練效率和優化梯度問題有明顯的增益[14]。對于反向傳播中的梯度問題,選取了隨機梯度下降(Stochastic Gradient Descent,SGD)優化技術,SGD 中的優化參數設置為:學習率為0.01、權重衰退系數為0.001、動量為0.8。此外,在卷積層中,為了避免丟失特征圖中的邊緣信息,統一采用零填充卷積。而在每個卷積層的池化級之后,均采用了隨機失活(Dropout)技術,這種技術通過隨機丟棄參數來避免模型因過擬合帶來的泛化能力差的問題。另外,交叉熵損失函數用于計算網絡成本。

表3 并行架構細節

5 并行網絡性能評估

5.1 異響識別試驗流程

異響識別整體流程如圖8所示,為了保證網絡后期訓練的準確性,數據擴充設置在劃分數據集之后,以避免來自同一原始音頻的擴充數據同時分布到訓練集、驗證集和測試集中。

圖8 異響識別整體流程

5.2 仿真驗證

將應用了5 種擴充技術的各數據集與原始數據集合在一起作為最終的擴充數據集,并提取MFCCs 特征作為輸入。

提取Logfbank 作為網絡輸入用于對比,試驗設置與3.2.1 節類似。結果如圖9 所示:所提出方法的4 項評價指標準確度、精度、召回率和F1 分數均明顯高于以Logfbank 作為輸入特征時的結果,分別達到0.983 1、0.976 0、0.982 4、0.978 7。

圖9 不同特征的性能比較

以MFCCs 特征作為輸入,將本文提出的模型與其他主流模型進行對比,對比模型包括支持向量機(Support Vector Machine,SVM)、VGG16[15]和長短期記憶(Long Short-Term Memory,LSTM)網絡。其中SVM不能直接處理二維輸入特征,因此在時間維度上進行了降維處理(在時間維度上取均值),并采用高斯核函數(Radial Basis Function,RBF),懲罰因子參數設置為1;共設置3層,其中LSTM層設置64個隱藏單元。測試精度結果如圖10所示。

圖10 不同識別模型在各數據集上的表現

從圖10 中可以看出:采用擴充技術所獲得的擴充數據作為輸入明顯能夠獲得更優的仿真結果。其中,針對本研究任務,擬議識別模型在3種深度學習模型中最優,而隨著擴充數據集的加入,SVM 模型診斷性能下降,原因在于:數據量的大幅提升會增加分類器的計算負荷,極易造成性能不穩定;所使用的擴充數據集本身是由少量原始數據增廣而來,不同類型的噪聲經過數據擴充后降低了原本的稀疏性(如減速器敲擊和齒輪沖擊經過加噪后波形圖表現相似),從而使得分類器的性能下降。因此SVM 更擅長處理小而稀疏的數據集,但這并不符合基于大數據診斷模型開發的發展趨勢。

6 結束語

本文基于新的深度學習并行架構,并使用數據擴充技術,提出了一種用于車輛異響識別的方法。試驗驗證了所提出方法的分類性能,并探究了以2種常用的說明性特征(MFCCs 與Logfbank)作為輸入時對識別性能的影響,進一步對比了擬議方法與其他3種識別模型的性能,結果表明:所提出的方法在包含7 種車輛異響的擴充數據集上可以實現98.31%的識別精度;MFCCs 特征更適用于所提出的并行網絡架構;異響數據應用數據擴充技術結合深度學習可有效提高識別性能。另外,所提出的方法明顯優于另外3種流行的識別模型,可供乘用車售后服務平臺以及車輛異響識別的算法研究參考。

猜你喜歡
特征信號
抓住特征巧觀察
信號
鴨綠江(2021年35期)2021-04-19 12:24:18
完形填空二則
新型冠狀病毒及其流行病學特征認識
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
孩子停止長個的信號
抓住特征巧觀察
基于LabVIEW的力加載信號采集與PID控制
一種基于極大似然估計的信號盲抽取算法
主站蜘蛛池模板: 在线观看国产网址你懂的| 亚洲综合色在线| 日韩精品无码一级毛片免费| 人妻丰满熟妇啪啪| 国产一二三区在线| 国产爽爽视频| 日本三级黄在线观看| 2020国产精品视频| 69综合网| 精品国产美女福到在线不卡f| 日本免费a视频| 午夜高清国产拍精品| AV老司机AV天堂| 欧美成人精品一级在线观看| 亚洲一区无码在线| 亚洲AV无码精品无码久久蜜桃| 国产99久久亚洲综合精品西瓜tv| 欧美三级不卡在线观看视频| 日韩无码视频专区| 国产一区二区三区夜色| 国产无码网站在线观看| 91系列在线观看| 尤物国产在线| 风韵丰满熟妇啪啪区老熟熟女| 亚洲精品桃花岛av在线| 午夜性爽视频男人的天堂| 亚洲无码高清一区二区| 在线日本国产成人免费的| 夜夜拍夜夜爽| 2020国产精品视频| 在线网站18禁| 中文字幕首页系列人妻| 午夜福利免费视频| 这里只有精品在线| 中文字幕欧美成人免费| 成年人免费国产视频| 免费一级无码在线网站| 亚洲高清国产拍精品26u| 欧美成人免费午夜全| 日韩欧美中文| 亚洲人成影视在线观看| 26uuu国产精品视频| 国产真实二区一区在线亚洲| 国产精品尹人在线观看| 小说区 亚洲 自拍 另类| 91福利免费视频| 国产精品xxx| 亚洲无码不卡网| 欧美一区精品| 国产欧美日韩在线一区| 国产美女视频黄a视频全免费网站| 久久青草精品一区二区三区| 国产91视频观看| 青青久在线视频免费观看| 91国内视频在线观看| 亚洲国产日韩视频观看| 人妻丝袜无码视频| 日韩激情成人| 久久永久视频| 亚洲人成影院午夜网站| 亚洲伦理一区二区| 日韩黄色在线| 91在线国内在线播放老师| 欧美色图第一页| 亚洲欧美精品一中文字幕| 呦系列视频一区二区三区| 青青草综合网| 亚洲日韩精品综合在线一区二区| 成人国产免费| 亚洲精品在线观看91| 毛片三级在线观看| 亚洲欧美精品在线| 国产欧美综合在线观看第七页| 五月婷婷亚洲综合| 国产凹凸视频在线观看| 精品一区二区三区自慰喷水| 1级黄色毛片| 欧美国产日韩一区二区三区精品影视 | 久操线在视频在线观看| 在线免费观看AV| 国产成人a毛片在线| 综合亚洲网|