使用原始音頻波形的超深層環境聲音識別卷積網絡

2019-05-23 10:44:48戴本堯

電腦知識與技術 2019年8期

戴本堯

摘要：直接從音頻的原始波形學習聲學模型具有挑戰性。當前基于音頻的原始波形的模型一般使用很少的卷積層，可能不足以構建抽象的可區分性特征。在這項工作中，我們提出了一個非常深的卷積神經網絡（VGCNN），這個網絡模型直接使用時域波形作為輸入。我們的VGCNN有多達34個卷積層，有效從音頻原始序列中（例如，大小為32000的音頻原始序列）提取了抽象的可區分性特征。我們的網絡是全卷積網絡，不使用全連接層和下采樣層，以最大化的保留原始特征并且降低參數量。我們用一個在第一卷積層中的大的感受野來提取長時時序，隨后的各層卷積中的卷積核是非常小的感受野以便控制模型大小。實驗證明我們提出的具有18個卷積層的CNN，在環境聲音識別任務絕對精度超過目前主流模型15%。

關鍵詞：原始音頻波形；人工智能；深度學習

中圖分類號：TP37 文獻標識碼：A

文章編號：1009-3044（2019）09-0130-03

1 簡介

聲學建模傳統上分為兩部分：1）設計音頻數據的特征表示；2）建立一個合適的預測模型。然而，往往需要大量的時間和經驗來找到能夠正確代表音頻數據的合適特征。隨著深度學習的發展，深度神經網絡已經實現了在圖像識別，圖像分割領域中從原始圖像中提取特征，從而不需要人工手動設計特征。比如文獻[1]設計了一個人工神經網絡應用于圖像識別任務，該卷積神經網絡直接從原始的圖像中提取抽象的高級特征表示，通過實驗結果驗證卷積神經網絡應用在手寫數字識別和人臉識別問題上的可行性，并與現有的其他分類識別方法進行比較，發現卷積神經網絡準確率較高。目前在圖像識別中性能最好的為CNN模型，因為這些模型的基本構建塊是卷積層提取的特征可以在空間上或像素或時域保持特征不變。在計算機視覺領域，CNN已經取得了很好的成績，甚至超過了人類的表現，如物體識別和面部識別。最近的研究已將CNN應用于音頻任務等作為環境聲音識別和語音識別，并發現CNN僅在原始波形下表現良好。比如，CNN可以自動提取出像log-mel[2]這樣的音頻特征。這些研究中，大多數網絡較淺，例如只有兩個卷積層。在我們的工作中，我們提出研究非常深的卷積網絡最多34個卷積層，直接使用時間序列波形作為輸入。我們的深度網絡高效優化了時間序列（例如，長度為32000的向量），這是處理原始音頻波形所必需的。我們在卷積層中使用非常小的感受野以便控制模型的參數。但是，在第一層使用一個大的感受野開提取長時時序特征。我們的模型是全卷積網絡，沒有全連接層和池化層，以最大化的保留原始特征并且降低參數量，并且其可以應用于變化長度的音頻。通過應用歸一化，殘差學習的策略，我們克服了訓練非常深的模型中梯度消失的問題，同時保持很低的模型復雜度。在環境聲音識別任務[3]，我們的實驗表明深層網絡提高了網絡的性能，我們提出的具有18個卷積層的CNN，絕對精度超過目前主流模型15%。

2 超深層環境聲音識別卷積網絡的結構

圖1列出了我們提出的VGCNN [4]。我們的VGCNN結構以原始波形作為輸入時間序列波形，表示為一個長的1D向量，而不是手動設計的頻譜圖。CNN結構的關鍵設計是深層架構。為了構建非常深的網絡，除了第一個1D卷積層外，我們使用非常小的3*3卷積核。這減少了每個卷積核參數的數量，并控制模型大小和計算成本。此外，我們使用整流線性單元激活函數（ReLU）用于降低計算成本。大多數深卷積網絡分類使用2個或更多全連接層用于提取可區分性的高維特征，導致非常多的參數。我們假設大部分特征提取都發生在卷積層面，并可以提取足夠區分性的特征，從而不需要全連接層。因此，我們的網絡采用全卷積設計。我們使用單個全局平均池化層而不是全連接層，其可減少每個高層特征圖譜圖的維度。通過刪除全連接層，網絡模型被強制執行學習卷積層中的良好的高級特征表示。批量標準化是我們采用稱為批處理的輔助層歸一化（BN）[5]，減輕了消失梯度，深度學習中的常見問題是優化網絡的深層架構。批量標準化使得可能的訓練非常深的網絡（M18，M34-res）我們每層卷積層的輸出上加入ReLU非線性激活函數和歸一化層。另外我們采取殘差網絡的方式設計卷積網絡。殘差網絡[6]是最近的一個提出了深度學習框架，以便進行非常深層的網絡訓練。通常對于一個卷積層， x的映射為H（x）（x是輸入）。在殘差網絡框架中，我們將映射改為F（x）= H（x）+x，這稱為殘差映射。通過跳過某些卷積層實現網絡深度的減少。

圖1 我們提出的CNN模型的架構

2.1 實驗細節

我們使用包含10個環境的UrbanSound8k數據集，該數據集包含城市地區的聲音，如鉆孔，汽車喇叭，和孩子們玩耍。數據集由8732個音頻剪輯組成，每個剪輯4秒或更短，總計9.7小時。我們使用官方的第10個數據文件夾作為我們的測試集，其余9個數據文件夾用于訓練。對于輸入音頻波形，每個音頻波形文件是下采樣到8kHz并歸一化為0均值和1方差。為了鄭嘉訓練樣本，我們將訓練數據進行了數據增強。

我們使用Adam[7]優化器訓練VGCNN模型，Adam是隨機梯度下降的一種變體，可以自適應地調整步長。運行模型100-400個和訓練周期直到收斂。該模型中的權重從頭開始初始化，沒有采用任何預訓練模型[8]。我們使用高斯分布初始化來避免梯度爆炸或梯度消失。所有權重參數都是采用系數0.0001的L2正則化。我們的模型在Tensorflow[9]中訓練，硬件設備為配備了Titan X GPU的機器。

其他模型：為了幫助分析，我們訓練了一些變體模型，如表1中的模型。這些模型比原始模型參數更多。

2.2 實驗結果和分析

表2顯示了模型的測試精度和訓練時間。與其他型號相比，我們首先注意到M3表現非常糟糕，表明2層CNN不足以從聲音識別的原始波形中提取具有區分力的特征。M3-big為M3的變體，多50%的卷積核和2.5倍的卷積核參數，沒有顯著提高性能（表3b），表明淺層模型提取特征的能力有限，即使使用更大的模型，也能不能較好的捕獲時間序列輸入。

更深的網絡（M5，M11，M18，M34-res）基本上提高性能，即測試精度提高了。表明增加M5，M11和M18的網絡深度增強了模型提取特征的能力。我們最好的模型M18達到71.68%的準確率，M11為69.07%（1.8M參數）。通過使用非常深的卷積架構，M18的表現優于M3，高達15.56%絕對準確率，表明更深層的卷積模型使用波形顯著改善聲學建模。此外，通過在初始階段使用積極的下采樣層，非常深的網絡可以高效的地訓練，即當我們使用步幅1而不是4時。M11的第一個卷積層，我們觀察到在10小時訓練后測試精度較低（67.37%），而測試精度為68.42%，M18在2小時內到達。有趣的是，如果性能隨著深度的提高而提高，M18測試精度為71.68%，而M34-res僅達到63.47%測試精度，這是由于過度擬合的原因。我們觀察到了通過殘差學習我們沒有解決過擬合的問題，像M34-res和M34-res這樣的網絡訓練準確率高達99.21%，而M18訓練精度為96.72%。我們還觀察到M11網絡的剩余變體（此處未顯示）達到更高的訓練精度，但測試精度更低（比M11要低0.17%）。我們認為我們的數據集太小了，所以非常深的網絡引起了過擬合問題[11]。訓練M34-res沒有進一步的提升。盡管如此，M34-res仍然優于M3和M5。

我們將全卷積網絡與卷積網絡進行比較，發現使用全連接層（FC）的常規網絡用于分類。表4顯示全連接層[10]增加參數數量導致增加訓練時間。但是，全連接層不會提高測試精度。在M3-fc和M11-fc的情況下，額外的全連接層會導致較低的測試精度（即較差的泛化）。我們認為我們的網絡設計缺乏全連接層，將高層特征學習推向卷積層，導致迫使卷積層學習對特征有利的信息。

3 結論

在這項工作中，我們提出了非常深的卷積神經網絡可以直接對聲波輸入進行操作。我們的網絡，最多34個卷積層，得益于批量歸一化，殘差的組合，我們的模型取得了較好的性能。我們的結果顯示，一個深度網絡有18個卷積層優于具有2個卷積層的網絡，絕對準確率達到71.8%。

參考文獻：

[1] 許可. 卷積神經網絡在圖像識別上的應用的研究[D]. 浙江大學， 2012.

[2] Lee Y K， O. W. Kwon. A phase-dependent a priori SNR estimator in the logmel spectral domain for speech enhancement.IEEE International Conference on Consumer Electronics IEEE，2011：413-414.

[3] 李勇. 新型MFCC和波動模型相結合的二層環境聲音識別[J].計算機工程與應用 47.30（2011）：132-135.

[4] 周飛燕，金林鵬，董軍. 卷積神經網絡研究綜述[J].計算機學報，2017，40（6）：1229-1251.

[5] 邱爽等.自歸一化卷積神經網絡的人臉識別方法[J].云南大學學報（自然科學版），2018（4）.

[6] 曹川，張紅英.基于改進殘差網絡的人臉識別算法[J]." 傳感器與微系統，2018（8）.

[7] Kingma， Diederik P， J. Ba.Adam： A Method for Stochastic Optimization. Computer Science，2014.

[8] 曹大有，胥帥.基于TensorFlow預訓練模型快速、精準的圖像分類器[J]." 漢江師范學院學報，2017，37（3）.

[9] Abadi， Martin.Tensor Flow： learning functions at scale." Acm Sigplan Notices，2016，51（9）：1.

[10] Senior， Andrew， I. Lopez-Moreno. "Improving DNN speaker independence with I-vector inputs.IEEE International Conference on Acoustics， Speech and Signal Processing IEEE，2014：225-229.

[11] 李祚泳，彭荔紅.BP網絡過擬合現象滿足的不確定關系新的改進式[J].紅外與毫米波學報，2002，21（4）：293-296.

【通聯編輯：唐一東】