999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的雙耳聲源定位算法研究

2022-10-17 10:53:32劉雪潔俞勝鋒鐘小麗
聲學技術 2022年4期
關鍵詞:信號模型

宋 昊,劉雪潔,俞勝鋒,鐘小麗

(1.廣東工業大學管理學院,廣東廣州 510000;2.華南師范大學物理與電信工程學院,廣東廣州 510006;3.華南理工大學物理與光電學院,廣東廣州 510640)

0 引言

在雙耳聽覺中,人類能夠通過接收到的雙耳聲信號反推出聲源的空間方位,即實現雙耳聲源定位。研究表明,雙耳聲源定位的主要因素包括耳間差異:包括雙耳時間差(Interaural Time Difference,ITD)、雙耳聲級差(Interaural Level Difference,ILD)和單耳譜特征[1-2]。通常,ITD是低頻聲源的主要定位因素,ILD是中、高頻聲源的主要定位因素,而單耳譜特征對于中垂面以及混亂錐定位至關重要。由于現實聲場景的復雜性,準確的聲源定位往往是多種定位因素綜合作用的結果[3]。

已有的雙耳聲源定位模型分為兩大類:基于聽覺系統的模型和基于機器學習的模型[4]。前者通過較為詳盡地再現聲信號傳輸和分析生理和心理過程,從而達到模擬人類聲源定位功能的目的。然而,受限于聲源定位的生理和心理過程的研究進展,目前基于聽覺系統的雙耳聲源定位模型只能表征較為簡單的聲場景,例如基于譜因素的中垂面定位[4-5]。本質上,雙耳聲源定位是一種基本的大腦機能,因此基于機器學習(即采用計算機模擬人腦行為)的雙耳聲源定位模型得到了重視[6]。Gill等[7]將單耳譜特征輸入單隱層(含9個神經元)前饋型神經網絡,以預測聲源的仰角方位。Chung等[8]以ITD和單耳譜特征作為輸入,采用淺層全連接后向傳播神經網絡(Back Propagation Neural Network,BPNN)預測聲源的空間方位。Jin等[9]先采用耳蝸模型提取雙耳定位因素,再采用淺層時延神經網絡預測聲源的空間方位。可見,已有基于神經網絡的定位模型通常以定位因素作為模型輸入進行訓練和預測。由于聲源定位是多種定位因素綜合作用的結果,且不同聲場景下這種綜合作用可能不同,目前對其尚無定論。因此,以定位因素作為模型輸入的定位模型需要較完備的先驗知識,且模型適用性取決于定位因素的選取。此外,已有基于神經網絡的定位模型屬于全連接的淺度學習(即只包含一個或者兩個隱層),這制約著預測效果的提升。隨著計算機計算能力以及數據量的提升,同時受益于神經生物學家對動物大腦解剖研究的成果,2006年Hinton等[10]提出了深度學習的概念。深度學習源于機器學習的范疇。相比于機器學習中各種淺層的學習模型,比如支持向量機、最大熵方法等,深度學習神經網絡能表達現實中各種復雜數據的內部結構,已成為一種廣泛使用的工程方法[11-12]。2019年丁建策等[13]提出了利用深度神經網絡(Deep Neural Network,DNN)預測聲源方位角的算法。該方法采用子帶雙耳特征和雙耳信號互相關特征共計57維特征作為輸入,取得了較好的預測效果,為后續聲源距離的預測提供了可靠的信息。Ding等[14]進一步提出了多目標DNN算法。該方法提取了雙耳信號中的子帶特征和統計特性共計393維特征作為輸入,可同時預測聲源的距離和方位角;由于新算法降低了方位角變化對距離估計的影響,其距離預測的準確性高于現有的同類算法。

本文提出了基于深度學習的雙耳聲源定位算法,并采用完整的雙耳聲信號作為輸入,避免了人為提取特征的繁瑣過程。首先,實現了基于卷積神經網絡(Convolutional Neural Network,CNN)和基于深層后向傳播神經網絡(Deep Back Propagation Neural Network,D-BPNN)的深度學習框架,并采用不同空間聲源間隔的雙耳聲信號作為輸入進行訓練與預測,最后采用前后混亂率、定位準確率等指標比較了兩種深度學習模型的有效性。

1 算法介紹

本文的聲信號處理流程如圖1所示。首先,將單通道聲信號E0(t)分別與左右耳脈沖響應HL和HR進行卷積,合成雙耳聲信號EL和ER;然后,將預處理后的EL和ER輸入深度神經網絡進行訓練;最后,采用訓練好的算法模型進行預測,得到聲源空間方位的分類輸出(即方位預測)。

圖1 聲信號處理流程圖Fig.1 Acoustic signal processing flow diagram

卷積神經網絡CNN是一種典型的深度學習框架。目前,CNN已被廣泛應用于聲信號處理,例如遇險信號識別[15]、混響時間估計[16]、水下聲源距離預測[17]和海床類型識別[18]等。圖1中的深度神經網絡主要采用CNN實現。在深度學習領域,卷積神經網絡CNN和循環神經網絡(Recurrent Neural Network,RNN)都是常用的處理音頻信號的算法。兩者的區別在于:(1)RNN具有對時間進行擴展以及多個時間輸出計算的能力,而CNN能夠在空間上拓展并對特征進行卷積;(2)RNN可以用于描述時間上連續狀態的輸出(具備記憶功能),而CNN用于靜態輸出;(3)RNN的層次結構深度有限,而CNN的層數能夠達到100層以上。本文的研究目標是實現對處于不同空間方位的聲源的準確定位(分類),而不考慮聲信號在時間上的連續特征。因此,本文選用CNN作為實現深度學習的框架。此外,目前采用全連接后向傳播神經網絡BPNN的定位模型多為淺層網絡。為了和CNN模型進行對比,本文通過增加隱層的層數,將淺層BPNN改進為DBPNN。因此,圖1中的深度神經網絡分別采用CNN和D-BPNN實現。

1.1 數據準備

以人頭中心為坐標原點,建立順時針球坐標系。定義正前方的水平方位角為0°,正右方的水平方位角為90°。

采用虛擬聲技術合成雙耳聲信號數據庫,其中雙耳脈沖響應來自MIT HRTF數據庫[19]。該數據庫含有KEMAR人工頭遠場(距離聲源1.4 m)710個聲源空間方位的雙耳脈沖響應,數據長度為512點(44.1 kHz采樣,16 bit量化)。單通道聲信號采用中英文混合的單聲道語音信號(頻段范圍為150 Hz~4 000 Hz,采樣頻率為44.1 kHz)。首先,采用短時過零率語音端點檢測算法對初始語音信號進行檢測,依據檢測結果將其分別截斷成8 300段(100 ms每段)短時語言片段。然后,依據約10∶1的比例隨機將各方位的8 300段短時語言片段劃分為訓練信號與測試信號。最后,根據圖1中的虛擬聲合成方式得到不同聲源方位的雙耳時域聲信號。為了加快訓練的收斂速度,對所有合成的雙通路信號進行歸一化運算,將其幅值限制在[-1,1]范圍內。

為了探討不同聲源空間間隔的影響,圖1中的網絡輸入分別采用水平面15°、30°和45°空間角度間隔的雙耳聲信號。表1是不同空間角度間隔時,深度神經網絡所采用的數據情況。

表1 深度神經網絡采用的數據Table1 Data used for DNN

1.2 基于D-BPNN模型的雙耳聲源定位算法

D-BPNN模型主要由兩個全連接層、一個隨機失活層和一個扁平層組成,網絡結構如圖2所示。

圖2 深層全連接后向傳播神經網絡結構圖Fig.2 The structure of D-BPNN

輸入信號首先進入一個含250個神經元的全連接層a[1],隨后經過丟棄概率為0.3的隨機失活層a[2],最后經過扁平層a[3]后進入輸出層a[4]輸出,圖2中輸出層神經元個數n取決于所需分類的空間方位數目(見表1)。其中,第一個全連接層的激活函數為線性整流函數(Rectified Linear Units,ReLU)。與其他激活函數相比,ReLU激活函數具有提升網絡訓練速度、防止梯度消失及增加網絡非線性能力的優點。最后一個全連接層采用Softmax函數輸出,將多個輸出映射到[0,1]區間內,從而實現空間方位的多分類任務。

采用Adam優化算法并使用交叉熵損失函數進行網絡訓練。交叉熵損失函數定義為

其中:m代表樣本數,即訓練集數據的總數目;n代表輸出分類數,即所需分類的空間方位數目;代表第k個樣本預測為第n個分類的概率。

1.3 基于CNN模型的雙耳聲源定位算法

CNN模型主要由三個卷積層和四個全連接層組成,網絡結構如圖3所示。需要說明的是,卷積層中的濾波器皆以一維卷積的形式在兩個輸入通道上分別做卷積,同時所有激活函數均為ReLU函數。此外,在激活函數層、卷積層、全連接層之間都加入歸一化層,實現了在神經網絡層的中間進行預處理的操作。

圖3 卷積神經網絡結構圖Fig.3 The structure of Convolutional Neural Network

輸入信號首先經過連續三個卷積層進行特征提取。其中第一個卷積層共有128個濾波器(卷積核),維度為1×300,步長為30;第二個卷積層共有128個濾波器,卷積核的大小為1×40,步長為2;第三個卷積層共有64個濾波器,卷積核的大小為1×20,步長為2。輸入信號經過三個卷積層后,將特征向量再輸入四個全連接層。其中,前三個全連接層的神經元個數分別為2 048、1 024、128,最后一個全連接層為輸出層,其神經元個數取決于所需分類的空間方位數目(見表1)。最后采用Softmax函數計算出輸入數據屬于每個類別的概率值,并選取概率值最大的類別作為預測方位。

此外,為了在訓練時抑制過擬合,提高網絡的泛化能力,全連接層中均使用Dropout方法;同時,網絡在訓練時采用Adam優化算法與交叉熵損失函數。

CNN模型仿真算法采用PyTorch框架實現。PyTorch框架是目前最為流行的深度學習框架之一,基于Torch框架,廣泛用于自然語言處理等領域,擁有極強的易用性與靈活性。D-BPNN模型仿真算法采用Keras框架實現。Keras框架是一種高層神經網絡應用程序編程接口,使用TensorFlow、Theano及CNTK作為后端,具有拓展性強的優點。上述兩種模型的仿真實驗均采用相同的數據集以及硬件仿真環境。硬件環境包括:Intel(R)Core(TM)i7-10750H CPU@2.60GHz 2.59GHz處理器以及NVIDIAQuadro T2000顯卡。

一共進行了6組仿真實驗,即2種算法模型(DBPNN模型和CNN模型),每種執行3種空間角度間隔(15°、30°和45°)。對D-BPNN模型和CNN模型分別進行了50次和20次迭代訓練后,觀察到模型訓練準確率達到穩定或圍繞某一中值上下輕微波動,此時判定網絡訓練成功。圖4是D-BPNN模型訓練準確率隨迭代次數的變化。由圖4中可知,對于任何一種空間角度間隔的輸入,經過50次迭代訓練后訓練準確率都趨于平穩;此時,3種空間角度間隔(15°、30°和45°)的訓練準確率分別達到73.59%、77.18%、81.76%。

圖4 深層全連接后向傳播神經網絡的訓練準確率Fig.4 Training accuracy of D-BPNN

圖5是CNN模型訓練準確率隨迭代次數的變化。圖5中可見,對于任何一種空間角度間隔的輸入,經過20次迭代訓練后訓練準確率都趨于平穩;此時,3種空間角度間隔(15°、30°和45°)的訓練準確率分別達到96.07%、98.22%、98.93%。

圖5 卷積神經網絡的訓練準確率Fig.5 Training accuracy of CNN

2 實驗結果和討論

如表1所示,當網絡輸入的空間角度間隔為15°、30°和45°時,測試信號分別為19 031、9 133和6 174個。

2.1 模型定位效果

在人類聽覺中,由于前后鏡像方位(例如方位角θ=30°和θ'=150°)具有相似的ITD和ILD,因此容易出現前后混淆現象,即處于θ=30°的聲源被感知處于θ'=150°,反之亦然。在聽覺定位主觀實驗中,如果被試出現了前后混淆現象,通常是先校正混淆,即將發生混淆的方位進行空間的鏡像反演,然后再進行定位準確率計算[20]。假設某個空間方位角θ共有N個測試信號,經模型預測后,有X1個測試信號的空間方位角預測為θ,即方位角預測正確;有X2個測試樣本的空間方位角預測為θ'(θ與θ'互為鏡像方位),即出現前后混亂。那么,方向θ的前后混亂率R和定位準確率P分別為

在每一組實驗條件下,對所有測試方位的前后混亂率和定位準確率取平均,得到該實驗條件下的平均前后混亂率和平均定位準確率,如表2所示。可以看出CNN模型的平均前后混亂率遠低于D-BPNN模型,其中前者的前后混亂率均低于2.24%。這表明,對于前后鏡像方位,當耳間差異(ITD和ILD)無法為定位提供有效信息時,CNN模型比D-BPNN模型能更好地通過自學習提取單耳譜特征,從而可以更好地區分前后鏡像方位。

為測試不同信噪比情況下的定位效果,在1.1節中生成的雙耳信號中加入不同信噪比的高斯白噪聲。合成的雙耳帶噪信號的信噪比分別為0 dB、10 dB、20 dB,分別采用CNN模型和D-BPNN模型進行方位角預測。結果表明,CNN模型的定位準確率分別為34.68%、76.92%、97.36%;而D-BPNN模型的定位準確率分別為32.85%、66.29%、85.71%。可見,在訓練與測試環境不匹配的情況下,兩種模型的預測準確率均有下降,但是CNN模型的魯棒性優于D-BPNN模型。

2.2 模型訓練用時

為了進一步進行模型比對,在相同實驗環境下對模型的訓練時長進行了測算,結果如表2所示。由表2中可見,無論是D-BPNN模型還是CNN模型,隨著輸入空間角度間隔的減小,訓練時長都呈現上升趨勢;對于相同的空間角度間隔,CNN模型的訓練時長高于D-BPNN模型。進一步的計算結果表明,兩者訓練時長的差異隨著空間角度間隔的減小而增大,例如隨著空間角度間隔從45°變為15°,CNN模型訓練時長高于D-BPNN模型時長的比例從7.34%增加到33.36%。

表2 基于D-BPNN和CNN的雙耳聲源定位算法的結果Table 2 Results of D-BPNN and CNN based binaural localization algorithms

2.3 CNN模型濾波器的分析

通過前后混亂率和定位準確率指標的對比研究發現,在同等實驗條件下CNN模型的預測效果優于D-BPNN模型。為了進一步探究這一現象的內部機制,對空間角度間隔為15°的輸入信號CNN模型中的三個卷積層的典型濾波器進行了展示,如圖6所示。限于篇幅,各層中僅選取一個典型濾波器進行分析。

濾波器代表CNN模型中對應卷積核的參數權重,用于提取相應的深度神經網絡內部特征。在訓練效果良好的模型中,濾波器圖形往往展現出平滑的濾波特性;卷積核的參數權重在第一個卷積層中體現出可解釋性,但是這種可解釋性隨著層次的加深而逐漸消失。

圖6(a)中顯示出類似于語音信號的波形,這是CNN模型對輸入信號進行特征提取的過程,展現了第一個卷積層對其卷積核參數權重的可解釋性。這類似于雙耳聽覺定位時,人類的神經系統自動根據雙耳接收信號對各類參數差異進行判斷。圖6(b)、6(c)分別為第二層、第三層的典型濾波器的結果。與圖6(a)相比,圖6(b)的特征趨于抽象,主要表現為密集的波動。圖6(c)的特征則是在圖6(b)特征上的進一步提取和抽象,主要表現為平緩的波動。可見,隨著網絡卷積層次的加深,更加抽象、基本的類別信息將被抽取;同時,對卷積核參數權重的可解釋性也逐漸降低。

圖6 卷積神經網絡的典型濾波器Fig.6 Typical filters in CNN

3 結論

本文針對多種雙耳定位因素存在復雜關聯的問題,提出了兩種基于深度學習的算法模型:深層全連接后向傳播神經網絡D-BPNN模型和卷積神經網絡CNN模型;并采用前后混亂率、定位準確率、訓練時長等指標,比較了兩種深度學習模型在不同空間角度間隔情況下的仿真效果。

實驗結果表明:隨著輸入信號的空間角度間隔的減小,D-BPNN模型的定位準確率逐漸遞增;而CNN模型的定位準確率趨于穩定,達到98%左右。當D-BPNN或CNN訓練信號空間角度間隔減小時,訓練時長呈現上升趨勢;同一空間角度間隔時,CNN模型的訓練時長均高于D-BPNN模型;隨著水平面空間角度間隔從45°變為15°,CNN模型時長高于D-BPNN模型時長的比例從7.34%增加到33.36%。

綜上所述,在相同的實驗條件下,雖然卷積神經網絡在對雙耳聽覺聲源定位算法中比BP神經網絡需要耗費相對更多的訓練時長,但其擁有更高的定位準確率、更強的泛化能力與更低的前后混亂率。實際應用時,可根據用時和精度的具體需求進行算法選擇。

猜你喜歡
信號模型
一半模型
信號
鴨綠江(2021年35期)2021-04-19 12:24:18
重要模型『一線三等角』
完形填空二則
重尾非線性自回歸模型自加權M-估計的漸近分布
孩子停止長個的信號
3D打印中的模型分割與打包
基于LabVIEW的力加載信號采集與PID控制
一種基于極大似然估計的信號盲抽取算法
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 亚洲精品第五页| 1级黄色毛片| 久热re国产手机在线观看| 91久久国产成人免费观看| 又猛又黄又爽无遮挡的视频网站| 国产成人精品无码一区二| 国产99视频精品免费视频7| 国产一线在线| 小13箩利洗澡无码视频免费网站| 精品久久香蕉国产线看观看gif| 国产高清免费午夜在线视频| 91国内视频在线观看| 五月激情综合网| 99在线观看视频免费| 色哟哟国产精品| 国产精品自在线拍国产电影 | 久久窝窝国产精品午夜看片| 欧美在线伊人| 尤物在线观看乱码| 亚洲成人一区二区三区| 亚洲AV一二三区无码AV蜜桃| 99热这里只有精品免费| 亚洲无码精彩视频在线观看| 国内黄色精品| 一级黄色网站在线免费看 | 欧美三级视频在线播放| 91精品啪在线观看国产| 精品一区二区三区中文字幕| 国产精品香蕉在线| 久久综合干| 一本大道香蕉久中文在线播放| 2020国产精品视频| 999国内精品久久免费视频| 超碰精品无码一区二区| 国产综合另类小说色区色噜噜 | 国产精品30p| 激情无码视频在线看| 无码精油按摩潮喷在线播放| 亚洲Av激情网五月天| 在线欧美国产| 精品无码人妻一区二区| 日韩资源站| 女同国产精品一区二区| 国产黄视频网站| 欧美日韩国产成人高清视频| 亚洲欧美综合在线观看| 国产后式a一视频| 污网站免费在线观看| 中国一级毛片免费观看| 国产精品视频公开费视频| 男女猛烈无遮挡午夜视频| 亚洲国产无码有码| 九九热视频精品在线| 日韩欧美中文字幕在线精品| 手机在线国产精品| 亚洲青涩在线| 国产一区二区三区在线无码| 毛片免费在线视频| 青青久久91| 欧美a在线视频| 成人小视频网| 996免费视频国产在线播放| 激情无码字幕综合| 国产AV无码专区亚洲A∨毛片| 福利在线不卡| 91精品视频播放| 毛片最新网址| 日韩无码白| 色综合天天综合| 国产99在线| 久久综合九色综合97婷婷| 国产成人精品一区二区免费看京| 国产一区亚洲一区| 在线国产毛片| 中文精品久久久久国产网址 | 国产办公室秘书无码精品| 久一在线视频| a色毛片免费视频| 亚洲综合精品香蕉久久网| 国产成人无码AV在线播放动漫| 日韩成人午夜| 亚洲视频免费在线看|