基于卷積神經(jīng)網(wǎng)絡(luò)的移動機器人聲源定位方法綜述

2024-04-01 07:29:34高春艷賴光金呂曉玲白祎揚張明路

科學(xué)技術(shù)與工程 2024年7期

高春艷, 賴光金, 呂曉玲, 白祎揚, 張明路

(河北工業(yè)大學(xué)機械工程學(xué)院, 天津 300401)

移動機器人在執(zhí)行巡檢與搜救任務(wù)過程中,由于光照不足或物體遮擋等因素的影響,難以對非視距目標搜索與定位,僅依靠視覺傳感器信息不足以適應(yīng)復(fù)雜環(huán)境。然而,麥克風(fēng)陣列所接收的多通道聲音信號中包含著目標聲源的位置信息,感知環(huán)境中的聲音信息可極大提高移動機器人的搜救能力。因此,在移動機器人中引入聽覺系統(tǒng)進行發(fā)聲目標的定位存在迫切需求。

目前，高校在資產(chǎn)管理、財務(wù)管理、人事管理、科研管理、教務(wù)管理以及日常辦公等領(lǐng)域都在逐漸推進校園信息化進程。但是由于高校的直線職能式組織結(jié)構(gòu)，信息能夠迅速自上而下從管理層傳遞到教職員工，而教職工的基層民意卻很難反映到管理層，導(dǎo)致信息溝通存在障礙。加之各部門內(nèi)部的工作管理系統(tǒng)不能完全做到對接或?qū)崟r共享，橫向信息溝通渠道也存在障礙。

聲源定位[1](sound source localization,SSL)是機器人聽覺系統(tǒng)的重要組成部分,也是當前移動機器人領(lǐng)域的難點問題,基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的聲源定位是解決這一問題的關(guān)鍵技術(shù)之一。20世紀80年代開始,研究者們將麥克風(fēng)陣列信號處理技術(shù)[2-4]用于聲源定位,使得機器人聽覺系統(tǒng)得到一定完善,但仍難以在復(fù)雜聲源環(huán)境中實現(xiàn)高精度定位。隨著人工智能技術(shù)的迅速發(fā)展,研究人員在基于信號處理的聲源定位方法中逐步應(yīng)用人工神經(jīng)網(wǎng)絡(luò)[5]、支持向量機[6-7]和CNN[8]等技術(shù),使其能從音頻數(shù)據(jù)中學(xué)習(xí)具有更強泛化能力的聲音特征,推動聲源定位技術(shù)不斷朝著高精度、高魯棒性、多聲源定位發(fā)展。

基于移動機器人聲源定位的關(guān)鍵步驟,首先對聲源定位一般原理進行闡述;其次對聲源定位中的CNN架構(gòu)應(yīng)用與演化進行總結(jié)、對不同聲音特征進行詳細對比、對聲源數(shù)據(jù)仿真與數(shù)據(jù)增強技術(shù)進行了分析、對“視-聽融合”與“嗅-視-聽融合”的聲源定位方法進行了探討;最后對基于CNN的聲源定位技術(shù)發(fā)展與應(yīng)用進行展望。

1 基于CNN的聲源定位一般原理

基于CNN的聲源定位流程如圖1所示。

圖1 基于CNN的聲源定位流程[9]Fig.1 SSL process based on CNN[9]

將麥克風(fēng)陣列采集的多通道信號進行特征提取后,借助預(yù)訓(xùn)練的CNN模型對聲源信號進行分析,以判斷所記錄聲源的位置信息。在麥克風(fēng)陣列中,第i個麥克風(fēng)在t時刻記錄的聲音信號xi(t)可表示為

xi(t)=ai,j(t)?sj(t)+ni(t)

在時頻域中通常寫成矩陣形式,即

(1)

技術(shù)發(fā)展初期,研究人員通過傳統(tǒng)CNN架構(gòu)進行聲源定位應(yīng)用探索。圖3所示Hirvonen[8]提出的首個用于單聲源定位的CNN架構(gòu),采用四個卷積層從多通道幅度譜圖中提取特征,并使用三個全連接層進行分類。該模型在40 ms的單聲源模擬數(shù)據(jù)中,進行16類別分類的交叉驗證準確率為94.3%。Tan等[10]將卷積神經(jīng)網(wǎng)絡(luò)與回歸模型相結(jié)合,提出CNN-R(convolutional neural network for regression)模型。在信噪比為30 dB及混響時長為0.16 s的真實環(huán)境中,該模型的角度和距離估計的平均準確率分別為99.85%和99.38%。通過增加麥克風(fēng)數(shù)量可以提高聲源定位精度,但計算資源的消耗也隨之增大[11],使移動機器人對周圍環(huán)境聲源定位實時性降低。因此,Chakrabarty等[12]提出對每個卷積層應(yīng)用卷積濾波器的系統(tǒng)擴展方法,以擴大濾波器的感受野,可降低約40%的計算成本,提高聲源定位實時性。

實驗對象均為體檢中心體檢人員,選擇時間在2015年8月-2016年6月,總計160例。以隨機數(shù)字表法將160例體檢人員分為兩組,各80例。實驗組:男性43例,女性37例;年齡最小為18歲,年齡最大為72歲,年齡均值(43.20±3.30)歲。對照組:男性46例,女性34例;年齡最小為18歲,年齡最大為70歲,年齡均值(43.50±3.50)歲。實驗組、對照組體檢人員年齡、性別、例數(shù)等一般資料差異不明顯,P>0.05。

城鎮(zhèn)人口數(shù)量是三大典型城市群城鎮(zhèn)化水平的重要體現(xiàn)。城鎮(zhèn)化進程的加快直接導(dǎo)致城鎮(zhèn)人口數(shù)量的增加以及居民能源的消費特征的變化。城市化水平越高，城市經(jīng)濟越發(fā)達，電氣化水平就越高，居民生活用電需求量也會越大。［20］因此本文選取城鎮(zhèn)人口數(shù)為人口因素的指標。

(2)

式(2)中:Xi(f,n)為麥克風(fēng)信號i在頻率f和時刻n處的信號;Ai,j(f)為聲學(xué)傳遞函數(shù);Sj(f,n)為j在頻率f和時刻n處的信號;Ni(f,n)為麥克風(fēng)i在頻率f和時刻n處的噪聲信號。當環(huán)境中存在多個聲源信號時,麥克風(fēng)i所記錄的信息是多聲源信號與噪聲信號之和,表達式為

(3)

X(f,n)=A(f)S(f,n)+N(f,n)

3.假設(shè)單件化妝品的不含稅價為P,買家購買套裝相對于分別購買套裝內(nèi)所含產(chǎn)品的可享優(yōu)惠率為R，則套裝化妝品的不含稅價為2P（1-R）。令，P≤2000，2P（1-R）>2000。根據(jù)自網(wǎng)易考拉中選取的100組不參與活動打折的單件和套裝化妝品樣本，以“優(yōu)惠率=[單件價-(套裝價/套裝所含件數(shù))]/單件價”計算得知，優(yōu)惠率R大多集中在0.15%-1.75%。

(4)

端到端[21]的CNN聲源定位模型能將原始音頻輸入直接映射到聲源位置輸出,實現(xiàn)從原始音頻到聲源位置的全過程學(xué)習(xí)。Vera-Diaz等[22]提出一種用于空間單聲源定位的端到端CNN模型,可實現(xiàn)音頻信號到聲源位置坐標的直接定位,其模型架構(gòu)如圖5所示。Vecchiotti等[23]通過CNN從波形中提取定位特征,可直接從波形中估計聲源的方位角,在混響環(huán)境中,所提出的WaveLoc-CONV模型表現(xiàn)出最佳的整體性能,其平均定位均方根誤差小于3°。此外,Harshavardhan等[24]基于原始波形數(shù)據(jù),首次提出端到端CNN多源聲定位方案,并在AV16.3數(shù)據(jù)集[25]中進行多聲源驗證,非異常幀表現(xiàn)顯著優(yōu)于I-IDIR-UCA(improved interaural level difference and interaural coherence analysis with uniform circular array)方法和CHB(circular harmonics beamforming)方法。然而,端到端CNN聲源定位模型面臨著數(shù)據(jù)需求量大、模型訓(xùn)練時間長和模型可解釋性較差等問題,相關(guān)研究目前處于起步階段。

農(nóng)村地區(qū)改革以來，村委會有著歷史淵源和群眾基礎(chǔ)。因此，在執(zhí)行村小組代表大會的決議時，不用再另外從村小組代表當中產(chǎn)生成員來組成一個執(zhí)行機構(gòu)，這樣村民不一定接受。雖然村委會與公司當中的執(zhí)行機構(gòu)——董事會有所區(qū)別，但不得不承認農(nóng)村集體經(jīng)濟組織有它自身的特殊性，讓本來就熟悉情況的村委會作為執(zhí)行機構(gòu)，更能保障廣大村民的基本利益和需求。同時，根據(jù)實際情況，可以讓村長來擔(dān)任“董事長”，鑒于其一直以來是村民在各個方面都認可的干部，有群眾基礎(chǔ)，能在最大限度保證村小組代表大會的決定被順利執(zhí)行，因而易于為村民所接受，執(zhí)行力度上也更強。

移動機器人聲源定位系統(tǒng)分類如圖2所示。聲源定位方法在多數(shù)情況下只關(guān)注方位角和仰角信息,因此聲源定位估計可簡化為聲源信號到達方向(direction of arrival,DOA)估計。

Xi(f,n)=Ai,j(f)Sj(f,n)+Ni(f,n)

圖2 聲源定位系統(tǒng)分類Fig.2 Classification of SSL systems

2 聲源定位CNN架構(gòu)與改進

2.1 傳統(tǒng)CNN架構(gòu)

式(1)中:ai,j為房間沖激響應(yīng)(room impulse response,RIR),其反映聲源信號與麥克風(fēng)i之間的傳播特性;sj為聲源信號;ni為麥克風(fēng)i處的噪聲信號;?為卷積運算;T為RIR的有效長度;τ為時間延遲。麥克風(fēng)信號通常經(jīng)過短時傅里葉變換(short-time Fourier transform,STFT)后在時頻域表示,可表示為

圖3 Hirvonen提出的聲源定位CNN架構(gòu)[8]Fig.3 The CNN architecture proposed by Hirvonen for SSL[8]

移動機器人搭載雙耳麥克風(fēng)陣列模擬人耳聽覺感知機制,提取基于雙耳的特征[26-28],并通過分析雙耳信號之間的時延、相位差和幅度差,估計聲源位置。雙耳特征對于定位聲源的方向和位置具有較高的準確性和分辨能力。Yang等[29]提出了一種全球面雙耳定位系統(tǒng),雙耳信號對數(shù)值和耳間相位差(interaural phase difference,IPD)被用作雙分支卷積神經(jīng)網(wǎng)絡(luò)的輸入,從中提取并結(jié)合耳間和單耳線索,分別進行聲源方位角和仰角估計。所提出的雙耳定位系統(tǒng)在混響時長為150 ms的條件下,方位角和仰角定位精度分別達到98.83%和98.66%;且在信噪比為5 dB的條件下,分別達到96.44%和84.56%。Kataria等[30]采用監(jiān)督學(xué)習(xí)回歸框架,從模擬雙耳單聲源音頻中學(xué)習(xí)聲學(xué)屬性映射關(guān)系,以估計測試聲源距離和墻壁吸收系數(shù)。Pang等[31]提出一種TF-CNN網(wǎng)絡(luò),將雙耳信號中提取的IPD和ILD(interaural level difference)用作定位特征,用于同時實現(xiàn)方位和仰角的定位。孫昊等[32]提出基于雙耳特征的主動目標測距方法,并通過Pioneer3 AT移動機器人在室內(nèi)環(huán)境驗證其有效性。雙耳特征的不足在于對信號質(zhì)量要求高,遠距離聲源定位中準確性降低,在實際應(yīng)用中需考慮雙耳特征適用范圍和局限性。

圖4 聲源置于45°和105°時混合語音的DOA概率[17]Fig.4 DOA probabilities over the speech mixture when the sources are placed at 45° and 105°[17]

2.2 深度殘差CNN架構(gòu)

為克服傳統(tǒng)CNN架構(gòu)在處理深層網(wǎng)絡(luò)時易出現(xiàn)梯度消失或梯度爆炸的問題,研究者在CNN網(wǎng)絡(luò)中引入殘差模塊[18],使深度神經(jīng)網(wǎng)絡(luò)能夠?qū)W習(xí)更深層次的特征并加快網(wǎng)絡(luò)訓(xùn)練收斂速度,從而提高移動機器人聲源定位性能。Yalta等[19]采用深度殘差網(wǎng)絡(luò)處理音頻輸入,使定位精度超過線性模型精度,且在強干擾條件下表現(xiàn)出魯棒性,在信噪比為45 dB條件下所提出模型的方向精度為85.33%。Suvorov等[20]提出一種基于深度殘差神經(jīng)網(wǎng)絡(luò)的聲源時域定位系統(tǒng),實驗定位誤差為4°,與相同條件下的GCC-PHAT(generalized cross-correlation with phase transform)算法相比,定位錯誤率降低了1.14%。使用深度殘差神經(jīng)網(wǎng)絡(luò)的聲源定位方法在準確率和識別誤差率方面取得了更好的性能。

2.3 端到端CNN網(wǎng)絡(luò)架構(gòu)

式中:J為獨立聲源數(shù)量;X(f,n)為麥克風(fēng)信號向量;A(f)為聲學(xué)傳遞函數(shù)矩陣;S(f,n)為聲源信號向量;N(f,n)為噪聲向量。

開設(shè)選修課的目的是為了學(xué)生發(fā)展，培養(yǎng)學(xué)生的興趣愛好，為學(xué)生的終生發(fā)展打下基礎(chǔ)。要對學(xué)生發(fā)展負責(zé)，而不是一窩蜂，講熱鬧，做樣子，應(yīng)付檢查，而要實實在在，給學(xué)生東西，給學(xué)生想要的，對學(xué)生的發(fā)展有用。

圖5 基于CNN的端到端聲源定位架構(gòu)[22]Fig.5 End-to-end SSL architecture based on CNN[22]

3 聲音特征類型與對比

3.1 基于雙耳的特征

為滿足場景中的多聲源定位[13]需求,聲源定位研究逐步由單聲源擴展到多聲源。Fahim等[14]使用基于模態(tài)相干性的特征訓(xùn)練CNN模型,采用單聲源訓(xùn)練方案實現(xiàn)多聲源定位。Subramanian等[15]借助聲源分割機制,在深度神經(jīng)網(wǎng)絡(luò)內(nèi)部創(chuàng)建聲源的特定中間表示,使模型能夠輸出特定聲源的后驗概率。Salvati等[16]采用CNN對多通道麥克風(fēng)陣列數(shù)據(jù)進行融合,提升了系統(tǒng)在噪聲和混響條件下的定位性能。Chakrabarty等[17]提出使用合成噪聲信號對CNN模型進行訓(xùn)練,在未知聲源與噪聲的情況下,定位性能優(yōu)于基于信號處理的SRP-PHAT(steered response power with phase transform)算法,兩種算法下的混合語音信號到達方向(direction of arrivel, DOA)概率分布結(jié)果如圖4所示。

3.2 基于互相關(guān)的特征

基于互相關(guān)特征的聲源定位是利用麥克風(fēng)陣列中不同麥克風(fēng)對之間的相對位置和距離關(guān)系,實現(xiàn)對聲源的方向判斷和距離估計。該方法不僅有較高的方向估計精度,而且對于多聲源的定位也具有較好的魯棒性。He等[33]提出一種基于似然網(wǎng)絡(luò)輸出編碼的訓(xùn)練方法,并使用子帶互相關(guān)信息作為定位特征,使得CNN模型能檢測任意數(shù)量重疊聲源。在由Pepper機器人記錄的四通道真實聲源數(shù)據(jù)中,該方法的多聲源定位準確率達到90%。為提高系統(tǒng)定位實時性,Nguyen等[34]提出一種使用二維CNN進行多任務(wù)學(xué)習(xí)的方法,利用短時空間偽譜進行聲源方位估計,從而減少神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)聲音類別與方向信息之間的不必要關(guān)聯(lián),減小了計算資源消耗,并提高了系統(tǒng)的魯棒性。Comanducci等[35]提出一種基于CNN的數(shù)據(jù)驅(qū)動方法,首先從多個麥克風(fēng)陣列中計算出與聲源位置唯一相關(guān)的射線空間變換(ray space transform,RST),再通過CNN進行非線性擬合并估計聲源位置,該方法可解決混響條件下GCC-PHAT(generalized cross correlation-phase transform)特征存在虛假峰值的問題。

3.3 基于頻譜圖的特征

基于頻譜圖的特征[36]具有解釋性強、計算效率高等優(yōu)點,但通常依賴于手工設(shè)計并存在信息損失。常用的頻譜圖特征提取方法包括短時傅里葉變換、連續(xù)小波變換[37](continuous wavelet transform,CWT)和梅爾頻率倒譜系數(shù)[38](mel-frequency cepstral coefficients,MFCC)等。聲源檢測通常利用時頻特征來區(qū)分不同聲音類別,聲源定位使用麥克風(fēng)信號之間的幅度或相位差來估計聲源方向[39],然而通常難以聯(lián)合優(yōu)化這兩個子任務(wù)。Nguyen等[40]提出一種稱為空間線索增強對數(shù)譜圖的新特征,該特征時頻映射精確,能在信號功率和聲源到達方向之間建立準確關(guān)聯(lián)。基于頻譜圖的信號特征可直接輸入CNN,使其能在訓(xùn)練中學(xué)習(xí)聲源定位所需特征。張曉萌[41]將聲源信號轉(zhuǎn)化為語譜圖作為CNN輸入,所提出的模型在室內(nèi)單聲源定位測試中精度達到98%,解決了傳統(tǒng)非結(jié)構(gòu)化空間中聲源定位準確性低、對模型依賴性高和計算復(fù)雜度高等問題。鄭文賓等[42]提出一種基于MFCC與CNN的環(huán)境異常聲音識別算法,在室外的識別準確率為86.8%,顯著優(yōu)于基于MFCC與反向傳播神經(jīng)網(wǎng)絡(luò)(back propagation neural network,BPNN)的70.3%,且交叉驗證準確率達到87.1%。

上述三類典型聲音特征對比結(jié)果如表1所示。

表1 典型聲音特征及特點Table 1 Typical acoustic features and their characteristics

4 數(shù)據(jù)仿真與增強技術(shù)

基于CNN的聲源定位主要采用監(jiān)督學(xué)習(xí)方法,需要大量帶有聲源位置標簽的數(shù)據(jù)集進行模型訓(xùn)練。目前用于聲源定位的公開數(shù)據(jù)集主要有AV16.3[25]、FAIR-Play[43]、Urban-Sound[44]等,各數(shù)據(jù)集特點對比如表2所示。

表2 常用公開數(shù)據(jù)集及其特點Table 2 Typical public datasets and their characteristics

然而,對于移動機器人所處特定環(huán)境,難以大量采集具有不同空間配置,并帶有位置標簽的多通道聲音信號樣本。通過合理設(shè)置房間屬性參數(shù),可得到麥克風(fēng)陣列的房間沖激響應(yīng)[45-46],進行聲源仿真數(shù)據(jù)采集。借助Pyroomacoustics聲學(xué)仿真功能包[47],采用文獻[48]的數(shù)據(jù)采集方案,在4 m×4 m×4 m的聲學(xué)仿真房間中部署六麥克風(fēng)陣列。將聲源均勻地布置在半徑分別為0.5、1、1.5、2 m的球體表面,本文得到的仿真聲源分布如圖6所示。然而,由于真實環(huán)境噪聲的復(fù)雜性,難以對環(huán)境進行精確聲學(xué)建模,僅依靠模擬數(shù)據(jù)訓(xùn)練的CNN模型在實際場景聲源定位中魯棒性較差[49]。

目前，與遙感課程相關(guān)的教材有很多版本，各種版本各具特色，當然也存在不足和局限性。經(jīng)過多年的探索，滁州學(xué)院遙感課程以梅安新編寫的《遙感導(dǎo)論》為主選教材。高校的專業(yè)技術(shù)教學(xué)不同于中學(xué)教學(xué)，它傳授給學(xué)生的是技術(shù)，而非僅僅是教材。因此，有必要增加輔選教材，用來豐富學(xué)生的知識面，拓寬學(xué)生的視野。滁州學(xué)院遙感課程的輔選教材為《現(xiàn)代遙感導(dǎo)論》(尹占娥編著)、《遙感原理與應(yīng)用》(周軍其、葉勤等編)、《遙感原理及遙感信息分析基礎(chǔ)》(劉吉平主編)和《遙感地學(xué)應(yīng)用》(明冬萍、劉美玲編著)等。

圖6 仿真聲源數(shù)據(jù)采集Fig.6 Acquisition of simulating sound source data

為解決模擬聲源數(shù)據(jù)在實際場景定位精度不足、真實聲源數(shù)據(jù)數(shù)量有限的問題,研究人員采用數(shù)據(jù)增強技術(shù)[50]擴充訓(xùn)練數(shù)據(jù),以提高模型定位性能。SpecAugment是由Park等[51]提出的快速數(shù)據(jù)增強方法,該方法通過屏蔽頻譜圖的部分頻率或時間幀以生成新數(shù)據(jù)。Zhang等[52]提出Mixup方法,通過線性插值獲取新的訓(xùn)練數(shù)據(jù)。Falcón-Pérez等[53]提出“Spatial Mixup”數(shù)據(jù)增強方法,通過應(yīng)用參數(shù)化的空間音頻效果對多通道空間音頻信號進行修改,從而增強或抑制來自特定方向的信號,使得深度學(xué)習(xí)模型對小空間擾動具有強魯棒性。Niu等[54]基于RC(resnet-conformer)網(wǎng)絡(luò),使用音頻通道交換(audio channel swapping,ACS)的數(shù)據(jù)增強方法,提高了神經(jīng)網(wǎng)絡(luò)在數(shù)據(jù)集上的定位性能。另外,Mazzon等[55]提出并評估了對音頻通道或標簽進行變換的數(shù)據(jù)增強技術(shù),實驗表明采用數(shù)據(jù)增強技術(shù)訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)在交叉驗證折疊(cross-validation folds)上表現(xiàn)優(yōu)于未采用數(shù)據(jù)增強的模型,并將DOA平均誤差降低了2%。

前些時我身體不適住院，鄰床一老農(nóng)，面對每天一張張費用單，連看都不看。我說你挺有錢呀，他樂了，掏出一小紅皮本，好像是“貧困戶醫(yī)療證”之類的證件，說：“我住院，不花錢。”

5 多模態(tài)融合定位

移動機器人聲源定位與聽覺感知技術(shù)在引入CNN之后,定位精度與魯棒性有了質(zhì)的飛躍,但受環(huán)境噪聲干擾[56]與聲覺信息稀疏性影響,僅憑聲覺信息進行移動機器人精準定位仍難度巨大。多模態(tài)融合定位是利用不同傳感器提供的多樣化信息,提高聲源定位準確性和魯棒性,目前相關(guān)研究主要包括視-聽融合定位與嗅-視-聽融合定位。Feng等[57]將CNN與雙向長短期記憶網(wǎng)絡(luò)結(jié)合,提出一種處理音頻和視覺信息新型跨模態(tài)聲源定位網(wǎng)絡(luò)。在FAIR-Play數(shù)據(jù)集測試中,皮爾遜相關(guān)系數(shù)為0.779,表明音頻和視覺向量存在中等程度的正相關(guān)性。將視覺和聲音數(shù)據(jù)進行融合[58],可以更好地理解環(huán)境中的聲音,并更精確地定位聲源位置和規(guī)劃運動軌跡。

通過嗅-視-聽感官[59-60]相互配合,移動機器人可獲得周圍環(huán)境的嗅覺、視覺與聽覺信息,有效對周圍環(huán)境進行目標定位。柯顯信等[61]提出一種動態(tài)加權(quán)平均融合算法,并設(shè)計出仿人多感知交互系統(tǒng),圖7所示為仿人多模態(tài)融合感知定位示意圖。盡管這一領(lǐng)域已取得顯著進展,但在無約束情況下準確進行多聲源定位仍然面臨挑戰(zhàn)。

圖7 仿人多模態(tài)融合定位示意圖Fig.7 Schematic diagram of humanoid multimodal fusion localization

6 結(jié)論與展望

深度學(xué)習(xí)的引入使聲源定位成為機器人聽覺領(lǐng)域的熱點問題。通過神經(jīng)網(wǎng)絡(luò)的自適應(yīng)機制,有效地提取多通道信號的深層特征,使聲源定位研究在麥克風(fēng)陣列信號處理和特征提取方面更加智能化。中國對移動機器人聲源定位研究開始較早,但目前采用深度學(xué)習(xí)方法進行探索的實際案例仍較少。隨著人工智能技術(shù)在移動機器人聽覺領(lǐng)域的應(yīng)用,基于CNN的移動機器人聲源定位研究已有重要進展,但是當前技術(shù)仍存在定位精度不足、實時性差、計算資源需求大等問題,使其難以實際在工程中應(yīng)用。解決該問題可從優(yōu)化定位算法、壓縮網(wǎng)絡(luò)模型、多傳感器信息融合等方向進一步探索,具體內(nèi)容如下。

各級水利普查機構(gòu)是水利普查檔案工作的責(zé)任主體，要明確分管檔案工作的領(lǐng)導(dǎo)，將檔案工作納入水利普查工作計劃和管理工作程序，實行同步管理；配備檔案工作人員，統(tǒng)籌安排經(jīng)費，為水利普查檔案的收集、管理、保管、利用等創(chuàng)造條件，提供保障。

(1)提高聲源定位精度。移動機器人在復(fù)雜環(huán)境中易受強烈混響、噪聲和重疊聲源的干擾,從而降低CNN模型對目標聲源的定位精度。如何在未知噪聲的復(fù)雜環(huán)境中對目標聲源進行高效精準識別仍是亟待解決的問題。因此,需要探索更加高效準確的網(wǎng)絡(luò)結(jié)構(gòu)、特征提取方法和優(yōu)化算法,提高模型的定位魯棒性和環(huán)境適應(yīng)能力。

(2)提高聲源定位實時性。移動機器人巡檢與搜救對聲源定位實時性要求高,因此需要在有限計算資源條件下實現(xiàn)實時聲源定位。可通過壓縮CNN網(wǎng)絡(luò)模型、降低特征維度等措施減少計算資源消耗,并采用GPU或FGPA等專用硬件加速器以加快計算速度,提高聲源定位實時性。

(3)多傳感器信息融合。移動機器人所處環(huán)境中同時存在多種其他類型信息,當前的聲源定位方法主要依賴多通道聲音信號以實現(xiàn)目標聲源定位,然而視覺和嗅覺信息同樣可提供關(guān)鍵定位線索。可通過精準感知目標多維信息,將周圍環(huán)境“嗅-視-聽”信息進行跨模態(tài)深度融合,進一步提高移動機器人對識別目標的定位精度與泛化能力。