





摘 要:利用常規(guī)算法進(jìn)行感知互動(dòng)系統(tǒng)設(shè)計(jì)時(shí)會(huì)出現(xiàn)易受噪聲與環(huán)境影響、性能依賴參數(shù)設(shè)定、無法完成音頻識(shí)別且識(shí)別時(shí)間過長等問題,本文設(shè)計(jì)了一種基于深度學(xué)習(xí)的景區(qū)景觀感知互動(dòng)系統(tǒng)。該系統(tǒng)主要由音頻識(shí)別、圖像收集和處理控制等模塊構(gòu)成,并采用深度學(xué)習(xí)算法進(jìn)行增添子函數(shù)、自適應(yīng)控制和設(shè)定識(shí)別方向等相關(guān)軟件設(shè)計(jì),完成了音頻識(shí)別過程。測(cè)試表明,深度學(xué)習(xí)算法能夠有效處理不同強(qiáng)度的帶噪聲頻,縮短識(shí)別距離,提升計(jì)算效率與識(shí)別準(zhǔn)確度,并能對(duì)不同游客的互動(dòng)音頻進(jìn)行播放與可視化展示,改進(jìn)了景區(qū)景觀的互動(dòng)效果,該算法在景區(qū)景觀感知互動(dòng)系統(tǒng)中具有良好的實(shí)用性與優(yōu)越性。
關(guān)鍵詞:深度學(xué)習(xí)算法;景區(qū)景觀;感知互動(dòng);音頻識(shí)別;音頻分離
中圖分類號(hào):TP 391" " " " " " 文獻(xiàn)標(biāo)志碼:A
隨著音控技術(shù)的發(fā)展,感知互動(dòng)出現(xiàn)在大眾視野中,在該背景下,景區(qū)景觀也開發(fā)了感知互動(dòng)系統(tǒng),以降低人工成本。音頻識(shí)別根據(jù)準(zhǔn)則識(shí)別最優(yōu)路徑,是感知互動(dòng)系統(tǒng)研究的重心。音頻識(shí)別算法可分為常規(guī)算法與優(yōu)化算法,常規(guī)算法須進(jìn)行信息載入,計(jì)算量較大。常規(guī)算法的研究成果多樣,姚鑫(2023年)等通過引入音頻識(shí)別距離信息,并使用梯度下降得到最優(yōu)識(shí)別距離,提升了音頻分離效果[1];楊鵬(2023年)等提出混合音頻分離方法,將自適應(yīng)動(dòng)態(tài)權(quán)重因子引入粒子群算法,以提高其識(shí)別能力[2]。雖然該研究提升了感知互動(dòng)系統(tǒng)性能,但是仍有改進(jìn)空間,例如存在易受噪聲與環(huán)境影響、無法完成音頻識(shí)別等問題,從而降低了互動(dòng)效果。深度學(xué)習(xí)算法是一種優(yōu)化算法,具有參數(shù)少、識(shí)別速度快等優(yōu)勢(shì)[3]。因此本文選取深度學(xué)習(xí)算法進(jìn)行景區(qū)景觀感知互動(dòng)系統(tǒng)設(shè)計(jì),通過智能互動(dòng)平臺(tái)進(jìn)行感知交互,并對(duì)收集的音頻進(jìn)行分離處理,以可視化形式完成互動(dòng),從而更好地解決游客互動(dòng)問題。
1 整體設(shè)計(jì)
為實(shí)現(xiàn)景區(qū)景觀的智能感知互動(dòng),本文采用深度學(xué)習(xí)算法挖掘景區(qū)景觀中感知設(shè)備的音頻序列,然后利用AR技術(shù)進(jìn)行景觀模擬仿真,從而構(gòu)建景區(qū)景觀感知互動(dòng)系統(tǒng)。系統(tǒng)結(jié)構(gòu)主要由智能互動(dòng)平臺(tái)與服務(wù)器構(gòu)成。智能互動(dòng)平臺(tái)包括音頻識(shí)別、音頻播放以及波譜可視化展示等部分。服務(wù)器的作用是對(duì)音頻進(jìn)行分離與解碼等操作。智能互動(dòng)平臺(tái)通過收集設(shè)備識(shí)別與收集游客語音,將收集的互動(dòng)音頻通過無線傳輸?shù)男问缴蟼髦练?wù)器。服務(wù)器通過編碼設(shè)備進(jìn)行音頻分離與解碼,將處理過的音頻傳輸至智能互動(dòng)平臺(tái),再次進(jìn)行音頻播放與波譜可視化操作。
2 硬件設(shè)計(jì)
2.1 功能模塊
系統(tǒng)以Core I9-13600K處理器為核心,集成嵌入式HyperTransport控制器,非常適用于音頻處理。系統(tǒng)硬件由音頻識(shí)別、圖像收集和處理控制等模塊構(gòu)成,其中音頻識(shí)別包括本地識(shí)別與云端識(shí)別,因?yàn)樵贫俗R(shí)別需要連接網(wǎng)絡(luò),所以使用本地識(shí)別[4];圖像收集采用支持感光的OV7670攝像頭,有656×488個(gè)像素;處理控制模塊選用ASR-200H引擎,具有強(qiáng)大的雙精度浮點(diǎn)運(yùn)算能力,可滿足多數(shù)識(shí)別場景。系統(tǒng)功能模塊如圖1所示,其工作原理如下:音頻識(shí)別模塊收集語音指令,引導(dǎo)圖像收集模塊進(jìn)行圖像收集工作,處理控制模塊通過深度學(xué)習(xí)算法對(duì)圖像信息進(jìn)行計(jì)算,完成邏輯分割與智能識(shí)別,識(shí)別結(jié)果通過設(shè)備傳輸給游客。
2.2 電路設(shè)計(jì)
系統(tǒng)硬件通過電阻處理音頻形變,音頻通過震動(dòng)使電阻與極板相接觸,將音頻轉(zhuǎn)換為電壓,從而實(shí)現(xiàn)音頻信號(hào)到電信號(hào)的轉(zhuǎn)變。具體的電路設(shè)計(jì)如圖2所示,其工作原理如下所示。ASR-200H上的極化膜自帶永久電荷,在音頻作用下極化膜開始震動(dòng),當(dāng)極板在音頻作用后退時(shí),電容減少,電容電壓升高。反之,當(dāng)電容增加時(shí),電容電壓就會(huì)下降。因?yàn)锳SR-200H內(nèi)部電容較小,輸出電信號(hào)較微弱,所以無法直接與放大電路相連,此時(shí)應(yīng)與阻抗變換器相連。因此,在ASR-200H內(nèi)使用阻抗較高的場效應(yīng)管進(jìn)行阻抗,然后通過場效應(yīng)管將電容電壓取出并放大,由此得到與音頻對(duì)應(yīng)的電壓。
3 軟件設(shè)計(jì)
針對(duì)常規(guī)算法在復(fù)雜環(huán)境內(nèi)無法識(shí)別音頻的問題,本文進(jìn)行優(yōu)化后得到深度學(xué)習(xí)算法。采用深度學(xué)習(xí)算法進(jìn)行靜態(tài)識(shí)別,提取關(guān)鍵點(diǎn),并將其作為局部目標(biāo)點(diǎn)。出現(xiàn)新音頻時(shí),進(jìn)行局部識(shí)別,以保證路徑最佳。算法流程如圖3所示,包括以下6個(gè)流程。1)在Fastone創(chuàng)建模擬環(huán)境,設(shè)置起點(diǎn)與終點(diǎn)。2)初始化算法參數(shù)。學(xué)習(xí)因子c、最大迭代次數(shù)Tmax、最大線速度vmax和最大加速度ωmax等。3)觀察迭代次數(shù)是否為最大,如果滿足,就可得出最優(yōu)路徑。4)提取不同局部子目標(biāo)點(diǎn),初始化當(dāng)前節(jié)點(diǎn),通過算法進(jìn)行采樣,使用速度組合(v,ω)進(jìn)行軌跡預(yù)測(cè),根據(jù)評(píng)價(jià)函數(shù)選出最優(yōu)速度組合識(shí)別路徑[5]。5)觀察到達(dá)的局部子目標(biāo)點(diǎn)是否為全局目標(biāo)點(diǎn),如果是,表明已到終點(diǎn)。6)輸出最優(yōu)路徑,算法完結(jié)。
3.1 增添子函數(shù)
深度學(xué)習(xí)算法的原理是在已知信息的基礎(chǔ)上,通過算法計(jì)算音頻識(shí)別最短路徑,記為path。此時(shí),識(shí)別出的路徑可能存在遠(yuǎn)離最短路徑的情況,為了使識(shí)別路徑最短,特增添子函數(shù)dropna(),其權(quán)重為w4。dropna()的作用是使算法選擇最優(yōu)路徑,優(yōu)化后的深度學(xué)習(xí)算法評(píng)估函數(shù)E如公式(1)所示。
E=r[w1·query(v,ω)+w2·sample(v,ω)+w3·fillna(v,ω)+w4·dropna(v,ω)] (1)
預(yù)測(cè)軌跡起點(diǎn)到坐標(biāo)(x0,y0)的最短距離分別如公式(2)、公式(3)所示。
(2)
(3)
式中:md1、md2、md3分別為預(yù)測(cè)軌跡均分的不同點(diǎn)到坐標(biāo)(x0,y0)的最短距離;(x0,y0)為預(yù)測(cè)軌跡上首個(gè)坐標(biāo);(x1,y1)為預(yù)測(cè)軌跡上首個(gè)點(diǎn)對(duì)應(yīng)path最短距離上的坐標(biāo);μ為3個(gè)點(diǎn)到path最短距離的加權(quán)距離均值。
μ值越小,表明預(yù)測(cè)軌跡最接近path,相應(yīng)評(píng)分就越高。算法會(huì)優(yōu)先選擇高評(píng)分的路徑,這樣可使深度學(xué)習(xí)算法識(shí)別的路徑最接近path。
3.2 自適應(yīng)控制
音頻識(shí)別需要有良好的局部識(shí)別能力,但是常規(guī)算法的權(quán)重系數(shù)基本固化。研究可知,如果音頻速率較快,就會(huì)導(dǎo)致算法識(shí)別遲滯。因此進(jìn)行深度學(xué)習(xí)時(shí)引入自適應(yīng)控制,當(dāng)識(shí)別到部分音頻時(shí),自適應(yīng)控制w1提升,使深度學(xué)習(xí)算法的識(shí)別能力更強(qiáng)。此時(shí)音頻識(shí)別的最優(yōu)路徑如公式(4)所示。
(4)
式中:vt為某段音頻在t時(shí)識(shí)別的線速度;ωt為某段音頻在t時(shí)識(shí)別的加速度。
w1數(shù)值與加速度成正比,越臨近音頻時(shí),w1數(shù)值越大,其識(shí)別能力越良好。
3.3 設(shè)定識(shí)別方向
深度學(xué)習(xí)算法設(shè)定初始識(shí)別方向是隨機(jī)的,當(dāng)與目標(biāo)音頻存在較遠(yuǎn)距離時(shí),可能會(huì)出現(xiàn)無法有效識(shí)別的問題。為防止子目標(biāo)點(diǎn)選擇錯(cuò)誤導(dǎo)致的誤差問題,應(yīng)進(jìn)一步篩選起點(diǎn)附近節(jié)點(diǎn),根據(jù)節(jié)點(diǎn)與目標(biāo)點(diǎn)間的距離設(shè)置距離評(píng)估函數(shù)。g為下處可行節(jié)點(diǎn),分別計(jì)算可行節(jié)點(diǎn)距離估值函數(shù)F(d)的數(shù)值,如公式(5)所示。
(5)
式中:dmin為可行節(jié)點(diǎn)到目標(biāo)節(jié)點(diǎn)與當(dāng)前節(jié)點(diǎn)之和的最短距離;dmax為可行節(jié)點(diǎn)到目標(biāo)節(jié)點(diǎn)與當(dāng)前節(jié)點(diǎn)之和的最長距離。
當(dāng)g越臨近目標(biāo)點(diǎn)F(d)值越大時(shí),離終點(diǎn)距離越近;F(d)值越小,離終點(diǎn)距離越遠(yuǎn)。對(duì)可行節(jié)點(diǎn)排序后,將F(d)值最大的節(jié)點(diǎn)作為首個(gè)子目標(biāo)點(diǎn)。設(shè)(x2,y2)為起點(diǎn)坐標(biāo),(x0,y0)為首個(gè)子目標(biāo)點(diǎn)坐標(biāo),那么初始航向值I(c)如公式(6)所示。
(6)
深度學(xué)習(xí)算法會(huì)直接向下處目標(biāo)音頻點(diǎn)運(yùn)動(dòng),未出現(xiàn)停滯情況,由此可避免無法有效識(shí)別與后續(xù)分離的問題。
4 系統(tǒng)測(cè)試
4.1 測(cè)試預(yù)設(shè)
測(cè)試數(shù)據(jù)來源Vision Transformer音頻庫,選取某段游客音頻進(jìn)行識(shí)別與分離。其中,純凈音頻受白噪聲與多路重合噪聲干擾,獲得4段噪聲音頻,白噪聲與多路重合噪聲分別為平穩(wěn)噪聲與不平穩(wěn)噪聲。為準(zhǔn)確評(píng)估識(shí)別與分離效果,選取音頻質(zhì)量評(píng)估作為核心評(píng)價(jià)指標(biāo)。該指標(biāo)屬于音頻質(zhì)量評(píng)估方法,是識(shí)別與分離的常用評(píng)價(jià)方法。在測(cè)試中,指標(biāo)數(shù)值控制在-0.1~0.4,數(shù)值越高,表明音頻質(zhì)量處理效果越佳。
4.2 識(shí)別效果
根據(jù)上述設(shè)置,為驗(yàn)證算法是否有效,將最高音頻強(qiáng)度設(shè)置為15dB,最高識(shí)別時(shí)間設(shè)置為4s,獲得不同音頻強(qiáng)度下深度學(xué)習(xí)算法對(duì)音頻的識(shí)別情況,如圖4所示。由測(cè)試可知,深度學(xué)習(xí)算法能夠有效處理不同音頻強(qiáng)度的噪聲,隨著音頻強(qiáng)度提高,識(shí)別效果越好。
4.3 處理效果比較
為觀察算法處理效果,選擇Vision Transformer音頻庫的部分游客音頻作為試驗(yàn)對(duì)象,并在其中分別添加白噪聲與多路重合噪聲,噪聲干擾強(qiáng)度為0dB~15dB。測(cè)試將對(duì)帶噪聲頻進(jìn)行強(qiáng)化,同時(shí)采用音頻質(zhì)量評(píng)估指標(biāo)進(jìn)行效果評(píng)估,并得到最終結(jié)果(見表1)。由測(cè)試可知,深度學(xué)習(xí)算法能夠有效處理不同信噪比帶噪聲頻,隨著音頻強(qiáng)度提高,不同帶噪聲頻的音頻質(zhì)量評(píng)估指標(biāo)也逐步變化。
為進(jìn)一步觀察算法在不同帶噪聲頻中音頻質(zhì)量評(píng)估指標(biāo)的增減趨勢(shì),根據(jù)表1結(jié)果繪制發(fā)展趨勢(shì)圖,如圖5所示。由測(cè)試可知,當(dāng)音頻強(qiáng)度為15dB時(shí),白噪聲的音頻質(zhì)量評(píng)估指標(biāo)開始顯著下降,多路重合噪聲隨著音頻強(qiáng)度提高而不斷上升。但從整體角度來看,在低音頻強(qiáng)度狀態(tài)下,白噪聲音頻質(zhì)量評(píng)估指標(biāo)處于較高水平;在高音頻強(qiáng)度狀態(tài)下,多路重合噪聲音頻質(zhì)量評(píng)估指標(biāo)則處于較高水平。
4.4 分離與可視化
音頻分離的目的是對(duì)接收的互動(dòng)音頻進(jìn)行分離處理,可在服務(wù)器上執(zhí)行,具體測(cè)試流程如圖6所示。基于測(cè)試流程,可在智能互動(dòng)平臺(tái)點(diǎn)擊音頻分類按鍵,通過平臺(tái)向服務(wù)器發(fā)送請(qǐng)求,將互動(dòng)音頻上傳至服務(wù)器,由此實(shí)現(xiàn)音頻分離,游客可實(shí)時(shí)查看分離進(jìn)度。服務(wù)器處理完音頻信號(hào)后,系統(tǒng)會(huì)提示完成分離。
為更清楚地觀察音頻分離效果,本文在測(cè)試過程中增加了音頻播放與可視化環(huán)節(jié)。完成音頻分離后,系統(tǒng)會(huì)播放分離后的音頻,并據(jù)其繪制相應(yīng)的波譜圖。由測(cè)試可知,系統(tǒng)能夠?qū)Σ煌慰偷幕?dòng)音頻進(jìn)行播放與可視化展示,游客可通過界面進(jìn)行音頻識(shí)別,由此強(qiáng)化了景區(qū)景觀的互動(dòng)效果。
5 結(jié)語
綜上所述,本文設(shè)計(jì)了一種基于深度學(xué)習(xí)的景區(qū)景觀感知互動(dòng)系統(tǒng),可進(jìn)行目標(biāo)音頻的收集、音頻識(shí)別、分離、播放以及可視化。測(cè)試結(jié)果表明,該算法具有可行性與實(shí)用性,能夠有效處理不同強(qiáng)度的帶噪聲頻,可顯著縮短識(shí)別距離,提升計(jì)算效率與識(shí)別準(zhǔn)確度,并能對(duì)不同游客的互動(dòng)音頻進(jìn)行播放與可視化展示,提高了景區(qū)景觀的互動(dòng)效果。本文還進(jìn)行了仿真試驗(yàn),后續(xù)可進(jìn)一步提升音頻識(shí)別的準(zhǔn)確率,繼續(xù)縮短識(shí)別時(shí)間,并將其應(yīng)用于更多智能系統(tǒng)中,擴(kuò)大算法的應(yīng)用范圍。
參考文獻(xiàn)
[1]姚鑫.基于語音識(shí)別的多模態(tài)人機(jī)交互系統(tǒng)關(guān)鍵技術(shù)研究[J].自動(dòng)化與儀器儀表,2023(11):222-225.
[2]楊鵬,楊會(huì),潘杰,等.基于語音交互系統(tǒng)導(dǎo)游機(jī)器人設(shè)計(jì)[J].電子制作,2023,31(17):100-102.
[3]李晗,郭宇,湯鵬洲,等.基于深度學(xué)習(xí)的增強(qiáng)裝配智能人機(jī)交互方法[J].計(jì)算機(jī)應(yīng)用與軟件,2024,41(1):36-41.
[4]熊其冰.基于Multi-Agent的多媒體交互系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].信息與電腦(理論版),2019,31(24):61-63.
[5]黨焱.多模式虛擬音樂交互儀器感知技術(shù)研究[J].自動(dòng)化與儀器儀表,2024(1):30-34.