江昱欣 張紅兵
(中國刑事警察學院公安信息技術與情報學院 遼寧省沈陽市 110854)
語音識別技術在智能終端上得到了廣泛應用,以手機為例。Samsung 手機推出了Bixby 助理,而iPhone 手機推出了Siri,這些主打智能的語音助理均是語音識別技術的一個衍生種類。語音識別技術在發展中,依托于神經網絡模塊,并借助自身的系統優化功能,在不同環境下可以取得較高的識別率。但語音識別系統在應用環境中,其測試環節以及訓練環境較不匹配。因此,很有可能導致傳統的語音識別系統性能出現一定程度的下降。這對于語音識別統計模型而言,產生了一定的問題。因此,在識別系統應用于噪聲環境中,在測試語音中的噪聲以及訓練語音的噪聲配比必須進行有效的分析,以取得較高的識別性質。
在語音信號增強算法的原則回顧中,可以根據以下公式進行模型設定。

此外,在模型公式設定完畢后,各公式中的數值分別代表語音凈值。在噪聲以及噪聲環境中,語音增強最常用的方法便是基于其短時譜估算方法。利用短時頻譜估算方法,完成相關的短時頻譜交換,將時間模型變更到相關的領域。其主要可分為以下幾種方法。
(1)譜減法。譜減法可以假設噪聲是否平穩以及噪聲的相關特征,分析噪聲是否與語音信號具有密切關聯。在噪聲語音的功率譜中,減去噪聲的功率,得到語音頻譜。譜減法根據其已經完畢的算法,其運算量較小,較容易實現增強,效果也極佳。但在后續增強后,語音較容易留下相關的噪聲,對主觀的音頻質量具有一定的干擾。
(2)維納濾波。維納濾波可以將其看作為是域波型的均方估差。維納利波的整體特性可以使殘留噪聲有效減小,且信號之間具有良好的連接性,無任何音源噪聲。但在處理后,其會留下白噪聲的殘留[1-3]。
(3)最小均方誤差估計。最小物均方誤差估計,其改進方法面對于非平穩的噪聲,其具有良好的抑制作用。但較難估計語音信號的概率,以及密度函數等。
(4)基于神經網絡的語音增強方法。近年來在發展中,基于神經網絡的深層線性結構可以設計為精準的降噪濾波器,實現語音信號增強。通過該算法,可以很好的抑制相關的噪聲。在使用時,其原理可以利用深層神經網絡學習,對噪聲以及待改進語音之間進行有效切換。
在進行傳統語音增強算法中,此類算法可以通過相關的算法,對語音進行直接評估。根據帶噪語音中的正常語音,完成提取處理。以深層神經網絡算法為例,可以通過神經網絡建立的模型,完成噪聲處理的智能化。將相關噪聲導入相關的網絡模型中,進行自動設定,滿足相關參數。此外,在計算量增加時,根據相關的噪聲模型,可以保障系統處理速度。在第一噪聲環境下,深層神經網絡在增強后,其語音有可能會呈現一定程度的失真。為了保持深層神經網絡在噪聲語音增強方法中能夠得到增強,其相關的研究領域集中對其進行了全面優化。使用該方法進行語音增強,將相關算法作為識別模型的前端部分,應用至語音識別領域,完成漸進式語音學習增強[4-6]。根據相關的基礎工作,可以全面提升語音的質感以及相關度數指標。而在后續的識別模塊中,通過該方法,可以訓練其整體對帶噪語音的前端降噪,提取相關特征。并輸送至后端,識別相關的模型以及語音模型,完成解碼搜索。最后,得出識別結果。就漸進語音增強以及識別方法而言,可以得知其基于傳統的部分流程,可以有效確保在學習過程中,能夠針對于出現的相關噪聲問題進行凈值的提取。有效提升深層神經網絡的中間隱層,對相關的信噪比進行減少,以根據神經網絡模型的參數更好的減少語音識別錯誤率(如圖1 所示)。在相關噪聲比環境下,每個階段的學習過程可以促進下一階段的學習,漸進語音學習增強方法,其結構模型較高,通常均采用激勵函數為線性激勵。
在語音增強訓練階段中,通過以下步驟可以有效地進行語音信號增強技術的優化。
步驟一,通過對干凈的語音進行額外加噪,以便生成大量的帶噪語音。并將其作為輸入信號,將輸入信號與輸出時進行對應,生成指定的信噪比。并將帶噪語音作為基礎目標,生成信噪比的帶噪語音。將其定為目標一以及目標三,隨后完成以下信噪比的設定。如將信噪比設定為5dB 至10dB;
步驟二,特征提取。在語音信號提取中,通過模型結構,對語音信號進行分幀處理。選擇功率譜作為增強特征,對當前的幀頻率進行交換。將語音信號從某一頻率變更到另外一頻率,并對其進行數控頻譜。將其作為PL-DNN 輸入特征;
步驟三, PL-DNN 輸入特征訓練,漸進式語音學習增強方法可以訓練其整體的結構模型。當一定的目標層值增強后,對頻譜特征可以完成下一目標的輸入,隨后在傳播階段通過相關準則,以保障目標層優化。相關的音頻函數在全部特征以及目標特征的分析中,根據目標指數的梯度,可以完成特征學習。將其設定為L1、L2 等目標分層。每個目標分成的梯度只影響其相關形成目標的參數,更新平衡多個目標值。將a1,a2 等設置為0,在通常情況下可以與其深層神經網絡模型進行相同的設置。
而在語音識別訓練階段,其同樣可以通過以下幾個步驟完成語音識別訓練。
步驟一,進行數據提取。將語音識別的數據訓練模式按照相關步驟組建PL-DNN 網絡,在得到增強后進行語音訓練;

圖1:漸進學習語音增強以及識別方法
步驟二,特征提取。將語音增強的訓練階段進行排比分析,將增強后的語音訓練數據完成特征提取,根據語音增強選取模式,對整體的數功率譜特征進行分析;
步驟三,聲學建模。使用深層神經網絡算法,混合聲學模型進行聲學建模,將聲學以及發音學的相關知識進行整合,并提取相關的聲音特征作為基礎輸入點[7]。
采用數字化語音技術,可以將相關的語音信號轉化為數字處理形式。轉化形式具有多樣性的方法,目前我國常用的方法按照PCM 編碼對其進行轉化。 PCM 編碼可以對頻帶率為300~3400Hz的語音信號進行有效的采樣,并完成轉換。在轉換時,以8kHz 速率完成取樣分析,在取樣后按照A 律編碼進行偶數交替反轉。在多路語音信號分配下,可以完成取樣PCM 編碼。通常為5V 供電,且PCM 編碼集成了4 路PCM 編解碼電路。在壓擴方式當中,其通過自帶的電機電壓基準以及低通接收濾波器等完成編碼工作。在轉換中,其通過長幀以及短幀兩種方式。
PCM 編碼工作包含了8bit 以及32bit 兩種。其中,8bit 需要在轉化過程中,對每條語音PCM 碼提供單獨的幀同步信號。而在32bit 工作中,其通過相關的時隙,可以提供短針同步信號,可自動完成后續的連接同步。在32bit 運作中,還可以通過多級芯片進行聯合工作。在語音化數字信號中,可以完成噪聲抑制控制功能。通過相關的技術流程,可以實現有效的數值分析,并將其轉化為大小比較的碼型。在將輸入值進行噪聲抑制比較,以根據比較結果,從相關D 端輸出至延時器[8]。
就PCM 解碼而言,在輸出端輸出相關的數值后,可以表示在多路信號反轉時,通過64bit 串行信號實現參數化位移,使其儲存在儲存器中的相關數值有效變化。經64 位參數化模塊鎖存后,在每幀刷新過程中刷新一次,依次送至8 個噪聲抑制器中。每個噪聲抑制器獨立控制一臺語音信道,將PCM 信號數值取反后,將其符合最高位以外的7 位數字,進行限制比較,完成分析。經實驗數據證實,在比較過程中,其輸出延時器可以作為控制信號,達到有效的抑制程度,并就抑制器輸出的PCM 信號,將其轉化為寄存器模塊,并實現串聯恢復,進行PCM 碼處理。
在數字化噪聲抑制電路原理中,可以根據相關的要求使,用幀脈沖,并提供儲存器。噪聲在控制器中,需要的相關設備為延時器提供相關的數字信號,如P0~P1。選擇PCM32 時隙中的處理工藝,以保障所選擇的分頻系數以調整噪聲延時時間,實現外部數字信號的設置以及調整。按照相關方法,對PCM 信號進行數字化噪聲處理,可以保障其語音信號產生固定延遲,使人耳聽覺對此延遲信號無法察覺。
波束成形技術較比以往的雙麥克風降噪方法相比,其進行了全面優化。例如,其整體采用了麥克風陣列方案,通過麥克風的相關調整,可以根據不同方向的聲音信號值,采取不同的聲音值進行音頻的計算。并大幅度的提升語音的信號強度,使用全值,顯著降低其他方向的信號強度,實現語音增強的目標。在波速成型技術中,對麥克風陣列中的每一個麥克風進行采集,并分析其相關的信號。對不同麥克風采集到的聲音信號,選擇合理的權值,進行加權計算。在提取語音聲源方向,獲得較優的信號,對于其他方向的聲音信號產生一定的衰減效果。
波速成型技術相較于傳統的雙麥克風降噪算法,其具有明顯的降噪效果,且具有可控性。通過環境中的某一組典型的聲源位置進行調制,以確定每一個位置的最佳權重參數。隨后,通過相關聲源定位選擇最優的預調至聲源位置,并根據權重參數組合達到較好的語音信號增強效果[9-10]。
在自適應回聲消除技術中,以汽車的語音識別系統為例。當使用者在開啟汽車后,其汽車內部搭載的語音操作系統依托于智能化的處理方案,可以對汽車的相關生源信號進行聲源判斷。以根據其廣播的相關特性,播放相關的電臺。在播放語音提示中,將這些聲音從麥克風中進行清除,使用自適應回聲消除技術。在媒體設備播放過程中,通過廣播電臺的波形輸出,將輸出的波形作為參考信號數字語音增強模塊。隨后,將此類媒體信號從麥克風中進行剔除,可以清除其無效信號,提升整體的信噪比。回聲消除具有明顯的應用場景,其可以應用于免提通話或播放音樂以及相關廣播。隨后,進行整體的音頻輸出,可以有效的清除無效信號。
例如在語音打斷技術中,輸入語音指令可以直接打斷當前的語音提示音,而非傳統的等待語音提示結束后再進行輸入。在語音打斷技術中,最顯著的例子便是語音信號通話分析。在撥打相關的人工智能服務臺時,其語音信號由相關的使用者在數字撥盤播出1~9數字進行下一步操作。如中國聯通話費查詢,在語音播報過程中。與以往的語音信號相比,現有信號擁有非常成熟的打斷技術。當使用者在數字盤上播出相關數字后,現有的語音指令將全部停止,并增加全新的信號比值,使其能夠得到良好的處理模式。顯著的降低時間成本,能夠得到最好的應用。
綜上所述,在語音信號增強識別技術中,根據語音增強算法,可以得知語音識別在生活中的應用。通過相關的論證,語音信號增強技術基于神經網絡語音增強算法,減少了模型參數以及計算量,提升了系統的整體運行效率。同時,也可以對豐富信息的多個目標進行有效設定,提升整體處理性能。