多特征和APSO-QNN相結合的語音端點檢測算法

2017-09-18 01:01:12董胡

探測與控制學報 2017年4期

關鍵詞：特征檢測

董胡

(長沙師范學院電子與信息工程系,湖南長沙 410100)

多特征和APSO-QNN相結合的語音端點檢測算法

董胡

(長沙師范學院電子與信息工程系,湖南長沙410100)

針對傳統端點檢測算法在多種復雜噪聲環境下端點檢測正確率低、魯棒性較弱的問題，提出多特征和加速粒子群優化量子神經網絡(APSO-QNN)相結合的端點檢測算法。該算法通過提取語音信號的短時能量特征、循環平均幅度差函數特征、頻帶方差特征及美爾頻率倒譜系數特征，將這些特征量輸入量子神經網絡(QNN)進行學習并利用加速粒子群算法對量子神經網絡參數進行優化，構建語音端點檢測模型，實現對信號的類型的判別。仿真實驗結果表明，該方法不僅提升了語音端點檢測的正確率，而且降低了虛檢率與漏檢率，具有較強的抗噪魯棒性。

端點檢測；加速粒子群優化；量子神經網絡；正確率；魯棒性

0 引言

語音端點檢測在語音識別的預處理階段具有相當重要的地位，對識別結果的正確率影響較大[1]。理想環境下，單特征的端點檢測算法能獲得比較良好的端點檢測結果；然而，語音端點檢測在多種復雜噪聲環境處理過程中，對低信噪比的信號難以保證端點檢測起止位置的正確性，有可能將噪聲信號錯誤地判別為語音信號，存在端點檢測正確率不高、抗噪魯棒性不強等缺點。為取得較好的端點檢測效果，國內外相關研究人員提出了基于組合特征的語音端點檢測算法，多特征更有利于反映語音性質，提高了端點檢測算法在復雜噪聲環境下的魯棒性[2]。

伴隨著非線性技術的發展，出現了支持向量機、模擬退火、神經網絡等非線性的端點檢測方法，極大地提高了端點檢測的正確率，尤其是QNN有較強的自學習和非線性映射能力，得到了廣泛應用[3]。QNN參數的選取與端點檢測結果的優劣有密切的聯系，目前QNN參數的優化主要采用遺傳算法、粒子群算法等，但它們或多或少都有一些缺陷[4]。本文針對上述問題，提出了一種多特征和APSO-QNN相結合的語音端點檢測算法。

1 語音端點特征提取

為提高端點檢測的正確率，將短時能量特征、循環平均幅度差函數特征、頻帶方差特征及美爾頻率倒譜系數特征進行組合，當相關性不大的特征參數組合在一起時，能獲得更佳的端點檢測效果。首先對給定的語音信號作預處理，接著提取特征參數，最后將上述特征量當作量子神經網絡的輸入。

1.1 短時能量特征提取

短時能量作為端點檢測中常用的一種特征參數，語音信噪比較高時其效果較明顯[5]。短時能量可利用清濁音能量不一樣的特點來區分濁音段和清音段；它也能用于區分聲母與韻母的分界及無話段與有話段的分界。

信號{x(n)}的短時能量En定義如下：

(1)

式(1)中，G(m)代表窗函數。若短時能量所取的幀長為N，則短時能量定義為：

(2)

1.2 循環平均幅度差函數(CAMDF)特征提取

作為一種與能量有關的參量, 短時平均幅度差函數(AMDF)既可用于檢測基音, 也可用來區分語音段和非語音段。為克服AMDF峰值幅度隨時間滯后的增加而逐步下降的弊端，文獻[6]提出了循環平均幅度差函數(CAMDF)，定義式如下：

(m=0,1,…,N-1)

(3)

式(3)中，N代表幀長，mod(n+m,N)表示對n+m進行模為N的求模取余運算。

CAMDF還具有較好的抗噪聲特性，對諧波與共振峰的影響不太敏感。

1.3 頻帶方差特征提取

語音和噪聲二者頻譜特性存在較大的差別, 語音段的能量與頻帶的變化通常較大，而噪聲段能量卻較小, 并且頻帶的變化相對平緩。頻帶方差就是根據這一特征定義的特征參數。

設第i幀語音為xi(m)，對xi(m)實行離散快速傅里葉變換(FFT)得到如下頻譜：

(4)

令Xi={Xi(1),Xi(2),…,Xi(N)}，則其幅值均值表示如下：

(5)

最終方差Di表示如下：

(6)

1.4 美爾頻率倒譜系數(MFCC)特征提取

MFCC特征作為一種標準化的特征參數，在語音信號處理中使用較廣泛且容易獲得；此外，MFCC具有對卷積性信道失真進行補償的能力。鑒于以上原由，MFCC被證明是在信號處理方面應用最成功的特征描述之一[7]。MFCC特征提取步驟如下：

1)對初始語音作預加重、分幀、加窗等操作，得到每個語音幀的時域信號x(n)，然后由DFT處理可得離散頻譜x(k)。設語音信號的DFT表示為：

(7)

然后取頻譜的模的平方|x(k)|2，得到離散能量譜，其中x(n)為輸入語音信號，N為FFT點數。

2)將離散能量譜通過Mel頻率濾波器組，計算每個濾波器組的對數能量：

(8)

3)經離散余弦變換(DCT)可得MFCC特征系數：

(9)

2 基于APSO-QNN的語音端點檢測算法

2.1APSO算法

APSO不僅具有建模簡單、易于實現等優點，還能進一步加快粒子群收斂速度。PSO算法是對鳥群覓食的生物群體的社會信息共享機制的模擬[8]。具體表示如下：

假設一個群體含有n維目標搜索空間，且包含每個粒子，其中某個粒子在搜索空間中的位置為xi={xi1,xi2,xi3,…,xin}，第i個粒子的飛行速度為vi={vi1,vi2,vi3,…,vin}，其中i表示單一個體，i=1,2,…,m。每個粒子飛行經過的最好位置就是粒子本身找到的最優解，稱為個體極值，表示為pi={pi1,pi2,pi3,…,pin}，整個群體經過的最好位置即為整個群體找到的最優解，稱pg={pg1,pg2,pg3,…,pgn}，每個粒子都通過pi和pg來不斷地更新自己。對于一個位置為xi速度為vi的粒子，其速度在新的時間步長按下式更新[9]。

(10)

式(10)中，i為粒子個體，t為迭代次數，r1和r2為介于[0,1]之間的獨立隨機數，C1和C2表示加速度限定因子，其中C1用于調節粒子向各自最優位置行進的步長，C2用于調節個體向全局粒子最優位置行進的步長。由文獻[10]可知，r1和r2取值需達到下述條件：

(11)

式(11)中，w代表粒子慣性權重因子，用當前粒子的速度來控制下一代粒子的速度。由文獻[11]可知，慣性權重因子滿足下述關系式：

w=wend+(win-wend)(tmax-t)/tmax

(12)

式(12)中，tmax代表最大的迭代次數，t代表當前迭代次數，win與wend分別表示最初和最終的權重因子，w值越大，全局搜索能力越強；相反，局部搜索能力就越強。為了避免PSO過早收斂，win與wend的最優值分別取0.9和0.4。粒子i在迭代過程中位置更新如下：

(13)

式(13)中，Δt代表時間步長。

PSO算法之所以使用個體最優解pi和群體最優解pg，主要是為了提高粒子群優化解決方案多樣性的品質。然而，多樣性可以使用一些隨機性模擬，因此，沒有必要使用個體最優解pi，除非最優化的對象是高度非線性化和多模式。一個簡單的加快粒子群優化收斂方法即只需使用群體最優解pg。

用下述公式更新粒子位置可進一步加快PSO的收斂速度：

(14)

式(14)中，rn為介于[0,1]之間的獨立隨機數，C1典型取值范圍[12]為[0.1,0.4]，C2典型取值范圍為[0.1,0.7]。

2.2QNN及參數優化

2.2.1QNN

QNN具有網絡規模小、網絡拓撲簡單、穩定性和可靠性好、快速學習、高速信息處理能力等優點。QNN的拓撲結構[13]如圖1示。

圖1 QNN的拓撲結構Fig.1 Topology structure of QNN

該拓撲結構與前饋型神經網絡類似，輸入層有L個輸入神經元，采用量子表示形式進行輸入；隱層和輸出層的神經元采用量子神經元結構，分別具有K個和N個量子神經元。其中，單個量子神經元的模型如圖2示。

圖2 量子神經元模型Fig.2 Quantum neuron model

QNN模型的傳遞函數[14]為：

(15)

(16)

|h>k=P(Zk),k=1,2,3,…,K

(17)

其中，|U>k為第k個量子神經元參數的量子態表示式，實際為復數形式；G(x)=1/(1+exp(-x))。

P(θ)為相移門(P門)，矩陣表示形式為：

(18)

2.2.2QNN參數優化

盡管QNN具有較多的優點，但它存在收斂速度慢、易陷入局部極小、學習過程易發生震蕩等缺陷。針對這些缺陷，可采用APSO算法對QNN的參數實行優化，具體優化過程見APSO-QNN語音端點檢測算法。

2.3 基于APSO-QNN的語音端點檢測算法步驟

步驟1：量子神經網絡建模，設QNN隱層節點包含K×L個θ和K個λ，輸出層節點所包含的K×N個θ和N個λ，其中K為隱節點個數，L為輸入節點的個數，N為輸出層節點個數,θ和λ分別被稱作相位轉動系數及相位控制因子。對APSO和QNN相關參數作初始化。

步驟2：隨機選擇一段含語音段和噪聲的信號，將短時能量、循環平均幅度差函數、頻帶方差及美爾頻率倒譜系數特征量作為QNN輸入，人工標示出每幀信號起止作為QNN的輸出，完成QNN訓練樣本構建。

步驟3：將訓練樣本輸入QNN進行訓練，由于隨機確定QNN初始參數會導致檢測結果與實際結果間產生較大差異，所以通過APSO對QNN優化，使QNN輸出與理想輸出值達到預先設計要求，進而完成QNN訓練。QNN參數具體優化步驟如下：

1)對等待優化和學習的參數進行初始化。在仿真中，將優化用粒子的飛行位置及速度向量設計成兩維，其中，行表示各個待學習參數，列表示優化用飛行粒子。

2)根據步驟1)來計算整個QNN的輸出|Y>n，定義適應度函數如下：

(19)

式(19)中：|O>n表示第n個輸出神經元目標輸出的量子態表示式，|Y>n為第n個輸出神經元實際輸出的量子態表示式。

鋼制安全殼（C V，Containment Vessel）是核電站反應堆第三道安全屏障，也是最后一道安全屏障。我國在建的AP1000三代核電機組，現場鋼制安全殼的焊接所采用的仍然是傳統的手工焊，焊工勞動強度高，焊接效率低；同時，手工焊接容易受工作環境、焊工狀態等諸多因素的影響，焊縫質量不夠穩定。在西方發達國家，自動焊工藝已成功應用于核電機組鋼制安全殼的拼裝焊接。因此，為適應我國核電產業快速發展、縮短安裝周期、提高焊接質量，有必要研究核電站鋼制安全殼自動焊工藝，并逐步應用于工程建設中。

3)通過APSO的速度與位置公式來更新每一個粒子當前的速度和位置。粒子i當前速度更新簡化如下：

(20)

粒子i當前位置更新簡化如下：

(21)

4)計算和評價每一個粒子的適應度，從而更新個體的極值和全局的極值。

5)進行早熟判斷及相關處理。

6)檢驗結束條件。當滿足結束條件時，即得到QNN的隱層和輸出層的參數θ、λ的最優值；然后，再將該參數進行存儲，優化過程即結束。否則轉至3)繼續搜尋。

QNN參數優化流程見圖3示。

圖3 QNN參數優化流程圖Fig.3 QNN parameter optimization flow chart

步驟4：用訓練好的QNN對原來訓練樣本進行計算，并輸出檢測結果，門限值定為0.5，若輸出結果大于0.5，則認為當前幀為語音幀，否則為非語音幀，然后將實際輸出結果與標示好的信號語音幀進行對比，若QNN訓練效果不佳，則需重新對其進行訓練。

步驟5：進行語音端點檢測。取一段語音信號，提取其特征量，接著采用訓練好的QNN對其進行檢測，最終輸出語音端點檢測結果。

3 仿真實驗與分析

實驗用的含噪語音樣本(-5 ～10 dB)由TIMIT語音庫中的186條純潔語音及NOISEX-92噪聲庫中的5種噪聲(white噪聲、volvo噪聲、pink噪聲、bable噪聲及factory噪聲)混合而成。在Win10平臺下運行，采用Matlab R2015b軟件進行仿真，采樣率為16 kHz，16 bit量化，幀長為32 ms，幀移為6 ms。

3.2 結果及分析

3.2.1端點檢測算法性能比較

為了檢驗多特征+APSO-QNN算法的端點檢測效果，選擇另外3種端點檢測算法作比較：多特征+BP神經網絡[15]、多特征+線性模型、短時能量+APSO-QNN。端點檢測算法性能指標為：正確率、虛檢率、漏檢率[16]、檢測速度。4種語音端點算法在SNR=-5 dB的不同類型噪聲環境下的檢測結果見表1。

表1 4種語音端點檢測算法性能比較

對表1所示端點檢測算法的性能進行如下分析，可得下述結論：

1)在white噪聲環境下，4種端點檢測算法的正確率相對較高；當噪聲環境分別變為volvo噪聲、pink噪聲、bable噪聲及factory噪聲時，4種端點檢測算法的性能均出現下降，但多特征+線性模型端點檢測算法表現得最糟糕，基本失去端點位置區分能力，達不到實際應用需求，原因在于它基于線性建模，無法有效反映語音信號的動態變化規律，而基于多特征+APSO-QNN的端點檢測正確率仍比較高，這說明量子神經網絡具有很強的環境自適應性及魯棒性。

2)相對于單一特征(短時能量+APSO-QNN)與多特征+BP神經網絡、多特征+線性模型算法，多特征+APSO-QNN的端點檢測性能表現更優異。多特征+APSO-QNN結合了加速粒子群優化算法和量子神經網絡二者的優勢，表現出更強的抗噪性，不僅能有效提高語音端點檢測的正確率，而且降低了端點的虛檢率和漏檢率。

實際應用中，端點檢測速度是一項比較重要的評價指標，為進一步比較上述4種語音端點檢測算法性能，在相同的實驗條件下，以檢測SNR=-5 dB的volvo含噪語音為例，取8次重復試驗后的平均值作為最終的時間數據。具體檢測時間見表2。

表2 端點檢測速度比較

從表2可知，多特征+APSO-QNN的訓練時間和檢測時間都最短(除了采用單一特征的短時能量+APSO-QNN算法)，將短時能量、循環平均幅度差函數、頻帶方差及美爾頻率倒譜系數作為語音特征量輸入量子神經網絡進行訓練，同時采用加速粒子群優化算法對量子神經網絡相關參數進行優化，提升了量子神經網絡的計算速度，使得該算法端點檢測實時性更強。

3.2.2實際噪聲環境下有效性檢測

給一段純凈語音信號添加pink噪聲，構成SNR=-5 dB的含噪語音信號，接著分別采用多特征+APSO-QNN算法、多特征+BP神經網絡算法、多特征+線性模型算法及短時能量+ APSO-QNN算法對其進行端點檢測，最終端點檢測結果如圖4所示(圖中虛線代表語音起始位置，豎線代表語音終止位置)。由圖4可知，相對于另外3種端點檢測算法，多特征+APSO-QNN算法能更準確地檢測出含噪語音信號的起止端點位置，具有較好的抗噪魯棒性。

圖4 SNR=-5 dB pink噪聲環境下端點檢測效果比較Fig.4 Endpoint detection performance comparison under SNR=-5 dB pink noise environment

4 結論

本文提出了多特征和APSO-QNN相結合的語音端點檢測算法。該方法通過提取語音信號的短時能量特征、循環平均幅度差函數特征、頻帶方差特征及美爾頻率倒譜系數特征，將這些特征量輸入量子神經網絡進行學習，利用加速粒子群算法對量子神經網絡的參數進一步優化，構建語音端點檢測模型并對信號的類型作出判別。仿真實驗結果表明，本方法不僅有較高的正確率與檢測速度，而且擁有較低的虛檢率與漏檢率，性能更加穩定、可靠，具有更好的實際應用意義。但多特征語音信號之間存在信息冗余，如何消除冗余信息，進一步提升端點檢測性能，是后續需進一步研究的方向。

[1]胡航.語音信號處理[M].哈爾濱:哈爾濱工業大學出版社,2007.

[2]項要杰,楊俊安,李晉徽,等.關聯小波神經網絡與高斯混合模型說話人識別[J].探測與控制學報, 2013,35(6):65-70.

[3]葉蕾,楊震,郭海燕.基于小波變換和壓縮感知的低速率語音編碼方案[J].儀器儀表學報, 2010,31(7):1569-1575.

[4]Hung W W, Wang H C. On the use of weighted filter bank analysis for the derivation of robust MFCCs[J]. IEEE Signal Processing Letters,2001, 8(3): 70-73.

[5]Saito A, Nankaku Y, Lee A, et al. Voice activity detection based on conditional random fields using multiple features[C]// INTERSPEECH 2010, Conference of the International Speech Communication Association. Makuhari, Chiba, Japan: ISCA, 2010:2086-2089.

[6]張文耀,許剛,王裕國.循環AMDF及其語音基音周期估計算法[J].電子學報,2003,31(6):886- 890.

[7]張學鋒,王芳,夏萍.融合LPC與MFCC的特征參數[J].計算機工程,2011,37(4):216-217.

[8]陸真,裴東興,劉莉,等.基于改進小波閾值函數和PSO的語音增強算法[J].激光雜志,2016(2): 141-145.

[9]馬家辰,胡佳俊,馬立勇,等.基于改進型粒子群算法的有源噪聲控制[J].計算機應用研究,2015(9): 35-39.

[10]Reyes-Sierra M, Coello Coello C A. Multi-objective particle swarm optimizers: A survey of the state-of-the-art[J].International Journal of Comput-ational Intelligence Research,2006,2(3):287-308.

[11]Shi Y, Eberhart R C. Parameter selection in particle swarm optimization[C]// International Conference on Evolutionary Programming Vii. Germany: Springer-Verlag, 1998: 591-600.

[12]Kunche P, Reddy K V V S. Application of Meta-Heuristics to Speech Enhancement[M]. Germany: Springer International Publishing, 2016.

[13]付麗輝.一種基于改進的量子神經網絡的語音降噪方法[J].信息與控制,2010,39(4):466-471.

[14]Purushothaman G,Karayiannis N B. Quantum neural networks (QNNs): inherently fuzzy feed-forward neural networks[J]. IEEE Transactions on Neural Networks,1997,8 (3):679-93.

[15]金敏.多特征和神經網絡相結合的語音端點檢測算法[J].計算機應用與軟件,2013,30(5):307-310.

[16]徐亞明,石娟,安動動,等.利用影像分割和匹配特征進行無人機影像變化檢測[J].武漢大學學報(信息科學版),2016,41(10):1286-1291.

SpeechEndpointDetectionAlgorithmBasedonMultipleFeaturesandAPSO-QNN

DONG Hu

(Department of Electronic and Information Engineering, Changsha Normal University, Changsha 410100，China)

Aiming at the problem of low endpoint detection accuracy and weak robustness of traditional endpoint detection algorithm in multiple complex noise environment, an endpoint detection algorithm which combines multiple features and accelerated particles swarm optimizes quantum neural network (APSO-QNN) was proposed in this paper. By extracting short-time energy feature, circle average magnitude difference function feature, frequency band variance feature and mel-frequency cepstral coefficient feature of speech signal, the features of which were sent to quantum neural networks (QNN)for learning. The method used accelerated particle swarm algorithm to optimize quantum neural network parameters, and making model of speech endpoint detection, then the type of signal was judged.The simulation experimental results proved that this method not only improved the speech endpoint detection accuracy, but also reduced the virtual detection rate and missing rate, and had strong noise robustness.

endpoint detection; accelerate particle swarm optimization; quantum neural network; correct accuracy; robustness

2017-01-09

:國家自然科學基金項目資助(61074067)；湖南省自然科學基金項目資助(2015JJ6007)；湖南省教育廳科學研究項目資助(12C0952)；湖南省科技廳科技計劃項目資助(2012FJ3010)；長沙師范學院科研項目資助(XXYB201517)

:董胡(1982—)，男，湖北黃崗人，博士研究生，講師，研究方向：信號處理及嵌入式設計。E-mail:wjd3203@163.com。

TP391.4

：A

：1008-1194(2017)04-0090-06