基于EEMD的融安方言語音合成算法研究

2022-08-25 08:32:06王學松王世剛郭毅峰

傳感器世界 2022年6期

關鍵詞：信號

王學松王世剛郭毅峰

廣西科技大學電氣電子與計算機科學學院，廣西柳州 545616

0 前言

語音屬于非線性信號。在提取語音特征的過程中，不可避免地會丟失一些細節信息[1]，主要原因是提取特征參數的方法對于非線性信號處理能力較弱。融安縣地處廣西北部地區，縣內共計25萬余人，居民對外的通用語言是西南官話，對內使用的方言包括：百姓話、陽山話、麻介話等[2]。其中百姓話是融安地區最流行的方言。百姓話具有18個聲母，75個韻母，9個聲調，這導致其發音種類多且復雜。因此，增強語音特征參數提取算法對非線性信號的處理能力，最大限度地保留語音細節信息是改善融安方言語音合成效果的關鍵[3]。

通過改進特征參數的提取算法能夠提高特征參數對信號的劃分精度。以往對改進特征參數提取方式的研究包括：利用語音信號的聲道特征和人耳聽覺感知特征與梅爾頻率倒譜系數（Mel-scale Frequency Cepstral Coefficients，MFCC）相融合來提高模型的魯棒性[4]；將MFCC與信號輪廓相融合來描述聲音信息，提高特征參數的提取精度[5]；采用耳蝸濾波倒譜系數（cochlear filter cepstral coefficients，CFCC）代替MFCC參數，以提升系統的性能[6]；提出基于F比對MFCC進行加權優化，有效提升系統的抗噪性[7]；將MFCC與短時傅里葉變化（short-time fourier transformation，STFT）特征融合構成新的特征參數，提高特征參數對信號的劃分精度[8]，提出了一種具有融合策略多觸點的MFCC參數[9]，提高了在噪聲環境下系統的語音識別精度等等。以上研究表明，通過改進MFCC的提取過程，或是采用其他參數代替MFCC，可以提取高精度的特征參數。

為了進一步加強語音特征提取算法對非線性信號的處理能力，本文提出將集合經驗態分解（ensemble empirical mode decomposition，EEMD）算法融入提取語音特征參數的過程中，將語音信號分解成若干線性分量，即固有模態分量（intrinsic mode functions，IMF），從而提高對語音信號的劃分精度，保留更多細節信息。實驗結果表明，采用本文算法合成融安方言語音的MFCC參數的均方根誤差（root mean squared error，RMSE）明顯低于傳統算法，并且能夠保留更多融安方言語音的細節信息，取得了較好的合成效果。

1 融安方言語音特征分析

融安地區使用百姓話的范圍廣泛，包括泗頂鎮、大良鎮、長安鎮等，使用人口近20萬[10]。具體分析如下：

（1）聲母系統：聲母分類如表1所示。

表1 聲母分類

（2）韻母系統：韻母分類如表2所示。

表2 韻母分類

其中，單元音韻母[a]發音時舌位偏夾，帶鼻音韻母[i ? ]中的[i]實為[I]，記作[i]，復元音韻母[ik]與韻母[i ?] 相近，并且陰聲韻母、陽聲韻母、入聲韻母的差異較大，發豪韻的字和發歌韻的字基本相混。

（3）聲調系統：聲調分類如表3所示。

表3 聲調分類

其中，在全濁聲母上聲字中大部分屬于歸陽去，少部分則屬于歸陰去。次濁聲母上聲字中有2/3屬于陰上和陰去，剩余1/3屬于陽上。濁聲母中的入聲字大多數屬于上陽入，其余屬于下陽入和陰去。清聲母中入聲字屬于陰入。

通過上述分析可知，百姓話具有較多的韻母和聲調，從而能夠表達更多、更復雜的信息，語音信號也相對更復雜。描述語音信號的特征參數直接影響合成系統的性能，需要提高特征參數提取算法對語音信號的劃分精度。

2 融安方言語音合成算法

2.1 MFCC特征參數

常采用LPC參數合成語音，并通過比較MFCC參數的RMSE指標來評價合成效果。Mel頻域尺度能描述人耳的頻率特性[11]。提取MFCC的過程如圖1所示。

（1）預處理：由于語音信號包含的信息量較大，因此需要進行加窗、分幀等處理，將語音信號切分成小段。加窗主要采用漢明窗，其函數w(n)表達式為：

其中，N——窗函數的尺度。

經過漢明窗卷積后的語音幀信號為：

其中，y(n)——卷積后的語音幀信號；

x(n)——卷積前的語音幀信號。

（2）頻域轉換：通常是在頻域內分析語音信號，通過快速傅里葉變換（fast Fourier transform，FFT）將語音信號由時域轉換為頻域，具體過程如下：

其中，X(k)——轉換后的頻域信號。

（3）Mel濾波：采用Mel濾波器組消除語音信號中的諧波，其函數Hm(k)的表達式為：

其中，M——Mel濾波器組包含濾波器的個數；

d——濾波器組對比參數。

其函數表達式為：

其中，fh——語音信號最高頻率。

濾波過程為：

其中，L(m)——經Mel濾波后的頻域信號。

（4）取對數變換：對Mel濾波器組的輸出結果取對數變換，得到語音信號的對數能量，其過程為：

其中，S(m)——取對數變換后的頻域信號。

根據《備忘錄》，聯合懲戒對象為在科研領域存在嚴重失信行為，列入科研誠信嚴重失信行為記錄名單的相關責任主體。聯合懲戒措施將依據相關責任主體失信行為嚴重程度，對其采取其中一項或多項懲戒措施。43項措施中包括限制或取消一定期限申報或承擔國家科技計劃（專項、基金等）的資格；依法撤銷國家科學技術獎獎勵，追回獎金、證書；暫停或取消國家科學技術獎提名人資格；一定期限內或終身取消國家科學技術獎被提名資格等。

（5）DTC變換：采用DTC變換將對數能量轉換為MFCC，DTC變換過程為：

其中，L——MFCC的階數；

C(n)——提取的MFCC參數矩陣。

通過對上述MFCC提取算法分析發現，在對語音幀信號進行FFT變換過程中，由于FFT變換對于非線性信號的處理能力較弱，從而導致提取的MFCC參數對原始語音信號的描述能力較差。因此，為了改善FFT變換的處理效果，需要保證輸入的信號是線性的或者是近似線性的。

2.2 EEMD算法

EEMD算法能夠將任意一個信號按自身時間尺度特征逐級分解，目的是得到若干個線性IMF分量和一個剩余分量[12]。EEMD算法的具體步驟如下：

（1）將白噪聲w(t)加入原始信號x(t)后，得到信號x′(t)，過程為：

（2）采用經驗模態分解（EMD）對第一步的合成信號x′(t)進行分解，從而獲得n個IMF分量和一個剩余分量，第二步過程表達式為：

其中，cj(t)——各個階段的IMF分量；rn(t)——剩余分量。

（3）循環前兩個步驟，且每次執行第一步時都要加入白噪聲，這些白噪聲的強度一樣，但是具體序列不同，第三步過程表達式為：

（4）對上一步求出的各階的IMF分量取平均值，并最終得到平均后的IMF分量，第四步過程表達式為：

其中，cn(t)——取均值后的IMF；

cin(t)——每次求得的IMF。

EEMD算法的步驟框圖如圖2所示。

2.3 基于EEMD的融安方言語音合成步驟

考慮到FFT變換在處理線性信號時效果較好的情況，將EEMD算法、FFT變換與逆快速傅里葉變換（inverse fast Fourier transform，IFFT）三者結合，構建融安方言語音合成算法。基于EEMD的融安方言語音合成算法框圖如圖3所示。

本文提出的基于EEMD的融安方言語音合成算法包含兩個階段，分別是訓練階段和語音合成階段。

（1）訓練階段：首先選取融安方言語音樣本，對語音樣本進行預處理，接著采用EEMD算法將語音分解為若干IMF分量，對每個分量進行FFT變換，最后對所有分量進行頻率求和，并將求和后的頻率數據儲存在參數模板庫中；

（2）語音合成階段：首先對輸入的文本進行文本分析，文本分析的目的是為了在參數模板庫中找到與文本相匹配的語音參數，本文采用人工標注的方法實現對文本的分析，最后對經文本分析找到的參數進行IFFT變換，得到融安方言語音信號。

3 實驗結果與分析

3.1 實驗數據與設置

本文選取的是廣西省融安縣融安方言，具體選擇了當地居民所說的百姓話作為研究對象。語音樣本是在安靜的環境內選用Adobe Audition CS6軟件進行錄制的，語音信號的采集頻率為44,100 Hz，采樣位深度為16 bit，并保存為.wav格式。語音樣本共由8人錄制，其中男5人，女3人。錄制人員的年齡在20～60歲之間，共分為4組年齡段，每組2人。要求每人依次對選定的10組百姓話詞語進行發音，每隔5分鐘錄制1次，每人錄制8次，共錄制640組融安方言語音樣本。選取每人錄制語音樣本的20%作為訓練樣本，剩余80%則作為測試樣本。測試實驗分別采用LPC語音分析法和本文算法完成語音合成，并對結果進行分析。

采用MATLAB 2018a平臺完成仿真。仿真系統中設定預加重系數為0.98，窗口尺度為320，幀移160。設置LPC的階次為16，在提取MFCC參數時，設置Mel濾波器組的尺度為24，窗函數選擇漢明窗。合成語音信號與樣本語音信號的MFCC參數距離采用RMSE進行評估，RMSE的函數表達式為：

其中，N——語音信號具體的分幀數量；

hMFCC——合成的語音信號MFCC參數；

yMFCC——原始語音信號的MFCC參數。

3.2 實驗結果與分析

分別利用傳統算法和本文提出的算法對所有融安方言語音樣本進行訓練與合成，提取合成后的MFCC參數，計算各個詞語的RMSE大小，記錄平均值，如表5所示。

從表5中可以看出，利用本文提出的算法合成的融安方言語音MFCC參數的RMSE值比傳統算法的RMSE值低一些。試驗結果表明，改進后的融安方言語音合成算法比傳統算法有7.38% 左右的性能提升，合成效果更好一些。

表5 融安方言語音詞語的RMSE值

為了更好地驗證改進算法的優勢，需要對兩種算法合成的語音信號波形圖進行分析。由于語音樣本數量較多，因此選擇一組詞語作對比。原始的融安方言詞語語音波形圖、利用傳統算法和本文提出的算法合成的語音波形圖如圖4所示。

從圖4中可以看出，傳統算法合成的融安方言語音信號外部輪廓較為雜亂，且高頻部分的還原度較低，因此語音信號失真嚴重，而本文算法能夠基本還原外部輪廓信息，且在高頻段的還原上比傳統算法好，合成度與傳統算法相比較高。

4 結束語

為了改善對融安方言語音的合成效果，本文提出了一種基于EEMD的融安方言語音合成算法，并選擇當地具有代表性的“百姓話”作為實驗對象。由于融安方言語音較為復雜，語音特征也更難提取，為了加強語音特征提取算法對非線性信號的處理能力，將EEMD算法融合進語音特征參數的提取過程中。先對融安方言語音幀信號進行EEMD分解，得到若干IMF分量；然后對所有分量進行FFT變換；再對所有的分量進行頻率求和得到融安方言語音特征參數；最后利用此參數對融安方言語音進行合成。實驗結果表明：本文算法合成的融安方言語音MFCC參數的RMSE值與傳統算法相比降低了7.38%，并且能夠保留更多的語音細節信息。