白俊賢,米 川
(河北科技大學(xué)研究生學(xué)院,河北 石家莊050000)
漢語普通話是以字為單位的。從聲學(xué)角度看,漢語中一個(gè)字就對應(yīng)一個(gè)音節(jié)。因此,音節(jié)是漢語語音識(shí)別中最自然的識(shí)別單元。目前,隨著漢語語音識(shí)別技術(shù)向大詞匯量連續(xù)語音識(shí)別的方向不斷發(fā)展,音節(jié)作為識(shí)別單元已不再能滿足要求。這是因?yàn)楫?dāng)詞匯量增大時(shí),不可能要求在進(jìn)行語音數(shù)據(jù)訓(xùn)練中每個(gè)音節(jié)出現(xiàn)很多次重復(fù)。因此,必須選取比音節(jié)更小的單元(音素)作為訓(xùn)練和識(shí)別的基本語音識(shí)別單元。
當(dāng)前的漢語聲韻母分割方法主要有:基于多特征參數(shù)(如能量、過零率、基頻輪廓、倒譜系數(shù)等)的分割方法、基于小波的分割方法及基于語音自動(dòng)識(shí)別技術(shù)的分割方法等。這些方法在非連續(xù)語音中分割正確率很高,但在連續(xù)語音中由于協(xié)同發(fā)音的影響分割正確率大幅度降低,而且易受噪聲的影響。所以本文采用基于聲母分割和段間距離分割相結(jié)合的方法,將音節(jié)劃分成聲母和韻母,然后對聲母和韻母分別進(jìn)行特征提取,再識(shí)別出相應(yīng)的聲母和韻母。這種識(shí)別方法能使識(shí)別單元大大減少,從而使運(yùn)算量和存儲(chǔ)量減少,提高了識(shí)別率和識(shí)別速度。
22個(gè)輔音可以分為六個(gè)類別:擦音、塞音、塞擦音、邊音、鼻音、零聲母。通過各類聲母的時(shí)域及頻域特征,對這六類聲母進(jìn)行重新分類,同類的含有相似特征,可以用相同方法進(jìn)行處理,對于不同類型聲母的特點(diǎn),適當(dāng)選擇時(shí)域頻域的特征進(jìn)行判斷。對聲母進(jìn)行處理分類如下:
(1)擦音+送氣音+塞擦音:f、h、s、sh、x、r、p、t、k、ch、c、j、q、zh、z。這類聲母最明顯的特征是持續(xù)時(shí)間較長,類似噪聲。如圖1所示,其能量集中于高頻部分,可以進(jìn)行低通濾波,去除高頻部分,聲母的高頻部分能量變得很小,整個(gè)聲母的能量就會(huì)變得很小,進(jìn)入韻母段能量顯著增大,可以判斷短時(shí)能量顯著增大的位置為聲韻母分割點(diǎn)。

圖1 擦音+送氣音+塞擦音的時(shí)域波形
(2)不送氣+零聲母:b、d、g、a、e、o、i、u。圖2中,這類聲母的重要特點(diǎn)是持續(xù)時(shí)間短,能量曲線中可能有兩種情況,一是聲母韻母能量相差不大,可以直接去除前面若干幀;另一種是短時(shí)能量在聲母部分有一個(gè)明顯的下降沿,可以根據(jù)這個(gè)特點(diǎn)判斷分割點(diǎn)。

圖2 不送氣+零聲母的時(shí)域波形
(3)鼻音+邊音:m、n、l。鼻音和邊音是濁輔音,具有準(zhǔn)周期特性。圖3(a)中,可以看出邊音也有周期性,與鼻音不同的是聲母后面有一個(gè)無周期的語音帶。圖3(b)和(c)中,可以看出鼻音也有較強(qiáng)的周期性,但是能量集中于中低頻,可以區(qū)別于其他濁輔音。

圖3 鼻音+邊音的時(shí)域波形
進(jìn)行聲母韻母劃分的具體步驟如下:
(1)對輸入信號(hào)求短時(shí)能量曲線E1;
(2)對輸入語音信號(hào)進(jìn)行低通濾波,求濾波后信號(hào)的短時(shí)能量曲線E2,并對每一幀除以E1曲線中對應(yīng)的值;
(3)若E1中起始部分的值遠(yuǎn)小于中后面的值,且E2的起始部分若干幀的值也遠(yuǎn)小于曲線中后面的值,如果是,則可以判斷聲母可能是擦音、送氣音或者塞擦音,取E2中能量顯著增大的位置為韻母起始位置;如果不滿足,則進(jìn)行下面的檢測;
(4)若E1中起始部分的值遠(yuǎn)小于中后面的值,且E2中起始部分若干幀的值大于曲線中后面的值,則判斷該語音的聲母為鼻音,取E1曲線能量顯著增大的位置音節(jié)分割點(diǎn)。如果不滿足,則進(jìn)行下面的檢測;
(5)如果在E1中,起始部分與后部差距不大,則判斷塞音或零聲母,在此情況下,可以認(rèn)為前五幀為聲母部分,之后為韻母。
(6)若以上都不滿足,則判為邊音L。周期性變化的位置為分割點(diǎn)。
基于聲韻母差異而得出的聲韻母分割算法依據(jù)的原理是:在同一音素內(nèi),語音幀的特征矢量具有很大的相似性,而在不同音素內(nèi),語音幀的特征矢量具有相異性。利用這一特性,通過計(jì)算語音片段之間的距離,可以將聲母和韻母這種具有不同特性的語音段分割開來。
兩個(gè)語音片段在特征參數(shù)空間上的總體差異稱為這兩個(gè)語音片段的段間距離。由于語音特征矢量一般按確定長度的時(shí)間幀進(jìn)行計(jì)算,所以在進(jìn)行段間距離計(jì)算時(shí),可以取確定數(shù)目的連續(xù)語音幀構(gòu)成語音片段。計(jì)算段間距離所采用的規(guī)則和方法稱為段間距離測度。
設(shè)A、B分別表示同一語音信號(hào)的兩個(gè)片段,分別包含m和n兩個(gè)語音幀。語音段A、B內(nèi)各幀的特征矢量分別為Xi和Xj。計(jì)算Xi和Xj的歐氏距離d。
歐氏距離計(jì)算方法:

求歐氏距離d的平均值D,D綜合的反映了語音段之間的總體差異。段間距離越小,它的特征越相似,屬于同一因素。段間距離越大,越不相似,不屬于同一因素。兩個(gè)語音片段之間可以認(rèn)為是音素的分割點(diǎn),可將聲韻母劃分開。
在本系統(tǒng)中,實(shí)驗(yàn)數(shù)據(jù)采用16 kHz采樣率,16 bit編碼進(jìn)行錄制。數(shù)據(jù)內(nèi)容是150個(gè)漢語音節(jié),包括了所有聲母和韻母。由人工檢查聲韻母分割效果,所以只選取了若干個(gè)結(jié)果進(jìn)行效果分析,如表1和圖4所示。

表1 聲韻母分割實(shí)驗(yàn)結(jié)果
從表1中數(shù)據(jù)可以看出,兩種方法效果都是不錯(cuò)的。但兩種方法有不同的特點(diǎn):聲母類型方法需要計(jì)算較多的參數(shù),通過條件一步一步判斷聲母所屬類型。對于清音和零聲母處理效果好。對于濁輔音容易判斷錯(cuò)誤;段間距離方法直接用MFCC系數(shù)進(jìn)行運(yùn)算,減少了額外的計(jì)算開銷。

圖4 音節(jié)的分割
結(jié)合兩種方法的效果分析,可以先對語音信號(hào)進(jìn)行聲母類型判斷,再計(jì)算段間距離進(jìn)行分割。對于塞音、塞擦音、零聲母、不送氣等清音用第一種方法可以判斷分界點(diǎn),對于鼻音邊音等濁音用第二種方法進(jìn)行分割。這樣就利用了兩種算法的優(yōu)點(diǎn),進(jìn)而得到了更滿意的分割效果。
[1] 韓紀(jì)慶,馮 濤,鄭貴濱,馬冀平.音頻信息處理技術(shù)[M].北京:清華大學(xué)出版社,2007.
[2] 韓紀(jì)慶,張 磊,鄭鐵然.語音信號(hào)處理[M].北京:清華大學(xué)出版社.2005.
[3] 王 寧,萬旺根,于小清.漢語語音因素分割的一種新方法[J].上海大學(xué)學(xué)報(bào)(自然科學(xué)版),2002,08(02):33-35.