武佳杰
?
基于 DTW 的孤立詞說話人識別研究
武佳杰
山西財經大學,山西 太原 030000
利用遺傳算法優越的全局搜索能力對傳統DTW算法進行改進,重點研究遺傳動態時間規劃算法(GA_DTW)的實現機理、編碼方式、適應度函數設計、種群初始化、選擇機理、交叉運算、變異操作和終止策略。實驗結果表明,在孤立詞的說話人識別上,該算法具有識別率更高、耗時更少的優點。
DTW;孤立詞;識別

其中:

實際應用中,DTW采用動態規劃技術實現最優化算法,被限制在一個平行四邊形內如圖1,其一條邊的斜率為2,另一條邊的斜率為1/2。規整函數的起始點為(1,1),終止點為(,)。DTW算法用簡單的局部路徑限制,使沿路徑的累積距離最小,其動態搜索的空間并不是整個矩形網格,而是局限于平行四邊形區域內,許多點達不到,因此,本文采用基于遺傳算法的動態時間規劃算法(GA_DTW)用全局搜索能力來尋找最佳匹配路徑[2]。

圖1 時間規整過程


GA_DTW是對每一代個體進行適應度評價,對待識別模板和參考模板各幀間累積距離進行計算,通過選擇、交叉和變異等操作得到適應度更高的下一代種群,如此反復,直到達到算法終止條件即滿足模板最小總累積距離,結束算法運算,輸出結果[5]。
(1)編碼方式。對參考模板進行編碼,并對待識別模板上特征參數幀的位置及位置上的值進行編碼,使染色體上的基因位置表示待識模板的幀號數,而該位置上的基因值表示參考模板的幀號數。假如參考模板特征參數有幀,待識別模板特征參數有幀,那么用長度為個字符的串來編碼染色體,而這個串中的基因是一個小于或等于的正整數,它代表待識別特征參數幀在基因位置上對應的參考特征參數幀的位置,并在串中按從左到右、從小到大的順序排放。假設參考模板參數有10幀,待測試模板參數有15幀,如串1,1,2,2,3,4,5,5,6,7,8,9,9,10,10,它表示待識別語音特征參數中的:第1幀對應參考模板中第1幀,第2幀對應參考模板中的第1幀,第3幀對應參考模板中第2幀,……,第14幀對應參考模板中第10幀,第15幀對應參考模板中第10幀。
(2)適應度函數設計。待識別模板特征參數(幀)參考模板特征參數(幀)間各幀間距離是一個×的矩陣dist[,],一般適應度值越大被遺傳的機會就越大,但是累積距離是越小越好,所以需要進行最大值和最小值之間的轉換。GA_DTW算法的適應度函數為式5。

(3)種群初始化。隨機產生個0-2的隨機整數,使它們的和加起來等于,然后對這些隨機數按從左到右的順序依次求和,即:染色體中從左至右的第個基因是隨機數序列從左至右的前個隨機數的和。
(4)選擇操作。在進化時,上一代適應度最高的個體直接復制到下一代,再選取遺傳運算之后適應度較高的個體,直到個體數量達到種群規模[6]。
(5)交叉操作。將種群中2個個體以隨機方式組成個配對組,將對應兩位置的中間基因片段進行交換,得到2個新的個體。
(6)變異操作。用表示變異概率,一般取值0.001~0.02,通過擾亂基因值再合并允許的新值,即:隨機產生一個1~-1范圍內的整數,用它取代個體中的某個元素。
(8)終止策略:本文采用固定遺傳迭代次數的方法終止策略,設定迭代次數為60次。
實驗采集了5個人的語音樣本數據,包括3個女聲和2個男聲的發音,樣本為兩個字的連續詞發音,分別為“芝麻、開門、晴朗、多云、小雨”,每人每個詞發音重復40遍,這樣得到共1000個語音樣本數據,建立了一個s×5×40的語料庫,供實驗用。采用同一個女聲的聲音樣本,交叉概率和變異概率取(,)=(0.8,0.005),遺傳迭代次數按60計算,實驗結果如表1。從表1知,DTW和GA_DTW的識別率分別為87.60%和90.51%,GA_DTW的識別率明顯高于DTW的識別率,而且耗時更短,前者每個詞識別平均耗時1.596 s,后者每個詞識別平均耗時1.371 s,在效率上GA_DTW比DTW高得多。

表1 識別實驗結果
[1]陳永斌,王仁華.語言信號處理[M].合肥:中國科學技術大學出版社,1990.
[2]De.Jong, KA. An Analysis of the Behavior of a Class of GeneticAdaptive Systems[D].University of Michigan,No.76-9381,1975.
[3]Holland J H.Adaptation in Natural and Artifi- cial Systems[M].Ann Arbor: Univ.of Michi- gan Press,1975.
[4]徐宗本,張講社,鄭亞林.計算智能中的仿生學[M].北京:科學出版社,2003.
People on Speak Recognition of Isolated Words DTW
Wu Jiajie
Shanxi University of Finance, Shanxi Taiyuan 030000
Genetic Algorithm excellent global search ability of traditional DTW algorithm is improved, focusing on genetic dynamic time programming algorithm (GA_DTW) the implementation mechanism, encoding, fitness function design, population initialization, selection mechanism, crossover operator, mutation and termination policies. Experimental results show that the speaker recognition isolated words, this algorithm has higher recognition rate, consuming fewer advantages.
DTW; isolated words; identification
TN912.34
A
1009-6434(2016)08-0115-02
武佳杰(1989—),男,山西汾陽人,山西財經大學2014(計算機應用技術)學術碩士研究生,研究方向為貝葉斯網絡。