999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

語音截止頻率在語音識別中的應用

2013-12-31 00:00:00呂勇
科技創新與應用 2013年36期

摘 要:語音識別系統往往會受到說話人的改變、信道失真、環境噪聲等各種因素的干擾,從而導致預先訓練的聲學模型與實際環境語音的特征參數之間存在較大的差異,這會嚴重影響語音識別系統在實際環境下的識別性能。由于噪聲主要影響語音的高頻非周期部分,傳統的最大似然線性回歸算法在噪聲自適應中難以取得令人滿意的效果。文章提出了一種基于語音截止頻率的最大似然線性回歸算法,以當前測試環境的語音截止頻率為頻率上限,提取測試語音的特征參數;然后,將聲學模型每個高斯單元的均值和方差從倒譜域變換到對數譜域,根據語音截止頻率,忽略其高頻分量,再變換回倒譜域;最后,根據測試環境下的少量自適應數據,利用最大似然線性回歸算法對聲學模型的參數進行調整,使其與當前環境相匹配。

關鍵詞:語音識別;語音截止頻率;最大似然線性回歸;模型自適應

1 引言

在實際應用場合,語音識別系統往往會受到說話人的改變、信道失真、環境噪聲等各種語音變異性的干擾,從而導致預先訓練的聲學模型與實際環境下提取的聲學特征之間存在較大的差異。因而需要對聲學模型或聲學特征進行補償,減小環境失配的影響,提高語音識別系統在實際環境下的識別性能。

模型自適應是一種減小環境失配的有效方法,它通過測試環境下的自適應數據調整預先訓練的聲學模型的參數,使之與當前環境相匹配。一般來說,聲學模型包含較多的參數,如果每個參數都獨立更新,則需要大量的自適應數據,這在實際應用中很難做到。因此,通常假設聲學模型的若干個高斯單元共享同一個環境變換關系,將這些高斯單元的自適應數據合并,估計同一組變換參數。最大似然線性變換[1](MLLR: Maximum Likelihood Linear Regression)是一種常用的模型自適應算法,它假設測試環境聲學模型與訓練環境聲學模型之間符合仿射變換關系,只需要通過仿射變換將訓練環境聲學模型每個高斯單元的均值和方差變換到測試環境,即可得到測試環境聲學模型。

在諧波噪聲模型中,語音可以分解為一系列正弦諧波與噪聲的疊加。在大部分語音幀中,諧波僅僅分布在頻譜的低頻段,因此可以將語音的頻譜劃分為兩個不同的部分:低頻諧波部分和高頻非周期部分,這兩個部分的分界頻率就稱為語音截止頻率。確定語音截止頻率的主要方法有分析綜合法、譜域方法和時域方法[2]。在大多數應用場合下,背景噪聲是寬帶的,它會同時影響語音的低頻段和高頻段。但在低頻諧波部分,語音的能量一般遠大于該頻段的噪聲能量,噪聲的影響較?。欢诟哳l非周期部分,語音的能量很小,更易受噪聲影響,通常會被噪聲覆蓋。因而可以認為含噪語音的低頻段是有用的語音諧波,而高頻段主要是噪聲信息。這樣,在語音識別中,根據環境噪聲的類型和信噪比,估計當前環境下的語音截止頻率,僅用語音的低頻諧波部分構建聲學特征,可以得到更好的識別效果。

文章提出了一種基于語音截止頻率的最大似然線性回歸算法。在該算法中,首先從測試環境下的少量自適應數據中提取當前測試環境的語音截止頻率,并用其作為頻率上限,提取語音的特征參數;然后,將聲學模型每個高斯單元的均值向量和協方差矩陣從倒譜域變換到對數譜域,根據語音截止頻率,忽略高頻分量,再變換回倒譜域;最后,根據測試環境下的少量自適應數據,利用MLLR算法對聲學模型的參數進行調整,使其與當前環境相匹配。

2 基于語音截止頻率的最大似然線性回歸算法

2.1 訓練過程

在訓練階段,首先用Mel濾波器組將語音的有效頻譜劃分為N個Mel頻帶,設第i個Mel頻帶的上限頻率為fi,這N個上限頻率即為語音截止頻率的取值范圍。然后,為每個語音單元的發音樣本提取倒譜特征參數,訓練生成該語音單元的聲學模型。在語音識別中,聲學模型一般為隱馬爾可夫模型(HMM: Hidden Markov Model),其每個狀態的概率密度函數用一個高斯混和模型(GMM: Gaussian Mixture Model)來描述。這些預先訓練得到的聲學模型可能與實際應用環境并不匹配,因此在測試階段需要對其參數進行調整后,才能用于語音識別。

2.2 測試過程

2.2.1 確定語音截止頻率

用譜域方法從測試環境下的少量自適應數據中提取測試語音頻譜的截止頻率,并將其映射到Mel頻帶的上限頻率fi上,用與其最接近的Mel頻帶上限頻率作為當前測試環境的語音截止頻率。

2.2.2 特征提取

用當前測試環境的語音截止頻率作為頻率上限,提取測試語音的倒譜特征參數,即只保留截止頻率以下的Mel頻帶,忽略其以上的Mel頻帶。特征提取的步驟包括:聲學預處理、快速傅里葉變換、Mel濾波、取對數、離散余弦變換和時域差分。

2.2.3 高斯降維

因為在特征提取中根據語音截止頻率對語音的特征參數進行了降維,為了與特征參數一致,聲學模型每個高斯單元的均值向量與協方差矩陣也必須降維。將每個語音單元聲學模型的均值向量和協方差矩陣從倒譜域變換到對數譜域,根據語音截止頻率,忽略均值和方差的高頻Mel分量,再變換回倒譜域,即可得到與測試環境特征參數的頻率范圍一致的聲學模型。

2.2.4 模型變換

由于背景噪聲、信道失真、說話人的改變等各種因素的影響,高斯降維后的聲學模型可能與實際測試環境并不匹配,甚至相差很遠。為了減小環境失配的影響,需要對聲學模型的參數進一步調整。首先通過聚類算法將聲學模型的高斯單元劃分為若干類,假設每一類的全部高斯單元符合同一個仿射變換關系。然后,將每一類全部高斯單元的自適應數據合并,根據最大似然準則估計該類仿射變換的參數。得到變換參數后,對聲學模型各類高斯單元的均值向量和協方差矩陣進行變換,即可得到測試環境聲學模型。測試環境聲學模型的狀態初始概率分布、狀態轉移概率矩陣和高斯混和系數與訓練環境聲學模型一致。

2.2.5 語音識別

得到測試環境聲學模型后,即可對當前測試環境下提取的特征參數進行聲學解碼,得到識別結果。

3 結束語

語音識別系統在實際應用中不可避免地要受到背景噪聲的干擾,而噪聲主要影響語音的高頻非周期部分,因此在噪聲環境下僅用語音頻譜的低頻諧波部分進行語音識別可以取得更好的識別效果。文章將語音截止頻率用于聲學模型的參數自適應,提出了一種基于語音截止頻率的最大似然線性回歸算法,從測試環境下的少量自適應數據中提取當前測試環境的語音截止頻率,提取測試語音的特征參數,并將聲學模型每個高斯單元的均值和方差從倒譜域變換到對數譜域,根據語音截止頻率忽略其高頻分量,再變換回倒譜域,然后利用MLLR算法對聲學模型的參數進一步調整,得到測試環境聲學模型?;谡Z音截止頻率的最大似然線性回歸算法優于傳統的MLLR算法,在噪聲補償中具有更好的魯棒性。

參考文獻

[1]N·S·Kim,J·S·Sung,D·H·Hong. Factored MLLR Adaptation [J]. IEEE Signal Processing Letters, 2011(2).

[2]K·Hermus,H·V·Hamme,S·Irhimeh·Estimation of the Voicing Cut-Off Frequency Contour Based on a Cumulative Harmonicity Score [J].IEEE Signal Processing Letters,2007(11).

主站蜘蛛池模板: 男女男精品视频| 欧美综合成人| 99久久无色码中文字幕| 久久精品嫩草研究院| 成人国产一区二区三区| 一级做a爰片久久免费| 香蕉综合在线视频91| 亚洲二三区| 欧美日本视频在线观看| 亚洲国产亚综合在线区| 亚洲手机在线| 欧美精品高清| 91麻豆精品视频| 超薄丝袜足j国产在线视频| 国产毛片一区| 91色在线观看| 亚洲一区二区三区在线视频| 亚洲人网站| 福利视频一区| 亚洲欧美另类中文字幕| 国产永久在线观看| 久久精品视频一| 久久综合亚洲色一区二区三区| 在线无码九区| 色综合天天操| 亚洲AV无码乱码在线观看代蜜桃| 亚洲国产中文综合专区在| 久996视频精品免费观看| 亚洲国产成人久久77| 日日噜噜夜夜狠狠视频| 亚洲经典在线中文字幕| 亚洲无码视频图片| 日日拍夜夜嗷嗷叫国产| 精品无码日韩国产不卡av| 黄色网站不卡无码| 国产精品成人AⅤ在线一二三四| 国产无码网站在线观看| 亚洲免费毛片| 欧美高清国产| 东京热高清无码精品| 一级一级一片免费| 国产浮力第一页永久地址| 婷婷色婷婷| 国产免费自拍视频| 久久精品人妻中文系列| 成人综合网址| 亚洲最新网址| 精品自窥自偷在线看| 91啦中文字幕| 四虎影院国产| 日韩资源站| 18禁不卡免费网站| 最新国产成人剧情在线播放| 色婷婷啪啪| 日韩一级毛一欧美一国产| 婷婷亚洲最大| 91成人在线观看视频| 91年精品国产福利线观看久久 | 色成人综合| 欧洲日本亚洲中文字幕| 亚洲日韩久久综合中文字幕| 成年人视频一区二区| 伊人久综合| 伊人大杳蕉中文无码| 精品久久蜜桃| 亚洲三级成人| 久久熟女AV| 国产在线观看高清不卡| 99re热精品视频国产免费| 亚洲天堂网在线视频| 不卡网亚洲无码| 亚洲最大福利视频网| 综合人妻久久一区二区精品| 激情无码视频在线看| 噜噜噜久久| 国产亚洲欧美在线人成aaaa| 国产成人精品男人的天堂| 亚洲视频免| 无码综合天天久久综合网| 一区二区三区精品视频在线观看| 中文字幕av无码不卡免费| 久久精品国产国语对白|