999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于詞級DPPM的連續語音關鍵詞檢測

2014-08-05 04:28:29張連海
計算機工程 2014年5期
關鍵詞:檢測模型

王 勇,張連海

(解放軍信息工程大學信息系統工程學院,鄭州 450002)

基于詞級DPPM的連續語音關鍵詞檢測

王 勇,張連海

(解放軍信息工程大學信息系統工程學院,鄭州 450002)

提出一種基于詞級區分性點過程模型的連續語音關鍵詞檢測方法。利用時間模式結構和多層感知器計算每個音素幀級后驗概率,使用區分性點過程模型將一段時間內多個音素事件形成的點過程作為整體,把關鍵詞檢測看作二元分類問題,經分段和拼接構成超矢量,輸入支持向量機分類器,判斷該段語音是否為待檢測關鍵詞。該方法充分考慮語音信號上下文相關性,直接以詞作為基本單元建模,提高了系統檢測的準確性和魯棒性。實驗結果表明,對采樣的語音,其關鍵詞平均召回率和準確率分別可達71.5%和84.6%以上,并且結合相關語言模型知識,系統性能將會進一步提高。

點過程模型;音素后驗概率;時間模式;關鍵詞檢測;支持向量機;區分性點過程模型

1 概述

目前語音識別常采用子詞單元(如音素)進行聲學建模,在此基礎上聯合發音字典進行詞的識別。但在進行關鍵詞檢測時,由于語音信號具有上下文相關性,若直接以詞作為基本單元建立模型,可能會提高系統準確性和魯棒性[1]。語音點過程模型[2](Point Process Model, PPM)表示方法與傳統的基于幀的時間向量表示方法不同,它使用基于時間的稀疏聲學事件表示語音,使用基于聲學事件的點過程模型取代基于聲學狀態的HMM模型[3]。本文使用點過程表示語音信號,研究基于詞級區分性點過程模型(Discriminative Point Process Model, DPPM)的連續語音關鍵詞檢測方法。

之前的研究給出了一般的PPM框架[4],證明基于聲學事件的關鍵詞檢測方法與傳統方法相比,能夠保證關鍵詞檢測系統的準確性并降低系統的復雜性。但是,一般的PPM模型建立在音素事件之間獨立性假設基礎之上,且在使用泊松過程計算似然比時,似然比值往往依賴于某個或某幾個音素事件。本文考慮將關鍵詞點過程作為整體,經適當處理后,輸入支持向量機(Support Vector Machine, SVM)[5],通過輸出的詞級置信度得分判斷該段語音是否為關鍵詞。

2 點過程建立

基于DPPM關鍵詞檢測分為2個階段:點過程建立和關鍵詞檢測。首先計算幀級音素后驗概率并建立點過程,其次由關鍵詞檢測模塊計算詞級置信度得分,通過設定閾值判斷候選語音是否為關鍵詞。

圖1為本文使用方法檢測關鍵詞結構。語音信號首先經過信號處理單元S得到幀級音素后驗概率X,檢測器D給定適當的閾值,X經過檢測器D后,轉化為n個點過程P,那么語音信號就可以用n個點過程表示,再由關鍵詞分類器計算詞級置信度得分,最終實現關鍵詞檢測。

圖1 關鍵詞檢測結構

2.1 音素后驗概率

目前,語音識別聲學特征主要使用MFCC、PLP等[6]頻譜參數,但這些參數只使用了20 ms、30 ms左右的語音信息,極易受到噪聲的影響。TRAP[7]是一種長時屬性,反映了長時間特征變化情況,有效地利用語音信號之間的相關性,能夠提高語音識別的性能[8]。本文將TRAP結構引入到音素后驗概率的檢測之中。

基于TRAP結構的音素后驗概率檢測流程如圖2所示,具體步驟如下:

(1)預處理:選擇幀長與幀移分別為25 ms和10 ms,對語音信號進行預加重、加漢明窗,將頻譜轉化為梅爾頻標后進行三角窗濾波,每幀語音信號輸出為23個子帶能量的一維向量。

(2)拼接加權:將當前幀與其前n幀的子帶能量拼接成一個長序列,稱為左子帶序列;將當前幀與其后n幀的子帶能量拼接成右子帶序列。由于語音信號幀與幀之間距離越近,相關性越強,距離越遠,相關性越弱。因此,給距離當前幀較遠的幀分配較小的權值,距離當前幀較近的幀分配較大的權值,并且同一幀內的各個子帶能量系數分配的權值相同。然后,分別對加權后的序列進行離散余弦變換(Discrete Cosine Transformation, DCT)變換,將變換后的系數規范化后作為低層MLP輸入特征。

(3)后驗概率檢測:采用低層MLP分別對左、右2個子帶序列進行音素檢測,對輸出結果進行非線性變換,將低層2個MLP的輸出拼接成新的向量并作為高層MLP的輸入特征,最后高層MLP的輸出為音素后驗概率識別結果。

圖2 音素后驗概率檢測流程

由于TRAP結構使用了上下文相關信息,因此最終檢測結果準確率相對更高。圖3所示為詞problem幀級音素后驗概率圖,顏色越深表示該幀信號為某個音素的概率越大。

圖3 pr oblem幀級音素后驗概率

2.2 點過程

在計算出幀級音素后驗概率的基礎上,得到語音信號音素后驗概率矩陣。對于后驗概率矩陣的每一行,也就是語音信號每一幀,取后驗概率最大值,其余后驗概率置為0。然后給定閾值γ,若該幀信號后驗概率最大值大于γ,則將其置為1,表示該幀語音信號是某個音素,若小于γ,則將其置為0。由此可以將音素后驗概率矩陣0、1離散化,得到語音信號點過程表示。圖4所示為詞problem的點過程表示,其中的點表示該幀信號為problem相應的某個音素,點的個數代表音素出現的次數。

圖4 pr oblem點過程表示

3 DPPM關鍵詞檢測

SVM是建立在統計學習理論的VC維理論和結構風險最小原理基礎上的,根據有限的樣本信息在模型的復雜性和學習能力之間尋求最佳折中,以期獲得最好的推廣能力。它在解決小樣本、非線性及高維模式識別中表現出許多特有的優勢,并能夠推廣應用到函數擬合等其他機器學習問題中。在文本分類、生物信息、圖像分析、語音識別等諸多領域中,SVM有著廣泛的應用[9]。

給定如上所述語音點過程表示,需要對每段語音產生的點過程建立合適的模型,以達到區分關鍵詞與非關鍵詞的目的。本文采用SVM分類器對候選語音進行檢測。

3.1 SV M基本理論

SVM通過事先選擇的非線性映射將輸入空間變換到高維空間,然后在高維空間中構建最優決策超平面,使得該平面兩側距離平面最近的2類樣本之間的距離最大化。非線性映射通過定義適當的核函數實現。SVM關鍵在于核函數,低維空間向量通常難以劃分,需要將它們映射到高維空間,但會增加計算復雜度,核函數恰好解決了該問題[10]。實際應用表明,RBF核函數具有良好的性能和很強的學習能力,無論對于低維、高維、大樣本還是小樣本等情況,該核函數都適用,有較好的收斂域,采用RBF核函數:

對語音點過程進行分類。

3.2 D PPM關鍵詞檢測

將所有的候選語音段時長歸一化后,對歸一化時長進行均勻分段,將Si'映射為(M| P|+1)維超矢量xi。其中,M是所分時間段數;|P|是音素個數。前M|P|維向量由音素事件數|P|個M維向量拼接構成,數值為當前段當前音素事件發生次數,即超矢量xi第k個元素xi[k]=nj,d為第j個音素在第d段時間內發生次數。其中,j=k/M,d=mod(k,M);第(M|P|+1)維向量為時長Ti(候選語音段的幀數)。給定候選語音,并將其轉換為上述超矢量形式,即可使用SVM分類器判別其是否為待檢測關鍵詞。

4 實驗與分析

4.1 實驗配置

4.1.1 語料庫

本文實驗使用TIMIT[11]語料庫,排除其中用于說話人識別實驗的SA1和SA2中的語句,選擇訓練集中3 296個語句和測試集中1 344個語句進行實驗,時間共計3.95 h。由于實驗需訓練關鍵詞樣本,因此選擇TIMIT語料庫中出現頻次較高的詞進行相關實驗。

TIMIT語料庫中共含有61個音素單元,其劃分較為精細。根據CMU/MIT標準,對TIMIT中發音類似的音素進行合并,由61個音素映射為47個[12],對應關系如表1所示。

表1 TI MIT中音素映射關系

4.1.2 DPPM設置

在實驗中,對于不同的音素設置的后驗概率閾值δ也不盡相同,本文設置閾值由統計平均得出。對于時長較短的關鍵詞,設置分段數M=10;對于時長較長的關鍵詞,設置分段數M=20,然后根據3.2節所述方法,將分別獲得471維和941維超矢量。

4.2 實驗結果

召回率和準確率是衡量關鍵詞檢測性能的2項重要指標,可以用來對檢測的結果進行量化評價。一般而言,召回率和準確率是互相對立的,一個指標的上升伴隨著另一個指標的下降。在應用過程中,一般尋找兩者的平衡點,使得召回率與準確率均能滿足實際的需求。

本文選取關鍵詞容錯誤差為±30 ms,表2所示為文獻[4]方法與本文方法關鍵詞檢測結果對比。

表2 PPM關鍵詞檢測結果

由于本文中并未考慮詞邊界信息,在進行關鍵詞搜索時,若某個詞的發音完全包含另一個詞的發音,會將該詞作為關鍵詞檢出。例如搜索關鍵詞every(發音為|ehvr iy|)時,因為詞everyone(發音為|eh v r iy w ah n|)完全包括詞every的發音,所以會將everyone的前半部分作為關鍵詞檢出,本文中未將這種情況作為插入錯誤進行統計。對于包含音素較少的詞,如take(發音為|t ey kcl|),由于英文單詞中包含發音|t ey kcl|情況較多,本文未統計準確率。

在實驗中,為提高系統關鍵詞召回率,在準確率允許條件下,可適當將易混淆的音素如|iy|、|ix|等作為同一音素處理。例如某候選語音通過音素后驗概率檢測發音為|eh v r ix|,可酌情將其作為發音|eh v r iy|處理。

在理論上,當關鍵詞時長越長、包含的音素越多時,建立點過程模型可利用的信息越多,關鍵詞模型的復雜度越高,容易引起的混淆越少,相應的關鍵詞召回率、準確率應該越高。在實驗過程中,隨著關鍵詞包含音素的增加,關鍵詞檢測準確率呈上升趨勢,但是由于關鍵詞包含音素的增加,音素后驗概率錯誤也就相應增多,關鍵詞召回率不一定能相應提高。由于語料庫中,某些關鍵詞存在較多的發音變體[13],單純地依靠某一個關鍵詞模型并不能將所有的發音變體檢測出,因此可能存在某些關鍵詞的檢測效果并不理想。由表2可以看出,people召回率僅為52.3%和58.3%,與其他詞有較大差距。

表3所示為在相同條件下,本文方法與其他方法的關鍵詞檢測結果。可以看出本文方法在召回率和準確率方面均優于文獻[4]和基于HMM垃圾模型關鍵詞的檢測方法。

表3 PPM與HMM關鍵詞檢測結果比較 %

5 結束語

本文給出了一種新的基于PPM的關鍵詞檢測方法,建立語音點過程處理模型,然后經過分段和拼接形成超矢量,通過分類器輸出候選語音段整體詞級得分,最終實現關鍵詞檢測。由于本文方法僅使用了音素后驗概率信息,后續研究中可以將語言知識與本文方法相結合,進一步提高關鍵詞檢測性能。由于音素后驗概率對關鍵詞檢測性能具有決定性作用,因此如何提高音素后驗概率準確率問題亟待解決。本文只使用音素事件建立點過程模型,實際上,可以根據其他語音事件建立多個點過程模型,然后將各個點過程進行融合,建立更為復雜精確的關鍵詞模型。

[1] Lee C H, Juang B H, Soong F K, et al. Word R ecognition Using Whole Word and Sub word Models[C]//Proc. of International Co nference on Acoustics, Speech, a nd Signal Processing. [S. l.]: IEEE Press, 1989: 683-686.

[2] Jansen A, Niyogi P. Point Process Models for Spotting Keywords in Continuous Speech[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2009, 17(8): 1457- 1470.

[3] Rose R C, Paul D B. A Hidden Markov Model Base d Keyword Recognition System[C]//Proc. of International Conference on Acoustics, Sp eech, and Signal P rocessing. [S. l.]: IEEE Press, 1990: 129-132.

[4] 王 勇, 張連海. 基于點過程模型連續語音關鍵詞檢測[J].太赫茲科學與電子信息學報, 2013, (6): 958-963.

[5] Vapnik V N. The Nature o f Statistical Learning T heory[M]. New York, USA: Springer-Verlag, 2000.

[6] 王炳錫, 屈 丹, 彭 煊. 實用語音識別基礎[M]. 北京:國防工業出版社, 2005.

[7] G rezl F. Trap-based Probabilist ic Features for A utomatic Speech Recognition[D]. Brno, Czech: The Brno University of Technology at Czech, 2007.

[8] Schwarz P. Phoneme Recognition Based on Long Temporal Context[D]. Brno, Czech: The Brno University of Technology at Czech, 2008.

[9] 鄧乃揚, 田英杰. 數據挖掘中的新方法:支持向量機[M].北京: 科學出版社, 2004.

[10] 張 翔, 肖小玲, 徐光祐. 基于樣本之間緊密度的模糊支持向量機方法[J]. 軟件學報, 2006, 17(5): 951-958.

[11] Garofolo J S, Lamel L F, Fisher W M, et al. TIMIT Acoustic-phonetic Continuous Speech Corpus[D]. Philadelphia, USA: TIMIT Ac oustic-Phonetic Continuous Spee ch Corpus Linguistic Data Consortium, 1993.

[12] Lee K F. Speaker-indepe ndent Phone Re cognition Using Hidden Markov Models[J]. IEEE Transactions on Acoustics, Speech and Signal Processing, 1989, 37(11): 1641-1648.

[13] Jurafsky D, Martin J M. 自然語言處理綜論[M]. 孫志偉, 孫 樂, 譯. 北京: 電子工業出版社, 2005.

編輯 顧逸斐

Continuous Speech Keyword Detection Based on Word Level Discriminative Point Process Model

WANG Yong, ZHANG Lian-hai

(School of Information System Engineering, PLA Information Engineering University, Zhengzhou 450002, China)

This paper proposes a key word dete ction method ba sed on word lev el Discriminative Point Process Model(DPPM) i n continuous speech. It computes frame-level phone posterior probability using temporal pattern and multilayer perception. DPPM sees point process produced by p hone events of the d uration as a whole. Then input Support Vector Machine(SVM) with super vector formed b y segmenting and jointing the point process representation, so can distinguish whether the point process is produced by the keyword. Due to long range c ontext dependencies, it is reasonable to expect that directly modeling e ntire words may permit a more ac curate and robust decoding of the speech signal. Experimental results show that for speech, the average recall and precision rate of keywords are above 71.5% and 84.6%, and improves significantly with language model.

Point Process Model(PPM); phoneme posterior probability; time mode; keyword detection; Support Vector Machine(SVM); Discriminative Point Process Model(DPPM)

10.3969/j.issn.1000-3428.2014.05.051

王 勇(1987-),男,碩士研究生,主研方向:連續語音關鍵詞檢測;張連海,副教授。

2013-03-05

2013-05-29E-mail:wyong0609@yahoo.cn

1000-3428(2014)05-0247-05

A

TP391

猜你喜歡
檢測模型
一半模型
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
“幾何圖形”檢測題
“角”檢測題
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
小波變換在PCB缺陷檢測中的應用
主站蜘蛛池模板: 99精品在线视频观看| 国产精品欧美在线观看| 久久精品aⅴ无码中文字幕| 国产麻豆永久视频| a级毛片网| 亚洲色精品国产一区二区三区| 国产美女视频黄a视频全免费网站| 国产一级精品毛片基地| 成人在线观看一区| 青草视频久久| 午夜a视频| 国产门事件在线| 亚洲综合精品香蕉久久网| 日本在线免费网站| 国产JIZzJIzz视频全部免费| 日韩东京热无码人妻| 亚洲人成电影在线播放| 国产青榴视频| 国产高清免费午夜在线视频| 欧美精品在线免费| 亚洲三级a| 在线看片免费人成视久网下载| 一本久道久综合久久鬼色| a毛片基地免费大全| 欧美色亚洲| 国产成人成人一区二区| 亚洲欧美不卡中文字幕| 9丨情侣偷在线精品国产| 国内熟女少妇一线天| 国产女同自拍视频| 欧美亚洲一区二区三区导航| 精品人妻一区二区三区蜜桃AⅤ | 成人中文在线| 在线欧美日韩国产| 中文毛片无遮挡播放免费| 亚洲最新地址| 日韩AV手机在线观看蜜芽| 国产成人h在线观看网站站| 特级aaaaaaaaa毛片免费视频| 国产欧美日韩专区发布| www中文字幕在线观看| 国产欧美专区在线观看| 欧美一区精品| 精品国产电影久久九九| 国产十八禁在线观看免费| 久久婷婷国产综合尤物精品| 国产一级精品毛片基地| 久久久国产精品免费视频| 乱码国产乱码精品精在线播放| 无码福利视频| 亚洲成a人在线播放www| 欧美yw精品日本国产精品| 欧美成人二区| 国产精品欧美激情| 国产高清在线观看91精品| 欧美v在线| 亚洲综合欧美在线一区在线播放| 亚洲精品中文字幕午夜| 国产精品视频猛进猛出| 一本色道久久88亚洲综合| 97免费在线观看视频| 91久久精品日日躁夜夜躁欧美| 中文字幕人妻av一区二区| 青青青视频91在线 | 午夜欧美在线| 99久久精品国产综合婷婷| 国产欧美视频在线| 国产第一页免费浮力影院| 免费在线一区| 国产精品理论片| 又爽又黄又无遮挡网站| 91精品久久久久久无码人妻| 伊人欧美在线| 无码精品福利一区二区三区| 999精品视频在线| 91福利免费视频| 国产真实二区一区在线亚洲| 中文字幕av一区二区三区欲色| 99久久免费精品特色大片| 亚洲va在线∨a天堂va欧美va| 亚洲成人黄色网址| 欧美日韩福利|