999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

語音關鍵詞檢測中置信測度方法研究綜述

2014-04-29 00:44:03李海洋韓紀慶鄭貴濱鄭鐵然
智能計算機與應用 2014年2期
關鍵詞:檢測方法模型

李海洋 韓紀慶 鄭貴濱 鄭鐵然

摘 要:語音關鍵詞檢測是指在語音文檔中尋找并定位特定的詞的技術,輸入所需查詢的關鍵詞通常是以文本的形式給出。作為語音文檔分析等技術的核心部分,語音關鍵詞檢測始終是語音處理領域研究的熱點。置信測度計算是關鍵詞檢測技術的重要組成部分,它對確認正確檢出的關鍵詞及拒絕誤識都起到決定性作用,置信測度的優劣對檢測系統性能有著直接的影響。本文介紹并總結了語音關鍵詞檢中測置信測度方法的研究工作,提供了詳盡的參考文獻。

關鍵詞:語音關鍵詞檢測;置信測度;詞表外詞

中圖分類號:TP391 文獻標識碼:A 文章編號:2095-2163(2014)02-

An Overview of Confidence Measure for Spoken Term Detection

LI Haiyang, HAN Jiqing, ZHENG Guibin, ZHENG Tieran

(School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China)

Abstract: Spoken term detection (STD) is the task which aims to locate all occurrences of terms queried by a user in large audio archives, and the terms are usually in the format of text. STD is one of the key components for spoken document analysis, and STD is always a focus in the field of speech processing. Confidence measure is a crucial part of STD, and it plays an important role in rejecting false alarms. The merit of confidence measure can affect the performance of STD directly. This paper introduces and summarizes the research work of confidence measure for STD, and provides with plenty of references.

Key words: Spoken Term Detection; Confidence Measure; Out-of-vocabulary Term

0引 言

近年來,語音識別領域取得了很多成果,但真正要完成一個能夠處理自然語言、同時又不受環境和領域限制的語音識別系統,就現有的技術水平來說是非常困難的。從人類感知的角度來講,要聽懂一段話,并不一定要聽懂每個字和詞。大多數情況下,只要聽懂一些關鍵的詞,比如句子中的實詞,根據這些關鍵詞部分就可以推斷出該段話的語義。這種詞的檢測技術只關注用戶所關心的信息,對其他部分和句子中的語法不作過多的要求。從說話者的角度來講,對關鍵部分的發音通常是完整的和吐字清晰的。因此,從目標語音中檢測詞比識別整個句子的發音要相對容易。所以在人機交互過程中,語音關鍵詞檢測技術比連續語音識別更具有實用價值。上述這些領域都依賴于某種能對相關詞準確檢測的技術,這種技術就是語音關鍵詞檢測技術。

語音關鍵詞檢測(spoken term detection,簡稱STD)是指在語音文檔中尋找并定位特定的詞的技術,輸入所需查詢的關鍵詞通常是以文本的形式給出[1]。語音關鍵詞檢測技術作為語音文檔分析等技術的核心部分,始終是語音處理領域研究的熱點。

由于語音關鍵詞檢測結果中不可避免地存在著大量誤報,即某些被檢測出的候選不是真正的關鍵詞,因而采用有效的置信測度技術對結果進行確認以拒絕誤報就顯得尤為重要。

候選的置信測度是衡量候選可信程度的手段,有效的置信測度應能在檢出正確的關鍵詞時其值盡可能高,而在誤識時其值盡可能低。理想情況下,全部正確檢出關鍵詞的置信測度應該高于所有誤識的置信測度。

語音關鍵詞置信測度有著非常廣泛的應用前景,具體表現在:

(1)置信測度計算是關鍵詞檢測技術的重要組成部分,對確認正確檢出的關鍵詞及拒絕誤識都起到決定性作用,置信測度的優劣對檢測系能有著直接的影響;

(2)置信測度在語音文檔信息檢索領域中扮演重要的角色,可以用于計算文檔與關鍵詞的近似程度;

(3)置信測度在語音文檔主題檢測及分類中也起著重要作用,有效的置信測度可以使得對語音文檔中詞頻估計更為準確,從而整體提升主題檢測及分類的性能。

綜上所述,開展對關鍵詞檢測中置信測度的研究不僅具有重要的理論與應用意義,而且具有深遠的社會效益和經濟效益。

1關鍵詞檢測中置信測度方法的研究工作

通常將關鍵詞檢測按照功能分為詞表內(in-vocabulary,INV)詞檢測和詞表外(out-of-vocabulary,OOV)詞檢測兩個部分。這是由于利用傳統的大詞表連續語音識別(large vocabulary continuous speech recognition,LVCSR)的關鍵詞檢測系統很難解決詞表外詞檢測的問題。這里的詞表就是LVCSR所用的詞表。因此,處理詞表內詞的方法與處理詞表外詞方法著明顯不同。基于不同的語音識別結果表示形式,可以對不同的詞進行檢測。具體檢測的操作是在由目標語音文檔識別結果所建立的索引中,根據用戶給出的關鍵詞進行匹配。匹配操作分為兩種:完全匹配和模糊匹配(soft match)。完全匹配是指在索引中找到的對應內容,可精確地匹配用戶查詢詞,即不允許任何匹配錯誤。模糊匹配是指在索引中找到的對應內容,模糊地匹配于用戶查詢詞,即允許一定限度上的匹配錯誤。對詞表內詞的檢測,通常利用基于詞級識別索引進行完全匹配而實現。對詞表外詞的檢測,通常利用基于子詞級的索引進行模糊匹配完成。接下來,本文將按照詞表內詞與詞表外詞兩個方面,對置信測度的研究現狀進行闡述。

2詞表內詞置信測度

對于詞表內詞的檢測主要使用基于詞的索引和完全匹配策略,以此來計算詞級的置信測度。這類置信度不僅在關鍵詞檢測中起到重要作用,在語音識別后處理中也有廣泛應用[2]。本文盡管主要研究的是關鍵詞檢測中置信測度,但本節依然參考了一定數量的語音識別中的置信測度的研究。基于完全匹配的置信測度大體可以分為6類,即基于特征的置信測度、基于后驗概率(或歸一化)的置信測度、基于假設檢驗的置信測度、基于區分性訓練的置信測度、基于上下文背景及候選間關系的置信測度、基于特征融合的置信測度等。各種分類之間并不是相互獨立的,即一種置信測度方法可以按其特點歸屬于多個類之中。

2.1基于特征的置信測度

基于特征的置信測度將語音識別Viterbi解碼過程中所產生信息作為置信測度依據。這些特征包括聲學似然比[3-4]、音素片段的匹配得分[5]、語言模型信息[5,6]、語言學特征(對元音、附音的統計)[7]、狀態駐留時間長度[8,9]等。Chase比較了各種從Viterbi解碼過程中獲得的特征,包括N-best列表的內容、語言模型得分、詞發音、訓練語料中的詞頻[10]。Kemp與Schaaf使用各種來自Lattice的信息計算置信測度,比如邊的概率和候選密度(某一個位置同一個關鍵詞候選的個數)[11]。針對Lattice中關鍵詞候選相互交疊的情況,除了考慮候選密度,Wang利用貝葉斯和證據理論將同一個關鍵詞所對應的相交疊候選進行置信測度的合并[12],性能較單獨的候選置信測度有明顯提高。盡管針對置信測度已經提出很多種特征,但這類方法也只是從候選自身特征的角度來度量候選的可靠程度。單獨使用這種特征,性能提高的程度非常有限。

2.2基于后驗概率的置信測度

根據貝葉斯決策理論,基于后驗概率的決策可以給出最小化的風險。因此,后驗概率是一種理想的關鍵詞檢測置信測度。根據貝葉斯理論將后驗概率分解為一個比值,即候選似然值與一切可能出現的候選似然值之和的比值。這種處理也相當于候選似然值的一種歸一化,而歸一化過程可以通過背景模型、N-best結果、Lattice來實現。

Rose和Paul[13]以及James[14]都是通過建立并訓練顯式的背景模型來計算后驗概率。除顯式的建立背景模型之外,用所有活動狀態似然值之和也可以歸一化幀級別的似然值[15-16]。Weintraub針對基于LVCSR的關鍵詞檢測,提出了一種基于N-best的置信測度。該方法將所有候選的聲學模型得分進行了累加,并用于歸一化操作[17]。Rueber也通過實驗證明利用N-best歸一化得到的置信測度與檢測的正確性有一定的關系[18]。

隨著Lattice的廣泛使用,基于N-best的置信測度也被Wessel等研究者擴展為面向Lattice的置信測度[19]。這種置信測度稱為基于Lattice后驗概率(lattice based posterior probability,LBPP)的置信測度。LBPP可以表示為一個比值,分子是通過候選所表示有向邊的全部路徑得分之和,分母為Lattice中所有路徑得分之和。每條路徑中既考慮聲學模型得分,也考慮語言模型得分。基于LBPP的置信測度比基于N-best的置信測度性能更好[19]。基于LBPP的置信測度已經廣泛應用于語音關鍵詞檢測之中[20]。通常。基于LBPP的置信測度只使用簡單的n元文法(n-gram)語言模型,而沒有考慮相隔距離較遠的候選間置信測度的關系。

2.3基于假設檢驗的置信測度

另外一條計算置信測度的途徑是假設檢驗,將置信測度問題作為一個假設檢驗問題進行處理。將判斷正確命中與誤識映射到檢驗原假設“檢測結果是關鍵詞”或備擇假設“檢測結果不是關鍵詞”之中。一般這種假設檢驗通過設置原假設和備擇假設間似然比所滿足的閾值來完成。因此,這類方法也稱為基于似然比的置信測度方法。常見的情況是利用背景模型[21]或反詞模型[22]作備擇模型。通過上述分析可知,以上方法依賴于原始聲學模型或備擇模型,聲學模型的質量會影響到這類特征的性能。

2.4基于區分性訓練的置信測度

基于區分性的置信測度是把判斷某關鍵詞候選是命中還是誤識當成一個二值分類問題。

其中,是前面提到的某些置信測度信息作為分類特征。第一種方法是利用貝葉斯框架為正確檢測結果和誤識所對應置信測度的分布各自構建分類條件密度函數[23,24,3]。這種方法需要對置信測度的條件概率分布進行建模,因此這是一種產生式(generative)方法,所帶來的性能改進很有限。

除此之外,可以直接使用區分性模型來直接對候選的分類后驗概率進行估計。多種分類器可用于對候選的分類,包括:人工神經網絡[25]、決策樹[11]、支持向量機(support vector machine,SVM)[26]、Boosting分類器[27]、多層感知機(multiple-layer perceptron,MLP)[28]等。使用分類模型的方法比基于分類條件密度函數的方法在性能上有了一定提高,但也需要一定數量的數據訓練分類器。

另外,也可以使用區分性準則進行參數訓練。Kamppari[29]和Ma[28]等人分別利用線性區分性準則訓練參數,用以計算置信測度。Abdou[30]和Liang[31]等學者通過對音素級似然比線性加權的策略計算詞級置信測度,即不同音素用不同的系數進行加權。參數訓練則采用最小分類錯誤(minimum classifier error,MCE)準則來完成。這種方法獲得了比音素級置信測度取均值更好的效果。然而,該方法所用的訓練準則MCE與傳統關鍵詞檢測的評價準則還是有一定區別。因此用其完成參數訓練,沒有直接達到最優化的效果。為此,Wallace等人以品質因數(figure-of-merit,FOM)作為優化準則[32]訓練參數,來計算關鍵詞候選的置信測度。作為常用的評價標準,FOM可以用來描述關鍵詞檢測的性能。但該標準也只是在ROC曲線上抽取若干個特殊點,利用特殊點的性能估計整體ROC曲線的情況。因此,以FOM作優化準則也只是對優化目標的一種近似的度量。

2.5基于上下文背景及候選間關系的置信測度

近十年來,上下文信息已經廣泛用于語音識別和語音關鍵詞檢測的研究中,并且對語音識別和語音關鍵詞檢測的性能提高發揮了積極的促進作用[33-37]。本文中上下文背景可定義為:在同一語句的識別結果中與當前候選關鍵詞相對應的其他候選關鍵詞組成的集合。基于上下文一致性的置信測度方法核心思想為:當某個候選關鍵詞與其上下文背景的語義表現不一致時,該候選關鍵詞很可能是誤識。為了對這種一致程度做以數學評估,通常使用背景一致度(context consistency)。

背景一致度可以由詞與詞之間語義相似度(measure of semantic similarity)的計算而獲得,且可將其作為一種高級的語言學信息[33,34,37]。語義相似度可以抽取語句中詞與詞之間的共同出現的關系。傳統的n元文法語言模型一般只考慮相鄰距離較近的詞間的關系,而語義相似度則可以考慮相鄰距離更長的詞間的關系。這種語義相似度通常由基于潛在語義分析(latent semantic analysis,LSA)[33]或點互信息(pointwise mutual information,PMI)[34,37]等方法計算得到。

對于某個候選詞w而言,其上下文背景中的每一個詞稱為詞w的背景詞。通常候選詞w的上下文背景一致性由w與其上下文背景詞間的語義相似度的均值得到。該方法假設背景詞在語音識別結果中的發生是確定的事件。然而,這樣的假設是不正確的。因為語音識別結果中某個詞的出現實際上是不確定的[38]。因此,在計算置信測度時有必要考慮上下文背景的不確定性。在文獻[36]中,關鍵詞候選所對應的上下文背景特征向量即用在了背景一致度的計算過程中。在考慮到上下文不確定性的前提下,由基于支持向量機或余弦相似度的方法計算背景一致度。然而,這種方法需要大量詳細標注的語料,包括特別抽取和標注的含有關鍵詞或不含有關鍵詞的語音片段,用于為每一個詞選擇特征向量或者訓練模型。

利用同一個詞對應候選間的相關程度也可以計算置信測度。一種方法是基于偽相關實例及反饋的置信測度[39,40]。首先根據某種置信測度,將若干最可能是正確檢測的候選作為偽相關實例,將若干最可能是誤識的候選作為偽無關實例。之后為每一個候選計算其與偽相關實例和偽無關實例的相關度,相關度可以由聲學相似度或語言學相似度給出。根據相關度和反饋機制,對每一個候選進行重新打分。另一種方法是基于圖和隨機游走的置信測度方法[40]。根據候選間相關度構造有向圖,利用隨機游走所獲得的概率為候選重新打分。實驗證明這兩種方法都是有效的,但目前卻只是應用于詞表內詞的置信測度計算當中。

2.6基于特征融合的置信測度

在利用分類模型計算置信測度過程中,當使用特征多于一種時,可以看做是一種特征融合的方法。除以上提到的融合方法之外,基于線性融合[42]、一般化線性模型(generalised liner model,GLM)[43]、最大熵模型(maximum entropy model)[44]、邊緣化的聯合錯誤估計(marginalization of jointly estimated error cause probabilities)[45]、多重線性回歸(multiple linear regression)[7]、條件隨機場(conditional random fields)[46-47]等方法也應用在置信度融合之中。實驗證明,使用多個特征較相較于使用單一特征會帶來性能改善。

3詞表外詞搜索策略及置信測度

詞表外詞的問題已然成為關鍵詞檢測任務的研究熱點之一,通常的解決方法是使用模糊匹配。語音識別任務中,詞表外詞比例較低,通常在1%至2%左右,其錯誤識別不會影響整體識別性能。但在語音關鍵詞檢測或語音檢索任務中,由于用戶更傾向于搜索不常見的詞或新生的詞,用戶給出的關鍵詞中詞表外詞的比例很高。有統計顯示,文檔中詞表外詞的比例約為1.5%,而用戶查詢詞中詞表外詞的比例高達12%[48]。

關鍵詞檢測系統對于詞表外詞的召回率較低。這是由于詞表外詞無法準確地標注在訓練語言模型的語料中,也無法正常訓練相關的語言模型。因此,語言模型使Viterbi解碼產生詞表外詞候選結果的可能性變小。英語關鍵詞檢測中,如果直接基于LVCSR結果建立索引,會相應導致詞表外詞無法被檢測。在處理英語的詞表外詞過程中,可將詞表外詞表示為與該詞發音相近的詞表內詞或子詞序列[49]。另外,由于英語詞表外詞的讀音多是未知的,通常建立發音模型(letter-to-sound,L2S)對其發音進行描述[49,50],由此也可以處理英語中部分由錯誤發音導致的詞表外詞漏檢問題[51]。詞表外詞的問題對漢語關鍵詞檢測性能的影響也是十分明顯的,通常其召回率較詞表內詞要低至少20%以上。

3.1基于子詞的搜索

對于詞表外詞的問題,一種解決方案是使用基于子詞的索引進行檢測,將查詢詞表示為子詞序列的形式進行搜索。子詞包括音素[52,53]、音節[54]、詞片[55]等。與英語不同,漢語詞表外詞可以通過基于子詞的方法來處理。漢語是基于漢字的,每個漢字對應一個音節,音節可以直接用作漢語的子詞基元。因此,可以為關鍵詞檢測建立基于音節的索引結構。如果用戶給出的關鍵詞中包含詞表外詞,可將其表示成對應漢字的音節序列的形式。對詞表外詞的檢測、其后轉化為在基于音節的索引中搜索音節序列的過程,由此即可完成對詞表外詞的檢測。然而,在Viterbi解碼過程中,子詞序列相對詞要經歷更多的剪枝操作,這就使得在識別結果中出現詞表外詞對應音節序列的可能性大大減小[56,57]。這樣,如果在搜索子詞串的過程中只使用完全匹配,盡管理論上能夠使漢語詞表外詞得到檢測,但召回率較詞表內詞卻要低很多。

3.2模糊匹配

在詞表外詞檢測過程中,基于模糊匹配的方法可用以處理識別器產生的識別錯誤對召回率的影響。該方法基本思想是在搜索過程中允許關鍵詞與目標語音對應識別結果間存在一定程度的不匹配。基于模糊匹配的搜索可以通過序列動態規劃算法實現[56,58,59]。對于序列動態規劃算法,子詞Lattice[56,58]和后綴數組(suffix array)[59]等索引結構已經應用于搜索過程中。但是,序列動態規劃算法在關鍵詞檢測的在線階段執行,且比較費時,從而導致在線搜索時間較長。為了減少搜索時間,可以直接在離線階段使用模糊匹配策略進行索引的擴展[54]。索引的擴展是將與索引中內容易混淆的片段也加入到索引當中。文獻[54]中,識別結果將擴展為一個基于n元文法數組且考慮距離度量的索引結構,包括替代、插入、刪除等不匹配的情況都會加入到索引之中,成為索引的一部分。在線過程只要在已擴展的索引中對查詢詞進行完全匹配即可。但是,這種索引擴展方法使索引規模變大,因而需要更多的存儲空間。另一方面,索引擴展很難應用在基于Lattice等識別結果的索引當中。關鍵詞擴展是另一種利用模糊匹配解決詞表外詞問題的方法,該方法在離線階段對關鍵詞而不是索引進行擴展[49,50]。關鍵詞擴展的基本思想,是為關鍵詞制定多種搜索模式,這樣識別器產生的錯誤即能夠顯式地得以呈現。關鍵詞擴展還會將哪些與所需要查詢的詞發音相似的詞或子詞序列也加入到查詢請求中。搜索階段,在索引中通過完全匹配搜索擴展后的關鍵詞即可實現詞表外詞的檢測。該方法對索引并無過多的要求,一般關鍵詞檢測所用索引即可滿足要求。這些英語中查詢詞擴展方法很難使用在漢語、日語等以音節為基元的語言中。因為在漢語的語音識別中音節的插入、刪除錯誤會經常發生,傳統方法很難將這些錯誤考慮進來。

在模糊匹配的過程中,為了度量子詞間的不匹配程度,通常在進行搜索和擴展之前給出子詞間的不匹配懲罰。一個簡單的方法是利用子詞串間的編輯距離,懲罰的權值由經驗給出[56,60],不匹配程度通過累計要查詢的關鍵詞與目標詞之間三種錯誤(替代、插入、刪除錯誤)的代價獲得。一般由經驗給出各種錯誤代價根據,往往是不平滑的,即對不同音節相應錯誤的懲罰是一樣的,沒有區分性。同時也很難按經驗給出合適的對應不同音節和不同錯誤的懲罰權值。另一種估計不匹配懲罰的方法是基于語音識別錯誤統計的方法。該法是用三種錯誤對應錯誤率作為不匹配懲罰[58,61,62]。但是,該方法需要大量語音識別結果以及對應標注語料,用來統計不同音節的錯誤率。第三種方法利用子詞聲學模型間的距離或差異程度來衡量不匹配懲罰[63,64]。基于模型間差異的方法很難對插入或刪除錯誤產生的不匹配進行懲罰估計,對于不同長度的隱馬爾科夫模型(hidden Markov model,HMM)間的距離或差異也仍未見有效的方法進行度量。

3.3詞表外詞檢測的置信測度

由于詞表外詞檢測的問題很難通過完全匹配來完成,2.2節中介紹的方法基本不能用于對詞表外詞的候選進行置信測度的計算。對于模糊匹配,其置信測度一般根據模糊匹配過程中不匹配程度來計算[54,56,64]。但這種置信測度只能間接地度量候選的可信程度,即不匹配程度只能度量識別結果與關鍵詞間的相關程度,不能直接度量候選片段與關鍵詞間的相關程度。

4結束語

目前,語音關鍵詞檢測領域的研究已經引起了越來越多的關注,而置信測度方法是其中的重要研究內容。對此,國內外研究者已經展開了細致與深入的研究。本文歸納并總結了關鍵詞檢測置信測度方法,希望借此能推動置信測度方法的進一步深入研究。

參考文獻:

[1] National Institute of Standards and Technology (NIST). The spoken term detection (STD) 2006 evaluation plan[J]. http://www.nist.gov/speech/tests/std, 2006. 10 edition.

[2] J IANG H. Confidence measures for speech recognition: a survey[J]. Speech Communication, 2005, 45(4):455–470.

[3] COX S, ROSE R. Confidence measures for the SWITCHBOARD database[C]//ICASSP. Atlanta, Georgia, USA: IEEE, 1996, 1:511–514.

[4] BERGEN Z, WARD W. A senone based confidence measure for speech recognition[C]//Proc. Eurospeech. Rhodes, Greece: ISCA, 1997:819–822.

[5] MANOS A, ZUE V. A segment-based wordspotter using phonetic filler models[C]//Proc. of ICASSP. Munich, Bavaria, Germany: IEEE, 1997, 2:899–902.

[6] UHRIK C, WARD W. Confidence metrics based on N-gram language model backoff behaviors[C]//Proc. Eurospeech. Rhodes, Greece: ISCA, 1997:2771–2774.

[7] TEJEDOR J, TOLEDANO D T, BAUTISTA M, et al. Augmented set of features for confidence estimation in spoken term detection[C]//Proc. of Interspeech. Chiba, Japan: ISCA, 2010:701–704.

[8] GORONZY S, MARASEK K, HAAG A, et al. Phone duration based confidence measures for embedded applications[C]//Proc. ICSLP. Beijing, China: ISCA, 2000, 4:500–503.

[9] SCANZIO S, LAFACE P, COLIBRO D, et al. Word confidence using duration models[C]//Proc. Interspeech. Brighton, United Kingdom: ISCA, 2009:1207–1210.

[10] CHASE L. Word and acoustic confidence annotation for large vocabulary speech recognition[C]//Proc. of Eurospeech. Rhodes, Greece: ISCA, 1997:815–818.

[11] KEMP T, SCHAAF T. Estimating confidence using Word lattices[C]//Proc. Eurospeech. Rhodes, Greece: ISCA, 1997:827–830.

[12]WANG D, EVANS N, TRONCY R, et al. Handling overlaps in spoken term detection[C]//Proc. of ICASSP. Prague, Czech Republic: IEEE, 2011:5656–5659.

[13]ROSE R C, PAUL D B. A hidden Markov model based keyword recognition system[C]//Proc. of ICASSP. Albuquerque, NM, USA: IEEE, 1990, 1:129–132.

[14] JAMES D A. A system for unrestricted topic retrieval from radio news broadcasts[C]//Proc. of ICASSP. Atlanta, Georgia, USA: IEEE, 1996, 1:279–282.

[15] ROHLICEK J R, RUSSELL W, ROUKOS S, et al. Continuous hidden Markov modelingfor speaker-independent word spotting[C]//Proc. of ICASSP. Glasgow, UK: IEEE,1989, 1:627–630.

[16] JEANRENAUD P, NG K, SIU M, et al. Phonetic-based word spotter: various configurations and application to event spotting[C]//Proc. of Eurospeech. Berlin, Germany: IEEE, 1993,1:1057–1060.

[17] WEINTRAUB M. LVCSR log-likelihood ratio scoring for keyword spotting[C]//Proc. of ICASSP. Detroit, Michigan, USA: IEEE, 1995, 1:297–300.

[18] RUEBER B. Obtaining confidence measures from sentence probabilities[C]//Proc. of Eurospeech. Rhodes, Greece: ISCA, 1997:739–742.

[19] WESSEL F, SCHLUTER R, MACHEREY K, et al. Confidence measures for large vocabulary continuous speech recognition[J]. IEEE Transaction on Speech and Audio Processing, 2001, 9(3):288–298.

[20] SZOKE I, SCHWARZ P, MATEJKA P, et al. Comparison of keyword spotting approaches for informal continuous speech[C]//Proc. of Interspeech. Lisbon, Portugal: ISCA,2005:633–636.

[21] TAN B T, GU Y, THOMAS T. Word level confidence measures using N-best sub hypotheses likelihood ratio[C]//Proc. of Interspeech. Aalborg, Denmark: ISCA, 2001:2565–2568.

[22] GISH H, NG K, ROHLICEK J R. Secondary processing using speech segments for an HMM word spotting system[C]//Proc. of ICSLP. Banff, Canada: ISCA, 1992:17– 20.

[23] YOUNG S R. Detecting misrecognitions and out-of-vocabulary words[C]//Proc. of ICASSP. Adelaide, SA, Australia: IEEE, 1994, 2:21–24.

[24] JEANRENAUD P, SIU M, GISH H. Large vocabulary word scoring as a basis for transcription generation[C]//Proc. of Eurospeech. Madrid, Spain: ISCA, 1995:2149–2152.

[25] WEINTRAUB M, BEAUFAYS F, RIVLIN Z, et al. Neural-network Based Measures of Confidence for Word Recognition[C]//Proc. of ICASSP. Munich, Bavaria, Germany: IEEE, 1997, 2:887–890.

[26] SUDOH K, TSUKADA H, ISOZAKI H. Discriminative named entity recognition of speech data using speech recognition confidence[C]//Proc. of ICSLP. Pittsburgh, USA: ISCA, 2006:1153–1156.

[27] MORENO P, LOGAN B, RAJ B. A Boosting approach for confidence scoring[C]//Proc. of Eurospeech. Aalborg, Denmark: ISCA, 2001:2109–2112.

[28] MA C, LEE C H. A study on Word detector design and knowledge based pruning and rescoring[C]//Proc. of Interspeech. Antwerp, Belgium: ISCA, 2007, 3:1473–1476.

[29] KAMPPARI S O, HAZEN T J. Word and phone level acoustic confidence scoring[C]//Proc. of ICASSP. Istanbul, Turkey: IEEE, 2000, 3:1799–1802.

[30] ABDOU S, SCORDILIS M. Beam search pruning in speech recognition using a posterior probability-based confidence measure[J]. Speech Communication, 2004, 42:409–428.

[31] LIANG J, MENG M, WANG X, et al. An improved Mandarin keyword spotting system using MCE and context-enhanced verification[C]//Proc. of ICASSP. Toulouse, France: IEEE, 2006, 1:1145–1148.

[32] WALLACE R, VOGT R, BAKER B, et al. Optimising figure of merit for phonetic spoken term detection[C]//Proc. of ICASSP. Dallas, USA: IEEE, 2010:5298–5301.

[33] COX S, DASMAHAPATRA S. High-level approaches to confidence estimation in speech recognition[J]. IEEE Transactions on Speech and Audio Processing, 2002, 10(7):406–417.

[34] GUO G, HUANG C, JIANG H, et al. A comparative study on various confidence measures in large vocabulary speech recognition[C]//Proc. of ICASSP. Montreal, Quebec, Canada: IEEE, 2004:9–12.

[35] SCHNEIDER D, MERTENS T, LARSON M, et al. Contextual verification for open vocabulary spoken Term Detection[C]//Proc. of Interspeech. Makuhari, Chiba, Japan: ISCA, 2010:697–700.

[36]LEE H Y, TU T W, CHEN C P, et al. Improved spoken term detection using support vector machines based on lattice context consistency[C]//Proc. of ICASSP. Prague, Czech Republic: IEEE, 2011:5648–5651.

[37] ASAMI T, NOMOTO N, KOBASHIKAWA S, et al. Spoken document confidence estimation using contextual coherence[C]//Proc. of Interspeech. Florence, Italy: ISCA, 2011:1961–1964.

[38] CHELBA C, HAZEN T J, SARACLAR M. Retrieval and browsing of spoken content[J]. IEEE Signal Processing Magazine, 2008, 25(3):39–49.

[39] LEE H Y, CHEN C P, LEE L S. Integrating recognition and retrieval With relevance feedback for spoken term detection[J]. IEEE Transactions on Audio, Speech and Language Processing, 2012, 20(7):2095–2110.

[40] LEE H Y, LEE L S. Enhanced spoken term detection using Support Vector Machines and weighted pseudo examples[J]. IEEE Transactions on Audio, Speech and Language Processing, 2013, 21(6):1272–1284.

[41] CHEN Y N, CHEN C P, LEE H Y, et al. Improved spoken term detection with graph-based re-ranking in feature space[C]//Proc. of ICASSP. Prague, Czech Republic: IEEE, 2011:5644–5647.

[42] MA Z, WANG X, XU B. Fusing multiple confidence measures for Chinese spoken term detection[C]//Proc. of Interspeech. Florence, Italy: ISCA, 2011:1925–1928.

[43] GILLICK L, ITO Y, YOUNG J. A probabilistic approach to confidence estimation and evaluation[C]//Proc. of ICASSP. Munich, Bavaria, Germany: IEEE, 1997, 2:879–882.

[44] YU D, WANG S, LI J, et al. Word confidence calibration using a Maximum Entropy Model with constraints on confidence and Word distributions[C]//Proc. of ICASSP. Dallas, USA: IEEE, 2010:4446–4448.

[45] OGAWA A, NAKAMURA A. A novel confidence measure based on marginalization of jointly estimated error cause probabilities[C]//Proc. of Interspeech. Chiba, Japan: ISCA, 2010:242–245.

[46] OU Z, LUO H. CRF-based confidence measures of recognized candidates for lattice based audio indexing[C]//Proc. of ICASSP. Kyoto, Japan: IEEE, 2012:4933–4936.

[47] SEIGEL M, WOODLAND P, GALES M. A confidence-based approach for improving keyword hypothesis scores[C]//Proc. of ICASSP. Vancouver, Canada: IEEE, 2013:8565–8569.

[48] LOGAN B, MORENO P, THONG JMV, et al. An experimental study of an Audio indexing system for the Web[C]//Proc. of ICSLP. Beijing, China: ISCA, 2000:676–679.

[49] LOGAN B, THONG J V, MORENO P J. Approaches to reduce the effects of OOV queries on indexed spoken audio[J]. IEEE Transactions on Multimedia, 2005, 7(5):899–906.

[50] CAN D, COOPER E, SETHY A, et al. Effect of pronunciations on OOV queries in spoken term detection[C]//Proc. of ICASSP. Taipei, Taiwan: IEEE, 2009:3957–3960.

[51] WANG D, KING S, FRANKEL J. Stochastic pronunciation modeling for out-of-vocabulary spoken term detection[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2011, 19(4):688–698.

[52] DHARANIPRAGADA S, ROUKOS S. A multistage algorithm for spotting new words in speech[J]. IEEE Transactions on Speech Audio Processing, 2002, 10(8):542–550.

[53] QIN L, SUN M, RUDNICKY A. OOV detection and recovery using hybrid models with different fragments[C]//Proc. of Interspeech. Florence, Italy: ISCA, 2011:1913–1916.

[54] IWAMI K, FUJII Y, YAMAMOTO K, et al. Efficient out-of-vocabulary term detectionby N-gram array indices with distance from a syllable lattice[C]//Proc. of ICASSP. Prague, Czech Republic: IEEE, 2011:5664–5667.

[55] SEIDE F, YU P, MA C, et al. Vocabulary-independent Search in Spontaneous Speech[C]//Proc. of ICASSP. Montreal, Quebec, Canada: IEEE, 2004, 1:253–256.

[56] THAMBIRATNAM K, SRIDHARAN S. Dynamic match phone-lattice searches For very fast and accurate unrestricted vocabulary keyword spotting[C]//Proc. of ICASSP. Philadelphia, Pennsylvania, USA: IEEE, 2005, 1:465–468.

[57] 孟莎, 劉加. 漢語語音檢索的集外詞問題與兩階段檢索方法[J]. 中文信息學報, 2009, 23(6):91–97.

[58] AUDHKHASI K, VERMA A. Keyword search using modified minimum edit distance measure[C]//Proc. of ICASSP. Honolulu, Hawaii, USA: IEEE, 2007, 4:929–932.

[59] KATSURADA K, TESHIMA S, NITTA T. Fast keyword detection using suffix array[C]//Proc. of Interspeech. Brighton, United Kingdom: ISCA, 2009:2147–2150.

[60] MAMOU J, MASS Y, RAMABHADRAN B, et al. Combination of multiple speech transcription methods for vocabulary independent search[C]//Workshop Search in Spontaneous Conversational Speech (SIGIR-SSCS). Singapore: ACM, 2008.

[61] CHAUDHARI U, KUO H K J, KINGSBURY B. Discriminative graph training for ultrafast low-footprint speech indexing[C]//Proc. of Interspeech. Brisbane, Australia: ISCA, 2008:2175–2178.

[62] WALLACE R, VOGT R, SRIDHARAN S. Spoken term detection using fast phonetic decoding[ C]//Proc. of ICASSP. Taipei, Taiwan: IEEE, 2009:4881–4884.

[63] ITOH Y, T. OTAKE K I, KOJIMA K, et al. Two-stage vocabulary-free spoken document retrieval-subword identification and re-recognition of the identified sections[C]//Proc. of ICSLP. Pittsburgh, Pennsylvania: ISCA, 2006:1161–1164.

[64] IWATA K, SHINODA K, FURUI S. Robust spoken term detection using combination of phone-based and word-based recognition[C]//Proc. of Interspeech. Brisbane, Australia: ISCA, 2008:2195–2198.

猜你喜歡
檢測方法模型
一半模型
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
小波變換在PCB缺陷檢測中的應用
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 亚洲成aⅴ人片在线影院八| 国产精品手机在线观看你懂的| 国产一级在线观看www色 | 国产麻豆福利av在线播放| 国产jizz| 玖玖精品视频在线观看| 99精品国产高清一区二区| 国产精品手机在线播放| 国产福利微拍精品一区二区| 国产va在线观看免费| 中文字幕自拍偷拍| 亚洲男人天堂2018| 亚洲av无码专区久久蜜芽| 午夜福利网址| 制服丝袜 91视频| 真人高潮娇喘嗯啊在线观看| 国产欧美日韩在线一区| 一区二区无码在线视频| www中文字幕在线观看| 伦精品一区二区三区视频| 少妇高潮惨叫久久久久久| 国产精品lululu在线观看| 精品夜恋影院亚洲欧洲| 在线观看亚洲天堂| 亚洲午夜18| 国产欧美网站| 日本亚洲最大的色成网站www| 99视频精品在线观看| 波多野结衣视频网站| 无码中文字幕乱码免费2| 国产乱人伦精品一区二区| 天天摸天天操免费播放小视频| 久久a毛片| 在线日本国产成人免费的| 成人国产精品一级毛片天堂 | 亚洲精品777| 亚洲一级毛片在线观| 在线a视频免费观看| 国模极品一区二区三区| 嫩草国产在线| 日韩福利视频导航| 国产视频久久久久| 男女男精品视频| 国产人人乐人人爱| 亚洲一区二区三区香蕉| 亚洲人成网站日本片| 免费人成视频在线观看网站| 亚洲最新地址| 香蕉国产精品视频| 色老二精品视频在线观看| 精品久久久久久久久久久| 九九热在线视频| 日韩在线1| 尤物精品国产福利网站| 亚洲精品在线影院| 午夜三级在线| 色综合热无码热国产| a毛片在线播放| a亚洲天堂| 91成人精品视频| 国产亚洲一区二区三区在线| 欧美精品v日韩精品v国产精品| 人妻中文字幕无码久久一区| 免费av一区二区三区在线| 欧美视频在线不卡| 国产精品极品美女自在线网站| 国产精品久线在线观看| 国内精品久久久久久久久久影视| 日韩乱码免费一区二区三区| 日本久久网站| 国产大片喷水在线在线视频| 色窝窝免费一区二区三区| 亚洲天堂久久| 四虎永久免费地址| 激情视频综合网| 国产成人久视频免费 | 91娇喘视频| 波多野结衣一区二区三区四区| 91色在线观看| 欧美精品在线看| 婷婷色婷婷| 国产一在线观看|