摘 要:語(yǔ)音識(shí)別是將音頻數(shù)據(jù)轉(zhuǎn)換成文本或者其他形式的計(jì)算機(jī)可以處理的信息。這里簡(jiǎn)單介紹語(yǔ)音識(shí)別技術(shù)的發(fā)展歷史和現(xiàn)狀,闡述了典型語(yǔ)音識(shí)別系統(tǒng)的基本原理,對(duì)語(yǔ)音識(shí)別的基本方法和識(shí)別過(guò)程進(jìn)行深入分析,探討語(yǔ)音識(shí)別技術(shù)發(fā)展過(guò)程中的難點(diǎn)問(wèn)題,給出了相應(yīng)對(duì)策。
關(guān)鍵詞:語(yǔ)音識(shí)別; 音頻數(shù)據(jù);典型的語(yǔ)音識(shí)別系統(tǒng); 特征參數(shù)
中圖分類號(hào):TP391.42文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1004-373X(2010)08-0138-03
Research on Speech Recognition Technology
LI Hong-mei, WU Xiao-qin
(Hainan University, Haikou 570228, China)
Abstract:The speech recognition is a technology which transfers the audio datainto the text or other information form convenient to be disposed bycomputer.The history and situation of development of the speech recognition technology is introduced. The principle of a typical speech recognition system is elaborated.The difficulties existing during the development of the speech recognition technologyare discussed and the solutions are given. The method and process of the speech recognition are analysed.
Keywords:speech recognition; audio data; typical speech recognition system; characteristic parameter
0 引 言
語(yǔ)言是人類獲取信息的主要來(lái)源之一,是人類與外界交流信息最方便、最有效、最自然的工具,隨著計(jì)算機(jī)技術(shù)的快速發(fā)展,語(yǔ)音技術(shù)的研究也越來(lái)越受到重視。人類對(duì)語(yǔ)音的研究主要包括語(yǔ)音編碼、語(yǔ)音合成、語(yǔ)音識(shí)別和說(shuō)話人辨識(shí)等幾個(gè)方面。
語(yǔ)音識(shí)別以語(yǔ)音為研究對(duì)象,它是語(yǔ)音信號(hào)處理的一個(gè)重要研究方向,是模式識(shí)別的一個(gè)分支,設(shè)計(jì)到語(yǔ)言學(xué)、生理學(xué)、心理學(xué)、計(jì)算機(jī)科學(xué)以及信號(hào)處理等學(xué)科。語(yǔ)音識(shí)別的目的是為了使機(jī)器能夠準(zhǔn)確地聽出人的語(yǔ)音及其內(nèi)容,以便控制其他設(shè)備來(lái)滿足人類的各種需要,它是發(fā)展人機(jī)有聲通信和新一代智能計(jì)算機(jī)的重要組成部分。
1 概 述
語(yǔ)音識(shí)別[1-2]研究工作可以追溯到20世紀(jì)50年代ATT貝爾實(shí)驗(yàn)室的Audry系統(tǒng),它是第一個(gè)可以識(shí)別英文數(shù)字的語(yǔ)音識(shí)別系統(tǒng)。但真正取得實(shí)質(zhì)性進(jìn)展,并將其作為一個(gè)重要的課題開展研究則是在20世紀(jì)60年代末70年代初。這是因?yàn)橛?jì)算機(jī)的發(fā)展為語(yǔ)音識(shí)別的實(shí)現(xiàn)提供了硬件和軟件的可能,更重要的是語(yǔ)言信號(hào)線性預(yù)測(cè)編碼(LPC)技術(shù)和動(dòng)態(tài)時(shí)間規(guī)整(DTW)技術(shù)的提出,有效地解決了語(yǔ)言信號(hào)的特征和不等長(zhǎng)匹配問(wèn)題。
實(shí)驗(yàn)室語(yǔ)音識(shí)別研究的巨大突破產(chǎn)生于20世紀(jì)80代末。人們終于在實(shí)驗(yàn)室突破了大詞匯量、連續(xù)語(yǔ)音和非特定人這三大障礙,第一次把這三個(gè)特征都集成在一個(gè)系統(tǒng)中,比較典型的是卡耐基美隆大學(xué)的Sphinx系統(tǒng)。
20世紀(jì)90年代前期,許多著名的大公司如IBM、蘋果、ATT和NTT都對(duì)語(yǔ)音識(shí)別系統(tǒng)的實(shí)用化研究投以巨資。我國(guó)的語(yǔ)音識(shí)別研究的起步比先進(jìn)國(guó)家晚一點(diǎn),但是進(jìn)步很快,成果突出。
2 語(yǔ)音識(shí)別系統(tǒng)原理
語(yǔ)音識(shí)別系統(tǒng)大體上可以劃分為:孤立語(yǔ)音和連續(xù)語(yǔ)音識(shí)別系統(tǒng)、大詞匯量和小詞匯量語(yǔ)音識(shí)別系統(tǒng)、特定人和非特定人語(yǔ)音識(shí)別系統(tǒng)。
不同的語(yǔ)音識(shí)別系統(tǒng),盡管設(shè)計(jì)和實(shí)現(xiàn)細(xì)節(jié)不同,但所采用的基本技術(shù)是相似的。一個(gè)典型的語(yǔ)音識(shí)別系統(tǒng)基本原理框圖如圖1所示。
圖1 典型的語(yǔ)音識(shí)別系統(tǒng)基本原理框圖
從圖1可看出,語(yǔ)音識(shí)別系統(tǒng)包括預(yù)處理、特征提取、模型的訓(xùn)練和匹配、后處理等幾個(gè)部分。下面分別介紹這幾個(gè)部分。
2.1 預(yù)處理
預(yù)處理對(duì)輸入的原始語(yǔ)音信號(hào)進(jìn)行處理,濾除其中不必要的信息及噪聲等,并進(jìn)行語(yǔ)音信號(hào)的端點(diǎn)檢測(cè),即判定語(yǔ)音有效范圍的開始和結(jié)束位置,并進(jìn)行語(yǔ)音分幀和預(yù)加重處理等工作[3]。
2.2 特征參數(shù)提取技術(shù)
特征提取負(fù)責(zé)計(jì)算語(yǔ)音聲學(xué)參數(shù),提取出反映信號(hào)特征的關(guān)鍵特征參數(shù)。特征參數(shù)的提取是關(guān)系到語(yǔ)音識(shí)別系統(tǒng)性能好壞的一個(gè)關(guān)鍵技術(shù),合理地選擇特征參數(shù)不僅對(duì)系統(tǒng)的識(shí)別率有很大的提高,同時(shí)對(duì)系統(tǒng)的實(shí)時(shí)性能也至關(guān)重要[4]。
特征提取的目的是對(duì)原始語(yǔ)音信號(hào)進(jìn)行處理,計(jì)算語(yǔ)音信號(hào)對(duì)應(yīng)的特征參數(shù),主要包括以下幾個(gè)步驟:
(1) 采樣與量化。
首先將模擬語(yǔ)音信號(hào)s(t)以采樣周期T采樣,將其離散化為S(n)。采樣周期的選取應(yīng)根據(jù)模擬語(yǔ)音信號(hào)的帶寬(根據(jù)奈奎斯特采樣定理確定),以避免信號(hào)的頻域混疊失真。對(duì)離散后的語(yǔ)音信號(hào)進(jìn)行量化處理過(guò)程中會(huì)帶來(lái)一定的量化噪聲和失真。
(2) 預(yù)加重處理。
對(duì)輸入的原始語(yǔ)音信號(hào)進(jìn)行預(yù)加重,其目的是為了對(duì)語(yǔ)音的高頻部分進(jìn)行加重,增加語(yǔ)音的高頻分辨率。一般通過(guò)一個(gè)傳遞函數(shù)為H(z)=1-αz-1的濾波器對(duì)其加以濾波。其中:α為預(yù)加重系數(shù)且0.9<α<1.0。設(shè)n時(shí)刻的語(yǔ)音采樣值為x(n),經(jīng)過(guò)預(yù)加重處理后的結(jié)果為:
y(n)=x(n)-αx(n-1), 0.9<α<1.0
(3) 分幀與加窗。
語(yǔ)音具有短時(shí)平穩(wěn)的特點(diǎn),通過(guò)對(duì)語(yǔ)音進(jìn)行分幀操作后,可以提取其短時(shí)特性,從而便于模型的建立。然后將每幀信號(hào)用某種窗相乘,以減少幀起始和結(jié)束處的信號(hào)不連續(xù)性。常用的加窗函數(shù)有漢明窗和漢寧窗。
(4) 特征參數(shù)計(jì)算。
實(shí)踐證明有效的特征參數(shù)有線性預(yù)測(cè)編碼(LPC)系數(shù),線性預(yù)測(cè)編碼倒譜(LPCC)系數(shù)和Mel頻率倒譜系數(shù)(MFCC)。
2.3 聲學(xué)模型與模式匹配
語(yǔ)音識(shí)別系統(tǒng)的第二級(jí)是建立聲學(xué)模型與模型匹配。首先通過(guò)學(xué)習(xí)算法,將訓(xùn)練語(yǔ)音的特征通過(guò)學(xué)習(xí)過(guò)程形成聲學(xué)模型。聲學(xué)模型是語(yǔ)音識(shí)別系統(tǒng)中最底層的模型并且也是識(shí)別系統(tǒng)最關(guān)鍵的一部分。聲學(xué)模型的目的是提供一種有效的方法計(jì)算語(yǔ)音的特征矢量系列與每個(gè)發(fā)音模板的距離。因?yàn)榘l(fā)音在每個(gè)時(shí)刻都受到其前后發(fā)音的影響,為了模仿自然連續(xù)語(yǔ)音中的協(xié)同發(fā)音的作用和鑒別這些協(xié)同發(fā)音,通常要使用復(fù)雜的聲學(xué)模型。聲學(xué)模型單元的大小(字發(fā)音模型、半發(fā)音模型或音素模型)對(duì)語(yǔ)音訓(xùn)練數(shù)據(jù)量大小、系統(tǒng)識(shí)別率、以及靈活性有較大的影響。對(duì)于大詞匯量語(yǔ)音識(shí)別系統(tǒng),通常識(shí)別單元小,則計(jì)算量也小,所需的模型存儲(chǔ)量也小,但帶來(lái)的問(wèn)題是對(duì)應(yīng)語(yǔ)音段的定位和分割較困難,識(shí)別模型規(guī)則也變得復(fù)雜。通常大的識(shí)別單元在模型中應(yīng)包括協(xié)同發(fā)音(指的是一個(gè)音受前后相鄰音的影響而發(fā)生變化,從發(fā)聲機(jī)理上看就是人的發(fā)聲器官在一個(gè)音轉(zhuǎn)向另一個(gè)音時(shí)其特性只能漸變,從而使得后一個(gè)音的頻譜與其他條件下的頻譜產(chǎn)生差異),這有利于提高系統(tǒng)的識(shí)別率,但要求的訓(xùn)練數(shù)據(jù)相對(duì)增加。近幾十年比較成功的識(shí)別方法有:動(dòng)態(tài)時(shí)間規(guī)整(DTW)技術(shù)、隱式馬爾可夫模型(HMM)、人工神經(jīng)網(wǎng)絡(luò)(ANN)。
(1) 動(dòng)態(tài)時(shí)間規(guī)整(DTW)技術(shù)[5,6]。
由于在訓(xùn)練或識(shí)別過(guò)程中,即使同一個(gè)人發(fā)同一個(gè)音時(shí),不僅其持續(xù)時(shí)間長(zhǎng)度會(huì)隨機(jī)地改變,而且各音素的相對(duì)時(shí)長(zhǎng)也是隨機(jī)變化的。因此在匹配時(shí)如果只對(duì)特征向量系列進(jìn)行線性時(shí)間規(guī)整,其中的音素就有可能對(duì)不準(zhǔn)。20世紀(jì)60年代日本學(xué)者板倉(cāng)提出了動(dòng)態(tài)時(shí)間規(guī)整算法。算法的思想就是把未知量均勻地伸長(zhǎng)或縮短,直到它與參考模式的長(zhǎng)度一致時(shí)為止。在時(shí)間規(guī)整過(guò)程中,未知單詞的時(shí)間軸要不均勻地扭曲或彎折,以便使其特征與模型特征對(duì)正,DTW的具體實(shí)現(xiàn)方法是采用動(dòng)態(tài)規(guī)劃技術(shù)(DP),方法簡(jiǎn)單有效,對(duì)小詞表孤立詞別系統(tǒng)非常有效。
(2) 隱式馬爾可夫模型(HMM)[7]。
隱式馬爾可夫模型(HMM)是20世紀(jì)80年代引入語(yǔ)音識(shí)別的理論,其出現(xiàn)使自然語(yǔ)音識(shí)別系統(tǒng)取得了實(shí)質(zhì)性的突破。HMM方法現(xiàn)已成為語(yǔ)音識(shí)別的主流技術(shù),目前大多數(shù)成功的連續(xù)語(yǔ)音識(shí)別系統(tǒng)都是采用這種方法。HMM是對(duì)語(yǔ)音信號(hào)的時(shí)間系列結(jié)構(gòu)建立統(tǒng)計(jì)模型,將其看作一個(gè)數(shù)學(xué)上的雙重隨機(jī)過(guò)程,一個(gè)是用具有有限狀態(tài)的Markov鏈來(lái)模擬語(yǔ)言信號(hào)統(tǒng)計(jì)特征變化的隱含的隨機(jī)過(guò)程,前者通過(guò)后者表現(xiàn)出來(lái),但前者的具體參數(shù)(如狀態(tài)數(shù))是不可觀測(cè)的。
人的言語(yǔ)過(guò)程實(shí)際上就是一個(gè)雙重隨機(jī)過(guò)程,語(yǔ)音信號(hào)本身是一個(gè)可觀測(cè)的時(shí)變系列,是由大腦根據(jù)語(yǔ)法知識(shí)和言語(yǔ)需要(不可觀測(cè)的狀態(tài))發(fā)出的音素的參數(shù)流。HMM合理地模仿了這一過(guò)程,很好地描述了語(yǔ)音信號(hào)的整體非平穩(wěn)性和局部平穩(wěn)性。
(3) 人工神經(jīng)網(wǎng)絡(luò)(ANN)[2]。
ANN是采用大量的簡(jiǎn)單處理單元廣泛地連接起來(lái)構(gòu)成的一種復(fù)雜的信息處理網(wǎng)絡(luò),其中處理單元及其相互連接模式借鑒人腦神經(jīng)元的結(jié)構(gòu)及連接機(jī)制設(shè)計(jì)的。這種網(wǎng)絡(luò)具有與人腦相似的學(xué)習(xí)記憶能力,知識(shí)概括和輸入信息特征抽取能力。其本質(zhì)上是一個(gè)自適應(yīng)非線性動(dòng)力學(xué)系統(tǒng),模擬了人類神經(jīng)元活動(dòng)的原理,具有自適應(yīng)性、并行性、魯棒性、容錯(cuò)性和學(xué)習(xí)特性。目前語(yǔ)音識(shí)別神經(jīng)網(wǎng)絡(luò)主要有多層感知器網(wǎng),Kohonen自主織神經(jīng)網(wǎng)和預(yù)測(cè)神經(jīng)網(wǎng)。
基于人工神經(jīng)網(wǎng)絡(luò)語(yǔ)音識(shí)別系統(tǒng)具有很大的發(fā)展空間,但普遍存在訓(xùn)練,識(shí)別時(shí)間過(guò)長(zhǎng)的缺點(diǎn),目前許多學(xué)者正致力于利用神經(jīng)網(wǎng)絡(luò)同傳統(tǒng)方法相互結(jié)合的語(yǔ)音識(shí)別系統(tǒng)的研究并取得一定進(jìn)展。
2.4 后處理[1-2]
在中、大詞匯量的語(yǔ)音識(shí)別系統(tǒng)特征中后處理顯得特別重要,當(dāng)分類發(fā)生錯(cuò)誤時(shí),可以根據(jù)語(yǔ)音學(xué)模型,語(yǔ)法結(jié)構(gòu),語(yǔ)義學(xué)進(jìn)行判斷糾正。特別是一些同音字則必須要通過(guò)上下文結(jié)構(gòu)才能確定詞義,語(yǔ)音學(xué)理論包括發(fā)音學(xué)、音律學(xué)、語(yǔ)義結(jié)構(gòu),語(yǔ)言的數(shù)學(xué)描述模型等有關(guān)方面。把語(yǔ)言模型應(yīng)用于語(yǔ)音識(shí)別要解決的幾種結(jié)構(gòu),如何把它和模式識(shí)別器結(jié)合找出一種有效的識(shí)別算法。
語(yǔ)言模型主要分為規(guī)則模型和統(tǒng)計(jì)模型兩種,目前比較成功的語(yǔ)言模型通常是采用統(tǒng)計(jì)語(yǔ)法的。統(tǒng)計(jì)語(yǔ)言模型是用概率統(tǒng)計(jì)的方法來(lái)揭示語(yǔ)言單位內(nèi)在的統(tǒng)計(jì)規(guī)律,其中N-Gram簡(jiǎn)單有效,被廣泛使用。N-Gram模型基于這樣一種假設(shè):第N個(gè)詞的出現(xiàn)只與前面N-1個(gè)詞相關(guān),而與其任何詞都不相關(guān),整句的概率就是各個(gè)詞出現(xiàn)概率的乘積。這些概率可以通過(guò)直接從語(yǔ)料中統(tǒng)計(jì)N個(gè)詞同時(shí)出現(xiàn)的次數(shù)得到。常用的是二元的Bi-Gram和三元的Tri-Gram。
3 語(yǔ)音識(shí)別系統(tǒng)面臨的問(wèn)題
雖然語(yǔ)音識(shí)別的研究工作已有60多年,語(yǔ)音識(shí)別產(chǎn)品層出不窮,但與語(yǔ)音識(shí)別的最終目標(biāo)還有一定的距離,各方面的困難依然存在,主要表現(xiàn)在:
(1) 環(huán)境影響問(wèn)題。這是各種語(yǔ)音識(shí)別系統(tǒng)普遍存在的頑健性如何提高的共性問(wèn)題,包括環(huán)境噪聲影響、說(shuō)話人距離和位置變化的影響以及說(shuō)話人心理和生理變化的影響等[1-2]。有效解決這些難題實(shí)際上是各種語(yǔ)音識(shí)別技術(shù)共同面臨的艱巨任務(wù)??朔h(huán)境噪聲影響問(wèn)題的方法通常有:譜減法消噪技術(shù)、環(huán)境歸正技術(shù)、噪聲建模技術(shù)、識(shí)別模型修正技術(shù)等;克服說(shuō)話人距離和位置變化的影響可采用多話筒跟蹤拾音技術(shù)。對(duì)于克服說(shuō)話人心理和生理變化引起的語(yǔ)言變異造成的影響,以引入模仿人類語(yǔ)音聽覺(jué)感知機(jī)理的人工智能技術(shù)對(duì)模式識(shí)別部分進(jìn)行增強(qiáng)和改進(jìn)的方法較有效。
(2) 語(yǔ)音識(shí)別系統(tǒng)的適應(yīng)性差。全世界有近百種官方語(yǔ)言,每種語(yǔ)言有多達(dá)幾十種方言,同種語(yǔ)言的不同方言在語(yǔ)音上相差懸殊,這樣,隨著語(yǔ)言環(huán)境的改變,系統(tǒng)性能會(huì)變得很差。
(3) 端點(diǎn)檢測(cè)。研究表明,即使在安靜的環(huán)境下,語(yǔ)音識(shí)別系統(tǒng)一半以上的錯(cuò)誤來(lái)自端點(diǎn)檢測(cè)器。提高端點(diǎn)檢測(cè)技術(shù)的關(guān)鍵在于尋找穩(wěn)定的語(yǔ)音參數(shù)[7]。
(4) 詞與詞的特征空間混疊。語(yǔ)音識(shí)別的常規(guī)方法是利用語(yǔ)音信號(hào)的短時(shí)平穩(wěn)特性將語(yǔ)音時(shí)域采樣信號(hào)分為若干幀,計(jì)算出每一幀的相應(yīng)特征矢量,從而得到該幀語(yǔ)音的一個(gè)特征矢量序列。
但從這些矢量的空間分布來(lái)看,很多不同詞語(yǔ)的矢量序列在特征空間存在混疊現(xiàn)象。克服這個(gè)問(wèn)題的主要思路是,首先應(yīng)當(dāng)基本準(zhǔn)確地找出該發(fā)音者發(fā)音的大致短時(shí)周期,并盡量使用合理的特征,同時(shí)充分利用特征序列的時(shí)序特征[7]。
4 結(jié) 語(yǔ)
這里通過(guò)對(duì)語(yǔ)音識(shí)別技術(shù)的學(xué)習(xí)和研究,意識(shí)到語(yǔ)音識(shí)別技術(shù)在人類生活和工作等各方面的重要性。但是由于語(yǔ)音識(shí)別技術(shù)還面臨著很多困難,所以研究者最先大都是在實(shí)驗(yàn)室即環(huán)境很安靜的情況下進(jìn)行的,而且是選取某一種語(yǔ)言(比如英語(yǔ))對(duì)某一或者某幾個(gè)國(guó)家的學(xué)生或者某一特定職業(yè)的人進(jìn)行實(shí)驗(yàn),有些還專門對(duì)孩子進(jìn)行實(shí)驗(yàn)[8](因?yàn)楹⒆拥陌l(fā)音和成年人是有很大區(qū)別的)等。那么以后人類是否可以研究出一種語(yǔ)音識(shí)別系統(tǒng)能夠適用于世界上各種語(yǔ)言各種各樣的人,是值得思考的。
另一方面如何將語(yǔ)音識(shí)別技術(shù)應(yīng)用到人們生活的各個(gè)方面。比如學(xué)習(xí)方面,學(xué)習(xí)外語(yǔ)的時(shí)候老師不可能糾正每個(gè)學(xué)生的發(fā)音,而有一個(gè)系統(tǒng)可幫助糾正;娛樂(lè)方面,開始學(xué)唱歌時(shí),不需要?jiǎng)e人的點(diǎn)評(píng)唱的如何,而有一個(gè)評(píng)分的系統(tǒng)可以幫助打分,并糾正哪里唱的跑調(diào)了。還有國(guó)家的普通的話測(cè)試需要有一個(gè)系統(tǒng)可以幫助測(cè)試,考生自己就可以給自己大概的估分了。
參考文獻(xiàn)
[1]唐堯. 基于DSP平臺(tái)的語(yǔ)音識(shí)別算法的研究與實(shí)現(xiàn)[D]. 南京: 南京航空航天大學(xué), 2007.
[2]周茉. 基于HMM和ANN得漢語(yǔ)數(shù)字語(yǔ)音識(shí)別算法[D]. 武漢: 華中師范大學(xué), 2006.
[3]梁芳泉, 張雪英. 一種抗噪語(yǔ)音識(shí)別算法的DSP實(shí)現(xiàn)[J]. 電腦開發(fā)與應(yīng)用, 2006, 19(4): 12-14.
[4]HACKER C, CINCAREK T, GRUHN R, et al. Pronunciation feature extraction[C]//Pattern Recognition. 27 DAGM Symposium. Berlin: Springer, 2005:141148.
[5]王倩, 吳國(guó)平, 陳琳. 特定人語(yǔ)音識(shí)別算法-DTW算法[J]. 軟件導(dǎo)刊, 2005(20): 48-50.
[6]呂軍, 曹效英. 基于語(yǔ)音識(shí)別的漢語(yǔ)發(fā)音自動(dòng)評(píng)分系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2007, 28(5): 1232-1235.
[7]李錦, 何培宇. 一種改進(jìn)的基于小波去噪HMM非特定人語(yǔ)音識(shí)別算法[J]. 四川大學(xué)學(xué)報(bào): 自然科學(xué)版, 2007, 44(1): 69-72.
[8]HACKERC, CINCAREKT, MAIER, A, et al.Boosting of prosodic and pronunciation features to detect mispronunciations of non-native children[C].\\ IEEE International Conference on Acoustics, Speech and Signal Processing, 2007.
[9]FRANCO H, NEUMEYER L, DIGALAKIS V, et al.Combination of machine scores for automatic grading of pronunciation quality[J]. Speech Communication, 2000, 30(2-3): 121-130.
[10]HU Rile, ZONG Cheng-qing. An approach to automatic acquisition of translation templates based on phrase struc-trure extraction and alignment[J]. IEEE Trans. on Audio, Speech, and Language Processing. 2006, 14(5): 1656-1663.
[11]WITT S M, Young Steve J. Language learning based on non-native speech recognition[J]. Eurospeech, 1997:633636.
[12]WITT S M, YOUNG S J. Phone-level pronunciationscoring and assessment for interative language learning[J]. Speech Comm., 2000, 30:95108.