雒瑞森,任品,曠昊恒
(四川大學(xué)電氣信息學(xué)院,四川成都,610065)
該項(xiàng)新技術(shù)在設(shè)計(jì)和實(shí)現(xiàn)上主要分為三個(gè)部分:廣播聲學(xué)模型設(shè)計(jì)、語(yǔ)音-關(guān)鍵詞轉(zhuǎn)換和非法廣播判定。其中,廣播聲學(xué)模型設(shè)計(jì)即基于廣播錄音的自動(dòng)語(yǔ)音識(shí)別(automatic speech recognition)中聲學(xué)模型(acoustic model)的設(shè)計(jì);語(yǔ)音-關(guān)鍵詞轉(zhuǎn)換的目的是基于上一步聲學(xué)模型,設(shè)計(jì)語(yǔ)言模型(language model)及詞典(dictionary),將所需要的關(guān)鍵詞提取出來(lái);而非法廣播判定則是根據(jù)所提取的關(guān)鍵詞,結(jié)合領(lǐng)域的專家知識(shí),進(jìn)行是否為非法廣播的判定。
對(duì)于聲學(xué)模型,在本研究中,我們使用改進(jìn)語(yǔ)音識(shí)別基底模型的方法,結(jié)合廣播信號(hào)的特點(diǎn),進(jìn)行了模型的設(shè)計(jì)。具體的,我們首先采用了某語(yǔ)音識(shí)別的基礎(chǔ)中文模型,作為我們模型的基底;然后,我們錄制了具有所需識(shí)別的廣播信號(hào)特點(diǎn)的樣本信號(hào),通過(guò)逐句分音節(jié)標(biāo)注的方法,基于最大后驗(yàn)概率(MAP)技術(shù),對(duì)聲學(xué)模型進(jìn)行了參數(shù)自適應(yīng)的操作。這樣,進(jìn)行了參數(shù)自適應(yīng)后的聲學(xué)模型,既保留了原模型中大量中文詞匯的聲學(xué)模型識(shí)別能力,又特別的增強(qiáng)了針對(duì)特定的無(wú)線電廣播環(huán)境進(jìn)行特定識(shí)別功能。
對(duì)于語(yǔ)音-關(guān)鍵詞轉(zhuǎn)換,由于廣播錄音噪聲較大,如果我們采用標(biāo)準(zhǔn)的中文語(yǔ)言模型,則會(huì)產(chǎn)生關(guān)鍵詞無(wú)法識(shí)別、而許多不相關(guān)的詞匯被錯(cuò)誤的“識(shí)別”的現(xiàn)象。所以,為了準(zhǔn)確的識(shí)別關(guān)鍵詞,我們通過(guò)僅使用少許關(guān)鍵詞加入詞典的方法,進(jìn)行語(yǔ)音-關(guān)鍵詞的準(zhǔn)確識(shí)別。同時(shí),由于我們并不需要完整的、具備意義的句子,所以設(shè)計(jì)的語(yǔ)言模型(language model)的容錯(cuò)率顯得相對(duì)高很多。
在獲取關(guān)鍵詞后,對(duì)于非法廣播判定的技術(shù),我們采用專家系統(tǒng)(expert system)的方法。所謂專家系統(tǒng),就是根據(jù)相關(guān)領(lǐng)域?qū)<业慕?jīng)驗(yàn),將相關(guān)知識(shí)提取為表達(dá)式,從而得到根據(jù)關(guān)鍵詞自動(dòng)判定非法廣播的方法。例如,我們有三個(gè)備選的關(guān)鍵詞,我們可以根據(jù)專家經(jīng)驗(yàn),設(shè)置關(guān)鍵詞1+關(guān)鍵詞2為非法廣播,而關(guān)鍵詞1+關(guān)鍵詞3為正常廣播。需要注意的是,在實(shí)踐的判定中,我們可以加入模糊邏輯(fuzzy logic),使得產(chǎn)品不僅可以輸出是否為非法廣播的判定,也可以輸出其置信度(confident level)。在置信度較低的時(shí)候,我們可以請(qǐng)求人工干預(yù),來(lái)判定是否為非法廣播。
高斯混合模型使用多個(gè)高斯分布的聯(lián)合表達(dá),具有多個(gè)分布中心,非常適合進(jìn)行聲學(xué)模型的模擬。它的基本表達(dá)公式如下:

從公式中,我們可以看出,這個(gè)概率密度函數(shù)可以視為多個(gè)高斯的組合。由于聲音信號(hào)往往呈多中心方差衰減分布,故而高斯混合模型非常適合作為聲學(xué)模型的建模。高斯混合模型具有很強(qiáng)的表達(dá)能力,但是其模型訓(xùn)練并不是一件簡(jiǎn)單的事情。對(duì)于概率分布函數(shù),我們?cè)谟?xùn)練時(shí)常常使用最大化對(duì)數(shù)似然函數(shù)(Maximum log-likelihood)的方法。但是,由于高斯混合模型的對(duì)數(shù)似然函數(shù)并不連續(xù)可導(dǎo),故而需要我們使用啟發(fā)式算法進(jìn)行訓(xùn)練。較為常用的啟發(fā)式算法為E-M算法,它可以自然的可以保證概率相加/積分為1的特點(diǎn),使得其在求解概率密度函數(shù)極值問(wèn)題時(shí)有廣泛的采用。計(jì)算機(jī)科學(xué)家已經(jīng)證明,E-M算法可以實(shí)現(xiàn)超線性收斂,故而從數(shù)值優(yōu)化的角度講,這也是一個(gè)較為理想的選擇。
E-M算法可以表述如下:假設(shè)待學(xué)習(xí)的參數(shù)為θ,混合模型隱變量為Z(高斯混合模型中即 P (m ),各高斯分布系數(shù)),單一模型變量為X(高斯混合模型中即各高斯模型的均值和方差),對(duì)數(shù)損失函數(shù)為[logL(θ;X,Z)],則E-M算法可以表述為:

通過(guò)循環(huán)上述步驟的操作,我們可以使得參數(shù)θ逐漸收斂到最優(yōu)值。
完整的聲學(xué)模型,是基于高斯混合模型-馬爾可夫鏈而設(shè)計(jì)的。具體的來(lái)說(shuō),在語(yǔ)音識(shí)別中,語(yǔ)音信號(hào)由音節(jié)組成;而音節(jié)之間相互聯(lián)系,最終組成了語(yǔ)言。而由于馬爾可夫鏈可以學(xué)習(xí)系統(tǒng)的時(shí)變特性并捕獲各音節(jié)時(shí)間之間的相互影響關(guān)系,故而被廣泛的應(yīng)用于語(yǔ)音識(shí)別的聲學(xué)建模。
隱馬爾可夫模型由顯狀態(tài)(觀測(cè))和隱狀態(tài)(隱變量)兩部分組成,其中顯狀態(tài)是我們直接觀測(cè)到的部分,如語(yǔ)音信號(hào)中的數(shù)據(jù);隱狀態(tài)是我們模型假設(shè)有、但是對(duì)我們不可見(jiàn)的變量。在馬爾可夫模型中,狀態(tài)之間的轉(zhuǎn)換是在隱狀態(tài)中完成的,但是每個(gè)隱狀態(tài)都需要一個(gè)分布來(lái)轉(zhuǎn)換為顯狀態(tài)的觀測(cè):這也是其稱為“隱”馬爾可夫模型的原因。值得注意的是,在隱馬爾可夫模型中,對(duì)于隱變量s,其當(dāng)前時(shí)刻的值之與上一時(shí)刻有關(guān);同時(shí),對(duì)于當(dāng)前的觀測(cè)值,其只與本時(shí)刻的隱變量有關(guān)。我們稱這種性質(zhì)為馬爾可夫性,而由于這種性質(zhì)的算法繪制成圖片會(huì)呈現(xiàn)“鏈狀”,故而我們又可以稱其為“隱馬爾可夫鏈”。隱馬爾可夫鏈牽扯到如下兩個(gè)重要的公式:

其中,第二個(gè)公式為對(duì)各幀的特征信號(hào)進(jìn)行建模的概率密度函數(shù),即有時(shí)我們所說(shuō)的“發(fā)射函數(shù)(emission function)”。在聲學(xué)信號(hào)建模中,我們令這個(gè)函數(shù)遵從高斯混合模型,從而得到我們的HMM-GMM總體模型;而第一個(gè)公式則反映的是隱狀態(tài)之間的變化,狀態(tài)之間的轉(zhuǎn)移可以使用動(dòng)態(tài)規(guī)劃(Dynamic Programming)的方法計(jì)算。
從統(tǒng)計(jì)學(xué)上講,最大后驗(yàn)概率模型可使用如下模型表示:

其中,P (λ) 為先驗(yàn)概率(prior),而 P (O|λ)為似然函數(shù),即表征數(shù)據(jù)在特定的模型設(shè)定下似然程度的度量。在聲學(xué)模型參數(shù)適應(yīng)改進(jìn)中,我們的 P (λ)即語(yǔ)音識(shí)別模型中中文基本聲學(xué)模型的參數(shù),而 P (O|λ)則應(yīng)為我們新加入的數(shù)據(jù)的似然函數(shù)。假設(shè)在已有的模型中,多個(gè)高斯分布的均值符合如下分布:

不過(guò),一般而言,對(duì)于最大后驗(yàn)概率的模型參數(shù)調(diào)整,我們會(huì)傾向于改變各高斯模型的權(quán)重,而非高斯分布本身。假設(shè)我們現(xiàn)有的模型可以被一個(gè)超參數(shù)為{, ημ}的狄利克雷分布和一個(gè)超參數(shù)為{,, ,αβμτ}的Gamma-Gaussian分布所表示,則參數(shù)的更新可以表示為:

該技術(shù)在呈現(xiàn)給用戶的軟件中,將擁有一個(gè)自適應(yīng)完成的模型,并擁有一個(gè)易于操作的接口,可以使用戶方便的進(jìn)行無(wú)線電廣播內(nèi)容的識(shí)別。具體的操作中,我們使軟件支持載入錄音文件及錄音兩種格式。同時(shí),由于我們的API對(duì)于文件讀取有壓縮格式的需求,故而在軟件中我們也會(huì)加入自動(dòng)對(duì)錄音進(jìn)行轉(zhuǎn)碼的內(nèi)容。
對(duì)于定制產(chǎn)品的提供,我們采用兩種版本:一是由用戶提出需求并提供相應(yīng)數(shù)據(jù),這樣我們可以根據(jù)數(shù)據(jù)的特殊情況提供定制的產(chǎn)品。改方案可以直接在現(xiàn)有的模型基礎(chǔ)上提供軟件,也比較適合一般的用戶;二是我們可以提供一個(gè)帶有DIY接口的產(chǎn)品,使得用戶可以自行進(jìn)行產(chǎn)品的定制化。方案二需要我們開(kāi)發(fā)相應(yīng)的可視化參數(shù)調(diào)整接口,也更適用于有特殊開(kāi)發(fā)需求的用戶。
對(duì)于產(chǎn)品的跨平臺(tái)、可移植性和軟件穩(wěn)定性,我們當(dāng)前提供pc操作平臺(tái)的版本,包括windows/mac/linux。在后續(xù)的版本中,我們可以加入手機(jī)平臺(tái)版本android/IOS,以及更多的單片機(jī)/嵌入式系統(tǒng)版本。
本研究根據(jù)廣播信號(hào)管控的具體問(wèn)題,設(shè)計(jì)了特定的語(yǔ)音識(shí)別模型,從而實(shí)現(xiàn)了針對(duì)特定問(wèn)題的最優(yōu)化表現(xiàn)。最后,目前市面上流行的模型中,大部分只提供線上使用功能,無(wú)法嵌入到類似于無(wú)線電頻譜管控類的產(chǎn)品中;且無(wú)法離線使用,可以移植性差;而本研究采用將模型存儲(chǔ)在軟件中的方式,允許軟件離線使用,極大的提升了技術(shù)的可移植性。同時(shí),使用語(yǔ)音識(shí)別技術(shù)結(jié)合專家系統(tǒng)進(jìn)行廣播信號(hào)頻譜管控,也是一種非常新穎的思路。該技術(shù)的研發(fā)為后續(xù)類似的產(chǎn)品提供了具體的思路,并且其優(yōu)良的效果及可移植、可離線使用的特性,也體現(xiàn)了該產(chǎn)品新穎的特征。