朱泰 管震臻 李新戰(zhàn) 韓雪 白玉帥
摘 要:采集大量不同說(shuō)話(huà)人的語(yǔ)音信息,將音頻信號(hào)轉(zhuǎn)換成電信號(hào),然后把說(shuō)話(huà)人話(huà)音中的個(gè)人特征提取出來(lái),利用
sql server 2012軟件建立一個(gè)學(xué)生信息數(shù)據(jù)庫(kù),用于存儲(chǔ)待簽到的學(xué)生信息,最后基于高斯混合模型(GMM),把待說(shuō)話(huà)人的語(yǔ)音與保留在數(shù)據(jù)庫(kù)中的語(yǔ)音進(jìn)行匹配判決,再通過(guò)比對(duì)數(shù)據(jù)庫(kù)中的信息,以此找出待識(shí)別的人,從而達(dá)到簽到的目的。
關(guān)鍵詞:高斯混合模型 數(shù)據(jù)庫(kù) 個(gè)人特征
中圖分類(lèi)號(hào):G64 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2018)04(a)-0032-02
Abstract:Gauss Collecting a large number of different speaker's voice information, the audio signal is converted into electrical signals, and the personal characteristics of the speaker voice extracted. By using SQL Server 2012 software to establish a database for storing student information, student information to sign in, based on Gauss mixture model (GMM), the voice of the speaker and the voice to be retained in the database for matching decision, and then by comparing the information in the database, in order to find out the recognition of people, so as to achieve the purpose of attendance.
Key Words:Gauss Mixture Model; DataBase; Personal Characteristics
每個(gè)人都是一個(gè)獨(dú)立的個(gè)體,每個(gè)人的聲音也是各具特色的。把人的聲音單獨(dú)提取出來(lái)作為人的一項(xiàng)特征來(lái)分辨說(shuō)話(huà)人的身份,這在理論上是行得通的。事實(shí)上也是,現(xiàn)代科學(xué)技術(shù)對(duì)于語(yǔ)音的應(yīng)用已經(jīng)相當(dāng)廣泛了,比如:在工業(yè)、軍事、交通、醫(yī)學(xué)、民用諸方面,特別是在計(jì)算機(jī)、信息處理通信與電子系統(tǒng)、自動(dòng)控制等領(lǐng)域中有著廣泛的應(yīng)用[1]。
1 說(shuō)話(huà)人識(shí)別方法和系統(tǒng)結(jié)構(gòu)
圖1是說(shuō)話(huà)人識(shí)別系統(tǒng)的結(jié)構(gòu)圖,它由預(yù)處理、特征提取、模式匹配計(jì)算、參考模板制作和識(shí)別判決等幾大部分組成。首先將聲音錄入到設(shè)備中,將其在計(jì)算機(jī)中把語(yǔ)音信號(hào)轉(zhuǎn)變成電信號(hào),通過(guò)波譜分析,提取出不同說(shuō)話(huà)者的個(gè)人特征。
然后在特定數(shù)據(jù)庫(kù)中存入大量不同學(xué)生的個(gè)人信息,將特征提取步驟中提取到的個(gè)人特征對(duì)應(yīng)到相應(yīng)的學(xué)生項(xiàng)之中。接著在需要識(shí)別學(xué)生個(gè)體的時(shí)候,將此時(shí)的說(shuō)話(huà)人聲音與數(shù)據(jù)庫(kù)中存儲(chǔ)的數(shù)據(jù)進(jìn)行匹配,從而分辨出學(xué)生的個(gè)人身份。在此過(guò)程中,預(yù)定相似度達(dá)到某一個(gè)值即可確認(rèn)出該學(xué)生身份。因?yàn)樵诓煌h(huán)境和時(shí)間,說(shuō)話(huà)人發(fā)出的聲音可能會(huì)有細(xì)微的差別,因此不可能每次都能夠百分之百的還原之前錄入到數(shù)據(jù)庫(kù)中的音頻特征信息。
2 說(shuō)話(huà)人識(shí)別特征的選取
在理想情況下,選取的特征應(yīng)當(dāng)滿(mǎn)足下述準(zhǔn)則。
(1) 有效區(qū)分不同的說(shuō)話(huà)人。
(2) 易于從語(yǔ)音信號(hào)中提取。
(3) 不易被模仿。
(4) 盡量不隨時(shí)間和空間變化。
同時(shí)滿(mǎn)足上述所有要求的特征目前是不可能找到的,所以只需滿(mǎn)足其中部分即可。
3 GMM模型的識(shí)別問(wèn)題
在給定的一個(gè)語(yǔ)音樣本中,說(shuō)話(huà)人辨認(rèn)的目的是要決定這個(gè)語(yǔ)音是屬于N個(gè)待識(shí)別說(shuō)話(huà)人中的哪一個(gè)。在一個(gè)封閉的待選人集合里,只需要確認(rèn)該語(yǔ)音屬于語(yǔ)音庫(kù)里的哪一個(gè)說(shuō)話(huà)人,在辨認(rèn)任務(wù)中,目的是找到一個(gè)說(shuō)話(huà)者i^*,他對(duì)應(yīng)的模型λi^*使得待識(shí)別語(yǔ)音特征矢量組X具有最大后驗(yàn)概率P(λ_i/X)?;贕MM的說(shuō)話(huà)人辨認(rèn)系統(tǒng)結(jié)構(gòu)框圖如圖2所示
根據(jù)Bayes理論,最大后驗(yàn)概率可表示為:
4 建立數(shù)據(jù)庫(kù)
要實(shí)現(xiàn)語(yǔ)音識(shí)別簽到,首先需要有一份待識(shí)別人的個(gè)人信息,所以需要建立一個(gè)數(shù)據(jù)庫(kù),用以存儲(chǔ)這些個(gè)人信息。我們以學(xué)校課堂簽到為例,需要的信息有:姓名(Sname)、性別(Ssex)、學(xué)號(hào)(Snumber)、院系(Sdept)、以及預(yù)處理時(shí)提取出的聲紋特征(Svoice)。其中以學(xué)號(hào)每個(gè)學(xué)生都不相同,取唯一值[3]。
Create table Student
( Snumber CHAR(10),
Sname CHAR(20) UNIQUE,
Ssex CHAR(2),
Sdept CHAR(20),
Svoice CHAR(50),
)
在建立好的學(xué)生信息表中輸入一定數(shù)量的學(xué)生信息,如表1所示。
5 結(jié)語(yǔ)
人在說(shuō)話(huà)的時(shí)候,發(fā)音常常會(huì)隨著環(huán)境的變化、說(shuō)話(huà)人的情緒變化、說(shuō)話(huà)人的健康狀況變化而變化,因此說(shuō)話(huà)人的個(gè)人聲紋特征不是固定不變的,這些變化對(duì)識(shí)別系統(tǒng)存在較大的準(zhǔn)確性影響 在這些不定因素的影響下,如何較為正確的識(shí)別出說(shuō)話(huà)人仍是一個(gè)較難攻克的課題。
參考文獻(xiàn)
[1] 王俠.語(yǔ)音識(shí)別應(yīng)用無(wú)限[J].計(jì)算機(jī)世界報(bào),1999:24-26.
[2] 沈忱,基于遺傳算法的混合高斯模型在與文本無(wú)關(guān)的說(shuō)話(huà)人識(shí)別中的應(yīng)用[D].東南大學(xué),2007.
[3] 邵妍,霍春寶,金曦.基于改進(jìn)的高斯混合模型算法的說(shuō)話(huà)人識(shí)別[J].遼寧工業(yè)大學(xué)學(xué)報(bào):自然科學(xué)版,2010,30(1):8-10.
[4] 何湘智.語(yǔ)音識(shí)別的研究與發(fā)展[J].計(jì)算機(jī)與現(xiàn)代化,2002(3):3-6.