基于隨機映射技術(shù)的聲紋識別模板保護

2020-11-11 09:08:50李佳慧唐士杰王會勇

計算機研究與發(fā)展 2020年10期

丁勇李佳慧唐士杰王會勇

1(桂林電子科技大學計算機與信息安全學院廣西桂林 541004) 2(桂林電子科技大學數(shù)學與計算科學學院廣西桂林 541004) 3(桂林電子科技大學電子工程與自動化學院廣西桂林 541004) 4(廣西密碼學與信息安全重點實驗室(桂林電子科技大學) 廣西桂林 541004) 5(鵬城實驗室網(wǎng)絡(luò)安全研究中心廣東深圳 518055)

隨著人工智能的迅速發(fā)展,傳統(tǒng)的身份驗證(如密碼、IC卡等)容易遺忘、丟失、被盜或者被人共享等缺點[1],促進了生物特征認證系統(tǒng)的快速發(fā)展.生物特征識別技術(shù)是指“在不泄露用戶原始身份特征信息的情況下,利用自動技術(shù)對人體的生理特征(如人臉[2]、虹膜[3]、指紋[4]等)或者行為特征(如步態(tài)、字跡、聲音[5]等)進行特征提取,并將這些特征與數(shù)據(jù)庫模板進行比對,完成身份識別或認證的過程”[6-7].生物特征信息的不易偽造性以及生物特征識別系統(tǒng)的不可鏈接性可以提供更高的安全性.

生物特征具有唯一性、隱私性、不可撤銷[8]的特性,將原始生物特征信息直接存儲在第三方服務(wù)器存在一定風險.生物特征信息可以與用戶身份永久關(guān)聯(lián),若生物特征信息被敵手或者不可信的第三方篡改、盜用后非法利用,生物特征信息在服務(wù)器就會失效或者丟失,導致的隱私問題比傳統(tǒng)身份驗證更加嚴重[8].Kumar等人[9]提出了生物特征隱私保護的幾種攻擊類型,如偽造攻擊、聯(lián)系攻擊、模板攻擊等.

近年來,為了保護生物特征信息的安全，生物特征的隱私保護問題已經(jīng)成為研究的熱點問題[10-16].研究工作主要集中在模板保護和防欺詐方面[6],生物特征識別的模板保護問題是主要的研究方向.模板保護問題分為3類[14]:可取消的生物特征[15-16]、生物加密系統(tǒng)[5]以及混合生物特征加密系統(tǒng)[17].在過去的20年里,生物特征識別技術(shù)已經(jīng)廣泛應(yīng)用到商業(yè)、電子、金融等領(lǐng)域[10],這些領(lǐng)域的研究對生物特征識別技術(shù)的發(fā)展具有重要意義.

目前,對人臉、指紋等圖像特征的模板保護算法研究較多[2-4],基于聲紋識別認證的模板保護算法也相繼提出.聲紋識別是基于聲音的一種識別方式,由計算機利用待識別語音波形中所包含的反映特定說話人的生理和行為特征的語音特征參數(shù)來自動確定或鑒別說話人身份的技術(shù)[18],主要包括2個方面：1)訓練階段.首先對每個說話人的語音段進行預(yù)處理,然后提取聲學特征,訓練每個說話人的語音特征得到該說話人對應(yīng)的模型,最后將全部說話人的模型進行組合,形成說話人的模型庫.2)識別或認證階段.系統(tǒng)對待識別語音進行相同的特征提取,將得到的聲紋特征與建立的模型庫進行對比,得到對應(yīng)說話人模型的相似性得分,根據(jù)閾值大小來判斷說話人的身份.聲紋識別的基本流程圖如圖1所示.聲紋識別的身份認證比指紋認證、虹膜認證等更容易受到攻擊，如重放攻擊、語音合成等[19].因此,急需提出一種安全的聲紋識別的模板保護方案以防止用戶數(shù)據(jù)的泄露和保護用戶信息的隱私安全.

理想的生物特征加密技術(shù)[20]對生物特征模板的保護應(yīng)具備3個特性：1)不可鏈接性.對于同一個生物特征,生成不同種類的模板應(yīng)用于不同的系統(tǒng)、在同一系統(tǒng)對模板進行重新生成或者撤銷來完成各個模板間或者模板與原生物特征間的不可匹配.2)不可逆性.生物特征模板容易生成,但從存儲的生物特征模板中難以恢復(fù)原始生物特征數(shù)據(jù).3)識別性能.生物特征模板的加密特征對身份認證的準確性影響較小.本文以聲紋為例,提出了一種基于隨機映射特性的聲紋模板保護方案.將隨機映射變換后的數(shù)據(jù)作為生物特征模板,當隨機矩陣被泄露時變換關(guān)系也丟失(已知密鑰和密文),此時,若各隨機矩陣為方陣時,根據(jù)逆變換來恢復(fù)出原始特征數(shù)據(jù),將會導致信息泄露.隨機映射實現(xiàn)模板保護的可撤銷性和可再生性,導致其抵抗性較差.因此,利用改進的隨機映射來提高生物特征數(shù)據(jù)的隨機性和安全性，以及利用正交變換保持距離不變的性質(zhì)來保證識別效率的準確性.

Fig. 1 Basic framework of voiceprint recognition system圖1 聲紋識別系統(tǒng)的基本框架

首先,利用改進的隨機映射算法對特征數(shù)據(jù)進行處理,生成受保護的生物特征模板,保證即使在數(shù)據(jù)丟失的情況下,敵手也不能完全恢復(fù)出用戶的原始特征信息,這有效提高了認證的安全性和隱私性.其次利用變換后的特征進行模型訓練,識別認證.最后,實驗仿真表明此算法的安全性和認證效率的準確性.

本文的主要貢獻有2個方面:

1) 提出了一種改進的隨機映射算法與聲紋模板結(jié)合的方法,在注冊過程中就保證了數(shù)據(jù)的安全性.除此之外,在認證過程中生成的變換特征具有隨機性,也能保證模板的匹配性能和信息的安全性.

2) 設(shè)計實現(xiàn)了一個聲紋保密認證方案,在不顯著影響聲紋識別精度的同時也保證了數(shù)據(jù)的安全性和用戶的隱私性.

1 預(yù)備知識

本節(jié)主要研究了基于隨機映射技術(shù)的聲紋識別(i-Vector)的身份驗證的模板保護機制.

1.1 聲紋識別的模型

在文獻[21]中Dehak等人提出了一項開創(chuàng)性工作,即i-Vector模型,可用于用戶的語音驗證.模型表示為

M=m+Tω,

(1)

其中,M是高斯混合模型均值超矢量，m是特定說話人和信道無關(guān)的超向量，T是低秩矩陣，ω是服從高斯分布的隨機向量.

i-Vector模型用因子分析法[21]生成一個低維的說話人空間和信道空間.將3種信道補償技術(shù):類內(nèi)協(xié)方差歸一化(within class covariance normalization, WCCN)、線性判別分析(linear discriminant analysis, LDA)以及擾動屬性投影(nuisance attribute pro-jection, NAP)應(yīng)用于低維空間以去除與信道空間相關(guān)的噪聲[21].其實驗結(jié)果表明基于i-Vector和LDA的聲紋驗證效果要優(yōu)于其他技術(shù)[21].

1.2 聲紋識別的隱私保護

文獻[22]提出一種在不需要觀察明文的情況下,基于安全多方計算(secure muti-party computa-tion, SMC)協(xié)議的聲紋識別系統(tǒng)的加密語音數(shù)據(jù)的計算.該算法與傳統(tǒng)算法的識別精度相差不大,但計算開銷較大.文獻[23]提出了一種高斯混合模型的隨機映射的聲紋模板保護方案.注冊時，在隨機映射空間對用戶的原始身份特征進行高斯混合模型(Gauss mixture model, GMM)的學習,存儲模型參數(shù)模板到服務(wù)器;認證時,用相同的隨機矩陣對認證用戶的身份特征進行處理,與服務(wù)器的模板進行匹配打分.實驗結(jié)果表明對不同混合度的GMM變換前后的認證性能基本不變，以及在一定誤差范圍內(nèi)的降維不僅不影響識別性能,還可以提高用戶數(shù)據(jù)的安全.但由于安全參數(shù)依賴隨機矩陣,若R泄露,我們根據(jù)窮舉法可以得到用戶的數(shù)據(jù)特征,使得用戶信息的隱私性能降低.Pathak等人[5]重新設(shè)計了一種基于高斯混合模型(GMM)的聲紋識別的認證方案,以達到隱私目的.該模型依賴于同態(tài)密碼系統(tǒng),如Paillier加密.其實驗結(jié)果證明了在不影響準確性的前提下聲紋識別認證的定義.為了克服同態(tài)加密所帶來的負荷計算量,文獻[13]中提出了位串匹配的框架,利用局部敏感Hash函數(shù)將超向量表示的語音輸入轉(zhuǎn)換為位串,計算匹配度.該方法易于計算位串,有較高的效率,但其準確性較差,等錯誤率為11.86%.Rahulamathavan等人[10]提出一種基于i-Vector和線性判別分析技術(shù)的隱私保護語音驗證算法.該算法利用一種基于隨機化的技術(shù)來進行語音認證,允許用戶在隨機域注冊和驗證他們的聲音.根據(jù)實驗證明該算法既不影響認證的準確性,也不增加隨機操作帶來的額外復(fù)雜性.

1.3 隨機映射

隨機映射是一種根據(jù)隨機矩陣將特征從d維歐氏空間向k(d≥k)維歐氏空間進行投影,以達到降維的方法.該方法來自JL引理[24],

引理1.若對任意ε∈(0,12)及任意充分大的集合P?Rd,滿足:

則存在一個映射f:P→Rk,使得對任意的u,v∈P,有:

(2)

引理1表明利用隨機投影的方法在降低特征維度的同時又能保證距離的不變性.

文獻[23]給出了隨機映射的形式表達式,即:

(3)

其中,x表示原始的特征向量,R∈Rd×k(d≥k),表示隨機的正交矩陣(可根據(jù)斯密斯正交化得到),y(y∈Rk)是隨機映射之后的特征向量.一般情況下,d=k,即:

y=RTx.

(4)

Fig. 2 Flowchart of voiceprint recognition system based on improved random mapping圖2 基于改進隨機映射的聲紋識別系統(tǒng)流程圖

2 方案設(shè)計

2.1 基于隨機映射技術(shù)的聲紋模板保護定義

文獻[23]介紹了隨機映射算法在GMM-UBM(Gauss mixture model-universal background model)中的應(yīng)用.具體步驟為：

注冊階段：

1) 提取用戶注冊語音的MFCC特征X=(x1,x2,…,xi,…,xn),其中xi(1≤i≤n)為語音特征向量;

2) 生成一個隨機矩陣R∈Rd×k(d≥k),并且R中的元素rdk是服從獨立同分布的高斯隨機變量,即rdk～N(0,1),(1≤d,k≤n).

3) 用式(4)對聲紋特征向量處理得到Y(jié)=(y1,y2,…,yi,…,yn),1≤i≤n;

4) 對yi進行訓練,得到要保護的聲紋模板W.

認證階段:

在模板生成中,傳統(tǒng)的隨機映射算法存在2個問題:1)將隨機映射變換后的聲紋特征向量直接作為模板,難以抵抗已知密文和密鑰的攻擊,根據(jù)不可逆變換對身份特征進行處理會導致精度的下降.2)在認證時生成相似的變換特征,若該變換被盜用,會導致用戶隱私的泄露,如認證次數(shù).針對上述問題,本文先對隨機映射技術(shù)進行改進,再利用變換矩陣正交的特性,證明其識別精度以及生成聲紋模板的安全性.算法改進的聲紋模板保護框架如圖2所示:

2.2 改進的隨機映射聲紋模板保護方法

我們由y=RTx對隨機映射技術(shù)進行改進.改進的隨機映射技術(shù)既提高了用戶數(shù)據(jù)的安全性和隱私性又保證了聲紋識別系統(tǒng)認證效率的準確性.改進后的聲紋識別模板保護算法的過程為:

注冊階段:

1) 提取訓練語音的聲紋特征向量x,再隨機生成一個正交矩陣R,且R中的元素rdk是服從高斯分布的獨立隨機變量,即rdk～N(0,1),1≤d,k≤n;

2) 對R進行分解R=R1+R2(R1,R2均為正交矩陣),用式(4)對聲紋的特征向量x處理,得Rx=R1x+R2x,即：

y=y1+y2;

(5)

認證階段:

1) 提取測試語音的聲紋特征向量x′,再隨機生成一個正交矩陣R,且R中的元素rdk是服從高斯分布的獨立隨機變量,即rdk～N(0,1)(1≤d,k≤n);

2) 對R進行分解R=R1+R2(R1,R2正交矩陣),用式(4)對聲紋的特征向量x′處理,得Rx′=R1x′+R2x′,也即：

(6)

4) 由模板向量W與Z式進行匹配,計算余弦相似度scoreW,Z,得到?jīng)Q策結(jié)果.

3 性能分析

本節(jié)介紹實驗所需數(shù)據(jù)集、結(jié)果以及改進的隨機映射算法對聲紋模板的識別精度以及安全性的分析.我們首先用Matlab2016進行聲紋系統(tǒng)的仿真,測試了文中所提出的改進的隨機映射聲紋模板的性能;然后分析了改進的隨機映射方法對聲紋識別的識別精度及安全性的影響;最后證明了本文方法的可行性和安全性.

3.1 實驗結(jié)果分析

本文主要研究隨機映射的聲紋識別模板保護的有效性,而不是聲紋識別本身的算法.不同的聲紋識別方法適用于不同的加密算法.本文是對i-Vector的聲紋識別系統(tǒng)的模板保護,i-Vector是在GMM-UBM框架下,根據(jù)UBM模型自適應(yīng)得到的,在訓練過程中改變均值的大小,將說話人的信息差異都儲存在GMM的均值矢量中.說話人在GMM模型中的每個高斯分量的均值疊加起來,形成了一個高維超矢量,即均值超矢量.在i-Vector模型中,利用全局差異空間,得到身份向量.全局差異空間既包括說話人之間的差異又包括信道之間的差異,因此在i-Vector的建模中GMM均值超矢量不嚴格區(qū)分說話者和信道的影響.

希爾貝殼中文普通話開源語音數(shù)據(jù)庫(AISHELL)已經(jīng)應(yīng)用到智能家居、無人駕駛、無人駕駛等多個領(lǐng)域[25].AISHELL數(shù)據(jù)庫包括了4種地域方言的400位使用者的錄音文件[26].表1～3顯示了希爾貝殼數(shù)據(jù)集的統(tǒng)計數(shù)據(jù)[26].我們利用AISHELL數(shù)據(jù)庫進行實驗的仿真模擬.

Tabel 1 Gender Ratio

Tabel 2 Age Ratio

Tabel 3 Regional Proportion of Dialects

文中采用等錯誤率(equal error ratio,EER)作為性能的評價認證指標,其反映了聲紋識別系統(tǒng)整體的準確性和用戶的可接受度等重要性質(zhì).等錯誤率是指不斷調(diào)整閾值的大小, 使得錯誤拒絕率(false rejection rate, FRR)和錯誤接受率(false acceptance rate, FAR)相等時得到的識別率.我們針對不同的樣本大小50,100分別進行了實驗.以50人為例,選取其中20個用戶的語音信息(數(shù)據(jù))作為模型的測試集,選取另外30個用戶的語音建立模型背景.在訓練過程中生成注冊數(shù)據(jù)的實驗對,實驗對可能由一條測試語音和一個注冊模型構(gòu)成;也可能由多條測試語音構(gòu)成.最終得到一個聲紋注冊模型.

實驗中,通過Matlab2016自帶函數(shù)生成隨機矩陣,利用正交函數(shù)對隨機矩陣正交化.由表4可以看出,聲紋識別系統(tǒng)的識別精度不受人數(shù)的影響.對身份向量進行隨機化的正交矩陣處理時,聲紋識別系統(tǒng)的識別精度基本不變.對不同方差的正態(tài)分布進行實驗時,其識別精度也不受影響,如表4所示：

Table 4 EER of Normal Distribution with Different Variances in the Same Period

根據(jù)表5以及圖3～6的實驗結(jié)果，可以驗證本文所提出的方法對聲紋識別認證系統(tǒng)的精確度影響微乎其微.說明本文方法保證了聲紋識別系統(tǒng)的識別性能以及其可行性.

Table 5 EER Without Randomization and Based on Randomization

Fig. 3 Equal error rate of direct identification (50 People)圖3 直接認證(50人)的等錯誤率

Fig. 4 Equal error rate of proposed method (50 People)圖4 本文方法(50人)的等錯誤率

Fig. 5 Equal error rate of direct identification (100 People)圖5 直接認證(100人)的等錯誤率

Fig. 6 Equal error rate of proposed method (100 People)圖6 本文方法(100人)的等錯誤率

3.2 有效性和安全性分析

隨機映射的有效性是指特征變換不會降低聲紋識別的精度.3.1節(jié)已經(jīng)分析出變換前后不會影響聲紋識別系統(tǒng)的精度.研究表明:滿足生物特征模板保護的所有要求是極其困難的.在實際應(yīng)用中,這些條件相互制約,因此需要根據(jù)實際應(yīng)用需求來進行選擇.下面對所提算法在聲紋模板的安全性方面進行分析,這里安全的定義是敵手不能根據(jù)變換后的特征得到原始數(shù)據(jù).

在特征匹配過程中,通過隨機映射正交矩陣R2,提取出與式(4)相同的特征信息,從而保持生物特征在匹配過程中距離不變的性質(zhì).在聲紋識別系統(tǒng)中,正交矩陣保持距離不變,則隨機映射的正交變換不影響其識別精度.

不可逆性由文獻[23]可知需要滿足2個特征:1)在變換域進行;2)若模板被盜,敵手也不能恢復(fù)出原始數(shù)據(jù).本文算法的聲紋特征的判別打分是在變換域進行,因此滿足第1個特性.需要判斷第三方或者敵手是否能根據(jù)y的信息得到x的數(shù)值,文獻[23]的特征由等式y(tǒng)=Rx,可以看出,在一定時間內(nèi)利用窮舉法可推算出x,也即文獻[23]會導致原始生物信息不易泄露,從而不具備可逆性.

本文改進的算法對隨機矩陣進行分解,在服務(wù)器中有2個訓練的特征以及隨機矩陣.在密文和密鑰受到攻擊時,增加了恢復(fù)x的難度，使得敵手在多項式時間內(nèi)很難恢復(fù)出x,從而具備不可逆性.隨機矩陣的分解不僅提高了用戶特征的不可逆性，在訓練后的模板又增加了交叉匹配的安全性.當隨機映射的正交矩陣R和x的維數(shù)相同,在沒有R時,第三方或敵手無法通過y獲取x,說明當隨機矩陣安全保存時,該算法是安全的.

另外,對同一用戶,可以在聲紋識別中選擇不同的隨機矩陣，或在模板泄露的時重新更換隨機正交矩陣,這提高了聲紋模板抵抗已知密文的攻擊能力，同時也證明了該方法的不可逆性.不同的隨機正交矩陣映射到不同的空間,使得用戶數(shù)據(jù)具有多樣性和隨機性.

4 總結(jié)

本文基于隨機映射的特點,與主流的聲紋識別系統(tǒng)i-Vector結(jié)合,提出了一種具有隨機映射特性的聲紋模板保護方法.由理論和實驗結(jié)果分析得出,當隨機矩陣為正交矩陣時,變換前后的身份認證方案的識別性能基本保持不變.由于本文的方案需要先對用戶的身份進行訓練,再用此算法進行識別認證,有一定的局限性.因此,在設(shè)計聲紋的安全模板時需要考慮在訓練過程是否有數(shù)據(jù)的泄露.