傅洪亮,雷沛之
(河南工業(yè)大學(xué)信息科學(xué)與工程學(xué)院,鄭州450001)
測(cè)謊的重要性不言而喻,自20 世紀(jì)末,謊言檢測(cè)逐漸在刑偵、國(guó)安、民事仲裁等方面得到了廣泛的應(yīng)用。人們?cè)谡f(shuō)謊時(shí)往往會(huì)伴有心理變化,這種變化會(huì)導(dǎo)致部分聲音特性的改變,這就使利用語(yǔ)音進(jìn)行測(cè)謊具有了可行性[1]。而且與以往的測(cè)謊方法相比,語(yǔ)音測(cè)謊有操作簡(jiǎn)單、成本低、結(jié)果更客觀等優(yōu)點(diǎn),因此,研究語(yǔ)音測(cè)謊具有重要的現(xiàn)實(shí)意義和使用價(jià)值。但是語(yǔ)音測(cè)謊是一項(xiàng)具有挑戰(zhàn)性的任務(wù),因?yàn)槟壳斑€不清楚運(yùn)用語(yǔ)音中的哪些特征可以高效地分辨謊言和真話。以往的研究中,部分研究者仿照語(yǔ)音情感識(shí)別中傳統(tǒng)的特征提取方法,使用基于先驗(yàn)知識(shí)的人工設(shè)計(jì)的特征LLD(Low-Level Descriptor)和它的統(tǒng)計(jì)函數(shù)HLSF(High-Level Statistic Function)進(jìn)行謊言檢測(cè)。LLD 可以描述短時(shí)語(yǔ)音的語(yǔ)音特性,包括韻律、音質(zhì)等特征,具體來(lái)說(shuō),常見(jiàn)的LLD 包含基頻、能量、過(guò)零率、線性預(yù)測(cè)倒譜系數(shù)、抖動(dòng)等;與此同時(shí),HLSF作為L(zhǎng)LD 的統(tǒng)計(jì)量主要描述了語(yǔ)音的全局動(dòng)態(tài)變化,包括最大值、最小值、方差、偏度等[2]。例如,Ekman 等[3]通過(guò)收集受試者對(duì)于某些電視片段的觀后感來(lái)進(jìn)行語(yǔ)料采集,分析后發(fā)現(xiàn)謊言和真話的基頻部分有明顯差異;Hansen 等[4]利用梅爾頻率倒譜系數(shù)以及它的一階差分、自相關(guān)函數(shù)和互相關(guān)函數(shù)等構(gòu)造出一組特征進(jìn)行謊言檢測(cè)。然而這些人工設(shè)計(jì)的特征是較低級(jí)的,提供的信息不能全面地體現(xiàn)出說(shuō)話人在語(yǔ)音中表達(dá)的主觀狀態(tài),這些特征中的冗余信息也會(huì)干擾識(shí)別,更糟糕的是,僅憑先驗(yàn)知識(shí)很難選擇出真正有效的特征,該過(guò)程還會(huì)花費(fèi)研究者大量的時(shí)間。
近幾年,深度神經(jīng)網(wǎng)絡(luò)在語(yǔ)音識(shí)別、圖像處理等領(lǐng)域取得了優(yōu)異的性能,利用深度學(xué)習(xí)提取出語(yǔ)音特征并進(jìn)行測(cè)謊也引起了研究者的關(guān)注。深度學(xué)習(xí)可以從語(yǔ)音中學(xué)習(xí)到更高級(jí)的 深 度 特 征,如Zhou 等[5]用 深 度 置 信 網(wǎng) 絡(luò)(Deep Belief Network,DBN)將語(yǔ)音的稀疏表示作為輸入進(jìn)行測(cè)謊;Srivastava 等[6]提取語(yǔ)音中的基本特征后,利用多層神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)(Support Vector Machine,SVM)進(jìn)行謊言檢測(cè)。然而這類測(cè)謊方法也有其缺點(diǎn),它沒(méi)有考慮到語(yǔ)音中基于先驗(yàn)知識(shí)的人工特征信息,相當(dāng)于丟棄了語(yǔ)音中的這部分信息,進(jìn)而影響了識(shí)別結(jié)果。有研究表明,人工統(tǒng)計(jì)特征和深度學(xué)習(xí)技術(shù)提取出的特征存在著各自的特征空間,可以從不同的角度來(lái)描述語(yǔ)音的主觀情感狀態(tài)并具有互補(bǔ)性,然而目前還沒(méi)有將其融合在一起進(jìn)行語(yǔ)音測(cè)謊的研究。
針對(duì)這些問(wèn)題,本文提出了基于去噪自編碼器(Denosing Autoencoder,DAE)和長(zhǎng)短時(shí)記憶(Long Short Term Memory,LSTM)網(wǎng)絡(luò)的多特征融合語(yǔ)音測(cè)謊算法,在特征和模型方面都做了改進(jìn),旨在從語(yǔ)音中獲取更豐富的有助于識(shí)別謊言的信息。在特征方面,本文算法根據(jù)2009 年情感識(shí)別挑戰(zhàn)賽制定的特征集,從語(yǔ)音中提取出共384 維的特征及其統(tǒng)計(jì)函數(shù)值;此外,還提取出每條語(yǔ)音的Mel譜。對(duì)于提取出的人工統(tǒng)計(jì)特征,先使用優(yōu)化后的DAE 進(jìn)行處理,去除其中的冗余信息并提煉出更魯棒的特征,對(duì)于Mel譜特征,將其輸入到在語(yǔ)音識(shí)別領(lǐng)域表現(xiàn)卓越的LSTM 模型中,逐幀學(xué)習(xí)語(yǔ)音的深度特征以保留語(yǔ)音中的所有情感細(xì)節(jié)信息。在模型方面,所提算法將傳統(tǒng)DAE 中的每一層都加入批歸一化(Batch Normalization,BN)以提高模型收斂速度,且在批歸一化層之后還加入了dropout 以防止過(guò)擬合,并放棄了傳統(tǒng)的ReLU(Rectified Linear Unit)、tanh(tanhyperbolic)等激活函數(shù),選擇ELU(Exponential Linear Unit)作為激活函數(shù)。之后,將優(yōu)化后的DAE 和LSTM 并行連接在一起,將兩類特征同時(shí)輸入模型進(jìn)行處理,并將融合特征輸入softmax 分類器中進(jìn)行分類。最后在2個(gè)謊言語(yǔ)料庫(kù)上對(duì)所提算法的有效性進(jìn)行了驗(yàn)證。
1.1.1 人工統(tǒng)計(jì)特征
基于人類先驗(yàn)知識(shí)的人工特征和統(tǒng)計(jì)函數(shù)種類豐富,僅憑主觀隨機(jī)挑選部分特征會(huì)丟失許多信息,因此,本文算法使用2009年情感識(shí)別挑戰(zhàn)賽規(guī)定的特征集[7]。該特征集是語(yǔ)音處理領(lǐng)域權(quán)威的人工統(tǒng)計(jì)特征集,制定者選擇了在語(yǔ)音的韻律、音質(zhì)等方面應(yīng)用最為廣泛的特征和函數(shù),包括16 個(gè)LLD及其一階差分和12 個(gè)HLSF,如過(guò)零率、諧波噪聲比、基頻和最大最小值、均方誤差等,具體信息如表1 所示。為了保證實(shí)驗(yàn)的可復(fù)現(xiàn)性,本文使用opensmile[8]開(kāi)源軟件從語(yǔ)音中提取這些特征,最終每條語(yǔ)音都得到16×2×12=384維特征。

表1 2009年國(guó)際語(yǔ)音情感識(shí)別挑戰(zhàn)賽特征集Tab.1 Feature set of 2009 International speech emotion recognition challenge
1.1.2 Mel譜
與人工特征不同,Mel 譜從另一個(gè)角度描述了語(yǔ)音中的細(xì)節(jié)信息。Mel 譜將語(yǔ)音建模成圖像,它不僅包含了豐富的時(shí)頻特性,而且語(yǔ)音中的主觀情感在不同時(shí)間頻率下的變化也可以從譜圖中得到。本文算法首先對(duì)語(yǔ)音信號(hào)進(jìn)行預(yù)處理,這一步的目的是為了消除說(shuō)話人口唇輻射的影響,增加語(yǔ)音的高頻分辨率,之后使用1 024 長(zhǎng)度的漢明窗及512 長(zhǎng)度的幀移對(duì)每條語(yǔ)音進(jìn)行加窗分幀,在本文中,采用64個(gè)Mel濾波器來(lái)過(guò)濾語(yǔ)音信息以保證每幀的信息細(xì)節(jié)程度相同。最終得到的Mel譜維度如式(1)所示:

其中:F 是Mel 濾波器組的大小,為64;T 為幀數(shù),因?yàn)槊織l語(yǔ)音長(zhǎng)度不同,因此T也不一樣。
謊言和真話的Mel 譜圖樣例如圖1 所示,Mel 譜圖中橫坐標(biāo)表示幀序號(hào),縱坐標(biāo)表示頻率,圖中顏色的深淺代表著特定頻帶能量的大小。

圖1 真話和謊話的Mel譜圖Fig.1 Mel spectrum of truth and deception
1.2.1 基礎(chǔ)模型
1)自編碼器由編碼層、隱含層和輸出層組成,數(shù)據(jù)經(jīng)編碼層映射到隱含層,之后再通過(guò)解碼層盡量恢復(fù)出原始數(shù)據(jù),它經(jīng)常被用來(lái)提取數(shù)據(jù)中的高級(jí)特征[9]。去噪自編碼器(DAE)是其經(jīng)典的變種,如圖2 所示,它向原始數(shù)據(jù)中加入部分干擾元素,DAE 需要克服這些雜質(zhì)的干擾以重構(gòu)出原始數(shù)據(jù),因此可以提煉出更具魯棒性的特征。它的編碼過(guò)程和解碼過(guò)程分別如式(2)、(3)所示:

其中:F 為非線性激活函數(shù),一般為sigmoid 或ReLU 函數(shù);W1、W2為編碼網(wǎng)絡(luò)和解碼網(wǎng)絡(luò)的權(quán)重矩陣;B1、B2為偏置向量;X為加入噪聲后的數(shù)據(jù);Y 為隱含層數(shù)據(jù),即提取出的魯棒特征;Z 為輸出層數(shù)據(jù)。它在訓(xùn)練時(shí)利用反向傳播算法來(lái)最小化重構(gòu)誤差,其誤差函數(shù)可以表示為:


圖2 去噪自編碼器Fig.2 Denoising autoencoder
2)長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)。語(yǔ)音中的信息是按序列進(jìn)行編碼的,而循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)在處理序列問(wèn)題時(shí)有明顯的優(yōu)勢(shì)。LSTM 是為了解決RNN 長(zhǎng)程依賴問(wèn)題的特殊類型[10]。如圖3 所示,它的內(nèi)部單元結(jié)構(gòu)比RNN更復(fù)雜,輸入門(mén)、輸出門(mén)、遺忘門(mén)這三個(gè)門(mén)控制著信息的流向,因此它可以有效地存儲(chǔ)和更新上下文信息。LSTM 每次的輸入包括當(dāng)前時(shí)間點(diǎn)的輸入值xt、前一時(shí)間的單元輸出值ht-1和最后的單元狀態(tài)Ct-1三部分,最終將當(dāng)前時(shí)刻的輸出值和當(dāng)前狀態(tài)值一并進(jìn)行輸出。

圖3 LSTM結(jié)構(gòu)Fig.3 Structure of LSTM
遺忘門(mén)確定以往信息的丟棄或保留,它通過(guò)讀取當(dāng)前輸入和上一時(shí)刻的輸出來(lái)確定最終的結(jié)果是0 還是1,0 代表完全丟棄,1代表完全保留。

然后輸入門(mén)決定需要更新的信息并將單元狀態(tài)由Ct-1更新為Ct:

最后輸出門(mén)決定當(dāng)前的狀態(tài)值有多少成為當(dāng)前時(shí)刻的輸出值。

在上述公式中,σ 代表sigmoid 激活函數(shù),這樣每個(gè)門(mén)的輸出都是0到1之間的值,Wf、Wi、Wc、Wo和bf、bi、bc、bo分別代表權(quán)重和偏置向量。
1.2.2 本文設(shè)計(jì)的模型及特征融合
DAE在去除冗余信息、提取魯棒性特征等方面表現(xiàn)良好,LSTM在處理序列問(wèn)題時(shí)能保證數(shù)據(jù)的前后依賴關(guān)系,因此本算法設(shè)計(jì)了如圖4所示的用于特征融合的模型。對(duì)于DAE部分,算法采用兩層神經(jīng)網(wǎng)絡(luò)來(lái)分別組成編碼和解碼部分,并在每一層之后都加入了批歸一化(BN)來(lái)加快模型收斂和提高模型的穩(wěn)定性;因?yàn)檎Z(yǔ)音測(cè)謊是二分類問(wèn)題,在數(shù)據(jù)量有限的情況下容易過(guò)擬合,因此在批歸一化之后加入了一定比率的dropout,使部分神經(jīng)元處于暫停工作狀態(tài),這樣可以有效地避免過(guò)擬合的發(fā)生。同理,LSTM 也加入相同比率的dropout。之后將DAE 和LSTM 進(jìn)行并聯(lián)組合(Parallel connection of DAE and LSTM,PDL)以對(duì)不同的特征同時(shí)進(jìn)行處理,模型的最后為全連接層(Fully Connected Layer,F(xiàn)C)和分類器。這是本文后續(xù)實(shí)驗(yàn)的基本框架。
如前所述,人工特征和深度特征具有不同的特征空間并有互補(bǔ)性,因此本文算法使兩類特征協(xié)作以充分利用語(yǔ)音中的情感信息,進(jìn)而獲得更好的識(shí)別效果。本文算法使用特征融合而不是決策融合,這是因?yàn)樘卣魅诤显O(shè)計(jì)成本低、計(jì)算方便,在許多系統(tǒng)中都得到了應(yīng)用[11]。此外,算法所設(shè)計(jì)的模型是并行連接且同時(shí)工作的,在訓(xùn)練時(shí)需要同時(shí)將不同的特征輸入到對(duì)應(yīng)的模塊中進(jìn)行處理并融合。這也是該模型的先進(jìn)性之一,同時(shí)處理特征能確保特征的一致性,在優(yōu)化模型參數(shù)時(shí)也能保證不同的特征對(duì)融合特征的貢獻(xiàn)度達(dá)到最優(yōu),而不是簡(jiǎn)單的特征堆疊。下面介紹特征融合的過(guò)程。

圖4 本文算法的整體框架Fig.4 Overall framework of the proposed algorithm
對(duì)于人工統(tǒng)計(jì)特征,在模型工作時(shí)將其輸入到優(yōu)化后的DAE中,設(shè)輸入為x1,提取到的魯棒特征(即待融合的特征)為F1,輸出的數(shù)據(jù)為x2,那么DAE 自身的重構(gòu)誤差L1計(jì)算如式(11)所示:

同時(shí),用LSTM學(xué)習(xí)Mel譜中的幀級(jí)深度特征,流程如圖5所示。LSTM 需要一樣維度的輸入,然而語(yǔ)音是不等長(zhǎng)的,因此分幀后的長(zhǎng)度也不相同。為了解決這個(gè)問(wèn)題,本文采用補(bǔ)零的方式讓每條語(yǔ)音Mel 譜的維度保持一致,補(bǔ)充的零不涉及單元內(nèi)的參數(shù)更新,所以不會(huì)影響LSTM 對(duì)深度特征的提取。經(jīng)補(bǔ)零后,CSC(Columbia-SRI-Colorado)庫(kù)中提取出的Mel譜維度都是(1 190,64),Killer庫(kù)中提取出的Mel譜維度都是(709,64)。由于Mel 譜是將語(yǔ)音分幀后提取的,因此LSTM的輸入是組向量[m(1),m(2),…,m(T)],T 為語(yǔ)音的幀數(shù),m(t)為對(duì)應(yīng)幀的Mel 譜;經(jīng)過(guò)LSTM 的學(xué)習(xí)后,可以得到語(yǔ)音的幀級(jí)深度特征[n(1),n(2),…,n(T)]。進(jìn)一步地,為了使LSTM學(xué)習(xí)到更豐富的信息和提高模型的穩(wěn)定性,本文將對(duì)幀級(jí)深度特征進(jìn)行平均處理后(如式(12)所示)得到的F2作為待融合的特征。


圖5 LSTM提取幀級(jí)特征Fig.5 Extracting frame-level features with LSTM
得到兩類待融合的特征后將它們先進(jìn)行批歸一化處理,這一步的目的是消除不同的最大最小值對(duì)融合效果的影響,之后再對(duì)兩類特征進(jìn)行串聯(lián),即得到了兩類特征的組合F=[F1,F(xiàn)2]。然后將F 作為下一全連接層的輸入,全連接層的作用是將它們投射到相同的特征空間中并減少特征維度。特征維度對(duì)識(shí)別效果有一定的影響,維度過(guò)大則冗余信息增多,過(guò)小則會(huì)丟失信息,本文參考了文獻(xiàn)[12-13],經(jīng)過(guò)多次實(shí)驗(yàn)后,將經(jīng)DAE 處理后得到的特征的維度設(shè)為1 024,經(jīng)LSTM 得到的深度特征維度也設(shè)為1 024,全連接層的維度設(shè)為1 024(模型參數(shù)的詳細(xì)信息見(jiàn)實(shí)驗(yàn)部分),即最終得到了1 024 維的融合特征,最后使用softmax 分類器對(duì)融合特征進(jìn)行分類,輸出該語(yǔ)音是真話還是假話的概率。

其中g(shù)i為softmax 的輸出,本文使用交叉熵函數(shù)來(lái)定義分類誤差:

其中yi為語(yǔ)音對(duì)應(yīng)的真實(shí)標(biāo)簽。因?yàn)樵谀P凸ぷ鲿r(shí),DAE 從人工統(tǒng)計(jì)特征中提取出更魯棒的特征和LSTM 從Mel 譜中學(xué)習(xí)幀級(jí)深度特征是同時(shí)進(jìn)行的,所以最終的誤差函數(shù)為:

模型訓(xùn)練時(shí),本文采取小批次隨機(jī)梯度下降法來(lái)最小化誤差函數(shù)[14],這種方法不僅訓(xùn)練速度快,而且在每次更新參數(shù)時(shí)都使用了全部的訓(xùn)練樣本,可以得到全局最優(yōu)解。
為了驗(yàn)證本文所提算法的有效性,本文在CSC 庫(kù)和自行構(gòu)建的謊言語(yǔ)料庫(kù)中進(jìn)行了實(shí)驗(yàn)。CSC 語(yǔ)音庫(kù)是美國(guó)哥倫比亞大學(xué)錄制的用于語(yǔ)音測(cè)謊研究的專業(yè)數(shù)據(jù)庫(kù)[15],參與錄音者都是該校的師生,共32 人,男女各占一半。錄制以訪談形式進(jìn)行,受試者被告知參加一個(gè)“尋找美國(guó)頂級(jí)企業(yè)家”的活動(dòng),并努力使面試官相信自己符合所規(guī)定的條件,最終生成約7.5 h的語(yǔ)音數(shù)據(jù),本文從中剪取了5 400條語(yǔ)音(謊言語(yǔ)音為2 209條),其中包含了4 860條訓(xùn)練數(shù)據(jù),540條測(cè)試數(shù)據(jù)。
此外,參照瑞士Idiap 機(jī)構(gòu)建立的Idiap Wolf 數(shù)據(jù)庫(kù)的規(guī)則及流程[16],本文還自行構(gòu)建了用于語(yǔ)音測(cè)謊研究的語(yǔ)料庫(kù)。先是選擇了網(wǎng)絡(luò)上近50 h 的“狼人游戲”和“殺手游戲”視頻,在游戲中,平民和警察需要找出場(chǎng)上的所有殺手,殺手則需要找出所有警察,玩家需要掩蓋自己的身份并進(jìn)行邏輯推理,因此參與者有了充分的說(shuō)謊動(dòng)機(jī)。每場(chǎng)“狼人游戲”參與者為12 人,每場(chǎng)“殺手游戲”參與者為16 人,剔除重復(fù)參與者后的詳細(xì)人數(shù)見(jiàn)表2。之后用Cooledit 軟件從中提取語(yǔ)音,并邀請(qǐng)多人進(jìn)行聽(tīng)辨檢驗(yàn),去除低質(zhì)量和難以聽(tīng)清的部分后,從中剪切出987 條語(yǔ)音(謊言語(yǔ)音為510 條),其中包含了890 條訓(xùn)練數(shù)據(jù)和97條測(cè)試數(shù)據(jù)。將該語(yǔ)料庫(kù)命名為Killer語(yǔ)音庫(kù)。

表2 游戲玩家人數(shù)Tab.2 Number of players in games
本文所做實(shí)驗(yàn)均基于谷歌的開(kāi)源深度學(xué)習(xí)框架tensorflow,顯卡為GTX 1080ti。所有實(shí)驗(yàn)均重復(fù)10 次并求其均值,以消除偶然誤差影響。模型中各個(gè)部分的參數(shù)如表3所示。
將系數(shù)為0.3 的高斯噪聲加入人工特征作為DAE 的輸入,激活函數(shù)選擇Elu,在模型訓(xùn)練時(shí)采用小批次隨機(jī)梯度下降法,學(xué)習(xí)率設(shè)為0.000 01,dropout統(tǒng)一設(shè)置為0.6,訓(xùn)練最多迭代100次。

表3 模型參數(shù)Tab.3 Parameters of model
本文選取加權(quán)平均召回率(Weighted Average Recall,WA)和非加權(quán)平均召回率(Unweighted Average Recall,UA)作為識(shí)別性能的評(píng)價(jià)指標(biāo)。WA 是正確識(shí)別的樣本數(shù)和所有樣本數(shù)的比值,UA是該類中正確識(shí)別的樣本數(shù)和該類總數(shù)的比值,這是語(yǔ)音測(cè)謊領(lǐng)域常用的評(píng)價(jià)指標(biāo)。
為了驗(yàn)證使用所提出的DAE-LSTM 并行融合特征相較于僅使用單一特征時(shí)對(duì)分類效果的影響,本文分別去掉模型的DAE 部分和LSTM 部分,只保留其一,在其他參數(shù)保持不變的情況下,觀察它們各自的謊言識(shí)別情況。

表4 不同模型的識(shí)別精度 單位:%Tab.4 Recognition accuracy of different models unit:%
從表4中可以看到:所提并行模型在CSC庫(kù)上的WA達(dá)到了65.18%,UA 達(dá)到了62.56%;在Killer 庫(kù)上的WA 達(dá)到了68.04%,UA 達(dá)到了65.35%。相較于僅使用單一特征,并行模型的識(shí)別性能有了較大提升。
結(jié)合收斂曲線圖6 可以看出:并行模型的收斂曲線更平滑且能較快地達(dá)到收斂,說(shuō)明所提模型的穩(wěn)定性較高;Killer庫(kù)上的收斂曲線較CSC庫(kù)有更多的波動(dòng),原因在于Killer庫(kù)的語(yǔ)音數(shù)量較少,且人數(shù)多于CSC庫(kù),因此相對(duì)來(lái)說(shuō)較難收斂。
此外,本文還對(duì)測(cè)試結(jié)果進(jìn)行了T 檢驗(yàn)(顯著性檢驗(yàn)),目的是驗(yàn)證在不同數(shù)據(jù)集中,PDL模型對(duì)識(shí)別效果的改善情況。根據(jù)T 檢驗(yàn)的理論,需要先計(jì)算出兩組數(shù)據(jù)存在差異的概率(P 值),然后根據(jù)此值來(lái)判斷它們是否存在顯著性差異,一般來(lái)說(shuō)當(dāng)P 值小于0.05 時(shí),兩組數(shù)據(jù)存在顯著性差異[17]。檢驗(yàn)結(jié)果如表5 所示,可以看出,在不同的數(shù)據(jù)集上,PDL 模型與單獨(dú)的DAE 和LSTM 模型相比,P 值都小于0.001,因此,所提模型對(duì)識(shí)別效果有明顯的改善。
在本文算法中,將人工統(tǒng)計(jì)特征用DAE 進(jìn)行處理這一步十分關(guān)鍵,如果不利用DAE 提取原始特征中更具魯棒性的特征并去除掉包含在內(nèi)的冗余信息,可能會(huì)影響分類效果,為了驗(yàn)證這一點(diǎn),本文還將未經(jīng)DAE 處理的人工統(tǒng)計(jì)特征直接和深度特征相結(jié)合進(jìn)行測(cè)謊,得到的實(shí)驗(yàn)結(jié)果如表6所示。

圖6 不同語(yǔ)料庫(kù)上的收斂曲線Fig.6 Convergence curves on different corpora

表5 測(cè)試結(jié)果的T檢驗(yàn)Tab.5 T-test of test results

表6 是否利用DAE得到的不同識(shí)別精度 單位:%Tab.6 Different recognition accuracies whether to using DAE unit:%
可以看到,人工統(tǒng)計(jì)特征經(jīng)DAE 處理后再與深度特征融合會(huì)達(dá)到更優(yōu)的識(shí)別效果。與直接融合的方法相比:本文算法在CSC 庫(kù)上的WA 提高了1.29 個(gè)百分點(diǎn),UA 提高了2.48個(gè)百分點(diǎn);在Killer庫(kù)上的WA提高了2.07個(gè)百分點(diǎn),UA提高了2.89 個(gè)百分點(diǎn)。說(shuō)明利用DAE 對(duì)人工統(tǒng)計(jì)特征進(jìn)行處理很有必要。
進(jìn)一步地,本文還將所提算法與其他基于經(jīng)典模型的語(yǔ)音測(cè)謊在識(shí)別效果上進(jìn)行了比較。它們分別是:
1)多層神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)。DNN 屬于基礎(chǔ)模型之一,許多文獻(xiàn)將其設(shè)置為基本對(duì)比模型,在本文中,DNN的層數(shù)設(shè)置為3,隱層單元數(shù)為128。
2)SVM。SVM選擇線性核函數(shù),C值設(shè)置為10。
3)棧式自編碼器(Stacked Autoencoder,SAE)網(wǎng)絡(luò)[18]。根據(jù)文獻(xiàn)[18],SAE的層數(shù)設(shè)置為2,隱層單元數(shù)為200。
4)深度信念網(wǎng)絡(luò)-極限學(xué)習(xí)機(jī)(Deep Belief Network-Extreme Learning Machine,DBN-ELM)[19]。DBN 包含3 個(gè)隱層,每層單元數(shù)為100;ELM的隱層單元數(shù)為120。
以上對(duì)比模型使用的特征均為本文選擇的2009 年情感識(shí)別挑戰(zhàn)賽特征集。
5)卷 積 神 經(jīng) 網(wǎng) 絡(luò)(Convolutional Neural Network,CNN)[20]。文獻(xiàn)[20]中的CNN 為經(jīng)典的Lenet-5,包括3 個(gè)卷積層,卷積核都為5×5,步長(zhǎng)為1,第一個(gè)卷積層的輸出通道數(shù)為6,第二個(gè)為16,第三個(gè)為120,每個(gè)卷積層后都連接一個(gè)最大池化層,該模型使用本文提取的Mel 譜特征進(jìn)行謊言檢測(cè)。
從表7 中可以看出,本文算法的單條語(yǔ)音識(shí)別時(shí)間比其他方法相對(duì)來(lái)說(shuō)要長(zhǎng)一些,這主要是因?yàn)楸疚乃惴ㄊ褂玫娜诤咸卣骶哂懈蟮臄?shù)據(jù)量,以及將Mel譜逐幀輸入LSTM 時(shí)的計(jì)算量也更大,但增加的幅度也僅為幾毫秒到幾十毫秒之間,人體感官幾乎難以察覺(jué),與此同時(shí),本文算法的識(shí)別準(zhǔn)確率卻提升明顯。在CSC 庫(kù)上:本文算法的WA 相較于其他算法最低提升了2.05個(gè)百分點(diǎn),最高提升了5.56個(gè)百分點(diǎn);UA相較于其他算法最低提升了2.53個(gè)百分點(diǎn),最高提升了9.36個(gè)百分點(diǎn)。在Killer 庫(kù)上:本文算法的WA 相較于其他算法最低提升了4.02個(gè)百分點(diǎn),最高提升了7.22個(gè)百分點(diǎn);UA相較于其他算法最低提升了3.79 個(gè)百分點(diǎn),最高提升了9.67 個(gè)百分點(diǎn),識(shí)別結(jié)果顯著優(yōu)于其他算法,進(jìn)一步驗(yàn)證了本文所提算法的先進(jìn)性。

表7 不同測(cè)謊方法的識(shí)別精度與單條語(yǔ)音識(shí)別時(shí)間對(duì)比Tab.7 Comaprison of recognition accuracy and recognition time of single speech by different deception detection methods
為了充分利用語(yǔ)音的不同特征所包含的信息,本文提出了一種基于去噪自編碼器和LSTM 的特征融合語(yǔ)音測(cè)謊算法。該算法分別提取出了語(yǔ)音中的人工統(tǒng)計(jì)特征和Mel 譜圖,在用去噪自編碼器處理人工特征的同時(shí),LSTM 也對(duì)Mel譜進(jìn)行了幀級(jí)深度特征的學(xué)習(xí),最后用softmax 分類器對(duì)融合特征進(jìn)行了識(shí)別。融合特征綜合利用了不同類特征中包含的不同信息,兩個(gè)數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)結(jié)果顯示,相較于以往的識(shí)別方法,本文所提算法可以達(dá)到更高的準(zhǔn)確度。但是,利用融合特征進(jìn)行語(yǔ)音測(cè)謊仍然有廣闊的研究前景,如何選擇其他特征進(jìn)行融合以及使用其他先進(jìn)的模型對(duì)特征進(jìn)行處理,將是下一階段的研究工作。