裴安山,王讓定,嚴迪群
(寧波大學 信息科學與工程學院,浙江 寧波 315211)
隨著互聯網的不斷發展和便攜式智能終端的快速普及,人們能夠更加方便、快捷地借助于各種便攜設備在網絡上與他人分享自己的所見所聞所感,但是隨著數字多媒體編輯軟件的普及,以及其功能的強大和操作的簡單化,編輯、修改以及發布多媒體信息也變得越來越簡單有趣。盡管大多數人對多媒體的編輯只是為了增強表現效果,但也不乏有人無意或是有意,甚至惡意地傳播、發布經過精心篡改或偽造的多媒體數據[1]。
音頻來源取證是數字音頻被動取證中的一個重要環節,目的是通過對獲取的錄音文件進行信號處理與分析,利用能表征錄制設備及其特性的信息,實現對錄音來源的辨識。是對音頻來源的真實性、完整性等進行驗證的,是多媒體取證技術的重要研究內容,其領域隨著學者們日益的關注獲得了重大的研究進展[2-7]。裴安山等[8]首次將設備的本底噪聲應用于語音的設備來源取證研究,將在靜音段上采用譜減法去除環境噪聲之后的噪聲認為是廣義的設備本底噪聲,在此基礎上提出頻譜的對數譜特征作為分類特征,在CKC-SD(CKC Speech Database)語音數據庫上識別準確率達到99%。之后考慮到本底噪聲的提取較大程度上受環境噪聲的影響,該特征的實際場景的通用性偏弱,提出在非語音段上提取特征表征設備特有痕跡的方法,該方法減少了利用譜減法去除環境噪聲的工作,同時考慮到非語音段包含與語音段相同的設備痕跡信息,具有不會受到說話人、文本、情感等可能因素的干擾的優點,將非語音段上去離散余弦變換(Discrete Cosine Transform, DCT)的梅爾倒譜系數(Mel Frequency Cepstral Coefficients, MFCC)作為分類特征,采用均值歸一化方法對提取的特征進行歸一化,最后采用LIBSVM分類器對TIMIT翻錄語音數據庫和CKC-SD語音數據庫的樣本進行分類識別。實驗結果表明,該算法在23種不同型號的設備的識別實驗中平均識別率達到99%[9]。Hanilci等[10]提取錄音文件的MFCC及其一階、二階差分值作為特征向量,用于判斷該錄音文件歸屬何種品牌、何種型號的手機。實驗結果表明,他們在自建的由14種型號手機組成的音頻數據庫上能夠達到96.42%的分類準確率。Kotropoulos[11]使用整個翻錄TIMIT庫訓練的GMM-UBM(Gaussian Mixture Model-Universal Background Model)構建高斯超向量的稀疏表示作為特征時,測試采用SRC(Sparse Representation based Classification)、SVM(Support Vector Machine)和NN(Nearest Neighbor)三種分類器,對數據庫中7種品牌21種型號的手機實現了較高的分類準確率。當下語音設備來源取證的研究大多數所提的分類特征是單一特征,如MFCC特征、頻譜對數譜特征等。因為當下的研究基于的語音數據庫設備的種類和數量較少,設備型號陳舊,導致不同設備采集語音的差異性較大,相關特征在手機來源識別中取得了不錯的效果,但是當語音數據庫中設備種類和數量達到一定程度之后,特別是隨著相同品牌不同型號設備不斷增加后,相關特征在手機來源識別中是否依舊能取得不錯的效果呢?而基于靜音段的特征雖然有效地避免了語義信息和說話人情感等因素的干擾,但是對環境噪聲的要求是較高的,當環境噪聲過大時,靜音段特征提取的工作難度就增大了。
本文通過在現下主流的7個品牌23個型號的手機構建的語音庫上分析不同設備語音信號的語譜圖,發現:不同設備的頻譜信息不盡相同,不同品牌的設備差異明顯,可以用頻譜單一特征來有效地進行區分;而相同品牌不同型號的設備雖然存在差異,但較為相似,單一的頻譜特征難以準確實現不同品牌手機的類內識別。本文研究了語音頻譜對數譜特征、相位譜特征和信息量特征在語音手機來源識別中反映的設備差異信息,發現信息量特征和對數譜特征分別增大了高頻部分和低頻部分頻率幅度譜的差異分辨度,而相位譜特征反映了設備語音在相位譜上的差異信息。在此基礎上為了構建更好地反映設備語音差異的特征,提出一種基于頻譜融合特征的手機來源識別方法。實驗結果表明,語音頻譜融合特征可以作為語音手機來源識別的特征,識別準確率優于單一的頻譜特征和MFCC特征,且融合特征的泛化能力較單一特征會更好。文中算法在由德州儀器(Texas Instruments, TI)、麻省理工學院(Massachusetts Institute of Technology, MIT)和斯坦福研究院(Stanford Research Institute, SRI)合作構建的聲學-音素連續語音語料庫(The DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus, TIMIT)數據庫和研究所自建的基礎語音數據庫(CKC-SD)上的平均識別準確率可以達到99.96%和99.91%。
由于手機和錄音筆具備體積小易攜帶的特點,很多人在進行錄音取證時常常會采用。而隨著手機的快速普及和手機錄音音質的提高,將智能手機作為錄音取證設備的人變得越來越多。本文語音庫錄制采用的手機設備來自7個品牌的23款手機,手機的信息和標簽如表1所示。

表1 實驗手機的品牌列表以及類名Tab. 1 List and specifications of cell-phones
本研究錄制了兩個語音數據庫。第一個語音數據庫是對TIMIT數據庫的語音樣本進行回放和重新錄制的TIMIT翻錄語音數據庫,這也是錄音設備來源識別領域構建基準數據庫的典型方法之一。從TIMIT數據庫中選取100個人(男性50人,女性50人)的1 000個語音樣本,采用高保真音箱(PhilipsDTM3500)進行回放,同時用設備列表中所有的設備一起錄制。共同構成每個手機擁有1 000個翻錄語音的數據庫。第二個數據庫是本研究構建的基礎語音數據庫(CKC-SD)。該構建的數據庫采集了12個人(6名男性,6名女性)的語音。每個人參與兩段語音的錄制,一段是問答和主題演講,一段是固定語料的朗讀,錄制時均要求語速、語調和音強勻速正常,時間長短控制在5 min以上。在相對安靜的辦公室里,將所有錄音設備按圓弧形平放在以參錄人員為圓心的辦公桌上,每個設備距離參錄人員約為1~1.2 m;為了保證語音錄制具有較好的同步性,由多名同學同時控制所有錄音軟件的開關。每臺設備均獲得24段語音,為排除錄音開始之前人為因素引起的噪聲對語音樣本的影響,從語音正式開始錄制部分進行切割,將每段錄音分割成3 s的語音片段,每個手機獲取1 000個語音樣本,這樣就可構建23 000個語音樣本的語音數據庫。
語譜圖又名語音頻譜圖,能簡潔明了地展示語音樣本的頻譜值在時間軸上的變化。圖1給出了8個手機采集的內容為“芝麻開門,我是土豪”的語音的語譜圖的灰度圖。通過觀察圖1可以看出不同品牌手機語音的語譜圖存在很大差異。例如,Samsung Galaxy Note2語音信號的高頻部分語音能量較強;HTC D610t的語譜圖在頻率為4 000 Hz附近有大幅度的下降;iPhone 4s和iPhone 5的語譜圖比較相似,語譜圖在15 000 Hz附近有大幅下降;其他型號的手機語譜圖語音能量分布規律和開始大幅下降的頻率界限也不盡相同。可以得出這樣的猜想:即不同品牌手機的頻譜特征差異較明顯,而相同品牌不同型號的手機的語譜圖雖然總體較為相似,但也存在差異。

圖1 相同語音的語譜圖 Fig. 1 Spectrograms of same speech
為了進一步研究不同設備語音頻譜特征的差異,本文提取了語音的頻譜信息量特征。信息量[12]來源于信息論,它用一個變量的概率描述不確定問題。設一個符號集t={x1,x2,…,xn},第m個符號出現的概率為p(xm),且p(x1)+p(x2)+…+p(xn)=1,每個符號所提供的信息量I=-lbp(xm),某個符號出現的概率越小,則說明該符號攜帶的信息量就越大。頻譜信息量特征的提取過程為:
首先,對語音樣本x進行分幀處理,并對第i幀語音進行快速傅里葉變換,即:
(1)
傅里葉變換的點數N=1 024,k=0,1,…,N-1,i=1,2,…,T,T表示總幀數; 對于第i幀第k個頻率點的頻率值xi(k),求其幅值,即:
(2)
然后,求第k點頻率沿時間軸的統計平均值x(k)和總的頻率值S(k),即:
(3)

(4)
求出頻率點k出現的概率P(k),并得到第k個頻率點的信息量特征,即:
P(k)=x(k)/S
(5)
I(k)=-lbP(k)
(6)
可以看出每個頻率點所攜帶的信息量受該點頻率值幅值、沿時間軸的統計平均值和頻率值總和的影響,不同頻率值的信息量是不同的,頻率值越小其對應的信息量特征越大。由圖1可以看出語音信號在高頻部分的能量較低,可得高頻部分的信息量特征值較大,頻譜信息量特征增大了不同設備高頻部分差異的分辨率。
圖2展示了8款手機(兩臺iPhone)的語音樣本的頻譜信息量特征。其具體實現過程為:首先提取語音樣本頻譜的信息量特征,然后對信息量特征值進行歸一化,再采用特征尋優降維的方法選出區分性最大的特征子集,最后畫出所選特征子集的折線圖。可以看出本文所構建的頻譜信息量特征在不同品牌的手機之間有較明顯的差異,雖然相同品牌不同型號的手機的特征曲線圖較為相似,但可以發現第10~20維特征可以完成相同品牌不同型號的設備區分。

圖2 相同語音的頻譜信息量特征 Fig. 2 Spectral information quantity feature of same speech
語音信號的對數譜特征是先對語音信號的頻譜幅度譜特征作對數運算,然后沿時間軸取統計平均值所得。對第k個頻率點幅值作對數運算,然后沿時間軸取統計平均值得到第k個頻率點的頻譜對數譜特征L(k),即:

(7)
由式(7)可得,對數譜特征的大小與語音信號頻率值幅值變化成正比,頻率幅值越大,對應的對數譜特征的值越大。由圖1可以看出,語音信號的能量主要集中在低頻部分,因此語音信號對數譜特征在低頻部分的值較大,對數譜特征可以有效增加不同設備語音頻譜低頻部分的差異分辨率。
圖3為8款手機(兩臺iPhone)語音樣本對數譜特征的折線圖。具體實現過程為:先提取對數譜特征,然后對特征值進行歸一化,再采用特征尋優降維的方法選出區分性最大的特征子集,最后畫出所選特征子集的折線圖。可以看出本文所構建的頻譜對數譜特征在不同品牌的手機之間有較明顯的差異,雖然相同品牌不同型號的手機的特征曲線圖相對較為相似,但是仍然可以在第8~10維發現明顯差異,作出有效區分。

圖3 相同語音的頻譜對數譜特征 Fig. 3 Spectral logarithmic feature of same speech
頻譜的信息量特征和對數譜特征分別有效地增大了不同設備語音樣本高頻部分和低頻部分的頻譜差異分辨精度,兩組特征都是在語音的頻譜幅度譜特征的基礎上構建的,較好地反映了不同設備在語音幅度譜上不同頻率區間的差異信息。由于頻譜是由幅度譜和相位譜共同構成的,為了提升不同設備之間的差異分辨精度,本文研究了語音信號的相位譜特征。其提取過程如下。
對語音信號第i幀求其相位譜特征:
(8)
然后求其第k個頻率點的相位譜特征沿時間軸的統計平均值Ψ(k),即為本文所提頻譜的相位譜特征:
(9)
圖4是8款手機(兩臺iPhone)語音樣本的相位譜特征的折線圖。其具體實現過程為:先提取語音信號的相位譜特征;然后對該特征沿時間軸按幀取平均和對特征值進行歸一化;最后采用特征尋優降維的方法選出區分性最大的特征子集并畫出折線圖。可以看出不同品牌設備的相位譜特征差異明顯,相同品牌不同型號的手機設備的相位譜特征雖然較不同品牌差異小,但可以進行分類判別,相位譜特征是語音手機來源識別的有效特征。
本文所構建的語音信號的頻譜信息量特征和對數譜特征較為全面地反映了不同設備語音頻譜幅度譜上的差異,構建的相位譜特征較好地反映了不同設備相位譜上的差異。為了更好地反映不同設備語音樣本頻譜特征之間的差異,本文提出了一種基于頻譜融合特征的語音設備來源識別方法,將以上三組頻譜單一特征的初始特征串聯起來,每個語音樣本得到一個1 539維的特征,對樣本初始特征構成的特征空間進行特征值歸一化和采用最佳優先搜索[13]對特征空間尋優降維,特征子集的分類效果的好壞是由CfsSubsetEval評價函數評價的,主要是考量特征子集的預測能力和關聯性[14]。預測能力是指每個特征或每個特征子集的分類性能的優劣,關聯性指的是特征與特征之間的冗余(重復)程度的高低,首選的最優化的特征子集是:與分類具有高相關性,同時特征與特征之間相關度較低的特征子集。最后將所得的最優特征子集作為本文所提的特征。語音頻譜融合特征的構建和基于該特征的手機來源識別的流程如以下步驟所示。
步驟1 對語音樣本進行采樣分幀和加窗;
步驟2 對每幀語音進行快速傅里葉變換得到語音的頻譜xi(k);
步驟3 對頻譜取模得到頻譜幅度譜‖xi(k)‖;
步驟4 對幅度譜按幀取統計平均,得到平均幅度譜特征x(k);
步驟5 對x(k)求信息量特征I(k);
步驟6 對‖xi(k)‖求每幀的對數譜特征,然后沿時間軸取統計平均,得到樣本的對數譜特征L(k);
步驟7 對xi(k)求每幀的相位譜特征,然后沿時間軸取統計平均,得到樣本的相位譜特征Ψ(k);
步驟8 將每個樣本的信息量特征I(k)、對數譜特征L(k)和相位譜特征Ψ(k)串聯起來,構成513×3維的初始的頻譜融合特征F(k);
步驟9 按型號依次提取構建23個手機的23×1 000個語音樣本的初始頻譜融合特征F(k),構成實驗的樣本特征矩陣;
步驟10 采用WEKA平臺的CfsSubsetEval評價函數和最佳優先搜索原則進行特征選擇,得到降維后的樣本特征矩陣和每個樣本的頻譜融合特征Fend(k);
步驟11 采用基于徑向基核函數(Radial Basis Function, RBF)的LibSVM分類器[15],利用5折交叉驗證方式對樣本特征選擇后的特征矩陣進行模型訓練和測試,實驗中對懲罰系數(cost,C)和gamma(γ)的值進行了交叉驗證尋優。

圖4 相同語音的頻譜相位譜特征 Fig. 4 Spectral phase feature of same speech
表2為頻譜融合特征子集(即經過特征選擇后)為57維時,在TIMIT庫上,對23個不同型號的手機的設備來源識別結果,平均識別準確率達到了99.96%。其中只有HTC D610t的樣本和HTC D820t的樣本分類出現誤判,原因可能是兩者屬于同一個品牌,語音樣本特征的差異性相對其他品牌和型號而言較小,所以分類更容易誤判,其他型號手機的識別可以達到較好的識別效果。
表3給出了頻譜融合特征為46維時,在CKC-SD庫上,對23個不同型號的手機的設備來源識別結果,平均識別準確率達到了99.91%。iPhone 5s的識別率最低為98.5%,iPhone 6的識別率為99.5%,兩款手機的部分語音樣本誤判為兩者內的另一款手機,其他品牌和型號的手機可以實現無差錯分類。可能存在的原因是iPhone品牌內部不同型號的手機采集的語音所包含的頻譜特征差異度較小,第2章中的語音信號的頻譜單一特征分析也可以證明這一點。

表2 頻譜融合特征在TIMIT庫上的識別準確率 %Tab. 2 Identification accuracy of spectral fusion feature on TIMIT %

表3 頻譜融合特征在CKC-SD庫上的識別準確率 %Tab. 3 Identification accuracy of spectral fusion feature on CKC-SD %
為了研究頻譜融合特征較語音頻譜單一特征識別性能的優劣,表4給出了對數譜特征、相位譜特征和信息量特征在TIMIT庫和CKC-SD庫上的實驗結果。可以看出對數譜特征和信息量特征在本文所用數據庫上有較好的識別效果,而相位譜的識別效果相對較差,本文所提融合特征的識別準確率要優于單一特征的識別準確率。另外,由表4可得降維后單一特征在TIMIT庫上的特征維數和識別準確率均略高于CKC-SD庫,這一規律與融合特征在兩個數據庫上的表現相互印證,可以得出本文所構建的頻譜單一特征和融合特征在TIMIT庫上的分類性能要略優于CKC-SD庫。

表4 頻譜單一特征的語音設備來源識別結果Tab. 4 Source cell-phone identification results with spectral single feature
為了直觀研究不同特征對各設備識別準確率的影響,圖5給出了不同頻譜單一特征在23款不同型號手機閉集識別的準確率。可以看出在TIMIT庫上頻譜單一特征的識別準確率除HTC品牌以外,基本都優于該特征在CKC-SD庫上的識別準確率。三組頻譜特征中對數譜特征和信息量特征對各個設備均有較好的識別準確率,而相位譜特征在HTC和iPhone上識別準確率較差,該特征各設備的識別準確率較另外兩組特征也略差,可能的原因是不同設備對語音的影響更多地反映在對語音幅度增強的程度不同上,頻譜的相位譜信息含有的設備差異性信息較少。綜合來看各特征在語音庫上的主要誤判來自于iPhone和HTC兩個品牌的設備的類內區分判別,可能造成此結果的原因是這兩款設備的頻譜特征的區分性相對較小。
為了綜合考量本文所提的算法,和Hanilci等[10]提出的基于MFCC特征的手機來源識別算法進行了比較。文獻[10]的工作,無論是從特征的選擇還是實驗設置上,都是十分經典和充分的。將該文所提特征在本文所錄制的語音數據庫上實驗,實驗設置與文獻[10]相同,樣本數目與本文實驗相同。文獻[10]將48維的MFCC及其一階差分特征作為語音設備來源識別的分類特征。表5展示了文獻[10]算法和本文算法在手機來源識別實驗中平均識別準確率的對比。

表5 兩種算法的識別準確率對比 %Tab. 5 Identification accuracy comparison of two algorithms %
從表5可以看出,本文所提算法在平均識別準確率方面較文獻[10]算法好,平均識別準確率在TIMIT庫和CKC-SD庫上分別提高了6.58和5.14個百分點。可能的原因是:文獻[10]中48維的分類特征之中存在冗余特征,其中的冗余的特征可能會降低特征集的識別準確率,而且MFCC特征在提取時的DCT損失了部分語音信號的高頻特征信息,而且離散余弦變換(DCT)的降維也無法保證選取到最優的特征子集。而本文算法將1 539維頻譜組合特征作為原始分類特征,按照最佳優先原則對原始的組合特征集合進行尋優降維,將特征選擇得到的最優特征子集作為最終的分類特征,既有效地降低了特征的維度,降低了計算復雜度,又有效地避免了原始特征中冗余特征對分類識別效果的影響;同時本文所提的頻譜融合特征既通過公式放大了語音樣本特征在高頻部分的差異和語音樣本特征在低頻部分的差異,又包含了頻譜的相位譜信息,有效地涵蓋了頻譜特征的大部分信息,并降低了計算復雜度,提高了計算效率。相比文獻[10]算法,該算法有效提高了識別準確率。
本文從特征泛化的角度提出了一種手機來源識別的方法,用語音頻譜融合特征表征手機特有的痕跡信息進行分類判別。實驗結果也表明了本文所提的特征可以作為語音手機來源識別的分類特征;而且,該特征相比經典的基于MFCC特征的手機來源識別算法有更好的識別效果。該方法應用語音頻譜相關特征進行手機來源識別的研究,但是仍然存在一定的局限性,例如沒有考慮在噪聲攻擊的情況下特征的魯棒性問題,還有基準數據庫的完善和科學設置也是一項值得考究的工作,所以在接下來的工作中會對上述問題展開更加深入的研究。
參考文獻(References)
[1] 胡永健, 劉琲貝, 賀前華. 數字多媒體取證技術綜述[J]. 計算機應用, 2010, 30(3): 657-662.(HU Y J, LIU B B, HE Q H. Survey on techniques of digital multimedia forensics[J]. Journal of Computer Applications, 2010, 30(3):657-662.)
[2] ESKIDERE O. Identifying acquisition devices from recorded speech signals using wavelet based features [J]. Turkish Journal of Electrical Engineering & Computer Sciences, 2015, 24: 1942-1954.
[3] 賀前華, 王志鋒, RUDNICKY A I,等. 基于改進PNCC特征和兩步區分性訓練的錄音設備識別方法[J]. 電子學報, 2014,42(1):191-198. (HE Q H,WANG Z F, RUDNICKY A I, et al. A recording device identification algorithm based on improved PNCC feature and two-step discriminative training[J]. Acta Electronica Sinica, 2014, 42(1): 191-198.)
[4] KOTROPOULOS C, SAMARAS S. Mobile phone identification using recorded speech signals [C]// Proceedings of the 2014 19th International Conference on Digital Signal Processing. Piscataway, NJ: IEEE, 2014: 586-591.
[5] ESKIDERE O. Source microphone identification from speech recordings based on a Gaussian mixture model[J]. Turkish Journal of Electrical Engineering & Computer Sciences, 2014, 22(3):754-767.
[6] PANAGAKIS Y, KOTROPOULOS C L. Telephone handset identification by collaborative representations[J]. International Journal of Digital Crime & Forensics, 2013, 5(4):1-14.
[7] HICSONMEZ S, SENCAR H T, AVCIBAS I. Audio codec identification from coded and transcoded audios[J]. Digital Signal Processing, 2013, 23(5):1720-1730.
[8] 裴安山, 王讓定, 嚴迪群. 基于設備本底噪聲頻譜特征的手機來源識別[J]. 電信科學, 2017,33(1):85-94.(PEI A S, WANG R D, YAN D Q. Cell-phone origin identification based on spectral features of device self-noise[J]. Telecommunications Science, 2017, 33(1):85-94.)
[9] 裴安山, 王讓定, 嚴迪群. 基于語音靜音段特征的手機來源識別方法[J]. 電信科學, 2017, 33(7):103-111.(PEI A S, WANG R D, YAN D Q. Source cell-phone identification from recorded speech using non-speech segments[J]. Telecommunications Science, 2017, 33(7):103-111.)
[10] HANILCI C, ERTAS F, ERTAS T, et al. Recognition of brand and models of cell-phones from recorded speech signals[J]. IEEE Transactions on Information Forensics & Security, 2012, 7(2): 625-634.
[11] KOTROPOULOS C L. Source phone identification using sketches of features[J]. IET Biometrics, 2014, 3(2): 75-83.
[12] 沈連豐,葉之慧. 信息論與編碼[M]. 北京: 科學出版社.2004:12-17. (SHEN L F, YE Z H. Information Theory and Coding[M]. Beijing: Science Press, 2004: 12-17.)
[13] XU L, YAN P, CHANG T. Best first strategy for feature selection [C]// Proceedings of the 9th International Conference on Pattern Recognition. Piscataway, NJ: IEEE, 1988: 706-708.
[14] HALL M A. Correlation-based feature selection for machine learning [D]. Hamilton, New Zealand: The University of Waikato, 1999: 51-74.
[15] 林升梁,劉志. 基于RBF核函數的支持向量機參數選擇[J].浙江工業大學學報,2007,35(2):163-167.(LIN S L, LIU Z. Parameter selection in SVM with RBF kernel function [J]. Journal of Zhejiang University of Technology, 2007, 35(2): 163-167.)
This work is partially supported by the National Natural Science Foundation of China (61672302, 61300055), the Natural Science Foundation of Zhejiang Province (LZ15F020002, LY17F020010), the Ningbo Natural Science Foundation (2017A610123), the Scientific Research Foundation of Ningbo University (XKXL1509, XKXL1503).
PEIAnshan, born in 1992, M. S. candidate. His research interests include multi-media communication, information security, mobile terminal source detection.
WANGRangding, born in 1962, Ph. D., professor. His research interests include multi-media information security, digital forensics.
YANDiqun, born in 1979, Ph. D., associate professor. His research interests include multi-media information security, digital forensics.