何少巖,陳蕉容,陳舜兒
(暨南大學 信息科學技術學院 電子工程系,廣東 廣州510632)
為了解決虛假音頻廣泛傳播和使用在法律取證、商業版權、社會安全等方面引起的諸多問題,數字音頻取證的篡改分析技術應運而生。音頻取證作為一個新興的、剛剛開辟的研究領域,在國內外的研究均處于起步階段,深入研究的空間很大。而音頻錄制環境的檢測方面,由于其自然環境多樣性和復雜性等因素導致鮮有人涉及研究[1]。音頻環境的檢測可以一定程度上判斷出該音頻的原始性和真實性,能夠為司法取證、犯罪偵查等提供重要依據,因此成為了數字音頻取證技術的重要研究方向[2,3]。國外學者Christian Kraetzer等采取傳統MFCC分析方法進行特征提取,應用貝葉斯分類器進行分類對音頻錄制環境和設備的檢測進行了首次實驗[4],開辟了數字取證研究中基于音頻環境和設備檢測的研究領域。該實驗結果顯示對音頻錄制設備檢測的準確率最高為75.99% ,對音頻錄制環境的準確率最高為41.51% 。隨后Robert Buchholz等[5]人又專門針對音頻錄制設備進行檢測,該實驗利用傅里葉系數進行麥克風的分類,分類效果明顯提高,準確率達93.5%。然而,此實驗思路下對音頻錄制環境的檢測準確率一直未有提高。國內學者主要著重于音頻分類領域的研究,使用傅里葉、小波等數學工具將音頻文件分為語音、音樂、環境音等類型 ,在音頻錄制環境辨別與檢測領域的研究并未涉及。本文借鑒前人研究思路,利用已有的音頻分析工具(梅爾倒譜系數分析和小波包分析等)提取音頻的頻域統計特性,該頻域統計特性和音頻的6種時域特征構造特征集合,借助基于期望最大化的機器訓練方法對音頻錄制地點進行分類和判斷,從而實現數字音頻錄制環境的取證。實驗結果表明 ,本文提出的特征提取方式和分類方法合理有效,能夠對大部分音頻錄制環境進行正確的判斷和分類,性能較好。
音頻信號通常采用MFCC進行分析處理,其本質是適應語音特性的濾波器組,是基于同態處理的去卷積倒譜改進算法。傳統的MFCC處理方法是將信號進行傅里葉變換或短時傅里葉變換后,再經一系列處理,得到信號在不同譜帶的功率變化速度。時域信號S的MFCC算法流程如圖1所示[6]。
為了更加充分地計算音頻動態特性,本文中的算法還引入信號的一階差分梅爾倒譜系數 (FMFCC)。該系數更好地消除了音頻每幀之間的相關性,能夠提高音頻特征的辨識率[6]。FMFCC計算如下

其中,sfmel(n+i)表示第n+i幀的倒譜系數。通常j=2,用以求第n幀的前兩幀和后兩幀倒譜系數的線性組合,即一階差分倒譜系數。同理,繼續迭代可求得二階FMFCC。MFCC傳統算法中的傅里葉變換將信號進行等間隔的頻帶劃分。一旦分析窗口大小確定,FFT分析就不能隨著信號的變化而隨時調整時頻分辨率。而多分辨率分析由于尺度變化的局限性,也會導致其在高頻段頻率分辨率較差,在低頻段時間分辨率較差。

圖1 MFCC算法流程
小波包變換思想較好地彌補了上述缺陷。小波包變換延續多分辨率分析方法,并且將時頻空間進行非均勻劃分,在頻率較低的地方采用較長的時間窗。這使得成分復雜的音頻信號能夠被不同分辨率的小波系數表示。本文將小波包變換和MFCC以及FMFCC相結合,再增加音頻時域的6個主要特征 (能量熵、短時能量,頻譜滾降,頻譜重心,頻譜通量,零值點),用以提取音頻特征,從而對數據進行分類。特征提取算法步驟如圖2所示。

圖2 特征提取算法結構
期望最大化算法 (EM)作為k均值算法的擴展,是用于估計未知參數的迭代優化過程。EM根據隸屬概率的權重把數據歸到最為相似的類別中[7]。首先,EM對整體數據集進行初始估計;再反復根據參數向量產生的混合密度對每個數據重新估計;被估計的數據最后用來更新參數估計。EM過程中每個數據產生一個概率值,概率值反映了該數據屬于某定類別集合的可能性大小。
EM算法流程具體描述如下:
期望步驟:每個迭代過程中,EM根據當前估計值為數據尋找一個最佳下界,用期望表示;再用如下概率將數據xi歸類到類別Ck中[8]

其中,p(xi∈Ck)=N(mk,Ek(xi))服從均值為 mk、期望為Ek的高斯分布。該步驟計算了每類別中對象xi的隸屬概率。
最大化步驟:為了使數據集相似性更大化,EM利用期望步驟得到的概率需要重新估計分布,給出未知變量的期望估計[7]

其中,mk表示最終期望估計值。經實驗驗證,EM算法容易實現,對于某些特性的優化函數,收斂性較快。
實驗采用的硬件設備為:得勝PCM5550麥克風、客所思錄音外置聲卡、hp筆記本電腦。為了采集更加細微的環境噪聲數據,麥克風和聲卡均需要特殊的處理和配置,以增加敏感度,適應實驗需求。實驗采用的軟件設備為:Audacity 1.3.5、Matlab 2010b和 WEKA3.7.0,用以實現音頻錄制、特征提取分析和根據提取特征的分類。音頻錄制參數為單聲道、工程采樣率44.1kHz,32-bit float。
為了驗證上述特征提取和分類算法的有效性,音頻數據在六個不同的環境下進行采集[4,9]。錄制地點如下: (i)實驗室,(ii)圖書館,(iii)自習室,(iv)食堂,(v)樓道,(vi)湖邊。為了反映某個環境整體的噪聲特性,在一個環境下音頻的采集工作將分為10個時間點均勻錄制,時間范圍是早八點至晚六點,每個時間點連續錄制5段音頻,每段音頻30s。
采用Matlab 2010b提取錄制音頻的30個特征數據,包括6種時域特征 (能量熵、短時能量,頻譜滾降,頻譜重心,頻譜通量,零值點),12個 MFCC特征 (sfmel1,sfmel2,…,sfmel12)和12個 FMFCC 特征 (sfmelf1,sfmelf2,…,sfmelf12)。特征數據不需要預處理,采用WEKA3.7.0分類工具直接進行聚類分析。分類工具采用EM算法[10,11],聚類模式選用訓練模型。

表1 使用MFCC結合小波包的特征提取算法和EM分類器的分類結果
由表1對角線方向數據可知,本文算法分類的正確率最高可達100% (食堂),最差的正確率為58% (實驗室)。該系統實驗的正確檢測期望為84%。
觀察表1縱向數據可知,在6個類別中Cluster1(圖書館)和Cluster5(湖邊)分類情況最為復雜。Cluster1中,圖書館的分類率為92%,但同時又有一定數目的其他環境下的錄音也被分到了該類中,包括20%的實驗室錄音、30%自習室錄音和10%的湖邊錄音。Cluster5也有相似的結果。這兩組雖然自身的分類正確率均在90%以上,但混入了相當數量的其他類別的錄音,說明圖書館和湖邊這兩個環境下的音頻特征存在與其他環境下音頻特征的相似之處,或者其他環境下某些時段的音頻特征與圖書館和自習室的音頻特征相似。而Cluster0、Cluster2和Cluster4沒有混入其他環境下的音頻。雖然Cluster3的分類正確率為100%,但該組仍混入了其他環境下的音頻。相比而言,Cluster4(樓道)分類正確達98%,說明樓道的音頻特征較為明顯,綜合辨識率較好。

表2 僅使用MFCC特征提取算法和EM分類器的分類結果
橫向觀察表1數據,可知每行的百分數相加均為100%,但不同行數據的離散程度相差較大。R0、R1和R2數據都分布了3列,表明實驗室、圖書館和自習室的音頻特征明顯度較低,或者該環境下不同時段的音頻特征變化較大,易被誤認為其他環境下的音頻。顯而易見,食堂的音頻只集中在1列,沒有被誤判到其他環境。
與上述對比,表2列出了使用MFCC傅里葉變換進行特征提取的分類結果 (其他條件相同)。觀察表2對角線方向發現該算法未采用小波包變換,辨識準確率較低。但該算法在實驗室和自習室兩種環境下的分類效果優于小波包提取算法 (如圖3所示),仍然具有研究意義。

圖3 使用傅里葉和小波提取算法的分類結果對比
此外,本文還采用了基于質心的k均值分類方法進行結果分類,結果如表3所示??梢钥闯觯瑹o論采用傅里葉還是小波包進行特征提取,k均值的分類準確率低于期望最大化算法的準確率。然而,無論采用k均值還是期望最大化分類算法,使用小波包進行特征后分類的結果總是優于傅里葉算法的。表3展示了各個算法下結果的期望、方差以及最大值,用來評價對比各算法的優劣。

表3 EM分類算法和k均值算法分類結果對比
本文針對數字音頻盲取證技術中的環境檢測進行了分析和測試,采用小波包和梅爾倒譜系數分析等數學工具提取特征,結合期望最大化算法進行機器訓練聚類。實驗結論如下:其一,對音頻錄制環境的分類準確率得到了大幅提高;其二,基于期望最大化的分類器比貝葉斯分類器更適合背景環境檢測分類;其三,在k平均值分類器下小波包特征提取算法仍然占優。
本文提出的算法有較大的優越性,但同時有需要提升改進的地方:首先,音頻大多僅具有有限時間長度的純背景噪聲,故在極短噪聲采樣下的音頻環境監測成為了實驗的一大挑戰;其次,算法核心為小波包變換,故小波函數的選取對分類檢測結果有著不可估量的作用,繼續尋找合適的小波函數也是需要進行的又一工作。因此本文的后續研究將繼續深入和提高,期待形成行之有效的檢測系統,從而達到實用的效果。
[1]Ghulam Muhammad,Khaled Alghathbar.Environment recognition from audio using mprg-7features[C]//IEEE Embedded and Multimedia Computing International Conference,2009:1-6.
[2]Malik H,Farid H.Audio forensics from acoustic reverberation[C]//IEEE International Conference on Acoustics Speech and Signal Processing,2010:1710-1713.
[3]Ikram S,Malik H.Digital audio forensics using background noise[C]//IEEE International Conference on Multimedia and Expo,2010:106-110.
[4]Kraetzer C,Oermann A,Dittmann J.A digital audio forensics:A first practical evaluation on microphone and environment classification[C]//the 9th workshop on Multimedia &Security,2007:63-74.
[5]Bucholz R,Kraetzerr C,Dittmann J.Microphone classification using fourier coefficients[C]//11th International Workshop,Darmstadt,2009:236-246.
[6]Kraetzer C,Dittmann J.Mel-cepstrum based steganalysis for voIP-steganography[C]//Security,Steganography and Watermarking of Multimedia Contents IX,2007:6505.
[7]Ngai Ewt,Hu Yong,Wong Yh.The application of data mining techniques in financial fraud detection:A classification framework and an academic review of literature[J].Decision Support Systems,2011,50 (3):559-569.
[8]Uri Nodelman,Christian R,Daphne Koller.Expectation maximization and complex duration distributions for continuous time bayesian networks[C]//the Twenty-First Conference on Uncertainty in Artificial Intelligence,2012:421-430.
[9]Hong Zhao,Hafiz Malik.Audio forensics using acoustic environment[C]//Statistical Signal Processing Workshop,2012:373-376.
[10]ZHANG Xueyuan,HE Qianhua,LI Yanxiong,et al.An inverted index based audio retrieval method[J].Journal of Electronics Information Technology,2012,34 (11):2561-2567(in Chinese).[張雪源,賀前華,李艷雄,等.一種基于倒排索引的音頻檢索方法[J].電子與信息學報,2012,34(11):2561-2567.]
[11]Godiy Daniela.One-class support vector machines for personalized tag-based resource classification in social bookmarking systems[J].Concurrency and Computation-Practice &Experience,2012,24 (17):2193-2206.