吳彥鵬,陳明輝,曹榮鑫,孫 奕
(廈門市美亞柏科信息股份有限公司,福建 廈門 361008)
信息隱藏是一種通過各種信息載體進行隱蔽通信的安全技術,常見的信息載體有圖像[1]、語音[2]以及視頻[3]等。近年來,隨著移動網絡和終端的不斷發展,網絡語音通信(Voice over IP,VoIP)已經廣泛應用于網絡電話和即時通信領域。相較于傳統的隱寫載體,它具備較高的隱藏容量和較強的實時性,能夠輕易實現高速且實時的隱蔽通信,因此涌現了一批基于VoIP 的信息隱藏方法。
總的來說,基于VoIP 的信息隱藏可以分為兩類:一類是通過修改VoIP 的網絡協議來實現信息隱藏[4-5];另一類則是通過修改語音載體中的參數來達到信息嵌入的目的[6-10]。由于壓縮語音本身具有一定的冗余性,對參數細微的修改并不會引起語音質量的大幅下降,因此基于載體參數的修改是比較常見的信息隱藏方法。
基于量化索引調制(Quantization Index Modulation,QIM)的方法是壓縮語音編碼中最常見的信息隱藏方法。通過將搜索碼本劃分為兩個子空間,可根據不同的嵌入信息,在搜索碼字時選擇不同的子空間進行搜索,以達到嵌入隱秘信息的目的。例如,Xiao 等人[6]設計了一種名為互補鄰居頂點(Complementary Neighbor Vertices,CNV)的算法,將碼本空間分為兩個部分實現了用于線性預測參數(Liner Prediction Coefficient,LPC)的信息隱藏方法。為了加強CNV-QIM 算法的安全性,Tian 等人[7]提出了一種基于隨機位置選擇和矩陣編碼的信息隱藏方法。實驗表明,該方法相較于Xiao 等人[6]的方法對隱寫分析有更強的抵抗能力。Liu 等人[8]則通過引入矩陣嵌入的方法進一步提升了QIM 算法的隱蔽性和安全性。之后,Huang 等人[9]通過使用秘鑰控制碼本的劃分,再次加強了QIM 算法的魯棒性和安全性。
作為一種重要的語音壓縮編碼,自適應多速率寬帶語音編碼(Adaptive Multi-Rate Wideband,AMR-WB)被廣泛應用于多種移動通信系統。針對AMR-WB 編碼,He 等人[10]設計了一種名為直徑-近鄰法(Diameter-Neighbor,DN)的碼本劃分方法。該方法通過設定一定的規則,在不斷的迭代中將多個近鄰的碼字合并為簇,實現了碼本空間的劃分。實驗表明,通過對AMR-WB 中導譜頻率(Immittance Spectral Frequencies,ISF)量化索引的修改,該方法相較現有方法具有更強的靈活性和明顯的抗檢測能力。
信息隱藏方法在提供安全通信的同時,也可能被不法分子利用,用于各種犯罪活動。因此,針對信息隱藏技術的對抗技術——隱寫分析技術在近年也受到多方關注。為了檢測基于QIM 的信息隱藏,Li 等人[11]基于索引序列分析提出了一種基于機器學習的隱寫分析方法。通過索引分布特性(Index Distribution Characteristics,IDC)特征,該方法可以在某些情況下檢測基于CNV-QIM算法的信息隱藏。Tian 等人[7]和Liu 等人[8]分別對CNV-QIM 進行修改,使基于IDC 特征的隱寫分析方法難以對其進行檢測。后來,Li 等人[12]又提出了一種基于碼書關聯網絡(Quantization Codeword Correlation Network,QCCN)的檢測方法。即使在隱寫的過程中采用矩陣編碼,該方法也能較為準確地檢測出基于CNVQIM 算法的信息隱藏。但是,He 等人[10]指出,該方法在使用了DN-QIM 的AMR-WB 上表現不佳。
此外,Lin 等人[13]首次在VoIP 的隱寫分析上使用循環神經網絡(Recurrent Neural Network,RNN)設計了一種基于RNN 的隱寫分析模型(RNN-based Steganalysis Model,RNN-SM)。該模型包含兩層長短期記憶模型(Long-Short Term Memory,LSTM),通過對大量數據進行訓練和迭代,可以在極短的時間內以較高的正確率檢測出載密語音的存在。
由于He 等人[10]提出的DN-QIM 方法具有較強的抗檢測能力,因此本文利用LSTM 進行特征提取,并使用支持向量機(Support Vector Machine,SVM)對特征進行訓練,設計了一種基于混合分類器的隱寫分析方法,能夠在多種條件下對AMRWB 上的DN-QIM 方法進行有效檢測。
AMR-WB 是由3GPP 制定的壓縮語音標準。在2002 年,ITU 也將其選為寬帶語音編碼標準G.722.2[14]。AMR-WB 支持從6.6 kb/s 到23.85 kb/s的9 種速率。相較于自適應多速率窄帶語音編碼(Adaptive Multi-Rate Narrow Band,AMR-NB),AMR-WB 擁有更高的帶寬和采樣率,因此可獲得更高的語音質量,能更廣泛地應用于網絡電話、電視會議以及無線通信系統等領域。
AMR-WB 語音使用16 kHz 的語音作為輸入,以20 ms 作為幀長,在每幀內執行一次線性預測。在線性預測過程中,編碼器對16 維ISF 參數進行了二級分裂矢量量化(Split-Multistage Vector Quantization,S-MSVQ),獲得了7 個量化索引。
圖1 展示了AMR-WB 編碼器在除6.6 kb/s 速率以外的8 種速率中進行S-MSVQ 的流程。在第一級量化中,編碼器將16 維輸入矢量的殘差矢量分裂為9 維和7 維矢量分別量化,得到了兩個均為8 bit的量化索引Q11和Q12。在第二級量化中,編碼器又將第一級量化后的兩個殘差矢量分別分裂為3 個和2 個矢量進行量化,得到了5 個量化索引Q21、Q22、Q23、Q24、Q25。表1 展示了23.85 kb/s 速率下各量化索引的大小,其中Q22和Q23均為7 bit 的量化索引。由于這兩個索引在幀間和幀內的關聯性均不強,因此He 等人[10]選用了這兩個量化索引進行QIM 隱寫。實驗結果表明,Li 等人[12]提出的QCCN算法無法有效對He 等人[10]的方法進行檢測。

圖1 S-MSVQ 原理

表1 23.85 kb/s 速率下各級矢量索引及其大小
通過分析語音的相關特性,本文有兩類特征被選作訓練特征:第一類特征為索引長時分布特征;第二類特征則是借助LSTM 模型提取的ISF 參數關聯性特征。通過校準技術處理,這兩類特征能夠更好地表征ISF 在信息隱藏前后的變化。
音素是語音的最小單位。各種類型的語言在發音時,其音素通常具備一定的分布特性[11]。這樣的特性導致壓縮語音的相關參數在較長的一段時間內也具備類似的分布。基于這個原理,Li 等人[11]設計了一種基于碼字直方分布的隱寫分析特征。以Q22為例,假設在一段長度為T幀的語音中,量化索引Q22在第i幀中的索引值為Q22,i,則可計算Q22的任一索引值q在這段語音中的分布概率P22,q:

其中,δ(Q22,i,q)根據輸入索引值的不同輸出0或者1,即:

通過式(1)可得,Q22的碼字直方分布特征為{P22,0,P22,1,…,P22,127}共128 維。圖2 展示了量化索引Q22在大量樣本統計下獲得的概率分布,不難看出,信息隱藏確實改變了量化索引的統計概率分布,但差距并不明顯,因此本文還引入了校準技術進一步提升該類特征的分類性能。

圖2 Q22 的量化索引分布概率
校準技術在隱寫分析中常被用于估計原始樣本的特征[15]。在不同的載體和隱藏方法中,具體的使用方法也有所不同[16]。例如,本文中發現,將待檢語音解壓到PCM 后再次進行AMR-WB 壓縮,無論是載密語音還是原始語音,其ISF 的量化索引分布均出現了一定程度上的相似性。圖3 展示了原始語音和載密語音的量化索引Q22在進行重壓縮后的分布概率。可以看出,可以使用重壓縮后的量化索引分布概率作為校準來估計原始語音的統計分布,從而進一步提升特征的分類性能。

圖3 重壓縮后Q22 的量化索引分布概率
如前文所述,假設量化索引Q22的任一索引值q在一段語音中的分布概率為P22,q,將這段語音進行重壓縮后的分布概率為P′22,q,則可以利用P′22,q作為校準構建校準值C22,q:

其中,C22,q為分布概率P22,q和P′22,q的差值。
通過對大量樣本進行統計計算,圖4 展示了Q22在不同索引值下的平均校準值分布。不難看出,原始語音的校準值普遍接近于0,而載密語音的校準值則明顯偏離于0。可見,將再壓縮語音的量化索引分布概率作為校準可以明顯提升該特征的分類性能。

圖4 Q22 的平均校準值分布
實驗表明,校準技術對特征分類能力的提升有很大作用,本文選擇C22=[C22,0,C22,1,…,C22,127]作為索引分布特征用于分類器的訓練和測試。由于Q23與Q22具備類似的分布特性,因此最終送入分類器的索引分布特征為C22和C23的合集共計256 維。
LSTM 是RNN 的一種特殊形式,能夠在較長的時間序列中學習到長期依賴關系[17],因此Lin等人[13]使用雙層LSTM 設計了一種隱寫分析模型,并將其命名為RNN-SM。
通過實驗發現,簡單地將AMR-WB 中的幾個量化索引序列送入到RNN-SM 中進行訓練并不能很好地發揮LSTM 的優勢,主要原因在于Q22和Q23這兩個量化索引序列的關聯性較弱,導致Li 等人[12]提出的QCCN 隱寫分析方法并不能很好地對其進行檢測。這在He 等人[10]的文章中做過詳細說明,也是這兩個量化索引被他們選作隱藏載體的原因。
通過壓縮語音的原理可知,ISF 參數在時序上應當具備較強的關聯性。Q22和Q23這兩個量化索引未能表現出明顯的關聯性的原因主要在于它們都只含有ISF 參數分裂出來的一小部分信息,因此將量化索引重構為ISF 參數后能更明顯地表現出其在時序上的關聯特性。從前文可知,Q22和Q23這兩個量化索引是在前9 維的ISF 參數下進行量化的,因此在本文構建的LSTM 模型中也僅使用前9 維的重構ISF 參數序列進行分類器訓練。需要指出的是,在AMR-WB 編碼器中,解碼端重構16 維ISF 參數時采用的也是索引加偏移的方式存儲ISF 參數,因此本文中也只選取前9維ISF參數的前9比特(即索引)作為特征提取模型的輸入參數來對LSTM 網絡進行訓練。
圖5 展示了在本文中利用LSTM 網絡構建特征提取模型的方法。為了能夠更好地在高層抽象表達特征,提高分類效果,選用三層LSTM 網絡和Sigmoid 激活函數對9 維重構ISF 參數序列進行訓練,并將最后一層神經層輸出的矩陣作為輸出特征用于后續的訓練和測試。

圖5 三層LSTM 特征提取模型
假設送入LSTM 特征提取模型的AMR-WB 語音長度為T幀,則其第1 層神經層中的輸入參數為9×T維的矩陣I1:

假設模型各層中LSTM 單元的個數分別為n1、n2、n3,第k層神經層的輸出為nk×T的矩陣Ok,除第一層的輸入為I1以外,第k層神經層的輸入即為上一層神經層的輸出:

LSTM 單元在計算某一時序的輸出時,輸入包含了過去時序中的信息。以第t幀為例,假設第k層第j個LSTM 單元的輸出為,其輸出結果受前t幀的輸入影響:

其中,y=f(x)是LSTM 單元的輸出函數,x為輸入的向量,y為輸出值。表示取矩陣Ik中第n行中第1 至第t列組成的向量。為輸入權重,當k=1 時,n0=9。
由此可得,第k層的輸出矩陣O k為:

與量化索引分布特征類似,通過LSTM 網絡模型提取的特征在經過校準技術處理后,也能夠提高其分類性能。本文中,第三層LSTM 的輸出矩陣在經過校準處理后被當做提取特征用于后續的訓練和測試。從這里看出,整個特征提取模型最終輸出的矩陣大小為n3×T。因此,輸出的特征維度與輸入語音的長度成正比。特征維度的不穩定性會導致分類器的復雜化,不僅會增加模型訓練的計算量和工作量,也會影響實際應用中的檢測效率。
為解決特征維度的不穩定性,本文采用變長窗口來統一特征維度。檢測前對分類器設置最小檢測窗口長度W,對幀數為W整數倍的語音進行檢測。圖6 展示了如何對一段長度為NW幀的語音進行特征提取。在進行特征提取的過程中,語音被分為N段分別提取特征。假設第k段語音中提取出的索引分布特征和LSTM 網絡模型中提取的特征合集為Fk,則Fk的維度為256+n3×W維。為使每次輸入分類器中的特征維度一致,在各段語音的特征輸出后,對每段語音的特征進行算術平均計算,則可得到維度相同的平均特征F用于后續的訓練和分類。

圖6 基于變長窗口的特征提取方法
圖7 展示了基于混合分類器的隱寫分析方法流程。本方法分為訓練和測試兩個部分。訓練又分為LSTM 網絡的訓練和SVM 的訓練。

圖7 基于混合分類器的隱寫分析方法
LSTM 網絡的訓練過程如下。
(1)收集大量的訓練樣本,通過He 等人[10]提出的算法以100%嵌入率對語音進行信息隱藏處理。
(2)確定最小檢測窗口長度W,將所有的語音裁剪成W幀的語音片段,并對原始語音和載密語音分別進行標注,隨后送入LSTM 網絡特征提取模型中進行訓練,獲得特征提取模塊。
SVM 分類器的訓練過程如下。
(1)根據實驗設置的目標語音長度,將訓練樣本庫中的語音均剪裁為NW幀的語音片段,并進行信息隱藏處理,之后對原始語音和載密語音分別進行重壓縮,因此最終送入SVM 分類器的每個樣本的長度均為NW幀。
(2)根據最短檢測窗口長度W將待訓練的原始語音、載密語音、重壓縮后的原始語音以及重壓縮后的載密語音4 類語音分別裁剪為N段。
(3)分別提取各段長度為W幀的語音的索引分布特征,并將各段語音中對應的ISF 參數序列送入已經訓練好的LSTM 特征提取模型進行特征提取,獲得ISF 參數的關聯性特征。
(4)對同一個樣本中各小分段提取的特征進行算術平均計算,即可得到每個樣本最終的輸出特征,共計256+n3×W維。
(5)通過重壓縮語音中提取的特征對未重壓縮語音中提取的特征進行校準。
(6)根據語音是否進行隱寫對每段語音的特征進行標注,送入SVM 中進行訓練。
測試過程中無需再重新訓練LSTM 特征提取模型,直接對待檢語音進行特征提取即可。
(1)確定待檢語音的長度,對待檢語音進行重壓縮;
(2)根據變長窗口提取待檢語音及其重壓縮語音的量化索引分布特征,并利用LSTM 特征提取模型提取對應的關聯性特征;
(3)對提取的特征集合進行校準處理;
(4)將特征送入SVM 中進行計算,獲得判定結果。
為了驗證本文提出的方法在不同嵌入率和樣本長度下的檢測效果,實驗中收集了大量樣本進行訓練和測試,并和Lin 等人[13]提出的RNN-SM 以及Li 等人[11]提出的IDC 特征進行了比較。He 等人[10]的文章中已通過實驗證明了QCCN 隱寫分析方法[12]難以正確地檢測Q22和Q23這兩個量化索引的修改,因此本文中未選擇QCCN 方法作為參照方法進行對比實驗。
實驗樣本庫中共計3 000段語音,每段語音10 s,包含中英兩種語言。在不同的實驗設置中,這些語音還會被裁剪成不同長度的樣本。實驗中隨機抽取其中1 500 段語音作為訓練集,剩下的1 500 段語音作為測試集。在編碼過程中,選用23.85 kb/s 模式下的AMR-WB 編碼器對樣本集進行編碼和重壓縮。在信息隱藏過程中使用隨機數,根據DN-QIM的方法[10]對所有語音中的Q22及Q23索引進行不同嵌入率的修改。
通常來說,針對VoIP 的隱寫分析需要在實時的環境下對通信進行檢測,檢測窗口越短,越能在短時間內發現隱蔽通信的存在。因此,本次實驗中將最小檢測窗口長度W 設置為1 s,即50 幀。對基于LSTM 網絡的特征提取模型進行訓練時,訓練集中的1 500 段語音被裁剪為15 000 段1 s 的語音用于訓練。模型各層LSTM 單元的個數分別為50、25和10,因此LSTM 網絡特征提取模型最終輸出的特征維度為50×10=500 維。由于迭代250 次后分類的測試結果就不再有明顯提升,因此在訓練過程中,LSTM 網絡迭代次數被設定為250 次。分類器的其他參數均設定為默認參數。
表2 記錄了針對10 s 的語音,多種方法在不同嵌入率下的檢測正確率。可以看出,得益于多種分類器和多種特征混合,本方法在低嵌入率下的表現明顯優于IDC[11]和RNN-SM[13]。當嵌入率為20%時,本方法的檢測正確率相較IDC 高11%以上,相較RNN-SM 高30%以上,展現了較強的檢測能力。

表2 針對10 s 語音在不同嵌入率下的檢測正確率
表3 記錄了在100%嵌入率下,多種方法對不同長度語音的檢測正確率。在待檢語音的長度為1 s時,本方法達到了95%以上的檢測正確率,相較IDC[11]和RNN-SM[13]分別提升1.47%和30.8%。可見,本方法在短樣本長度下依舊能夠有效地對信息隱藏行為進行檢測,在實際使用中能夠在較短的時間內以較高的正確率對網絡語音進行檢測。

表3 在100%嵌入率下不同長度語音的檢測正確率
本文通過研究AMR-WB 上的DN-QIM 信息隱藏方法[10],設計了一種基于混合分類器的隱寫分析方法。該方法中,有一套基于三層LSTM 網絡的特征提取模型用于提取ISF 參數在時序上的關聯性特征,同時量化索引序列的概率分布也被作為特征之一。在對特征進行校準后,特征被送入SVM 中訓練。實驗結果表明,相較于現有方法,本文提出的方法在低嵌入率下具有明顯優勢。校準技術不僅能夠提升分類器的分類正確率,還能夠作為未隱寫語音的特征估計。后續工作將繼續研究如何利用校準技術進行隱寫嵌入率的估計和計算,進一步提升隱寫分析的檢測效果。