楊 博,郭 立,王昱潔,王翠平
(中國科學技術大學 電子科學與技術系,安徽 合肥 230027)
隨著信息技術的發展,信息安全相關的隱寫和隱寫分析引起人們的極大關注。MIDI是樂器數字接口簡稱,是音樂設備和計算機之間交換信息的通信協議,MIDI音頻具有體積小、便于修改等優點,在互聯網、手機等領域有廣泛應用。為保障信息安全,防止利用MIDI文件進行秘密通信活動,開展對MIDI的隱寫和分析研究,具有重要的學術意義和應用價值。
目前針對MIDI文件的隱寫越來越多,文獻[1]提出了MIDI音頻三種隱寫方法,指出LSB空域隱寫是MIDI音頻主要隱寫方法,LSB隱寫方法是將秘密信息隱藏在MIDI音頻力度分量的LSB位,在MIDI音頻力度分量的最低3位嵌入秘密數據,人耳不能有效區別。常用的LSB隱寫方法有LSB最低位替換嵌入、LSB最低位匹配嵌入和LSB最低兩位替換嵌入。
針對LSB隱寫的分析有:2χ算法[2]、RS[3]及SPA[4]算法。2χ檢測算法只適用于LSB最低位連續替換,對隨機替換隱寫無效;RS算法和SPA算法均要求符合一定的統計假設,MIDI音頻數據量小且分布不規則,不符合統計假設,所以上述分析算法對MIDI隱寫分析效果不好。文獻[5]針對LSB匹配隱寫提出基于力度分量平滑度轉換率的分析方法,但在低嵌入率下,檢測正確率較低。文獻[6]提出基于信息量估計的MIDI音頻隱寫分析方法,但沒有考慮MIDI音頻最低位匹配和低兩位替換隱寫檢測。
針對基于MIDI音頻力度分量的三種LSB隱寫方法:LSB最低位替換、LSB最低位匹配及LSB低兩位替換,提出HCF統計特征和SVM的MIDI音頻LSB隱寫分析方法,提取MIDI音頻直方圖特征函數域21維統計特征,用SVM分類器訓練分類器,對原始MIDI音頻和載密MIDI音頻進行分類。實驗表明,提出的隱寫分析方法,在嵌入率大于10%的情況下,對三種LSB嵌入方法平均分類正確率可以達到90%以上。
MIDI文件由頭塊和軌道塊組成,頭塊描述文件的格式、長度和指定時間類型,軌道塊用來存放MIDI指令數據。MIDI指令由間隔時間、系統指令、聲高和力度組成,如表1中所示。間隔時間表示前后音符間隔時間,單位為節拍,在頭塊里設定;系統指令的后四位(0,1,…,15)表示MIDI通道,共16個通道;音高對應音樂中的音符,最高位為符號位,后七位(0,1,…,127)表示音高的值;力度表示敲擊MIDI鍵盤的力度,最高位為符號位,后七位(0,1,…,127)表示力度值,力度為零相當于音符關閉。
ADLI提出[1],在MIDI音頻力度分量低3位嵌入秘密數據,人耳不能有效區別。研究基于MIDI音頻力度分量的LSB隱寫,包括 LSB最低位替換、最低位匹配和低兩位替換隱寫方法。LSB替換原理是指將載體的LSB位直接替換為秘密信息,LSB匹配是指在載體LSB位進行±1隱寫,匹配隱寫對載體樣值點的改變基本是對稱的,所以更難隱寫分析。MIDI音頻力度分量為一維7 bit數據,在[0,127]之間,而且集中在某些力度值上,分布很不規則,而且不同 MIDI音頻數據差異很大,不符合統一的統計分布。
假設MIDI音頻中力度分量的值為 C (i),N為力度分量長度,定義力度分量一階差分 d '(m) = C (i) - C (i - 1 )i =1,2,3,…,N,力度分量的二階差分d''(n) = d '(m) - d '(m -1)m=1,2,3,… ,N -1。MIDI音頻LSB隱寫過程對C、d'和 d''的分布影響較大,圖1中的是隱寫前后C、 d'和 d''分布直方圖,但由于MIDI音頻力度分布不規律,僅靠空域差分特征區別是否隱寫檢測效率不高,所以下文提出基于直方圖特征函數特征的隱寫分析方法。

圖1 LSB低兩位替換隱寫前后力度直方圖分布
設X為隨機變量,pX(x)表示X的概率密度函數(PDF), pX(x)的經驗特征函數(CF)定義如下:,因此CF可以看作是PDF的DFT變換。考慮PDF及CF函數的高階矩作為分析手段,PDF函數的前四階矩分別定義X的均值、方差、偏斜度和峰度。CF函數矩定義為:
CF矩具有比PDF矩更好的分析特性,根據樣本集的直方圖分布離散估計出PDF函數,對直方圖函數作DFT變換即可得到HCF。假設 h[n]是MIDI音頻力度分量的直方圖,用 h[n]可以表征力度分量的分布特征,為PDF的離散估計,則MIDI音頻力度分量直方圖的特征函數(HCF)及其n階矩可以表示為公式 H [k]和 M(hcf)n:

LSB空域隱寫是在MIDI音頻力度LSB位嵌入秘密信息,嵌入過程相當于加性噪聲模型,MIDI音頻力度分量集中分布在某些力度值上,且相鄰力度值之間具有很強的相關性,差分直方圖能夠很好的表示這種相關性。所以不僅僅考慮直方圖的特征函數,還考慮一階和二階差分直方圖的特征函數。圖 2中是隱寫前后C、 d'和 d''的直方圖特征函數H[k]C、H[k]d'和H[k ]d"曲線圖,反應了MIDI音頻隱寫前后直方圖域和直方圖特征函數域的變化,可以看出直方圖特征函數有明顯的變化。所以利用MIDI力度直方圖的特征函數高階矩特征,提取三種直方圖特征函數域 21維特征,利用隱寫前后特征的不同對原始MIDI音頻和載密MIDI音頻進行分類。

圖2 LSB低兩位替換隱寫前后HCF分布
SVM是基于統計學習理論的分類器,其主要思想是通過引入核函數方法將低維的非線性不可分問題轉化為高維空間的線性可分問題,在高維超平面內使得正例和反例之間的隔離邊緣最大化。SVM 具有通用性、魯棒性、有效性、計算簡單和理論完善等優點,所以選擇 SVM 分類器作為MIDI音頻隱寫分析的分類方法。
特征數據輸入到SVM分類器訓練之前,需要對數據進行預處理:首先要剔出奇異值,比如在計算MIDI力度特征時出現個別的無窮大數據,要將此類數據剔出;將特征向量值縮放到[-1,1]區間內,將會提高SVM的分類準確率。
基于HCF統計特征和SVM分類器的隱寫分析方法利用直方圖、一階差分直方圖和二階差分直方圖估計MIDI力度分量的概率密度函數(PDF),然后經過DFT變換,得到經驗特征HCF函數,求出三種直方圖HCF函數的前四階矩,并加上其HCF函數的極大值、極小值和極差值(極大值和極小值之差)共21維特征向量,而后用SVM分類器對原始音頻和載密音頻進行分類。方法的原理框圖如圖3所示。

圖3 基于HCF統計特征的隱寫分析方法
從 MIDI資源庫[5]中下載 87首 MIDI資源,分別進行LSB最低位替換、最低位匹配和低兩位替換隱寫,得到相應的載密MIDI音頻集并組成訓練集和測試集;分別從原始音頻和載密音頻中提取的特征向量,并設置分類標簽為0、1,然后用支持向量機對訓練集 174個樣本進行訓練,在 SVM工具箱選用LIBSVM工具包[6],采用以徑向基函數為核函數的非線性支持向量機。訓練后的支持向量機就是音頻隱寫分析的分類器,用訓練好的分類器對測試集音頻分類,對LSB三種隱寫方法從嵌入率10%到100%分別進行實驗,分類正確率如表2所示。圖4是提出的隱寫分析方法在不同嵌入率下的正確率曲線,實線表示該方法對三種LSB隱寫方法的平均分類正確率曲線,分別與文獻[7]基于平滑度轉換率的隱寫分析及文獻[8]基于信息量估計的隱寫分析方法正確率曲線比較,可以看出,隱寫分析方法在較低嵌入率下,具有更高的分類正確率。

表2 三種LSB嵌入方法在不同嵌入率下的分類準確率

圖4 現提出的隱寫分析方法和文獻[5-6]中方法分類正確率的比較
本文提出了基于 HCF統計特征和支持 SVM 分類器的MIDI音頻隱寫分析方法,通過分析隱寫前后統計特征的變化,提取MIDI音頻力度分量的直方圖特征函數域21維特征,用SVM分類器訓練分類器,對原始MIDI音頻和載密MIDI音頻進行分類。實驗表明,該隱寫分析方法,在嵌入率大于10%的情況下,三種LSB嵌入方法平均分類正確率可以達到90%以上,與文獻[5-6]中的隱寫分析方法相比,具有更高的分類正確率。
[1] ALEXANDER A, ZENSHO N. Three Steganography Algorithms for MIDI Files[C]Guangzhou:[s.n.], 2005:18-21.
[2] 周繼軍,陳鐘. Chi-square檢測算法的特性分析研究[J].武漢大學學報:信息科學版,2006,31(04): 371-374.
[3] FRIDRICH J, GOLJAN M, RUI D. Reliable Detecting LSB Steganography in Color and Gray-scale Images[J]. IEEE Multimedia, Special Issue on Security, 2001,8(04): 22-28.
[4] SORINA D, WU X L, WANG Z. Detection of LSB Steganography via Sample Pair Analysis[J].IEEE Transactions on Signal Processing,2003,51(07):1995-2007.
[5] MIDI Database.Free MIDI File Database [DB/OL]. (2003-06-17)[2009-09-16]. http://www.mididb.com/.
[6] LIN C J. LIBSVM-- A Library for Support Vector Machines[EB/OL].(2009-01-19)[2009-04-15].http://www.csie.ntu.edu.tw/~cjlin/ libsvm/.
[7] 楊博,郭立,王昱潔,等.一種MIDI音頻的LSB 匹配隱寫分析方法[J].信息安全與通信保密,2010(05):87-89.
[8] 楊帆,郭立,徐雷,等.基于信息量估計法的 MIDI音頻隱寫分析[J].通信技術,2010,43(01):86-89.