摘要:提出了一種基于假設檢驗的隱寫分析方案。該方案將隱寫信息的存在性檢測轉化為二元假設檢驗問題,原始圖像的先驗概率密度函數采用隱馬爾可夫樹(HMT)模型進行估計。將該方案應用于乘性擴頻隱寫的檢測,實驗結果表明,基于隱馬爾可夫樹模型的檢測器比基于獨立同分布(i.i.d)模型的檢測器具有更好的檢測性能。
關鍵詞:隱寫分析;假設檢驗;隱馬爾可夫樹模型
中圖分類號:TP391文獻標識碼:A文章編號:1009-3044(2010)02-299-03
Steganalysis Based on Hypothesis Testing
WANG Yang-guo, WANG Xue-yong, LI Tong-ze, XU Bo
(Military Operations Research Center, Shijiazhuang Army Command College, Shijiazhuang 050084, China)
Abstract: This paper proposes a novel steganalysis scheme based on hypothesis testing. The scheme views the problem of detection the hidden data as binary hypothesis testing and uses hidden Markov tree (HMT) model to estimate the priori probability density of original image. The scheme is applied to detect multiplicative spread spectrum steganography and experimental results indicate the superiority of the HMT based detector than i.i.d based detector.
Key words: steganalysis; hypothesis testing; hidden Markov tree model
1 概述
隱寫術(Steganography)通過在載體(圖像、視頻或音頻文件)上嵌入秘密信息以達到隱藏信息的目的。它的一個重要特性就是不可感知性,即雖然載體中嵌入了機密信息,但是并不影響載體的視覺或聽覺效果。隱寫分析(Steganalysis)就是研究如何通過某種檢測方法發(fā)現隱藏于載體的信息,目的是破壞信息隱藏系統(tǒng)。隱寫分析可分為被動分析和主動分析[1]。被動分析的目的只是檢查通信中是否含有隱蔽信息。主動分析的目的則是試圖提取、刪除、篡改或覆蓋部分或全部隱藏信息,以使隱藏系統(tǒng)無法正常工作。
從數字通信的角度看,秘密信息的嵌入可以理解為在一個寬帶信道(原始圖像)上傳輸一個窄帶信號。盡管嵌入的信號具有一定的能量,但分布到信道中各頻率分量上的能量是難以檢測到的。由于盲檢測相當于在強噪聲中檢測微弱信號,檢測器算法的設計在很大程度上依賴于“信道”的統(tǒng)計模型,即基于宿主載體的統(tǒng)計模型來設計檢測器。因此,如何準確描述信道(原始圖像)統(tǒng)計模型,對提高檢測性能至關重要。
當前,一般對秘密信息假定為服從0均值的高斯隨機序列。但是,對原始圖像的統(tǒng)計描述,則有多種模型,常用的有高斯分布[2]、拉普拉斯分布[3]和廣義高斯分布[4]等。這些模型都是假定原始圖像采樣(如像素值、DCT系數和DWT系數)是獨立同分布的,忽略了采樣間的統(tǒng)計相關性。但是實際上采樣間卻是統(tǒng)計相關的,這樣的假設會低估隱寫分析算法的性能,高估隱寫算法的安全性[5]。一些研究者已經在圖像建模方面做出了有益的探索。Sidorov使用MC(馬爾可夫鏈)模型和MRF(馬爾可夫隨機場)模型來描述像素間的相關性,并用于LSB替換隱藏算法的分析[6];Sullivan使用MC模型用于SS(擴頻)類和QIM(量化索引模型)類隱藏算法的分析[5]。本文使用小波域HMT(隱馬爾可夫樹)[7]模型來描述小波系數間的相關性,提出了基于假設檢驗的隱寫分析方案,并將之應用到乘性擴頻隱寫算法[8]的檢測。實驗結果表明,本文提出的考慮相關性的隱寫分析方法可以有效地提高隱寫分析的檢測性能。
本文剩余部分安排為:第2部分描述基于假設檢驗的隱寫分析方案,包括方案描述、需要解決的關鍵問題和描述統(tǒng)計相關性的HMT模型,第3部分將提出的方案應用于乘性擴頻隱寫算法的檢測,并對實驗結果進行分析與對比,結論見第4部分。
2 基于假設檢驗的隱寫分析方案
假定S、W和Z分別指原始圖像、秘密信息載體和隱寫后的圖像樣本空間,s、w和z分別是各自空間的一個實例,si、wi和zi分別指它們的第i個采樣(采樣可以是像素值或變換域系數等)。在嵌入操作前,一般需要對原始圖象和秘密信息進行預處理,常用的方法是置亂或隨機調制。本研究的目的是從隱寫圖像{zi}中提取出秘密信息載體,至于從提取的序列中解調出秘密信息,這屬于加解密的范疇,不是本文的研究目標。因此,這里的s和w都是指預處理后的信息。一般假設{wi}是高斯隨機序列,且統(tǒng)計獨立于{si},則隱寫過程E可以表示成:
Z=E(S,W)(1)
被動隱寫分析的目的,就是要檢測出隱寫圖象z中是否嵌入了秘密信息。
2.1 假設檢驗方案
從統(tǒng)計學的觀點看,被動隱寫分析問題本質上是二元假設檢驗的問題,零假設H0對應待檢測圖像未嵌入秘密信息,備擇假設H1對應待檢測圖像嵌入了秘密信息。由隱寫過程可知,被動分析可表示為如下的二元假設檢驗:
如果H0為真,判決H1成立,這是一種錯誤判決,稱為第一類錯誤,或虛警;如果H1為真,判決H0成立,這也是一種錯誤判決,稱為第二類錯誤,或漏警。
假設原始圖像采樣序列s的概率密度函數為Ps,則在H0假設下,z的概率密度函數為:
fZ(z|H0)=fS (3)
在H1假設下,z的概率密度函數為:
fZ(z|H1)=fE(4)
似然比表達式為:
Neyman-Pearson準則的判決表達式為:
這里α是給定的虛警概率,判決門限λ由其決定,即
由上式可解得判決門限λ。
此時,對應的檢測概率為:
從上面的分析可以得到檢測器的結構和計算流程示意圖(見圖1)。
幾點說明:
1)關于原始圖像概率密度函數fs的估計。
要做出判決,首先需要知道原始圖像概率密度函數fs。但是,在實際環(huán)境中,隱寫分析人員不太可能知道這種先驗知識,一般的處理方法是假設圖像采樣是服從某種分布的獨立同分布序列。這種假設并不合理,因為圖像采樣間具有很強的相關性,例如,小波系數就具有聚集性和持續(xù)性的特點[7]。這樣的假設會低估隱寫分析算法的性能,高估隱寫算法的安全性。鑒于小波分解在信息隱藏領域的廣泛應用,本文采用能精確描述小波系數的統(tǒng)計模型—小波域HMT模型來對原始圖像建模,并采用EM(expectation maximization)[7]算法估計模型的參數。
2)關于隱寫圖像概率密度函數fE的計算。
這依賴于對嵌入過程的建模,針對具體的嵌入過程,可以計算出相應的概率密度函數。例如,乘性擴頻隱寫算法將隱寫過程抽象為:
z=E(S,W)=s(1+βW) (9)
β是嵌入強度,此時,隱寫圖像概率密度函數fE可表示為[9]:
3)檢測器的檢測性能。
為了考察檢測器的性能,我們可以進行蒙特卡羅仿真實驗[10],使用接收機工作特性(Receiver Operating Characteristic, ROC)曲線作為檢測器的性能指標。ROC曲線描述了檢測概率隨虛警概率變化的函數關系。
2.2 小波域HMT模型
在HMT模型中,小波系數及其所處的狀態(tài)構成一個四叉樹,其中實心點表示小波系數ci,空心點表示小波系數ci所處的狀態(tài)Si。用ρ(i)表示節(jié)點i的父節(jié)點。尺度j=1表示能量最高的層。
1)尺度內的系數服從高斯分布
若已知第i個小波系數的狀態(tài)概率,則小波系數ci的概率密度與其它小波系數及狀態(tài)無關。即:
其中,
Psi=P(Si=m|θ)表示已知參數θ的情況下第i個小波系數處于狀態(tài)m的概率;
fci|si(Ci|Si=m)=h(Ci,μi,m,δi2,m)表示第i個小波系數處于狀態(tài)m時取值為ci的概率,它服從均值、方差分別為μi,m,vi,m的高斯分布。M為第i個小波系數可能的狀態(tài)數。
一般為了簡化模型,都取μi,m=V,M=2(即小波系數有兩種狀態(tài):“大”和“小”)。本文也同樣處理。
2)尺度間狀態(tài)的MC依賴
對于小波系數沿尺度的能量相關性,HMT 模型以隱狀態(tài)的馬爾可夫鏈來描述,即第i個小波系數的狀態(tài)僅依賴于父節(jié)點ρ(i)的狀態(tài),這種依賴關系由以下條件概率表示:
于是小波域的HMT模型可以用下面的參數集來完整地描述:
(13)
該統(tǒng)計模型可以有效地描述小波系數的統(tǒng)計分布及不同尺度間系數的能量相關性,模型參數的估計可以通過EM算法獲得。
如果知道小波系數C和模型參數θ,則可以通過Upward-Downward[7]方法求出各小波系數的后驗狀態(tài)概率P(Si=m|C,θ)。
3)小波系數的聯合概率密度
已知小波系數及其狀態(tài),則小波系數的聯合概率密度函數可以按下式求出:
這里K為小波系數的個數。
3 乘性擴頻隱寫算法的檢測
我們將提出的檢測方案應用于檢測乘性擴頻隱寫。隱寫圖像由公式(9)得到,采用HMT模型對圖像建模并估計模型參數,原始圖像概率密度函數fS由公式(14)估計得到,隱寫圖像概率密度函數fE由公式(10)計算得到,判決門限可以通過公式(7)計算得到。
需要說明的是,嵌入強度β未知,且取值可正可負,因此,判決準則取決于參數β。為簡化計算,我們這里不妨設β>0。
3.1 實驗設計
1)從網上收集1000幅各種大小的圖片,并轉為8位深度的灰度圖像作為原始載體圖像。
2)生成均值為0、方差為1、長度L分別為10、100、1000、2000和5000的5組高斯隨機序列,作為嵌入的秘密信息。
3)將每幅載體圖像小波分解,選取中頻帶最大的L個系數嵌入秘密信息,分別嵌入上述5組不同隨機序列,取嵌入強度β=0.1,嵌入后的小波系數由公式(9)計算得到,然后再逆小波變換,得到嵌入不同長度秘密信息的5幅隱寫圖像。
4)將得到的5000幅隱寫圖像分別使用HMT模型、Gaussian濾波和Wiener濾波進行去噪處理,并計算濾波前后的峰值信噪比(PSNR),以此來比較衡量HMT模型預測載體圖像的性能。
5)將所有6000幅圖像分別按照文獻[11]和本文的方法進行假設檢驗,判決是否含有秘密信息。分別記錄判決正確和發(fā)生虛警的次數,以此得到檢測器的ROC曲線。
3.2 實驗結果與分析
1)HMT模型預測載體圖像的性能
表1是512×512×8bit灰度圖像Lena分別使用HMT模型、Gaussian濾波和Wiener濾波進行去噪處理,并計算濾波前后的PSNR所得到的結果。從結果來看,HMT預測的性能要明顯好于后兩者,Wiener濾波的效果最差。對其它隱寫圖像進行同樣的處理,得到的結果也是類似的。
分析其原因,從Wiener濾波公式[12]的推導過程來看,它實際上是假設原始圖像服從Gaussian分布,完全忽略圖像采樣間的相關性;而Gaussian濾波則是使用3×3窗口內像素的均值代替中心點的值,考慮了圖像采樣的鄰域相關性;而HMT則考慮了更復雜的相關性,因此,性能也最好。
2)HMT檢測器的性能
作為檢測性能的比較,我們采用文獻[11]的檢測器作為對比,對比結果如圖3所示。
從實驗結果可以看出,本文的檢測器的性能明顯優(yōu)于文獻[11]的檢測性能。因為后者的檢測方法以廣義高斯分布來對載體圖像進行統(tǒng)計建模,沒有考慮到載體圖像的實際統(tǒng)計分布特性,自然檢測性能比不上更符合實際統(tǒng)計分布的HMT檢測器。由此可見,采用采樣相關性模型能顯著提高隱寫分析的性能,這和文獻[5]中獨立同分布的假設“會低估隱寫分析算法的性能,高估隱寫算法的安全性”的論斷是一致的。
4 結論
該文針對現有的隱寫分析方法存在的問題開展研究,應用信號檢測理論,將隱寫信息的存在性檢測轉化為二元假設檢驗問題,提出了基于假設檢驗的隱寫分析方案,并將其應用到乘性擴頻隱寫算法的檢測。該方法將載體圖像建模為HMT模型,比獨立同分布的模型更符合實際的統(tǒng)計分布特性,實驗結果表明,基于該模型的檢測器具有更好的檢測性能。
參考文獻:
[1] Trivedi S,Chandramouli R.Active steganalysis of sequential steganography[J].SPIE conference California,vol.5020,pp.123-130,2003.
[2] Trivedi S,Chandramouli R.Secret key estimation in sequential steganography[J].Signal Processing,IEEE Transactions on.2005,53(2):746-757.
[3] 張濤,平西建.基于差分直方圖實現LSB信息偽裝的可靠檢測[J].軟件學報,2004,15(1):151-158.
[4] Cheng Q,Huang T S.An additive approach to transform-domain information hiding and optimum detection structure[J].Multimedia,IEEE Transactions on. 2001,3(3):273-284.
[5] Sullivan K,Madhow U,Chandrasekaran S,et al.Steganalysis for Markov cover data with applications to images[J].IEEE Transactions on Information Forensics and Security.2006,1(2):275-287.
[6] Sidorov M.Hidden Markov models and steganalysis[J].Proceedings of the 2004 workshop on Multimedia and security,2004:63-67.
[7] Crouse M S,Nowak R D,Baraniuk R G.Wavelet-based statistical signal processing using hidden Markov models[J].Signal Processing,IEEE Transactions on.1998,46(4):886-902.
[8] Marvel L,Boncelet C G,Jr,and Retter C T.Spread spectrum image steganography[J].IEEE Trans.on Image Process.1999,8(8):1075-1083.
[9] Papoulis AS,Pillai U.Probability, Random Variables,and Stochastic Processes[M].Boston:McGraw-Hill,2002.
[10] 羅鵬飛,張文明.隨機信號分析與處理[M].北京:清華大學出版社,2006:246--247.
[11] Cheng Q,Huang TS.Robust optimum detection of transform domain multiplicative watermarks[M].IEEE Trans.on Signal Processing,2003,51(4):906-924.
[12] Lim J S.Two-dimensional signal and image processing[M].NJ:Prentice-Hall,1990:674-693.