袁亞飛,盧偉,馮丙文,翁健
(1. 中山大學(xué)數(shù)據(jù)科學(xué)與計算機(jī)學(xué)院,廣東 廣州 510006;2. 暨南大學(xué)信息科學(xué)技術(shù)學(xué)院,廣東 廣州 510632)
基于多預(yù)訓(xùn)練模型的在線隱寫盲分析系統(tǒng)研究與實現(xiàn)
袁亞飛1,盧偉1,馮丙文2,翁健2
(1. 中山大學(xué)數(shù)據(jù)科學(xué)與計算機(jī)學(xué)院,廣東 廣州 510006;2. 暨南大學(xué)信息科學(xué)技術(shù)學(xué)院,廣東 廣州 510632)
在實際應(yīng)用中,針對未知隱寫算法的盲檢測難度非常大,結(jié)合實際應(yīng)用設(shè)計實現(xiàn)了一個在線盲檢測系統(tǒng)。在SRM算法的基礎(chǔ)上,簡化特征提取算法,提高特征可用性和提取速率;使用多個預(yù)訓(xùn)練檢測模型,并采用加權(quán)投票策略判定檢測結(jié)果;設(shè)計實現(xiàn)一種3層系統(tǒng)架構(gòu),分布式后臺更加靈活高效;為了進(jìn)一步滿足實際應(yīng)用要求,引入多線程技術(shù),加快檢測速率。實驗表明,單張圖片的平均檢測時間可達(dá)0.97 s,并且對多種未知隱寫算法均具有良好的檢測結(jié)果。
數(shù)字圖像隱寫;隱寫分析;多模型;加權(quán)投票;在線檢測
信息隱藏是利用現(xiàn)代新興的數(shù)字化技術(shù)發(fā)展衍生出的隱秘通信方式,通過利用數(shù)字化媒介的冗余信息,將有用信息隱藏在普通媒介中,達(dá)到不為人知的目的。根據(jù) Cheddad等在文獻(xiàn)[1]中的總結(jié),信息隱藏技術(shù)主要包括水印(watermarking)和隱寫術(shù)(steganography)這2種。兩者具有一定的技術(shù)相似性,水印多用于數(shù)字版權(quán)保護(hù)、物品真?zhèn)巫R別、防止數(shù)字作品非法傳播、數(shù)字作品盜版追蹤等,通過特定方式可以訪問嵌入的信息;而隱寫術(shù)是將隱秘信息嵌入載體媒介中,人的感官很難發(fā)現(xiàn)隱秘信息的存在,一般方法也很難檢測是否存在秘密信息,提取秘密信息則更加困難。
隱寫術(shù)載體多種多樣,如圖像、音頻、視頻等,由于數(shù)字圖像在網(wǎng)絡(luò)上隨處可見、傳播方便、冗余信息較多,因此成為目前最常用的載體。數(shù)字圖像隱寫術(shù)充分利用了圖像信息的冗余特性和人眼的視覺特性,將信息隱寫到普通圖像中,且不改變原圖像的視覺效果。如 LSBM[2](least significant bit matching)隱寫算法,通過修改圖像像素八分位最低有效位的方法嵌入秘密信息,并且盡可能不改變圖像統(tǒng)計信息和視覺效果。目前比較安全的隱寫算法,如EA[3](edge adaptive)、HUGO[4](highly undetectable steganography)等,傾向于將有效信息嵌入圖像紋理復(fù)雜區(qū)域。這是由于圖像紋理復(fù)雜區(qū)域噪聲較多,像素間依賴關(guān)系較弱,檢測難度很大。
隨著現(xiàn)代網(wǎng)絡(luò)技術(shù)的快速發(fā)展,由于隱寫術(shù)的高度隱蔽性,一旦被非法利用,在互聯(lián)網(wǎng)中傳遞有關(guān)政治、軍事、經(jīng)濟(jì)等重要信息,很有可能會給社會安全帶來巨大危害。
為了對抗隱寫術(shù),檢測是否存在隱寫信息,研究人員進(jìn)行了大量研究和分析。
早期的數(shù)字圖像隱寫分析算法主要從圖像質(zhì)量和統(tǒng)計信息入手,對一些隱寫算法取得了很好的檢測結(jié)果。但隨著隱寫算法的不斷發(fā)展,信息嵌入的隱秘性大大提高,特別是EA[3]、HUGO[4]、WOW[5]wavelet obtained weights)等自適應(yīng)隱寫算法的出現(xiàn),傳統(tǒng)檢測算法很難滿足實際需求。
隨后,機(jī)器學(xué)習(xí)被引入隱寫分析中,通過提取圖像特征,使用機(jī)器學(xué)習(xí)的方法進(jìn)行訓(xùn)練和分類,取得了很好的效果。文獻(xiàn)[6]提出了一種基于馬爾可夫鏈的隱寫分析方法,該方法利用自然圖像像素之間依賴關(guān)系提取圖像特征,取得了較高的準(zhǔn)確率。在此基礎(chǔ)上,Zou等[7]改進(jìn)馬爾可夫模型,計算圖像水平、垂直和對角線方向一階差分矩陣,并進(jìn)行閾值化,計算馬爾可夫特征;Pevny等[8]將馬爾可夫特征擴(kuò)展到二維,計算圖像 8個方向差分矩陣,提出了 SPAM(subtractive pixel adjacency matrix)算法,特征維度為686維,SPAM算法是低維度空間最經(jīng)典的通用檢測算法之一。
自適應(yīng)隱寫算法引入了信息擾動函數(shù)[9],最小化隱寫帶來的圖像信息擾動,大大提高了檢測難度。Fridrich等[10,11]認(rèn)為增加特征多樣性和維度可以有效提高檢測的準(zhǔn)確性,并提出了基于多模型(rich model)的特征提取算法。Fridrich等計算多種像素殘余、多階和多個方向的共生矩陣,大大提高最終特征維度和多樣性,典型的算法,如SRM[11](spatial rich model),維度可達(dá)34 671。
由于基于多模型的特征維度過高,使用傳統(tǒng)的SVM[12,13](support vector machine)分類器計算開銷過大,SVM已經(jīng)不適應(yīng)于多模型特征分類場景,Kodovsky等[14]提出了集成分類器(ensemble classifier)用于高維度特征分類。集成分類器基于隨機(jī)森林(random forests)思想,在高維特征中抽取小的特征子空間,選擇多個弱分類器,如Fisher分類器[15],對每一種子特征進(jìn)行訓(xùn)練和測試,使用多數(shù)投票策略得到最終分類結(jié)果,并利用檢測錯誤率優(yōu)化特征子空間和基礎(chǔ)分類器數(shù)量,從而獲取最優(yōu)分類結(jié)果。集成分類器能夠處理高維度特征,并且分類速度更快,隨著如今隱寫分析特征維度增大,集成分類器已經(jīng)取代SVM成為了隱寫分析領(lǐng)域中主流的分類器。
目前,多模型特征加集成分類器是最常用的檢測手段,但是這類算法在提升特征多樣性的同時,也增加了計算量,特征提取時間長,不利于實際應(yīng)用。本文選取SRM特征中部分子特征組成新的Sub-SRM特征,使用多個預(yù)訓(xùn)練模型用于圖像檢測,設(shè)計了一個高效的在線盲檢測系統(tǒng)。
SRM特征使用多種子特征,但部分特征有效性不高,可能會影響分類效果,很多研究人員對此做了很多改進(jìn)[16]。本文結(jié)合實際應(yīng)用,簡化SRM特征,并選用多個預(yù)訓(xùn)練模型用于分類,使用加權(quán)投票策略判定檢測圖片類型。
3.1 特征簡化
在 SRM算法中,為了提高特征多樣性和維度,選取了不同種類和階數(shù)的特征,但某些子模型質(zhì)量不高,對實際應(yīng)用來說,會影響提取速率和檢測結(jié)果。Sub-SRM算法從中選取出代表性更強的子特征,以及 SPAM、WAM[17](wavelet absolute moment)特征進(jìn)行拼接,總維度為6 966,在降低維度的同時,盡量保持特征的多樣性。子特征選取結(jié)果如表 1所示(特征命名規(guī)則參考文獻(xiàn)[11],其中S后面的數(shù)字表示計算差分矩陣的階數(shù),33和55分別表示計算像素殘余時使用了3×3和5×5大小的濾波核,35表示兩者的組合)。

表1 Sub-SRM特征組成和子特征維度
為驗證Sub-SRM特征的有效性,本文進(jìn)行了10次對比實驗,每次實驗從 BOSSBase[18]v1.01圖像庫中隨機(jī)抽取2 000張圖片,使用HUGO隱寫算法進(jìn)行隱寫,隱寫率為0.25,得到載體圖片和隱寫圖片共計4 000張。得到的圖片平分為2個部分,2 000張用于訓(xùn)練,2 000張用于測試。特征提取算法分別使用 SRM、SRMQ1[11]和本文提出的Sub-SRM特征,分類器為集成分類器,記錄每次實驗的測試錯誤率。表2給出了10次實驗的最大錯誤率、最小錯誤率和平均錯誤率。

表2 不同特征間10次對比實驗結(jié)果
由表2的實驗結(jié)果可以看出,Sub-SRM特征檢測正確率較 SRM特征稍微有些降低,但與SRMQ1特征結(jié)果十分接近,基本保證了正確率。Sub-SRM 算法的優(yōu)勢在于速度,通過實驗可發(fā)現(xiàn),在BOSSBase v1.01圖像庫上提取單張圖片的SRM特征大約需要63.12 s,但提取Sub-SRM特征只需要14.30 s,效率有了很大提升。
3.2 預(yù)訓(xùn)練模型選擇
在通用檢測系統(tǒng)中,預(yù)訓(xùn)練模型對檢測結(jié)果有很大的影響。通過實驗可以發(fā)現(xiàn),1 000張圖片(500張載體圖片和500張對應(yīng)的隱寫圖片)的預(yù)訓(xùn)練模型即可取得較好的檢測結(jié)果,較小的模型也有利于節(jié)省內(nèi)存和分類時間。因此,訓(xùn)練時只隨機(jī)選取 500張載體圖片及其對應(yīng)的500張隱寫圖片制作預(yù)訓(xùn)練模型。預(yù)訓(xùn)練模型命名規(guī)則為

其中,algorithm表示用于制作預(yù)訓(xùn)練模型的隱寫算法,bpp表示隱寫率。所用特征提取算法為3.1節(jié)中的Sub-SRM,分類器為集成分類器。
實驗1和實驗2用于介紹選擇制作預(yù)訓(xùn)練模型的隱寫算法的依據(jù)。其中,cover表示載體圖片,stego表示隱寫圖片。
實驗 1 自適應(yīng)隱寫算法的預(yù)訓(xùn)練模型更具有通用性
本文選用3種隱寫算法(LSBM、EA、HUGO)和2種隱寫率(0.25、0.5)制作預(yù)訓(xùn)練模型,分別進(jìn)行交叉檢測,結(jié)果如表3所示。實驗結(jié)果表明,自適應(yīng)隱寫算法的預(yù)訓(xùn)練模型更具有通用性。這是由于自適應(yīng)隱寫算法信息嵌入更隱秘,模型檢測能力更強;而非自適應(yīng)隱寫算法的信息嵌入機(jī)制比較簡單,嵌入位置更加明顯,檢測難度較自適應(yīng)隱寫算法小;因此自適應(yīng)隱寫算法的預(yù)訓(xùn)練模型對非自適應(yīng)算法也有很好的檢測效果。非自適應(yīng)隱寫算法模型檢測載體圖片的正確率雖然比較高,但其對于自適應(yīng)隱寫算法檢測錯誤率過高,不利于實際應(yīng)用,因此本文不使用這類算法制作預(yù)訓(xùn)練模型。

表3 不同隱寫算法模型檢測錯誤率對比
實驗 2 低隱寫率的預(yù)訓(xùn)練模型檢測隱寫圖片更有效,高隱寫率的預(yù)訓(xùn)練型檢測載體圖片更有效
本文選用HUGO隱寫算法和多種隱寫率,制作預(yù)訓(xùn)練模型,分別檢測LSBM、EA、HUGO算法隱寫圖片,每次隱寫采用0.25和0.5這2種隱寫率,檢測結(jié)果如表4所示。

表4 不同隱寫率模型檢測錯誤率對比
實驗結(jié)果表明,自適應(yīng)隱寫算法的低隱寫率預(yù)訓(xùn)練模型檢測能力更強,這是由于隱寫率較低時,嵌入位置較高隱寫率圖片更加隱秘,低隱寫率圖片訓(xùn)練出的模型檢測高隱寫率圖片的能力更強;相反,高隱寫率會造成信息嵌入位置更明顯,隱寫圖片和載體圖片差異更大,其預(yù)訓(xùn)練模型檢測低隱寫率圖片效果會變差,但檢測載體圖片的正確率會上升。
綜合實驗1和實驗2,以及對檢測效率的考慮,本文只選擇了 ModelHUGO0.15、ModelHUGO0.2、ModelHUGO0.45和ModelHUGO0.5這4個預(yù)訓(xùn)練模型用于圖片檢測。更多的訓(xùn)練模型不一定能提高檢測正確率,反而會增加檢測時間,因此本文在系統(tǒng)中只選用了代表性更強的4個預(yù)訓(xùn)練模型。
3.3 加權(quán)投票策略
由于基于機(jī)器學(xué)習(xí)的分類結(jié)果是不確定性結(jié)果,單個模型的預(yù)測結(jié)果十分不可信,在集成分類器中,使用了多個基礎(chǔ)分類器,采用多數(shù)投票的決策原則判定最終檢測結(jié)果。在盲檢測系統(tǒng)中,筆者認(rèn)為采用多個模型是提高檢測正確率的有效手段。由3.2節(jié)可知,不同預(yù)訓(xùn)練模型對于隱寫圖片和載體圖片檢測能力不同,因此,沒有采用集成分類器中的多數(shù)投票原則,而是使用了加權(quán)投票策略。
在選取的預(yù)訓(xùn)練模型中,ModelHUGO0.15、ModelHUGO0.2由低隱寫率圖片訓(xùn)練得到,由于自適應(yīng)隱寫算法引入信息擾動函數(shù),低隱寫率圖片特征十分接近載體圖片特征,分類器訓(xùn)練出的模型區(qū)分載體和隱寫圖片的能力比較弱,如果檢測結(jié)果是載體圖片,則可信度比較低,需要適當(dāng)降低其投票權(quán)重;但是高隱寫率圖片會使用更多嵌入位置,隱秘性減弱,圖片特征與載體圖片特征差別會比較大,因此ModelHUGO0.15、ModelHUGO0.2更容易區(qū)分高隱寫率圖片,如果檢測結(jié)果是隱寫圖片,則可信度比較高,可以適當(dāng)提高其投票權(quán)重。同理,對于 ModelHUGO0.45、ModelHUGO0.5,如果檢測結(jié)果是隱寫圖片,則可信度比較低,適當(dāng)降低其投票權(quán)重;如果檢測結(jié)果是載體圖片,則可信度比較高,適當(dāng)提高其投票權(quán)重。因此,本文采用多模型動態(tài)加權(quán)投票策略,計算最終檢測結(jié)果為

其中,R<0表示檢測結(jié)果為載體圖片,R>0表示檢測結(jié)果為隱寫圖片,R=0則隨機(jī)返回?1或+1;N=4,表示共有4個預(yù)訓(xùn)練模型參與檢測;wi表示每個模型的投票權(quán)重;ri表示每個模型分類結(jié)果,表示載體圖片,+1表示隱寫圖片。由于每個模型檢測隱寫圖片和載體圖片的能力不同,對其分類結(jié)果的可信度也不同,因此,wi(i=1,2,3,4)的取值規(guī)則為

筆者進(jìn)行了多次實驗,最終在本文系統(tǒng)中,wi1和wi2取值如表5所示。

表5 權(quán)重分配結(jié)果
這種動態(tài)加權(quán)投票策略可以充分發(fā)揮每個模型的預(yù)測能力,盡可能減少單個模型引起的決策誤差,提升檢測正確率。
為了體現(xiàn)本系統(tǒng)的檢測準(zhǔn)確性,本文檢測了多種隱寫算法和隱寫率圖片以及載體圖片,所有檢測圖片均沒有參與模型訓(xùn)練,檢測錯誤率如表6所示。
從實驗結(jié)果可以看出,本文提出的盲檢測系統(tǒng)對于非自適應(yīng)和自適應(yīng)隱寫算法均有較高的檢測準(zhǔn)確率。特別是對于HUGO隱寫算法,在0.25和0.5這2種隱寫率下,均超過了其對應(yīng)預(yù)訓(xùn)練模型自檢的正確率;此外,對于未知的隱寫算法SUNIWARD[19](spatial universal wavelet relative distortion),在0.5的隱寫率下錯誤率只有17.0%,對于0.25的隱寫率也有較好的檢測結(jié)果,說明本系統(tǒng)具有良好的通用性。

表6 系統(tǒng)盲檢測錯誤率
此外,本文目的是實現(xiàn)一個能夠?qū)嶋H應(yīng)用的在線檢測系統(tǒng),因此,檢測效率也是一個十分重要的方面。傳統(tǒng)的基于多模型的盲檢測系統(tǒng)受限于運行效率,難以滿足實際應(yīng)用需求。本文使用了多種技術(shù)手段,設(shè)計了一種3層式架構(gòu),使用分布式的后臺提高運行效率和靈活性。在本文的實驗環(huán)境下,單張圖片檢測用時約 0.97 s,以下幾點有助于加快檢測速度。
1) 簡化的 Sub-SRM 特征選取了更有效特征,維度降低,加快提取速度。
2) 改寫原有 Matlab特征提取算法代碼,改寫成C++代碼,速度更快。
3) 引入了多線程技術(shù)。
4) 選取代表性更強的預(yù)訓(xùn)練模型,減少分類次數(shù)。
5) 預(yù)訓(xùn)練模型較小,可以減少計算開銷,加快分類速度。
數(shù)字圖像隱寫術(shù)由于嵌入信息極為隱秘,隨著網(wǎng)絡(luò)技術(shù)的快速發(fā)展而興起,而相應(yīng)的隱寫分析盲檢測技術(shù)仍然有待進(jìn)一步研究。本文在SRM算法基礎(chǔ)上,提出了Sub-SRM算法,使用多個預(yù)訓(xùn)練模型,并依照每個模型分類能力不同,采用加權(quán)投票策略,設(shè)計開發(fā)了一個在線檢測系統(tǒng),在保證檢測準(zhǔn)確性的前提下,大大提高了檢測速度。下一步將研究更有效的特征提取算法,設(shè)置更合理的決策權(quán)重,提高檢測的準(zhǔn)確性。
[1] CHEDDAD A, CONDELL J, CURRAN K, et al. Digital image steganography: survey and analysis of current methods[J]. Signal Processing, 2010, 90(3): 727-752.
[2] SHARP T. An implementation of key-based digital signal stegano-graphy[C]//The International Workshop on Information Hiding. 2001: 13-26.
[3] LUO W, HUANG F, HUANG J. Edge adaptive image steganography based on LSB matching revisited[J]. IEEE Transactions on Information Forensics and Security, 2010, 5(2): 201-214.
[4] PEVNY T, FILLER T, BAS P. Using high-dimensional image models to perform highly undetectable steganography[C]//The International Workshop on Information Hiding. 2010: 161-177.
[5] HOLUB V, FRIDRICH J. Designing steganographic distortion using directional filters[C]//Information Forensics and Security(WIFS). 2012: 234-239.
[6] SULLIVAN K, MADHOW U, CHANDRASEKARAN S, et al. Steganalysis of spread spectrum data hiding exploiting cover memory[C]//The International Society for Optics and Photonics, Electronic Imaging. 2005: 38-46.
[7] ZOU D, SHI Y Q, SU W, et al. Steganalysis based on Markov model of thresholded prediction-error image[C]//IEEE International Conference on Multimedia and Expo. 2006: 1365-1368.
[8] PEVNY T, BAS P, FRIDRICH J. Steganalysis by subtractive pixel adja-cency matrix[J]. IEEE Transactions on Information Forensics and Security, 2010, 5(2): 215-224.
[9] 凌軼華,蔡曉霞,陳紅. 應(yīng)用共生矩陣特征的改進(jìn)自適應(yīng)JPEG隱寫[J]. 計算機(jī)應(yīng)用研究, 2014(11): 3490-3493.
LING Y H, CAI X X, CHEN H. Improved adaptive steganographic algorithm for JPEG images based on co-occurrence matrix feature[J]. Application Research of Computers, 2014(11): 3490-3493.
[10] FRIDRICH J, KODOVSKY J, HOLUB V, et al. Steganalysis of con-tent-adaptive steganography in spatial domain[C]//The International Workshop on Information Hiding. 2011: 102-117.
[11] FRIDRICH J, KODOVSKY J. Rich models for steganalysis of digital images[J]. IEEE Transactions on Information Forensics and Security, 2012, 7(3): 868-882.
[12] CORTES C, VAPNIK V. Support-vector networks[J]. Machine Learning, 1995, 20(3): 273-297.
[13] LYU S, FARID H. Detecting hidden messages using higher-order statistics and support vector machines[C]//The International Workshop on Information Hiding. 2002: 340-354.
[14] KODOVSKY J, FRIDRICH J, HOLUB V. Ensemble classifiers for stegana-lysis of digital media[J]. IEEE Transactions on Information Forensics and Security, 2012, 7(2): 432-444.
[15] DUDA R O, HART P E, STORK D G. Pattern classification[M]. New York: Wiley, 1973.
[16] 陳世媛, 湯光明, 高瞻瞻. 基于權(quán)值分配的隱寫分析算法[J]. 計算機(jī)應(yīng)用研究, 2016, (11):3468-3471.
CHEN S Y, TANG G M, GAO Z Z. Steganalysis method based on weight allocation[J]. Application Research of Computers, 2016(11): 3468-3471.
[17] GOLJAN M, FRIDRICH J, HOLOTYAK T. New blind steganalysis and its implications[C]//The International Society for Optics and Photonics, Electronic Imaging. 2006: 1-13.
[18] FRIDRICH J, KODOVSKY J, HOLUB V, et al. Breaking HUGO–the process discovery[C]//The International Workshop on Information Hiding. 2011: 85-101.
[19] HOLUB V, FRIDRICH J, DENEMARK T. Universal distortion function for steganography in an arbitrary domain[J]. EURASIP Journal on Information Security, 2014(1): 1.
Online universal steganalysis system based on multiple pre-trained model
YUAN Ya-fei1, LU Wei1, FENG Bing-wen2, WENG Jian2
(1. School of Data and Computer Science, Sun Yat-sen University, Guangzhou 510006, China; 2. College of Information Science and Technology, Jinan University, Guangzhou 510632, China)
In reality, universal blind steganalysis is still a sensitive issue. A universal online steganalysis system that could be used in practical application was proposed. With reducing the dimensions of SRM, it could improve availability and speed up feature extraction. Some effective pre-trained models and weighted voting strategy were used in this system with a B/S architecture, involving a higher speed. In addition, multithread technology was introduced. Experimental results demonstrate that high detection accuracy can be obtained and about 0.97 seconds for single detection with the system.
digital image steganography, steganalysis, multi-model, weighted voting, online detection
s: The Special Funds for Science and Technology Development of Guangdong Province (No. 2016KZ010103), The Natural Science Foundation of Guangdong Province (No. 2016A030313350), The Fundamental Research Funds for the Central Universities (No.16lgjc83), The Scientific and Technological Achievements Transformation Plan of Sun Yat-sen University
TP393
A
10.11959/j.issn.2096-109x.2017.00164

袁亞飛(1991-),男,河南商丘人,中山大學(xué)碩士生,主要研究方向為多媒體信息安全與數(shù)字取證。
盧偉(1979-),男,河南南陽人,中山大學(xué)副教授、碩士生導(dǎo)師,主要研究方向為多媒體信息安全與數(shù)字取證。
馮丙文(1985-),男,山東東營人,博士,暨南大學(xué)講師,主要研究方向為多媒體安全與數(shù)字取證。
翁健(1976-),男,廣東茂名人,博士,暨南大學(xué)教授、博士生導(dǎo)師,主要研究方向為密碼學(xué)與信息安全。
2017-02-23;
2017-03-26。通信作者:袁亞飛,dayinyyf@163.com
廣東省科技發(fā)展專項基金資助項目(No.2016KZ010103);廣東省自然科學(xué)基金資助項目(No.2016A030313350);中央高校基本科研業(yè)務(wù)費基金資助項目(No.16lgjc83);中山大學(xué)科技成果轉(zhuǎn)化計劃基金資助項目