文/雷樸承
隨著深度學習技術在近幾年的迅速發展,在信息隱藏領域,很多研究是利用深度網絡來進行隱寫分析(Steganalysis),而專門利用深度學習來幫助信息隱藏(Steganography)的研究相對較少,因此,本文提出了將深度學習與信息隱藏相結合的模型,在一定程度上推動了該領域的發展。
要衡量一個現代信息隱藏方案的質量如何,經常從三個性能指標來進行評價——即容量、透明性和魯棒性。
在單位時間或者一幅作品中能夠實際嵌入的隱藏消息數,對圖片而言,即為一幅圖中的隱藏信息比特數;對音頻而言,即為單位時間內能夠嵌入的隱藏信息比特數。
所嵌入信息不被探測到的程度,也稱不可感知性。對于一個多媒體媒介,嵌入秘密信息必然會改變其原有信號特征,因此隱藏方案不應導致原媒體質量的明顯下降,不會對載體的正常使用產生影響。

圖1:音頻信息隱藏的深度網絡結構
隱寫載體抵抗不同種類信號處理攻擊的能力,是數字水印比較注重的特征,高魯棒性的隱藏方案應使得原有媒介在經過一定程度的信號處理或攻擊后,仍能重建隱藏信息。
這三個指標往往是相互對立的,沒有一種方案能夠完全將三者都做好,因為透明性需要隱藏的信息量較少,不能對原有載體改動過大,與容量指標是矛盾的;而高魯棒性的算法往往修改了圖像的重要部分以抵御攻擊,因此對圖像的改動較大,降低了方案的透明性。
由于載體媒介的形式與圖像不同,因此整個深度網絡相比之前的結構需要重新設計,但其背后的原理是一致的,網絡模型的結構如圖1。
原始音頻Ao首先經過頻域變換,此處可靈活地選取不同種類的方案來進行,例如DCT、DWT、SVD 等,亦或是它們的組合,變換完成后即進入編碼層網絡,此處進行秘密信息的嵌入,以及頻域的反變換,完成后即可得到編碼完成的音頻Ae;然后進入解碼層網絡,由此處進行隱藏信息的重建,得到Mr。
與先前圖像隱寫的網絡結構類似,這里不同層的網絡依然可以受到損失函數的影響,來達到訓練效果。
本文在已有的多媒體隱寫實現之上,結合深度學習提出了兩種具有可行性的圖片、音頻深度網絡隱寫模型。本文提出的模型在現有的隱寫領域研究相對較少,而隨著深度學習技術的發展,它仍可以繼續完善,在版權保護、保密通信領域都具有一定的發展和應用潛力。