許憲東
(黑龍江工程學院 計算機科學與技術學院,哈爾濱 150001)
目前,人們越來越多地將自己的數字作品發布到互聯網。無論是企業還是個人,其發布數字作品的版權保護問題需要被重視。對于多媒體數字作品的保護,可以采用加密等方法,但是這又不利于數字作品被更多人所獲取。數字水印技術是解決多媒體作品版權保護的一種關鍵技術。
數字水印主要包括可見水印和不可見水印等。其中,可見水印可以較好地適用于大規模多媒體作品的版權保護,人們可以通過可見水印清晰地了解多媒體作品的版權所屬。另一方面,為了不影響多媒體作品的效果,可見水印一般具有一定的透明度,其所占需保護數字作品的區域大小也可能變化較大,這些都造成了對于可見數字水印檢測的難點。
近年來,隨著深度學習技術的不斷發展,人們開始嘗試將深度學習技術應用于數字水印[1-4]?;谏疃葘W習的分類和檢測目前取得了一定的進展,目前研究人員開始逐步利用深度學習技術,實現水印的嵌入與檢測[1-3],出現了基于卷積神經網絡的數字水印方法、基于生成對抗網絡的數字水印方法,在水印檢測和嵌入的網絡模型,誤差函數及水印的生成等諸多領域取得了一定的進步[5-8]。由于可見水印可被大規模地應用到商標保護等諸多領域,大量不同類別、不同大小、不同位置甚至形態各異的的水印可以被添加到大量的載體圖像中,因此可見數字水印的分類和檢測是個難點[9]。
在只有少量樣本的情況下,本文實現了水印的檢測。目標是通過數據增強、遷移學習等方法提高分類的準確性。
由于目前公開的數據集還較少,尤其是相關特定任務更是如此。由于難以獲得大量的樣本數據來完成訓練等任務。針對這一特點,本文通過采用數據增強來獲得更多的樣本數據。
本文選擇了商標數據集[10]和室內數據集[11]來生成添加商標水印的數據集。為了更好地提高檢測的準確性,應對樣本數量過少的問題,通過數據增強方法對數字水印進行了處理,并通過調整參數生成了不同透明度的水印。本文在商標數據集[10]中取少量樣本作為水印圖像,生成的部分水印如圖1 所示。

圖1 部分水印樣本
盡管應用了數據增強方法,但為了滿足實際應用,樣本數量仍然有限。可能存在過擬合和泛化能力差的問題。因此,通過預先在較大數據集上進行訓練的網絡模型,通過遷移學習實現分類是一個較好的選擇。
遷移學習的原理[12]
式中:DS是源域,一般具有大量訓練樣本數據,Dt是目標域。遷移學習的目的是從源域和學習任務TS獲得知識,從而提高目標域中預測函數的準確率。
本文所用遷移方法是微調方法,其被分為2 步。首先,通過大量源域訓練樣本來訓練網絡模型,再在較少樣本上進行微調實現。如圖2 所示,是一個用于分類的神經網絡微調方法,通過對卷積神經網絡進行預訓練和微調實現。

圖2 模型微調框圖
基于上述水印和室內數據集,以室內數據集[11]為宿主圖像,制作了包含水印的樣本數據集。圖3 是部分添加水印后的樣本數據。

圖3 添加水印后的部分樣本數據
所建立的神經網絡模型如圖4 所示。

圖4 神經網絡模型
這里采用預訓練的VGG16 模型。
通過凍結預訓練模型的部分卷積層,并訓練所添加的卷積層和全連接層。通過微調方法完成分類。實驗結果如圖5、圖6 所示。
由圖5、圖6 可以發現訓練逐漸收斂。這里每個類的訓練集和驗證集的樣本數量分別為42 和14。通過這種微調方法,可以利用大量樣本數據訓練得到預訓練模型,這種模型具有較好的特征提取能力,同時,其可以通過模型微調來更好地適應新的分類任務。

圖5 訓練誤差和驗證誤差

圖6 訓練精度和驗證精度
由上文可知,可以通過遷移學習有效的實現分類,獲取圖片包含的水印類別,即使包含的水印對象較小且透明度較高,也能較好地實現分類。在獲取類別后,可以進一步采用滑動窗口、選擇性搜索等方法實現水印目標檢測。
本文提出了一種基于遷移學習的可見水印分類方法,其包含了數據增強和遷移學習兩部分,這種方法只需要少量的水印樣本,適合于特定的難以獲得大量樣本的情況。