杜 玲,陳 振
天津工業大學 計算機科學與技術學院,天津 300387
感知哈希技術起源于數字水印技術,借鑒了傳統密碼學哈希和多媒體認證等相關領域的概念和理論,通過對多媒體感知信息的簡短摘要和基于摘要的匹配,來支持媒體感知內容認證。圖像感知哈希技術是感知哈希最重要的分支之一。基于感知哈希圖像認證為圖像內容認證提供了安全可靠的技術支撐,認證模型如圖1所示。在信息的發送端,哈希生成后可以通過伴隨或嵌入圖像數據方式傳輸,也可單獨傳輸。在接收端,接收圖像的感知哈希通過同樣的方法提取,并同接收的哈希進行比較來完成認證過程。現有大多數文獻將感知哈希分成兩個階段:特征提取和量化壓縮。特征提取需要保證從圖像中提取出來的特征應滿足在圖像經過非惡意信號處理操作(不改變圖像感知內容的操作)之后,仍然能夠提取出來這些特征,并且這些特征對圖像篡改操作敏感。而量化壓縮階段是為了保證感知哈希算法的摘要性,通常會把特征提取階段所提取的特征進行壓縮編碼成二進制向量以作為哈希值。
因此,圖像感知哈希是提取圖像I的感知特征,并將其映射成長度更短的比特序列h為感知摘要的一種技術。提取的感知特征,應具有魯棒性和區分性,即能夠對保持圖像內容的操作魯棒,同時也能夠對改變圖像感知內容的惡意操作敏感。依據某種方法提取的感知特征,最終的感知摘要都反映了整體圖像的感知內容,即描述圖像的總體感知特征,而當圖像中存在人為的局部惡意篡改時,如增加物體、移除物體、改變顏色、改變背景等,這些篡改操作將會影響到圖像的感知內容,相對于原始圖像的感知哈希h1,篡改圖像的感知哈希h2在某些比特位將會由于圖像感知內容的變化而發生變化。因此,通過度量h1、h2兩者之間的感知距離,如漢明距離、歐式距離等,則可進行篡改檢測。其次,在基于圖像感知哈希篡改區域定位問題上,一般采用圖像分塊設計方法。感知哈希能夠將圖像感知內容映射成簡短的哈希摘要,通過對圖像進行分塊,并提取圖像塊的感知特征進行組合,形成最終的感知哈希。在篡改定位時,通過度量對應圖像塊之間的感知距離,用于判定該圖像塊是否屬于篡改區域。因此,感知哈希不僅可以描述圖像的總體特征,而且在圖像局部區域提取感知哈希時,也能夠反映圖像的局部特征,從而實現篡改區域定位。

Fig.1 Image authentication model based on perceptual Hashing圖1 感知哈希認證應用模型
目前,針對基于感知哈希的圖像認證,大多數哈希算法致力于基于魯棒的特征提取產生圖像哈希。主要包括:(1)基于不變特征變換的方法,如傅里葉-梅林變換(Fourier-Mellin transform,FMT)[1],離散余弦變換(discrete cosine transform,DCT)[2]等變換域方案。(2)基于局部特征點的方案,如基于end-stopped小波[3]和基于SIFT(scale-invariant feature transform,SIFT)[4],主要利用局部特征在幾何變換等圖像處理攻擊下的不變性產生哈希值。(3)基于降維的方案,如奇異值分解(singular value decomposition,SVD)[5]、非負矩陣分解(non-negativematrixfactorization,NMF)[6]和快速約翰遜-林登斯特拉斯變換(fast Johnson-Lindenstrauss transform,FJLT)[7]。事實上,在獲得魯棒的感知特征后,研究者們提出了很多哈希編碼方案完成特征空間到漢明空間的映射。1999年,Indyk等人[8]首次提出局部敏感哈希(locality sensitive Hashing,LSH),它是應用最普遍的哈希方法之一,利用簡單的隨機線性映射將歐式空間中的高維數據映射為漢明空間中的低維數據。隨后研究者們將LSH擴展到核空間,比較典型的方法是核化局部敏感哈希(kernelized locality-sensitive Hashing,KLSH)及平移不變核化哈希(shift-invariant kernel Hashing,SIKH)。但是,這些方法不能充分挖掘數據的內部信息,因此許多專家學者利用機器學習來產生更為有效的哈希編碼。
基于機器學習的哈希算法是將數據的屬性信息映射到目標函數的建立中,通過對目標函數的求解來得到哈希函數及哈希編碼。Lin等人[9]提出主成分分析哈希(principal components analysis Hashing,PCAH),將每一個樣本映射到訓練數據的主成分方向上,然后對每個方向上的系數進行二值化。Salakhutdinov等人[10]應用受限的玻爾茲曼機(restricted Boltzman machine,RBM)產生緊湊的二值哈希編碼。Weiss等人[11]提出的譜哈希(spectral Hashing,SH)是另一種比較典型的哈希算法,它是在譜聚類的基礎上進行的擴展,能夠保持數據間的相似性,通過對哈希編碼加以平衡及不相關約束,得到緊湊的二值編碼。Liu等人[12]提出基于圖的哈希算法,自動挖掘數據間內在的近鄰結構來學習適當的緊湊的哈希碼。Wang等人[13]提出半監督的哈希算法,將數據間的關系整合到語義哈希的問題中,建立目標函數求得哈希碼。Zhang等人[14]提出基于多源信息的復合哈希,整合不同信息產生有效的哈希碼等。基于機器學習的哈希算法由于其可充分挖掘數據內容的信息取得了不錯的效果,但依然有兩個問題沒有解決。首先,大部分方法采用單一特征描述圖像內容,缺乏廣泛的魯棒性。其次,哈希算法的魯棒性主要源于魯棒特征的提取,而忽略了量化器訓練對哈希編碼的影響。
針對上述問題,研究者們提出了基于多視角的語義-量化器同時關聯學習的感知哈希編碼算法。然而,目前算法多數面向多模態大規模的圖像檢索應用而開展。對現有算法的評價主要集中在語義的魯棒性、區分性兩項,這些測試基礎是傳統模式識別的類內-類間分布理論,并不適用于認證應用領域。對于面向認證的圖像感知哈希來說,與基于內容的圖像檢索不同,感知魯棒性和安全性是其兩個非常重要的屬性。一方面,感知哈希編碼對非惡意信號處理攻擊,如內容保持的JPEG壓縮、亮度變化等應具有較好的魯棒性。而對于如對象的插入、刪除等惡意篡改應具有較好的脆弱性(即區分能力)。另一方面,為保證安全性,感知哈希編碼應是密鑰相關的。當密鑰相同時,感知相同或相似的兩幅圖像要以較高的概率產生相同或相近的哈希值,而當密鑰不同時即便兩幅圖像感知相同也要產生不同的哈希值。此外,對感知哈希應用需求的誤區在于,一個適用于識別檢索應用的哈希算法,可以區分與原始媒體內容完全不同的偽造版本,但不一定能夠區分在原有媒體基礎上精心修改而得到的篡改版本,更不能保證惡意攻擊者避免從分析系統得到所使用的密鑰。認證應用中的新需求需要新的模型和算法支持,才能保證感知哈希技術的可用性和安全性。
近年來,基于感知哈希的圖像篡改檢測方向發展迅速,新算法層出不窮,算法性能不斷被刷新。本文重點關注基于感知哈希圖像篡改檢測的相關研究,并希望通過對相關研究現狀的梳理和提煉,為國內外同行提供一個可靠、完整的參考。首先,在有關基于感知哈希圖像篡改檢測的研究綜述中,牛夏牧等人[15]在人類感知模型的基礎上,明確了圖像感知哈希的定義、性質以及其一般性描述;甘艷芬等人[16]對圖像內容的篡改方式以及對一些篡改技術進行了研究,并進行分類;林祥等人[17]則根據篡改圖像遺留痕跡對現有的圖像被動取證技術進行分類研究。然而,在相關綜述研究中,卻鮮有見到對基于感知哈希的圖像篡改檢測技術的相關綜述研究,為此本文根據現有基于感知哈希的圖像篡改檢測技術做出總結,并進一步細致分類。其次,為能夠更好地對基于感知哈希的圖像篡改檢測這一研究方向的框架做出補充,詳細介紹了相關數據集與評測基準。最后,通過實驗結果對現有經典算法做出分析和比較。
根據是否需要進行訓練學習,本文將基于感知哈希的圖像篡改檢測方法分為基于底層線索和基于學習提取感知哈希的兩類方法。其中,基于底層線索提取的感知哈希篡改檢測方法可以進一步劃分為基于不變特征變換的方法、基于局部特征點的方法、基于特征降維的方法、基于統計特征的方法和其他方法五類。基于學習的方法可以分為傳統學習方法和深度學習方法兩類,具體分類方案如圖2所示。本文第2章對基于底層線索的方法進行介紹。第3章討論基于學習的方法。第4章介紹圖像篡改檢測常用的數據集、評價指標以及四種算法的對比實驗。最后對基于感知哈希的圖像篡改檢測的關鍵問題進行總結,并對未來可能的研究方向進行展望。

Fig.2 Classification chart of image tamper detection algorithms based on perceptual Hashing圖2 圖像感知哈希篡改檢測方法分類圖
從開始研究至今,基于底層線索提取的方法一直是圖像感知哈希生成的主流方法。該類方法根據圖像的底層線索,借助人眼視覺系統的特點,提取圖像中某些穩定的重要特征進行編碼,形成比較簡短的感知摘要。基于底層線索的方法不需要進行學習訓練,直接對圖像進行處理,操作簡單,在圖像篡改檢測中是一種常用的方法。根據算法提取底層特征方法的不同,將現有的方法大致分成五類,分別為基于不變特征變換的方法、基于局部特征點的方法、基于特征降維的方法、基于統計特征的方法和其他方法。下面將對這五類方法進行具體介紹。
基于不變特征變換的方法是利用數學上的變換分析在變換域中提取圖像魯棒特征,構造圖像哈希用于圖像的篡改檢測。常用的數學變換有傅里葉變換、離散余弦變換以及小波變換。在具體介紹提取圖像哈希的方法之前,先簡單介紹一下常用的數學變換。
小波變換(wavelet transform,WT)將圖像從時空域轉換到頻率域,具有較好的多分辨率特性,可以對圖像進行不同尺度的分解,得到不同尺度下的小波分解系數。
傅里葉變換(Fourier transform,FT)是一種重要的數學分析方法和常用的數字信號處理工具,在多媒體信息處理中,可以將數字圖像看作是離散的二維信號,因此可以使用離散傅里葉變換來對圖像進行處理,有:

其中,f(x,y)表示圖像在(x,y)處的像素值,M、N表示圖像的尺寸。
在傅里葉變換的基礎上,延伸出傅里葉梅林變換,首先在傅里葉變換域中用極坐標的形式來表示像素,進而可以將圖像的旋轉和縮放操作轉換成平移關系,再利用傅里葉變換的相位相關技術就可以獲得旋轉和縮放量,從而實現圖像的配準。Ell等人[18]給出了四元數傅里葉變換(quaternion Fourier transform,QFT)的定義,將圖像的每一個像素值利用圖像的四個特征信息組成一個四元數來代替,使用四元數傅里葉變換提取圖像特征。
離散余弦變換是一種與傅里葉變換相關的數學變換,有:

Swaminathan等人[1]提出了一種基于傅里葉梅林變換的圖像哈希方法。該方法利用圖像像素值在空域與傅里葉變換域中值之間的關系,在極坐標下進行表示,可以將圖像的旋轉和縮放操作轉換為平移關系,根據傅里葉變換的相位相關技術,可以由圖像的平移量得到旋轉量與縮放量。因此該方法對圖像的旋轉、縮放、平移等幾何處理具有良好的魯棒性。在算法特征提取的過程中,利用隨機密匙K輔助生成圖像哈希,增強算法的安全性。
Huang等人[2]提出基于圖像紋理與DCT變換的感知哈希算法。感知哈希由兩種特征組成,分別是由圖像紋理信息構成的全局特征以及DCT系數構成的局部特征。首先,提取圖像的紋理特征[19]并計算其統計信息,分別是對比度、相關性、能量以及同質性,得到全局特征。其次,采用圖像分塊設計方法,對圖像分塊執行DCT變換,提取DCT系數組成局部特征。最后,綜合圖像的全局特征與局部特征構造圖像的感知哈希,該算法具有良好的魯棒性與區分性,同時圖像紋理信息的引入有利于提高算法的魯棒性。
Venkatesan等人[20]利用圖像小波變換系數的統計特性作為圖像特征。首先將圖像隨機分塊,再使用Haar小波函數用于圖像三級小波分解,并計算粗子帶系數的平均值及其他子帶系數的方差,得到一個統計特征向量。之后利用隨機的閾值對統計特征向量進行量化,得到最終的圖像哈希。該算法對一定程度的旋轉、尺度縮放、JPEG壓縮以及中值濾波等操作具有魯棒性。
Qin等人[21]提出了一種基于離散傅里葉變換圖像篡改檢測的方法。首先,提取圖像在YCbCr顏色空間中的Y分量,同時為削弱圖像噪聲對最終感知哈希的影響,利用全變分(total variance,TV)圖像去噪方法對Y分量去噪,得到I。在特征提取階段,將I在不同的角度下進行投影,得到一個同維度的次要圖像,如圖3所示,旋轉投影的目的是為了將圖像中可能存在旋轉操作轉換為平移操作。其次,在次要圖像上應用離散傅里葉變換得到系數矩陣,進而獲得傅里葉系數的幅度矩陣,該幅度矩陣對于圖像平移操作矩陣具有不變性。為構造圖像感知哈希,利用非均勻采樣方法提取幅度矩陣中的低頻信息作為哈希。算法不足的是,如圖3所示,由于次要圖像是根據旋轉投影得到的,而當圖像篡改區域位于圖像的四個角落的時候,檢測的正確率將會出現大幅下降。

Fig.3 Illustration of secondary image圖3 次要圖像
Yan等人[22]提出了一種基于四元數傅里葉變換[18]提取圖像感知哈希的方法。該方法將圖像篡改檢測分成兩個階段,分別是圖像對齊處理階段與篡改檢測階段。首先,在圖像對齊處理階段,Yan等人[22]計算傅里葉梅林矩(quaternion Fourier-Mellin moments,QFMMs)[23]提取圖像的幾何哈希,用于計算幾何攻擊的參數值,消除圖像在幾何攻擊下影響。圖像幾何對齊處理后,在圖像篡改檢測階段,構造一個四元數圖像,之后進行四元數傅里葉變換提取圖像的特征哈希,用于篡改檢測。具體地,首先構造一個四元數圖像,四元數圖像指圖像中的所有元素都是四元數,其中,每一個四元數由原圖像在該像素點的強度、顏色和邊緣強度特征組成。得到四元數圖像后,利用四元數傅里葉變換得到系數矩陣,并提取系數矩陣中的低頻信息用于表示圖像的全局特征,進而構造圖像哈希特征,通過計算測試圖像與原始圖像哈希的歐式距離用于圖像篡改檢測。該算法有較好的檢測性能,對多種圖像內容保持操作類型的信號處理具有魯棒性和對多種類型的惡意的篡改攻擊具有敏感性。而且最終的哈希長度較短,滿足圖像感知哈希的摘要性。
Singh等人[24]提出了一種基于離散小波變換的圖像感知哈希算法。該算法通過計算幾何矩和中心矩對圖像進行標準化預處理,該操作能夠保留原始圖像中的相關特征信息。為提取圖像感知特征,對標準化圖像執行離散小波變換,并利用奇異值分解得到圖像感知特征矩陣,對特征矩陣再次使用奇異值分解,從而生成感知哈希。該算法能夠對常見的保持圖像內容操作具有魯棒性,如幾何處理中的縮放、旋轉、剪切等以及濾波、噪聲、JPEG壓縮等圖像處理操作。
基于圖像不變特征變換是一種常用的提取圖像感知哈希用于篡改檢測的手段,其他的研究工作中,如丁旭等人[25]提出了一種基于DCT變換并借助SURF(speeded up robust features)算法構造圖像感知哈希的算法。
基于圖像局部特征點的方法是認為從圖像中提取的特征點是圖像中的不變量,因此可以將特征點作為圖像特征用于圖像的篡改檢測。常用提取特征點的算法有end-stopped小波特征點檢測器、Harris角點檢測器和SIFT算法。由Lowe提出的SIFT算法對于圖像的幾何變換操作具有良好的魯棒性,因此許多算法都是在此基礎之上進一步改進,在此基礎上改進的算法能夠對多種類型的保持圖像內容的操作具有魯棒性。
Monga等人[3]提出了一種基于end-stopped小波特征點檢測器提取圖像感知哈希的算法。首先,將FDoG操作符應用到Morlet小波上得到end-stopped小波,并對圖像執行三級小波變換;其次,通過在一個圓形鄰域內查找小波系數幅度的局部最大值來進一步確定重要的特征點,并使用一個閾值過濾掉虛假的局部最大值,計算特征點小波系數的大小構成圖像的特征向量;最后,使用概率量化的方法將提取的特征向量二值化,得到最終的圖像哈希。算法利用豪斯多夫距離計算兩張圖片的相似度,用于圖像的篡改檢測。同時,Monga等人[3]在該文章中提出了一種圖像取證的框架,分成兩個階段。第一個階段是特征提取階段,將給定二維圖片映射成一維的特征向量,提取的特征向量能夠獲取到圖像的感知品質。圖像的感知品質能夠符合人眼視覺系統的特點,即提取的特征向量利用某種距離度量方法后,則距離比較相近;而人眼感知內容相差較大的圖像,其特征向量經過距離度量后相差也比較大。第二個階段是感知哈希的安全性,將提取的特征向量進行壓縮量化,并進行加密,形成最終的哈希值。
Lv和Wang[4]提出了一種基于SIFT算法和圖像形狀上下文的感知哈希算法。SIFT算法提取圖像特征點能夠對幾何處理具有不變性,但是當圖像經過噪聲或者濾波的處理后,將會對特征點的提取的準確性造成一定的影響。例如,由于噪聲的存在,將會使SIFT算法檢測的特征點的假正類個數增加,而如果將圖像經過濾波處理,真實存在的特征點將不會被完整地提取到。因此,在使用SIFT算法提取特征點時,借助Harris標準獲取更加穩定的局部特征點,使其更具魯棒性。Lv和Wang[4]提出的算法中,首先利用SIFT和Harris標準提取到更加魯棒的特征點,之后計算這些特征點的形狀上下文信息來構造圖像哈希。考慮到圖像可能會受到幾何攻擊以及每一次提取的特征點不一定完全相同這兩種原因的影響,該算法借助位于圖像中心區域的特征點構造圖像哈希,提出了兩種圖像哈希,徑向上下文哈希和角度上下文哈希(radial shape context Hashing and angular shape context Hashing)。該算法對旋轉、縮放、幾何攻擊以及噪聲、濾波、JPEG壓縮、伽馬校正具有一定的魯棒性。
Yan等人[26]提出了一種基于改進的SIFT算法的圖像哈希篡改檢測算法。該算法提取哈希特征包括兩個階段,分別是圖像局部特征提取階段和圖像多尺度哈希特征構造階段。首先,在提取圖像局部特征階段,Yan等人[26]提出一種改進的SIFT算法用于提取圖像中更穩定的特征點,并利用平穩小波變換(stationary wavelet transform,SWT)對特征點提取圖像的局部特征,與傳統的SIFT算法相比,改進的SIFT算法提取的局部特征點除了具有幾何不變性的特點外,而且能夠對噪聲、JPEG壓縮和濾波等操作具有魯棒性。其次,多尺度哈希特征提取構造階段,分別將圖像按照環狀和角度以不同的參數進行分解,如圖4和圖5所示。Yan等人[26]提出了兩個哈希算法RLCH(round location-context Hashing)和ALCH(angual locationcontext Hashing)。提出的哈希方法能夠利用特征點的幾何分布和內容信息以及特征點的局部特征構造成一個緊湊的圖像哈希,用于圖像的篡改檢測。之后,Pun等人[27]在Yan等人[26]的基礎上進行了修改。首先,Pun等人[27]利用Yan等人[26]改進的SIFT算法提取圖像中穩定的特征點,并結合特征點的結構和顏色信息構造圖像的局部特征。其次,提出了HLCH(horizontal location-context Hashing)和VLCH(vertical location-context Hashing)兩種哈希算法,將圖像的幾何分布和圖像內容進行編碼,構造圖像的感知哈希,用于篡改檢測。與Yan等人[26]提出的算法相比,Pun等人[27]在構造圖像哈希的過程中考慮了圖像的顏色特征,因此,對于圖像中顏色的改變更加敏感。

Fig.4 Round location-context Hashing圖4 環形位置-上下文哈希

Fig.5 Angual location-context Hashing圖5 角度位置-上下文哈希
Wang等人[28]提出了一種基于Harris角點檢測器提取圖像特征點用于圖像篡改檢測定位的哈希算法。首先,為減小噪聲對特征點提取的影響,對圖像進行離散小波變換,提取低頻子帶系數,并重構圖像,從而減弱噪聲的影響。其次,得到重構的圖像后,利用Zhang等人[29]提出的自適應的Harris角點檢測算法提取圖像特征點,提取的特征點的分布比較均勻。之后,Wang等人[28]通過計算特征點周圍鄰域內像素的統計信息,生成圖像哈希。最后,該算法為提高對保持內容操作的魯棒性和惡意篡改攻擊的區分性,提出了一種基于費希爾準則的分類器,從而能夠提供一種自適應產生閾值的方法,提高篡改檢測的準確率。
基于局部特征點的圖像感知哈希算法,能夠在圖像的幾何變換和一些信號處理的操作下具有魯棒性,同時特征點檢測器對圖像內容變化具有敏感性,使這一研究方向更具吸引力。但是在特征點的提取過程中,容易產生錯位和數量的差異,會給檢測的結果帶來一定的影響。
基于特征降維的方法是將圖像在高維空間中的低維特征轉換到低維空間中。常見的降維方法有SVD、NMF以及FJLT等,下面將具體介紹。
Kozat等人[5]利用SVD提出了一種新的圖像哈希算法。首先對輸入的圖片隨機提取出一些可重疊的圖像塊,之后通過對這些圖像塊執行SVD,每一個圖像塊生成一個特征向量,將得到的特征向量偽隨機地連接在一起得到一個次要圖像。對于得到的次要圖像,再一次地進行分塊和奇異值分解,得到最終的特征哈希。在兩次使用奇異值分解的階段中,提出了其他的方法來代替該操作,如將第一次使用奇異值分解換成使用離散余弦變換或者平穩小波變換,用來生成哈希。實驗表明利用矩陣分解的方法,可以近似地滿足對圖像幾何結構具有不變性能的要求。Abbas等人[30]將SVD與LBP(local binary pattern)算法結合起來提出了一種感知哈希算法,采用分塊設計方法,將圖像進行不重疊分塊,在每一個圖像塊上再一次進行可重疊的分塊,之后在最小圖像塊上執行SVD算法,得到正交向量組成的特征矩陣,最后采用由Ren等人提出的NPLBP[31](noise resistant local binary pattern)算法,得到最終的感知哈希。
Monga等人[6]受到降維方法QR(quantization of pseudorandom statistics)和SVD的啟發,提出了一種非負性矩陣分解的圖像哈希算法。首先,輸入的圖像偽隨機地選擇p個子塊,之后對每一個子塊進行非負性矩陣分解,再將得到的矩陣進行偽隨機的排列,獲得一個次要圖像,對獲得的次要圖像,再一次地使用NMF,最后將分解得到的矩陣W的列和矩陣H的行,構造最終的哈希向量。實驗表明NMF對不強烈改變圖像視覺感知的攻擊具有良好的魯棒性,能夠降低在視覺上相差較大圖像上的分類錯誤率。
Lv等人[7]提出基于快速約翰遜-林登斯特拉斯變換的降維方法,用于構造圖像感知哈希。首先,獲取隨機的一些圖像塊,之后利用這些圖像塊構造成一個特征矩陣,再利用FJLT降維方法得到一個特征哈希。實驗表明得到的圖像哈希對于輕微的處理如加性噪聲、圖像模糊、JPEG壓縮以及惡意的攻擊具有魯棒性與區分性,但是得到的圖像哈希對于圖像的幾何變換的魯棒性效果不理想,因此提出了一個旋轉FJLT(rotation invariant FJLT)哈希算法。首先對圖像進行傅里葉梅林變換,得到一個特征圖像,之后再利用FJLT降維方法進行提取最終的哈希,能夠進一步對圖像的旋轉具有魯棒性。
Tang等人[32]提出了一種基于環分區(ring partition,RP)和NMF的哈希算法,該算法對旋轉的魯棒性具有更好的效果。如圖6所示,首先,將圖像分成一系列的同心圓,在每一個同心圓中提取對旋轉具有不變性的特征向量,將所有的向量組合成一個旋轉不變矩陣。隨后,對得到的旋轉不變矩陣進行非負矩陣分解,得到其系數矩陣,并作為該算法最終的哈希。該算法尤其對旋轉具有良好的魯棒性,同時用于篡改檢測也有很好的效果。Khavare等人[33]在Tang的基礎之上,進行了一些改進。改進之處在于,當篡改區域比較小或者當篡改區域位于圖像的四個角落時,這時的檢測效果將會大大地降低。因此,Khavare提出的算法在進行環分區之前,先對圖像進行擴展,將整個圖像都包含在同心圓的范圍內,之后以同樣的方式構造一個旋轉不變矩陣,再利用NMF算法進行矩陣分解,得到最終的哈希,用于篡改檢測。該算法同樣對旋轉具有良好的魯棒性,同時當篡改區域較小或者篡改區域位于角落里時,也有良好的效果。

Fig.6 Schematic diagram of secondary image construction圖6 二次圖像構造示意圖
除SVD、NMF降維方法外,LLE(locally linear embedding)算法也是一種常用的降維方法,能夠保留圖像原始特征中的相關信息,有較好的降維性能。Tang等人[34]提出了一種基于非線性LLE降維算法的感知哈希方法,算法中圖像經過高斯低通濾波等預處理步驟后,計算圖像的顏色矢量矩陣,該顏色矢量矩陣能夠較好地反映圖像的顏色特征。為提取圖像感知特征,利用分塊DCT變換對圖像的顏色矢量矩陣提取DCT系數,最后使用LLE算法進行降維構造感知哈希,包括k近鄰特征選擇、權重矩陣計算以及特征降維三個步驟。
基于統計特征的方法是利用圖像底層的統計信息構造圖像哈希的篡改檢測算法,一般是利用一些先驗方法提取圖像特征,之后對提取的圖像特征計算統計特征向量,作為圖像哈希。圖像的統計信息包括:均值、方差、標準差、峰度、偏度等。
Tang等人[35]提出了一種對圖像進行環狀分區并在環內提取統計特征作為圖像哈希的算法。首先,對輸入的圖片在不同的顏色空間內進行了對比,最終選擇使用CIE Lab顏色空間,因為該顏色空間感知均勻,從該空間中提取的特征更加穩定。其次,再利用環分區的思想對圖像進行環狀劃分,并對每一個環提取圖像的統計特征,包括均值、方差、峰度、偏度,由四個統計特征構成特征向量,該特征向量對圖像任意角度的旋轉有著良好的魯棒性。Tang等人[35]將每一個環提取的特征向量看作四維空間中的一個點,發現常規的信號處理操作對該點的位置以及向量之間的距離只有很輕微的擾動,因此該向量距離對于普通的信號處理操作具有不變性,在多種信號攻擊下具有魯棒性。之后,Tang等人[36]又提出計算圖像的顏色矢量角矩陣,并進行環分區劃分,計算同心圓上邊緣像素的顏色矢量角度的方差,然后量化這些方差以產生感知哈希。Tang等人[35]提出的基于環分區提取圖像統計特征的感知哈希算法仍存在不足之處,即當篡改區域位于圖像四個角落的時候,篡改區域將不會被檢測到,算法的正確率將會顯著降低。因此,Saikia等人[37]對Tang等人[35]的算法進行改進,提出利用同心方形代替同心環形區,在多個同心方形區域內提取統計特征。因此,當篡改區域位于圖像的角落時,仍可以被檢測到。
Srivastava等人[38]提出了一種在Radon變換和DCT變換的基礎上提取圖像統計特征的感知哈希算法,將輸入的圖像利用Radon變換得到一個二維的系數矩陣,再將系數矩陣的每一列進行DCT變換并提取系數矩陣的交流系數,得到一個行向量,之后計算該向量四個統計特征,包括均值、標準差、峰度系數以及偏度系數,作為最終的哈希,通過度量測試圖像哈希與原始圖像哈希的漢明距離,用于圖像的篡改檢測。實驗結果表明該算法對常見的信號處理操作具有良好的魯棒性。
除了上述的四類方法之外,在圖像處理中的其他技術,仍可以用于圖像感知哈希的篡改檢測中,如顏色空間不變特性[39]、Zernike矩[40-43]、Waston 視覺模型[44]、圖像分割技術[45]等,下面將具體介紹。
Tang等人[39]利用圖像不變性質來構造圖像哈希。該算法首先將彩色圖像從RGB轉換成YCbCr和HSI顏色空間,得到圖像的Y、Cb、Cr、H、I、S六個分量,利用這些分量計算七個不變特征,并構成不變特征向量。該不變特征向量對于圖像的幾何變換具有魯棒性,最后利用L2范數度量待查詢圖像與原始圖像的距離。該方法能夠對常見的信號處理操作具有魯棒性。
Zhao等人[40]提出了基于Zernike矩和圖像顯著性的圖像感知哈希算法。該算法利用Zernike矩提取圖像的全局特征,并利用圖像顯著性區域的位置和紋理信息來提取圖像的局部特征。在預處理階段,將圖像轉換到YCbCr顏色空間中,以Y分量和|Cb-Cr|分量分別表示圖像的亮度和色度特征,并計算兩者的Zernike矩,獲得圖像的全局特征。其次,對圖像進行顯著性檢測并提取其位置、大小以及紋理特征,構成圖像的局部特征。將全局特征和局部特征結合在一起,形成最終的圖像哈希。Ouyang等人[41]提出基于四元數Zernike矩的圖像感知哈希算法。其中,四元數是由圖像的R、G、B三個顏色通道組成,得到四元數圖像,提取Zernike矩。相比于四元數Zernike矩(quaternion Zernike moments,QZMs)算法,傳統的算法需要將彩色圖像轉換成灰度圖像,而四元數Zernike矩能夠包含圖像的所有顏色信息,且最終得到的哈希長度更短。之后,Ouyang等人[42]將四元數Zernike矩和SIFT算法結合到一起,提出了一種新的圖像感知哈希篡改檢測定位算法。提取四元數Zernike矩構造圖像感知哈希用于篡改檢測,利用SIFT算法提取圖像中穩定的特征點用于篡改區域定位。另外基于Zernike的工作,如羅嗣卿等人[43]依據Zernike矩對圖像旋轉具有不變性的特點,提出了以Zernike矩為圖像特征的感知哈希算法,能夠滿足對旋轉攻擊魯棒和區分不同圖像的技術要求。
Wang等人[44]提出了一種基于Waston的視覺感知模型和SIFT算法的圖像感知哈希算法,該算法分別對圖像特征點和圖像塊進行提取特征。首先,利用SIFT算法提取圖像特征點,并借助小波變換對圖像進行稀疏表示,從而獲得基于圖像關鍵點的特征。其次,對圖像分塊并提取其特征,利用Waston’s DCT視覺模型獲取系數矩陣,構造圖像塊特征。提取特征之后,借助高斯隨機矩陣對特征進行壓縮、映射,從而降低向量的維度,并經過加密和編碼得到最終的圖像感知哈希。
Pun等人[45]提出了一種對象級別的篡改檢測哈希算法。首先,Pun等人[45]在圖像分割技術DC-Seg[46]的基礎上提出了一種新的自適應圖像分割方法,該方法能夠將圖像分割成大量、具有感知意義的區域。其次,由于一些圖像內容保持操作會造成圖像分割算法的不穩定性,因此將每一區域內的顏色和位置特征構造一個特征哈希,該特征哈希在一定變化范圍內對于圖像的分割是不敏感的。之后,利用輸入圖像的顏色特征和分割區域的數目形成的全局特征,用于圖像的篡改檢測。該方法不足之處是無法處理圖像平滑區域的篡改操作,因為提出的自適應分割方法無法分割出圖像中較為平滑的區域。
Yan等人[47]提出了一種多尺度差值圖融合的圖像哈希算法。在圖像篡改檢測階段,利用傅里葉梅林矩(QFMMs)[23]提取幾何哈希用于圖像的對齊操作,之后利用基于局部二值編碼(local binary coding,LBC)的提取圖像二值哈希用于圖像的篡改檢測。首先,將圖像分割成一系列不重疊的圖像塊,對每一個圖像塊按照豎直方向和水平方向進行分割,計算圖像塊在豎直方向和水平方向分割后的梯度,將兩個梯度進行比較得到該圖像塊的LBC,所有圖像塊的LBC組成一個二值的圖像哈希;其次,為進一步對圖像進行篡改檢測,將得到的二值哈希轉換成一個二值矩陣,兩張圖片的二值矩陣相減得到SM(subtraction map),之后利用一個滑動窗口遍歷SM的到最終的DF(difference map),提取DF中的最大值,并與給定的閾值相比較,用于圖像篡改檢測的判定。
Hosny等人[48]提出了一種基于Gaussian-Hermite不變矩的感知哈希算法。該算法通過高斯低通濾波、彩色圖像灰度化等操作對圖像進行預處理,預處理能夠使提取的特征對噪聲更魯棒以及降低圖像中的高頻元素。之后通過計算Gaussian-Hermite矩提取21種不同階的特征,最終編碼成8-bit的感知哈希,通過度量原始圖像與待檢測圖像感知哈希的歐氏距離,與給定閾值相比較用于篡改檢測。
Qin等人[49]提出將邊緣檢測和離散余弦變換結合在一起的圖像感知哈希算法。首先,在圖像預處理階段,將圖像轉換到YCbCr顏色空間中,并提取Y分量通過高斯低通濾波。其次,使用Canny算子進行邊緣檢測,得到二值化的邊緣圖像R,對R進行不重疊分塊,統計每一個塊區域內包含的邊緣像素個數并進行排序,取前p個圖像塊,并對每一個圖像塊執行DCT變換,將其系數矩陣與圖像塊的位置信息綜合得到特征矩陣,經過PCA降維操作與加密操作后得到最終的感知哈希。
綜上所述,基于圖像底層線索提取感知哈希一直是圖像篡改檢測的主流技術,根據提取特征方式的不同,進一步細致地將現有的方案分成了五類,不同類別的方法有著不同的優勢。雖然不同方法之間提取特征的方式不同,但這五類之間并不是完全獨立,一般情況下,通過將多種技術以某種形式組合到一起,能夠發揮出更好的性能。如將圖像中的特征關鍵點與不變特征變換結合在一起,以及在提取圖像關鍵點的同時計算其統計特征,最終構造的感知哈希在圖像篡改檢測上能夠表現出良好的性能。
除以上敘述的基于圖像底層線索的圖像感知哈希方法以外,基于學習的哈希方法也受到研究學者的廣泛關注。特別是近幾年來,深度神經網絡技術的快速發展,已有研究學者將深度學習的技術用于圖像的篡改檢測上,從而提高了算法的性能。本章將分別從傳統的學習方法和深度學習方法兩個方向對圖像篡改檢測技術進行介紹。
基于傳統學習的哈希算法是將數據的特征屬性信息映射到目標函數中,通過對目標函數的求解來得到哈希函數及哈希編碼。基于傳統學習構造圖像感知哈希主要包括魯棒特征提取、量化壓縮等操作,其一般框架如圖7所示。在提取感知哈希的過程中,特征提取和量化壓縮階段決定了最終哈希的性能,因此有許多研究者將解決問題主要的焦點放在這兩個階段,下面將具體介紹相關工作。

Fig.7 General framework of image Hashing圖7 圖像哈希的通用框架
Du等人[50]提出了一種基于多視角特征信息嵌入的感知哈希學習算法,并借助圖像感知顯著性進行篡改檢測。算法由圖像預處理、映射函數學習、圖像感知顯著性以及篡改檢測四部分組成。在預處理階段,由于CIE Lab色彩空間相比于其他顏色空間更感知均勻,且L分量與人類對亮度的感知比較接近,同時又由于整數小波變換能夠對保持圖像內容的信號處理的操作具有魯棒性,因此在L分量上執行一級小波變換。在映射函數學習階段,模型的目標函數為:

其中,X=X1:X2:…:Xn表示包含n張圖片的數據集在多種視角下的特征矩陣;Xl表示數據集中l個已知標簽的圖像的特征矩陣,S表示l個圖像之間的相似度矩陣,W表示權重矩陣;圖像感知顯著圖提取階段,利用SMD(structured matrix decomposition)算法[51]獲取圖像中的感知顯著圖;最后在圖像篡改檢測階段,根據公式計算感知距離,判定待檢測圖像是否經過惡意篡改。

其中,Ba、Bt分別表示原始圖像與待檢測圖像的感知哈希;λra、λrt分別表示每一個區域的感知顯著性權重。提出的感知哈希學習算法在多數保持內容的操作上具有魯棒性以及對惡意篡改攻擊具有區分性,例如,加性噪聲、圖像濾波、JPEG壓縮以及增加物體、移除物體等操作。
算法的魯棒性主要取決于提取的圖像特征的好壞,因此大多數的研究主要的關注點在于圖像特征的提取階段。而圖像哈希的后處理步驟,目的是將圖像實值哈希壓縮成一個二值的哈希,該二值哈希僅使用較小的存儲空間以及能夠進行快速的取證,一般采用的方法有量化和錯誤檢查糾正(errorcorrect coding,ECC)。Lv等人[52]假設在已知提取圖像特征方法的前提下,將研究的重點放在圖像哈希后處理階段。為此,Lv等人[52]提出了一種半監督譜嵌入(semi-supervised spectral embedding,SSE)的學習方法,該方法用于將實值圖像哈希壓縮成一個二值哈希,同時能夠保證生成的二值哈希仍具有實值圖像哈希所具有的魯棒性,并使用漢明距離完成圖像的取證。具體訓練過程,將原始圖像以及原始圖像經過一系列信號處理和攻擊的圖像構成一個訓練集,并依據可獲得的特征哈希生成方法SCH(shape contexts based image Hashing)[4]和FJLTH(FJLT Hashing)[7]為數據集中的每一張圖片生成圖像哈希,從而構造一個擴展的圖像特征空間VPAHS(virtual prior attacked Hash space),利用該訓練集,學習到一個最優的譜嵌入模型,能夠將實值圖像哈希壓縮成一個二值哈希。該模型的目標函數為:

其中,

該目標函數的目的是為了得到譜嵌入的二值哈希B={yi}ni=1,yi∈{-1,1}k。w(i,j)表示特征向量xi和xj的歐氏距離。進一步地,由于不同算法提取的圖像特征哈希對不同類型的信號處理和攻擊具有不同的魯棒性,為綜合多種方法的優點,Lv等人[52]對提出的SSE方法進行了修改,從而能夠提高生成的二值哈希的魯棒性。實驗表明,與使用量化、ECC以及單種特征哈希類型的SSE方法相比較,使用融合多種圖像特征類型的SSE方法學習到的壓縮模型,具有更好的魯棒性,并且能夠生成固定長度的二值哈希。
近年來,深度學習技術蓬勃發展,受到了來自學術界和工業界的廣泛關注,其技術也被應用到圖像分類、檢測、識別、檢索、語音和文本處理等多個研究領域。目前,深度神經元網絡有卷積神經網絡(convolutional neural network,CNN)、全卷積網絡(fully convolutional network,FCN)、反卷積網絡(deconvolution network,DN)、生成對抗網絡(generative adversarial network,GAN)等。其中最常用的卷積神經網絡,在計算機視覺領域熱門研究領域中被廣泛使用,例如AlexNet、GoogLeNet等網絡,本節中主要介紹基于深度學習技術用于圖像篡改檢測的感知哈希算法。

Fig.8 Flowchart of method in Ref.[53]圖8 文獻[53]方法流程圖
Jiang等人[53]提出了一種基于深度卷積神經網絡的圖像感知哈希算法,提出的圖像篡改檢測框架如圖8所示。圖像經過預處理步驟后,輸入到預訓練好的Alex網絡中,提取最后一層全連接層的輸出作為感知特征,之后經過量化與二值化將特征向量轉換成感知哈希,通過度量原始圖像與待檢測圖像感知哈希之間的漢明距離,與給定的閾值相比較,判定待檢測圖像是否經過惡意篡改攻擊。Jiang等人[53]從感知魯棒性、圖像內容改變的敏感性、區分性對算法進行分析比較,該深度感知哈希算法能夠對部分保持圖像內容的信號處理操作魯棒以及對惡意篡改攻擊具有區分性。
Bondi等人[54]提出了一種基于卷積神經網絡提取相機型號特征[55]用于篡改檢測的學習算法。該算法主要解決了兩個問題:(1)訓練得到的網絡模型可以識別該圖像所對應的相機型號;(2)訓練得到的模型可以用來進行圖像的篡改檢測與篡改區域定位。首先,該算法提出了一種卷積神經網絡模型,網絡有11層,訓練模型的輸入是圖像,經過卷積、池化、全連接層、Relu層、Softmax層后,模型的輸出是一個特征向量,該向量表示的是該圖像對應每種相機型號的概率。其次,用于圖像篡改檢測和定位的過程如圖9所示,先將輸入的圖像分成不重疊的圖像塊,將每一個圖像塊作為訓練好的網絡模型的輸入,得到一個特征向量。為進一步描述圖像塊的統計信息,設計了一個可信度Q:

其中,α、β、γ是常數,μc、σc分別為平均值和標準差。之后再利用迭代的聚類技術對得到的特征向量進行聚類,得到最終的Mask,用于圖像的篡改檢測和定位。該算法利用卷積神經網絡提取相機型號的特征有較好的效果,對于不同圖像的拼接篡改有著較好的檢測效果。不足的是,該算法有一個前提假設,是篡改的區域來自于不同相機型號拍攝的圖片,如果圖像中的篡改區域來自于同一種相機,可能會影響到最終檢測效果。另外,學習到的模型對于不在訓練集中相機型號的圖片,效果有待商榷。
深度學習技術也被應用到除圖像取證的其他領域,例如,Chen等人[56]和Qian等人[57]將卷積神經網絡用于圖像中值濾波檢測和隱寫分析算法。Bayar等人[58]提出了一種利用深度學習技術檢測處理操作的通用取證方法,一個新的卷積層被用來抑制圖像內容并能夠自適應地學習圖像中的處理操作的特征。Yarlagadda等人[59]利用生成對抗網絡用于衛星圖像的篡改檢測與定位,該網絡可以被用于提取原始衛星圖像中的特征表示。最近,卷積神經網絡也被用于偽造視頻檢測[60]和相機模型取證[55,61],并取得了一定的效果。
基于數據驅動的學習方法可以得到高質量的哈希。然而,在基于學習的圖像取證算法中,大多數強調的是特征學習。特征學習的過程是通過優化目標函數從而對訓練集中的數據進行擬合,從而產生較好的哈希碼保持訓練集的局部相似性,而數據獨立的哈希方法在哈希生成的整個過程中,除提取圖像特征之外,哈希的安全性、碰撞性等性能也考慮在內。此外,基于學習方法在訓練模型的過程中需要消耗大量的時間,其時間復雜度仍高于數據獨立的哈希方法。因此,基于學習的方法在表現出良好性能的同時,仍存在著一些不足之處。

Fig.9 Flowchart of method in Ref.[54]圖9 文獻[54]方法流程圖
本章將從實驗的角度對四種篡改檢測算法進行比較分析,首先對常用的篡改檢測數據集進行介紹,然后給出算法性能的評價指標,最后在不同數據集上比較和分析四種篡改檢測算法的性能。
為了科學、有效地評價各類圖像篡改檢測算法的性能,提出了許多標準的圖像數據集供研究人員對算法進行測試和對比,常用的數據集主要有:
4.1.1 CASIA數據集
CASIA數據集[62]包含兩個版本。中國科學院自動化研究所發布了CASIA v1.0數據集,該數據集主要用于檢測圖像拼接的任務。數據集中包含800張真實圖片和925張篡改圖片,圖片的格式為384×256的JPEG格式。真實圖片根據圖像的內容主要分為八種類別,包括場景、動物、建筑、人物、植物、物品、自然和紋理;篡改圖片是通過圖像拼接完成的篡改操作。之后,又發布了CASIA v2.0數據集,與CASIA v1.0相比,數據集中圖像的大小具有不同的尺寸,從240×160到900×600像素不等。同時,對圖像中篡改的區域采用一些后處理的操作,使篡改的圖像更加逼真和更具挑戰性。
4.1.2 RTD數據集
RTD(realistic tampering dataset)數據集[63-64]是由Korus于2016年在其個人主頁上發布的用于圖像篡改檢測的數據集。該數據集中包含真實圖片、篡改圖片以及相對應的真實篡改位置,分別使用四種不同的型號拍攝的圖片,其中Sony alpha57是Korus的數據集,Cannon 60D數據集來自于BinLi博士,Nikon D7000和D90來自于RAISE數據集,各有50張,圖片為1 920×1 080的TIFF格式。篡改類型主要包括物體插入和移除,同時數據集提供了相對應的GroundTruth。
為了測試感知哈希篡改檢測算法的魯棒性,數據集在CASIA和RTD的基礎上,分別對數據集中原始圖像和篡改圖像加了多種類型的保護圖像內容的處理操作。處理操作的類型包括:加性噪聲、圖像濾波、模糊、JPEG壓縮、幾何攻擊等16種處理類型,具體的處理類型以及參數設置如表1所示。

Table 1 Content-preserving manipulations and parameters setting表1 保持內容操作以及參數設置
為了驗證算法的有效性,需利用評價指標定量分析算法的性能。本節將介紹三種常用的評價指標。
4.2.1 準確率-召回率
通過對比檢測結果類別與圖像真實分類,可以計算出算法的準確率(Precision,P)和召回率(Recall,R)。檢測結果有兩種類別:一種為篡改(tampered),表示該圖片經過惡意篡改操作;另一種為相似(similar),則表示該圖片與原圖像相似,未經過惡意篡改操作。通過算法對數據集中多張圖片的檢測結果可以計算出準確率與召回率:

其中,將相似圖像表示正類,篡改圖像表示負類。TP、FP、FN、TN各標記具體含義如表2分類結果混淆矩陣[65]所示。準確率和召回率相互牽制,較高的準確率表示在檢測出來相似的圖像中,真實分類仍為相似的概率比較高,較高的召回率則表示有較多的相似圖片被檢測出來。將召回率作為橫軸,準確率作為縱軸,可以得到準確率-召回率曲線(PR曲線),該曲線的位置越接近坐標軸的右上方,則表示該算法的魯棒性性能越好。如果將篡改圖像表示正類,而相似圖像表示負類,繪制的PR曲線則可以表示該算法的區分性性能。

Table 2 Classification confusion matrix表2 分類結果混淆矩陣
4.2.2 F-measure
F-measure目的是為了能夠綜合考慮準確率和召回率兩個評價指標,具體的定義為:

其中,通過調整β值來設置對兩個評價指標不同的偏好,當β<1時,對準確率有更大影響;當β>1時,對召回率有更大影響;當β=1時,為標準的F1。
4.2.3 受試者工作特性曲線(ROC)
受試者工作特性曲線,即ROC(receiver operating characteristic curve)曲線是以假陽性概率(false positive rate,FPR)和真陽性概率(true positive rate,TPR)作為坐標軸的橫軸和縱軸,繪制ROC曲線,TPR和FPR具體定義如下:

其中,各標記具體含義如表2所示。FPR表示的是篡改圖片誤分類個數占總篡改圖片個數的比例,TPR表示的是相似圖片正確分類的個數占總相似圖片個數的比例。因此,該ROC曲線越接近于左上方則表示該算法性能越好。但是,當比較兩種方法的性能時,ROC曲線可能會出現交叉的情況,這時難以明確兩種算法的優劣,則較為合理的判斷依據是使用AUC(area under ROC curve),AUC表示ROC曲線下的面積,可以定量地比較算法的性能,AUC數值越大,表示性能越好。
上述三種評價指標,對算法性能的描述各有偏重。其中,準確率-召回率曲線更偏向于描述魯棒性或區分性其中一種性能,如果將相似圖像看作正類,曲線則偏向于表示算法的魯棒性,而如果將篡改圖像看作正類,曲線則偏向于表示算法的區分性;F-measure是為了綜合考慮算法的準確率和召回率;為了能夠綜合地描述算法的魯棒性和區分性,在篡改檢測算法性能分析比較的過程中,最常使用的是繪制ROC曲線,在下節算法的分析與比較中,將通過繪制算法在不同圖像內容保持操作下的ROC曲線,來對比分析不同算法性能的差異。同時,為能夠定量地比較不同算法性能的差異,計算出了相對應ROC曲線的AUC值。
本節主要在不同的數據集下對四種篡改檢測算法進行分析和比較。實驗所使用的數據集包括CASIA數據集和RTD數據集。實驗對比了四種圖像感知哈希篡改檢測算法,包括小波變換特征哈希篡改檢測算法Wavelet[20]、特征降維檢測算法SVD[5]、統計特征檢測算法RPIVD(ring partition and invariant vector distance)[35]和四元數傅里葉變換特征檢測算法QFT[22]。
如圖10給出了四種算法在不同圖像內容保持操作下的ROC曲線,第一、二行和第三、四行分別表示在數據集CASIA和數據集RTD上的結果。具體地在ROC曲線中,橫坐標FPR以及縱坐標TPR的詳細定義在4.2.3小節,其中FPR表示假陽性概率,即篡改圖像誤分類個數占篡改圖像總數的比例,TPR表示真陽性概率,即相似圖片被正確分類的個數占相似圖像總數的比例。為定量地比較不同算法之間的差異,計算出相對應ROC曲線的AUC值,如表3所示,從左到右依次為四種算法在數據集CASIA和RTD上的AUC的值,從上到下分別表示數據集經過一些保護圖像內容處理操作的類型。通過分析和比較圖10和表3,可以得到如下結論:

Fig.10 ROC curves comparisons of 4 algorithms on 2 datasets圖10 四種算法在兩個數據集下的ROC曲線比較

Table 3 Quantitative comparisons(AUC)with different methods on 2 datasets表3 兩個數據集下的不同方法的AUC值結果比較
(1)基于小波變換的篡改檢測算法不能有效地判別圖像是否被篡改。圖10中紅色曲線表示小波變換Wavelet[20]在不同類型圖像內容保持操作下的實驗結果。如圖(e)、(k),在圖像銳化(image sharpening)和圖像照明校正(illumination correction)處理操作下,該方法不能判斷圖像是否存在惡意篡改操作。在加性噪聲、圖像濾波、圖像模糊處理操作下,該方法雖然有一定的判別能力,但是相比于其他檢測算法來說,其判別能力不強。
(2)圖10中藍色曲線表示基于特征降維的篡改檢測方法SVD[5]的檢測結果,可以發現,該算法具有一定的篡改檢測能力,其中在JPEG壓縮的處理操作下,如圖(f)、(l),該方法取得了最優的性能。但是在加性噪聲、濾波以及幾何攻擊處理下,該方法雖有一定的檢測能力,但相對于最優算法,仍有一些差距。
(3)圖10中黑色曲線表示統計特征檢測方法RPIVD[35]的結果,算法在圖像銳化和照明校正處理下取得了較優的性能。其他類型處理情況下,相比于其他算法,該方法性能略顯不足,其中幾何攻擊處理下(d)、(j),圖像裁剪(image cropping)和圖像剪切(image shearing)處理的情況下,該算法不能區分圖像是否被篡改。
(4)相比于其他算法,多種處理操作下,融合多種特征的QFT[22]篡改檢測算法取得了較好的結果。圖10中粉紅色曲線在各種處理類型下QFT算法[22]得到的ROC曲線,整體有著較好的性能。如圖(b)、(c)、(h)、(i),尤其是在圖像濾波(filtering)和圖像模糊(blurring)處理的情況下,該算法的ROC曲線逼近于坐標軸的左上角,性能較高。
(5)表3給出了四種算法在兩個數據集上的性能定量分析結果,從表3整體來看,篡改檢測算法QFT[22]的AUC值在多種保護圖像內容的處理類型下,取得較好的結果,其中圖像濾波(filtering)和圖像模糊(blurring)處理下,AUC的值達到了0.99,除圖像剪切(image shearing)處理以外,其他類型的處理,AUC的值達到了0.8以上。在圖像裁剪(image cropping)處理下,QFT[22]很好地保留了圖像的特征,檢測結果優于其他算法。
由上述可知,相比于另外三種算法,QFT[22]算法的整體性能較優,具有良好的魯棒性和區分性。在考慮時間復雜度和空間復雜度的情況下,經過實驗驗證,Wavelet[20]、SVD[5]與 RPIVD[35]三種算法的時間復雜度較低,基本能夠實時檢測;相對來說,QFT[22]算法需要構造四元數圖像與執行四元數傅里葉變換,其時間復雜度較高。如表4所示,QFT[22]與RPIVD[35]兩種算法最終得到的哈希長度分別為86 digits和40 digits,與 Wavelet[20]和 SVD[5]算法相比,哈希長度較短,在存儲和傳輸上有著較高的效率。表4進一步研究了不同算法之間的定性比較,其中包括哈希長度以及對不同信號處理攻擊如加性噪聲、濾波以及幾何攻擊魯棒性等的參數設置。
本文將現有的基于感知哈希的圖像篡改檢測算法進行總結、分析,根據是否依賴數據進行學習哈希函數,將算法分為兩大類:第一類是基于圖像底層線索的方法,并進一步依據提取圖像感知特征的方式不同分成五類;第二類是基于學習的方法,分為基于機器學習的方法與基于深度學習的方法。隨后,對四種典型的感知哈希算法進行了大量實驗,并進行分析、對比。
基于感知哈希的圖像篡改性檢測是多媒體取證領域的一項基礎研究工作,可以作為后續許多研究的先導性操作,具有十分重要的理論研究意義和實際應用價值。總體而言,基于圖像感知哈希的篡改檢測技術未來的研究趨勢和方向主要有以下幾方面:
(1)有效結合多特征信息構建魯棒感知哈希。目前,大部分感知哈希算法僅采用單一特征描述圖像內容,而僅能夠對一類或幾類攻擊具有魯棒性和區分性,還遠遠不能滿足用戶的需求。因此,為了更好地描述圖像內容,如何有效結合多視角特征信息(如基于圖像結構信息、紋理信息、顏色信息等)來構建魯棒哈希編碼的多視角哈希學習,成為未來研究的一個重點內容。
(2)感知哈希的量化器學習問題。目前存在的基于感知哈希的圖像篡改檢測方法中,很少有方案關注哈希的量化器學習問題。提取的圖像感知特征經過特征量化階段得到比特序列的感知摘要,量化過程將會對感知哈希的魯棒性和區分性等性能產生一定的影響。因此,量化器的學習是一個重要研究方向。
(3)結合圖像的顯著性特征。在偽造圖像的過程中,必然會影響到圖像內的顯著性物體,如增加物體、移除物體、更改物體顏色等操作,通過改變圖像中的顯著性內容實現惡意篡改。因此,圖像篡改檢測過程中,結合圖像的顯著性圖像以及邊緣信息圖像,將有助于圖像篡改檢測算法的性能提升。因此,如何更有效地將顯著性圖像與感知哈希相結合,成為未來研究的重點內容。

Table 4 Qualitative comparison results between different algorithms表4 不同算法之間的定性比較
(4)基于深度學習的感知哈希算法。近年來,在許多領域內大量研究表明深度神經網絡在圖像特征表示上取得了很好的效果,基于深度哈希的圖像篡改檢測成為重點研究方向。目前大多數方法提取圖像感知哈希的方法是基于圖像底層線索,而基于學習的方法尤其是基于深度學習的哈希技術用于圖像篡改檢測的方案很少,而多數深度哈希方法主要用于大規模的圖像檢索與識別。因此,將深度神經網絡與感知哈希技術相結合,也是未來值得深入研究的方向。
(5)基于先驗信息的感知哈希生成。目前的基于感知哈希的圖像篡改檢測方法中,原始圖像及非惡意圖像處理攻擊下的圖像之間的先驗信息沒有得到有效的利用。事實上,這些先驗信息對區分改變圖像內容篡改是非常重要的。這種原始圖像與對應的圖像信號處理攻擊下的圖像的關系應在感知哈希學習算法中得以學習。因此,圖像的先驗信息在感知哈希生成過程中也較為重要。
(6)基于后驗攻擊模型的特征選取。特征選取攻擊指攻擊者偽造一幅和原圖具有相同特征的圖像以通過認證。特征選取攻擊的前提條件是設計者所選取的用來表達圖像內容的特征并不能充分表達圖像的全部內容。為保證感知哈希學習算法的安全性,結合多視角特征選擇與后驗攻擊模型選取算法設計中相對重要和充分表達能力的特征是未來研究的重點內容。
(7)感知哈希協同認證算法。為使得感知哈希圖像認證算法具有更好的適應性和應用范圍,基于協同認證算法提高篡改定位精度成為待研究的重點內容。如研究基于特征點的圖像校準哈希碼生成算法,并在此基礎上研究校準-感知哈希協同的圖像認證算法以用于圖像在大尺度變換下的幾何校準。研究基于壓縮感知的感知索引哈希生成算法及基于恢復圖像與原始圖像的差值圖像上錯誤像素分布的篡改定位方法,并在此基礎上研究索引感知哈希協同的圖像認證算法,以提升圖像的篡改檢測、定位結果的魯棒性。