孫必慎,石武禎,姜峰
(1. 中國電子科技集團公司 第27研究所,河南 鄭州 450005; 2. 哈爾濱工業大學 計算機科學與技術學院,黑龍江 哈爾濱 150001)
視覺先驗是認知心理層面、系統神經層面與計算視覺層面研究的交合點,涉及各個層面研究的理解與綜合。根據各領域切入點的不同,對視覺先驗研究主要可以分為兩條路線,即認知心理層面與系統神經層面的機理測試以及計算層面的功能模擬。視覺先驗機理測試方面通過非侵入式的測量儀器,在自然圖像刺激條件下檢測人腦神經細胞的響應特性,反推大腦對自然圖像一般性規律進行歸納與記憶的區域結構及其功能原理。隨著人類對自身視覺系統的研究逐步深入,從初級視皮層到高級視覺區域,都取得了許多重要的研究成果[1-4]。盡管研究者一致認為初級視皮層的視覺處理過程受環境統計特性的影響,但怎樣在兩者之間建立準確的數學關系一直是一個難題。功能性磁共振成像(functional magnetic resonance imaging,fMRI)只能有限地反映大腦皮層局部區域的系統動力,必須從理論上進行抽象,才能將“原理”嵌入到我們的工具中去[5]。同時,從可計算的層面上去解釋,是一種合理、必須的選擇。
視覺先驗功能模擬方面,以自然圖像為對象,挖掘自然圖像一般性規律并將其數學形式化為可計算的圖像模型,主要包括自然圖像光滑性先驗模型、自然圖像統計規律先驗模型、自然圖像視覺編碼稀疏性先驗模型、自然圖像非局部自相似模型等,并為眾多圖像處理與計算機視覺智能應用[6-9]提供算法和支撐。
自然圖像光滑性先驗建模的方式是約束圖像的一階或高階導數及其非線性變換,以形成圖像處理的正則化能量模型,從而構成基于變分方法的偏微分方程。當約束取為梯度模的平方時,導出經典的熱擴散算法;當約束取為梯度模時,導出經典的全變分(total variational)[10]方法;當約束取為梯度的非線性函數時,導出各向異性擴散算法;當約束取為高階導數的模時,導出高階各項異性擴散算法[11]。這些方法著重刻畫了圖像的局部光滑程度,忽略了全局的相似塊之間的本質關系,比如自相似性關注于圖像像素點的一個多階鄰域的重構與恢復,抹平了圖像的細節,不能有效地給出光滑先驗和數據精度項之間的關系。
自然圖像統計規律先驗建模的方式是考察自然圖像濾波響應率并對其分布進行統計建模?;贛arkov隨機場理論,特別是通過Gibbs分布來建模自然圖像濾波響應統計規律的方法,Mumford等[12]提出的FRAME模型考慮圖像MRF建模中的鄰域系統和勢函數的選取問題,將傳統的以導數濾波器為基礎的平滑性先驗進行了推廣,將MRF模型推向高維的形態。Freeman等[13]提出的MRF模型,被應用于構建圖像推理的先驗模型以及基于樣例的紋理合成中。Welling等[14]提出使用專家乘積模型(product of experts,PoE)去解決高維圖像數據的先驗概率建模問題。在PoE的基礎上,Roth等[15]設計了均一性勢函數形式的專家場模型(fields of experts,FoE),彌補了PoE模型的缺陷,可以學習任意尺寸的自然圖像的先驗,后續工作(如文獻[16])通過貝葉斯最小均方誤差方法取代最大后驗概率方法計算恢復圖像,從一定層面克服了到目前為止MRF的一些缺點。自然圖像統計規律先驗建模研究的是自然圖像所含最少成分的統計規律,工作中心可總結為2點:如何找到自然圖像中的最少成分,以及如何描述一個龐大的自然圖像集合在此最小成分方向上的邊緣概率分布。目前的方法面臨著共有的問題:統計漲落問題無法規避,不同圖像間以及圖像不同區域之間的統計漲落嚴重地束縛了自然圖像統計先驗模型的功能;需要投入大量代價在如何描述其分布響應情況,描述手段復雜,影響模型的學習及后續的優化過程,進一步影響自然圖像統計先驗模型的實用性能。
自然圖像視覺編碼稀疏性先驗建模源于“有效編碼假說”[17]?,F有的稀疏編碼方法在圖像表示、物體識別等領域的應用受到了較高計算復雜度的約束。不少工作已經開始著手提高稀疏編碼的效率和魯棒性[18-26]。盡管稀疏概念的一種來源出自于濾波器對視覺信息的濾波響應,但最終的關注點卻主要在圖像塊的重構與恢復,并沒有很多地考慮整幅圖像的響應統計,無法提供表示一幅完整圖像的統計模型,忽略了相似塊之間的本質關系,比如自相似性,導致得到的稀疏編碼系數不夠準確;同時,自適應字典學習過程中需要求解一個具有非常高計算復雜度的大規模優化問題;此外,在編碼測量中,為了確保信號的線性投影能夠保持信號的原始結構,對投影矩陣的設計及穩定性有嚴格要求(如約束等距性)。
自然圖像另一個重要的特性是非局部自相似性。Protter等[27]提出非局部均值(nonlocal means,NLM)的高效先驗模型并將其用于圖像超分辨,假設去模糊得到的圖像跟觀測到的模糊圖像同樣具有非局部自相似,提出了用來去模糊的基于NLM的正則項。受NLM啟發,基于全圖的NLM模型[28]和基于調序的NLM模型[29]被提出。受到圖拉普拉斯(graph laplacian)理論的啟發,Gilboa等[30]根據非局部算子定義了變分框架。為了能夠取得更好的性能,自然圖像的稀疏性和非局部自相似性通常聯合起來。在文獻[31]中,最終設計的目標函數由刻畫局部稀疏性和非局部自相似性兩個正則項組成,進而獲得更高的復原圖像質量。在文獻[32]中,同時稀疏編碼(simultaneous sparse coding,SSC)被用來約束圖像中相似的圖像塊在同一個字典下應該具有相似的稀疏分解,從而使得稀疏編碼系數變得更加魯棒和準確。同理,利用相同的思路,將非局部圖分別跟MS模型、MRF模型、AR模型、KR模型結合,就會得到非局部MS模型[33]、非局部MRF模型[34]、非局部AR模型[35]以及非局部KR模型。通過分析總結不難發現,目前以上非局部模型利用圖像非局部自相似性都是在原來局部模型的基礎之上加入了非局部權重。但通過加權的方式就不可避免地導致結果中出現擾亂或不準確現象。所以尋找一個能夠充分利用圖像非局部自相似性的模型,而不是僅僅采用加權的方式,在圖像處理領域仍然是一個非常重要的挑戰。
以上傳統的低層計算視覺層面的先驗功能建模方法,已廣泛用于各種低層計算機視覺問題當中,都取得了一定顯著的效果。近三四年,盡管在以上的方法流派上陸續有新方法出現,但幾乎都是在顯著增加計算復雜程度的代價下,帶來極為有限的性能的提升。顯然,對于傳統的低層計算視覺層面的先驗功能建模方法來講,各種流派和方法都面臨著巨大的挑戰。對于這些思想的回顧,不難有以下認識。
1) 傳統的低層計算視覺層面的先驗功能建模方法對于自然圖像一般性規律的認識、解釋較為片面和孤立,表現為不同的數學形式和理論解釋,對于方法與方法之間的內在本質關聯,不同先驗之間的耦合關系,盡管已有的一些工作研究了不同先驗之間的協作方法,但找出一種可以囊括所有孤立規律的數學建模形式幾乎是不可能的。以上這些原因,實際上對于這些先驗方法和思想的綜合運用造成了較大的障礙。
2) 對于不同類別和不同范疇的自然圖像,不同的先驗模型作用效果也是不同的。這一點在原來的自然圖像建模工作中,并沒有被客觀地重視和研究。從以上對各流派的分析,如果將自然圖像空間就信息熵進行劃分,各種先驗方法和流派在不同的等熵子空間明顯會體現出不同效能。不難得出,在面對真實應用或對于更大規模的視覺信息,如視頻編碼,這個問題會更加嚴重。
低層計算視覺層面,第一個開拓性的基于深度學習的圖像重建方法是Dong等[36-37]提出的單圖像超分辨網絡SRCNN。這個網絡通過模擬基于稀疏表示的單圖像超分辨方法的低分辨與高分辨圖像間的映射關系,實現低分辨圖像到高分辨圖像的端到端映射。得益于深度網絡強大的學習能力,基于深度學習的重建和增強方法在具有較低的計算復雜度的同時,重建和增強效果顯著提高。緊隨其后,一系列基于深度學習的圖像重建和增強方法相繼提出。為了降低網絡的復雜度并且進一步改進網絡的性能,Dong等[38]提出快速版本的SRCNN。改進版本的網絡通過在輸出端使用轉置卷積層實現圖像的上采樣,使得低分辨圖像可以直接作為網絡的輸入,從而降低了計算復雜度。為了克服較深的網絡訓練過程中收斂困難的問題,Kim等[39]提出學習圖像的殘差來加速網絡的收斂,并且通過增加網絡深度來增強網絡的感受野和非線性,從而改進網絡重建的性能。為了訓練出更加有效的網絡,一些技術如殘差學習[40]、批正則化[41]、梯度裁剪[39]等相繼被提出,這些方法改善了深度網絡的訓練過程,使得網絡容易收斂。
另外,為了在深度網絡中融入傳統圖像先驗信息來改進重建效果,已有一些方法采用正則化求解優化問題的思路,將不同的自然圖像先驗信息,如局部平滑、非局部自相似和稀疏表示等,用于設計網絡的目標函數。Wang等[42]使用深度網絡來模擬基于稀疏表示方法的求解過程,實現了深度網絡和稀疏表示方法的有效結合。Gu等[43]也將稀疏編碼融入深度網絡,提出了一個卷積稀疏編碼網絡,解決了重疊塊間像素的一致性問題。Liang 等[44]認為直接訓練 SRCNN模型非常耗時,因此,在網絡末端引入了Sobel 算子提取的邊緣信息。實驗數據表明,引入的邊緣先驗加速了網絡的收斂過程,而且一定程度上改善了重建效果。與此同時,隨著對抗式網絡(generative adversarial network, GAN)[45]在監督學習中的興起,Ledig等[46]和Johnson等[47]將GAN引入到超分辨率重建問題中,通過共同訓練生成網絡和對抗網絡,大大提升了超分辨率重建性能,重建后的圖像在視覺效果上得到顯著提升。
這些工作充分說明并驗證深度學習對于低層計算機視覺層面先驗功能模擬有著極大的潛力,但是這方面的研究總體還處于起步階段,很多問題尚待解決。比如:深度網絡結構中哪些神經元對最終的圖像復原效果有效的問題尚沒有人關注過;現在的工作發現底層的視覺任務中非殘差學習很難訓練得到較深的網絡,但是已有的基于殘差學習的工作也只是簡單地將映射目標由原來的目標圖像變成估計殘差而已,在什么條件下可以做到非殘差學習也可以訓練一個很深的網絡,以及更加有效的殘差學習方式都是有待解決的問題;由于圖像先驗對圖像復原效果有很大的幫助,如何有效地融合深度學習技術和自然圖像先驗來改善圖像復原質量也是值得探討的。
20世紀80年代,ISO、IEC、ITU三大國際標準組織開始制定數字視頻編碼標準,形成了基于預測(包括幀內、幀間、視間)、變換(變換+量化)和熵編碼等三大類關鍵技術的混合編碼框架,制定了以MPEG-2為代表的第一代視頻編碼標準。2003年,MPEG-4 AVC/H.264第二代國際標準出臺,實現了壓縮效率翻番,中國同期也開發制定了視頻編碼國際標準AVS。進而為了進一步提高視頻編碼效率,IEO/IEC和ITU-T推出了HEVC/H.265視頻編碼標準。隨著硬件技術的飛速發展,超高清視頻對視頻編碼技術提出了新需求。代表性的超高清編碼方法有四叉樹編碼單元劃分、預測和變換(已被HEVC和AVS2編碼標準采用)、基于超分辨率的編碼。近年來圖像視頻編碼的研究熱點還包括無線網絡視頻編碼以及多視點視頻編碼等。
在基于自然圖像先驗模型的編碼方面,我們關注近期視覺先驗知識同編碼框架融合、合理的視覺先驗知識介入的途徑與方式、以及圖像和視頻在采集和顯示過程中的增強等問題的研究進展。在Stankovic等[48]提出的視頻感知編碼方案中,視頻幀按關鍵幀和非關鍵幀分類,分別以傳統和壓縮感知方法采樣,在保證重構質量的前提下最高節省50%的采樣量。為了克服只依賴稀疏性而沒有考慮時間域運動的問題,Park等[49]提出在解碼端使用運動估計和補償的技術。Prades等[50]提出針對CVS的分布式字典方案:關鍵幀采用傳統技術編解碼,非關鍵幀分塊壓縮采樣及量化。在解碼端,由已解碼的關鍵幀獲得字典,在字典的輔助下恢復非關鍵幀。在Chen等[51]提出的自適應字典的方案中,關鍵幀提取基于幀的壓縮感知觀測值,壓縮感知幀提取基于塊的壓縮感知觀測值;在解碼端,從已經重建的相鄰幀及生成的邊信息中學習得到字典。幀塊的重構都能被表示成最小范數問題,利用可分離逼近算法(SpaRSA)[52]來稀疏重構。這些方法在構建碼本方面都是使用降質圖像塊作為尋找高質量圖像塊的索引重建圖像,這是一個病態無確定解問題,極易造成誤匹配,最終效果很大程度取決于對圖像先驗知識的掌握與介入程度[53-55]。
對于圖像視頻編碼,深度學習技術已展現出了強大的生命力。一方面,深度學習技術可以把編解碼器進行聯合優化,使得編解碼器性能達到最優。另一方面,利用深度學習技術可以提供多樣化的編解碼方法,方便針對不同的任務對圖像視頻實現智能編解碼。根據與現有編碼框架相互兼容的程度,可以將基于深度學習的圖像視頻編碼分為兩大類:與現有編碼框架兼容的圖像視頻編碼和以深度學習為核心的圖像視頻編碼。
與現有編碼框架兼容的圖像視頻編碼方面,Jiang等[56]提出了兼容傳統圖像壓縮標準的深度學習壓縮框架,在編碼器前端和解碼器后端分別加入卷積神經網絡對編解碼器聯合優化,并給出了前后兩個神經網絡聯合訓練的算法,大大提高了編解碼器的壓縮性能。Zhao等[57]進一步提出了通過學習一個虛擬編解碼器神經網絡來近似從原始圖像的有效描述圖像到后處理壓縮圖像的投影,這使得訓練網絡的時候梯度可以從后處理神經網絡有效地反向傳播到特征描述神經網絡。HEVC (high efficiency video coding)[58]與深度學習相結合的編碼框架也開始受到研究者們的關注,該類編碼框架將深度學習技術引入到HEVC中,是原有編碼框架的擴充。目前,深度學習技術在HEVC中的應用涉及幀內預測[59]、幀間預測[60]、CU預測模式決策[61]、變換[62]、熵編碼[63]、后處理[64]等技術環節。幀內預測與幀間預測是視頻編碼框架中最核心的模塊之一,預測又是深度學習技術擅長的。對于幀內預測,Li等[59]使用了全連接神經網絡,利用更多的上下文信息來預測當前塊的像素值,然而這種方法增加了一種新的預測模式,與原有的編碼框架兼容性較差,并且這種全連接神經網絡在一定程度上忽略了圖像的局部平滑特性,缺少局部感受野的考慮,導致預測的效果不穩定。對于幀間預測,HEVC一旦選擇了幀間預測的一種模式,就會完全依據參考幀來預測當前像素塊,這種預測模式只是參考了時域信息,從而完全忽略了空域信息的參考價值。Yan等[60]利用卷積神經網絡做分像素插值,在一定程度上提升了幀間預測的準確性,這種通過改進像素插值來提升預測質量的方法忽略了空域上下文,只參考了時域的信息。
以深度學習為核心的圖像視頻編碼主要包括自編碼器和循環神經網絡(recurrent neural network,RNN)這兩種常用的結構。Toderici等[65]提出了一種基于循環神經網絡的圖像壓縮框架,這是一種漸進式的編碼方法;在此基礎上,又提出一種全分辨圖像壓縮的循環神經網絡框架[66],該框架包含基于RNN的編碼器和解碼器及一個基于神經網絡的熵編碼器,并利用了感知誤差,在GRU和ResNet的基礎上提出了新的深度結構,取得了很好的重建效果。隨后,Johnston等[67]在之前工作的基礎上對網絡結構進行了改進。最近,Theis等[68]和Balle等[69]分別提出了一種基于神經網絡的編解碼框架。Theis等[68]為了有效地估計編碼系數的分布和比特率,引入了一個高斯多尺度混合模型(gaussian scale mixture),實現了有效的碼率控制。在Balle等[69]的網絡中,由于受到生物神經元的啟發,采用了聯合非線性來實現局部增益的控制。如何有效地量化也是此類問題中一個具有挑戰性的問題,Agustsson等[70]在連續松弛的量化和熵的基礎上,提出了一種Soft-to-Hard量化方法。由于圖像局部內容的不相似性,Li等[71]通過引入重要性圖(importance map)提出了一種基于內容自適應的量化方法。受到對抗神經網絡的啟發,Rippel等[72]引入了對抗訓練模塊,有效地提升了重建效果。隨著Inpainting相關技術的發展,基于Inpainting的壓縮框架開始受到研究者們的關注,Baig等[73]利用深度學習技術結合Inpainting理念提出一個新的圖像壓縮框架,該框架也是基于一種漸進式重建的思想。
本節采用兩個例子來展示自然圖像先驗建模在視覺信息增強和編碼領域的前瞻性應用。
單圖像超分辨是一個經典的卻仍然很熱門的研究方向。很多單圖像超分辨方法已經被提出,例如非深度學習方法A+[74]、SRF[75],以及基于深度學習的方法SRCNN[76]、SCN[77]、FSRCNN[78]。前人的工作表明充分利用圖像的多尺度信息可以有效改善圖像超分辨的效果。但是SRCNN[76]、SCN[77]、FSRCNN[78]都沒有考慮到多尺度信息。Shi等[79]提出構建基于膨脹卷積的inception模塊來學習多尺度信息。
膨脹卷積可以定義為
膨脹卷積是先對卷積核進行不同尺度的膨脹之后再與輸入圖像進行卷積操作。具體來說,d度膨脹卷積就是在進行卷積操作之前先在濾波器核的元素之間插入d-1個0得到新的濾波器核再與輸入圖像進行卷積操作。因為插入了多個0,所以不同膨脹度的卷積就像對圖像進行降采樣得到小尺度的圖像再進行卷積一樣。因此,不同膨脹度的卷積學習到不同尺度的信息,然后再將這些不同尺度的信息進行融合就可以達到對多尺度信息的有效利用。
仿照GoogLeNet提出的inception模塊,可以構建基于膨脹卷積的多尺度學習inception模塊。圖1展示了基于膨脹卷積的inception模塊與Goog-LeNet提出的inception模塊的對比。GoogLeNet的inception模塊解決的是濾波器尺寸的選擇問題,而基于膨脹卷積的inception模塊更希望利用不同尺度的輸入信息。因此基于膨脹卷積的inception模塊具有利用多尺度信息的性質。
利用基于膨脹卷積的inception模塊來學習多尺度信息,可以構建有效的深度網絡(命名為MSSRNet)進行單圖像超分辨方法,如圖2所示。概括起來,MSSRNet由若干個基于膨脹卷積的inception模塊級聯構成端到端的網絡來學習圖像殘差。這個網絡的特點是:利用基于膨脹卷積的inception模塊來學習多尺度信息;通過級聯多個模塊來增加網絡深度來達到增加網絡感受野大小和非線性;通過學習殘差而不是直接學習高分辨圖像來加快網絡收斂速度以及改善網絡性能。MSSRNet與多個流行的單圖像超分辨方法進行定量比較的結果如表1所示。表1給出了不同方法在3個數據庫(Set5、Set14和BSD200)中3種放大倍數(分別放大2倍、3倍和4倍)平均PSNR結果。如表1所示,MSSRNet在3個數據庫中的3種放大倍數都取得最佳的重建效果。關于該方法的更多具體的細節,請讀者參考文獻[79]。

圖 2 基于膨脹卷積起始模塊的單圖像超分辨網絡結構Fig. 2 Single-image super-resolution network structure based on the inception module based on dilatied

表 1 不同方法在3個標準數據集上3種放大倍數的定量比較Table 1 Quantitative comparison between various methods based on three benchmarks over three magnifications
盡管壓縮感知技術有很好的應用前景,最近幾年卻發展非常緩慢,其中一個主要原因是之前的壓縮重建算法往往需要一個非常復雜的解優化過程,重建速度非常慢而影響其實用性。如圖3所示,傳統的方法DWT[80]、TV[81]、 MH[82]、 CoS[83]和GSR[84]運行速度非常慢,因此研究快速的壓縮采樣和重建算法顯得非常必要。經過這么多年的發展,采樣矩陣的設計以及快速壓縮重建算法依然是壓縮感知技術的兩個核心問題。Shi等[85]提出使用深度網絡(CSNet)來解決這兩個問題,也就是用深度網絡來學習一個高效的采樣算子,以及設計一個快速卻重建效果好的網絡實現圖像快速端到端重建。

圖 3 基于深度學習的壓縮感知網絡框架與傳統的基于塊的壓縮感知方法的對比Fig. 3 Comparison between compressed sensing framework based on deep learning and the ones based on traditional blocks
圖4給出了基于深度網絡的壓縮感知方法與傳統的BCS-SPL (block based compressed sampling and smoothed projected landweber) 方法的對比。如圖所示,BCS-SPL算法包括3個過程:壓縮采樣、初始重構和非線性信號重構。在BCS中,一個圖像會被裁切為 B×B 大小的圖像塊,然后用一個合適大小的測量矩陣進行采樣。如果采樣率為 M/N ,每個塊需要個采樣值。因此采樣矩陣 ΦB是一個 nB×B2的矩陣。假設 xj是第j塊的向量,則相應的測量值可以表示為 yj=ΦBxj。這就實現了圖像的壓縮采樣過程。另一個需要解決的問題是,在給定采樣值的情況下,怎么將其準確恢復出原來的圖像。原來的BCS-SPL方法使用最小均方誤差線性估計來估計初始解。這個初始重構過程可以表示為

式中 Rxx是輸入圖像信號的自相關函數。明顯地,Φ?R是一個 B2×nB的矩陣。在得到初始解后,BCSSPL方法往往會進行多階段的平滑投影操作進行非線性重構來進一步改善圖像的質量。
CSNet模擬傳統的基于分塊的壓縮感知采樣和重建過程。圖4的上部是一個傳統的BCS-SPL方法的采樣和重建框架,下部是CSNet的網絡框架。如圖4所示,傳統的BCS-SPL方法包括壓縮采樣、初始重構和非線性信號重構3個過程。CSNet設計一個采樣子網絡、一個初始重構子網絡和一個深度重構子網絡來模擬傳統BCS-SPL的3個過程。采樣子網絡用一個卷積層模擬傳統的采樣矩陣 Φ。假設塊劃分大小為 B×B,為 M/N ,那 么 Φ 是 一 個行 B2列的矩陣。那么采樣子網絡將會是一個有個B×B大小濾波器的卷積層。初始重構子網絡包括一個卷積層和一個合并重構層。初始重構子網絡的卷積層有 B2個空間維度為1 ×1大小濾波器,而合并重構層是一個拼接和串聯操作。深度重構子網包括多個卷積操作。這個方法很好地模擬了傳統的壓縮重構過程,并且將復雜的解優化過程隱含于簡單的深度重構子網中,可以得到更好的重構質量和更快的運行速度。

圖 4 CSNet與流行算法的運行速度和重構PSNR的對比Fig. 4 Comparison of the running speed and PSNR between CSNet and the state-of-the-art methods
表2給出基于深度學習的壓縮感知方法(CSNet)與其他流行的壓縮感知方法在Set14數據集中5種采樣率下的重建結果的平均PSNR和SSIM結果的對比。如表2所示,CSNet在各種采樣率下與現有的方法相比都取得了顯著的重建效果提升。圖3給出了CSNet與流行算法在Set5數據集上采樣率為0.1的重建圖像的PSNR與運行速度的對比。結果顯示,CSNet不僅重建效果好運行速度也顯著提升。更多關于CSNet的細節,請讀者參考文獻[75]。

表 2 不同算法在Set14數據集中5種壓縮采樣率下的重建結果的平均PSNR和SSIM對比Table 2 Averages of PSNR and SSIM over 5 sampling rates between various methods on Set14
綜上所述,從理論模型到應用方法,縱觀各層面的根本任務、彼此聯結及發展現狀,有如下認識:在低層計算機視覺層面,深度結構可以從豐富的感知信息中歸納或解釋復雜的結構和建立數據中內在的表征,特別是為視覺信息的表達提供了高效的手段與工具;與傳統自然圖像先驗功能模擬相比,以數據為根本驅動,以精確描述和解釋自然圖像子空間為目標的自然圖像先驗深度模型,可先天克服傳統先驗建模方法片面、孤立的缺點,這使得我們跳出以往較為單一先驗建模方法,在更高的層面思考問題。
借助計算層面的自然圖像先驗模型是編碼技術的必然選擇。先驗知識在自然圖像認知過程中起著至關重要的作用。基于數字信號處理的傳統編碼技術并沒有直接從人類的視覺感知過程出發,而壓縮圖像最終要服務于人的感知;盡管認知心理層面的視覺先驗機理測試給出一些重要的發現與啟示,但是僅僅依靠其去解釋大腦對自然圖像一般性規律的歸納與認知是不現實的。因此從計算層面的視覺先驗功能模擬角度去解釋,才能夠將視覺信息編碼從圖像空間過渡到自然圖像子空間,這是一種合理、必須的選擇。