謝寶陵,徐國明,2
(1.陸軍軍官學院基礎部,安徽 合肥 230031;2.合肥工業大學計算機與信息學院,安徽 合肥 230009)
用于超分辨率重建的同構過完備字典學習方法*
謝寶陵1,徐國明1,2
(1.陸軍軍官學院基礎部,安徽 合肥 230031;2.合肥工業大學計算機與信息學院,安徽 合肥 230009)
構造合適的過完備字典是基于稀疏表示的超分辨率重建中的關鍵問題之一。在最大似然估計準則下,建立基于混合高斯的同構過完備字典學習模型。模型采用加權的l2范數來刻畫分解殘差,由分解殘差設計權值矩陣,并且將同構的雙字典學習問題轉化為單字典的學習。采用稀疏編碼和字典更新的交替迭代策略完成目標函數的求解,由內點法進行稀疏編碼,采用拉格朗日對偶法完成字典更新。最后將學習得到的字典用于超分辨率重建實驗,并與其他方法進行比較。實驗結果驗證了該模型和算法的有效性。
超分辨率;過完備字典;混合高斯;稀疏編碼
最近幾年,基于稀疏表示的圖像超分辨率重建引起了國內外眾多研究者的關注。其基本思想是:需要重建的高分辨率圖像塊通過與高分辨率過完備字典的線性組合來求得,而表示系數則通過觀測圖像在低分辨率過完備字典下進行稀疏編碼來求得。在此過程中,如何構造合適的高/低分辨率的過完備字典,使得圖像的主要特征和結構能夠用稀疏的非零系數來表示,這對于重建效果具有重要影響,不同的算法采用了不同的字典構造方法。
在文獻[1]中,Yang J C等人用線性規劃求解低分辨率圖像塊的稀疏表示,并通過與高分辨率字典的線性組合得到高分辨率的圖像塊,其高分辨率字典是簡單地采用隨機的高分辨率樣本圖像塊組合而成,而低分辨率字典是由對應的高分辨率樣本塊經下采樣及加噪聲后生成的低分辨率樣本組合而成。然后在文獻[2]中,他們又對自己的方法進行了改進,采用聯合字典訓練的方法同時訓練出高/低分辨率字典,訓練的樣本集通過低分辨率圖像塊的特征提取獲得。Zeyde R等人[3]在文獻[12]方法的基礎上,分別對高/低分辨率字典采用不同的方法進行離線訓練,低分辨率字典采用K-SVD算法[4]直接訓練,而高分辨率字典則通過進一步的優化(采用共軛梯度法)求得。Pu Jian等人[5]則針對高/低分辨率圖像塊對的異構特點,通過求解在稀疏表示下的同構圖像塊對,從而利用異構數據集構造出同構字典。Sun Yu-bao等人[6]針對圖像不同結構形態,提出選取緊框架系統分別建立多成份子字典,分別利用Curvelet變換和Wave-Atom變換作為幾何結構和紋理成份子字典,形成圖像的多形態稀疏表示模型,采用交替迭代收縮數值算法求解各子成份字典下的稀疏表示。而Lian Qiu-sheng等人[7]則利用圖像局部特征將圖像塊分為平滑、邊緣和不規則結構三種類型,其中邊緣塊細分為多個方向,然后對邊緣和不規則結構塊分別訓練各自對應的低分辨率和高分辨率字典,通過正交匹配追蹤算法重建。
然而,上述重建方法所采用的字典或多或少都存在不足。采用隨機字典簡單快速,對于特定目標效果較好,顯然有失一般性;多成份子字典雖然能夠更好地保持圖像的多種結構形態,但是缺少相應的快速分解和重構算法;通過學習或訓練算法得到的字典能夠具有更稀疏的表示,并取得了較好的重建效果,但是通常采用l1范數或l2范數來刻畫分解誤差,也就是假設分解誤差符合拉普拉斯或高斯分布,而這種假設并不完全符合實際。由于采用l2范數來刻畫分解誤差進行稀疏編碼是個帶稀疏性約束的最小二乘問題,顯然,不同的圖像塊其分解誤差是不一樣的,在這種情況下,應該給誤差較小的圖像塊(精度較高)較大的權值,才能夠獲得更精確的稀疏分解系數,從而能夠重建出更好的效果。
受魯棒性稀疏編碼方法[8]和離線字典訓練[3]思想啟發,本文提出同構的高/低分辨率過完備字典學習方法。首先建立基于混合高斯稀疏編碼的同構字典學習模型,在最大似然估計準則下,假設分解誤差符合混合高斯分布,由l2范數正則化進行約束,而稀疏性則由帶參數的l1范數正則化進行約束。然后根據分解誤差設計權值矩陣,字典學習由稀疏編碼和字典更新兩個過程完成,采用l1正則化的最小二乘內點法[9]完成稀疏編碼,而字典更新則采用拉格朗日對偶法[10]。最后,將學習得到的高/低分辨率同構字典用于Yang J C等人[2]和Zeyde R等人[3]的超分辨率重建,并與之進行比較。實驗結果表明,本文方法學習的字典能夠更有效地描述圖像的結構信息,從而重建出更好的效果,驗證了本文方法的有效性。
對于一組給定的訓練樣本X={x1,x2,…,xn}∈Rn,字典學習的任務就是通過稀疏編碼學習出一過完備字典D∈Rn×m,其列向量記為di(i=1,2,…,m),使訓練樣本在D中具有稀疏表示。此優化問題的目標函數可以表示如下:
(1)

(2)
對于此式的求解,目前提出了大量算法[11,12]。當同時求解D和α時,此問題是個非凸優化問題,但是當固定其中一個而求另一個時,就可以轉化為凸優化問題進行求解,故此問題通常由兩個過程完成:稀疏編碼和字典更新。在稀疏編碼階段,認為字典已經求得,當完成稀疏編碼后,再由此稀疏表示系數來進行字典更新。兩個過程交替進行,從而完成字典的學習,同時得到稀疏表示系數矩陣。
在基于稀疏表示的超分辨率重建過程中需要兩個過完備字典:高分辨率字典Dh和低分辨率字典Dl。由觀測圖像求解在Dl下的表示系數,由此表示系數與Dh的線性組合得到高分辨率圖像,所以必須保證圖像在Dh和Dl上具有相同的表示系數,也就是Dh和Dl的學習必須是同構的。為此,首先構造訓練樣本對P={Xh,Yl},其中Xh={x1,x2,…,xn}表示高分辨率圖像樣本集,而Yl={y1,y2,…,yn}表示對應的低分辨率圖像樣本集(或特征提取)。同構字典學習在這兩個訓練樣本集上進行,以保證稀疏表示系數是相同的。由式(2),此問題可以描述如下:
(3)
和
(4)
將式(3)和式(4)合并,從而有:
(5)
其中,N和M分別表示高分辨率和低分辨率樣本寫成列向量形式的維數,而1/N和1/M用以平衡式(3)和式(4)的代價項。為了利用式(2)的求解策略求解式(5),將式(5)寫成如下形式:
(6)
其中,
(7)
在文獻[5]和文獻[2]的超分辨率重建過程中,都采用了式(6)的模型來完成字典的學習,不同之處在于前者采用K-SVD算法[4]直接求解,而后者采用文獻[10]中的方法直接求解。


(8)
其中,W是對角的權值矩陣,對于不同的分解殘差定義不同的權值。根據式(8),則式(6)轉換為:
(9)
在文獻[8]中,YangM等人針對人臉識別中的魯棒性稀疏編碼問題,給出了W的定義方法:
(10)

對于模型(9)的雙變量優化問題的求解,本文采用K-SVD字典學習[4]的策略,其基本思想是由訓練樣本和初始字典開始,通過稀疏編碼和字典更新兩個過程的交替迭代完成求解。在稀疏編碼階段,固定字典Dc,求解α,即:
(11)
對于此式,由于數據規模較大,采用文獻[9]提出的適合求解大尺度l1正則化約束的最小二乘問題的內點法進行求解,以提高算法效率。
在字典更新階段,固定α,更新字典Dc,即:
(12)
同樣基于效率考慮,利用拉格朗日對偶法[10]進行求解。最后,Dh和Dl由Dc拆分得到。
由于字典的訓練是對圖像塊進行的,所以對于訓練所需的樣本集Xc,首先由高分辨率的樣本圖像Xh逐行取其圖像塊,而低分辨率的圖像樣本則由Xh下采樣得到。為了使稀疏編碼得到的表示系數能夠更精確地表達觀測圖像的結構特征,對下采樣得到的低分辨率圖像樣本進行特征提取,采用文獻[2]中的四個1-D濾波器,如式(13)所示:
(13)
由此構成低分辨率圖像樣本集Yl,然后由式(7)垂直串聯成Xc。對低分辨率的字典Dc的初始值可以是隨機數,也可以由訓練樣本進行離散余弦變換等得到。具體算法描述如下:
初始化:由訓練樣本圖像的圖像塊根據式(7)構成樣本集Xc,Dc由隨機值構成,設置迭代次數T。
步驟1重復執行;
步驟2稀疏編碼,由式(10)計算權值矩陣Wi,i;
步驟3由Wi,i及式(11)求各樣本圖像塊在字典Dc下的表示系數αi,當求得所有樣本在當前字典下的表示系數后,則獲得稀疏表示系數矩陣α=(α1,α2,…,αN);
步驟4字典更新,根據式(12)完成字典Dc的更新;
步驟5T=T-1,若T≠0,轉步驟1,否則轉步驟6;
步驟6列數不變,根據下采樣倍數,將Dc拆分成兩個相同列數的字典Dh和Dl。
為了驗證本文方法的有效性,將本文方法學習的字典分別用于Yang J C等人[2](以下簡稱為Yang)和Zeyde R等人[3](以下簡稱為Zeyde)的基于稀疏表示的超分辨率重建過程中,采用不同的圖像數據進行重建實驗,并從視覺效果、峰值信噪比(PSNR)等方面進行比較。實驗環境為:MatLab 7.9.0運行于P4 3.0 GHz,1.25 GB RAM的PC機的Windows XP SP3平臺。字典學習過程中λ=0.15,圖像塊大小為5×5,圖像塊數量為100 000個,字典大小為512,得到的3倍率高/低分辨率字典如圖1所示。原始字典大小分別為25×512和100×512,由于低分辨率樣本集進行了四個特征提取,故字典行數是高分辨率字典的四倍,為方便顯示,處理成圖中所示形狀。以下實驗不做說明,都是在此參數下進行的。

Figure 1 Learned isomorphic over-complete dictionary圖1 學習得到的同構過完備字典
4.1 與Yang 的方法進行比較
圖2a~圖2d是部分測試圖像,其中圖2a和圖2b是標準灰度圖像,圖2c是偽裝目標的偏振圖像,圖2d是模擬坦克的紅外圖像,圖2a~圖2c的實際大小是384×384,圖2d的實際大小是480×480。圖3是對應的三倍下采樣低分辨率圖像。重建時λ=0.2,進行三倍超分辨率重建。為保證比較的客觀性,當圖1的字典用于Yang的重建過程時,保持參數設置不變。
圖4是重建結果的局部圖像,從帽檐、人臉及坦克模型的輪廓可以看出,采用本文方法能夠更好地保持圖像的大尺度邊緣和輪廓結構,其邊緣的鋸齒效應明顯減少;通過對局部結果的觀察不難發現,無論是頭發、眼睛,還是坦克模型前端的設備等,其紋理等小尺度細節內容也保持得更加完整。

Figure 2 Testing images圖2 測試圖像

Figure 3 Down-sampled images圖3 下采樣圖像

Figure 4 Comparison with Yang’s method圖4 與Yang的重建結果比較
為進一步客觀評價本文方法的結果,對多幅圖像進行超分辨率重建,并對實驗結果計算其PSNR值,PSNR定義如下:

其中,yij和xij分別是大小為m×n的原始高分辨率圖像和超分辨率重建結果。表1是計算結果,表中圖像除了圖2顯示的圖像外,其余的都是標準灰度測試圖像。表2中數據表明,本文方法無論是對灰度圖像、偏振圖像,還是紅外圖像,在客觀指標上都取得了更好的效果,表2中平均數據提高約0.7dB。

Table 1 PSNR(dB) for different methods表1 重建結果1的PSNR值 dB
4.2 與Zeyde的方法進行比較
采用圖2的實驗圖像將圖1的字典應用于Zeyde的重建過程,并同樣進行三倍超分辨率重建,實驗中λ=0.1。圖5a~圖5d是三倍超分辨率重建結果的局部圖像,從人臉五官、臺布和桌腿邊緣、以及臺布花紋等可以看出,本文方法的重建結果無論是大尺度的邊緣和輪廓結構還是小尺度的細節內容同樣都保持得更加完整。

Figure 5 Comparison with Zeyde’s method圖5 與Zeyde的重建結果比較
表2是PSNR值計算結果,表中數據表明當本文方法訓練的字典用于Zeyde的重建過程時,在客觀指標上同樣取得了更好的效果,表中數據平均約提高0.6 dB。
4.3 主要參數對重建結果的影響
為進一步驗證本文方法的有效性,對字典學習中的主要參數如字典大小、圖像樣本塊數量等進行實驗驗證。表3是不同字典大小的重建結果比較,實驗圖像是lena,表中“本文方法1”指本文字典用于Yang的超分辨率重建,而“本文方法2”指本文字典用于Zeyde重建過程??梢钥闯?,字典越大,重建效果越好,在兩種重建方法下,本文字典能夠在較小的情況下取得與Yang和Zeyde相當的重建效果。這表明本文字典對圖像更具有表現力,這對于提高超分辨率重建效率具有意義。另外,經實驗表明樣本塊數量的增加對重建效果影響很小,由于樣本塊數量與樣本塊大小及重疊區域也有關系,同時樣本塊大小及重疊區域對重建結構有影響,經實驗驗證,樣本塊大小在3~5、重疊區域在大于樣本大小一半以上(上取整)、樣本塊數量在50 000~1 000 000,會在字典學習效率和重建效果之間取得比較好的平衡。

Table 2 PSNR(dB) for different methods表2 重建結果2的PSNR值 dB

Table 3 PSNR(dB) for different dictionary size表3 不同字典大小重建結果的PSNR值 dB
針對稀疏表示下的圖像超分辨率重建的字典學習問題,本文提出基于混合高斯稀疏編碼模型的同構的過完備字典學習方法。模型在最大似然估計準則下假設分解誤差符合混合高斯分布,以使字典能夠更精確描述圖像結構信息,根據分解誤差設計權值矩陣,使問題轉換成加權的范數逼近問題,數值求解算法則由稀疏編碼和字典更新兩個過程的交替迭代完成。實驗結果驗證了本文方法的有效性。
[1] Yang J C, Wright J, Huang T, et al. Image super-resolution as sparse representation of raw image patches[C]∥Proc of IEEE Computer Vision and Pattern Recognition(CVPR),2008:1-8.
[2] Yang J C, Wright J, Huang T, et al. Image super-resolution via sparse representation[J]. IEEE Transactions on Image Processing, 2010, 19(11):2861-2873.
[3] Zeyde R, Elad M, Protter M. On single image scale-up using sparse-representations[C]∥Proc of the 7th International Conference on Curves and Surfaces, 2010:1-22.
[4] Aharon M, Elad M, Bruckstein A M. The K-SVD:An algorithm for designing of over-complete dictionaries for sparse representation[J]. IEEE Transactions on Signal Processing, 2006, 54(11):4311-4322.
[5] Pu Jian, Zhang Jun-ping. Super-resolution through dictionary learning and sparse representation[J]. PR&AI, 2010, 23(3):335-340. (in Chinese)
[6] Sun Yu-bao, Wei Zhi-hui, Xiao Liang, et al. Multimorphology sparsity regularized image super-resolution[J]. Acta Electronica Sinica, 2010, 38(12):2898-2903. (in Chinese)
[7] Lian Qiu-sheng,Zhang Wei.Image super-resolution algorithms based on sparse representation of classified image patches[J]. Acta Electronica Sinica, 2012, 40(5):920-925. (in Chinese)
[8] Yang M, Zhang L, Yang J, et al. Robust sparse coding for face recognition[C]∥Proc of CVPR’11, 2011:625-632.
[9] Kim S J, Koh K, Lustig M, et al. An interior-point method for large-scale l1-regularized least squares[J]. IEEE Journal on Selected Topics in Signal Processing, 2007, 1(4):606-617.
[10] Lee H, Battle A, Raina R, et al. Efficient sparse coding algorithms[C]∥Proc of 2006 Conference on Advanced in Neural Information Processing Systems, 2007:801-808.
[11] Yang Jing-yu, Peng Yi-gang, Xu Wen-li, et al. Ways to sparse representation:An overview[J]. Science in China Se
ries F:Information Science, 2009, 52(4):695-703.
[12] Rubinstein R, Zibulevsky A M, Elad M. Dictionaries for sparse representation modeling[J]. IEEE Transactions on Signal Process, 2010, 98(6):1045-1057.
[13] Wright J, Ma Y. Dense error correction via l1 minimization[J]. IEEE Transactions on Information Theory, 2010, 56(7):3540-3560.
[14] Boyd S,Vandenberghe L. Convex optimization[M]. New York:Cambridge University Press, 2009.
附中文參考文獻:
[5] 浦劍,張軍平. 基于詞典學習和稀疏表示的超分辨率方法[J]. 模式識別與人工智能, 2010, 23(3):335-340.
[6] 孫玉寶,韋志輝,肖亮,等.多形態稀疏性正則化的圖像超分辨率算法[J].電子學報, 2010,38(12):2898-2903.
[7] 練秋生,張偉. 基于圖像塊分類稀疏表示的超分辨率重構算法[J].電子學報, 2012,40(5):920-925.
XIEBao-ling,born in 1960,professor,his research interests include software engineering, and parallel algorithm design.

徐國明(1979-),男,安徽太和人,博士生,講師,研究方向為圖像稀疏表示和超分辨率重建。E-mail:xgm121@163.com
XUGuo-ming,born in 1979,PhD candidate,lecturer,his research interests include image sparse representation, and super-resolution reconstruction.
Anisomorphicover-completedictionarylearningmethodforsuper-resolutionreconstruction
XIE Bao-ling1,XU Guo-ming1,2
(1.Department of Basic Sciences,Army Officer Academy,PLA,Hefei 230031;2.School of Computer and Information,Hefei University of Technology,Hefei 230009,China)
Constructing an appropriate over-complete dictionary is one of the key problems of super-resolution based on sparse representation. In the maximum likelihood estimation principle, an isomorphic over-complete dictionary learning model based on mixture Gaussian is proposed. Firstly, the sparse coding residual of the model is described by the weight l2-norm and the weight matrix is designed by the residual. Secondly,the isomorphic coupled dictionary learning problem is translated into the single dictionary learning problem. The dictionary is learned by the alternate and iterative strategy using sparse coding and dictionary updating. An interior-point method is used in sparse coding and Lagrange dual is used in dictionary updating. Finally, the learned dictionary is used in the super-resolution experiment,and compared with other methods.The experimental results demonstrate the effectiveness of the proposed method.
super-resolution;over-complete dictionary;mixture Gaussian;sparse coding
1007-130X(2014)08-1441-06
2012-10-31;
:2013-02-25
安徽省自然科學基金資助項目(1208085QF115)
TP391.9;TN911.73
:A
10.3969/j.issn.1007-130X.2014.08.004

謝寶陵(1960-),男,安徽滁州人,教授,研究方向為軟件工程和并行算法設計。E-mail:89662550@qq.com
通信地址:230031 安徽省合肥市蜀山區黃山路451號055信箱
Address:P.O.Box 055,451 Huangshan Rd,Shushan District,Hefei 230031,Anhui,P.R.China