莫建文 曾兒孟 張彤 袁華



摘要:針對單一冗余字典在稀疏表示圖像超分辨率重建結果出現不清晰、偽影以及重建過程編碼效率不高、運算時間過長的問題,提出一種基于多字典學習和圖像塊映射的超分辨率重建方法。該方法在傳統稀疏表示的框架下,首先探索局部圖像塊的梯度結構信息,按梯度角度將訓練樣本塊分類; 然后為每個子類樣本集學習高低分辨率字典對,再結合最近鄰思想應用生成的字典,為每個子類計算從低分辨率塊到高分辨率塊映射的函數;最后將重建過程簡化為輸入塊和映射函數的乘積,在保證提高重建質量的同時減少了圖像重建的時間。實驗結果表明,所提算法在視覺效果有較大的提升,同時與錨點鄰域回歸算法相比,評價參數峰值信噪比(PSNR)平均提高約0.4dB。
關鍵詞:稀疏表示;圖像塊分類;多字典學習;映射函數;鄰域嵌入
中圖分類號:TP391 文獻標志碼:A
Abstract:To overcome the disadvantages of the unclear results and time consuming in the sparse representation of image superresolution reconstruction with single redundant dictionary, a single image superresolution reconstruction method based on multidictionary learning and image patches mapping was proposed. In the framework of the traditional sparse representation, firstly the gradient structure information of local image patches was explored, and a large number of training image patches were clustered into several groups by their gradient angles, from those clustered patches the corresponding dictionary pairs were learned. And then the mapping function was computed from low resolution patch to high resolution patch in each clustered group via learned dictionary pairs with the idea of neighbor embedding. Finally the reconstruction process was reduced to a projection of each input patch into the high resolution space by multiplying with the corresponding precomputed mapping function, which improved the images quality with less running time. The experimental results show that the proposed method improves the visual quality significantly, and increases the PSNR (Peak SignaltoNoise Ratio) at least 0.4dB compared with the anchored neighborhood regression algorithm.
Key words:sparse representation; image patches classification; multidictionary learning; mapping function; neighbor embedding
0 引言
在醫學診斷、衛星遙感、視頻監控等數字成像領域中,都需要圖像有較高的分辨率來為人的研究工作提供幫助。但是由于電子成像設備、環境以及傳感器制造成本制約等因素的影響,實際獲得的圖像分辨率難以滿足實際的應用需求, 因此通過軟件技術手段,將輸入的單幅或多幅低分辨率(Low Resolution, LR)圖像恢復出相同場景的高分辨率(High Resolution, HR)圖像的方法叫圖像超分辨率(Image SuperResolution, ISR)重建,該技術在公共安全等眾多領域發揮著重要的作用[1]。
為了獲得超分辨率圖像,目前軟件算法主要分為基于插值的方法[2]、基于重建的方法[3]和基于學習的方法[4-8]三類。而近年來,隨著機器學習和深度學習研究的深入,基于學習的重建算法取得了較大的進步[1,4-7]。Chang等[9]受流型學習算法啟發,提出局部線性嵌入(Local Linear Embedding, LLE)的超分辨率重建方法,學習到高、低分辨率圖像塊之間的局部特征映射模型,通過最近鄰域線性組合重建出高分辨率圖像。Yang等[5-6]利用稀疏編碼進行超分辨率重構,該方法首先假設高低分辨率圖像塊在過完備字典下有相同的稀疏系數,通過樣本圖像庫訓練高低分辨率字典對;然后求解待重建LR塊在低分辨率字典下的稀疏系數,再結合高分辨率字典重建對應的HR塊,從而得到最后的高分辨率圖像。Zeyde等[7]在Yang的基礎上把K次奇異值分解算法(Kmeans Singular Value Decomposition, KSVD)算法[9]應用到字典學習中,并用正交匹配追蹤(Orthogonal Matching Pursuit, OMP)算法[10]對圖像塊稀疏編碼,在速度和重建結果上都比Yang的有一定的提高。Dong等 [11]研究圖像的非局部冗余結構,提出稀疏表示框架下非局部自回歸模型,該模型學習Kmean聚類下的主成分分析(Principal Component Analysis, PCA)多字典,并引入回歸模型和非局部約束,取得不錯的效果。此外,Timofte等[4]提出一種快速的錨點鄰域回歸(Anchored Neighborhood Regression, ANR)算法,該算法結合稀疏編碼和最近鄰域嵌入(Neighbor Embedding, NE)思想,通過線下預先生成的映射關系,把超分辨率(SuperResolution, SR)過程簡化為輸入的LR塊和映射矩陣相乘,在保證重建質量的同時極大提高SR速度。
雖然以上方法取得了不錯的重建效果,但是它們建立的高度單一冗余字典對在稀疏分解中具有潛在的不穩定性,易產生視覺偽影[12],且編碼效率不高。針對這一不足,本文在Timofte的基礎上提出了基于多字典學習和圖像塊映射(Multi Dictionary Learning and Image Patches Mapping, MDLIPM)的超分辨重建方法。MDLIPM方法在保持原有稀疏編碼的本質基礎上,通過圖像局部梯度特征對圖像塊分類; 然后以KSVD算法對每個聚類庫訓練出高低分辨率字典對; 再結合最近鄰域思想,利用訓練到的字典對,學習從LR塊到HR塊的映射算子;最后將得到的映射函數應用到重建階段,避免重建過程需要對每個圖像塊稀疏編碼的開銷,減少重建時間并提高重建質量。實驗結果顯示,本文方法的重建結果在主觀視覺效果和客觀評價參數上都取得不錯的成績,重建時間有一定的降低。
2 MDLIPM的超分辨方法
本文汲取鄰域嵌入和稀疏表示重建的優點,提出的多字典學習和圖像塊映射超分辨率(Multi Dictionary Learning and Image Patches Mapping SuperResolution,MDLIPM SR)算法分為兩個階段:訓練階段,首先分析圖像塊的梯度結構,以此把訓練庫分成多個類,并為每個子類訓練高低分辨率字典對{D(i)l,D(i)h},i=1,2,…,K,然后利用字典對結合最近鄰域回歸思想,把鄰域的搜索空間限制在字典空間內,以此為每個子類學習到從LR塊到HR塊的映射回歸矩陣{f(i)},i=1,2…,K;重建階段,通過梯度信息判斷LR塊的所屬子類后,把該子類的映射函數矩陣與LR塊相乘直接重建出該LR塊對應的HR圖像塊,避免了對圖像塊迭代求解稀疏系數的過程,從而減低重建時間并進一步得到重建的HR圖像。
以上過程是Zeyde的兩步字典訓練思想[12],因其字典訓練速度快、編碼算法效率高,故本文同樣采用該思想進行字典學習。但由于其訓練的單一字典不足以最稀疏表示具有某種特定結構特性的圖像塊,所以本文引進2.1節描述的基于梯度信息進行圖像塊分類,進而學習到每個類的字典,并以訓練得到的多字典作為學習圖像塊映射函數的依據。
2.3 圖像映射函數學習
本文引進Timofte等[4]的方法,把基于字典的SR方法和最近鄰域方法相結合,限制鄰域搜索空間在字典空間內,學習從LR塊到HR塊的映射函數,以避免在重建階段對圖像塊稀疏編碼的過程,保證重建質量的同時降低重建的時間。
正如式(5)所示,由于計算上的需要,基于鄰域嵌入或稀疏表示的最小二乘問題都應用1范數正則項對權重系數或者稀疏系數加以限制。為了獲得系數的解析解,本文重新調整正則約束項,把1范數約束改為2范數約束;然后以嶺回歸[15]求解辦法獲得系數的解析形式。調整過之后,NE系數問題表示為:
3 實驗仿真與結果分析
為了驗證MDLIMP算法的有效性,在訓練階段,本文選擇包括人物、植物、建筑等69幅圖像并分塊,每個塊的大小與學習單一字典的(Sparse coding Super Resolution,ScSR)、ANR的相同,設置為5×5,建立10000個高低分辨率圖像塊一一對應的訓練集,并按照文中的梯度信息分類方法對樣本集分成K=8類;然后以文中2.2節所述為每個子類學習原子數為512的高低分辨率字典對和映射回歸矩陣,實驗中映射回歸學習式(18)的因子λ設為0.01。另外選取如圖1所示的10幅標準測試圖像,并通過雙三次插值方法降采用的到待重建的LR圖。整個測試實驗平臺為Inter Core i53230M CPU 2.60GHz,Matlab的版本為R2010b。
實驗中以雙三次插值算法Bicubic作為基準對比算法,并選擇最近鄰域局部線性嵌入方法(Neighbor Embedding Super Resolution,NESR)[9]、學習單一字典的ScSR算法[6]、Kmean聚類多字典的(Nonlocal Autoregressive Modeling,NARM)算法[11]和錨點鄰域回歸的(ANR)算法[4]作為對比實驗,以檢驗本文方法的性能。待重建的LR圖像放大因子s設為3,各方法重建結果的視覺主觀對比如圖2、3所示。客觀評價參數峰值信噪比(Peak SignaltoNoise Ratio, PSNR)和結構相似度(Structural SIMilarity,SSIM)的對比結果見表1和表2。
圖2比較了Parrots圖在不同SR方法的重建結果,考察鸚鵡眼角周圍的羽毛紋理細節部分。從視覺觀測上來看,Bicubic基于平滑假設,故重建細節不明顯,整體表明較為平滑;NESR算法丟失較多的高頻信息,在恢復了部分細節的同時引入了不可估計的噪聲,羽毛紋理出現鋸齒、模糊等現象;而其他幾個算法重建效果都比NESR的要好,重建出來的細節信息比NESR的要多,但仍有一些不足的地方。其中ScSR方法的細節重建明顯同時仍出現振鈴狀;NARM算法在鸚鵡羽毛的邊緣部分出現平滑和偽影效果,細節部分也不夠清晰;ANR算法中鸚鵡眼角的紋理相對較好,但同樣出現部分虛假信息。而本文MDLIPM方法在羽毛邊緣的銳度和清晰度都得到明顯的改善,重建的高頻信息豐富,視覺效果更好。同樣從圖3 face圖像人臉鼻子部分的雀斑看出,本文MDLIPM方法恢復的局部細節信息清晰、細膩,整體效果與原始圖像更接近。從客觀評價參數來看,從表1、2中可知,本文MDLIPM方法和NESR算法、ScSR算法以及NARM算法相比、在PSNR和SSIM上略有提高,其中單幅圖像PSNR提高最多的有0.8dB左右,而平均也可提高大概0.4dB,說明本文方法確實可行有效。同時,添加局部對比度的質量評價方法(Quality Index based on Local Variance, QILV)[16]、模糊系數K[17]和質量因素Q[18],對重建結果進行比較,其中各方法重建質量評估參數平均值如表3所示。從表中可以看出,本文方法均取得較好的成果。
另外在重建時間上,不考慮訓練時間,本文僅僅對各個方法的重建時間作比較。NESR算法需要對每個待重建塊搜索最近鄰域,故重建時間是最長的。從表4看出,ScSR、NARM、ANR算法以及本文方法平均的重建時間分別為42.46s、189.97s、0.45s和2.91s。由于本文方法在重建時,需要判斷待圖像塊所屬類別,導致時間比ANR算法略長,但顯著提高了重建圖像的質量。
4 結語
本文提出了基于多字典和圖像塊映射的超分辨率重建方法,該方法探索局部圖像塊的梯度結構信息,并依據局部塊的梯度方向對訓練樣本塊分類,再應用兩步字典訓練方法為每個分類樣本訓練高低分辨率字典對;同時引入了最近鄰域回歸思想,在每個類中從學習到的字典對中建立從低分辨率塊到高分辨率塊的映射矩陣。在重建過程,首先對每個待重建塊歸并到所屬類中,然后應用該類映射矩陣重建相對應的高分辨率圖像塊,避免了對每個圖像塊稀疏編碼的運算開銷。實驗結果顯示,在保留經典稀疏編碼圖像超分辨率重建效果的同時,一定程度上提高SR重建效率、降低重建時間。未來的研究工作將尋求更好的優化方法,進一步提高重建質量,以及應用分布式并行處理降低訓練階段的時間;同時將進一步討論參數設置,如圖像塊的大小、樣本集聚類數K等對重建效果的影響。
參考文獻:
[1]CHEN X, QI C. Nonlinear neighbor embedding for single image superresolution via kernel mapping[J]. Signal Processing, 2014, 94(1): 6-22.
[2]LIU X, ZHAO D, ZHOU J, et al. Image interpolation via graphbased Bayesian label propagation[J]. IEEE Transactions on Image Processing, 2014, 23(3): 1084-1096.
[3]RASTI P, DEMIREL H, ANBARJAFARI G. Image resolution enhancement by using interpolation followed by iterative back projection[C]// Proceedings of the 21st IEEE on Signal Processing and Communications Applications Conference. Piscataway, NJ: IEEE, 2013: 1-4.
[4]TIMOFTE R, DE V, VAN GOOL L. Anchored neighborhood regression for fast examplebased superresolution[C]// Proceedings of the 2013 IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2013: 1920-1927.
[5]YANG J, WRIGHT J, HUANG T S, et al. Image superresolution via sparse representation[J]. IEEE Transactions on Image Processing, 2010, 19(11): 2861-2873.
[6]YANG J, WRIGHT J, HUANG T, et al. Image superresolution as sparse representation of raw image patches[C]// Proceedings of the 2008 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE,2008: 1-8.
[7]ZEYDE R, ELAD M, PROTTER M. On single image scaleup using sparserepresentations[C]// Proceedings of the 7th International Conference on Curves and Surfaces. Heidelberg: Springer, 2012: 711-730.
[8]AHARON M, ELAD M, BRUCKSTEIN A. The KSVD: an algorithm for designing overcomplete dictionaries for sparse representation[J]. IEEE Transactions on Signal Processing, 2006, 54(11): 4311-4322.
[9]CHANG H, YEUNG D Y, XIONG Y. Superresolution through neighbor embedding[C]// Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2004, 1: 275-282.
[10]RUBINSTEIN R, ZIBULEVSKY M, ELAD M. Efficient implementation of the KSVD algorithm using batch orthogonal matching pursuit[R/OL].[2015-11-04].https://www.researchgate.net/publication/251229200.
[11]DONG W, ZHANG L, LUKAC R, et al. Sparse representation based image interpolation with nonlocal autoregressive modeling[J]. IEEE Transactions on Image Processing, 2013, 22(4): 1382-1394.
[12]ELAD M, YAVNEH I. A plurality of sparse representations is better than the sparsest one alone[J]. IEEE Transactions on Information Theory, 2009, 55(10): 4701-4714.
[13]FENG X G, MILANFAR P. Multiscale principal components analysis for image local orientation estimation[C]// Proceedings of IEEE Conference Record of the 36th Asilomar Conference on Signals, Systems and Computers. Piscataway, NJ: IEEE,2002, 1: 478-482.
[14]YANG S, WANG M, CHEN Y, et al. Singleimage superresolution reconstruction via learned geometric dictionaries and clustered sparse coding[J]. IEEE Transactions on Image Processing, 2012, 21(9): 4016-4020.
[15]TIKHONOV A N, ARSENIN V I A. Solutions of illposed problems[J]. Mathematics of Computation, 1978, 32(144):491.
[16]AJAFERNANDEZ S, SANJOSESTPAR R, ALBEROLALOPEZ C, et al. Image quality assessment based on local variance[C]// Proceedings of the 28th Annual IEEE International Conference on Engineering in Medicine and Biology Society. Piscataway, NJ: IEEE,2006: 4815-4818.
[17]黃文輝, 陳仁雷, 張家謀. 數字視頻圖像質量客觀測量方法的改進與實現[J]. 北京郵電大學學報, 2005, 28(4): 87-90. (HUANG W H,CHEN R L, ZHANG J M. Improvement and implementation of objective digital video quality measurement[J].Journal of Beijing University of Posts and Telecommunications,2005, 28(4): 87-90.)
[18]WANG Z, SHEIKH H R, BOVIK ALAN C. Objective Video Quality Assessment[M]. Boca Raton: CRC Press, 2003:214-220.