陶霖密,袁春,王浩達
(清華大學 計算機科學與技術系,北京,100084)
在單傳感器相機成像過程中,彩色圖像傳感器只采集到彩色圖像的三分之一的信號,彩色圖像是基于該原始信號重構出來的,該重構過程通常稱為去馬賽克。原始圖像信號去馬賽克過程的彩色圖像的質量至關重要,算法性能表現直接決定重構圖像的質量高低。重構過程中引入的噪聲可能造成最終圖像的人工偽色彩、拉鏈效應、灰度邊緣等問題,圖像豐富的特征細節和自然的色彩過渡往往無法兼得。傳統的去馬賽克算法往往只利用信號在空間和頻譜上的區域相關性[1],速度較快而適應性較差。為了克服這一問題,基于壓縮感知[2]、深度學習[3]的圖像重構算法被提出并得到廣泛應用。壓縮感知與深度學習相比于預先定義的先驗模型如小波變換等,針對特定類型的信號學習得到的字典集會帶來更好的重構效果[4-7]。但問題是這兩者均依賴于從已有的數據中學習。一般來說,學習所需的訓練集來源有兩類:1)原始的不完全圖像信號;2)獨立的圖像數據集切分成圖像塊(patch)集合。本質上原始信號本身已經缺失不足以提供更多信息,使用一個獨立但相關的圖像集訓練能得到更好的重構結果。目前廣泛使用的是以柯達無損圖像數據集為代表的經由硬插值算法得到的圖像組成的數據集。這種圖像由raw格式原始信號經由插值算法計算得到,本身引入了重構誤差,并非是無損數據。例如:常用的柯達圖像數據集,其飽和度低下,在色彩過渡處出現大量由于插值所造成的灰度邊緣,與人眼感知的自然色彩世界有較大出入。這種訓練集中天生存在的誤差將會被引入字典中,最終影響重構的成像質量,從而造成圖像重構悖論。
為了打破了深度學習、壓縮感知等方法在應用時的循環悖論,使得這些方法能夠真正地重建自然彩色圖像,本文提出了一種新的恢復自然色彩圖像的重構方法,通過挖掘圖像信號在不同字典下的稀疏表示的差異來提升圖像色彩表現。這種基于壓縮感知的圖像重構方法的核心貢獻是Sandwich圖像數據集,以及構建這種數據集的方式。通過這些圖像數據集訓練的字典,重構得到的圖像有更好的邊緣色彩表現,而且不出現偽色彩。實驗證明,在峰值信噪比(PSNR)和視覺質量方面,該方法優于大多數傳統的去馬賽克算法,包括不限于使用基于Kodak數據集字典重構的圖像和使用傳統基于壓縮感知方法重構得到的圖像。
壓縮感知理論的基礎是存在一種變換方法[2],使得信號變換到某空間后是稀疏的,即很少系數不為零。現有的大量研究結果表明,基于和具體信號無關的固定的變換,比如小波變換,通常不能使變換后的信號足夠稀疏。針對特定類型的信號學習得到的稀疏變換會帶來更好的稀疏性。
基于壓縮感知的圖像去馬賽克(Demosaicing)可被表示成如下問題:


2)其中投影矩陣MD必須滿足一些特定條件,比如有限等距性質(restricted isometry property,RIP 性質)。
RIP性質保證了觀測矩陣不會把兩個不同的稀疏信號映射到同一個集合中(保證原空間到稀疏空間的一一映射關系),要求從觀測矩陣中抽取的每M個列向量構成的矩陣是非奇異的。在具體情況中一般采用固定大小的稀疏矩陣,往往通過構造恰當的測量矩陣使得滿足RIP等約束條件。
稀疏編碼(sparse coding)可被描述為

本文需要解決的問題:
唯一性定理 結合式(1)和式(3),可以得到:

式(4)也可以被正則化描述成:

在這個求解問題中,字典集與最終信號的稀疏編碼算法同樣重要,其中字典可以是典型的數學基,譬如小波、Garbor、傅里葉基等。然而這些數學基往往不能很好表達復雜的自然圖像。
目前廣泛的用于測試圖像重建、壓縮、字典學習等的圖像數據集是Kodak無損圖像數據集。Kodak圖像數據集中圖像為24位全彩色png格式,由Eastman Kodak公司開放無限制使用。這些圖像采集來源已不可考,由于其廣泛被用于字典學習的數據來源和不同圖像重構算法性能的評價,有必要謹慎考慮。
如圖1所示,Kodak數據集中圖像整體飽和度偏低[8],亮度較現代數字相片也較暗,與人視覺感知到的圖像色彩有較大的出入,作為benchmark其不太貼合自然世界中圖片的情況。除此之外,良好的數據集圖像在色彩轉換的邊緣處應當流暢自然,然而Kodak圖像數據中明顯可見在色彩邊緣處出現了大量的灰黑邊。這種情況隱藏在字典學習的原始信息中,會引發一系列的副作用,從而導致最終重構的圖像也加上了不自然的黑邊,稱為拉鏈或鋸齒效應。作為基準線測試數據集,Kodak數據中僅有24幅圖片信息,不能滿足圖像重構多字典學習的測試要求。

圖1 柯達圖像數據集中存在的灰度邊緣Fig. 1 Gray edges in the Kodak image database
傳統使用的數字圖像數據集基本都是由單感光器經過CFA模版采樣[9-11],然后經過計算插值得到的,同樣存在和Kodak數據集類似的問題,為彩色圖像的重建引入了多種噪聲[12]。
為了在源頭上避免多余的噪聲和誤差,使用Foveon X3彩色圖像傳感器(圖2)采集了幾百幅圖像作為數據集(下文稱Sandwich圖像集)。Foveon X3彩色圖像傳感器具有3層結構,沒有任何CFA模版,每個像素都直接采樣得到RGB三色的信息,無需插值,避免了插值、重構等計算帶來的誤差[12]。

圖2 Foveon X3圖像傳感器Fig. 2 Foveon X3 imaging sensor
Sandwich圖像數據集中的圖像是2 600×1 800大小的高清彩色圖像,實際應用中可裁剪出任意大小的子圖使用。在字典學習過程中有足夠充分的圖像信息可供使用,從而使得描述圖像時能得到更好的稀疏性。
圖3展示出了Sandwich圖像數據集中的一些樣例。從圖3中可明顯看出,圖像邊緣處色彩過渡自然流暢,不會出現黑/灰色邊緣,即所謂的拉鏈效應。在不出現生硬的過渡黑邊的情況下,其圖像結構信息依然保留完好,視覺效果符合人眼視網膜感知自然世界特性。另一方面,在不同的光源情況下體現了不同的亮度與飽和度。

圖3 Sandwich圖像數據集Fig. 3 Sandwich image database
圖像數據集的評價:圖像數據集不能產生明顯的黑邊,支持表達足夠豐富的應用場景,視覺效果評測是檢查圖像數據集質量的一個重要方面。但是,視覺效果評測并不是一個客觀評價標準,人眼視覺的差異性導致了這個評測的結構難以精確地表達。從數據集學習得到的字典,針對不同的圖像處理應用領域,譬如灰度圖去噪、彩色圖像去噪、非均勻圖像去噪修復等進行仿真實驗,比較最終重構的圖像PSNR等客觀數據。
基于傳統、廣泛使用的Kodak圖像數據集,經由K-SVD算法學習到的字典[13-14](下文統稱Kodak字典)是完備的,每個字典原子patch大小為8×8×3,總共有192個原子。這些原子中具有明顯的黑灰邊信息(見圖4),且彩色字典的邊緣幾乎全部都呈現灰色,可見其RGB三通道具有強烈的相關性。同時,字典的原子飽和度低下,不足以表達豐富的色彩信息。

圖4 基于柯達圖像學習的字典Fig. 4 Dictionary learned from the Kodak image database
基于Sandwich數據集,經由K-SVD算法學習到的字典(下文統稱Sandwich字典)與Kodak字典相同,Sandwich字典原子patch大小為8×8×3,總共有192個原子,也是完備的。Sandwich字典中,其原子呈現出完全不同的特性(見圖5)。Sandwich字典的色彩過渡自然,未出現不自然、生硬的黑邊現象。由于足夠豐富的場景和光源使得字典飽和度和亮度得到充分的體現。字典原子三通道間的差異較大,沒有強制的正相關性,符合視覺感知的圖像色彩特性。另外在這種字典中還具有良好的局部不變特征(如角點、斑點等)。

圖5 基于Sandwich圖像學習的字典Fig. 5 Dictionary learned from the Sandwich image database
本文采用相同的Sandwich圖片,首先下采樣得到彩色圖像傳感器所獲取的三分之一圖像信息,然后分別基于Kodak字典和Sandwich字典進行恢復重構。圖6分別為從Kodak字典恢復的重構圖像,和Sandwich恢復圖像。圖6(a)平白增加了原本不存在的黑邊,該黑邊信息從Kodak圖像中引入。

圖6 水果圖圖像重構實驗對比Fig. 6 Comparisons of the original and reconstructed fruit image
圖7 分別顯示了從Kodak數據中學習到的字典造成了重構圖像中原本不存在的雜色或偽色彩(圖7(a)),以及Sandwich字典重構的圖像就不存在偽色彩(圖7(b)),其原因是Kodak數據集中的圖像數據飽和度低、三通道間相關性強、缺失自然色彩信息。廣泛使用的圖像基準集Kodak圖像數據集中在邊緣處存在大量黑邊,在壓縮感知的字典學習過程中這種三通道高相關性天然存在的缺陷將會被引入到最終被重構的字典中。這種存在于字典之中的缺陷最終被引入到重構的圖像中。最后針對應用不同圖像數據集字典重構的圖像比較PSNR(peak signal to noise ratio,峰值信噪比),表明基于新的Sandwich數據集所重構的圖像具有更好的PSNR(見表1)。

圖7 灰磚圖圖像重構實驗對比Fig. 7 Comparisons of the original and reconstructed brick image

表1 圖像重構實驗結果PSNR對比Table 1 Comparison of the original and reconstructed of PSNR
具有正常色彩感知視覺的成年人,其視網膜中紅、綠、藍三色傳感器在視網膜中隨機分布。人腦感知自然世界的過程本身就是一個不完全信號恢復過程。但是在基于壓縮感知的圖像重構過程中存在的圖像-重構-圖像循環悖論表明,通過新的圖像數據庫可以打破該循環悖論,從而顯著提高重構圖像的質量。
本文從圖像數據庫這一全新的角度研究了圖像重構問題,開發的Sandwich數據庫是一種普適的圖像數據庫,可以廣泛地用于各種圖像重構、圖像質量評估等研究。