基于通道注意力的多尺度全卷積壓縮感知重構

2022-12-13 13:52:36劉玉紅陳滿銀劉曉燕

計算機工程 2022年12期

劉玉紅，陳滿銀，劉曉燕

（蘭州交通大學電子與信息工程學院，蘭州 730070）

0 概述

奈奎斯特采樣定理要求采樣頻率必須達到信號帶寬的2 倍以上才能從采樣信號中恢復出原始信號。隨著物聯網和大數據時代的到來，從采樣信號中恢復原始信號，需不斷加快采樣速率，這使得傳統的奈奎斯特采樣過程面臨較大挑戰。近年來，DONOHO等［1］提出壓縮感知理論，利用隨機測量矩陣Φ∈Rm×n對原始信號x∈Rn×1進行采樣，即y=Φx(m?n)，將x投影到m維的低維空間，并證明在隨機投影的測量值y∈Rm×1中包含較多的原始信號，通過求解一個稀疏化問題，利用投影在低維空間的測量信號以恢復出原始信號。

在圖像壓縮感知問題中，測量值y的維度m遠小于原始信號x的維度。壓縮感知圖像重構的本質是從一個具有多種不同解的方程中找出最優解。為了找出最優解，研究人員提出基于圖像變換域的重構算法，該算法利用Lp-norm 范數衡量稀疏系數的稀疏性，使用正交匹配追蹤（Orthogonal Matching Pursuit，OMP）、迭代硬閾值等算法求解對應的稀疏編碼問題。研究人員提出將梯度稀疏性［2］、非局部稀疏性［3］和塊稀疏［4］作為先驗知識，對原始信號進行恢復。然而，這些算法都需要大量的迭代運算，重構時間較長，并且在低采樣率下重構圖像的質量較差。

由于深度學習能解決傳統方法中計算量大的問題，因此研究人員提出基于深度學習的壓縮感知重構方法。KULKARNI等［5］提出ReconNet，利用固定的隨機高斯矩陣測量獲取的圖像采樣數據，實現了非迭代壓縮感知重構的目的。YAO 等將ReconNet［5］網絡與殘差網絡［6］相結合提出DR2-Net［7］，可以更充分地捕獲圖像的細節信息。文獻［8］提出一種深度神經網絡CombNet，通過卷積核級聯的方式加深網絡的深度，提高重建圖像的質量。文獻［9］提出一種自適應測量的方法Adaptive-Net，該方法可以保留較多的圖像信息。上述方法在低采樣率下都存在嚴重的塊效應，重構圖像的視覺效果較模糊。

本文提出一種基于通道注意力的多尺度全卷積壓縮感知圖像重構模型。通過均值濾波消除圖像中的噪聲點，減少原始圖像中的冗余信息，有利于采集更加有效的圖像信息。通過對圖像進行多尺度全卷積采樣，在消除重建圖像塊效應的同時保留更多圖像信息。在殘差塊中引入注意力機制，根據挖掘特征圖通道之間的關聯性，提取特征圖中的關鍵信息用于恢復出高質量的重構圖像。

1 相關工作

基于深度學習的圖像重構方法在計算機視覺和圖像處理領域受到了廣泛的關注，如圖像超分辨率重建［10］、圖像語義分割［11］、圖像去噪［12］等。一些基于深度學習的方法也相繼被提出，并應用于壓縮感知的重構圖像上。例如，利用堆疊降噪自動編碼［13］（Stacked Denoising Auto-encoder，SDA）模型和卷積神經網絡［14］（Convolutional Neural Network，CNN）學習一個端到端的映射，直接將測量值輸入到網絡得到的重構圖像。文獻［13］利用SDA 訓練得到測量值與重構圖像之間的映射關系，通過測量值對該映射關系進行圖像重構。KULKARNI等［5］提出的ReconNet 實現了非迭代壓縮感知重構，但重構質量相對較差。研究人員提出的DR2-Net［7］網絡由全連接層和四個殘差塊組成，可以更充分地捕獲圖像的細節信息。文獻［15］提出多尺度殘差網絡MSRNet，引入多尺度擴張卷積層來提取圖像中不同尺度的特征。ISTA-Net［16］網絡結合基于優化和基于網絡的壓縮感知方法的優點，具有良好的可解釋性。DPA-Net［17］通過將圖像的紋理結構信息分開重建后再進行融合，以提升重構圖像的質量，文獻［15-16］所提方法通過對輸入圖像進行分塊，利用高斯矩陣進行逐塊測量，存在計算量大的問題。此外，基于塊的圖像壓縮感知重構破壞了圖像結構信息的完整性。在Pep-Net［18］、CSNET［19］、MSResICS［20］、FCMN［21］中用自適應測量代替隨機高斯矩陣的分塊測量方法，保留圖像結構和邊緣信息的完整性，然而在重構時只采用單一的殘差網絡，未充分提高重建圖像的質量。當FDC-Net［22］網絡重構時，利用卷積網絡與密集網絡組合成的雙路徑重構網絡，在提高重構圖像質量的同時縮短了重構時間。但在低采樣率下重建圖像的視覺效果仍不清晰。為提高低采樣率下重建圖像的質量，本文提出一種基于通道注意力的多尺度全卷積壓縮感知圖像重構模型MSANet。

2 MSANet 模型

本文設計的網絡主要由測量和重構兩部分組成。

2.1 均值濾波

均值濾波［23］是一種線性濾波器，用均值代替圖像中的各個像素值，即對待處理的當前像素點f(x，y)選擇一個模板。該模板由其近鄰的若干像素組成，求解模板中所有像素的均值，再把均值賦予當前像素f(x，y)，并作為處理后圖像在該點的灰度g(x，y)，即g(x，y)=∑f(x，y)/m，其中m為該模板中包含當前像素點在內的像素點總個數。

均值濾波的核函數h(x，y) 及其傅里葉變換F[h(x，y)]如式（1）和式（2）所示：

從式（2）可以看出，F[h(x，y)]在頻域就是μ、ν兩個方向的sinc 函數相乘。在空域方向的窗長越大，頻域上從低頻到高頻的過渡就越陡。因此，均值濾波函數具有波動性，可以去除圖像中的冗余信息，減少圖像中的數據量，獲取感興趣區域的粗略描述。在壓縮感知采樣時獲得更多有效信息，有利于提升重構圖像的質量。同時，冗余信息的消除可以減少訓練網絡時的數據量，有利于縮短重構圖像的時間。

2.2 多尺度全卷積測量

本文使用卷積層對圖像進行采樣，其過程如圖1所示。通過M個大小為N1×N1（N1?N）的卷積核對尺寸為N×N的輸入圖像塊x進行掃描和卷積運算，得到長度為M的采樣數據。將卷積核看作觀測矩陣，卷積核在圖片上滑動掃描的過程就是壓縮感知采樣的過程。

圖1 卷積采樣過程Fig.1 Process of convolution sampling

在傳統網絡中每一層使用一個尺寸的卷積核，而Google 和Inception 網絡中每一層的特征圖使用多個不同大小的卷積核，以獲得不同尺度的特征圖，再把這些特征相融合。Inception 網絡結構如圖2 所示。基于多尺度卷積的思想，本文采用多尺度全卷積對原始圖像信號進行全圖像測量，實現圖像的多尺度全卷積采樣。每一層卷積可以得到一個特征圖，將多尺度卷積采樣得到的多個特征圖進行拼接融合，使得最終的特征圖包含更多、更全面的信息。

圖2 Inception 網絡結構Fig.2 Structure of Inception network

2.3 殘差注意力網絡

注意力機制能夠重點關注輸入圖像中的關鍵特征信息，分為硬注意力機制和軟注意力機制。硬注意力機制是在所有特征信息中選擇關鍵部分進行重點關注，其余特征則忽略不計。例如，文獻［24］的數字識別任務中，在提取原始圖像特征時，僅含有數字的像素點是有用的，因此，只需對含有數字的像素點進行重點關注。硬注意力機制能有效減少計算量，但丟棄了圖像的部分信息，而在壓縮感知重構任務中，圖像的每一個像素點的信息都是有用的，顯然，硬注意力機制不適用于壓縮感知重構任務。隨后，HU等［25］提出的SE 塊在殘差網絡之后使用原始的channel-wise attention 來提高分類精度。軟注意力機制對所有的特征設置一個權重，并對其進行特征加權，通過自適應調整凸顯重要特征。圖像經過每個卷積層都會產生多個不同的特征圖，通道注意力機制［26］通過對每張特征圖賦予不同的權重，使網絡從特征的通道維度來提取重要的特征。

通道注意力模型結構如圖3 所示，在卷積操作后分出一個旁路分支，首先進行Squeeze 操作（即圖中的Fsq(·)），將空間維度進行特征壓縮，將每個特征圖變成一個實數，相當于具有全局感受野的池化操作。因此，利用分局平均池化將全局空間內的信息轉化為通道描述符，然后進行Excitation 操作（即圖中的Fex(·)），通過學習參數生成每個特征通道的權重。該權重值表示對應通道與關鍵信息的相關性，權重越大，則對應通道的信息越關鍵。

圖3 通道注意力模型結構Fig.3 Structure of channel attention model

當卷積層對圖像進行卷積運算時，只能提取感受野內的特征信息。并且單一卷積層的計算輸出沒有考慮各個通道的依懶性。因此，本文在重構網絡中提出一種新的殘差注意力模型，其結構如圖4 所示。通過在中間層設置通道注意力模塊，加強了不同層以及特征通道之間的長期依賴關系，使得重要的特征信息在傳遞過程中不易丟失，提升最終重建圖像的質量。

圖4 殘差注意力模型結構Fig.4 Structure of residual attention model

殘差塊由三個不同卷積核大小的卷積層組成。第一層卷積使用11×11 的卷積核，得到感受野較大的特征信息；第二層卷積首先使用1×1 卷積核，降低第一層卷積計算的輸出維度，然后將信息輸入到注意力模塊中，通過建模各個特征通道之間的重要程度，使網絡有選擇性地增強信息量大的特征，以充分利用這些特征信息，從而恢復出高質量的重構圖像，并對無用特征進行抑制；第三層使用7×7 的卷積核，提取各個通道上信息量大的特征信息，輸出一張大小為256×256 像素的灰度圖像。

本文所提MSANet 網絡模型結構如圖5 所示。

圖5 MSANet 網絡模型結構Fig.5 Structure of MSANet network model

3 實驗與結果分析

3.1 實驗平臺與訓練數據

本文實驗在PyTorch 深度學習框架上完成。計算機配備了主頻率為2.8 GHz 的Intel Core i5-8400H CPU、1 個NVIDIA GeForce GTX 1080Ti GPU，網絡框架在windows 10 操作系統上運行。

為確保實驗的公平性，本文在不同的采樣率分別為1%、4%、25%下訓練網絡，使用相同的訓練集和測試集，選擇DIV2K 作為模型的訓練集數據，并在Set0、Set5、Set14 和BSD100 數據集上進行測試與對比實驗。這些數據集包含大量來自各個領域的圖像，能夠對模型性能進行有效驗證。

RGB 圖像在輸入到網絡之前被轉換為灰度圖像，數據歸一化到區間［-1，1］，使網絡能更快、更好地收斂。當訓練模型時，本文使用Adam 算法對模型參數進行優化，初始動量設置為0.9，每次迭代的批大小設置為8，學習率為0.001，激活函數采用PReLu。采用均方誤差（Mean Square Error，MSE）作為損失函數，如式（3）所示：

其中：w為需要訓練的網絡參數；f(xi；w)為相對于圖像xi的最終壓縮感知重構。

3.2 評價指標

本文實驗采用國際通用的圖像重建評價指標：峰值信噪比（PSNR）、結構相似度（SSIM）。PSNR 數值越大，重構圖像的失真越小，重構效果越好。PSNR 的計算如式（4）所示：

結構相似度從圖像的亮度、結構和相似度三個方面進行評價。給定兩張圖片A 和B，其結構相似度計算如式（5）所示：

其中：μa為圖片A 的平均值；μb為圖片B 的平均值，表示圖像的亮度和分別為圖片A 和B 的方差，表示圖像的對比度；σab為圖片A 和B 的協方差，表示圖像的結構；C1和C2為用于維持穩定的常數，C1=(k1×L)2，C2=(k2×L)2，通常取k1=0.01，k2=0.03；L為像素值的動態范圍。結構相似度的取值范圍在0 與1之間，結果越接近1，表示兩幅圖像越相似。

3.3 結果分析

本文模型與TVAL3［27］、SDA［13］、ReconNet［5］、DR2-Net［7］、CombNet［8］、ISTA-Net［16］和Pep-Net［18］進行PSNR 對比，對比結果如表1 所示。從表1 可以看出，當采樣率為1%和4%時，本文所提模型的PSNR 值均優于對比模型，說明重構圖像的失真小且質量較高。

表1 不同模型的峰值信噪比對比Table 1 Peak signal-to-noise ratio comparison among different models 單位：dB

為驗證本文模型重建圖像的視覺效果，在不同采樣率下重建圖像的視覺效果對比如圖6 所示。

圖6 在不同采樣率下不同模型重建圖像的視覺效果對比Fig.6 Visual effects of reconstructed images comparison among different models at different sampling rates

當采樣率為1%時，ReconNet［5］和DR2-Net［7］重建圖像產生了嚴重的塊效應問題，視覺效果較差，而本文模型的重建效果比較清晰。當采樣率為4%時，ReconNet［5］和DR2-Net［7］重建圖像仍然存在塊效應，本文模型具有較優的視覺效果。在不同采樣率下本文模型的均方差損失對比如圖7 所示。當采樣率為25%時，本文模型測試圖像均方差損失的平均值最小，相應PSNR 值的優勢較明顯，能有效消除塊效應現象，具有較優的視覺效果。

圖7 不同采樣率下本文模型的均方差損失平均值Fig.7 The average of mean square error loss of the proposed model under different sampling rates

分析上述結果可以得到：當采樣率（25%）較大時，由于模型的均方差損失較小，因此重建出的圖像都表現出較好的視覺效果，但在低采樣率為1%時，其他模型重建的圖像存在嚴重的塊效應。

為驗證本文模型重構的圖像在亮度、對比度和結構的優越性，當采樣率為1%時，不同模型在重構圖像與原始圖像之間結構相似性（SSIM）的計算結果如表2 所示。從表2 可以看出，本文模型的SSIM性能有較明顯的優勢。相比其他模型，本文設計的多尺度全卷積的采樣方式可以保存完整的圖像結構紋理信息，使大量有用信息進入重構網絡，減小了重構圖像與原始圖像的差異性。因此，本文模型具有較優的SSIM。

表2 當采樣率為1%時不同模型的結構相似性對比Table 2 Structural similarity comparison among different models when the sampling rate is 1%

傳統的基于迭代壓縮感知模型存在迭代次數多、計算復雜度高、耗時長等問題。本文提出的基于深度學習的壓縮感知重構模型，在采樣階段，通過對初始圖像進行濾波處理，消除了圖像中的噪聲信息，減少了數據量并保留有用信息。在重構階段，利用卷積神經網絡局部連接、權值共享的特性有效降低了網絡的復雜度，減少了訓練參數量。通過上述兩個階段的處理，有效地縮短了重構圖像所消耗的時間。不同模型重建單張256×256 像素圖像花費的時間對比如表3 所示。

表3 不同模型重建圖像花費的時間對比Table 3 Comparison of time spent on image reconstruction by different models 單位：s

從表3 可以看出，相比傳統的迭代模型，本文模型能有效降低重構過程的時間復雜度，縮短重構時間，節約了計算成本。

4 結束語

本文提出一種基于通道注意力的多尺度全卷積壓縮感知圖像重構模型MSANet。在采樣階段，通過均值濾波消除圖像中的噪聲點，得到圖像的低頻信息。采用多尺度全卷積進行測量，消除重構圖像的塊效應且保留較多的原始圖像信息。在重構階段，在殘差塊中引入通道注意力機制挖掘特征圖通道之間的關聯性，增強了網絡提取圖像關鍵特征信息的能力，恢復出視覺效果更加清晰的重構圖像。實驗結果表明，相比傳統的壓縮感知模型，本文模型能有效縮短圖像的重構時間，相較于基于深度學習的壓縮感知重構模型ReconNet、DR2-Net 等，在低采樣率下生成的圖像更加逼真自然。下一步將在本文模型的基礎上引入密集網絡，減少網絡訓練參數，增強特征傳播，以縮短重構圖像花費的時間。