基于雙向互補學習網(wǎng)絡的散焦模糊檢測

2022-12-31 00:00:00張廣強鄭津津豐穗蘇天成周洪軍

計算機應用研究 2022年7期

摘要：散焦模糊檢測存在輪廓細節(jié)丟失、錯分均質(zhì)清晰區(qū)域以及難以處理低對照度漸變區(qū)域等諸多問題，針對上述問題，提出一種基于雙向互補學習的散焦模糊檢測網(wǎng)絡，雙向學習、逐層融合、互補信息以生成高質(zhì)量檢測結果。雙向互補學習網(wǎng)絡由特征提取殘差模塊、雙向互補解碼子網(wǎng)和融合校正解碼子網(wǎng)構成。殘差模塊提取原始圖像的分層級特征；雙向互補解碼子網(wǎng)同時學習模糊區(qū)域和清晰區(qū)域的信息，形成互補學習、互補不足；融合校正解碼子網(wǎng)則逐層融合成對互補特征圖，校正預測誤差；此外，所有解碼子網(wǎng)均采用分層監(jiān)督的方式引導網(wǎng)絡高效學習。提出的方法在三個公開數(shù)據(jù)集上F分數(shù)分別提升了1.1%、0.1%、1.8%，檢測速度達到26.618 fps，超越了現(xiàn)存方法。雙向互補學習網(wǎng)絡可以有效地挖掘分層級特征和互補標簽的信息，快速地生成檢測結果。

關鍵詞：散焦模糊檢測；互補學習；語義特征；結構特征；特征融合

中圖分類號：TP391.41 文獻標志碼：A

文章編號：1001-3695（2022）07-044-2190-06

doi：10.19734/j.issn.1001-3695.2021.12.0683

基金項目：國家自然科學基金聯(lián)合基金資助項目（GG2090090072，U1332130，U1713206）；國家自然基金重大儀器專項資助項目（61727809）；安徽省重點研究與開發(fā)計劃資助項目（1704a0902051）；國家重點研發(fā)資助項目（SQ2019YFC010463）

作者簡介：張廣強（1997-），男（土家族），貴州思南人，碩士，主要研究方向為計算機視覺；鄭津津（1963-），男（通信作者），安徽懷寧人，教授，博導，博士，主要研究方向為神經(jīng)網(wǎng)絡深度學習、圖像處理、計算機圖形學等（jjzheng@ustc.edu.cn）；豐穗（1992-），女，四川德陽人，博士研究生，主要研究方向為計算機視覺；蘇天成（1998-），男，安徽利辛人，碩士研究生，主要研究方向為計算機視覺；周洪軍（1963-），女，遼寧黑山人，高級工程師，博導，博士，主要研究方向為圖像處理、同步輻射計量.

Dual direction complementary learning network based defocus blur detection

Zhang Guangqiang¹，Zheng Jinjin¹^?，F(xiàn)eng Sui¹，Su Tiancheng¹，Zhou Hongjun²

（1.Dept. of Precision Machinery amp; Precision Instrumentations，University of Science amp; Technology of China，Hefei 230026，China；2.National Synchrotron Radiation Laboratory，Hefei 230029，China）

Abstract：Many challenging problems exist，such as，missing boundary details，misclassifying homogeneous clear areas and the difficulty of dealing with low illuminance regions，in defocus blur detection （DBD）.To solve these issues，this paper proposed a dual direction complementary learning network （DDCLNet），via dual direction learning and fusing hierarchical complementary features to obtain high quality results.The network consisted of residual modules，a dual direction complementary decoder subnet （DDCDS） and a fusion correction decoder subnet （FCDS）.Residual modules extracted hierarchical features of the source images.DDCDS simultaneously learned clear and blurry information to complement each other.FCDS fused complementary features.In addition，all decoder subnets utilized the supervision mechanism to guide the network to learn efficiently.The F-mea-sure increases by 1.1%，0.1%，1.8% on three public datasets than other methods and the detection speed reaches 26.618 fps，which surpasses exiting methods.DDCLNet can effectively dig out the information of the hierarchical features and complementary labels，to obtain high quality detection results fast.

Key words：defocus blur detection；complementary learning；semantic features；structural features；feature fusion

0 引言

相機景深有限、對焦不準等諸多因素會導致數(shù)字圖像存在散焦模糊現(xiàn)象，造成數(shù)字圖像嚴重退化、信息大量丟失，進而可能影響圖像去模糊^[1]、圖像質(zhì)量評估^[2]、圖像恢復^[3]等后續(xù)高階任務。因此，檢測散焦模糊圖像的模糊區(qū)域至關重要。

目前模糊檢測方法大致可以分為基于手工特征的傳統(tǒng)方法和基于深度學習方法兩大類。相比清晰的銳化區(qū)域，模糊區(qū)域更加平滑，基于這一觀察研究人員設計出一系列基于淺層級手工特征，如梯度^[4]、頻域特征^[5]的傳統(tǒng)方法。但是只依靠淺層特征的檢測方法往往表現(xiàn)不佳，當背景變得復雜、干擾信號增加，這些方法往往失效，如圖1（b）～（d）所示。

深度學習基于神經(jīng)網(wǎng)絡強大的特征提取能力，在許多計算機視覺任務中表現(xiàn)出優(yōu)異的性能，如顯著性檢測^[6^，7]、圖像分類^[8^，9]、目標檢測^[10]、圖像分割^[11^，12]等。在散焦模糊檢測任務中，許多基于深度學習的方法^[13～15]也取得了優(yōu)異成果。盡管這些工作有一定突破，但是在處理輪廓細節(jié)、低對照度漸變區(qū)域、區(qū)分均質(zhì)清晰區(qū)域與均質(zhì)模糊區(qū)域等問題時，魯棒性無法保證，如圖1所示。圖（a）是原圖；（b）～（d）屬于傳統(tǒng)方法；（e）是真值標簽；（f）（g）屬于深度學習方法；（h）是本文的方法。

神經(jīng)網(wǎng)絡提取的淺層級特征主要表達數(shù)字圖像的結構信息，深層級特征則主要表達數(shù)字圖像的語義信息。充分挖掘、利用神經(jīng)網(wǎng)絡提取出的分層級特征的信息是算法表現(xiàn)良好的關鍵因素之一。本文提出利用雙向互補解碼子網(wǎng)挖掘分層級特征的信息以相互補足中間預測層可能會遺漏的信息，采用互補學習的方法校正預測誤差。淺層級特征需要深層級特征定位模糊區(qū)域，深層級特征需要淺層級特征修正輪廓細節(jié)，因此，本文建立由淺層解碼子網(wǎng)和深層解碼子網(wǎng)構成的雙向互補解碼子網(wǎng)，淺層解碼子網(wǎng)融合由深至淺的特征，深層解碼子網(wǎng)融合由淺至深的特征，以此融合分層級特征，學習單一子網(wǎng)可能會遺漏的信息。深層解碼子網(wǎng)和淺層解碼子網(wǎng)采用互補學習的方式訓練參數(shù)，深層解碼子網(wǎng)學習模糊區(qū)域到標簽的映射，淺層解碼子網(wǎng)學習清晰區(qū)域到標簽的映射，兩個子網(wǎng)生成成對的互補特征圖，相互補足；兩個子網(wǎng)生成的成對互補特征圖被逐層融合到設計的融合校正解碼子網(wǎng)，以校正中間層級預測誤差，生成最終的高質(zhì)量精細檢測結果。本文的創(chuàng)新貢獻表現(xiàn)在如下幾點：a）提出雙向學習解碼框架，能高效地挖掘、融合神經(jīng)網(wǎng)絡提取出的分層級特征的信息；b）提出一種獨特的互補學習模式，以充分挖掘清晰區(qū)域和模糊區(qū)域的信息，互補不足、校正中間層級預測誤差；c）提出的方法在CUHK（The Chinese University of Hong Kong）^[5]、DUT（Dalian University of Technology）^[16]、CTCUG^[15]三個公開數(shù)據(jù)集上F分數(shù)分別提升了1.1%、0.1%、1.8%。在不犧牲算法性能的前提下，檢測速度在配有一塊GTX1070 顯卡（GPU）的平臺上可以達到26.618 fps，超越了現(xiàn)有方法，大量消融實驗驗證了雙向互補學習方式的優(yōu)異性。

1 相關工作

1.1 基于傳統(tǒng)手工特征的方法

圖像的模糊區(qū)域會丟失結構和輪廓等細節(jié)信息，導致其在梯度信息和頻率信息方面與清晰聚焦區(qū)域均存在明顯差異。因此，大多傳統(tǒng)方法根據(jù)高階梯度信息和頻率域的頻率特性設計手工特征，以檢測模糊區(qū)域。

Shi等人^[7]根據(jù)梯度、頻率特性和數(shù)據(jù)驅動的局部濾波特征等一系列模糊特征表示子判別模糊區(qū)域和清晰區(qū)域，并建立了第一個公開、完整的模糊檢測數(shù)據(jù)集CUHK。Golestaneh等人^[17]提出一種基于新型高頻多尺度融合和梯度、幅度排序變換的檢測方法，從多個分辨率圖像塊中提取出離散余弦變換系數(shù)，根據(jù)系數(shù)特性進行檢測。Pang等人^[22]開發(fā)出一種基于核特征的模糊檢測方法，訓練一系列的支持向量機對模糊區(qū)域和聚焦區(qū)域進行分類。Zhuo等人^[18]提出利用高斯核對離焦圖像進行重新模糊，然后通過原始圖像的梯度與重新模糊后梯度的比值特性得到離焦區(qū)域。Tang等人^[23]通過建立平均對數(shù)譜殘差矩陣得到初級的粗糙模糊映射，再利用圖像區(qū)域鄰域的內(nèi)在相關性對模糊映射圖進行迭代細化得到最終精細的映射。基于與清晰區(qū)域相比，大多數(shù)模糊區(qū)域的局部圖像塊明顯具有較少的局部二值模式的觀測，Yi等人^[19]建立一個局部二值矩陣來度量模糊區(qū)域和清晰區(qū)域的二值模式，然后結合圖像的多尺度特征獲取高質(zhì)量的銳化映射。

傳統(tǒng)方法雖然實現(xiàn)了一定突破，但是當場景變得復雜，傳統(tǒng)方法由于只對固定特征具有識別能力，往往失效。此外，傳統(tǒng)方法難以區(qū)分不包含梯度等高階信息的模糊區(qū)域與均質(zhì)清晰區(qū)域。

1.2 基于深度學習的方法

傳統(tǒng)方法雖然取得一定進展，但是限于其特征的表征能力，大量研究者轉而探索深度學習方法在散焦模糊檢測任務上的表現(xiàn)。深度學習的方法可以自適應地提取目標特征，使得其具有強大的特征提取能力，特別是自VGG（deep convolutional neural networks）網(wǎng)絡^[8]和殘差網(wǎng)絡^[24]提出后。正因如此，許多研究者利用深度學習的方法在散焦模糊檢測任務中做出進一步的突破。

Park等人^[25]利用卷積神經(jīng)網(wǎng)絡提取出高維特征，結合傳統(tǒng)的手工特征，輸入到全卷積網(wǎng)絡（full convolution network，F(xiàn)CN）^[26]中以獲取映射結果。Wang等人^[27]提出一種多輸入多輸出金字塔式網(wǎng)絡結構，在網(wǎng)絡的高層級輸入同分辨率的原始圖以融入細節(jié)信息，并通過多監(jiān)督方式引導網(wǎng)絡逐層學習，生成銳化的檢測結果。另外一些方法探索更高效地融合高層級的語義信息和低層級結構信息，如BTB-C（multi-stream bottom-top-bottom fully convolutional network）^[12]、BTB-F（multi-stream bottom-top-bottom network）^[16]、DFNet（recurrently fusing and refining multi-scale deep features based network）^[21]，其采取的策略是建立多條特征融合支路，利用自設計的獨特模塊來循環(huán)微調(diào)、校正誤差。Zhao等人^[28]利用多個子網(wǎng)產(chǎn)生多樣性的結果，然后將生成的多樣性結果輸入到掩模模板（mask層）進行融合，以相互校正預測誤差。盡管深度學習已經(jīng)取得一定進展，但是散焦模糊檢測的挑戰(zhàn)性依然存在。

2 雙向互補學習網(wǎng)絡

如許多工作一樣^[3^，4^，19^，29]，本文設定模糊圖像清晰區(qū)域的像素為正樣本，模糊區(qū)域的像素為負樣本。當然也有另外一種設定方式^[21]，設定方式不影響算法本身。

2.1 整體框架

如圖2所示，提出的網(wǎng)絡利用ResNext101（aggregated residual transformations for deep neural networks）^[30]的五個殘差塊提取圖像的分層級特征，提取的分層級特征圖的通道數(shù)分別是64、256、512、1 024、2 048，使用卷積層將所有多通道特征圖變?yōu)椤?”通道特征圖（特征圖），意味著在解碼階段的所有特征圖都是單通道的灰度圖，使得解碼子網(wǎng)參數(shù)急劇減少，是提出方法高效的關鍵技巧。此外，網(wǎng)絡還包含由深層解碼子網(wǎng)和淺層解碼子網(wǎng)構成的雙向互補解碼子網(wǎng)和融合校正解碼子網(wǎng)。所有解碼子網(wǎng)每引入某一層級特征，則緊連著一個雙卷積模塊來融合特征、學習對應區(qū)域到標簽的映射。如圖2所示，所有的解碼子網(wǎng)均采用分層監(jiān)督的方式高效地學習對應標簽的信息。

2.2 雙向互補解碼子網(wǎng)

設計的雙向互補解碼子網(wǎng)可以高效地挖掘分層級特征（feature1～feature5）的信息和互補標簽的信息，互補不足。如圖2所示，淺層解碼子網(wǎng)以feature1所在層級為輸出支路，以feature4至feature2的順序依次融合各層級特征，目的是先用較深層級語義特征定位目標區(qū)域，再用較淺層級細節(jié)特征修正目標區(qū)域輪廓細節(jié)。深層解碼子網(wǎng)則是以feature5所在層級作為輸出支路，按同樣的方式融合feature4～feature2的特征。兩個解碼子網(wǎng)每引入某一層級的特征，則緊連著兩個卷積層以融合分層級特征，學習目標區(qū)域到對應標簽的映射。如圖2中橙色虛線所示（見電子版），所有解碼子網(wǎng)均采用分層監(jiān)督方式，逐層引導網(wǎng)絡學習對應標簽的信息。用于監(jiān)督淺層解碼子網(wǎng)標簽的白色區(qū)域代表清晰區(qū)域，黑色區(qū)域代表模糊區(qū)域，深層解碼子網(wǎng)的標簽則剛好是其互補圖，以此同時學習模糊區(qū)域和清晰區(qū)域的特征，生成成對互補特征圖，相互補充、互補不足。融合校正解碼子網(wǎng)的標簽則是設定的目標標簽（清晰區(qū)域像素為正樣本，模糊區(qū)域像素為負樣本，即圖2中互補標簽1，互補標簽1是本文設定模式下的真值圖，最終結果的理想目標即為互補標簽1），引導網(wǎng)絡生成最終高質(zhì)量精細的檢測結果。

2.3 融合校正解碼子網(wǎng)

雙向互補解碼子網(wǎng)學習的是互補區(qū)域到對應標簽的映射，因而深層解碼子網(wǎng)檢測的是模糊區(qū)域的特征，淺層解碼子網(wǎng)則檢測的是清晰區(qū)域的特征。如果不能有效地融合雙向互補解碼子網(wǎng)檢測的不同區(qū)域的互補特征，則可能對最終檢測結果產(chǎn)生不利影響。如圖2中紅色虛線方框所示（見電子版），建立融合校正解碼子網(wǎng)，以像素減去（加上）深層（淺層）解碼子網(wǎng)生成的特征圖，以此逐層融合雙向互補解碼子網(wǎng)生成的成對互補圖，校正中間層級預測誤差。消融實驗表明，提出的融合校正解碼子網(wǎng)可以有效地融合互補特征，促進生成高質(zhì)量精細檢測結果。

2.4 損失函數(shù)

在監(jiān)督階段，所有解碼子網(wǎng)的特征圖每經(jīng)過一個雙卷積模塊（圖2中紫色模塊）處理后都返回輸出，并上采樣到與標簽相同分辨率，然后與相應標簽同時喂給目標損失函數(shù)。最后網(wǎng)絡總的損失函數(shù)是前面各個輸出產(chǎn)生的損失函數(shù)的加權和，以此分層監(jiān)督，校正預測誤差，引導生成最后的檢測結果。

交叉熵損失函數(shù)（BCEloss）作為分層監(jiān)督的目標優(yōu)化函數(shù)。損失函數(shù)的計算如式（1）（2）所示。其中，1（·）表示指示函數(shù)；F（·）表示預測圖；P（·）表示像素分類正確的概率；G（·）表示標簽；l（·）表示單層損失函數(shù)；L（·）表示總的損失函數(shù)；c表示標簽像素類別；W、H表示圖像寬、高；（x，y）表示像素位置；θ表示網(wǎng)絡參數(shù)；n表示分層監(jiān)督的次數(shù)；αi表示分層輸出損失函數(shù)的權重，實驗中都簡單地設為1，因為微調(diào)這個權重系數(shù)并不會帶來實質(zhì)性的突破，真正有意義的是提出的網(wǎng)絡框架。

2.5 模型搭建

在卷積神經(jīng)網(wǎng)絡領域有許多用于提取特征的網(wǎng)絡，在實驗中，選取在ImageNet數(shù)據(jù)集上預訓練的ResNext101作為特征提取網(wǎng)絡（backbone），其獨特的殘差結構和良好的預訓練有利于模型更好地提取原始圖像的多層級、多尺度特征。如圖2所示，基于最終的檢測結果是單通道的特征圖這一觀察，在模型設計時，直接利用卷積層將backbone提取出的多通道特征圖轉換為單通道特征圖后再解碼，這層卷積扮演著特征選擇和縮減解碼子網(wǎng)參數(shù)量的作用，使得網(wǎng)絡檢測速度極大提升。為簡化解碼階段的復雜度，在解碼之前利用上采樣和下采樣（雙線性插值）操作將所有多尺度特征圖采樣成統(tǒng)一尺度大小（fea-ture3尺寸）。

在解碼階段，每當發(fā)生特征圖融合，則在解碼子網(wǎng)中嵌入一個雙卷積模塊（圖2中紫色雙矩形模塊，見電子版）以循環(huán)地修正中間層級預測圖、校正預測誤差，雙卷積模塊由兩次連續(xù)的卷積操作+batch歸一化操作+PReLU激活操作構成。針對淺層解碼子網(wǎng)和深層解碼子網(wǎng)融合backbone提取的分層級特征，采用強制逐像素相加的方式以增強相互之間的影響。由于淺層解碼子網(wǎng)學習的是目標區(qū)域的信息而深層解碼子網(wǎng)學習的是互補區(qū)域的信息，所以融合校正解碼子網(wǎng)采用強制逐像素加上淺層解碼子網(wǎng)和減去深層解碼子網(wǎng)產(chǎn)生的中間預測圖的方式融合互補特征圖對。網(wǎng)絡的各部分模塊結構和具體參數(shù)如表1所示。其中W、H是輸入圖片的原始寬、高。

3 實驗及分析

3.1 實驗配置

3.1.1 數(shù)據(jù)集

迄今為止，公開的用于散焦模糊檢測的數(shù)據(jù)集僅有CUHK^[5]、 DUT^[14]、CTCUG^[15]三個。CUHK數(shù)據(jù)集包含704張場景各異、背景信息雜亂的散焦模糊圖像，文獻[16]將其中604張圖像劃分為訓練集，剩余100張圖像劃分為測試集，之后基本均采用該劃分方式。DUT數(shù)據(jù)集包含600張訓練圖片，500張測試圖片，其中的圖片普遍包含低對照漸變區(qū)域和均質(zhì)的清晰區(qū)域。Tang等人^[15]于2020年指出CUHK和DUT數(shù)據(jù)集的模糊目標通常出現(xiàn)在背景區(qū)域，而前景目標通常出現(xiàn)在清晰區(qū)域，這意味著檢測算法可能檢測的是背景目標而非模糊區(qū)域，意味著算法可能更偏向于檢測前景或者背景而非模糊檢測，于是Tang等人建立了一個新的數(shù)據(jù)集CTCUG，其特點是圖片均勻地包含模糊前景或者模糊背景。CTCUG數(shù)據(jù)集能有效地檢驗提出的模糊檢測算法對于模糊區(qū)域和非模糊區(qū)域分割的效果，僅包含150張用于測試的圖片。

3.1.2 實現(xiàn)細節(jié)

使用PyTorch框架和Python語言實現(xiàn)算法，在一臺配有一塊七彩虹3060l顯卡（GPU）的服務器上訓練，在一臺配有一塊Intel 4.20 GHz的中央處理器（CPU）和一塊GTX1070 顯卡（GPU）的機器上測試模型。特征提取網(wǎng)絡（backbone）是在ImageNet^[8]上預訓練的ResNext101，所有訓練過程的迭代訓練批量（batch-size）設為16，采用SGD優(yōu)化算法優(yōu)化網(wǎng)絡參數(shù)，學習率采取指數(shù)衰減方式更新，公式如下：

其中：num（iteration）表示總的迭代次數(shù)；lr0表示初始學習率；s代表當前的迭代次數(shù)；lr表示當前學習率；γ是衰減指數(shù)。對于CUHK和CTCUG數(shù)據(jù)集的測試，在CUHK的訓練集上迭代訓練10 000次后網(wǎng)絡收斂，初始學習率設為0.01；對于DUT數(shù)據(jù)集的測試，微調(diào)在CUHK訓練集上訓練的網(wǎng)絡10 000次迭代循環(huán)后網(wǎng)絡收斂，初始學習率設置為0.001。

在訓練過程中，采取隨機旋轉、隨機翻轉和隨機裁剪的圖像變換方式擴增數(shù)據(jù)集。訓練時，將原始圖片和對應標簽裁剪成300×300大小喂入網(wǎng)絡訓練；測試時，原始分辨率輸入，對應分辨率輸出。具體代碼參見https：//github.com/nothing-wind/DDCLNet。

3.2 評價指標

在模糊檢測任務中，常用F分數(shù)（F-measure）、平均絕對誤差（MAE）、PR（precision-recall）曲線、召回率（recall）、精確率（precision）等指標評估算法的性能。它們的計算公式如下：

其中：TP表示預測圖中分類正確的正樣本；FP表示預測圖中分類錯誤的正樣本；FN表示預測圖中分類錯誤的負樣本；F（·）代表預測圖；G（·）代表標簽；（i，j）表示像素的位置索引； β²參數(shù)用于強調(diào)精確率，與F分數(shù)正相關，本文和大多數(shù)工作一樣設為0.3。

3.3 與現(xiàn)有方法比較

本文共比較11種方法，4種基于傳統(tǒng)手工特征的方法包括SS（spectral and spatial approach）^[18]、HIFST（multiscale fused and sorted transform coefficients of gradient magnitudes）^[17]、DBDF（image gradient，F(xiàn) ourier domain，and data-driven local filters）^[5]、LBP（local binary patterns）^[19]，7種基于深度學習的方法DHDE（unified approach of multi-scale deep and hand-crafted features）^[25]、BTB-F^[16]、DFNet^[21]、BTB-C^[14]、CENet（cross-ensemble network）^[20]，BR2Net（bidirectional channel attention residual refining network）^[15]、EFENet（boosting diversity of deep ensemble networks）^[28]。部分方法的預測圖來源于文獻公開的結果，BR2Net方法的預測圖是用作者公開的代碼生成的。

3.3.1 定量比較以及運行效率比較

如表2所示，在三個數(shù)據(jù)集上定量比較了F-measure和MAE，同時還比較了不同方法的運行速率（幀率，F(xiàn)PS）。對于運行速率的比較，統(tǒng)一將圖像設置成300×300大小作為輸入，測試每幅圖像前向傳播的速度，測試的平臺為配置有一塊GTX1070 GPU加一塊Intel 4.20 GHz CPU的計算機。提出的方法在三個數(shù)據(jù)集上F-measure指標比第二名（BR2Net）分別高出0.9%、0.1%、1.8%，且各項指標均領先于其他方法，充分說明了本文方法的全面優(yōu)異性。此外在不犧牲性能的情況下，得益于所有解碼階段特征圖的通道為“1” 的設計，檢測速率達到26.618 fps，超越了現(xiàn)存方法。實際上，在消融實驗小節(jié)，利用特征提取能力較弱的ResNet18作為特征提取網(wǎng)絡，在不犧牲性能的情況下（三個數(shù)據(jù)集上F-measure分別達到0.921、0.880、0.871），檢測速度更是高達81.175 fps，是其他方法的5、6倍，充分表明了本文方法的優(yōu)越性能和極高效率。

圖3分別比較了各種方法在CTCUG數(shù)據(jù)集上的P-R曲線、精確率、召回率、F-measure和MAE。從圖中可以看出，本文提出方法的PR曲線始終連續(xù)地高于其他方法，表明本文方法不僅結果優(yōu)于其他方法，魯棒性也可以得到保證。此外，本文方法的召回率和精確率在高于其他方法的同時，兩者也比較均衡，表明本文方法沒有更偏重于強調(diào)精確率不均衡，一方過高而一方過低，將導致檢測結果相似性下降。此外，提出方法的平均絕對誤差明顯低于其他方法，從整體來看，提出的方法具有更低的預測誤差。

3.3.2 定性比較

圖4展示其他方法和本文方法在三個數(shù)據(jù)集上的整體視覺效果，圖5結合樣例具體分析本文方法在處理輪廓細節(jié)（紅框）、區(qū)分均質(zhì)清晰區(qū)域（紫框）、處理低對照度漸變區(qū)域（綠框）等問題時的性能。可以看出，本文的雙向互補學習網(wǎng)絡在輪廓細節(jié)處理，正確區(qū)分均質(zhì)清晰區(qū)域與均質(zhì)模糊區(qū)域，以及正確處理低對照度漸變區(qū)域（黃框）等方面均具有更好的性能。特別地，背景區(qū)域是清晰區(qū)域，而前景區(qū)域是模糊區(qū)域時，BTB-F、DFNet均將一部分背景區(qū)域判定成了模糊區(qū)域，而本文方法與標簽幾乎吻合，如圖6所示。其中實線紅框表示BTB-F方法錯分，虛線橙框表示DFNet方法錯分（見電子版）。這意味著兩種方法在檢測清晰區(qū)域時可能在一定程度上依賴于前景特征（換言之，測模糊區(qū)域依賴于背景特征：源于本文設定清晰區(qū)域的像素為正樣本），而本文方法則更加依賴于圖像的清晰區(qū)域的特征，而非前景或者背景特征。因此，本文方法更能夠正確辨別出清晰區(qū)域特征和模糊區(qū)域特征。

3.4 消融實驗

為了驗證互補學習的有效性，設計深層解碼子網(wǎng)和淺層解碼子網(wǎng)均學習從清晰區(qū)域到目標標簽的映射的學習方式，表3中以Ours_noc表示，只學習單一標簽的信息，不學習互補標簽的信息。可以看出：互補學習方法（本文方法）的F-measure在三個數(shù)據(jù)集上比沒有互補學習的方法（Ours_noc）高出了2.1%、1.5%、2.4%，證明了互補學習方法的優(yōu)越性。互補學習有兩種實現(xiàn)方式，一種正如所提出的；另一種則是深層解碼子網(wǎng)學習清晰區(qū)域到標簽的映射，淺層解碼子網(wǎng)學習模糊區(qū)域到互補標簽的映射。表3中以Ours_rev表示，可見本文采用的方式性能更優(yōu)，其可能的原因是淺層特征主要表達圖像的細節(jié)信息。因此在本文設定下（最終結果以清晰區(qū)域像素為正樣本），淺層解碼子網(wǎng)學習清晰區(qū)域到互補標簽1的映射方式，可以更多地保留清晰區(qū)域的細節(jié)特征，從而可以更好地修正最終目標區(qū)域（即清晰區(qū)域）的輪廓細節(jié)。

為了驗證融合校正解碼子網(wǎng)的有效性，直接移除融合校正解碼子網(wǎng)，表3中以Ours_nof表示，淺層解碼子網(wǎng)生成的最終結果強制逐像素減去深層解碼子網(wǎng)生成的最終結果，然后輸入到最后的雙卷積融合層（此融合層保持不變），以得到最后的檢測結果。由表3可見，沒有融合校正解碼子網(wǎng)的框架（Ours_nof）在三個數(shù)據(jù)集上的各個指標大幅下降，顯示出融合校正解碼子網(wǎng)對于雙向互補學習的重要性。

提出的網(wǎng)絡框架可以利用不同的Backbone提取特征，為了更公平地比較，分別使用VGG16^[8]和ResNet18^[23]作為特征提取網(wǎng)絡，驗證提出網(wǎng)絡框架的通用性和有效性，表3中以Ours_v16、Ours_res18表示。提出的框架使用VGG16作為backbone，在CUHK、DUT數(shù)據(jù)集上的F-measure比EFENet （backbone為VGG16）分別高出0.4%、1.4%。提出的方法利用ResNet18作為backbone，F(xiàn)-measure僅在DUT數(shù)據(jù)集上略低于第二名BR2Net （backbone為ResNext101），但是檢測速率卻高達81.175 fps，是其他方法的5～6倍，驗證了解碼階段所有特征圖的通道設計為“1”方法的高效性。

4 結束語

為了解決散焦模糊檢測任務中存在的各種具有挑戰(zhàn)性的問題，本文提出采用一種基于雙向互補學習框架的神經(jīng)網(wǎng)絡方法，獲得了高質(zhì)量精細的模糊檢測結果。提出的網(wǎng)絡由特征提取殘差模塊、雙向互補解碼子網(wǎng)和融合校正解碼子網(wǎng)構成，殘差模塊可以提取出模糊圖像豐富的分層級特征；雙向互補解碼子網(wǎng)則可以充分地挖掘提取出的分層特征和互補標簽的有益信息，互補學習單一解碼子網(wǎng)可能會遺漏的信息；融合校正解碼子網(wǎng)可以校正中間層級預測誤差，促進網(wǎng)絡生成高質(zhì)量精細檢測結果。此外，得益于解碼階段所有特征圖的通道均為“1”的獨特設計技巧，提出的方法在檢測速度上取得了較大的優(yōu)勢。

在未來的工作中將進一步探索并優(yōu)化網(wǎng)絡結構，期望利用殘差結構和空洞卷積設計出更加有效的模糊檢測子，以增強網(wǎng)絡的學習性能。

參考文獻：

［1］Yu Xin，Xu Feng，Zhang Shunli，et al.Efficient patch-wise non-uniform deblurring for a single image[J].IEEE Trans on Multimedia，2014，16（6）：1510-1524.

[2]Li Dingquan，Jiang Tingting，Lin Weisi，et al.Which has better visual quality：the clear blue sky or a blurry animal？[J].IEEE Trans on Multimedia，2018，21（5）：1221-1234.

[3]江澤濤，伍旭，張少欽.一種基于MR-VAE的低照度圖像增強方法[J].計算機學報，2020，43（7）：1328-1339.（Jiang Zetao，Wu Xu，Zhang Shaoqin.Low-illumination image enhancement based on MR-VAE[J].Chinese Journal of Computers，2020，43（7）：1328-1339.）

[4]Xu Guodong，Quan Yuhui，Ji Hui.Estimating defocus blur via rank of local patches[C]//Proc of IEEE International Conference on Compu-ter Vision.Washington DC：IEEE Computer Society，2017：5371-5379.

[5]Shi Jianping，Xu Li，Jia Jiaya.Discriminative blur detection features[C]//Proc of IEEE Conference on Computer Vision and Pattern Re-cognition.Washington DC：IEEE Computer Society，2014：2965-2972.

[6]張冬明，靳國慶，代鋒，等.基于深度融合的顯著性目標檢測算法[J].計算機學報，2019，42（9）：2076-2086.（Zhang Dongmin，Jin Guoqin，Dai Feng，et al.Salient object detection based on deep fusion of hand-crafted features[J].Chinese Journal of Computers，2019，42（9）：2076-2086.）

[7]Shi Jianping，Xu Li，Jia Jiaya.Just noticeable defocus blur detection and estimation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC：IEEE Computer Society，2015：657-665.

[8]Krizhevsky A，Sutskever I，Hinton G E.ImageNet classification with deep convolutional neural networks[J].Communications of the ACM，2017，60（6）：84-90.

[9]Simonyan K，Zisserman A.Very deep convolutional networks for large-scale image recognition[EB/OL].（2015-04-10）.https：//arxiv.org/pdf/1409.1556.pdf.

[10]Girshick R.Fast R-CNN[C]//Proc of IEEE International Conference on Computer Vision.Washington DC：IEEE Computer Society，2015：1440-1448.

[11]Chen Huaian，Jin Yi，Jin Guoqiang，et al.Semisupervised semantic segmentation by improving prediction confidence[J].IEEE Trans on Neural Networks and Learning Systems，2021（99）：1-13.

[12]曾文雯，楊陽，鐘小品.基于改進Mask R-CNN的在架圖書書脊圖像實例分割方法[J].計算機應用研究，2021，38（11）：3456-3459，3505.（Zeng Wenwen，Yang Yang，Zhong Xiaopin，et al.Improved Mask R-CNN based instance segmentation method for spine image of books on shelves[J].Application Research of Computers，2021，38（11）：3456-3459，3505.）

[13]Purohit K，Shah A B，Rajagopalan A N.Learning based single image blur detection and segmentation[C]//Proc of the 25th IEEE International Conference on Image Processing.Piscataway，NJ：IEEE Press，2018：2202-2206.

[14]Zhao Wenda，Zhao Fan，Wang Dong，et al.Defocus blur detection via multi-stream bottom-top-bottom fully convolutional network[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2018：3080-3088.

[15]Tang Chang，Liu Xinwang，An Shan，et al.BR²Net：defocus blur detection via a bidirectional channel attention residual refining network[J].IEEE Trans on Multimedia，2020，23（4）：624-635.

[16]Zhao Wenda，Zhao Fan，Wang Dong，et al.Defocus blur detection via multi-stream bottom-top-bottom network[J].IEEE Trans on Pattern Analysis and Machine Intelligence，2019，42（8）：1884-1897.

[17]Golestaneh S A，Karam L J.Spatially-varying blur detection based on multiscale fused and sorted transform coefficients of gradient magnitudes[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC：IEEE Computer Society，2017：596-605.

[18]Zhuo Saojie，Sim T.Defocus map estimation from a single image[J].Pattern Recognition，2011，44（9）：1852-1858.

[19]Yi Xin，Eramian M.LBP-based segmentation of defocus blur[J].IEEE Trans on Image Processing，2016，25（4）：1626-1638.

[20]Zhao Wenda，Zheng Bowen，Lin Qinhua，et al.Enhancing diversity of defocus blur detectors via cross-ensemble network[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2019：8905-8913.

[21]Tang Chang，Zhu Xinzhong，Liu Xinwang，et al.DefusionNet：defocus blur detection via recurrently fusing and refining multi-scale deep features[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2019：2700-2709.

[22]Pang Yanwei，Zhu Hailong，Li Xinyu，et al.Classifying discriminative features for blur detection[J].IEEE Trans on Cybernetics，2015，46（10）：2220-2227.

[23]Tang Chang，Wu Jin，Hou Yonghong，et al.A spectral and spatial approach of coarse-to-fine blurred image region detection[J].IEEE Signal Processing Letters，2016，23（11）：1652-1656.

[24]He Kaiming，Zhang Xiangyu，Ren Shaoqing，et al.Deep residual lear-ning for image recognition[C]//Proc of IEEE Conference on Compu-ter Vision and Pattern Recognition.Washington DC：IEEE Computer Society，2016：770-778.

[25]Park J，Tai Y W，Cho D，et al.A unified approach of multi-scale deep and hand-crafted features for defocus estimation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC：IEEE Computer Society，2017：1736-1745.

[26]Long J，Shelhamer E，Darrell T.Fully convolutional networks for semantic segmentation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC：IEEE Computer Society，2015：3431-3440.

[27]Wang Xuewei，Zhang Shulin，Liang Xiao，et al.Accurate and fast blur detection using a pyramid M-Shaped deep neural network[J].IEEE Access，2019，7：86611-86624.

[28]Zhao Wenda，Hou Xueqing，He You，et al.Defocus blur detection via boosting diversity of deep ensemble networks[J].IEEE Trans on Image Processing，2021，30（6）：5426-5438.

[29]Cun Xiaodong，Pun C M.Defocus blur detection via depth distillation[C]//Proc of the 16th European Conference on Computer Vision.Cham：Springer，2020：747-763.

[30] Xie Saining，Girshick R，Dollár P，et al.Aggregated residual transformations for deep neural networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC：IEEE Computer Society，2017：1492-1500.

計算機應用研究2022年7期

計算機應用研究的其它文章: 下期要目; 基于損失自注意力機制的立體匹配算法研究; 基于視覺信息補償?shù)亩嗔饕粢曪@著性檢測; 基于無監(jiān)督深度圖像生成的盲降噪模型; 稀疏差分網(wǎng)絡和多監(jiān)督哈希用于高效圖像檢索; 基于偏振成像和顯著區(qū)域自補償?shù)乃嘛@著目標檢測