楊劭然 季彤宇 杜聰 李浩翔



摘? 要:現有基于深度學習的顯著性檢測算法中主要將條件隨機場用于顯著性圖的后處理,并不參與整個深度學習網絡的訓練過程,因此,在網絡訓練中條件隨機場并不能對網絡產生反饋來優化結果,同時增加了網絡訓練的復雜度。本文提出了一種基于深度條件隨機場網絡的圖像顯著性目標檢測方法,能夠端到端地訓練整個模型,同時將鄰域對顯著性值的影響融入網絡,從而在加強顯著性目標區域完整性的同時抑制背景噪聲。實驗結果表明所提方法取能夠獲得更好的顯著性。。
關鍵詞:深度學習;顯著性;訓練模型
引言:
隨著近幾年深度學習的大力發展,在眾多計算機視覺領域上已經慢慢超越了傳統的機器學習算法,如,圖像分類、目標跟蹤、語義分割等,但這并不意味著傳統機器學習模型思想的過時,如何將這些傳統模型融入到深度學習中并構成端到端的網絡,從而兼顧深度學習和傳統機器學習模型的優勢是目前各領域學者討論的熱點。
本文在對傳統條件隨機場模型和深度卷積神經網絡研究的基礎上,首先對經典深度學習網絡進行改進,使其更加適合顯著性目標檢測問題,在此基礎上融入條件隨機場思想,使得每個像素的顯著性值不僅受到該點特征的影響,而且受到其鄰域的影響,從而更好地優化目標輪廓和區域的準確性。
目前已有基于深度學習的顯著性目標檢測算法并取得了較好的效果,如文獻直接借鑒圖像分類的深度學習網絡,并將提取的深層語義特征用于顯著性目標檢測,雖然能夠準確定位顯著性目標的位置并檢測出目標的大部分區域,但是由于網絡主要由圖像分類任務訓練得到,而且深層語義信息會丟失一定的低級圖像特征和空間分辨率,因此在目標的邊緣區域較模糊。因此一些文獻從主網絡中不同部分引出分支解決多尺度問題,另外有些文獻從輸入圖像著手,將縮放剪切后原始圖像的不同區域輸入網絡達到提取多尺度特征的目的。上述方法在結合了多尺度信息后,對于顯著性目標提取有一定幫助,但仍然存在目標邊緣區域顯著性值較低甚至缺失的情況。為了獲得更加準確的顯著性目標分割結果,一些文獻試圖在得到網絡輸出的結果后,再使用 CRF 或超像素約束等方式進一步優化結果,但是這類算法中后處理往往與深度網絡獨立進行,這不利于整個網絡的訓練和收斂過程。
針對上述討論的問題,本章目標是在提取有效多尺度特征,在高空間分辨率的低級紋理和高度凝練的深層語義特征間建立聯系,相互影響與融合,得到對于顯著性目標檢測更具有區分性的視覺特征。在此基礎上,將 CRF 融入深度網絡中,利用每個像素的鄰域信息共同估計該點的顯著性值,從而增強目標邊緣的準確性,消除目標區域的空洞,同時抑制背景區域的噪聲。
本文的主要貢獻可歸納為以下幾點。
(1)設計了多尺度特征提取模塊,用于幫助深層網絡提高空間分辨率,同時加入低級紋理特征。
(2)為了充分利用深層網絡的語義信息,設計了反向優化模塊,進一步提高深度網絡的特征表征能力。經過上述兩部分網絡后提取的多個特征張量中,均具有較高的空間分辨率和高級語義特征,但兩者比例不同,對于不同類型的場景將發揮各自的優勢。
(3)最后將 CRF 融入上述網絡中,組成端到端的深度顯著性目標檢測網絡,一方面增強了目標區域和背景區域的精度,另一方面端到端的網絡也使得 CRF 的優化過程中對特征提取部分產生影響,有助于整個網絡的收斂。
1.基于深度條件隨機場的網絡建模建立
本章提出了一種深度條件隨機場(Deep Conditional Random Field,DCRF)模型來檢測圖像中的顯著性目標。整個網絡主要包含三個部分:多尺度特征提取模塊(Multi-scale Feature Extraction Module,MFEM),反向優化模塊(Back-Forward Optimization Module,BFOM)和 深 度 條 件 隨 機 場 模 塊(Deep Conditional Random Field Module,DCRFM),算法整體框圖如圖1所示。
其中 MFEM 在 VGG-16網絡基礎上擴展而來,用于捕捉圖像的低級亮度、顏色和紋理特征和高級語義特征,具體細節見本章第一小節。BFOM 在 MFEM 基礎上,將目標位置和形狀等高級語義信息反向傳播指導低級圖像特征,進一步優化對圖像的表征能力。最后 DCRFM 在圖像特征空間建立條件隨機場模型,考慮每個節點及其鄰域特征和顯著性值,共同優化得到最終顯著性值,第 三小節給出了該模塊的詳細解釋。
1.1 多尺度特征提取模塊
多尺度特征提取模塊(MFEM)主要用于提取不同尺度下的低級圖像特征和高級語義特征。眾所周知,深度卷積神經網絡在提取圖像特征時是從低級到高級的遞進過程,在淺層網絡主要提取圖像固有的,內在的低級特征,如亮度、顏色、紋理等,同時淺層網絡具有較高的空間分辨率,能夠保留圖像的紋理和邊緣細節信息。在較深層的網絡則對淺層網絡提取的初級特征進一步提煉,產生高級語義特征,但同時也丟失了大量細節信息,具有較低的空間分辨率。顯著性目標檢測任務需要精確分割出目標的完整區域,因此一方面需要淺層網絡中的高空間分辨率信息保證目標邊緣的準確,另一方面需要深層網絡正確提取場景中最顯著的目標區域。
基于上述考慮,本小節提出 MFEM 同時兼顧空間分辨率和高層語義信息。鑒于 VGG-16 網絡在圖像分類上的有效性和簡潔性,使用 VGG-16 作為 MFEM 的基礎網絡。方便起見,統一定義卷積神經網絡的輸入為網絡中訓練參數和偏置參數,其中表示第l層網絡,則第l層網絡的輸出可表示為其中為激活函數,?為卷積操作。我們首先將輸入圖像尺寸統一轉換為 352×352,并設定網絡輸出的顯著性圖尺寸為 176×176,最后通過雙線性差值(Bilinear Interpolation)將每幅圖像轉換為實際尺寸。整個多尺度特征提取網絡結構如圖2所示,首先去除原始 VGG-16 網絡中的全連接層,并使用前五個卷積模塊,為了兼顧空間分辨率和高層語義信息,分別對 VGG-16 網絡的每個卷積模塊進行進一步處理。具體而言,最淺層模塊中包含豐富的低級圖像特征和較高空間分辨率,在此只簡單使用 128 通道的 3 × 3 卷積核進一步提煉特征。對于中間及深層網絡模塊,首先使用 128 通道的 3 × 3 卷積核統一每個模塊輸出的通道數,然后對每個模塊輸出的尺寸進行 128 通道的 5 × 5 卷積核的反卷積操作,恢復空間分辨率。經過 MFEM 模塊得到了從淺層到深層總共 5 組 176 × 176 × 128 具有較高空間分辨率的卷積特征。
1.2 反向優化模塊
上一節中MFEM在網絡的不同部分提取了 5 組具有多尺度信息的卷積特征,主要賦予深層網絡提取的語義特征較高的空間分辨率,但是對于淺層網絡而言,并未受到高層語義信息的優化和引導。基于此,本小節試圖將深層網絡提取到的目標位置和形狀等語義特征反向優化淺層網絡,整體框圖如圖3所示。
定義第層模塊第部分的MFEM輸出為,第m層模塊的BFOM 輸出為,則第個模塊的反向優化函數為:
其中⊕表示在卷積特征維度進行疊加。
經過 MFEM 和 BFOM 后的 5 組卷積特征均同時具有較豐富的低級紋理特征和高級語義特征,差異在于對低層和高層信息的側重不同,在淺層網絡更加側重于低級紋理特征和高分辨率,而深層網絡更加側重語義信息和顯著性目標的區域和位置特征,為了減少各層模塊特征的損失,對 5 組特征分別使用 2 通道的 1 × 1 卷積核將其降為兩個通道的特征,然后對所有通道的特征進行加權求和得到加權特征:
其中為第m個模塊特征的權重。最后,將和模塊的融合結果分別輸入 Softmax 函數,將特征映射到二值顯著性空間,并分別與真值類標圖進行對比計算損失函數。假設估計的顯著性圖為,則可定義為:(式3)
本小節使用交叉熵函數計算顯著性圖與真值類標圖中每個像素點的損失,則損失函數可表示為:(式4)
其中表示像素i的類標,表示像素i為顯著性區域的概率,* 表示weighted和fuse兩種特征下的結果。因此可以得到和兩個特征層面的損失函數。
1.3 深度條件隨機場模塊
經過上述兩節介紹的網絡處理,從同時兼顧圖像紋理特征和語義特征的特征模塊中直接估計出了圖像中每個像素顯著性值,雖然這些特征能夠較好地表示圖像的內容,但是并未考慮像素及其領域之間的相互作用關系,因此容易出現目標邊緣模糊或目標區域缺失等情況,如圖5所示。為了克服上述問題,本小節在特征層上,以每個像素作為節點N,在相鄰像素間,即以節點為中心的8領域上建立連接E,得到圖模型。
在建立CRF之前,為了考慮模型的復雜性和有效性,本小節在22×22的特征圖上建立CRF,具體而言,從上兩節介紹的特征提取網絡中選取VGG4模塊和MFEM_5_2模塊中第一次反卷積的結果共同組成22×22分辨率下的特征,在此基礎上建立一元網絡和二元網絡分別提取深度特征作為CRF中一元和二元勢函數的輸入。
與傳統CRF模型類似,在節點i上同時考慮一元勢函數和二元勢函數,對CRF的學習和優化過程實際是最大化似然函數或最小化能量函數,其中:
考慮到本章中建立的圖模型是有環圖而非樹狀結構圖,因而在優化過程中較為耗時,同時由于深度學習網絡的學習過程中存在大量迭代,因此如果使用傳統的隨機梯度下降(Stochastic Gradient Descent,SGD)算法優化 CRF 模型,整個網絡的學習過程將會非常耗時。
基于上述考慮,本小節引入分段學習(Piecewise Learning)的方式優化深度學習網絡中的 CRF 模型,因此條件似然函數可以定義為獨立勢函數的乘積:
其中,一元勢函數和二元勢函數可分別表示為:
其中為一元網絡的輸出,為二元網絡的輸出。可以看出,和均為在顯著性類標上的傳統 Softmax 函數,因此在網絡迭代過程中能夠很容易地計算其梯度并融合到整個深度網絡中組成端到端的深度顯著性提取網絡。DCRFM 的損失函數可表示為求取最小負對數似然函數:
綜上所述,本章提出的 DCRF 圖像顯著性目標檢測算法總體損失函數為:
2.實驗部分
本章算法在 Ubuntu 14 系統上的 Tensorflow 1.2 環境中完成。網絡中 VGG1 -VGG5 模塊使用參考文獻 [2] 中的預訓練模型初始化,其余所有新增卷積與反卷積層中的權重均使用隨機截斷正太分布(Truncated Normal Distribution)初始化,使用初始學習率為 10?6 的 Adam 優化算法進行訓練。訓練集參考文獻 [3] 中的方式,從MSRA-B 中選取 2500 張圖像作為訓練,500 張作為驗證,剩余 2000 張作為測試,本章不使用驗證集,將 2500 張訓練圖像和 500 張驗證圖像共同組成本算法的訓練集,同時為了增加數據量,再訓練過程中對每幅圖像進行四個角度(0°,90°,180°,270°)的翻轉,最終總共獲得 12000 張訓練樣本。此外,輸入圖像尺寸統一修改為 352 × 352,網絡輸出顯著性圖分辨率為 176 × 176,使用雙線性差值還原為原始尺寸后再與真值類標圖進行對比與評價。在每個循環中CRF訓練部分每次迭代 3 次。在配置為單塊NVIDIA Titan X GPU 上訓練 20 個 epoch 所用時間約為 9.4 小時,測試階段處理每幅圖像的時間約為 0.14 秒。
本小節主要對比 9 種效果較好的算法,包括 DS,Amulet,MDF,KSR,UCF,HS,MR,BSCA和wCtr。其中最后四種為傳統顯著性目標檢測算法,其余 5 種為基于深度學習的顯著性目標檢測算法。公平起見,上述對比算法均使用作者公布的代碼和默認參數設置,或者直接使用作者提供的結果。如圖 3.7 所示,在 PR 上可以看出在 HKU-IS,PASCAL-S 和 SOD 數據庫上均取得了最好的效果,而在其余兩個數據庫上效果略遜于最好的算法。在 Fm 曲線對比結果中,DCRF 除在 ECSSD 上略遜于 Amulet 算法外,其余四個數據庫上均處達到了最好的效果,此外 DCRF 的 Fm 曲線在大部分閾值中均能夠保持較高且穩定的狀態,說明在目標區域中均保持較高的顯著性值。
圖7五個數據庫上 PR 曲線對比結果
總結
本文提出了一種端到端的基于深度條件隨機場的圖像顯著性目標檢測算法,主要包含多尺度特征提取模塊,反向優化模塊和深度條件隨機場模塊。其中多尺度特征提取模塊用于增強深層網絡的空間分辨率信息,反向優化模塊則幫助淺層紋理特征融合高層語義信息,在此基礎上,條件隨機場模塊的引入有助于優化顯著性目標區域,增強目標邊界的準確性,同時保證目標區域更加完整和均勻。五個數據庫上的結果證明了 DCRF 算法在不同場景下的有效性和優越性。
作者簡介:
楊劭然(1998年6月——),男,漢族,河南南陽人,本科在讀,上海工程技術大學,電子信息工程方向。
季彤宇(1997年9月——),男,漢族,山西陽泉人,本科在讀,上海工程技術大學,電子信息工程方向。
杜聰(1998年9月——),男,漢族,山西大同人,本科在讀,上海工程技術大學,電子信息工程方向。
李浩翔(1998年2月——),男,漢族,河南安陽人,本科在讀,上海工程技術大學,電子信息工程方向。