光學(xué)遙感圖像艦船目標(biāo)視覺(jué)顯著性檢測(cè)方法

2022-05-06 13:32:18曾禹龍

電子設(shè)計(jì)工程 2022年8期

曾禹龍

（上海交通大學(xué)，上海 200240）

視覺(jué)關(guān)注機(jī)制是人類的重要感知機(jī)制之一，人們?cè)谟^察圖像時(shí)，通常會(huì)下意識(shí)關(guān)注圖像中的特殊區(qū)域，被關(guān)注的區(qū)域稱之為顯著性區(qū)域。圖像顯著性區(qū)域是指圖片中引人注目的區(qū)域或比較重要的區(qū)域。圖像的顯著性檢測(cè)即利用計(jì)算機(jī)模擬人類的視覺(jué)關(guān)注機(jī)制，自動(dòng)定位圖像或場(chǎng)景的重要目標(biāo)區(qū)域。目前顯著性檢測(cè)的研究成果廣泛應(yīng)用于各種圖像分析和理解任務(wù)[1]，包括目標(biāo)檢測(cè)[2]、基于內(nèi)容的圖像檢索[3]和圖像/視頻自適應(yīng)壓縮[4]、機(jī)器人等應(yīng)用領(lǐng)域[5]。

在過(guò)去幾十年里，已經(jīng)發(fā)展了眾多用于顯著性區(qū)域檢測(cè)的方法。這些方法通常分為自底向上[6-7]和自頂向下[8-9]兩類。近年來(lái)，眾多深度學(xué)習(xí)架構(gòu)也被提出用于顯著性檢測(cè)。這些深度學(xué)習(xí)解決方案通常能獲得比傳統(tǒng)自下而上的刺激驅(qū)動(dòng)模型更優(yōu)的性能[10]。Kummerer 等人使用卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，CNN）AlexNet 進(jìn)行特征表示，經(jīng)過(guò)訓(xùn)練可以將120 萬(wàn)幅圖像分成1 000 個(gè)不同類別。Kummerer[11]還強(qiáng)調(diào)了在CNNs 的深層網(wǎng)絡(luò)中，特征表示對(duì)于顯著性圖預(yù)測(cè)的重要性。Liu 等人提出了多分辨CNN，用于預(yù)測(cè)人眼注視點(diǎn)[12]。劉暢等人提出了一種全卷積神經(jīng)網(wǎng)絡(luò)，通過(guò)端到端訓(xùn)練預(yù)測(cè)像素顯著值[13]。Huang 等人提出的SALICON net，將CNNs的粗特征與細(xì)特征相結(jié)合，獲取多尺度的顯著性[14]。

針對(duì)遙感圖像目標(biāo)顯著性檢測(cè)，文獻(xiàn)[15]提出了基于稀疏表示的顯著性檢測(cè)方法。文獻(xiàn)[16]提出一種雙流的LVNet 深度網(wǎng)絡(luò)架構(gòu)，用于遙感圖像顯著性檢測(cè)，并采用手工像素級(jí)標(biāo)注構(gòu)建遙感圖像顯著性的檢測(cè)數(shù)據(jù)集。但總體而言，遙感圖像中目標(biāo)顯著性檢測(cè)的工作相對(duì)較少，大多采用自底向上的方法。顯著性檢測(cè)是模擬人的視覺(jué)關(guān)注機(jī)制，遙感圖像目標(biāo)顯著性檢測(cè)中仍缺少這種直接反映人的視覺(jué)關(guān)注機(jī)制的數(shù)據(jù)集。為此，文中針對(duì)艦船檢測(cè)場(chǎng)景，采用基于被測(cè)的眼動(dòng)數(shù)據(jù)構(gòu)建了一套遙感圖像目標(biāo)顯著性數(shù)據(jù)集。該數(shù)據(jù)集包含2 000 張圖像，每張圖像的大小為2 048×2 048 像素。通過(guò)眼動(dòng)跟蹤設(shè)備記錄注視數(shù)據(jù)，生成顯著性圖作為真值。同時(shí)，提出一種輕量級(jí)多尺度卷積神經(jīng)網(wǎng)絡(luò)，實(shí)現(xiàn)艦船目標(biāo)顯著性圖的快速生成。

1 理論與技術(shù)

1.1 顯著性檢測(cè)的卷積神經(jīng)網(wǎng)絡(luò)和數(shù)據(jù)集生成

卷積神經(jīng)網(wǎng)絡(luò)在目標(biāo)識(shí)別、邊緣檢測(cè)、語(yǔ)義分割等圖像任務(wù)中的出色表現(xiàn)給顯著性目標(biāo)檢測(cè)提供了新的思路，并在文獻(xiàn)[17-18]展示出了大幅度的提升效果。

文中利用桌面眼動(dòng)儀來(lái)獲取被測(cè)的眼動(dòng)信號(hào)，作為目標(biāo)圖片的顯著性真值。如圖1 所示，眼動(dòng)儀器附加在工作屏幕的下部，記錄被試的眼動(dòng)信號(hào)工作狀態(tài)包括注視位置、凝視、目光路徑、瞳孔直徑等信息。

圖1 眼動(dòng)信號(hào)采集場(chǎng)景

實(shí)驗(yàn)中使用的眼動(dòng)儀為T(mén)obiiProX3-120 臺(tái)式眼動(dòng)儀，采樣率為120 Hz。眼動(dòng)儀掃描的內(nèi)部算法將每個(gè)數(shù)據(jù)點(diǎn)分為注視、一瞥和丟失3 種事件類型。在實(shí)驗(yàn)過(guò)程中，文中只提取標(biāo)記為注視點(diǎn)的樣本點(diǎn)。每個(gè)注視都有兩個(gè)屬性：注視點(diǎn)坐標(biāo)和該位置的注視時(shí)間。眼動(dòng)數(shù)據(jù)處理結(jié)果如圖2 所示。

圖2 眼動(dòng)數(shù)據(jù)處理結(jié)果圖

如圖2(b)所示，根據(jù)已有的邊界框（Boundingbox）標(biāo)注信息可以計(jì)算出每次固定是否有效，即目標(biāo)對(duì)象是否被注視。如圖2(c)所示，圓心表示注視點(diǎn)坐標(biāo)，半徑表示該點(diǎn)注視時(shí)間的長(zhǎng)度，按照注視點(diǎn)在圖像中產(chǎn)生時(shí)間的先后順序，可以得到每個(gè)被試對(duì)每幅圖像的掃描路徑。如圖2 (d)所示，其可以根據(jù)被試注視點(diǎn)繪制眼動(dòng)熱力圖，從而更直觀地顯示被試感興趣的區(qū)域。

1.2 基于Deeplab網(wǎng)絡(luò)提出的顯著性區(qū)域提取模型

Deeplab是語(yǔ)義分割里比較流行的網(wǎng)絡(luò)。為了避免池化引起的信息丟失問(wèn)題，DeepLab V1 中提出了空洞卷積的方式[19-20]，這樣可以在增大感受野的同時(shí)不增加參數(shù)量，并保證信息不丟失。為了進(jìn)一步優(yōu)化分割精度，還使用了條件隨機(jī)場(chǎng)。DeepLab V2[21]在之前的基礎(chǔ)上，移除部分池化操作，利用不同膨脹因子的空洞卷積融合多尺度信息。DeepLab V3[22]通過(guò)串聯(lián)不同膨脹率的空洞卷積或并行不同膨脹率的空洞卷積，來(lái)獲取更多上下文信息。DeepLab V3+[23]將原DeepLab V3 當(dāng)作編碼器，添加解碼器得到新的模型，如圖3 所示。

圖3 DeeplabV3+架構(gòu)

解碼器是先把編碼器的結(jié)果上采樣4 倍，然后與DCNN 中下采樣前的特征合并，再進(jìn)行3×3 的卷積，最終上采樣4 倍得到最終結(jié)果。其骨干網(wǎng)絡(luò)采用更深的Xception 結(jié)構(gòu)，以提高實(shí)驗(yàn)運(yùn)行的速度和穩(wěn)定性。

在Deeplab V3+的基礎(chǔ)上，提出用于生成艦船目標(biāo)顯著性圖的模型架構(gòu)，如圖4 所示。因?yàn)檠蹌?dòng)熱力圖只表明目標(biāo)大致位置，而不能完備地顯示目標(biāo)顯著性區(qū)域。文中將眼動(dòng)數(shù)據(jù)作為弱監(jiān)督信號(hào)來(lái)訓(xùn)練網(wǎng)絡(luò)，并在中間層輸出忽略網(wǎng)絡(luò)的高層部分，提取局部顯著性信息生成熱點(diǎn)圖。這是因?yàn)榫W(wǎng)絡(luò)高層特征只反映了注視信息，而中層特征蘊(yùn)含了對(duì)注視預(yù)測(cè)起作用的目標(biāo)區(qū)域信息，同時(shí)該方法還可以有效避免過(guò)擬合眼動(dòng)噪聲。眼動(dòng)儀在通過(guò)追蹤人眼注視位置標(biāo)注圖像時(shí)容易產(chǎn)生一些異常值，文中提出的方法能更優(yōu)地挖掘目標(biāo)顯著性特征，減少眼動(dòng)噪聲在顯著性圖預(yù)測(cè)中的影響[24-25]。

圖4 提出的網(wǎng)絡(luò)架構(gòu)

2 結(jié)果與討論

2.1 數(shù)據(jù)集與訓(xùn)練方案

數(shù)據(jù)集中的光學(xué)遙感圖像來(lái)自谷歌地球，分辨率為0.7 m，大小約為2 000×2 000像素，通過(guò)TobiiProX3-120臺(tái)式眼動(dòng)儀來(lái)跟蹤受試者在一定時(shí)間段內(nèi)眼睛的注意數(shù)據(jù)，得到眼動(dòng)圖像。目標(biāo)主要為艦船，訓(xùn)練集為20 000 張，測(cè)試集為1 000 張。在實(shí)驗(yàn)中，文中對(duì)數(shù)據(jù)進(jìn)行了裁剪和擴(kuò)展。數(shù)據(jù)被劃分為512×512的圖像塊，每個(gè)圖像塊對(duì)應(yīng)一個(gè)顯著性熱點(diǎn)圖。為了擴(kuò)展數(shù)據(jù)，通過(guò)鏡像和旋轉(zhuǎn)得到擴(kuò)展后的圖像。最終的數(shù)據(jù)集中，訓(xùn)練集有20 000 張圖像，驗(yàn)證集有9 889 張圖像。

文中所提的深度顯著性網(wǎng)絡(luò)使用TensorFlow 庫(kù)進(jìn)行實(shí)現(xiàn)。在訓(xùn)練時(shí)，編碼器網(wǎng)絡(luò)的濾波器權(quán)重從Xception65 初始化，Xception65 在coco 數(shù)據(jù) 庫(kù)上進(jìn)行訓(xùn)練，用于分類任務(wù)。對(duì)眼動(dòng)數(shù)據(jù)集的20 000 張圖像進(jìn)行網(wǎng)絡(luò)訓(xùn)練，在每次迭代中將batch 大小設(shè)為4張，初始化學(xué)習(xí)率為0.000 1，采取的學(xué)習(xí)率衰減策略為poly，如圖5所示。模型在Tesla V100 GPU和32 GB內(nèi)存的PC 上達(dá)到了0.1 張/秒的處理速度。

圖5 學(xué)習(xí)率衰減策略

2.2 評(píng)價(jià)指標(biāo)

目前有幾種方法可以衡量模型預(yù)測(cè)和人眼注視之間的一致性。使用EMD（Earth Move Distance）和CC（Correction Coefficient）兩種不同的度量來(lái)評(píng)價(jià)所提的模型，文中用G表示顯著性圖的真值，用S表示顯著性圖的預(yù)測(cè)結(jié)果。

1）EMD。EMD 測(cè)量的是兩個(gè)二維圖像G和S之間的差距。其是將估計(jì)的顯著性圖像S的概率分布轉(zhuǎn)化為地面真值圖像G概率分布的最小代價(jià)，因此低的EMD 對(duì)應(yīng)高質(zhì)量的顯著性地圖。

2）CC。CC 是一種統(tǒng)計(jì)方法，通常用來(lái)度量?jī)蓚€(gè)變量的相關(guān)程度。CC 可以將顯著性與真值圖G和S理解為隨機(jī)變量，測(cè)量其之間的線性關(guān)系：cov(S,G)是S和G的協(xié)方差，取值范圍為-1～+1。CC 接近+1 的值表示兩幅圖像完全對(duì)齊。

2.3 實(shí)驗(yàn)結(jié)果與討論

圖6 顯示了部分實(shí)驗(yàn)結(jié)果，第一列是輸入圖像，第二列是將眼動(dòng)數(shù)據(jù)生成的熱力圖作為真值的結(jié)果，第三列是Deeplab 實(shí)驗(yàn)結(jié)果，第四列是深度監(jiān)督模型（DVA）的[19]實(shí)驗(yàn)結(jié)果，第五列是提出模型的預(yù)測(cè)結(jié)果。DVA 是一種基于CNN 的光學(xué)圖像顯著性預(yù)測(cè)模型，其架構(gòu)來(lái)源于UNET，從網(wǎng)絡(luò)深層提取全局顯著性信息、從網(wǎng)絡(luò)淺層獲取局部顯著性信息，并將所有信息合并到網(wǎng)絡(luò)的最后一層，得到最終的顯著性圖像。從第二列眼動(dòng)數(shù)據(jù)生成的熱力圖可以看出眼動(dòng)數(shù)據(jù)熱力圖只表明了目標(biāo)的大致位置信息，一方面存在較大的噪聲，且不能直接顯示目標(biāo)的輪廓區(qū)域。從第三、四列的結(jié)果來(lái)看，將DeepLab 和DVA 方法直接過(guò)擬合到注視熱點(diǎn)圖數(shù)據(jù)，而不能預(yù)測(cè)目標(biāo)本身的顯著圖，而文中提出的方法能夠較好地恢復(fù)目標(biāo)的顯著性區(qū)域。因此從表1 評(píng)價(jià)指標(biāo)來(lái)看，DVA 對(duì)注視點(diǎn)具有比較好的預(yù)測(cè)能力，所以導(dǎo)致DVA 的CC 指標(biāo)明顯優(yōu)于所提出的模型，反而不能很好地預(yù)測(cè)目標(biāo)顯著性區(qū)域。

圖6 實(shí)驗(yàn)結(jié)果

表1 文中方法和DVA方法的對(duì)比

3 結(jié)論

文中提出了一種基于Deeplab V3+多尺度全卷積的顯著性檢測(cè)方法，采用膨脹卷積增加感受野，獲取多尺度信息，解決遙感圖像艦船目標(biāo)顯著性區(qū)域與背景不連續(xù)、邊界模糊等問(wèn)題。文中提出的方法利用編碼層的網(wǎng)絡(luò)淺層特征輸出顯著性圖，不僅增強(qiáng)了艦船目標(biāo)顯著性檢測(cè)的算法精度，且減少了模型的參數(shù)量。在后續(xù)工作中，將繼續(xù)優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)，提高檢測(cè)精度。