曾禹龍
(上海交通大學(xué),上海 200240)
視覺(jué)關(guān)注機(jī)制是人類的重要感知機(jī)制之一,人們?cè)谟^察圖像時(shí),通常會(huì)下意識(shí)關(guān)注圖像中的特殊區(qū)域,被關(guān)注的區(qū)域稱之為顯著性區(qū)域。圖像顯著性區(qū)域是指圖片中引人注目的區(qū)域或比較重要的區(qū)域。圖像的顯著性檢測(cè)即利用計(jì)算機(jī)模擬人類的視覺(jué)關(guān)注機(jī)制,自動(dòng)定位圖像或場(chǎng)景的重要目標(biāo)區(qū)域。目前顯著性檢測(cè)的研究成果廣泛應(yīng)用于各種圖像分析和理解任務(wù)[1],包括目標(biāo)檢測(cè)[2]、基于內(nèi)容的圖像檢索[3]和圖像/視頻自適應(yīng)壓縮[4]、機(jī)器人等應(yīng)用領(lǐng)域[5]。
在過(guò)去幾十年里,已經(jīng)發(fā)展了眾多用于顯著性區(qū)域檢測(cè)的方法。這些方法通常分為自底向上[6-7]和自頂向下[8-9]兩類。近年來(lái),眾多深度學(xué)習(xí)架構(gòu)也被提出用于顯著性檢測(cè)。這些深度學(xué)習(xí)解決方案通常能獲得比傳統(tǒng)自下而上的刺激驅(qū)動(dòng)模型更優(yōu)的性能[10]。Kummerer 等人使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)AlexNet 進(jìn)行特征表示,經(jīng)過(guò)訓(xùn)練可以將120 萬(wàn)幅圖像分成1 000 個(gè)不同類別。Kummerer[11]還強(qiáng)調(diào)了在CNNs 的深層網(wǎng)絡(luò)中,特征表示對(duì)于顯著性圖預(yù)測(cè)的重要性。Liu 等人提出了多分辨CNN,用于預(yù)測(cè)人眼注視點(diǎn)[12]。劉暢等人提出了一種全卷積神經(jīng)網(wǎng)絡(luò),通過(guò)端到端訓(xùn)練預(yù)測(cè)像素顯著值[13]。Huang 等人提出的SALICON net,將CNNs的粗特征與細(xì)特征相結(jié)合,獲取多尺度的顯著性[14]。
針對(duì)遙感圖像目標(biāo)顯著性檢測(cè),文獻(xiàn)[15]提出了基于稀疏表示的顯著性檢測(cè)方法。文獻(xiàn)[16]提出一種雙流的LVNet 深度網(wǎng)絡(luò)架構(gòu),用于遙感圖像顯著性檢測(cè),并采用手工像素級(jí)標(biāo)注構(gòu)建遙感圖像顯著性的檢測(cè)數(shù)據(jù)集。但總體而言,遙感圖像中目標(biāo)顯著性檢測(cè)的工作相對(duì)較少,大多采用自底向上的方法。顯著性檢測(cè)是模擬人的視覺(jué)關(guān)注機(jī)制,遙感圖像目標(biāo)顯著性檢測(cè)中仍缺少這種直接反映人的視覺(jué)關(guān)注機(jī)制的數(shù)據(jù)集。為此,文中針對(duì)艦船檢測(cè)場(chǎng)景,采用基于被測(cè)的眼動(dòng)數(shù)據(jù)構(gòu)建了一套遙感圖像目標(biāo)顯著性數(shù)據(jù)集。該數(shù)據(jù)集包含2 000 張圖像,每張圖像的大小為2 048×2 048 像素。通過(guò)眼動(dòng)跟蹤設(shè)備記錄注視數(shù)據(jù),生成顯著性圖作為真值。同時(shí),提出一種輕量級(jí)多尺度卷積神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)艦船目標(biāo)顯著性圖的快速生成。
卷積神經(jīng)網(wǎng)絡(luò)在目標(biāo)識(shí)別、邊緣檢測(cè)、語(yǔ)義分割等圖像任務(wù)中的出色表現(xiàn)給顯著性目標(biāo)檢測(cè)提供了新的思路,并在文獻(xiàn)[17-18]展示出了大幅度的提升效果。
文中利用桌面眼動(dòng)儀來(lái)獲取被測(cè)的眼動(dòng)信號(hào),作為目標(biāo)圖片的顯著性真值。如圖1 所示,眼動(dòng)儀器附加在工作屏幕的下部,記錄被試的眼動(dòng)信號(hào)工作狀態(tài)包括注視位置、凝視、目光路徑、瞳孔直徑等信息。

圖1 眼動(dòng)信號(hào)采集場(chǎng)景
實(shí)驗(yàn)中使用的眼動(dòng)儀為T(mén)obiiProX3-120 臺(tái)式眼動(dòng)儀,采樣率為120 Hz。眼動(dòng)儀掃描的內(nèi)部算法將每個(gè)數(shù)據(jù)點(diǎn)分為注視、一瞥和丟失3 種事件類型。在實(shí)驗(yàn)過(guò)程中,文中只提取標(biāo)記為注視點(diǎn)的樣本點(diǎn)。每個(gè)注視都有兩個(gè)屬性:注視點(diǎn)坐標(biāo)和該位置的注視時(shí)間。眼動(dòng)數(shù)據(jù)處理結(jié)果如圖2 所示。

圖2 眼動(dòng)數(shù)據(jù)處理結(jié)果圖
如圖2(b)所示,根據(jù)已有的邊界框(Boundingbox)標(biāo)注信息可以計(jì)算出每次固定是否有效,即目標(biāo)對(duì)象是否被注視。如圖2(c)所示,圓心表示注視點(diǎn)坐標(biāo),半徑表示該點(diǎn)注視時(shí)間的長(zhǎng)度,按照注視點(diǎn)在圖像中產(chǎn)生時(shí)間的先后順序,可以得到每個(gè)被試對(duì)每幅圖像的掃描路徑。如圖2 (d)所示,其可以根據(jù)被試注視點(diǎn)繪制眼動(dòng)熱力圖,從而更直觀地顯示被試感興趣的區(qū)域。
Deeplab是語(yǔ)義分割里比較流行的網(wǎng)絡(luò)。為了避免池化引起的信息丟失問(wèn)題,DeepLab V1 中提出了空洞卷積的方式[19-20],這樣可以在增大感受野的同時(shí)不增加參數(shù)量,并保證信息不丟失。為了進(jìn)一步優(yōu)化分割精度,還使用了條件隨機(jī)場(chǎng)。DeepLab V2[21]在之前的基礎(chǔ)上,移除部分池化操作,利用不同膨脹因子的空洞卷積融合多尺度信息。DeepLab V3[22]通過(guò)串聯(lián)不同膨脹率的空洞卷積或并行不同膨脹率的空洞卷積,來(lái)獲取更多上下文信息。DeepLab V3+[23]將原DeepLab V3 當(dāng)作編碼器,添加解碼器得到新的模型,如圖3 所示。

圖3 DeeplabV3+架構(gòu)
解碼器是先把編碼器的結(jié)果上采樣4 倍,然后與DCNN 中下采樣前的特征合并,再進(jìn)行3×3 的卷積,最終上采樣4 倍得到最終結(jié)果。其骨干網(wǎng)絡(luò)采用更深的Xception 結(jié)構(gòu),以提高實(shí)驗(yàn)運(yùn)行的速度和穩(wěn)定性。
在Deeplab V3+的基礎(chǔ)上,提出用于生成艦船目標(biāo)顯著性圖的模型架構(gòu),如圖4 所示。因?yàn)檠蹌?dòng)熱力圖只表明目標(biāo)大致位置,而不能完備地顯示目標(biāo)顯著性區(qū)域。文中將眼動(dòng)數(shù)據(jù)作為弱監(jiān)督信號(hào)來(lái)訓(xùn)練網(wǎng)絡(luò),并在中間層輸出忽略網(wǎng)絡(luò)的高層部分,提取局部顯著性信息生成熱點(diǎn)圖。這是因?yàn)榫W(wǎng)絡(luò)高層特征只反映了注視信息,而中層特征蘊(yùn)含了對(duì)注視預(yù)測(cè)起作用的目標(biāo)區(qū)域信息,同時(shí)該方法還可以有效避免過(guò)擬合眼動(dòng)噪聲。眼動(dòng)儀在通過(guò)追蹤人眼注視位置標(biāo)注圖像時(shí)容易產(chǎn)生一些異常值,文中提出的方法能更優(yōu)地挖掘目標(biāo)顯著性特征,減少眼動(dòng)噪聲在顯著性圖預(yù)測(cè)中的影響[24-25]。

圖4 提出的網(wǎng)絡(luò)架構(gòu)
數(shù)據(jù)集中的光學(xué)遙感圖像來(lái)自谷歌地球,分辨率為0.7 m,大小約為2 000×2 000像素,通過(guò)TobiiProX3-120臺(tái)式眼動(dòng)儀來(lái)跟蹤受試者在一定時(shí)間段內(nèi)眼睛的注意數(shù)據(jù),得到眼動(dòng)圖像。目標(biāo)主要為艦船,訓(xùn)練集為20 000 張,測(cè)試集為1 000 張。在實(shí)驗(yàn)中,文中對(duì)數(shù)據(jù)進(jìn)行了裁剪和擴(kuò)展。數(shù)據(jù)被劃分為512×512的圖像塊,每個(gè)圖像塊對(duì)應(yīng)一個(gè)顯著性熱點(diǎn)圖。為了擴(kuò)展數(shù)據(jù),通過(guò)鏡像和旋轉(zhuǎn)得到擴(kuò)展后的圖像。最終的數(shù)據(jù)集中,訓(xùn)練集有20 000 張圖像,驗(yàn)證集有9 889 張圖像。
文中所提的深度顯著性網(wǎng)絡(luò)使用TensorFlow 庫(kù)進(jìn)行實(shí)現(xiàn)。在訓(xùn)練時(shí),編碼器網(wǎng)絡(luò)的濾波器權(quán)重從Xception65 初始化,Xception65 在coco 數(shù)據(jù) 庫(kù)上進(jìn)行訓(xùn)練,用于分類任務(wù)。對(duì)眼動(dòng)數(shù)據(jù)集的20 000 張圖像進(jìn)行網(wǎng)絡(luò)訓(xùn)練,在每次迭代中將batch 大小設(shè)為4張,初始化學(xué)習(xí)率為0.000 1,采取的學(xué)習(xí)率衰減策略為poly,如圖5所示。模型在Tesla V100 GPU和32 GB內(nèi)存的PC 上達(dá)到了0.1 張/秒的處理速度。

圖5 學(xué)習(xí)率衰減策略
目前有幾種方法可以衡量模型預(yù)測(cè)和人眼注視之間的一致性。使用EMD(Earth Move Distance)和CC(Correction Coefficient)兩種不同的度量來(lái)評(píng)價(jià)所提的模型,文中用G表示顯著性圖的真值,用S表示顯著性圖的預(yù)測(cè)結(jié)果。
1)EMD。EMD 測(cè)量的是兩個(gè)二維圖像G和S之間的差距。其是將估計(jì)的顯著性圖像S的概率分布轉(zhuǎn)化為地面真值圖像G概率分布的最小代價(jià),因此低的EMD 對(duì)應(yīng)高質(zhì)量的顯著性地圖。
2)CC。CC 是一種統(tǒng)計(jì)方法,通常用來(lái)度量?jī)蓚€(gè)變量的相關(guān)程度。CC 可以將顯著性與真值圖G和S理解為隨機(jī)變量,測(cè)量其之間的線性關(guān)系:cov(S,G)是S和G的協(xié)方差,取值范圍為-1~+1。CC 接近+1 的值表示兩幅圖像完全對(duì)齊。
圖6 顯示了部分實(shí)驗(yàn)結(jié)果,第一列是輸入圖像,第二列是將眼動(dòng)數(shù)據(jù)生成的熱力圖作為真值的結(jié)果,第三列是Deeplab 實(shí)驗(yàn)結(jié)果,第四列是深度監(jiān)督模型(DVA)的[19]實(shí)驗(yàn)結(jié)果,第五列是提出模型的預(yù)測(cè)結(jié)果。DVA 是一種基于CNN 的光學(xué)圖像顯著性預(yù)測(cè)模型,其架構(gòu)來(lái)源于UNET,從網(wǎng)絡(luò)深層提取全局顯著性信息、從網(wǎng)絡(luò)淺層獲取局部顯著性信息,并將所有信息合并到網(wǎng)絡(luò)的最后一層,得到最終的顯著性圖像。從第二列眼動(dòng)數(shù)據(jù)生成的熱力圖可以看出眼動(dòng)數(shù)據(jù)熱力圖只表明了目標(biāo)的大致位置信息,一方面存在較大的噪聲,且不能直接顯示目標(biāo)的輪廓區(qū)域。從第三、四列的結(jié)果來(lái)看,將DeepLab 和DVA 方法直接過(guò)擬合到注視熱點(diǎn)圖數(shù)據(jù),而不能預(yù)測(cè)目標(biāo)本身的顯著圖,而文中提出的方法能夠較好地恢復(fù)目標(biāo)的顯著性區(qū)域。因此從表1 評(píng)價(jià)指標(biāo)來(lái)看,DVA 對(duì)注視點(diǎn)具有比較好的預(yù)測(cè)能力,所以導(dǎo)致DVA 的CC 指標(biāo)明顯優(yōu)于所提出的模型,反而不能很好地預(yù)測(cè)目標(biāo)顯著性區(qū)域。

圖6 實(shí)驗(yàn)結(jié)果

表1 文中方法和DVA方法的對(duì)比
文中提出了一種基于Deeplab V3+多尺度全卷積的顯著性檢測(cè)方法,采用膨脹卷積增加感受野,獲取多尺度信息,解決遙感圖像艦船目標(biāo)顯著性區(qū)域與背景不連續(xù)、邊界模糊等問(wèn)題。文中提出的方法利用編碼層的網(wǎng)絡(luò)淺層特征輸出顯著性圖,不僅增強(qiáng)了艦船目標(biāo)顯著性檢測(cè)的算法精度,且減少了模型的參數(shù)量。在后續(xù)工作中,將繼續(xù)優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),提高檢測(cè)精度。