溫堯樂 李林燕 尚欣茹 胡伏原,3*
1(蘇州科技大學(xué)電子與信息工程學(xué)院 江蘇 蘇州 215009)2(蘇州經(jīng)貿(mào)職業(yè)技術(shù)學(xué)院 江蘇 蘇州 215009)3(蘇州科技大學(xué)蘇州市虛擬現(xiàn)實(shí)智能交互及應(yīng)用技術(shù)重點(diǎn)實(shí)驗(yàn)室 江蘇 蘇州 215009)4(蘇州科技大學(xué)蘇州市大數(shù)據(jù)與信息服務(wù)重點(diǎn)實(shí)驗(yàn)室 江蘇 蘇州 215009)
實(shí)例分割是計(jì)算機(jī)視覺的主要研究內(nèi)容之一,它是將圖像中不同類別的個(gè)體精準(zhǔn)地分割出來,對圖像中的每一個(gè)像素都進(jìn)行類別的標(biāo)注,并對同一類別的不同個(gè)體進(jìn)行區(qū)分。隨著深度學(xué)習(xí)的快速發(fā)展,精確且高效的實(shí)例分割技術(shù)的需求越來越大,如在自動(dòng)駕駛、智慧農(nóng)業(yè)、視頻監(jiān)控等領(lǐng)域,該技術(shù)得到了越來越多研究人員的關(guān)注。
目前實(shí)例分割的大多數(shù)方法是基于候選區(qū)域的。Pinheiro等[1]提出的DeepMask通過輸入圖像中出現(xiàn)的實(shí)例來輸出預(yù)測候選掩膜,以此分割出每個(gè)實(shí)例對象,但是對邊界分割的準(zhǔn)確度較低;Dai等[2]使用共享特征圖將提議的實(shí)例對象從邊界框中分割出來,大大提高了計(jì)算速度;Chen等[3]提出了Deeplab網(wǎng)絡(luò)結(jié)構(gòu),該網(wǎng)絡(luò)中使用空洞卷積核,從而使得在增加卷積感受域的同時(shí)保持特征圖的尺寸不變,避免了最后需要對特征圖進(jìn)行上采樣來擴(kuò)大尺寸造成的分割結(jié)果不精細(xì)的弊端;Li等[4]提出的全卷積實(shí)例分割(FCIS)是首個(gè)端到端的實(shí)例分割框架,通過對位置敏感的得分圖[5]進(jìn)行改進(jìn),F(xiàn)CIS同時(shí)預(yù)測邊界框和實(shí)例掩膜,但FCIS對處理重疊對象實(shí)例時(shí),在其重疊區(qū)域分割效果相對薄弱,僅粗略地檢測各個(gè)實(shí)例對象的邊界;He等[6]提出的Mask RCNN框架有較為精細(xì)的實(shí)例分割結(jié)果。該框架基于Faster RCNN[7]用于檢測目標(biāo)和分類,利用全卷積網(wǎng)絡(luò)(FCN)[8]用于掩模預(yù)測,使用特征金字塔網(wǎng)絡(luò)(FPN)[9]提取網(wǎng)絡(luò)中的特征層次,區(qū)域建議網(wǎng)絡(luò)(RPN)根據(jù)提取的特征生成邊界框,提出的興趣區(qū)域?qū)R算法(RoIAlign)來獲得精確的感興趣區(qū)域并產(chǎn)生實(shí)例級結(jié)果。但是對基于候選區(qū)域的實(shí)例分割方法而言,其分割準(zhǔn)確度非常依賴于區(qū)域建議網(wǎng)絡(luò)(RPN),而對生成特征的利用效率極大的影響RPN的性能,這是目前此類方法亟待解決的問題。
由于低層次特征信息的傳播效率對于增強(qiáng)整個(gè)特征層次有較大影響,而Mask RCNN中低層次特征與高層次特征的融合路徑太長,導(dǎo)致了低層特征的位置信息沒有被很好的利用。為了增強(qiáng)低層特征在全局特征中的作用,本文利用低層特征中具有的目標(biāo)位置信息,引入一條自下而上的特征融合路徑,縮短了低層特征與高層特征的融合路徑,提高了特征金字塔網(wǎng)絡(luò)融合特征的能力。另外,由于傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)中卷積核的大小與其感受域是一對矛盾,導(dǎo)致在上采樣過程中圖像信息損失嚴(yán)重。故在卷積神經(jīng)網(wǎng)絡(luò)中借助空洞卷積核來擴(kuò)大感受域,減小提取高層特征圖像信息的損失[10,12],提高了掩膜預(yù)測準(zhǔn)確度。
Mask RCNN實(shí)例分割包括:定位目標(biāo)、目標(biāo)類別分類、分割掩膜預(yù)測三個(gè)部分。如圖1所示。首先輸入一幅圖片后,利用特征金字塔網(wǎng)絡(luò)(FPN)經(jīng)過一系列的卷積、池化操作提取出圖像的特征圖(feature map);其次RPN[7]網(wǎng)絡(luò)在特征圖上選定出候選目標(biāo),使用softmax分類器來判別候選目標(biāo)屬于背景還是前景,同時(shí)利用范圍框回歸器修正候選目標(biāo)的位置,生成候選目標(biāo)區(qū)域。最后利用全卷積網(wǎng)絡(luò)(FCN)預(yù)測相應(yīng)的目標(biāo)分割掩膜。分類網(wǎng)絡(luò)利用特征圖和RPN網(wǎng)絡(luò)生成的候選區(qū)域?qū)崿F(xiàn)目標(biāo)類別的檢測,F(xiàn)CN利用特征圖實(shí)現(xiàn)目標(biāo)的像素級精確分割。由于FPN低層特征與高層特征的融合路徑較長,導(dǎo)致低層特征的作用沒有被充分利用起來。

圖1 Mask RCNN框架結(jié)構(gòu)
為提升基于侯選區(qū)域的實(shí)例分割框架內(nèi)的各層次特征的信息傳播與融合[11,13],在特征金字塔結(jié)構(gòu)(FPN)的基礎(chǔ)上引入一條自下向上的路徑來增強(qiáng)低層特征中的位置信息,建立低層特征和高層特征之間的特征信息融合路徑。
本文以ResNet作為基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu),使用FPN生成的特征網(wǎng)絡(luò)階段P2、P3、P4[9],F(xiàn)PN高層特征(P4)向下與低層特征(P2)的融合路徑如圖2(a)所示。每個(gè)階段的最后一層特征作為該階段的輸出特征。在自下而上的融合路徑中,L2和P2完全相同。首先,對L2特征進(jìn)行步幅為2的3×3卷積核來縮小空間尺寸。其次,通過橫向連接與較高層特征(P3)逐元素相加(經(jīng)過1×1卷積核,保持通道數(shù)目相同)生成融合后的特征階段(L3)。最后將融合后的特征階段經(jīng)過多層卷積生成該階段的特征圖,并將最后一層的特征圖輸出。這是一個(gè)逐層迭代的過程,到達(dá)頂層(P4)后終止,如圖2(b)所示。至此從低層到高層的特征融合路徑能夠達(dá)到5層到10層之間(圖2長虛線),相比之下,F(xiàn)PN中由低層到高層的特征融合路徑達(dá)到了100層以上(圖2短虛線)。其中,橫向連接特征融合如圖3所示。

(a) 自上而下 (b) 自下而上圖2 特征融合路徑

圖3 自下而上特征融合操作
經(jīng)融合后生成的L2、L3、L4共同組成新的特征金字塔結(jié)構(gòu),新的特征金字塔結(jié)構(gòu)組成的各層特征供后續(xù)網(wǎng)絡(luò)使用。為了能使每層輸出的特征在后續(xù)的網(wǎng)絡(luò)中共享一個(gè)分類層,每層的特征圖始終保持256的通道數(shù)的輸出。
局部感受域是卷積神經(jīng)網(wǎng)絡(luò)(CNN)中非常重要的一個(gè)概念,但是CNN在做實(shí)例分割任務(wù)時(shí),會(huì)導(dǎo)致最后的特征圖尺寸遠(yuǎn)遠(yuǎn)小于輸入圖像的尺寸。最終預(yù)測得到的分割掩膜(Mask)會(huì)由于過度上采樣而比較粗糙。由于空洞卷積算法能夠控制卷積核的rate的大小,從而能夠得到不同大小的卷積感受域,因此該算法解決了CNN中對于提高感受域和保持特征圖尺寸之間的矛盾的問題[3,10,12]。圖4(a)中顯示的是傳統(tǒng)的3×3大小的卷積核作用的感受域,與rate=1的3×3大小的空洞卷積核感受域相同,每次覆蓋的區(qū)域是3×3大小的。圖4(b)中對應(yīng)的是rate=2的3×3大小的空洞卷積核作用的感受域,該卷積核仍然是3×3大小的,但是該卷積核的感受域增大到了7×7。

(a) rate=1 (b) rate=2圖4 空洞卷積示例
本文在特征金字塔結(jié)構(gòu)中加入3種不同rate的空洞卷積核來提取特征,對每個(gè)金字塔階段的最后一層輸出特征進(jìn)行空洞卷積操作,在空間尺寸很小的高層特征中,比較好地保留了高層特征信息;這些全局的共享特征輸出到FCN網(wǎng)絡(luò)中,在卷積層中仍然使用3種不同rate的卷積核,在上采樣過程中保留了更多的圖像信息,最終在像素級的類別預(yù)測階段,能夠有效提高掩膜預(yù)測的準(zhǔn)確度。
本文算法的具體實(shí)現(xiàn)使用的是深度學(xué)習(xí)框架Tensorflow[14],實(shí)驗(yàn)環(huán)境為Ubantu14.04操作系統(tǒng),使用4塊NVIDIA 1080Ti圖形處理器(GPU)加速運(yùn)算。以ResNeXt-101-FPN網(wǎng)絡(luò)作為基準(zhǔn)網(wǎng)絡(luò),在Microsoft COCO[15]數(shù)據(jù)集上訓(xùn)練所有模型。該數(shù)據(jù)集由30多萬幅圖片、80個(gè)類別構(gòu)成。本文在trainval35k子集共80 000萬幅圖片來進(jìn)行訓(xùn)練,在minival子集共5 000幅圖片來進(jìn)行測試和驗(yàn)證。
實(shí)驗(yàn)使用隨機(jī)梯度下降法進(jìn)行訓(xùn)練,設(shè)置衰減系數(shù)為0.000 1,動(dòng)量系數(shù)為0.9,初始學(xué)習(xí)速率設(shè)置為0.002。使用的評價(jià)指標(biāo)為預(yù)測的類別像素點(diǎn)和正確的類別像素點(diǎn)的準(zhǔn)確度(intersection over union,IoU),以及平均IoU(Mean intersection over union,mIoU),其定義如下:
(1)
(2)
式中:nii代表類別為AP50的像素點(diǎn)數(shù)目被預(yù)測為類別i的像素點(diǎn)數(shù)目(即正確分割的像素點(diǎn)數(shù)目);nij代表類別為i的像素點(diǎn)數(shù)目被預(yù)測為類別j的像素點(diǎn)數(shù)目;nji代表類別為j的像素點(diǎn)數(shù)目被預(yù)測為類別i的像素點(diǎn)數(shù)目;N表示類別數(shù)。另外,定義IoU閾值超過0.5和0.75時(shí)的指標(biāo)AP50和AP75,如表1所示。結(jié)果表明,通過引入自下而上的特征融合路徑,增強(qiáng)了低層特征的作用后,對物體的分割平均準(zhǔn)確度提高了3.7%。

表1 三種分割方法測試結(jié)果對比
圖像實(shí)例分割結(jié)果如圖5所示,本文方法與Mask RCNN相比,對于大目標(biāo)的分割更加精細(xì),這是由于低層特征位置信息與高層特征融合后的作用;對于小目標(biāo)而言,由于空洞卷積核的使用,上采樣過程中圖像細(xì)節(jié)損失沒有之前嚴(yán)重,使得一些小目標(biāo)被檢測和識別,改善效果細(xì)節(jié)如圖6所示。

(a) 原圖 (b) Mask RCNN(c) 本文方法圖5 不同方法分割結(jié)果示例

(a) Mask RCNN分割細(xì)節(jié)

(b) 本文方法分割細(xì)節(jié)圖6 改善效果細(xì)節(jié)圖
本文提出一種改進(jìn)的Mask RCNN特征融合實(shí)例分割方法。通過在特征金字塔網(wǎng)絡(luò)的基礎(chǔ)上引入一條自下而上的特征融合路徑來改善全局特征,有效利用了低層次特征的優(yōu)點(diǎn)。在COCO數(shù)據(jù)集下的實(shí)驗(yàn)結(jié)果表明,所提方法有效提高了實(shí)例分割的準(zhǔn)確度。
由于掩膜的預(yù)測是基于單個(gè)網(wǎng)絡(luò)階段的輸出,這對于目標(biāo)尺寸差別較大的時(shí)候并沒有最佳匹配到相應(yīng)的特征層級,未來考慮將融合后的多層次特征用來自適應(yīng)目標(biāo)尺寸大小,使各個(gè)特征層次的優(yōu)勢得到有效利用。