單階段目標(biāo)檢測網(wǎng)絡(luò)的實例分割方法

2023-12-12 11:28:42戴云峰馮興明丁亞杰王瀚王慶華

應(yīng)用科技 2023年6期

戴云峰，馮興明，丁亞杰，王瀚，王慶華

1. 國網(wǎng)江蘇省電力有限公司鹽城供電分公司，江蘇鹽城 224000

2. 常州中能電力科技有限公司，江蘇常州 213000

近年來，深度神經(jīng)網(wǎng)絡(luò)在計算機視覺（computer vision, CV）領(lǐng)域的應(yīng)用已經(jīng)從圖像級別擴展到像素級別[1]。隨著深度神經(jīng)網(wǎng)絡(luò)的能力越來越強大，區(qū)分粒度也越來越細致。實例分割算法中以Mask-RCNN[2]為代表的兩階段方法遵循先檢測后分割的理念。兩階段的實例分割方法在截取到目標(biāo)實例邊界框作為感興趣區(qū)域（region of interest, RoI）時，RoI 的特征改變了原有特征的長寬比，導(dǎo)致輸入語義分割網(wǎng)絡(luò)的RoI 特征不會保留原始輸入圖像其他區(qū)域的特征，并且基于兩階段的實例分割方法由于其整個網(wǎng)絡(luò)的參數(shù)量相比單一的網(wǎng)絡(luò)更多，導(dǎo)致基于兩階段的實例分割網(wǎng)絡(luò)在訓(xùn)練階段需要更復(fù)雜的策略[3]。此類方法通常精度較高，但實時性較差。

為了解決兩階段實例分割方法中實時性較差的問題，基于單階段的實例分割方法逐漸成為了熱門的研究方向[4]。Bolya 等[5]提出的YOLCAT 網(wǎng)絡(luò)模型，在現(xiàn)有的單階段目標(biāo)檢測框架上添加了用于語義分割的掩膜分支，將實例分割任務(wù)分解為2 個并行的子任務(wù)：一是生成1 組原型掩膜；二是預(yù)測每個實例的掩膜置信度，之后將原型掩膜與其對應(yīng)的置信度線性組合得到輸出的實例掩膜。Wang 等[6]提出的SOLO 網(wǎng)絡(luò)模型將實例分割任務(wù)轉(zhuǎn)化為單純的分類任務(wù)，以目標(biāo)實例的位置與形狀作為分類依據(jù)，判斷像素是否屬于同一實例。Tian 等[7]提出的全卷積單階段目標(biāo)檢測（ fully convolutional one-stage object detection，F(xiàn)COS）網(wǎng)絡(luò)模型，以全卷積神經(jīng)網(wǎng)絡(luò)為基本架構(gòu)，采取逐像素的預(yù)測方法實現(xiàn)對目標(biāo)邊界框的檢測。同時，F(xiàn)COS 網(wǎng)絡(luò)模型是一種基于無錨點（anchor-free）的目標(biāo)檢測方法[8]，避免了在檢測錨點（anchor）框時會引入更多需要優(yōu)化的超參數(shù)以及計算量較大等問題。但是，anchor-free 目標(biāo)檢測模型的檢測頭通常是由若干卷積層堆疊而成，這種簡單的結(jié)構(gòu)設(shè)計導(dǎo)致網(wǎng)絡(luò)的特征表征能力不足，從而限制了目標(biāo)檢測的性能[9]。

針對上述問題，提出了一種基于改進FCOS 框架的實例分割網(wǎng)絡(luò)，該網(wǎng)絡(luò)能夠準(zhǔn)確地分割出目標(biāo)在圖像中的位置。本文提出的網(wǎng)絡(luò)在單階段目標(biāo)檢測框架的基礎(chǔ)上添加底層分支、頂層注意力分支以及融合模塊，融合多尺度的特征信息，獲取更為豐富的語義信息，消除冗余信息的干擾，細化分割結(jié)果，能夠更加精確地實現(xiàn)目標(biāo)物體實例分割。在MSCOCO 數(shù)據(jù)集[10]上開展的實驗及在實際場景中的定性實驗結(jié)果表明了所提出的方法的優(yōu)越性，結(jié)合自頂向下的注意力以及自底向上的局部特征不僅減少了誤檢率，也提高了分割結(jié)果的穩(wěn)定性，在融合模塊中的非極大值抑制操作抑制了冗余信息的干擾，提高了網(wǎng)絡(luò)的分割精度[11]。

1 改進的FCOS 網(wǎng)絡(luò)模型

本文提出的方法在單階段目標(biāo)檢測框架FCOS 的特征提取階段新增了一個底部分支，用于計算特征圖在像素粒度的得分；在FCOS 框架的主干（Head）模塊后添加了一個頂層注意力分支，用于計算FCOS 框架特征金字塔每一層輸出邊界框內(nèi)的全局注意力特征圖；最后設(shè)計一個融合模塊融合底層分支和頂層分支的特征圖并輸出最終的實例分割預(yù)測結(jié)果。所提出的網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。

如圖1 所示，底層分支的輸入既可以是FCOS 框架骨干網(wǎng)絡(luò)的輸出特征圖Ci，也可以是特征金字塔的輸出特征圖Pi。頂層注意力分支的輸入為FCOS 框架的Head 模塊，其在Head 模塊的輸出上添加了1 層卷積層來預(yù)測邊界框內(nèi)每個位置的注意力得分[12]。對于每個預(yù)測的實例，融合模塊將底層分支的輸出裁剪到實例對應(yīng)邊界框的大小，并將其與注意力分支的輸出線性組合。

1.1 底層分支與頂層分支

如圖1 所示，底層分支是在FCOS 框架的骨干網(wǎng)絡(luò)或者特征金字塔之上引申出來的，本節(jié)以B表示底層分支的輸出。B的大小為N×K×其中N為批次（batch size）大小，K為B的數(shù)量，H、W分別為底層分支輸入特征圖的高度和寬度大小，S為底層分支中卷積層的步長。

頂層注意力分支是在FCOS 框架的Head 網(wǎng)絡(luò)之后添加了1 層卷積層用以預(yù)測目標(biāo)檢測邊界框內(nèi)的注意力圖，該分支的輸出表示為A。假定FCOS 框架Head 網(wǎng)絡(luò)的第l層輸出大小為Hl×Wl，則頂層注意力分支在每個位置的注意力圖的大小為N×(K×M×M)×Hl×Wl，其中M×M為注意力圖的分辨率。

頂層注意力分支的注意力圖能夠?qū)COS 框架預(yù)測的目標(biāo)檢測框內(nèi)實例的粗略形狀以及姿態(tài)信息進行編碼，頂層注意力分支卷積層輸出大小為Hl×Wl的K×M×M通道特征圖。在輸入融合模塊之前，對頂層注意力分支的特征圖應(yīng)用FCOS 框架的后處理操作挑選出D個目標(biāo)檢測邊界框及其對應(yīng)的注意力圖FCOS 框架的后處理操作為非極大值抑制（non-maximum suppression, NMS）[13]方法，其作用是消除目標(biāo)檢測方法中對于同一個物體冗余的預(yù)測框。

1.2 融合模塊

融合模塊的輸入來自底層分支的特征圖B、頂層注意力分支的注意力圖A及其對應(yīng)的預(yù)測邊界框O。首先利用Mask-RCNN 中的感興趣區(qū)域池化（region of interest pooling，RoIPool）操作將特征圖B裁剪到與預(yù)測邊界框O相同的尺寸，輸出固定大小為R×R的特征圖，該過程表示如下：

圖2為RoIPool 操作的示意圖，其可以總結(jié)為以下3 個步驟。

圖2 RoIPool 操作示意

1）輸入為特征圖B以及目標(biāo)檢測的邊界框O，將邊界框O映射回特征圖B上的對應(yīng)RoI區(qū)域；

2）對映射后的RoI 區(qū)域劃分為大小相同的網(wǎng)格；

3）在劃分后的網(wǎng)格內(nèi)應(yīng)用最大池化操作。

具體到本文提出的方法中，在訓(xùn)練階段使用真值圖（ground truth）的預(yù)測框作為RoIPool 操作的邊界框O，在前向計算階段使用目標(biāo)檢測網(wǎng)絡(luò)輸出的預(yù)測框作為RoIPool 操作的邊界框O。處理完特征圖B和預(yù)測邊界框O后需要將注意力圖A也統(tǒng)一至同樣的尺寸R×R，通常來說注意力圖A的尺寸M×M小于R×R，因此這里需要對注意力圖A進行插值：

接著對插值后的注意力圖a′

d的K個通道施加softmax 激活函數(shù)對其進行正則化，得到一組注意力得分圖sd：

最后對RoIPool 操作的輸出rd和式（1）的注意力得分圖sd在K個維度上逐像素點乘，得到掩膜圖md：

2 實驗結(jié)果與分析

本文算法在MSCOCO[10]數(shù)據(jù)集上進行多種對比實驗以及消融實驗，并在實際場景中全面評估提出的實例分割方法。實驗數(shù)據(jù)集選擇MSCOCO 2017 實例分割數(shù)據(jù)集，該數(shù)據(jù)集包含123 000 張圖像，涉及80 個類別標(biāo)簽。提出的網(wǎng)絡(luò)模型選擇train 2017 子集作為訓(xùn)練集，包含115 000 張訓(xùn)練圖像。消融實驗選擇val 2017 子集作為評估模型的驗證集，包含5 000 張圖像。最終在test-dev 子集上評估提出方法的性能，選擇平均精度（average precision，AP）[14]作為評價指標(biāo)。MSCOCO 2017數(shù)據(jù)集對AP 按照交并比（intersection over union，IoU）[15]和目標(biāo)尺寸大小將AP 細分為RAP、RAP,50、RAP,75以及RAP,S、RAP,M、RAP,L。其中RAP,50表示只統(tǒng)計IoU 大于50%的AP，RAP,75表示只統(tǒng)計IoU 大于75%的AP。RAP,S、RAP,M和RAP,L分別表示小尺寸目標(biāo)、中等尺寸目標(biāo)以及大尺寸目標(biāo)的AP。

具體來說，提出的網(wǎng)絡(luò)模型選擇ResNet-50[16]作為特征提取的骨干網(wǎng)絡(luò)，選擇DeepLabV3+的解碼器作為底層分支的網(wǎng)絡(luò)結(jié)構(gòu)。在訓(xùn)練階段的batch size 設(shè)置為8，初始學(xué)習(xí)率設(shè)置為0.01。

2.1 對比實驗

本文方法在MSCOCO[10]數(shù)據(jù)集的test-dev 子集上全面評估提出的方法并與Mask-RCNN[2]、PolarMask[17]、YOLACT[5]以及TensorMask[18]這4 種方法進行對比。本文提出的網(wǎng)絡(luò)模型超參數(shù)的設(shè)置為：融合模塊特征圖大小R=56，底層分支輸出特征圖的通道數(shù)K=4，頂層注意力圖大小M=14。插值方法選取雙線性插值，底層分支的輸入為FCOS 框架特征金字塔的P3層和P5層。

本文提出的網(wǎng)絡(luò)模型將訓(xùn)練集增加至270 000張圖像，采取多尺度訓(xùn)練策略以降低訓(xùn)練難度。表1 為對比實驗的實驗結(jié)果。在表1 中，所評估的方法分別在2 種骨干網(wǎng)絡(luò)下進行了對比，R-50 表示骨干網(wǎng)絡(luò)為ResNet-50[16]，R-101 表示骨干網(wǎng)絡(luò)為ResNet-101[19]。表1 表明本文算法在MSCOCO 數(shù)據(jù)集上取得了超越所有對比算法的性能，同時運算時間短于除YOLACT 以外的所有方法。

表1 不同實例分割方法的定量對比實驗結(jié)果

除了在MSCOCO[10]數(shù)據(jù)集上評估本文所提出的方法，還在實際場景下進行了定性實驗。在定性實驗中選取9 個場景，將提出的方法與Mask R-CNN[2]方法進行對比，圖3 為實驗結(jié)果。

圖3 實際場景下的定性實驗結(jié)果

與Mask R-CNN 方法相比，本文提出的方法誤檢率更低，例如圖3 的場景4 中的雨傘，Mask R-CNN 方法將其檢測為“stop sign”；在圖3 的場景7 中，Mask R-CNN 方法對同一個斜挎包檢測出2 個目標(biāo)框；在圖3 的場景9 中，Mask RCNN 方法將摩托車背后的樹檢測成了“人”。

同時，雖然本文方法存在個別的漏檢目標(biāo)，例如圖3 場景1 中的凳子以及場景2 中的手提箱，但是相比于Mask R-CNN 方法來說穩(wěn)定性更高。本文方法在目標(biāo)檢測框的預(yù)測方面更加穩(wěn)定的原因在于提出的方法結(jié)合自頂向下的注意力以及自底向上的局部特征，而在融合模塊中采取了非極大值抑制的后處理操作，抑制了頂層分支注意力圖中概率較小的目標(biāo)檢測框。

2.2 消融實驗

本文提出的網(wǎng)絡(luò)模型由FCOS 目標(biāo)檢測網(wǎng)絡(luò)、底層分支、頂層注意力分支以及融合模塊4 個部分組成。FCOS 目標(biāo)檢測網(wǎng)絡(luò)的超參數(shù)與其論文保持一致，底層分支的超參數(shù)包括底層分支輸出的通道數(shù)K以及底層分支的輸入來源于FCOS 目標(biāo)檢測框架的特征提取骨干網(wǎng)絡(luò)還是特征金字塔部分。頂層分支的超參數(shù)為注意力圖的分辨率M，融合模塊的超參數(shù)包括RoIPool 操作的輸出維度R以及注意力圖上采樣的方法選擇最近鄰上采樣方法還是雙線性上采樣方法。文中進行了大量的消融實驗研究不同超參數(shù)的組合對網(wǎng)絡(luò)性能的影響。

對于底層分支輸出特征圖的通道數(shù)K，設(shè)置一組對比實驗分別將K的值設(shè)置為1、2、4、8。表2為該組對比實驗的實驗結(jié)果，實驗結(jié)果表明當(dāng)K取4 時網(wǎng)絡(luò)模型能夠達到最優(yōu)性能。

表2 超參數(shù)K 的對比實驗%

接下來設(shè)計一組對比實驗研究頂層注意力圖的分辨率M和融合模塊RoIPool 操作的輸出大小R的選取。由于超參數(shù)M與R的設(shè)置與K相關(guān)，具體來說當(dāng)K設(shè)置為4 時，M和R的上采樣比例應(yīng)當(dāng)大于4。因此設(shè)計的對比實驗選取了4～14 的4 種不同上采樣比例，RoIPool 操作按照輸出大小R設(shè)計了28 和56 這2 組對照實驗，表3為實驗結(jié)果。實驗結(jié)果表明隨著注意力圖分辨率M的增加，在上采樣的過程中能夠合并更詳細的實例信息，而網(wǎng)絡(luò)的總體耗時基本保持不變。因為注意力圖來自頂層分支，本身包含有限的細節(jié)信息，所以當(dāng)注意力圖分辨率M增大到P的1/4 時，邊際效應(yīng)越來越明顯。

表3 超參數(shù)M 和R 的對比實驗

由于大小為M×M的頂層注意力圖需要上采樣到R×R才能與融合模塊的特征圖進行融合，因此上采樣的方法也會對網(wǎng)絡(luò)模型的性能產(chǎn)生影響。為了研究上采樣方法對網(wǎng)絡(luò)性能的影響，本節(jié)設(shè)置最近鄰和雙線性這2 種插值方法的對比實驗。實驗結(jié)果顯示在表4 中，實驗結(jié)果表明雙線性插值方法比最近鄰插值方法在平均精度上提升了0.2%。

表4 最近鄰上采樣與雙線性上采樣的對比實驗

為了研究底層分支的輸入對網(wǎng)絡(luò)整體性能的影響，設(shè)置2 組不同輸入來源的對比實驗。底層分支的輸入來源有2 種：一種是FCOS 目標(biāo)檢測框架特征提取的骨干網(wǎng)絡(luò)，在本節(jié)具體為ResNet-50 網(wǎng)絡(luò)的輸出；另一種底層分支的輸入來源是FCOS 目標(biāo)檢測框架的特征金字塔，表5 為這組對比實驗的實驗結(jié)果。在表5 中，與圖1 對應(yīng)，第1 行表示底層分支的輸入為FCOS 框架骨干網(wǎng)絡(luò)的C3層和C5層，第2 行表示底層分支的輸入為FCOS 框架特征金字塔的P3層和P5層。表5 表明以特征金字塔作為底層分支的輸入來源能夠在提高網(wǎng)絡(luò)精確度的同時減少耗時。

表5 底層分支不同輸入來源的對比實驗

3 結(jié)束語

針對單階段實例分割方法網(wǎng)絡(luò)的特征表征能力不足問題，本文提出一種基于改進FCOS 的實例分割方法，該方法在FCOS 網(wǎng)絡(luò)架構(gòu)的基礎(chǔ)上增加了底層分支、頂層注意力分支及特征融合模塊，以便更好地結(jié)合局部空間位置特征和全局語義信息，提高檢測的精度和穩(wěn)定性。在MSCOCO 數(shù)據(jù)集上的實驗結(jié)果表明，本文方法相比兩階段實例分割方法不僅提高了分割精度而且降低了運算時間；在實際場景下的定性實驗同樣顯示了本文方法的有效性。下一步將研究在網(wǎng)絡(luò)結(jié)構(gòu)中增加邊緣信息以提高本文算法的分割精度。