劉宇軒,孟凡滿,李宏亮,楊嘉瑩,吳慶波,許林峰
(電子科技大學 信息與通信工程學院,成都610000)
小樣本語義分割旨在使用少量有標注的圖像對新類目標進行分割,其關鍵問題之一是如何提取支持圖像(有標注的圖像)和查詢圖像(待分割的無標注圖像)的相似關系,實現先驗知識的遷移?,F有的小樣本分割方法[1-5]常被建模為兩分支卷積神經網絡,分別是支持分支和查詢分支。支持分支提取支持圖像的分割先驗,查詢分支則用于提取查詢圖像在嵌入空間中的特征,根據支持分支的分割先驗,構建兩者之間的相似關系,實現對查詢圖像的分割。
然而,現有的方法通過單獨考慮圖像的全局線索或者局部線索構建支持圖像和查詢圖像的相似關系。例如,一些方法[1-2,6-8]只考慮了全局線索,而忽略了蘊含細節信息的局部線索,使得模型難以實現細節的準確分割。另一方面,一些方法如LTM[3]只考慮了局部線索,忽略了攜帶有豐富語義信息的全局線索,導致模型的通用性和泛化性受限。綜合兩者的優劣,本文將全局線索和局部線索相結合,克服彼此的缺點,使得兩者相互促進,獲得更優的分割結果。
基于上述分析,在建模支持圖像分割先驗和查詢圖像特征之間的關系時,本文同時考慮了支持圖像的全局線索和局部線索。具體地,本文提出了一個新的注意力譜生成器,根據支持圖像和查詢圖像之間的關系,更準確地輸出查詢圖像的注意力譜。注意力譜生成器包含2個級聯的模塊:全局引導器和局部引導器。全局引導器對特征間的全局相似性進行構建,局部引導器建模特征間的局部相似性。本文提出一種新的基于指數函數的全局相似性度量方式,可以對查詢圖像特征中與支持圖像全局分割先驗相似的部分進行增強,同時對不相似的部分進行削弱,更有效地對全局相似性進行度量。受到LTM[3]的啟發,基于局部關系矩陣,使用局部引導器對局部相似性進行建模,從而得到與類別無關的注意力譜。將全局引導器和局部引導器進行級聯,實現了全局相似性和局部相似性的融合。在Pascal-5i數據集上對所提方法進行實驗驗證,所提方法在1-shot設定下mIoU達到59.9%,5-shot設定下mIoU達到了61.9%,均優于現有方法。
本文所作出的貢獻如下:
1)提出了一種新的小樣本分割模型,在進行關系建模時,同時考慮了支持圖像的全局線索和局部線索,通過同時使用特征之間的全局相似性和局部相似性實現更準確的分割。
2)在進行全局相似性建模時,提出了一種新的基于指數函數的全局相似性度量方式,能夠更有效地建模全局相似性。
3)在Pascal-5i數據集上進行了實驗驗證。所提方法優于最新的對比方法(在1-shot設定下mIoU達到了59.9%,5-shot設定下mIoU達到了61.9%)。
小樣本學習旨在使用少量樣本,學習可以遷移到未知類別的知識,進而實現未知類目標識別的泛化?,F有的小樣本學習方法可以分為3類:基于模型微調的方法[9]、基于圖模型的方法[10]、基于度量學習的方法[11-12]。基于模型微調的方法使用少量新類樣本,對模型的參數進行微調?;趫D模型的方法建立支持樣本和查詢樣本之間的圖模型,對新類樣本進行識別?;诙攘繉W習的方法度量支持樣本和查詢圖像之間的距離,繼而識別新類樣本。目前,小樣本學習已在圖像分類、圖像分割等領域得到了廣泛的關注。
語義分割對圖像中每個像素點所屬類別進行預測?;谌矸e網絡(FCN)[13],研究人員提出了一系列語義分割方法[14-18],并驗證了其有效性。為了得到含有豐富語義信息的特征表達,全卷積網絡大量使用池化、跨步長卷積等操作,從而降低特征的分辨率,豐富特征的語義信息。不僅如此,為了提高感受野,DeepLab[15]使用空洞卷積。然而,現有的語義分割方法不能對未知類目標分割進行泛化,因此,研究者提出小樣本分割任務,旨在使用少量有標注實現未知類目標的有效分割。
小樣本分割旨在使用少量有標注的圖像對新類目標進行分割?,F有的小樣本分割方法根據其思路可以分為3類:基于度量學習的方法[1-3]、基于元學習的方法[4-5]、基于原型學習的方法[6-7]。基于度量學習的方法[1-3]建模支持圖像和查詢圖像之間的相似性,通過遷移支持圖像分割先驗實現查詢圖像的分割?;谠獙W習的方法[4-5]利用支持分支提取的信息預測查詢圖像的分類器權重,進而實現查詢圖像的分割?;谠蛯W習的方法[6-7]將支持圖像的前景和背景分別映射為2個原型先驗,然后使用距離最近的原則對查詢圖像進行分割。其中,基于度量學習的方法被廣泛應用到小樣本分割的任務中,并且取得了良好的效果。本文方法采用度量學習的思路進行建模。
文獻[19]對融合小樣本學習和零樣本學習相關方法進行綜述,主要介紹了當前小樣本學習和零樣本學習的一些主流方法。文獻[20]將小樣本學習與域遷移結合,應用于跨域人臉欺詐檢測中。文獻[21]利用度量學習的思路,提出了一種基于小樣本學習的零器件表面缺陷檢測的方法。文獻[22]將小樣本學習應用于點云分類中,提出了一種基于遷移學習的點云分類方法。文獻[23]提出了一種基于已知類權重生成未知類權重的方法,有效地避免了小樣本學習中災難性遺忘的問題。
對于未知類數據Dtest,小樣本分割網絡致力于提取未知圖像的前景區域。通常,分割網絡在有標注的已知類數據集Dtrain上進行訓練,其中Dtrain和Dtest中的圖像類別沒有交集。具體地,小樣本分割將Dtrain分為支持訓練集和查詢訓練集。
對于k-shot設定,從支持集合的支持訓練集和查詢訓練集中隨機采樣k張支持圖像及其對應的二值掩膜進行訓練。測試階段,小樣本網絡則根據輸入的k張支持圖像及其對應的二值掩膜對未知的查詢圖像進行分割。
本文提出一種新的小樣本分割網絡,致力于通過全局和局部線索對特征之間的關系建模以生成更精確的注意力譜。最終實現查詢圖像前景部分的增強和背景部分的削弱。
本文方法框架如圖1所示,所提網絡共包括4個步驟:
步驟1 將支持圖像和查詢圖像輸入到特征提取器CNN中,得到支持圖像特征Fs和查詢圖像特征Fq。

圖1 本文方法總體框架Fig.1 General framework of proposed method
步驟2 為了濾除Fs的背景部分,接著將下采樣后支持圖像掩膜Ms和Fs相乘,得到的F′s只包含支持圖像的前景信息。
步驟3 將F′s、Fq以及Ms輸入到基于全局和局部相似性度量的注意力譜生成器中,構建與類別無關的注意力譜att,以突出查詢圖像的前景區域。
步驟4 將att與另一查詢圖像特征F′q相乘,并輸入到上采樣網絡,得到最終的預測結果P。
所提網絡的核心是注意力譜生成器,其基于全局和局部相似性。對注意力譜att進行構建,其由2個級聯的模塊組成:全局引導器和局部引導器。全局引導器用于對特征之間的全局相似性進行度量。局部引導器則建模局部相似性。在全局引導器方面,提出了一種新的基于指數函數的全局相似性度量方式,可以對查詢圖像特征中與支持圖像先驗相似的部分進行增強,同時對不相似的部分進行削弱,更好地進行全局相似度量。在局部引導器方面,受到方法LTM[3]的啟發,基于局部關系矩陣,使用局部引導器對特征的局部相似性進行建模,從而得到最終與類別無關的注意力譜。
本文基于全局和局部相似性對注意力譜att進行構建,具體如圖2所示。具體思路是:將F′s和Fq映射到同一個嵌入空間,在嵌入空間中對全局和局部相似性進行建模,最終生成與類別無關的注意力譜。
具體地,F′s和Fq被輸入到一個嵌入模塊E中,分 別 得 到 嵌 入 特 征φs=E(F′s)和φq=E(Fq)。然后,利用全局引導器,對φs和φq的全局相似性進行建模,實現φq與φs中全局信息相似的部分指數型增強,生成粗糙的查詢圖像特征φ′q。接著利用局部引導器對φs和φ′q中的每個空間位置之間的關系進行度量。通過將Ms、φs和φ′q輸入局部引導器中,得到最終與類別無關的注意力譜att。
現有的基于全局相似性度量的方法計算查詢圖像特征的每個空間位置與支持圖像全局分割先驗的余弦距離。然而,該方法將導致查詢圖像特征中前景部分和背景部分的可區分度較差的問題。針對上述問題,提出了一種新的全局引導器,如圖3所示。

圖3 全局引導器的細節結構Fig.3 Detailed structure of global guider
2.4.1 全局余弦相似性
按照式(1),對φs進行全局平均池化,獲得支持圖像全局分割先驗vecs。進一步,按照式(2),計算φq每一個空間位置與vecs的余弦距離,進而獲得能夠表征φs與φq之間全局余弦相似度的余弦相似譜S。Si的值越高,表示當前位置i的局部特征φq,i與vecs越相似。

式中:h為矩陣的高度維度大小;w為矩陣的寬度維度大小。

2.4.2 基于指數函數的全局相似性度量
由于S的值域為[-1,1],本文期望對S值越高的部分進一步增強,對S值越低的部分進行削弱,從而得到一個新的可以表征距離的相似譜?;谏鲜龇治?,提出一種基于指數函數的全局相似性度量方式。具體地,基于式(3),增強了與vecs相似的查詢圖像特征,削弱了與vecs不相似的查詢圖像特征。

式中:λ為超參數。

在實驗中,將λ設為10、20、40,分別獲得attg1=10S、attg2=20S、attg3=40S。進而對attg1、attg2、attg3取平均,得到如式(4)所示的attg,其表征了全局相似性度量。

基于上述原理,獲得了基于全局相似性度量的注意力譜attg,其對查詢圖像特征中與支持圖像全局分割先驗相似的部分進行增強,同時對不相似的部分進行削弱。
因此,如圖3所示,根據式(5),所提全局引導器可獲得前景與背景可區分度更高的查詢嵌入特征φ′q。

式中:“?”為逐元素相乘。
為了獲得更具魯棒性的φ′q,本文在訓練階段將φ′q進行上采樣,輸出粗糙的分割結果Φ。這里使用如式(6)所示的交叉熵損失對此過程進行監督。

式中:Gi,j為查詢圖像標簽掩膜在位置(i,j)的值;Φi,j為Φ 在位置(i,j)的值。
包含豐富細節的局部線索對于目標分割任務非常重要,而局部相似性由局部線索所刻畫。受到LTM[3]的啟發,本文基于局部關系矩陣,使用局部引導器對每一對局部空間特征的相似性進行建模,從而得到最終的與類別無關的注意力譜。
2.5.1 局部關系矩陣
本文對支持圖像和查詢圖像特征之間的局部相似性進行測度。所提方法考慮類似Non-local[24]中提出的關系矩陣。給定2個特征F1和F2,其尺寸為C×H×W,度量F1和F2局部相似性的局部關系矩陣R(F1,F2)為

所得R(F1,F2)為(H×W)×(H×W)尺寸的矩陣,其中的每個元素R(F1,F2)i,j表征了局部特征F1,i和F2,j的余弦相似性。
本文的局部引導器對φ′q和φs的每一對局部特征點進行比較,根據式(7)計算局部關系矩陣R=R(φ′q,φs)。
2.5.2 基于局部關系矩陣的注意力譜構建
令Mq和Ms分別為查詢圖像和支持圖像降采樣后的掩膜。在理想情況下,式(8)成立:

在式(8)中,Mq和Ms的尺寸被調整為(H×W)×1和1×(H×W),φ′q和φs分別調整尺寸為(H×W)×C和C×(H×W)。
局部引導器的目標是:根據局部相似性,構建與類別無關的注意力譜att。由于att對φ′q中的前景部分進行增強,對背景部分進行削弱,可以將其視為查詢圖像的粗糙分割結果。因此,式(8)近似為

更進一步,將式(9)的左側替換為R,得到

顯然,Ms為行滿秩矩陣,其右逆Mr-s 可根據式(11)計算:

因此,基于式(12),得到最終的注意力譜att。最后,將att調整大小為H×W。

2.5.3 局部引導器實現流程
在訓練階段,由于所提網絡的與類無關性,將所有前景類別視為“前景”一類,背景視為一類。為了獲得更具魯棒性的att,所提方法將att轉化為一個2×H×W 的概率譜ρ。具體地,由于att的值域為[0,1],將其視為前景概率譜,則1-att可視為背景概率譜。進而將att和1-att按通道維度拼接,獲得ρ=Concat(att,1-att),從而實現從注意力譜att到概率譜ρ之間的轉化。進而使用式(13)所示的交叉熵損失對其進行優化。
式中:La為 該 損 失 函 數;ρi,j為ρ在 位 置(i,j)的值。
本文的局部引導器受到LTM[3]的啟發,不同之處在于:LTM[3]僅考慮局部相似性,并且對局部關系矩陣R的構建使用L2損失函數監督。該方法的弊端有2點:①缺乏全局分割先驗的引導;②由于L2損失是逐元素計算的,缺乏結構信息。這對測試階段新類的R的構建是不利的,使得該方法的可擴展性受限。本文方法在將查詢圖像特征φ′q輸入局部引導器時,已經濾除了大量背景,不需要對R的構建進行監督,這樣使得生成的att更具魯棒性。

圖4 局部引導器的細節結構Fig.4 Detailed structure of local guider
獲得注意力譜att以后,將att與F′q相乘,獲得最終的查詢圖像特征σ′q,此時已經對其背景部分進行了有效的濾除。所提網絡將σ′q輸入到上采樣網絡中,獲得最終的預測結果P。上采樣網絡結構如圖5所示,使用了空洞空間金字塔池化(ASPP)[14]進行多尺度融合,使得結果更具魯棒性。使用式(14)對這個過程進行監督。

圖5 上采樣網絡架構Fig.5 Framework of up-sample network

式中:Pi,j為P在位置(i,j)的值。
在整個訓練階段,使用的損失函數為

在k-shot設定下,LTM[3]輸入k張支持圖像,每張支持圖像與查詢圖像建模局部關系,分別生成k個注意力譜[att1,att2,…,attk],進而將其平均化,得到最終的注意力譜att。其弊端在于平均化的過程中丟失了部分局部線索,使得注意力譜更加粗糙。為了更好地實現對全局相似性和局部相似性的結合,提出一種新的基于拼接的k-shot分割方案。

所提k-shot方案優點在于建模局部相似性時,對查詢圖像特征與k個支持圖像特征每個點的余弦距離進行測度,避免了局部信息的丟失,能夠生成更精細的注意力譜att。
為了驗證方法的有效性,在Pascal-5i數據集上進行了實驗驗證,使用Pytorch深度學習框架對模型構建,所有的實驗平臺為Nvidia Titan XP GPU,使用Adam優化器對所提模型參數進行優化,學習率設置為10-4。本文使用了不同的主干網絡作為特征提取器驗證性能,分別為在ImageNet[25]上預訓練的VGG16[26]、ResNet50[27]、ResNet101[27]。在訓練階段,凍結了特征提取器的參數;在測試階段,使用了多尺度策略和Dense-CRF[28]。將 查 詢 圖 像 調 整 大 小 為320×320、416×416、224×224,對提取的多尺度特征進行平均化,進而進行后續操作。
Pascal-5i是基于Pascal數據集和SBD數據集構建的。Pascal-5i數據集中一共有20類目標,按照現有小樣本分割研究的常用設置,將其分成4個子集,每個子集圖像有5類目標圖像。
數據集的劃分如表1所示。實驗階段,采用交叉驗證法,輪流將Fold0、Fold1、Fold2、Fold3作為測試集,另外3個子集作為訓練集,得到4個訓練-測試 集 為[(Fold1、Fold2、Fold3),Fold0],[(Fold0、Fold2、Fold3),Fold1],[(Fold0、Fold1、Fold3),Fold2],[(Fold0、Fold1、Fold2),Fold3]。

表1 Pascal-5i四個子集的劃分Table 1 Four subsets setting of Pascal-5i
使用了所有前景類別的平均交并比mIoU作為評價指標,這個指標被廣泛地運用于小樣本分割任務評價中。mIoU值越高,模型的性能越好。
同時,也使用前景交并比和背景交并比的平均值FB-IoU作為參考指標。
3.4.1 不同主干網絡下的對比實驗
由于不同主干網絡對模型性能有較大的影響,為了保證公平性,分別使用不同的主干網絡,和其他現有方法進行對比,mIoU對比結果如表2及表3所示,表中最佳實驗結果加粗。

表2 不同主干網絡下,本文與現有方法的1-shot對比實驗mIoU結果Table 2 Comparative experimental results(m IoU)of proposed method and existing methods under 1-shot setting using differ ent backbone networ ks %

表3 不同主干網絡下,本文與現有方法的5-shot對比實驗m IoU結果Table 3 Comparative experimental results(mIoU)of proposed method and existing methods under 5-shot setting using different backbone networks %
表2與表3實驗結果表明,所提方法使用不同的主干網絡,在1-shot設定和5-shot設定下實驗mIoU結果均優于現有方法。
同時,本文進一步在FB-IoU指標下,與其他現有方法進行對比。表4和表5分別列出了在1-shot和5-shot設定下,所提方法與其他現有方法的FB-IoU對比實驗結果,表中最佳實驗結果加粗。由表4可以看出,所提方法使用不同的主干網絡,在1-shot設定下結果均優于現有方法。表5的5-shot實驗結果也充分說明了所提方法的有效性。

表4 不同主干網絡下,本文與現有方法的1-shot對比實驗FB-IoU結果Table 4 Comparative experimental results(FB-IoU)of proposed method and existing methods under 1-shot setting using different backbone networks %

表5 不同主干網絡下,本文與現有方法的5-shot對比實驗FB-IoU結果Table 5 Comparative experimental results(FB-IoU)of proposed method and existing methods under 5-shot setting using different backbone networks %
3.4.2 全局相似性度量對比實驗
為了驗證所提出的全局相似性度量方式的有效性,進一步將模型中全局相似性度量方式替換為余弦距離(SG-One[1]中提出)和通道維度拼接的方式(CANet[2]中提出)。并且為了消除局部引導器對實驗結果的影響,本節實驗僅僅保留全局相似性建模,即僅保留了全局引導器。本節使用ResNet50作為主干網絡,對3種全局相似性度量方式進行了對比,mIoU結果如表6所示,表中最佳實驗結果加粗??梢钥闯?,表6所示實驗結果證明了本文提出的全局相似性度量方式的有效性。

表6 全局相似性度量方式的對比實驗m IoU結果Table 6 Comparative experimental results(mIoU)of global similarity metric %
3.4.3 k-shot設定下的對比實驗
為驗證本文k-shot設定方案的有效性,在5-shot設定下,對方法LTM[3]中平均化注意力譜的方式和所提k-shot方案進行對比,對比實驗mIoU結果如表7所示,表中最佳實驗結果加粗。表7所示實驗結果證明了所提k-shot方案的有效性。

表7 5-shot設定方案對比實驗mIoU結果Table 7 Comparative experimental results(mIoU)under 5-shot setting %
3.5.1 全局引導器和局部引導器的消去實驗
本文提出了2個級聯的模塊:全局引導器和局部引導器。為了驗證這2個模塊的有效性,在1-shot和5-shot設定下,使用ResNet50作為主干網絡,進行了消去實驗。實驗測得mIoU結果如表8所示,表中最佳實驗結果加粗。
從表8可以看出,當單獨使用全局引導器時,模型效果最差,這是因為僅使用全局引導器時,缺少了局部細節的刻畫。單獨使用局部引導器時,模型性能略有提升,其原因是局部細節的刻畫更加豐富,不足之處在于缺少全局信息的引導。當同時使用全局引導器和局部引導器時,模型的性能較好,此時模型已經充分結合了全局相似性和局部相似性。

表8 全局引導器和局部引導器的消去實驗mIoU結果Table 8 Ablation exper imental results(mIoU)of global guider and local guider %
3.5.2 損失函數的消去實驗
所提方法使用的損失函數L包含3項:Lseg、La和Lseg0,Lseg為整體損失函數的核心,用于監督最終預測結果的生成。因此,實驗中始終保持Lseg,對其余2項進行消去實驗。使用ResNet50作為主干網絡,在1-shot和5-shot設定下,進行本節的消去實驗,實驗的mIoU結果如表9所示,表中最佳實驗結果加粗。
可知,當本文同時使用3項損失函數時,所提模型性能較好。

表9 損失函數的消去實驗mIoU結果Table 9 Ablation experimental result(mIoU)of loss function %
3.6.1 分割效果較好的可視化結果
進一步列出了部分高質量的分割結果,如圖6所示??芍?,由于結合了全局和局部線索,本文方法對輪廓的刻畫較為精細。

圖6 部分分割效果較好的可視化結果Fig.6 Some visualized high-quality segmentation results
3.6.2 分割效果較差的可視化結果
對于分割效果較差的圖片,也進一步展示了部分典型代表,并且對其分割失敗原因進行分析。部分分割效果較差的可視化結果如圖7所示。
對于第1行可視化結果,由于查詢圖像的目標存在遮擋,且查詢圖像與支持圖像外表差異較大,所提方法對其不能很好地進行分割。對于第2、3行可視化結果,查詢圖像中含有貓、狗2類目標,由于貓和狗的類間差異較小,所提網絡將其視為一類目標進行分割。這是小樣本分割的難點,也是將來進一步研究的重點。

圖7 部分分割效果較差的可視化結果Fig.7 Some visualized low-quality segmentation results
本文提出了一種新的小樣本分割模型,在構建注意力譜時,有效地結合全局相似性和局部相似性。該注意力譜生成器包含2個級聯的模塊:全局引導器和局部引導器。全局引導器用于建模特征間的全局相似性,局部引導器用于建模特征間的局部相似性。具體來說,在全局引導器中,提出了一種新的全局相似性度量,對查詢圖像特征和支持圖像全局分割先驗進行關系建模,更有效地輸出前景增強、背景削弱的查詢圖像特征。進一步通過引入基于局部關系矩陣的局部引導器,所提方法對支持圖像特征和查詢圖像局部特征之間的相似性進行建模,最后得到與類別無關的注意力譜。Pascal-5i數據集的實驗驗證了所提方法的有效性。