陳瓊,楊詠,黃天林,馮媛
華南理工大學,計算機科學與工程學院,廣東 廣州 510006
語義分割作為計算機視覺的基本任務之一,廣泛應用于醫學圖像識別、自動駕駛、地質勘探等領域[1-2]。使用卷積神經網絡能極大地提高語義分割的性能。基于卷積神經網絡的語義分割模型需要大量具有像素級別標注的數據,獲取大量的、高質量的像素級別標注數據費時費力,限制了語義分割在很多領域的應用。為了緩解語義分割模型需要大量標注數據的壓力,研究通過使用少量的帶標注樣本完成語義分割任務的小樣本語義分割問題被提出并受到廣泛關注[3]。
小樣本語義分割,也稱小樣本分割(Few-shot semantic segmentation, FSS)。小樣本分割主要采用基于度量的元學習方法進行[4-5]。利用度量的思想,使用度量工具(例如,余弦相似度、卷積等)度量少量帶標簽樣本特征和待分割圖片特征在高維空間的距離,為待分割圖片中的每個像素點做出預測。目前基于元學習的小樣本分割方法占據主導地位,僅有少數研究工作摒棄元學習的辦法[6]。本文對當前基于元學習的小樣本分割研究工作做了歸納與整理,并在此基礎上依據度量工具的不同將小樣本分割方法劃分為基于參數結構的小樣本分割方法和基于原型結構的小樣本分割方法,分析比較了這兩類小樣本分割方法的性能,介紹了這些方法的應用場景。最后,通過分析目前小樣本分割算法存在的主要問題,給出了將來可能的發展趨勢與展望。
深度學習方法在很多領域都獲得了成功,然而其局限性也在大量計算資源及數據的使用中暴露出來。元學習(meta learning)提供了另一種范式,在這種范式中,機器學習模型通過多個學習階段獲得經驗,并利用這種經驗來提高其未來的學習性能。元學習或者稱為“學習如何學習”(learning to learn),是在多個學習任務中改進一個學習算法的過程。“學習如何學習[7-8]”就是使模型可以利用以往的知識經驗來指導新任務的學習,具有學會學習的能力。在元學習中,通過一批訓練任務訓練元學習算法,算法在被訓練解決這些任務的過程中得到的經驗被用于解決最終的任務T。
采用元學習方法,模型先在大量易獲得的、帶標注的數據集上構造一批訓練任務,訓練模型學習如何解決實現某類任務,如圖像分類[9-10]、語義分 割[11-12]、目標檢測[13-15]等。元學習方法構造的學習任務集是利用極少樣本學習的任務,因此這種方法被廣泛應用于小樣本學習任務,包括小樣本語義分割。
當前的小樣本語義分割方法的一般訓練步驟如下:首先,在訓練和測試時都是以小樣本任務為基本單位,每個任務單獨劃分訓練集和測試集,也被稱為支持集和查詢集。訓練時,模型將每個任務看成一個訓練樣本,利用每個任務的支持集信息對查詢集樣本做出預測。通過在訓練階段大量小樣本任務的訓練,使得模型在測試時也能對此種小樣本任務產生比較好的預測效果。
小樣本語義分割和一般的語義分割的任務設定不同,當前小樣本語義分割任務的研究重點是兩類分割,即分割前景類別和背景類別,而一般的語義分割任務是分割出多種類別的物體。
基于元學習的小樣本分割算法設計中,引入大量訓練類別的帶標簽圖片樣本構造訓練任務集。在每個訓練任務上通過訓練階段(也被稱為meta-train)和測試階段(也被稱為meta-test)用帶標簽圖片來訓練和測試模型。這里的測試類別圖片和訓練類別圖片(也被稱為未見過類和已見過類)來自同一數據集。按照未見過類和已見過類劃分數據集 為兩個數據集,分別記為
和小樣本圖像分類任務類似,小樣本分割也采用N-Way-K-Shot的設定來為meta-train 和metatest 劃分每一個小樣本分割任務,這種情況意味著待分割類別為N類,可使用的樣本數為K。以相應的N-Way-K-Shot的形式從中分別多次采樣構成小樣本分割任務,來獲得訓練集和測試集其中表示支持集、查詢集、訓練階段和測試階段的需要抽取的批次數。每一個支持集-查詢集對組成了一個小樣本分割任務,任一支持集包含K張圖片-掩碼對作為小樣本分割任務中的帶標簽樣本信息;任一查詢集包含一個圖片-掩碼對,作為小樣本分割 任務中的待分割圖。
在語義分割領域有很多解決標注樣本數量不足的研究工作,這里匯總了這些研究方法,說明了各類方法的特點,以及和小樣本語義分割方法的區別。
1.3.1 半監督語義分割
有監督語義分割需要像素級別標記的數據,這些數據的獲取是相當昂貴和費時的。半監督語義分割利用未標記的數據,從未標記和已標記的混合樣本中學習最優分割模型,可以大大減少像素級別注釋的工作,也可以保持相當高的準確性[16-17]。區別于半監督語義分割,小樣本分割問題所需要的標注數據量遠比半監督語義分割要少,針對不同的任務,半監督語義分割模型需要提前收集大量相關數據。因而小樣本分割模型相比半監督語義分割模型更具有靈活性。
1.3.2 弱監督語義分割
弱監督學習是指,利用已知數據和其對應的弱標簽,如圖像級別標簽、邊界框標注等,訓練一個模型將數據映射到一組更強的標簽的過程,此處標簽的強弱即為標簽蘊含信息量的多少[18-19]。在語義分割任務上,常見半監督分割方法解決的是數據標注數量問題,而弱監督語義分割方法解決的是對于圖像的精細的像素級標注造成的時間人力成本問題。通過弱監督學習,可以大大減輕對像素級標簽的高度依賴性。但弱監督學習仍然需要大量弱標簽來訓練模型,而小樣本分割只需要極少的像素級標簽,便可以完成得到良好的分割結果
1.3.3 零樣本語義分割
零樣本語義分割可以說是目前語義分割領域極具挑戰性的學習方式之一。零樣本語義分割[20]將每個圖像像素分類為可見類(即帶有訓練標簽的測試類)和未見類(即沒有任何訓練標簽的測試類)。通過利用可見類訓練模型,完成對未見類的語義分割任務(狹義零樣本語義分割)或同時對已見類和未見類的分割任務(廣義零樣本語義分割)。零樣本語義分割的現行策略,是使用類別高級語義描述的嵌入讓未見類別與可見類別建立聯系,常見的思路[21]是將語言本體之間的語義相似性從一些合適的文本嵌入空間轉移到視覺表示空間。雖然同屬遷移學習范疇,零樣本語義分割更加側重于在高級語義中實現模型的知識遷移,對于新類(未見類)的樣本并沒有依賴性;而小樣本分割更加側重于對于語義信息的補充,增強模型從較少樣本中學習的能力。小樣本分割可以從零樣本分割的學習策略中加以借鑒,從而開拓新的研究思路。
自論文“One-Shot Learning for Semantic Segmentation”[3](OSLSM)提出了小樣本分割的任務后,大量優秀的工作也不斷涌現[22-27]。這些小樣本分割方法都是利用基于度量的元學習思想,根據其度量工具是否有需要學習的參數,本文將這些小樣本分割方法分為兩種類型:基于參數結構的小樣本分割模型和基于原型結構的小樣本分割模型。
基于參數結構的小樣本分割方法的一般模型如圖1 所示。這種方法通常采用卷積作為度量工具,通過在訓練集上的學習,為度量工具學習一個合適的參數配置。該方法首先利用特征編碼器(Feature Encoder)編碼查詢圖片(Query image)和支持圖片(Support image),得到特征圖,再利用特征比較模塊(Feature Comparison)將查詢圖片中的同類別特征“激活”,最后利用特征解碼器(Feature Decoder)優化前一階段的比較結果,擴大感受野,捕捉上下文信息,進而得到預測圖。

圖1 基于參數結構的小樣本分割模型Fig.1 The pipeline of parameter-based FSS method
基于原型結構的小樣本分割方法的一般模型如圖2 所示。這種辦法利用原型網絡[29]的思想,先提取類別的原型,然后使用度量函數等無參的度量工具進行度量與分類。首先通過骨干網絡(Backbone)將支持圖片和查詢圖片編碼并投影到一個高維空間,得到特征,再利用掩膜全局平均池化(Mask Average Pooling, MAP)分別從前景和背景特征提取前景原型和背景原型,原型表示在這個高維空間中的類中心。最后利用度量函數(例如:余弦函數,歐式距離)度量樣本特征與原型在高維空間的距離進行分類,得出預測圖。

圖2 基于原型結構的小樣本分割模型Fig.2 The pipeline of prototype-based FSS method
基于參數結構的小樣本分割算法利用或設計許多卷積結構來提高感受野或捕捉上下文信息和空間信息,在語義信息量大的數據集上的性能優于基于原型結構的方法。但是過多的卷積結構使模型容易出現過擬合的現象。
基于原型結構的小樣本分割算法利用無參的度量工具度量代表全局的特征原型和特征之間的距離,這種做法具有很強的解釋性、抗噪聲能力[30]。由于全局的類原型過濾掉許多干擾信息的同時也忽視許多局部信息,這種方法獲得的原型有時不能很好地指導分割,也就是基于原型結構的小樣本分割算法存在原型偏置問題[31],普遍通過解決偏置問題來提升分割性能。
基于參數結構的小樣本分割算法使用有參度量方法來比較支持集圖像特征和查詢集圖像特征,通常采用卷積網絡或全連接網絡來實現。基于參數結構的小樣本分割算法通常將骨干網絡權重固定,而對特征比較模塊和特征解碼器進行改進。例如,利用迭代更新策略[32]對特征解碼器進行優化;利用多尺度感知[33]和注意力機制[34]對特征比較模塊進行優化。
2.2.1 迭代更新預測
迭代更新預測通過連續的迭代過程,逐步對模型的預測結果進行更新。該方法[32]的靈感來源于半自動分割任務。
如圖3,Zhang 等人提出了一個類別無關的小樣本分割模型(Class-Agnostic Segmentation Networks, CANet[32])。該模型延續模型OSLSM 的雙分支結構,兩個分支是完全相同且共享權重的孿生網絡。該論文的主要創新點是提出了一個密集比較模塊(Dense Comparison Module, DCM)和迭代更新模塊(Iterative Optimization Module, IOM)來分別改進Feature Comparison 模塊和Feature Decoder 模塊。密集比較模塊的靈感來源于圖像分類中度量學習的距離函數,其作用是衡量圖片之間的相似度。迭代更新模塊則和半自動分割的思想類似。在迭代更新過程中,IOM 的輸入為DCM 的輸出或上一階段IOM 的輸出,利用多次的迭代過程,IOM 的輸出期望能不斷地被優化。為了避免過擬合,每一輪IOM 的輸出在訓練階段都會借鑒Dropout 的思想,以一定概率輸出空值。

圖3 CANet[32]模型結構Fig.3 The pipeline of CANet[32]
CANet 的分割性能相比以往的方法有了很大的提升,并且CANet 做出了以下的分析,為后續的方法奠定了基礎:(1)采用提取原型的方法來進行點對點的密集比較,并使用卷積作為度量工具,相較以往的工作,極大地提升了分割性能。(2)低層特征圖關聯一些低層特征,如色彩、線條紋理,高層特征圖關聯于具體的類別。因此,如果要將模型泛化到未見類,應使用中層特征,如提取車輪的特征,可能在檢測車類的時候發揮作用。CANet 不使用骨干網絡ResNet[35](layer1-4)的layer4 作為輸出,采用將layer2 和layer3 的輸出拼接并進行卷積操作的方式作為骨干網絡的輸出,通過這種方式合理地利用中層特征。(3)網絡直接得到的分割結果是不準確的,通過反復的迭代操作能有效地提升分割性能。(4)將骨干網絡權重固定,僅僅用來將圖片特征投影到高維特征空間。這種做法減少了學習參數的數量,緩解了模型學習壓力。
文獻[36]提出了交叉參考網絡(Cross-Reference Networks, CRNet)來改善小樣本分割的預測性能。之前的工作僅能對查詢集圖片做出預測,而CRNet不僅可以預測查詢集圖片,還能對支持集圖片做出預測。借助同時預測查詢集和支持集的對照預測機制,CRNet 能夠更好地發現兩類圖片中存在的共現特征,并利用這些特征來增強生成的圖像特征。同時,CRNet 還提出一個掩膜強化模型(Mask Reinforcement Module, MRM)來完成迭代更新策略。在最初的預測中,網絡預測一個高置信度的種子區域,這個高置信度區域(概率圖)以cache 的形式在模型中存在,在后續的操作中被用來做預測。每次預測后,模型會更新一次cache。經過多次迭代,模型便能利用多次更新的cache 進行精確的預測。在K-shot 的場景,CRNet 能夠借助文中提出的對照預測機制使用張圖片進行finetuning。實驗顯示在K-shot 領域,CRNet 的性能提升較大。
2.2.2 多尺度感知
由于語義分割任務是對圖片像素的預測任務,因此聚合多尺度信息和上下文信息能有效地提高模型的預測能力[37-39]。小樣本分割任務屬于語義分割任務的一個分支,所以小樣本分割模型的設計也考慮了聚合多尺度信息和上下文信息。
PFENet[32](Prior Guided Feature Enrichment Network)借鑒模型PSPNet[40]提出的金字塔池化,設計了FEM 模塊(Feature Enrichment Module)來聚合不同尺度的上下文信息,以達到提高分割性能的目的。同時,PFENet 也采取和CANet 相同的做法,骨干網絡權重固定并且輸出采用與CANet 一致的形式。此外,PFENet 認為高維特征(即ResNet 的layer4 輸出)仍然具有指導意義,提出使用余弦相似度來發掘支持集圖片和查詢集圖片高維特征之間的關系,用以輸出一個粗略的分割結果,記為Prior Mask。接下來,FEM 模塊聚合多尺度的支持圖片特征、查詢圖片特征和Prior Mask 來建立不同分辨率信息之間的傳遞通路,并輸出最終的分類結果,如圖4。

圖4 FEM[33]模型結構Fig.4 The pipeline of FEM[33]
PFENet 結合以往的工作和語義分割模塊對特征比較模塊和解碼模塊做了很大的優化,使得小樣本分割性能有了較大的提升,啟發了后續的一些優秀工作。模型SCL_PFENet[41](Self-Guided and Cross-Guided Learning)在PFENet 的基礎上采用一種自引導的機制來改進由于MAP 操作造成的信息損失。模型SAGNN[42](Scale-Aware Graph Neural Network)意識到多尺度信息的重要性,結合圖卷積神經網絡,將不同尺度的特征當作圖神經網絡中的一個節點,并利用注意力機制來代替PFENet 中的多尺度融合去發掘多尺度特征之間的關系。
2.2.3 注意力機制
注意力機制同樣是語義分割中常用到的方法,大量語義分割文章都利用了注意力機制[43-44]。最近的一些語義分割工作[45-47]也注意到了自注意力機制的作用,自注意力機制利用矩陣乘法,可以發現共現的特征或是從長距離依賴中捕捉上下文信息,如圖5。很多小樣本分割算法也借鑒注意力機制來設計模型。

圖5 Non-local[49]自主注意力機制結構Fig.5 The pipeline of Non-local[49] networks
模型PGNet[48](Pyramid Graph Networks)將特征 表示為圖結構,利用注意力加權的方式建立圖節點之間的關系。此外,模型BriNet[34]借鑒Non-local[49]自注意力機制,提出了IEM(Information Exchange Module)。該模塊能將查詢圖片特征和支持圖片特征作為輸入,經過自注意力機制激活,能夠發現二者的共現特征,從而得到已激活的查詢圖片和支持圖片特征。這種利用自注意力機制來完成特征比較的方法,也被后續工作所學習。SAGNN[42]設計了一種多尺度的圖神經網絡結構。其中,圖的節點之間信息傳遞過程利用BriNet 提出的IEM 模塊。在模型CMN[50](Cyclic Memory Network)的網絡設計中,同樣使用了和IEM 模塊相似的自注意力機制的結構來聚合多尺度特征之間的關系。
在最近的工作中,CWT[51](Classifier Weight Transformer)提出了一個簡單、新穎的transformer結構。該結構動態地將在支持集訓練的分類器權重遷移到查詢集圖片上做預測,有效地減少了支持集圖片和查詢集圖片之間的類內差異。另外,該網絡甚至不需要進行元訓練便可達到不錯的效果。
文獻[29]提出利用類原型與特征進行度量分類作為一種新的小樣本分類方法。其中,類原型可以看作是在某個嵌入空間(高維空間)的類中心。隨著后續一些工作[52-55]的成功,基于原型結構的網絡已經成為小樣本分割領域的重要方法。基于原型的方法通常存在原型偏置問題,目前主要采取兩種辦法來解決,分別是增強單個原型的表達能力和生成多個原型作為單個原型的補充。
2.3.1 單原型方法
如圖6,文獻[54]提出了一種原型對齊的方法以及一種用于小樣本分割的模型,原型對齊網絡(Prototype Alignment Networks, PANet)。原型對齊主要是通過添加額外的任務來完成,目的是為了提升單個原型的表達能力。在前向傳播得到查詢圖片的預測圖后,將其作為查詢圖片的偽標簽,交換支持集和查詢集的位置,再進行一次前向傳播過程得到支持圖片的預測圖,利用兩個預測圖來計算出兩個損失值便完成了原型對齊的過程。該方法不易過擬合,分割過程利用度量函數,沒有額外的參數需要學習;只在訓練階段使用原型對齊,減少了計算量,提升了測試速度。

圖6 PANet[54]的結構圖Fig.6 The pipeline of PANet[54]
另外,SimProNet[56]通過研究數據集圖片特征,發現包含同類別物體的不同圖片的背景區域仍然具有比較大的相似性,提出使用基于前景背景相似性的注意力機制來增強原型的表達能力。算法FWB[53](Feature Weighting and Boosting)在模型SG-One[52]的研究基礎上做出改進。SG-One 中利用余弦相似度得到相似度圖來指導分割,FWB 則改進這一方法,在計算余弦相似度時引入一個正則化項來提高前景特征的激活值并抑制背景特征的激活值,從而達到充分發掘原型和特征之間關系的目的。由于查詢圖片的部分特征可能并未在支持圖片中出現,因而增強單個類的表達能力只能部分解決類的偏置問題。這種方法計算量小,容易實現并能遷移到其它基于原型結構的小樣本分割算法中。
2.3.2 多原型方法
為了更好地解決原型偏置問題,部分工作提出通過生成多個局部/全局原型來補充單個全局原型的方法。文獻[31]提出了部分注意網絡(Part-aware Prototype Network, PPNet)來解決小樣本分割問題。該方法是基于原型結構的方法,通過提取特征和原型,利用度量函數對查詢圖片中的每個像素點分類。以往的基于原型結構的小樣本分割方法對每個語義類別使用一個原型來表示其在嵌入空間的類中心,但是這不足以應付類別多變的外觀和不同的場景。并且以往的方法都將支持集圖片限制在數量很小的范圍內,不能很好地捕獲豐富的、細粒度的特征。鑒于以往的小樣本分割方法存在的缺點,PPNet 使用額外的、來自測試類別的無標注圖片,利用傳統的語義分割方法SLIC[57],得到多個區域標簽掩碼,進而可以將單個類原型擴展到多個。最后,將多個局部原型與注意力機制結合,利用加權的思想來提升最后的分割性能。
模型ASGNet[30](Adaptive Prototype Learning and Allocation)認為單一的類原型會導致語義不明確并且不可避免地丟失空間信息,另外,原型數量應該根據圖片內容適應性地改變。因此,該方法先利用傳統語義分割方法SLIC 對單張支持圖片根據圖片內容適應性地提取出多個掩膜,進而得到多個局部原型。然后利用余弦相似度得到多個局部原型和查詢圖片特征之間的關系,作為引導概率圖,最后利用引導概率圖對支持特征進行引導重建。借助重建后的支持特征與查詢特征,便可利用卷積分類器得到最終的分割預測圖。算法MLC[58](Mining Latent Classes)則考慮到不同類別之間的特征聯系,利用K-means 算法生成多個局部原型,這時的原型不再表示全局的類原型,而表示局部特征原型。然后利用局部原型生成偽標簽,將使用偽標簽的分割任務作為額外任務,與正常訓練過程結合起來,通過聯合訓練,使各種類別物體的局部特征在分割中發揮作用。
使用多個原型來解決原型偏置問題后模型的性能都有比較大的提升,但是該方法的計算量和復雜性都高于單原型的辦法。此外,通過對未標注圖片加以有效利用,理論上可以消除原型偏置問題。
醫療與人們的生活息息相關,醫療圖像是臨床診斷的重要依據。醫療圖像分割是對醫療圖像進行分析,將感興趣的部分從照片中自動提取出來,是后續診斷與治療的基礎。但在醫療領域,某些病屬于特殊病例,難以收集病例資料,或是樣本的收集涉及到病人隱私,得不到醫院的支持。這些困難都是目前基于深度學習的語義分割方法在該領域的應用瓶頸。隨著深度學習的發展,小樣本分割被提出并且應用在醫療領域[59-60],大大緩解了帶標簽樣本過少引起的問題。由于醫療圖像含有較多噪聲,并且訓練樣本較少,因此目前應用在醫療領域的小樣本分割算法都采用了基于原型結構的模型。
點云是物體表面特征的大量點的集合,它是3D數據的表現形式之一[61],一般是通過3D 傳感器獲取的,如3D 激光掃描儀和3D 相機。受益于3D 掃描技術的發展,點云數據的獲取變得低成本化和高速化,這也為3D 點云技術的研究提供了基礎[62]。目前,3D 點云已經在很多領域得到應用,如自動駕駛、森林監測、增強現實和虛擬現實等。3D 點云分割在計算機視覺領域是非常基礎的一項任務,其目標是預測點云中每一個點所屬的類別。一些基于監督學習的方法[63-65]在3D 語義分割上實現了高效的性能,但這些方法都是基于大數據集的,因而可以將小樣本分割技術應用于3D 點云分割,減少點云數據獲取和數據標注的代價。在小樣本3D 點云分割中,只有少量帶標注的點云數據,在這些少量標注數據上訓練一個網絡,使用訓練好的網絡在新的點云數據上進行語義分割。
高分辨率遙感圖像,簡稱高分圖像,對土地使用、城市規劃、資源勘測等方面具有重要意義,通過對高分圖像進行語義分割,提取圖像中不同的物體,可以進一步對圖像進行分析。另外,在農業領域,利用遙感圖像分割可以監測農作物種植面積、農業病蟲害、農作物生長態勢等。高分圖像分割在多個潛在的實際應用中發揮著重要作用[66]。雖然高分圖像獲取的渠道很多,但對這些數據的標注需要投入大量的人力和物力,且周期長、效率低,這也成為限制深度學習在高分辨率遙感領域廣泛應用的一個原因。監督學習模型需要在大規模標注數據集上訓練,所以并不能很好地解決這個問題。而小樣本分割技術對數據的依賴度不高,它可以在幾個甚至沒有標注數據的情況下完成對圖像中物體的分割,這大大減少了數據獲取和標注的成本,為深度學習廣泛應用于高分辨率遙感領域提供了一個新的思路。文獻[67]中提到的遷移學習就是小樣本學習中的一種策略。
全自動駕駛是當前計算機視覺和機器人研究的主要焦點之一,不管在學術界還是工業界都受到了廣泛的關注[68]。在自動駕駛中,系統需要讓目標車始終準確地位于車道線內,這對于自動駕駛中的車道偏離和路徑規劃都具有重要的意義。因此,基于攝像頭的車道線檢測對于自動駕駛具有十分重要的意義。車道線檢測被一些現有的工作[69-70]看作多分類的語義分割任務,并且得到了比較好的解決方案。但對于世界各地復雜多變的路況,采集大量帶標簽圖片來訓練語義分割網絡是不切實際的。據我們所知,目前尚無小樣本車道線檢測的研究。由于車道線檢測是自動駕駛的第一步,針對此方面的研究是具有意義和重要的。因此,本文認為可將現有的小樣本語義分割技術與車道線檢測相結合來實現小樣本車道線檢測,在實現過程中結合車道線本身的特點(如車道線位置)來設計模型。
4.1.1 數據集
小樣本語義分割的研究主要使用三個數據集:PASCAL-5i、COCO-20i、FSS-1000。PASCAL-5i來自PASCAL VOC 2012[71]和SBD[72],共包含20 個類,平均分為4 個測試包(fold),每次選取1 個測試包中的5 類作為測試類,其它3 個包中的15 個類作為訓練類。COCO-20i來自MSCOCO[73]數據集,共有80 個類,是一個更有挑戰性的數據集。類似PASCAL-5i的劃分方法,將所有類分為4 個測試包,每個包有20 個類。FSS-1000[74]共包含1000 個類別,是專用于小樣本分割實驗的數據集,由于當前小樣本分割算法在COCO 數據集上性能仍然有較大提升空間,許多文章并未在該數據集上實驗,因此本文只列舉出前兩個數據集上的算法性能對比結果。
4.1.2 評價指標
當前的小樣本分割算法用固定的模型性能評估指標以便公平比較,主要采用前景背景交并比(Foreground-Background Intersection over Union, IoU, 也被稱為FB-IoU[22])和平均交并比(Mean Intersection over Union, MIoU[3])。先計算出每個類別l 的交并比為:其中TP,FP,FN 代表真陽性、假陽性、假陰性。假設共有n類,FB-IoU和MIoU 的計算公式均為計算FB-IoU時,只考慮前景和背景類別,n取2。計算MIoU 時,不考慮背景類別。當實驗數據集為PASCAL-5i時,n取5,為COCO-20i時,n取20。由于測試時,各測試類別圖片數量不一致,而MIoU 考慮到了多類的情形,因此對模型的性能評估更為準確。
表1、表2 分別是小樣本分割算法在數據集PASCAL-5i和COCO-20i上的性能對比。在兩個數據集上,性能最優的基于參數結構的模型均為CMN[50],性能最優的基于原型結構的模型均為SAGNet[57]。而在兩個數據集上,CMN 的one-shot 性能均高于SAGNet,分別為3.5%和4.7%。表3 是一些小樣本分割算法模型需要學習的參數量。基于參數結構的小樣本分割算法通常將骨干網絡權重固定,只訓練其它的部分,因而該類模型需要訓練的參數數量更少。

表1 小樣本分割算法在PASCAL-5i 的分割性能Table 1 Segmentation performance of few-shot algorithms on PASCAL-5i

表2 小樣本分割算法在COCO-20i 的分割性能Table 2 Segmentation performance of few-shot algorithms on COCO-20i

表3 不同小樣本分割算法的參數量Table 3 Number of learnable parameters of few-shot algorithms
由于實驗涉及的兩個數據集都包含豐富的語義信息,基于參數結構的小樣本分割模型在這種情形下更有利。一方面,有參數的度量工具更能夠發現特征之間的關系。另一方面,卷積結構的疊加可以擴大感受野,捕捉遠距離特征之間的依賴關系,獲得多尺度信息和上下文信息,這些信息對于語義分割的性能提升是有效的。而基于原型的小樣本分割模型具有更好的解釋性,更多地關注如何獲得能代表類別的高質量原型。該方法采用無參的度量函數雖然不容易過擬合,但在語義信息量大的數據集上表現不如有參數的、可學習的度量工具,而更適合醫學圖像領域[59-60]。
由于COCO-20i數據集含更多的測試類別,這使得所有的模型表現都不盡人意,但該數據集更貼近生活,具有重要的現實意義,更多的工作應該聚焦于此。
當前的小樣本分割已經取得了較大的成功,并且在多個通用數據集上表現良好,但還存在一些亟待解決的問題。
首先,目前的小樣本分割和傳統的語義分割有一些關鍵的區別。小樣本語義分割是二類分割,即區分前景類別與背景類別,而語義分割能夠一次對一張圖片分割多個類別。小樣本分割只關注區分特定類別與其他類別(除特定類別外都作為背景類)。因而,當前的小樣本分割任務并沒有完成傳統的語義分割所需要實現的內容。盡管有一些研究涉及到了多類別的情形[54],但是,相較于兩類別的情況,多類別的分割性能下降劇烈。因此,如何在保證分割效果的前提下解決小樣本分割中的多類分割問題,是一個需要探索的問題。
其次,當前的小樣本分割采用元學習的方法,抽取多個和測試任務相同的小樣本分割任務,通過在任務集上訓練模型,讓網絡學習如何解決此類任務。但使用基于卷積網絡的模型時,訓練好的網絡會更多地關注訓練類別的關鍵特征,使得模型泛化性能變差,造成在新任務上的性能下降。如何減少在新任務上模型對于已見過類別的偏置,是需要深入探討的問題。
最后,當前的模型要求訓練數據集和測試數據集是同一分布,否則分割性能會受到損害,這就對訓練數據規模和質量又提出了新的要求。假如使用易于獲得的數據集構造訓練任務集訓練的模型,對任意數據集上的新任務都能獲得比較好的性能也將是一個令人振奮的結果,即可以考慮小樣本分割的跨域場景。
本文對當前的小樣本分割研究工作做了歸納和總結,依據不同小樣本分割算法使用的度量工具,將這些算法分為基于參數結構的模型和基于原型結構的模型。基于參數結構的模型通常使用可學習的度量工具來度量特征之間的關系,而基于原型結構的模型使用無參分類器來度量特征之間的關系。針對不同類型的算法,本文分析了各自的優缺點和性能,指出了當前算法的優化的方向。最后,針對當前小樣本分割算法存在的不足,分析了小樣本分割算法面臨的挑戰和關鍵問題,以及將來可能的研究問題。總的來說,語義分割是對圖片內容的解析,是大量圖像識別工作的基礎。但是由于獲取大量帶標簽的樣本在很多場景下都是困難的,所以小樣本分割能夠解決語義分割在這些場景下的窘境,具有很高的研究價值。
利益沖突聲明
所有作者聲明不存在利益沖突關系。