張玲玲 陳一葦 吳文俊 魏筆凡 羅 炫 常曉軍 劉 均
1(西安交通大學計算機科學與技術學院 西安 710049) 2(皇家墨爾本理工大學計算技術學院 澳大利亞墨爾本 3000)
近年來,基于大規模監督的深度神經網絡在計算機視覺領域取得突飛猛進的發展.然而,在現實世界中,視覺數據的分布呈現顯著的長尾效應,即很多視覺類僅包含少量的樣本可供訓練,這為計算機視覺的持續發展帶來挑戰[1].不同于深度神經網絡,人總是可以從極少的樣本中學習到這類樣本的特點[2].例如,我們在只見過幾次斑馬后,就能認識到“斑馬是一種身上有斑紋的馬”.受此啟發,小樣本學習(few-shot learning, FSL)被提出用以完成僅有幾個標注樣本的視覺分類任務[3-4].
當前的小樣本學習方法都基于統一假設:方法是在學習了一些視覺類的大量數據后,對于新的類別,才具有從少量樣本中學習的能力[5].因此,在模擬小樣本學習的過程中,將數據集分為源數據集(base dataset)和目標數據集(novel dataset)兩部分.其中,源數據集中的每類都包含大量標記樣本,且其涵蓋的類別與目標數據集中的類別完全不重疊.小樣本學習旨在源數據集上訓練方法的小樣本學習能力,然后將方法遷移到目標數據集上進行小樣本學習能力的測試.根據小樣本在源數據集上的學習模式,研究方法主要分為3類:基于數據增強的方法、基于度量學習的方法以及基于優化的方法.其中,數據增強方法旨在利用一些轉換規則或生成理論合成一些虛假圖像,達到擴充數據集的目的[6];度量學習方法將小樣本分類轉化為學習樣本間語義距離的問題,根據無標記樣本與其他所有標記樣本的距離來進行分類[7];基于優化的方法嘗試為小樣本任務學習參數初始化函數,使得訓練從好的初始點開始并只迭代幾次就達到不錯的分類效果[8-9].
傳統的小樣本學習方法缺乏過程的可解釋性,屬于黑盒方法,即對于方法如何完成樣本識別的過程仍不清晰.換言之,如何通過構建無標記樣本以及標記樣本之間的關聯關系進行樣本分類的這一過程仍不明晰.因此,為小樣本分類提供可解釋的推理過程是一個值得研究的方向.不同于一般的黑盒方法,人類在識別現實世界中的對象時往往有明確的證據支撐.人類在做出決策前,會先分析無標記圖像的一些關鍵部位,然后在大腦中搜索與這些關鍵部位相關的記憶.例如,人類可以對“啄木鳥”的圖像進行分類,是因為“啄木鳥”的喙與他們之前見過的“啄木鳥”樣本高度相似.
受此啟發,我們模擬人腦做出決策的過程,提出基于對比約束的可解釋小樣本學習(interpretable few-shot learning, INT-FSL)方法.INT-FSL方法采用元學習思想生成多個小樣本分類元任務,每個元任務有極少的標記樣本作為支持集,通過挖掘無標記樣本與標記樣本間的關聯關系達到分類目標.當設定每個元任務中包含M個類且每類有K個標記樣本時,稱為M-wayK-shot小樣本分類任務.如圖1是3-way 2-shot小樣本學習任務描述圖.INT-FSL方法包括3個模塊:特征映射模塊、可解釋小樣本分類模塊和對比學習模塊.其中,特征映射模塊用于提取樣本的深度特征,將單個圖像樣本表示為多個局部描述子的集合;可解釋小樣本分類模塊一方面用標記樣本的局部特征描述子重構圖像類別的描述子空間,另一方面挖掘無標記樣本的關鍵部位,并通過度量這些關鍵部位與所有類別描述子空間的語義距離來對它進行分類,以便提供可解釋的分類過程;對比學習模塊旨在對比元任務中目標無標記圖像與其他樣本的局部和全局特征,以達到強化樣本局部表征的能力.在訓練過程中,INT-FSL方法聯合交叉熵分類損失與對比損失,在優化訓練數據上小樣本分類性能的同時,保證方法在測試數據上保持良好的泛化能力.本文的主要貢獻有3個方面:
1)提出可解釋性的小樣本分類模塊,采用注意力機制提取無標記樣本的關鍵局部特征,通過學習這些關鍵特征與其他標記樣本局部特征的關聯關系,達到小樣本分類的目標,以便回答“方法對哪些區域感興趣,無標記樣本的這些區域與支持樣本的哪些區域相似”問題,滿足用戶的可解釋性需求;
2)將特征對比學習模塊融入小樣本分類模塊,通過對比元任務中目標無標記樣本與其他樣本的局部和全局語義特征,達到利用樣本自身信息增強特征映射模塊有效性的目標,進而緩解小樣本分類中監督信息不足的問題.
3)在3個真實數據集上進行了大量小樣本圖像分類的實驗.實驗結果證明,INT-FSL方法不僅能有效提高當前主流小樣本學習方法的分類準確度,而且能提供有效的可解釋性決策過程.

Fig.1 3-way 2-shot few-shot learning with meta-learning training pattern
小樣本學習旨在從極少甚至僅僅一個標記樣本中學習這類圖像的特性.人腦具有先天的小樣本學習能力,比如小孩只去過幾次動物園后,就能準確分辨獅子和斑馬等動物.受此啟發,小樣本學習涌入了機器學習領域,并引起了很多研究者的關注.近年來,隨著深度學習技術的迅猛發展,很多基于卷積神經網絡的方法在小樣本分類上取得了優異的性能.這些方法主要分為3類:基于數據增強的方法、基于度量學習的方法以及基于優化的方法.
基于數據增強的方法強調利用圖像轉換規則,如裁剪、映射、翻轉等方式擴充有限的小樣本數據集.例如,Alfassy等人[6]提出將給定的樣例映射到特征空間,采用特征向量合成方法生成對應標簽集中的樣例,例如交、并、差等操作;由于人工制定的轉換規則是有限的,導致擴充的新樣本與原始樣本差別不大;為此,Edraki等人[10]提出基于圖像生成的數據增強方法,將文本或標簽輸入生成對抗網絡[11],生成與其對應的圖像樣本;Schwartz等人[12]設計了一種創新的自動編碼器結構,該編碼器有效捕獲同類訓練實例對間的類內變形信息,并將這些信息遷移到只有少數樣本的新類別,以便有效合成新類別的樣本;Zhang等人[13]提出一種通用的小樣本框架MetaGNN學習特定任務中數據分布的流形結構,由此生成一些虛假數據來輔助小樣本分類器學習更清晰的決策邊界;另外,Zhang等人[14]利用顯著性目標檢測算法分割圖像,將不同圖像的前景和背景組合生成很多虛假圖像,以此實現數據集的擴充.
基于度量的方法將小樣本分類問題轉化為樣本間的相似度度量問題.這類方法往往對特征空間中樣本間距離分布進行建模,使得在該空間中同類樣本靠近且異類樣本遠離.例如,Koch等人[15]通過構建一個孿生網絡(siamese network)來挖掘2張圖像高層語義特征的相似性,進而判斷其是否來自同一個圖像類;Vinyals等人[7]將度量學習與記憶增強網絡[16]結合,提出一種端到端的深度匹配網絡(matching network),實現了在少量樣本的條件下對無標記樣本的標簽預測;Snell等人[17]提出一種小樣本原型網絡(prototypical network),將每類樣本的特征中心點作為原型,通過度量測試樣本到所有類別原型的歐氏距離來預測樣本標簽;Sung等人[18]考慮將基于深度的特征映射函數和非線性距離函數聯合學習,通過構建一種端到端的關系網絡(relation network)實現小樣本圖像識別.另外,還有很多研究者利用圖卷積神經網絡(graph convolution neural network)來學習樣本間的關聯關系,從而實現小樣本分類的目標[19-21].
基于優化的方法認為:當只有少量標注樣本時,梯度優化算法如momentum[22],ADAM[23]等無法使深度網絡中的大量參數在幾步內快速收斂;為此,對于小樣本任務,嘗試系統的學習一個參數初始化函數,使得訓練從一個好的初始點開始并只迭代幾次就達到不錯的分類效果,例如,Finn等人[8]提出一種與方法無關(model-agnostic)的元學習方法,該方法能快速且高效地適應多個小樣本分類任務;Ravi等人[24]提出,對于一個規模較大的小樣本分類器,其可以使用一個參數量較少的長短時記憶網絡(long short-term memory, LSTM)元學習器來優化學習;另外,Li等人[25]提出一種更容易實現、效率更高的Meta-SGD方法,該方法不僅可以學習小樣本分類器的初始化參數,還可以學習其更新方向和學習率.
對比學習旨在通過大量正負樣本進行對比的方式學習一個語義嵌入空間,使得相似樣本在該空間距離接近,而不相似樣本間距離較遠.對比學習是一種有效的自監督學習方式,其主要利用數據本身作為監督信息來學習樣本的特征表達.根據構造正負樣本對的粒度可將當前的對比學習框架分為2類:情境-實例對比與實例-實例對比,這2類框架在下游任務中都表現出很好的性能.
情境-實例對比也稱為全局-局部對比,該學習模式主要針對圖像樣本的局部特征與全局上下文間的歸屬關系進行建模.也就是說,樣本的某一局部表征與其對應的全局語義間應具有較高的關聯度,例如“條紋狀身體”(圖像局部)的語義應在“斑馬”(圖像全局)的語義表征中有所體現.例如,DIM(Deep InfoMax)[26]方法通過最大化圖像局部特征與全局上下文間的互信息來學習無監督表示,其采用對抗匹配先驗分布的方式來實現統計特征約束.另外,DeepMind團隊提出一種創新的對比預測編碼(contrastive predictive coding, CPC)[27]方法,其通過編碼器將高維數據嵌入到低維空間,然后結合自回歸建模與噪聲對比估計來預測未來時刻樣本序列的語義表示.不同于DIM方法,AMDIM(Augmented Multiscale Deep InfoMax)[28]方法一方面添加了多種擴充圖像數據的方法,包括隨機裁剪、顏色變換、灰度圖轉換等,另一方面對圖像的不同尺度特征進行互信息的最大化,以達到增強方法泛化性的目標.除了圖像領域外,基于全局-局部的對比學習模式也廣泛應用在文本和圖數據領域.例如,InfoWord[29]通過最大化N-Gram局部語義和句子全局語義的互信息來訓練語言方法,其中正樣本是當前語境下的N-Gram詞表征,負樣本是語料庫中其他語境下的詞表征.在圖學習中,DGI(Deep graph InfoMax)[30]方法將節點表示作為局部特征,將隨機采樣的2-hop鄰居節點的平均表征作為全局上下文,并通過節點擾動生成負樣本,實現局部-全局的對比模式.
實例-實例的對比學習模式主要針對圖像樣本的多個視圖間關聯關系進行建模.例如,CMC(Con-trastive Multiview Coding)[31]采用同一張圖像的多個不同視圖作為正樣本,另一張圖像的任一視圖作為負樣本,約束正樣本在嵌入空間中的距離接近且與負樣本的距離較遠.動量對比(momentum contrast, MoCo)[32]方法更加關注負樣本的數量,其從字典查找的角度出發,構建帶有隊列和平均移動編碼器的動態字典.當查詢是相同圖像的編碼視圖,則查詢將與關鍵字匹配,否則不匹配.SimCLR[33]是一種非常簡易的對比學習框架,其更加強調構建負樣本的方式對對比學習的重要性.SimCLR通過數據增強的方式生成輸入圖像的正樣本,將batch中的其他圖像當成負樣本,并采用噪聲對比估計損失來調整相似性評分的范圍.另外,Tian等人[34]提出一種InfoMin對比學習原則,其使特征提取網絡在學到不同視圖之間共享的信息之外,盡量去除與下游任務無關的冗余信息來保證學習到的特征具有很好的泛化能力;Grill等人[35]認為正負樣本之間的對比會使訓練過程很不穩定,同時會增大數據集的系統偏差.為此,他們提出了無需負采樣的BYOL方法,顯著改善了對比學習方法的訓練效率和泛化能力.目前,基于實例-實例對比的策略也已經廣泛應用于圖數據表征[36-37].
本節介紹基于對比約束的可解釋小樣本學習方法及應用.2.1節給出了小樣本學習的定義.2.2節提出了可解釋的小樣本網絡框架INT-FSL.


Fig.2 Framework of interpretable few-shot learning with contrastive constraint
本節詳細介紹基于對比約束的可解釋小樣本學習方法INT-FSL.如圖2整體框架圖所示,其包含3個模塊:特征映射模塊(feature embedding module)、可解釋小樣本分類模塊(few-shot learning module)和對比學習模塊(contrastive learning module).3個模塊的具體介紹:
1)特征映射模塊.給定元任務T={S,Q},特征映射模塊提取支持集與查詢集中所有圖像的深度特征.圖2中的映射函數ψ(·)是典型的深度卷積網絡,可以是VGG,ResNet等框架.對于任意圖像X∈T,經過深度卷積網絡后輸出d×h×w的三維張量,可以視作hw個維度為d的局部特征描述子集合,即:
ψ(X)={x1,x2,…,xhw},xj∈Rd,
(1)

2)可解釋小樣本分類模塊.如圖2可解釋小樣分類模塊部分,方法通過度量無標記圖像到支持集中M個類別的語義距離來實現小樣本分類的目標.首先,該模塊利用樣本的局部特征描述子重構圖像類別的描述子空間.對于支持集中的任一類別m,其對應的子空間是所有屬于該類標記樣本的局部描述子集合,記為
(2)

(3)
(4)

不同空間位置的局部描述子對無標記圖像的語義貢獻是有很大差距的.例如,對于一張描述狗的圖像,圖像中關于眼睛、耳朵、尾巴的局部描述子比其他描述草、房間等背景信息的特征更為重要.在小樣本分類中,需要對圖像中的一些關鍵部位賦予更強的關注度,減弱噪聲部位的負面影響,通過適應多種圖像變換來強化小樣本分類的魯棒性.為此,在圖2中設計空間注意力機制學習不同局部描述子對小樣本分類的注意分值,該過程可形式化為
aq=σ(AvgPool(ψ(Xq));MaxPool(ψ(Xq))),
(5)

(6)
除此之外,我們認為同類圖像在特征分布上存在高度相似性,而不同類圖像的特征分布差異較大.為此,設計度量方法計算無標簽圖像樣本Xq與支持集中第m類圖像特征子空間Rm的分布相似得分:

(7)
其中,μq與Σq分別是圖像樣本Xq局部描述子集合ψ(Xq)的均值向量和方差矩陣,μm與Σm是第m類圖像特征子空間Rm的均值向量和方差矩陣.顯然,當ψ(Xq)與Rm的空間分布越接近,Sdis(Xq,m)得分值越高,反之亦然.
綜合式(6)與式(7)中的特征與分布得分,預測圖像Xq屬于支持集S中第m類的概率值:
(8)
其中,Scom(Xq,m)是特征相似得分Sfea(Xq,m)與分布相似得分Sdis(Xq,m)的和.
基于此,采用交叉熵度量當前元任務T={S,Q}的真實損失值為
(9)


① 全局對比.旨在約束圖像全局表征xq與圖像特征Eψ(Xq)間的互信息最大,可形式化為
(10)


(11)
互信息度量函數有多種實現類型,本文采用典型的Jensen-Shannon散度(JSD)進行度量,實現過程與Hjelm等人[26]的工作基本一致.
綜合上述三大模塊,INT-FSL方法的整體目標優化函數為
(12)
其中,λ和β分別是全局對比與局部對比損失的權衡系數.
本節在3個數據集上驗證所提INT-FSL方法的有效性,并將依次介紹實驗數據集、對比方法、實驗設置、對比結果定量分析、對比模塊以及可解釋性實驗分析.
我們使用了3個公開圖像數據集進行實驗.其中,miniImageNet[7]是大規模ImageNet數據集的子集,包含100類圖像,每類600張圖像樣本,其中64,16,20類圖像分別用于訓練、驗證和測試數據集.Stanford Dogs[38]是斯坦福大學構建的犬類數據集,其仍然是ImageNet數據集的子集,共有20 580張圖像,涉及120類狗.其中,70類圖像用于訓練,20類用于驗證,30類用于測試.CUB-200-2011[39]是2011年發布的一個鳥科數據集,由加州理工大學構建,涵蓋200種不同的鳥,每種鳥大概有60張圖像,共有11 788張圖像.在本實驗中,130,20,50種鳥分別用于訓練、驗證與測試.
本文將所提INT-FSL方法與11種流行的小樣本分類方法相比,驗證INT-FSL方法的有效性.
1)Matching Net[7].經過卷積特征提取模塊與LSTM上下文嵌入模塊后,通過度量目標圖像與支持集圖像在特征空間的距離來實現小樣本分類.
2)MAML[8].學習一組泛化能力強的初始化參數,使其能在小樣本場景下經過一步或幾步梯度調整后就能達到快速收斂的目的.
3)Prototypical Net[17].采用支持集中每類圖像的平均特征向量來表示該類圖像的原型,計算目標圖像與所有原型的空間距離,判別目標圖像類別.
4)Relation Net[18].聯合學習樣本的特征映射函數與樣本間的距離度量函數,以目標樣本與支持集中標記樣本間的距離為依據,實現小樣本分類.
5)SNAIL[40].結合時序空洞卷積與因果注意力機制,將小樣本分類任務轉化為一個序列到序列的問題,達到快速吸取過去經驗的目標.
6)DN4[41].用多個局部描述子表征圖像語義,采用最近鄰算法比較目標圖像與每個類別的局部描述子間的相似度,以此完成小樣本分類.
7)DSN[42].提出一種動態的子空間分類器,為每個類別尋找一個適合的特征子空間,通過度量目標圖像在子空間與帶標簽樣本的距離來預測類別.
8)MAML+L2F[43].采用動態衰減策略自動控制先驗知識對當前小樣本分類任務的影響,遺忘MAML初始化參數中的沖突,以便更好適應當前的小樣本任務.
9)BOIL[44].在MAML算法的內循環中,設計只更新方法的特征提取器模塊,凍結小樣本分類器模塊,從而更好的適用新領域的小樣本分類任務.
10)PCM[45].設計端到端的小樣本網絡,包括雙線性特征學習模塊和分類器映射模塊.其中,分類器映射模塊以參數很少的方式生成決策邊界.
11)RCN[46].在基于局部特征小樣本匹配的基礎上,添加了可解釋模塊為小樣本分類結果提供依據,并提出一種區域激活映射的方法可視化策略.
INT-FSL方法是基于開源深度學習框架Pytorch實現的.為了減少開銷,所有圖像都調整為84×84×3的大小后再輸入到INT-FSL網絡.所有網絡的中間層都使用ReLU函數進行非線性映射.另外,網絡中所有卷積以及全連接層后都添加了歸一化操作(batch normalization),同時在全連接層后加入了概率為0.1的dropout層,增強網絡穩定性和泛化能力.INT-FSL方法在32 G單塊GPU的Tesla服務器上運行.在上述設置下,將目標函數(13)中的權衡系數λ和β分別設為0.5與1.0,采用學習率為0.01,動量為0.9,權值衰減為0.001的隨機梯度下降法來優化INT-FSL方法中的參數.

Table 1 The Experimental Results on miniImageNet Dataset
將M-wayK-shot小樣本設置中的M=5,K設為1和5,批大小設為32.為了公平對比,我們在每種小樣本設置場景下運行5次,計算分類的平均準確率和標準差.表1~3分別記錄了miniImageNet,Stanford Dogs,CUB-200-2011三個公開數據集上的小樣本分類結果.對于INT-FSL方法中的特征映射模塊,我們在miniImageNet數據集上采用了Conv4(4層圖卷積)和ResNet網絡2種,在其他2個數據集上只采用了Conv4一種.另外,我們在細粒度數據集CUB-200-2011以及Stanford Dogs上采用了圖像旋轉、變形等方式進行數據增強.對比這些實驗結果,可得出3點結論:
1)在已有的小樣本方法中,MAML+L2F方法在miniImageNet數據集上取得最優分類效果.RCN方法在Stanford Dogs和CUB-200-2011兩個數據集上取得最佳性能.這是因為MAML+L2F方法的動態衰減策略能有效緩解不同小樣本分類元任務間的沖突影響,從而使初始化參數在不同任務上具備更好的適應能力;RCN方法采用局部區域元學習器捕獲圖像的關鍵位置特征,從而更好地進行小樣本分類.
2)與已有的小樣本分類方法相比,在大多數情況下,所提出的INT-FSL方法的圖像分類性能顯著提升.例如,對于5-way 1-shot分類任務,INT-FSL(Conv4)在miniImageNet上提高了2.52個百分點,在Stanford Dogs和CUB-200-2011兩個數據集上分別提高了3.62和6.55個百分點.這說明INT-FSL方法能有效捕捉無標記樣本的關鍵部位,并準確學習這些部位與標記樣本間的關聯關系,進一步改善小樣本圖像識別的性能.

Table 2 The Experimental Results on Stanford Dogs Dataset

Table 3 The Experimental Results on CUB-200-2011 Dataset

Table 4 The Contrastive Learning Analysis on Three Datasets
3)在3個數據集上的實驗結果都呈現一個共同的現象:隨著shot的增加,分類性能明顯上升.例如,當INT-FSL(Conv4)方法在miniImageNet運行時,5-way 5-shot上的小樣本分類性能比5-way 1-shot的結果高18.17個百分點.這個現象非常合理,因為標注樣本越少,小樣本分類任務的難度越高,分類的準確率越低.
INT-FSL方法中的特征對比模塊通過生成大量正負樣本對比的方式,將數據內部信息利用起來以強化圖像的局部特征表征.INT-FSL方法中包含全局對比和局部對比2種模式.為了進一步驗證該模塊對小樣本圖像分類性能的影響,本節設計了3個方法變種進行實驗驗證分析.其中,INT-FSL#0是在原始方法的基礎上去掉特征對比學習模塊,即目標函數(12)中的權重系數λ=β=0;INT-FSL#1只保留對比學習模塊中的全局對比模式,去除局部對比模式,即λ=0.5且β=0;相反,INT-FSL#2保留對比學習模塊中的局部對比模式,去除全局對比模式,即λ=0且β=1.0.在5-way 1-shot和5-way 5-shot任務設置下,表4記錄了4種方法在3個數據集上的小樣本分類性能.從表4中可以分析得到:
1)與INT-FSL#0相比,其他3種方法都能在一定程度上提升了小樣本圖像識別的性能.例如,在數據集miniImageNet上,INT-FSL#0方法在5-way 1-shot小樣本分類任務上的準確率為53.56%,INT-FSL#1,INT-FSL#2與INT-FSL能在此基礎上分別提升0.31,0.87與1.06個百分點.這個現象進一步說明對比學習模塊能通過最大化互信息的方式有效輔助小樣本特征映射,增強圖像局部描述子的語義表征.
2)在大多數情況下,方法INT-FSL#2的小樣本分類性能略高于INT-FSL#1.對于5-way 1-shot任務,INT-FSL#1在Stanford Dogs與CUB-200-2011上的分類準確率達56.96%與72.83%.INT-FSL#2分別達到57.56%和73.57%的性能.INT-FSL方法能將準確率提升到57.91%和73.61%.結果說明,局部對比和全局對比模式都對小樣本分類具有一定的促進作用,且當這2種模式綜合考慮時性能提升更加明顯.
在所提的小樣本分類模塊中,將注意力機制作用于無標記圖像的hw個局部描述特征上,得到每個局部描述子對于當前圖像語義的貢獻度.通過學習無標記圖像重要區域與標記樣本的相似度,達到小樣本分類的目標,并提供了可解釋的決策過程.本節在方法INT-FSL#1,INT-FSL#2與INT-FSL方法上去除小樣本分類模塊中的注意力機制(記為“-Att”),即通過賦予無標記圖像所有局部描述子相同的權重完成3個數據集上的小樣本分類任務.根據表5的實驗結果可以得知,注意力機制能有效提升小樣本分類的性能.例如,與INT-FSL(-Att)相比,INT-FSL在5-way 1-shot與5-way 5-shot小樣本任務上提升0.2~0.9個百分點.

Table 5 Spatial Attention Analysis for INT-FSL#1,INT-FSL#2,INT-FSL on Three Datasets

Fig.3 Spatial attention visualization for some unlabeled images from CUB-200-2011 dataset
為了進一步說明INT-FSL方法的可解釋性,我們針對CUB-200-2011數據集上的小樣本分類元任務進行案例分析.圖3是查詢集中4張無標記圖像的注意力權重矩陣與熱力圖的可視化結果.可以看出,無標記鳥類樣本的分類主要取決于圖像中“頭”“嘴巴”“身體”“腳”等關鍵部位,而與其周圍背景的關聯度偏弱.另外,針對一個3-way 1-shot的小樣本分類任務,圖4展示了該任務中無標記圖像注意力權重取值較大的3個區域,并展示了支持集中與這3個關鍵區域最相似的3個局部區域,可發現支持集中的一張標記圖像與無標記圖像的這3個區域高度相似,這在很大程度上為小樣本分類的過程提供了可解釋的推理過程.

Fig.4 Case study of interpretable few-shot learning
本文提出了一種創新的基于對比約束的可解釋小樣本圖像識別方法INT-FSL,旨在通過注意力機制提取無標記樣本的關鍵局部特征,學習這些關鍵特征與其他標記樣本局部特征的關聯關系,為小樣本分類提供可解釋的推理過程.另外,INT-FSL方法融合對比學習機理,設計全局和局部2種對比模式增強圖像的特征表征能力,緩解小樣本分類中監督信息不足的問題.本文在3個標準圖像數據集上進行驗證,結果表明INT-FSL方法不僅能有效提高當前主流小樣本方法的分類準確度,而且能提供有效的可解釋性決策過程,滿足用戶的可解釋性需求.在未來工作中,可以設計更符合小樣本學習的對比策略來強化分類性能,同時調整特征映射模塊的網絡結構,滿足小樣本分類任務中圖像特征提取的可解釋性需求.