999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于語義協同指導的小樣本語義分割算法

2024-02-21 02:42:44晨,王
無線電工程 2024年2期
關鍵詞:語義特征模型

王 晨,王 偉

(1.河北對外經貿職業學院,河北 秦皇島 066311;2.北京郵電大學 信息與通信工程學院,北京 100080)

0 引言

近年來,隨著深度學習技術的快速發展,語義分割的性能取得了顯著進步。然而,語義分割模型的分割性能嚴重依賴于逐像素的注釋樣本數量,該類數據的標注成本費時費力[1-2],這加速了少樣本語義分割的發展。

小樣本語義分割的目的是在有限的逐像素標注樣本中學習分割規則,并將其泛化到未知的新類分割任務中。現有的小樣本語義分割網絡主要利用Shaban等[3]提出的支持-查詢雙分支網絡進行逐像素指導未知的新類分割。其中,支持分支的輸入為支持圖片和對應的真實標注掩碼,查詢分支的輸入為包含未知新類的圖片,并且雙分支網絡的輸入同屬相同語義類?,F有的小樣本語義分割方法主要包括基于元學習網絡的小樣本語義分割和基于度量學習的小樣本語義分割兩大類[4-5]。在基于元學習的小樣本語義分割方法中,主要利用有參數學習的解碼器實現支持分支指導查詢分支中未知新類的分割[6]。如Lang等[5]提出了一種基于元類記憶網絡的小樣本語義分割模型,通過在Base集中學習目標的元類信息,并在推理階段泛化到Novel集中未知新類的分割任務中。Liu等[7]針對相同類之間存在的類內差異問題,提出了一種基于分類器權重轉換的小樣本語義分割算法。通過利用預訓練的主干網絡對雙分支網絡的輸入圖片進行編碼-解碼,獲取支持圖片中目標任務的分類權重矩陣,并將其作為輔助任務遷移到查詢分支的新類分割任務中。雖然上述模型可以實現令人滿意的分割結果,但對于有限的支持信息利用不充分。為此,Zhang等[8]提出了一種基于自我指導和交叉指導的小樣本語義分割算法。利用支持圖片中學習到的指導規則指導支持圖片的掩碼分割,利用真實的掩碼進行逐像素對比,獲取目標任務預測中丟失的信息,并根據真實掩碼構造輔助信息。類似地,Liu等[9]提出了一種交叉指導的小樣本語義分割算法。通過學習支持分支中目標任務的分類規則,并將其應用到查詢分支中未知新類的分割任務中;利用相同的指導規則進行逐像素指導支持圖片的掩碼預測,并借助支持圖片真實掩碼和預測掩碼之間的損失,端到端優化模型。

該類基于元學習網絡結構的小樣本語義分割算法大多通過組合多個卷積核來增大感受野,強化模型對上下文信息和空間信息的感知能力。然而,該類網絡參數量大、結構復雜、極易造成過擬合問題。此外,有限帶標注的支持樣本不足以優化整個網絡模型,導致模型參數并非最優解,使得模型的分割性能局限。

受原型網絡的啟發,近年來,基于度量學習的小樣本語義分割成為計算機視覺領域的研究熱點。如Wang等[10]提出了一種交叉度量網絡的小樣本語義分割算法,利用預測的查詢掩碼構造新的支持集,指導支持圖片的掩碼預測,并利用真實掩碼與預測掩碼之間的損失優化抽象的原型。類似地,Chang等[11]認為背景的細粒度挖掘有利于增強原型的泛化能力,通過利用Vision Transformer細粒度地挖掘支持圖片中的目標背景構造多個背景原型,指導查詢圖片中目標前景和背景的并行分割。Ding等[12]提出了一種自我規范的原型網絡,并將其應用到小樣本語義分割任務中,在主流數據集上進行測試,驗證了模型的有效性。具體地,通過學習支持圖片中的分類規則,并泛化到未知新類的分割任務中;同時,按照相同的指導規則,對支持圖片進行掩碼預測。

上述基于無參數的度量學習算法都是通過平均整張圖片的信息來獲取目標類的原型。然而,僅利用平均操作獲取的原型不足以表示整個目標,極易造成信息的丟失或歧義。雖然,Li等[13]通過聚類的思想構造了多個原型,并在主流數據集上進行了驗證。但該方法通過將不可微的超像素聚類算法改進為可微分的聚類算法,通過額外引進超參數來捕獲多個區域的不同原型,造成計算資源開銷較大,限制了算法在實際生活中的應用。為了緩解上述兩大類算法面臨的挑戰,提出一種基于語義協同指導的小樣本語義分割算法,通過利用支持圖片的真實語義標簽作為輔助監督強信號,獲取與目標任務直接相關的類特定原型,指導未知新類的分割。本文的主要貢獻如下:

① 提出了一種基于語義指導的小樣本語義分割算法,為基于無參數度量學習算法提供了一種新的思路,豐富了語義分割的手段。

② 提出了一種語義指導模塊,利用支持圖片的語義標簽構造輔助學習任務,強化目標任務的分割性能。

③ 提出了一種細粒度的多原型提取模塊,通過利用Vision Transformer網絡捕獲目標任務直接相關的多個類特定原型,這有助于增強目標任務的分割性能。

1 小樣本語義分割模型

1.1 任務定義

1.2 模型結構

圖1給出了本文基于語義協同指導的小樣本語義分割框架,包括特征提取、多原型生成模塊和無參數度量模塊。其中,特征提取階段利用預訓練的主干網絡作為特征提取器,將支持圖片和查詢圖片映射到深度特征空間;多原型生成模塊包括輔助語義構造和原型生成,通過將支持圖片對應的目標語義標簽映射為文本特征向量,構造輔助語義,并借助Vision Transformer的編碼器和解碼器生成多個原型;無參數度量模塊通過計算抽象后的多個原型和查詢特征之間的相似度分數,并根據分數大小指導查詢圖片逐像素分割。

圖1 模型結構Fig.1 Model structure

1.3 特征提取

特征提取是深度神經網絡模型深度學習的基本步驟,通過借助卷積神經網絡及變體模型將圖片映射到深度特征空間。此處,采用Vgg-16、ResNet-50和ResNet-101三種主干網路作為特征提取器[14-15]。下面以Vgg-16作為實例進行闡述特征提取的流程。Vgg-16網絡結構如圖2所示。

圖2 Vgg-16網絡結構Fig.2 Vgg-16 network structure

(1)

式中:Fs表示支持特征,Fq表示查詢特征,f(·)表示特征映射函數。

考慮到低層特征區分能力不強,高層特征難以泛化到未知新類目標中。此處,采用多尺度特征融合策略,融合低層Fl、中間層Fm和高層特征Fh,構造混合特征F=Fl⊕Fm⊕Fh,其中⊕表示拼接concatenate操作。

為了直接聚焦支持圖片的目標區域,利用支持圖片的真實掩碼進行前景和背景的分離,并將目標前景區域的特征作為原型生成模塊的輸入。詳細計算如下:

(2)

式中:Fg表示目標前景特征,BIL表示雙線性插值,用于維度轉換;?(·)表示圖片矩陣轉換函數。

1.4 多原型生成模塊

① 特征編碼

近年來,Vision Transformer[16]網絡在深度學習領域取得了成功應用,本文嘗試利用Vision Transformer網絡作為深度特征圖的編碼器和解碼器。在編碼階段,利用編碼器提供的注意力機制進行不同區域間的信息交流。具體地,為了聚類相似的特征,每個編碼層將前一層的輸出映射為3個向量:{Q,K,V}∈RN×d,d表示映射特征的維度,N表示區域大小。注意力機制信息交互如圖3所示。注意力機制的計算如式(3)和式(4)。

圖3 注意力機制計算流程Fig.3 Attention mechanism calculation process

式中:WQ、WK、WV為可學習參數,S為N2大小的矩陣,每一個si,j∈S表示第i個區域和第j個區域之間的相似度;然后,在每個區域k上,利用softmax函數進行相似度分數的計算;最后,將相似度分數與原始圖像的特征進行相乘,獲得最終的聚合特征fvk。具體計算如下:

② 輔助語義構造

為了進一步增強原型的魯棒性,利用類屬性的語義知識強化類特定原型的表達能力。假設數據集中語義類的表達為D={d1,d2,…,dm},根據數據集中語義類的總個數確定此處m的維度,即對于PASCAL-5i數據集,m取值為20;對于COCO-20i數據集,m設定為80。此處,采用BERT作為詞轉換為向量表達的詞向量轉換工具,具體轉換流程如圖4所示。

圖4 向量化流程Fig.4 Vectorization process

將數據集中語義類的文本表示按照語義類的總個數進行歸一化,并作為BERT[17]文本向量化工具的輸入。編解碼后的文本向量化表示定義如下:

(7)

式中:vij表示每個BERT轉換后的第i個語義類的第j維語義屬性,l表示語義屬性的總維度。通過將提取的類語義屬性知識直接作為指導查詢圖片中未知新類原型的輔助學習任務。

③ 特征解碼

在對不同區域視覺語義信息編碼和文本語義類信息編碼后,使用Vision Transformer的解碼器實現多個原型的提取。具體流程如圖5所示。

圖5 解碼模塊Fig.5 Decoder module

將視覺編碼特征fvk和文本語義類編碼特征vij作為多頭注意力機制的Query和Key,查詢分支的輸入圖片Iq對應的編碼特征Fq作為Value。利用支持分支獲取的視覺特征和語義類編碼特征作為查詢分支查詢特征Fq的特征注意力。經過解碼模塊后,多個語義類的特定原型集Pt可表示為:

Pt=Decoder(fvk,vij,Fq)。

(8)

1.5 度量學習

分割可以視為每個空間位置的分類,此處采用無參數的度量學習,即通過計算每個空間位置的查詢特征向量與原型之間的余弦相似度分數,并根據相似度值來指導查詢圖片中的目標進行分割。特別地,此處的查詢特征僅為Vgg-16網絡映射后的全局特征,主要原因在于直接使用編碼特征進行相似度計算可以保留更多的信息,同時避免了Transformer處理帶來的誤差;其次,Transformer網絡參數量大,一方面增加了計算成本,另一方面小樣本語義分割模型的訓練數據量較小,導致模型訓練難度較大,計算成本高;此外,小樣本語義分割場景下,查詢分支的輸入僅為查詢圖片,映射特征既包含目標任務信息,也包含背景噪聲信息,經過Transformer編碼的查詢特征中雖然任務相關性較為緊湊,但相似的背景信息分離難度較大,進而影響分割的性能。

在分割階段,利用softmax函數計算每個像素點與類原型距離相似度值的概率,通過將每一位置處的概率最大值對應的語義標簽拼接,即可得到最終目標的預測掩碼。具體計算如下:

式中:PM為最終的查詢圖片預測掩碼,cos(·)為余弦相似度計算函數,a為softmax函數的超參數,此處設定a=20[8];cat(·)為拼接操作。

2 實驗與結果分析

2.1 實驗設定

① 實驗環境

利用Pytorch深度學習框架,開發語言為Python 3.9,所有實驗采用NVIDIA V100,2塊32 GB的GPU;優化器采用Adam;損失函數采用交叉熵損失;初始學習率為0.001,迭代次數與loss曲線如圖6所示??梢钥闯?當迭代次數為4 000時,loss趨于穩定,模型收斂。

圖6 訓練與測試階段Loss曲線Fig.6 Loss curve during training and testing phase

② 評價指標

采用當前主流的小樣本語義分割性能評價指標平均交并比(mean Intersection over Union,mIoU)和前景背景二分類交并比(Foreground and Background IoU,FB-IoU)作為評價指標[18]。計算如式(11)所示。特別地,當類別僅為前景和背景二分類時,mIoU可以簡化為FB-IoU,即C=2。

(11)

式中:C為總類別數,i為真實掩碼標注,j為預測掩碼,pij為將真實掩碼i預測為j。

③ 實驗數據集

選擇經典的PASCAL-5i和COCO-20i數據集作為模型性能評估的基準數據集。其中PASCAL-5i由5 953張訓練圖片和1 449張測試圖片,總共包含20類,其中15類用于訓練,剩余5類用于測試;類似地,COCO-20i包括82 081張訓練圖片和40 137張測試圖片,總共包含80類,60類用于訓練,20類用于測試。

2.2 對比實驗

(1)PASCAL-5i數據集

在相同的數據集和評價指標下,與當前主流的小樣本語義分割模型進行對比實驗,表1給出了所提出模型在PASCAI-5i數據集上的分割結果。

表1 1-way 1-shot和1-way 5-shot在PASCAL-5i上的分割結果

從表1可以看出,在3個主干網絡下,模型的綜合分割性能具有較好的競爭力。具體地,在Vgg-16網絡下,所提出模型實現了49.2%(1-shot)和 53.8%(5-shot)的mIoU,67.4%(1-shot)和69.1%(5-shot)的FB-IoU。當主干網絡采用ResNet-50時,mIoU進一步提高至53.8%和59.6%,與同類主干網絡下表現最佳的PPNet模型相比,在1-shot任務下提升了1.0%的mIoU,雖然在5-shot任務下,mIoU相比PPNet和SML有所下降,但在FB-IoU指標下,分別提升了0.8%(1-shot)和1.2%(5-shot);當主干網絡為ResNet-101時,所提出模型在1-shot任務下實現了57.6%的mIoU和73.1%的FB-IoU;在5-shot任務下,進一步將mIoU提高至62.9%,將FB-IoU提高至75.8%。上述實驗結果驗證了所提出模型的優越性。分析主要原因,包括:① 所提出模型在圖片映射為深度特征空間階段,采用多尺度特征,并非傳統單一使用中間層或高層特征作為下游分割任務的特征圖,有效保障了特征信息的完成性;② 引入了目標類的語義信息,強化了視覺編碼特征后的類特定原型的表達能力;③ 采用無參數度量學習結構,這極大地減少了信息的損失和歧義。

(2)COCO-20i數據集

為了進一步驗證所提出模型的有效性,在類別更多、目標數量更豐富的COCO-20i上進行對比實驗,詳細結果如表2所示??梢钥闯?在COCO-20i上具有與PASCAL-5i相似的發現。具體地,Vgg-16作為主干網絡時,所提出模型在1-shot和5-shot任務上,優勢明顯。當ResNet-50作為主干網絡時,所提出模型的分割性能可以實現35.7%的mIoU和66.2%的FB-IoU;在5-shot任務上,實現了40.1%的mIoU和65.3%的FB-IoU。雖然主干網絡為ResNet-101時,mIoU性能優勢并不明顯,但在FB-IoU上,相比所有對比模型中表現最好的MGNet模型,提升了1.3%和2.5%,整體具有較強的競爭力。

表2 1-way 1-shot和1-way 5-shot在COCO-20i上的分割結果

(3)可視化結果

圖7給出了所提出模型的分割可視化結果,可以看出,在目標單一、數據量較少的PASCAL-5i數據集上,鳥、船、飛機和羊等目標都可以較好地從背景中分割出來,并且輪廓邊緣較清晰。對于在目標復雜且語義類型較多的COCO-20i數據集上,目標的主體可以完整地分割出來,整體分割細節較好,進一步驗證了所提出模型的有效性。

圖7 分割結果可視化Fig.7 Visualization of segmentation results

2.3 消融實驗

為了進一步分析所提出模型的各模塊對于分割性能提升的作用,進行表3所示的消融實驗。所提出模型的多原型信息主要來源于視覺屬性和語義屬性兩大類。可以看出,在PASCAL-5i數據集和COCO-20i數據集上,單一視覺屬性或語義屬性尚不足以充分表示目標類的特定原型信息,極易造成信息丟失或誤匹配問題。然而,結合視覺和語義屬性,無論在PASCAL-5i數據集還是COCO-20i數據集上,性能均提升至與當前模型具有競爭力的水平,這進一步驗證了所提出模型設計的合理性。

表3 消融實驗

3 結束語

提出了一種新的基于語義協同指導的小樣本語義分割算法,借助Vision Transformer編碼塊提取目標的視覺信息;在此基礎上,利用類語義屬性信息,強化支持圖片中獲取的目標類特定原型的表達能力。通過在PASCAL-5i和COCO-20i數據集上進行測試,在1-shot和5-shot任務上,所提出模型相比當前主流模型,均具有一定的競爭力。

猜你喜歡
語義特征模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
語言與語義
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
主站蜘蛛池模板: 尤物精品视频一区二区三区| 91亚洲免费视频| 福利国产微拍广场一区视频在线| 中文字幕久久亚洲一区 | 午夜视频免费试看| 好吊色国产欧美日韩免费观看| 在线亚洲小视频| av午夜福利一片免费看| 91在线激情在线观看| 色亚洲成人| 亚洲AⅤ综合在线欧美一区| 一区二区三区四区精品视频 | 国产一区二区网站| 国产h视频免费观看| 国产精品黄色片| 69av在线| 亚洲人成网站色7799在线播放| 国产午夜在线观看视频| 亚洲第一福利视频导航| 精品久久蜜桃| 婷婷综合亚洲| 日韩精品中文字幕一区三区| 亚洲中文字幕在线一区播放| 国产精品亚洲天堂| 国产极品美女在线| 亚洲精品成人片在线观看| 国产丝袜一区二区三区视频免下载| 老色鬼久久亚洲AV综合| 亚洲天堂日韩av电影| 欧美一级色视频| 三区在线视频| 九九热在线视频| 亚洲美女一区| 亚洲欧洲美色一区二区三区| 91无码网站| 久久精品国产91久久综合麻豆自制| 2048国产精品原创综合在线| 久久亚洲中文字幕精品一区| 亚洲天堂网站在线| 久久精品一品道久久精品| 小说 亚洲 无码 精品| 国产精品香蕉| 久久夜色精品| 国产经典免费播放视频| 国内老司机精品视频在线播出| 露脸真实国语乱在线观看| 成人午夜免费观看| 激情综合激情| 国产在线无码一区二区三区| www.av男人.com| 99久久精品久久久久久婷婷| 午夜毛片福利| 大香网伊人久久综合网2020| 久久久久久午夜精品| 色妞www精品视频一级下载| 中文字幕永久在线看| 黄色网页在线播放| 91精品久久久无码中文字幕vr| 精品国产电影久久九九| 国产h视频在线观看视频| 五月天综合网亚洲综合天堂网| 毛片最新网址| 2022国产91精品久久久久久| 91精品亚洲| 国产永久无码观看在线| 免费观看男人免费桶女人视频| 中文字幕久久亚洲一区| 国产国产人在线成免费视频狼人色| 亚洲中文久久精品无玛| 在线观看国产小视频| 日本国产精品一区久久久| 亚洲精品午夜无码电影网| 亚洲高清无码久久久| 国产欧美在线观看视频| 久久久久青草大香线综合精品| 中文字幕欧美日韩高清| 亚洲床戏一区| 思思99思思久久最新精品| 国产99在线观看| 久久久久亚洲av成人网人人软件 | 国产亚洲精久久久久久无码AV | 丁香婷婷久久|