






收稿日期:2023-11-29
基金項(xiàng)目:太原師范學(xué)院研究生教育教學(xué)改革研究課題(SYYJSJG-2154)
DOI:10.19850/j.cnki.2096-4706.2024.03.035
摘" 要:隨著視覺(jué)語(yǔ)言模型的發(fā)展,開(kāi)放詞匯方法在識(shí)別帶注釋的標(biāo)簽空間之外的類別方面具有廣泛應(yīng)用。相比于弱監(jiān)督和零樣本方法,開(kāi)放詞匯方法被證明更加通用和有效。文章研究的目標(biāo)是改進(jìn)面向開(kāi)放詞匯分割的輕量化模型SAN,即引入基于多尺度通道注意力的特征融合機(jī)制AFF來(lái)改進(jìn)該模型,并改進(jìn)原始SAN結(jié)構(gòu)中的雙分支特征融合方法。然后在多個(gè)語(yǔ)義分割基準(zhǔn)上評(píng)估了該改進(jìn)算法,結(jié)果顯示在幾乎不改變參數(shù)量的情況下,模型表現(xiàn)有所提升。這一改進(jìn)方案有助于簡(jiǎn)化未來(lái)開(kāi)放詞匯語(yǔ)義分割的研究。
關(guān)鍵詞:開(kāi)放詞匯;語(yǔ)義分割;SAN;CLIP;多尺度通道注意力
中圖分類號(hào):TP391.4;TP18" 文獻(xiàn)標(biāo)識(shí)碼:A" 文章編號(hào):2096-4706(2024)03-0164-06
An Open Vocabulary Semantic Segmentation Model SAN Integrating Multi Scale Channel Attention
WU Ling, ZHANG Hong
(Taiyuan Normal University, Jinzhong" 030619, China)
Abstract: With the development of visual language models, open vocabulary methods have been widely used in identifying categories outside the annotated label. Compared with the weakly supervised and zero sample method, the open vocabulary method is proved to be more versatile and effective. The goal of this study is to improve the lightweight model SAN for open vocabulary segmentation, which introduces a feature fusion mechanism AFF based on multi scale channel attention to improve the model, and improve the dual branch feature fusion method in the original SAN structure. Then, the improved algorithm is evaluated based on multiple semantic segmentation benchmarks, and the results show that the model performance has certain improvement with almost no change in the number of parameters. This improvement plan will help simplify future research on open vocabulary semantic segmentation.
Keywords: open vocabulary; semantic segmentation; SAN; CLIP; multi scale channel attention
0" 引" 言
識(shí)別和分割任何類別的視覺(jué)元素是圖像語(yǔ)義分割的追求。近年來(lái),深度神經(jīng)網(wǎng)絡(luò)在圖像分割任務(wù)中已經(jīng)取得了極大的進(jìn)步。然而,大多數(shù)方法都基于閉集假設(shè),這意味著模型只能識(shí)別訓(xùn)練集中存在的預(yù)定義類別。現(xiàn)代語(yǔ)義分割方法[1,2]依賴于大量的標(biāo)記數(shù)據(jù),但通常數(shù)據(jù)集通常僅包含數(shù)十到數(shù)百個(gè)類別,而昂貴的數(shù)據(jù)收集和注釋限制了我們進(jìn)一步擴(kuò)展類別的可能性。最近,以CLIP[3]為代表的大規(guī)模視覺(jué)語(yǔ)言模型已經(jīng)實(shí)現(xiàn)了圖像級(jí)別的任意類別識(shí)別,即開(kāi)放詞匯圖像分類,這一巨大成功鼓勵(lì)我們探索它在語(yǔ)義分割中的應(yīng)用。
1" 相關(guān)工作
開(kāi)放詞匯語(yǔ)義分割是一種新穎的計(jì)算機(jī)視覺(jué)任務(wù),它要求模型根據(jù)自然語(yǔ)言描述將圖像分割成不同的語(yǔ)義區(qū)域,例如“貓”“草地”“天空”等。這些文本描述可能在訓(xùn)練過(guò)程中沒(méi)有出現(xiàn)過(guò),模型需要具有泛化到未知類別的能力。這是一種比傳統(tǒng)的語(yǔ)義分割更具挑戰(zhàn)性的任務(wù),因?yàn)樗枰P湍軌蚶斫庾匀徽Z(yǔ)言和視覺(jué)內(nèi)容,并且能夠在開(kāi)放的詞匯空間中進(jìn)行分類。
為了解決這個(gè)問(wèn)題,一些研究工作利用了預(yù)訓(xùn)練的多模態(tài)模型,來(lái)學(xué)習(xí)從大規(guī)模互聯(lián)網(wǎng)數(shù)據(jù)中提取圖像文本特征表示。CLIP是一種大型視覺(jué)語(yǔ)言模型,它通過(guò)對(duì)比學(xué)習(xí)的方式,將圖像和文本嵌入到一個(gè)共同的語(yǔ)義空間中,從而實(shí)現(xiàn)了圖像級(jí)別的任意類別識(shí)別,即開(kāi)放詞匯圖像分類。然而,直接將CLIP應(yīng)用于語(yǔ)義分割是不可行的,因?yàn)镃LIP學(xué)習(xí)到的表示缺乏語(yǔ)義分割所需的像素級(jí)識(shí)別能力。彌補(bǔ)表示粒度差距的一種解決方案[4]是在分割數(shù)據(jù)集上微調(diào)模型。然而,分割數(shù)據(jù)集的數(shù)據(jù)量遠(yuǎn)小于視覺(jué)語(yǔ)言預(yù)訓(xùn)練數(shù)據(jù)集,因此微調(diào)模型在開(kāi)放詞匯識(shí)別上的能力常常受到損害。
將語(yǔ)義分割建模為區(qū)域識(shí)別問(wèn)題繞過(guò)了上述困難。早期嘗試采用兩階段訓(xùn)練框架[5]。在第一階段,訓(xùn)練一個(gè)獨(dú)立模型來(lái)生成一組蒙版圖像作物作為蒙版建議。在第二階段,使用視覺(jué)語(yǔ)言預(yù)訓(xùn)練模型(如CLIP)來(lái)識(shí)別蒙版圖像裁剪的類別。然而,由于掩模預(yù)測(cè)模型完全獨(dú)立于視覺(jué)語(yǔ)言預(yù)訓(xùn)練模型,它錯(cuò)過(guò)了利用視覺(jué)語(yǔ)言預(yù)訓(xùn)練模型[6,7]強(qiáng)大特征的機(jī)會(huì),并且預(yù)測(cè)的掩模圖像裁剪可能不適合識(shí)別,這導(dǎo)致變成笨重、緩慢且性能低下的模型。
SAN[8]是一種將語(yǔ)義分割任務(wù)建模為區(qū)域識(shí)別問(wèn)題的模型,它利用了預(yù)訓(xùn)練的視覺(jué)語(yǔ)言模型CLIP的知識(shí),將圖像分割成一組無(wú)類別的掩碼提議,然后利用CLIP的語(yǔ)言編碼器來(lái)對(duì)這些掩碼區(qū)域進(jìn)行分類。SAN的優(yōu)點(diǎn)是它不需要在分割數(shù)據(jù)集上微調(diào)CLIP,也不需要額外的掩碼預(yù)測(cè)模型,從而實(shí)現(xiàn)了輕量化和高效的特性。SAN的缺點(diǎn)是它沒(méi)有充分利用CLIP的視覺(jué)編碼器,也沒(méi)有有效地融合視覺(jué)和語(yǔ)言特征,從而限制了其在開(kāi)放詞匯分割上的性能。本文基于上述問(wèn)題,引入了一種注意力特征融合機(jī)制,用于改進(jìn)原SAN結(jié)構(gòu)中雙分支特征的融合方法。該機(jī)制可以有效地融合視覺(jué)和語(yǔ)言特征,以提高多模態(tài)空間域的表示能力。
2" 融合多尺度通道注意力的SAN模型
2.1" 整體框架
SAN(Side Adaptation Network)是一種將輕量級(jí)側(cè)網(wǎng)絡(luò)附加到預(yù)訓(xùn)練的CLIP模型上的方法,其中凍結(jié)的CLIP模型充當(dāng)分類器。側(cè)適配器網(wǎng)絡(luò)采用了解耦設(shè)計(jì),它包含兩個(gè)分支:一個(gè)用于生成掩模提議,另一個(gè)用于在CLIP的自注意力塊中進(jìn)行掩模類別識(shí)別的注意力偏置預(yù)測(cè)。整個(gè)網(wǎng)絡(luò)架構(gòu)呈雙分支結(jié)構(gòu),其中包含多個(gè)融合層,以重用CLIP的中間預(yù)訓(xùn)練知識(shí),從而使模型能夠取得良好的性能。
在本次改進(jìn)中,我們意識(shí)到SAN模型表現(xiàn)優(yōu)異的原因之一是它能夠重用CLIP的先驗(yàn)知識(shí),這使得模型在語(yǔ)義分割任務(wù)中具有更好的推理能力和語(yǔ)義理解能力。不過(guò)就目前的進(jìn)展[9-13]而言,我們還需要進(jìn)一步探索如何最大限度地發(fā)揮視覺(jué)語(yǔ)言預(yù)訓(xùn)練模型在視覺(jué)語(yǔ)義空間中的潛力,以提高開(kāi)放詞匯分割任務(wù)的性能。
原先的SAN模型將來(lái)自兩個(gè)分支的特征簡(jiǎn)單地進(jìn)行了加和融合,這種簡(jiǎn)單的add融合可能無(wú)法充分利用特征之間的相互關(guān)系。為了解決這個(gè)問(wèn)題,本實(shí)驗(yàn)加入了注意力融合機(jī)制AFF機(jī)制,并將其融入SAN模型中。通過(guò)這個(gè)改進(jìn),我們的模型能夠更充分地利用CLIP的先驗(yàn)知識(shí),并更好地挖掘視覺(jué)語(yǔ)義空間域的潛力,從而提高了模型的性能和表現(xiàn)。改進(jìn)后的模型整體框架如圖1所示。在訓(xùn)練期間,我們通過(guò)梯度流來(lái)更新網(wǎng)絡(luò)參數(shù),虛線表示梯度流的路徑。
2.2" AFF模塊
Add層在進(jìn)行元素相加時(shí),沒(méi)有考慮輸入之間的相互關(guān)系和權(quán)重。它只是簡(jiǎn)單地將輸入相加,會(huì)導(dǎo)致一些輸入可能會(huì)對(duì)最終結(jié)果產(chǎn)生較小的貢獻(xiàn),甚至被掩蓋或忽略。這可能導(dǎo)致一些重要的特征或信息在相加過(guò)程中被稀釋或丟失。為了解決這個(gè)問(wèn)題,并充分利用CLIP模型學(xué)習(xí)的圖文對(duì)齊空間域中的豐富語(yǔ)言要素,本文選擇了一種基于MS-CAM[10]改進(jìn)的AFF(Attention-based Feature Fusion)模塊來(lái)改善模型性能。該模塊的主要目標(biāo)是在融合多模態(tài)數(shù)據(jù)時(shí)引入權(quán)重,并根據(jù)這些權(quán)重對(duì)特征進(jìn)行加權(quán)融合,以更好地捕捉重要的特征信息。
AFF模塊的工作流程如下:首先,將來(lái)自兩個(gè)分支網(wǎng)絡(luò)的特征張量進(jìn)行簡(jiǎn)單的對(duì)齊融合處理,以便進(jìn)入后續(xù)處理。然后,使用融合結(jié)果作為引導(dǎo)信息,AFF模塊生成權(quán)重,這些權(quán)重指導(dǎo)著特征的重要性。最后,利用這些權(quán)重對(duì)融合后的特征張量進(jìn)行加權(quán)變換,并將加權(quán)后的特征作為下一個(gè)模塊的輸入。
具體而言,AFF模塊通過(guò)卷積操作來(lái)獲取局部和全局的特征,并利用注意力機(jī)制在空間上融合多尺度的特征。這種設(shè)計(jì)可以同時(shí)捕捉到局部和全局的上下文信息,以更好地理解圖像和文本之間的關(guān)系。通過(guò)引入注意力權(quán)重來(lái)指導(dǎo)特征的加權(quán)融合,AFF模塊能夠更好地關(guān)注對(duì)最終結(jié)果有重要貢獻(xiàn)的特征。
通過(guò)這種改進(jìn)的AFF模塊,模型能夠更好地利用CLIP模型學(xué)習(xí)到的圖文對(duì)齊空間域,從而提高模型的性能和效果。這種結(jié)構(gòu)的設(shè)計(jì)能夠更好地融合多模態(tài)數(shù)據(jù),并更準(zhǔn)確地捕捉到重要的特征信息,從而提升模型在開(kāi)放詞匯語(yǔ)義分割任務(wù)中的表現(xiàn)。AFF模塊結(jié)構(gòu)如圖2所示。
圖2" AFF模塊
核心公式計(jì)算如下:
Z = M ( X ?Y ) ? X + (1 - M ( X ?Y )) ? Y
3" 實(shí)驗(yàn)結(jié)果與分析
3.1" 實(shí)驗(yàn)數(shù)據(jù)集
本文在6個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),這些數(shù)據(jù)集包括:
COCO Stuff [6]:COCO Stuff數(shù)據(jù)集包含16.4萬(wàn)張圖像和171個(gè)注釋類別。它被劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,分別包含11.8萬(wàn)、0.5萬(wàn)和4.1萬(wàn)張圖像。在本文的實(shí)驗(yàn)中,我們使用完整的11.8萬(wàn)張訓(xùn)練集作為訓(xùn)練數(shù)據(jù),用于訓(xùn)練模型。
ADE20K-150[7]:ADE20K-150是一個(gè)大規(guī)模場(chǎng)景理解數(shù)據(jù)集,包含2萬(wàn)張訓(xùn)練圖像和0.2萬(wàn)張驗(yàn)證圖像。該數(shù)據(jù)集共有150個(gè)注釋類別,用于進(jìn)行語(yǔ)義分割任務(wù)。
ADE20K-847[7]:ADE20K-847與ADE20K-150具有相同的圖像集,但具有847個(gè)注釋類別,這使得該數(shù)據(jù)集對(duì)于開(kāi)放詞匯語(yǔ)義分割來(lái)說(shuō)具有挑戰(zhàn)性。
Pascal VOC[8]:Pascal VOC是一個(gè)常用的語(yǔ)義分割數(shù)據(jù)集,包含20個(gè)注釋類別。該數(shù)據(jù)集的訓(xùn)練集和驗(yàn)證集分別包含1 464張和1 449張圖像。
Pascal Context-59(PC-59):Pascal Context-59是用于語(yǔ)義理解的數(shù)據(jù)集,包含0.5萬(wàn)張訓(xùn)練圖像和0.5萬(wàn)張驗(yàn)證圖像。該數(shù)據(jù)集共有59個(gè)帶注釋的類別,用于進(jìn)行語(yǔ)義分割任務(wù)。
Pascal Context-459(PC-459):Pascal Context-459與Pascal Context-59具有相同的圖像集,但注釋的類別更多(459個(gè)類別)。它廣泛用于開(kāi)放詞匯語(yǔ)義分割任務(wù)。
在本實(shí)驗(yàn)中,為了滿足開(kāi)放詞匯的需求,模型使用COCO Stuff的訓(xùn)練集進(jìn)行訓(xùn)練,并在其他五個(gè)數(shù)據(jù)集上進(jìn)行評(píng)估,以評(píng)估其在不同數(shù)據(jù)集上的泛化性能和適應(yīng)性。這樣的實(shí)驗(yàn)設(shè)計(jì)可以更全面地驗(yàn)證模型的魯棒性和效果。
3.2" 實(shí)驗(yàn)環(huán)境與參數(shù)設(shè)置
本文所提出的模型基于Detectron2深度學(xué)習(xí)框架和wandb可視化平臺(tái)進(jìn)行搭建、訓(xùn)練以及測(cè)試。具體軟硬件環(huán)境如表1所示。
表1" 實(shí)驗(yàn)軟硬件環(huán)境
軟硬件名稱 詳細(xì)信息
CPU Intel(R) Xeon(R) Silver 4216
GPU NVIDIA GeForce RTX4070
內(nèi)存大小 96.0 GB
顯存大小 16.0 GB
操作系統(tǒng) Windows Server 2019
編程語(yǔ)言 Python 3.8.15
CUDA版本 3.9.18
訓(xùn)練時(shí)使用dice損失Lmake_dice和二進(jìn)制交叉熵?fù)p失Lmake_bce來(lái)監(jiān)督掩碼生成,交叉熵?fù)p失Lcls來(lái)監(jiān)督掩模識(shí)別。總損失為L(zhǎng)seg = λ1Lmake_dice + λ1Lmake_bce + λ1Lcls,損失權(quán)重λ1、λ2和λ3分別為5.0、5.0和2.0。然后用AdamW優(yōu)化器不斷調(diào)整優(yōu)化網(wǎng)絡(luò)參數(shù)。批次大小設(shè)置為32。
3.3" 評(píng)估標(biāo)準(zhǔn)
為了對(duì)模型開(kāi)放詞匯分割性能進(jìn)行定量分析,本文采用圖像語(yǔ)義分割領(lǐng)域常用的評(píng)估指標(biāo):平均交并比(MIoU),Dice系數(shù)(Dice Coefficient),像素準(zhǔn)確率(PACC),頻權(quán)交并比(FwIoU)等。上述指標(biāo)的值都在0和1之間,越接近1表示模型的效果越好。計(jì)算方法如式(1)至式(3):
(1)
(2)
(3)
其中,k表示類別數(shù),TP(True Positive)表示被模型預(yù)測(cè)為正的正樣本,TN(True Negative)表示被模型預(yù)測(cè)為負(fù)的負(fù)樣本,F(xiàn)P(False Positive)表示被模型預(yù)測(cè)為正的負(fù)樣本,F(xiàn)N(False Negative)表示被模型預(yù)測(cè)為負(fù)的正樣本。
3.4" 實(shí)驗(yàn)結(jié)果與分析
3.4.1" 開(kāi)放詞匯分割效果展示
利用文本描述作為監(jiān)督信號(hào)進(jìn)行圖像分割的方法稱為開(kāi)放詞匯指導(dǎo)圖像分割,它可以提高模型的泛化能力和可擴(kuò)展性,處理訓(xùn)練期間未見(jiàn)過(guò)的類別。它利用自然語(yǔ)言輸入來(lái)指導(dǎo)模型的輸出,實(shí)現(xiàn)多種下游任務(wù)。通過(guò)使用不同的文字,我們可以實(shí)現(xiàn)不同粒度的分割結(jié)果,滿足特定任務(wù)的需求。
開(kāi)放詞匯指導(dǎo)圖像分割是一種提示學(xué)習(xí)的方法,利用自然語(yǔ)言描述中的關(guān)鍵詞匯或短語(yǔ)來(lái)提供關(guān)于圖像中目標(biāo)物體位置和形狀的線索。模型通過(guò)學(xué)習(xí)從文本到圖像分割結(jié)果的映射關(guān)系,將文本指導(dǎo)轉(zhuǎn)化為準(zhǔn)確的圖像分割輸出。這種方法的優(yōu)點(diǎn)在于不僅可以處理已知類別的分割任務(wù),還能應(yīng)對(duì)訓(xùn)練期間未見(jiàn)過(guò)的新類別,具有更強(qiáng)的泛化能力。
如圖3所示,展示了同一張圖使用不同的文字指導(dǎo)進(jìn)行分割的四種結(jié)果。第一幅圖中,我們傳入的文本為“apple”,模型返回了原圖,因?yàn)閳D像中并不包含蘋果。在第二幅圖中,我們沒(méi)有指定具體的文本,模型進(jìn)行了全景分割,將圖像中的各個(gè)物體進(jìn)行了分割,包括自行車、人和狗等。這種全景分割提供了整體的場(chǎng)景理解,但在具體物體的分割上可能不如有針對(duì)性的文本指導(dǎo)準(zhǔn)確。在第三幅圖和第四幅圖中,我們分別給出了“man”和“dog”這兩個(gè)關(guān)鍵詞作為文本指導(dǎo)。模型根據(jù)這些關(guān)鍵詞,成功地將圖像中的人和狗進(jìn)行了準(zhǔn)確的分割。這說(shuō)明通過(guò)給定特定的關(guān)鍵詞,模型能夠根據(jù)文本指導(dǎo)更加精確地分割出感興趣的對(duì)象。
這四幅圖展示了使用不同的文本指導(dǎo)進(jìn)行圖像分割的效果,清晰地展示了不同文本輸入對(duì)分割結(jié)果的影響。通過(guò)合理選擇和引導(dǎo)文本,我們可以實(shí)現(xiàn)對(duì)特定目標(biāo)的精確分割,從而提高圖像分割的準(zhǔn)確性和效果。
3.4.2" 改進(jìn)后的方法的表現(xiàn)
為了驗(yàn)證改進(jìn)后模型的有效性,本文與SimSeg[14]、OvSeg[15]和MaskCLIP[16]等采用CLIP-ViT模型和COCO Stuff訓(xùn)練集的方法進(jìn)行了比較,并對(duì)相同的分割任務(wù)進(jìn)行了定量分析。分割結(jié)果如表2所示,其中加粗字體表示最佳性能指標(biāo)。通過(guò)對(duì)比可以得出,本文改進(jìn)后的模型在各個(gè)驗(yàn)證集上都展現(xiàn)出明顯的優(yōu)勢(shì),整體表現(xiàn)高于其他網(wǎng)絡(luò)模型。
值得注意的是,本文方法在PC-459驗(yàn)證集上的改進(jìn)效果尤為顯著,相較于改進(jìn)前提升了2.3%的性能。其次,我們的方法在其他驗(yàn)證集上也取得了逐步提升,分別為0.5%、0.3%、0.3%,盡管有一組驗(yàn)證集的表現(xiàn)沒(méi)有明顯提升,任能表明本文方法在多個(gè)驗(yàn)證集上都能夠取得具有競(jìng)爭(zhēng)力的性能。
表2" 不同模型基于COCO訓(xùn)練集的驗(yàn)證集的表現(xiàn)mIoU 單位:%
Method Param/百萬(wàn) ADE-847 PC-459 ADE-150 PC-59 VOC
SimSeg 61.1 7.0 8.9 20.5 47.7 88.4
OvSeg 147.2 7.1 11.0 24.8 53.5 92.6
MaskCLIP 63.1 8.2 10.0 23.7 45.9 —
SAN 8.4 10.1 12.6 27.5 53.8 94.0
本文方法 8.61 10.4 14.9 28.0 54.1 93.9
此外,我們還與其他方法在可訓(xùn)練參數(shù)方面進(jìn)行了比較。令人欣慰的是,我們的方法僅增加了21萬(wàn)的參數(shù)量,仍然保持了輕量化的特性,同時(shí)表現(xiàn)出優(yōu)秀的分割性能。這意味著我們的方法在實(shí)現(xiàn)高效率和高質(zhì)量之間取得了良好的平衡,為實(shí)際應(yīng)用提供了更具吸引力的選擇。
3.4.3" 進(jìn)一步分析
進(jìn)一步分析數(shù)據(jù)集之間的關(guān)系,如表3所示,可以發(fā)現(xiàn)在5個(gè)驗(yàn)證數(shù)據(jù)集中,Pascal VOC和Pascal Context-59之間的標(biāo)簽與訓(xùn)練集COCO Stuff的標(biāo)簽的相似度最高,約為90%。而Pascal Context-459、ADE20K-150和ADE20K-847與COCO Stuff之間的相似度得分較低,分別為0.75、0.73和0.57,能夠更好地評(píng)估跨領(lǐng)域的開(kāi)放詞匯。本文改進(jìn)的AFF模塊根據(jù)通道注意力劃分權(quán)重,重新分配了文本空間域特征的比重。結(jié)合實(shí)驗(yàn)結(jié)果,可以觀察到表現(xiàn)提升最為明顯的Pascal Context-459和次高的ADE20K-150,其標(biāo)簽相似度居中。相似度較高的數(shù)據(jù)集對(duì)于方法的性能提升有限,而相似度較低的數(shù)據(jù)集則用有更大的提升空間。這說(shuō)明本文的方法在融合文字和圖像特征方面發(fā)揮了一定的作用。
表3" 不同驗(yàn)證集與COCO stuff的標(biāo)簽相似度
Dataset Labelsim.to COCO stuff
Pascal VOC 0.91
Pascal Context-59 0.86
Pascal Context-459 0.70
ADE20K-150 0.73
ADE20K-847 0.57
未來(lái)改進(jìn)開(kāi)放詞匯分割方法,可以從文字提示工程方面入手,或者探索更好的多模態(tài)域的交互方式。通過(guò)進(jìn)一步優(yōu)化文字和圖像之間的交互方式,可以提高分割算法在處理開(kāi)放詞匯時(shí)的效果。此外,還可以考慮從工程的角度改進(jìn)方法,以更好地處理開(kāi)放詞匯的挑戰(zhàn)。這些探索將有助于進(jìn)一步推動(dòng)開(kāi)放詞匯分割領(lǐng)域的研究和發(fā)展。
4" 結(jié)" 論
本文提出了的融合多尺度通道注意力的SAN模型改進(jìn)方法,并與多個(gè)基準(zhǔn)方法比較,結(jié)果顯示,我們的方法在僅增加21萬(wàn)參數(shù)的情況下展現(xiàn)出相對(duì)優(yōu)越的性能,尤其是在Pascal Context-459數(shù)據(jù)集上表現(xiàn)提升了2.3%,并且模型在參數(shù)量上仍然保持輕量化的特點(diǎn)。此外,我們展示了文本指導(dǎo)分割的效果圖,并分析了實(shí)驗(yàn)結(jié)果分布與標(biāo)簽分布之間的關(guān)系。總之,本文的工作是在開(kāi)放詞匯圖像分割領(lǐng)域的一次有意義的探索,在四個(gè)圖像分割數(shù)據(jù)集上超越了之前的最先進(jìn)的方法,證明了它的優(yōu)越性和創(chuàng)新性。本文的工作為圖像分割領(lǐng)域的發(fā)展和進(jìn)步提供了新的視角和啟示,也為未來(lái)的研究者和工程師提供了新的思路和方向。我們希望本文的工作能夠激發(fā)更多的研究興趣和活力,推動(dòng)圖像分割領(lǐng)域的發(fā)展和創(chuàng)新。
參考文獻(xiàn):
[1] CHENG B,MISRA S,SCHWING A G,et al. Masked-attention Mask Transformer for Universal Image Segmentation [C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).New Orleans:IEEE,2022:1280-1289.
[2] CHEN L C,PAPANDREOU G,KOKKINOS L. DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2018,40(4):834-848.
[3] RADFORD A,KIM J W,HALLACY C,et al. Learning Transferable Visual Models From Natural Language Supervision [J/OL].arXiv:2103.00020 [cs.CV].[2023-10-19].https://arxiv.org/abs/2103.00020.
[4] GHIASI G,GU X Y,CUI Y. Scaling Open-Vocabulary Image Segmentation with Image-Level Labels [J/OL].arXiv:2112.12143 [cs.CV].[2023-10-19].https://arxiv.org/abs/2112.12143.
[5] RADFORD A,KIM J W,HALLACY C,et al. Learning Transferable Visual Models From Natural Language Supervision [J/OL].arXiv:2103.00020 [cs.CV].[2023-10-19].https://arxiv.org/abs/2103.00020.
[6] JIA C,YANG Y F,XIA Y,et al. Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision [J/OL].arXiv:2102.05918 [cs.CV].[2023-10-10].https://arxiv.org/abs/2102.05918.
[7] DING J,XUE N,XIA G S,et al. Decoupling Zero-Shot Semantic Segmentation [C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).New Orleans:IEEE,2022:11573-11582.
[8] XU M D,ZHANG Z,WEI F Y,et al. Side Adapter Network for Open-Vocabulary Semantic Segmentation [C]//2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Vancouver:IEEE,2023:2945-2954.
[9] QI L,KUEN J,GUO W D,et al. High-Quality Entity Segmentation [J/OL].arXiv:2211.05776 [cs.CV].[2023-10-10].https://arxiv.org/abs/2211.05776.
[10] CAESAR H,UIJLINGS J,F(xiàn)ERRARI V. COCO-Stuff: Thing and Stuff Classes in Context [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:1209-1218.
[11] DAI Y M,GIESEKE F,OEHMCKE S,et al. Attentional Feature Fusion [C]//2021 IEEE Winter Conference on Applications of Computer Vision (WACV).Waikoloa:IEEE,2021:3559-3568.
[12] ZHOU B L,ZHAO H,PUIG X,et al. Scene Parsing through ADE20K Dataset [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Honolulu:IEEE,2017:5122-5130.
[13] EVERINGHAM M,GOOL L V,WILLIAMS C K I. The PASCAL Visual Object Classes (VOC) Challenge [J].International Journal of Computer Vision,2010,88:303-338.
[14] XU M D,ZHANG Z,WEI F Y,et al. A Simple Baseline for Open-Vocabulary Semantic Segmentation with Pre-trained Vision-Language Model [C]//Computer Vision - ECCV 2022.Tel Aviv:Springer,2022:736-753.
[15] LIANG F,WU B,DAI X L,et al. Open-Vocabulary Semantic Segmentation with Mask-adapted CLIP [J/OL].arXiv:2210.04150 [cs.CV].[2023-10-10].https://arxiv.org/abs/2210.04150.
[16] DING Z,WANG J K,TU Z W. Open-Vocabulary Universal Image Segmentation with MaskCLIP" [J/OL].arXiv:2208.08984 [cs.CV].[2023-10-15].https://arxiv.org/abs/2208.08984.
作者簡(jiǎn)介:武玲(1992—),女,漢族,四川達(dá)州人,碩士研究生在讀,主要研究方向:機(jī)器學(xué)習(xí)、圖像處理;通訊作者:張虹(1977—),女,漢族,山西太原人,副教授,博士,主要研究方向:人工智能、區(qū)塊鏈與智能數(shù)據(jù)。