中圖分類(lèi)號(hào):TP391 文獻(xiàn)標(biāo)志碼:A
0 引言
交互式圖像分割旨在通過(guò)最少的用戶(hù)操作分割圖像中的指定目標(biāo),常用的交互方式有點(diǎn)擊[1]、繪制邊界框[2]和涂鴉[3]。其中,基于點(diǎn)擊的交互式圖像分割的核心原理是用戶(hù)提供簡(jiǎn)單的點(diǎn)擊輸入來(lái)引導(dǎo)模型實(shí)現(xiàn)準(zhǔn)確的對(duì)象分割,得益于這種標(biāo)注范式獨(dú)特的交互性和時(shí)效性,它被廣泛應(yīng)用于醫(yī)學(xué)圖像分析[4]安全監(jiān)控5和圖像編輯[6等領(lǐng)域。
經(jīng)過(guò)多年的發(fā)展,交互式圖像分割涌現(xiàn)了大量?jī)?yōu)秀的算法,然而,將用戶(hù)交互先驗(yàn)高效地嵌人算法模型仍然是交互式圖像分割算法的難題。同樣地,隨著近些年深度學(xué)習(xí)的出現(xiàn),交互式圖像分割也被分為傳統(tǒng)的非深度交互式圖像分割算法與基于深度學(xué)習(xí)的交互式圖像分割算法。
傳統(tǒng)的非深度圖像分割算法主要是指利用簡(jiǎn)單的顏色空間特征或者其他手工設(shè)計(jì)的特征來(lái)構(gòu)建圖像分割算法的模型。這類(lèi)算法在一些簡(jiǎn)單的圖像中已經(jīng)獲得了較好的分割結(jié)果,然而這些低級(jí)特征對(duì)不同場(chǎng)景的圖像缺乏一定的魯棒性,例如光照變化、角度變化、遮擋以及復(fù)雜背景等問(wèn)題。傳統(tǒng)非深度圖像分割算法主要分為基于閾值的分割方法[7]、基于區(qū)域的分割方法[8]、基于邊緣檢測(cè)的方法[9]、結(jié)合特定工具的分割方法[10]等。
近些年,深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)領(lǐng)域取得了顯著的效果,同樣也大大促進(jìn)了基于深度學(xué)習(xí)的圖像分割算法的發(fā)展。2016年, Xu 等2提出了深度交互式目標(biāo)選擇算法(Deep interactive Object Selection,DOS),是基于深度學(xué)習(xí)的交互式圖像分割的開(kāi)山之作。該算法將用戶(hù)提供的前景與背景的點(diǎn)擊轉(zhuǎn)換為歐式距離映射,并與輸入圖像的RGB通道相拼接,作為全卷積神經(jīng)網(wǎng)絡(luò)(FullyConvolutionalNetwork,F(xiàn)CN)[11]的輸入,通過(guò)圖割優(yōu)化算法對(duì)分割結(jié)果進(jìn)行精細(xì)化處理,奠定了深度交互式圖像分割的基本框架。2017年,Liew等[12]提出了區(qū)域交互式圖像分割網(wǎng)絡(luò),該網(wǎng)絡(luò)利用用戶(hù)提供的種子點(diǎn)附近的信息來(lái)捕獲局部區(qū)域信息,然后利用多尺度全局上下文信息來(lái)提升特征的表達(dá)能力。2019年, Hu 等[13]針對(duì)融合策略問(wèn)題提出了雙流融合交互式圖像分割網(wǎng)絡(luò),采用后融合策略增強(qiáng)用戶(hù)交互信息對(duì)最終分割的影響從而提升網(wǎng)絡(luò)的分割性能。2020年,Lin等[14提出首次點(diǎn)擊注意力網(wǎng)絡(luò)(FirstClickAttentionNetwork,F(xiàn)CA-Net),通過(guò)引入首次點(diǎn)擊注意力模塊,充分挖掘首次點(diǎn)擊蘊(yùn)含的目標(biāo)位置與語(yǔ)義信息,實(shí)現(xiàn)交互次數(shù)與分割精度的優(yōu)化平衡。2021年,Chen等[15」提出了條件傳遞網(wǎng)絡(luò)模型,通過(guò)構(gòu)建關(guān)系矩陣并利用交互點(diǎn)為傳遞起點(diǎn),語(yǔ)義特征為邊界來(lái)限制關(guān)系矩陣的傳遞范圍,顯著提升了分割結(jié)果的準(zhǔn)確性。2024年,Lin等[16]提出了一種新的點(diǎn)擊-像素認(rèn)知融合網(wǎng)絡(luò),包含點(diǎn)擊-像素認(rèn)知融合模塊和平衡歸一化焦點(diǎn)損失。2025年,Li等[17]提出一種無(wú)需預(yù)訓(xùn)練的交互式分割模型適配器,通過(guò)引入少量額外參數(shù)和計(jì)算量,增強(qiáng)交互式分割模型在有限點(diǎn)擊下獲取高質(zhì)量預(yù)測(cè)結(jié)果的能力。
以上這些算法一定程度上提升了交互式圖像分割的效率,但是交互方式所提供的先驗(yàn)信息有限,僅為模型提供了模糊的位置信息,缺乏對(duì)圖像全局結(jié)構(gòu)(如目標(biāo)邊界)的明確感知,因此需要較多點(diǎn)擊交互才能獲得更好的分割效果。為了解決這一問(wèn)題,本文借鑒了人類(lèi)視覺(jué)系統(tǒng)“全局感知-局部細(xì)化”的層級(jí)處理方式,構(gòu)建了獨(dú)特的邊界提取機(jī)制。在認(rèn)知科學(xué)領(lǐng)域,人類(lèi)視覺(jué)系統(tǒng)在觀察圖像時(shí),會(huì)先從宏觀層面捕捉場(chǎng)景的整體語(yǔ)義信息,快速建立對(duì)圖像的基礎(chǔ)認(rèn)知,明確物體的類(lèi)別、位置和大致輪廓。隨后,視覺(jué)注意力會(huì)聚焦于感興趣區(qū)域,對(duì)細(xì)節(jié)進(jìn)行精細(xì)化處理,例如識(shí)別物體的紋理、邊緣特征和細(xì)微結(jié)構(gòu)。基于這一原理,本文提出基于點(diǎn)擊-邊界雙分支協(xié)同引導(dǎo)的交互式圖像分割方法(Click-BoundaryDual-BranchCollaborativeGuidance,CBCIS),旨在融合用戶(hù)點(diǎn)擊提供的位置信息先驗(yàn)與對(duì)象邊界特征的顯式約束,提高分割精度,減輕用戶(hù)的交互負(fù)擔(dān)。
1方法設(shè)計(jì)
CBCIS通過(guò)用戶(hù)點(diǎn)擊和對(duì)象邊界引導(dǎo)相互協(xié)作,使模型在分割過(guò)程中既能利用用戶(hù)感興趣的目標(biāo)位置信息,又能結(jié)合對(duì)象邊界細(xì)節(jié)信息,從而提高分割精度,減輕用戶(hù)交互負(fù)擔(dān)。
1.1 總體架構(gòu)
CBCIS以用戶(hù)點(diǎn)擊信息與對(duì)象邊界特征的雙分支協(xié)同引導(dǎo)為核心,通過(guò)3大模塊的層級(jí)協(xié)作實(shí)現(xiàn)交互式圖像分割精度與交互效率的提升。首先,邊界提取模塊(BoundaryExtractionModule,BEM)負(fù)責(zé)通過(guò)顯式特征與隱式特征的融合策略捕捉對(duì)象邊界,顯式特征利用Sobel算子計(jì)算直觀可見(jiàn)的邊緣輪廓,隱式特征通過(guò)多層卷積挖掘深層語(yǔ)義中的潛在邊界,兩者經(jīng)逐元素相加和卷積優(yōu)化后,形成包含多維度結(jié)構(gòu)信息的邊界特征圖。這些特征圖被輸入邊界特征增強(qiáng)模塊(Boundary Feature Enhancement Module,BFEM),該模塊利用動(dòng)態(tài)權(quán)重融合不同尺度的邊界特征,顯著提升邊界特征在復(fù)雜場(chǎng)景中的表達(dá)能力。增強(qiáng)后的邊界特征與用戶(hù)點(diǎn)擊提示在點(diǎn)擊-邊界相互引導(dǎo)模塊(Click-Boundary Mutual Guidance Module,CBMG)中通過(guò)交叉注意力機(jī)制實(shí)現(xiàn)跨模態(tài)協(xié)同,形成“點(diǎn)擊引導(dǎo)目標(biāo)定位-邊界特征優(yōu)化分割掩碼”的閉環(huán)。整個(gè)架構(gòu)模擬人類(lèi)視覺(jué)“全局感知-局部細(xì)化”的認(rèn)知流程,如圖1所示。
模型以圖像Image、前一輪掩碼 Mν 以及正負(fù)點(diǎn)擊磁盤(pán)圖Mpos和Mneg為輸人,生成視覺(jué)特征F∈R Hwxd和類(lèi)別標(biāo)記 g∈R1×d ,其中 d,H 和 W 分別表示視覺(jué)特征的通道數(shù)、寬度和高度。本文使用ViT作為模型主干來(lái)提取圖像特征,如SimpleClick[22]中所述。為了捕捉多尺度信息,還采用特征金字塔網(wǎng)絡(luò)將多尺度特征融合到最終的視覺(jué)特征中。點(diǎn)擊編碼器旨在將輸入點(diǎn)擊轉(zhuǎn)換為多個(gè)點(diǎn)擊提示,用于捕捉用戶(hù)意圖。它僅利用表示感興趣區(qū)域的正點(diǎn)擊來(lái)初始化點(diǎn)擊提示,同時(shí)提取自標(biāo)邊界信息來(lái)引導(dǎo)用戶(hù)的點(diǎn)擊,點(diǎn)擊-邊界雙分支協(xié)同引導(dǎo)初始化為:
P0=F(MLP(Mpos,BI))
其中, Mpos 為用戶(hù)正點(diǎn)擊磁盤(pán)圖, Bι 為目標(biāo)邊界信息,MLP為多層感知機(jī), T 為分割模型
本文進(jìn)一步引入跨模態(tài)注意力融合點(diǎn)擊-邊界雙分支提示和視覺(jué)特征,為捕捉提示間的協(xié)同關(guān)系引入自注意力模塊,前饋網(wǎng)絡(luò)增強(qiáng)特征的非線(xiàn)性表達(dá)能力,通過(guò)多層級(jí)特征交互與變換,提升點(diǎn)擊-邊界雙分支對(duì)模型分割的引導(dǎo)能力,可以表示如下:
Pcl=fFFN(fSelf(fCross(Pcl-1,F(xiàn))))
其中, Pcl-1 為第l-1層Transformer塊的點(diǎn)擊-邊界雙分支協(xié)同引導(dǎo)提示, F 為視覺(jué)特征,
依次為跨注意力層、自注意力層、前饋網(wǎng)絡(luò)層。
在BEM一共提取4個(gè)不同尺度的特征圖,將這4個(gè)特征圖作為邊界特征圖集合 Fbnd ,表示如下:
圖1CBCIS總體架構(gòu)

Fbnd={F1,F(xiàn)2,F(xiàn)3,F(xiàn)4}
特征 Fbnd 的空間分辨率分別為 H/2n×W/2n(n= 1,2,3,4)
1.2 BEM設(shè)計(jì)
對(duì)于圖像中前景與背景差距明顯的情況,目標(biāo)邊界相對(duì)直觀。可以通過(guò)Sobel算子計(jì)算圖像梯度并結(jié)合非線(xiàn)性變換生成直觀的邊界特征。分別在垂直和水平方向上使用2個(gè)參數(shù)固定的 3×3 卷積核,能夠捕捉沿這2個(gè)方向的空間導(dǎo)數(shù),敏銳感知圖像在不同方向上的灰度變化情況。以步長(zhǎng)1進(jìn)行卷積操作,分別得到水平方向梯度 Gx 和垂直方向梯度 Gy 。水平方向梯度 Gx 為:

垂直方向梯度 Gy 為:

其中, I 代表輸人圖像。通過(guò)垂直和水平梯度的平方和平方根運(yùn)算,得到梯度幅值 G(x,y) :

其中, Gx(x,y) 為 水平方向梯度值, Gy(x,y) 為垂直方向梯度值, G(x,y) 代表坐標(biāo) (x,y) 處的梯度幅值,反映了圖像在該點(diǎn)的邊緣強(qiáng)度。該梯度圖反映了圖像中像素值變化的強(qiáng)度和方向,直觀呈現(xiàn)物體的邊緣輪廓。接著,對(duì)梯度映射進(jìn)行Sigmoid歸一化處理,將梯度值歸一化到[0,1,增強(qiáng)邊緣與非邊緣區(qū)域的對(duì)比度。

最后,將歸一化后的梯度映射與原始輸入特征F(x,y) 相乘,得到顯式邊界特征 Bexplicit(x,y) 。這種顯式邊界特征側(cè)重于直觀地展現(xiàn)圖像中物體的邊緣輪廓,為目標(biāo)的初步定位提供依據(jù)。
Bexplicit=σ(expand(G(x,y)))?F(x,y)
F(x,y) 輸入特征圖,expand表示維度擴(kuò)展操作,通過(guò)梯度權(quán)重調(diào)整原始特征,選擇性地增強(qiáng)邊緣區(qū)域的特征表達(dá),抑制非邊緣區(qū)域。經(jīng)過(guò)上述步驟后,得到顯式邊界特征。
但是,許多實(shí)際圖像中存在目標(biāo)邊緣非直觀可見(jiàn)的情況。此時(shí)須通過(guò)卷積等操作,從圖像數(shù)據(jù)內(nèi)部挖掘出潛在的邊界特征,即通過(guò)卷積層對(duì)輸入圖像數(shù)據(jù)進(jìn)行多層次的特征提取。卷積操作能夠捕捉圖像中不同尺度和方向的局部特征,隨著卷積層的堆疊,逐漸挖掘出圖像中較為抽象的潛在邊界信息。之后,利用Sigmoid激活函數(shù)對(duì)卷積得到的特征進(jìn)行歸一化處理,將特征值映射到[0,1],突出潛在邊界特征,抑制非邊界相關(guān)特征,從而得到隱式邊界特征。這種方式能夠深入挖掘圖像中隱藏的、不易直接觀察到的邊界信息,為后續(xù)的邊界特征融合提供豐富的細(xì)節(jié)補(bǔ)充。
Bimplicit=σ(expand(Conv(F(x,y))))
其中, F(x,y) 輸入特征圖,Conv表示卷積操作,expand表示維度擴(kuò)展操作。
在獲取隱式邊界特征和顯式邊界特征后,將二者進(jìn)行融合,進(jìn)一步調(diào)整和優(yōu)化特征表示,增強(qiáng)特征的表達(dá)能力,融合方法如下:

其中, Bfeature 為融合后的邊界特征, Bexplicit 為顯式邊界特征, Bimplicit 為隱式邊界特征,Conv 是卷積操作,Add是逐元素相加。
1.3 BFEM設(shè)計(jì)
該模塊旨在更全面、精準(zhǔn)地獲取對(duì)象邊界信息,為后續(xù)的圖像分割提供豐富且準(zhǔn)確的特征,從而提升分割精度,使分割結(jié)果更貼合實(shí)際物體形態(tài)。圖像低層特征來(lái)自編碼器淺層,分辨率較高,包含豐富的像素,提供精確空間定位,但缺乏語(yǔ)義理解能力,無(wú)法區(qū)分真實(shí)邊界與噪聲、偽影。高層特征空間分辨率低,無(wú)法直接用于精確分割,須依賴(lài)低層特征補(bǔ)充細(xì)節(jié)。為了增強(qiáng)模型邊緣信息的表達(dá)能力,本文通過(guò)動(dòng)態(tài)權(quán)重分配來(lái)增強(qiáng)邊緣特征,基于低層特征 F1 和高層特征 F4 輸人特征生成動(dòng)態(tài)權(quán)重:
W=σ(MLP(AP(Concat(Bfeature1,Bfeature4))))
其中, Bfeature1 和 Bfeature4 分別為低層特征 F1 和高層特征 F4 經(jīng)過(guò)BEM得到的邊緣特征圖, AP 表示平均池化層, Concat(?,?) 為拼接操作,MLP是多層感知機(jī),Conv是卷積操作, σ 是Sigmoid激活函數(shù)。使用生成的權(quán)重 W 對(duì)低層特征和高層特征進(jìn)行加權(quán)融合:
Ffusion=W?Bfeature1+(1-W)?Bfeature4
低層特征 F1 提供高分辨率梯度信息,用于定位邊界的具體位置;高層特征 F4 提供語(yǔ)義信息,過(guò)濾無(wú)效邊緣,這種雙邊界的設(shè)計(jì)理念,打破了傳統(tǒng)單一邊界提取方式的局限,為對(duì)象邊界特征的提取提供了更豐富的視角。提取得到的邊界掩碼會(huì)作為后續(xù)模塊的輸入,為整個(gè)交互式圖像分割流程提供重要的邊界信息引導(dǎo),幫助模型更好地理解圖像中物體的形狀和范圍,從而為準(zhǔn)確的分割結(jié)果奠定基礎(chǔ)。
1.4 CMBG設(shè)計(jì)
增強(qiáng)后的邊界特征會(huì)被傳遞到CMBG,用于和點(diǎn)擊提示分支的信息進(jìn)行融合。通過(guò)強(qiáng)化邊界特征,能夠在后續(xù)的融合過(guò)程中,更有效地與點(diǎn)擊提示信息相互協(xié)作,從而幫助模型在分割過(guò)程中更好地利用邊界細(xì)節(jié)信息,提升分割的精度。設(shè)點(diǎn)擊提示為 P∈ RN×d ,邊界特征為 B∈RH×W×d ,則交叉注意力可統(tǒng)一表示為:

其中,通過(guò)點(diǎn)擊提示對(duì)邊界特征加權(quán),增強(qiáng)目標(biāo)區(qū)域的邊界響應(yīng), QP=PWQ,KB=BWK,VB=BWV 。通過(guò)邊界特征動(dòng)態(tài)調(diào)整點(diǎn)擊提示的權(quán)重,減少模糊區(qū)域的誤定位, QB=BW′Q,KP=PW′K,VP=PW′V°W WQ ,Wκ,Wν,W′Q,W′κ,W′V 為可學(xué)習(xí)的線(xiàn)性變換矩陣,
為縮放因子,防止點(diǎn)積數(shù)值過(guò)大導(dǎo)致梯度不穩(wěn)定。
1.5損失函數(shù)
在交互式分割算法中,損失通常使用二元交叉熵?fù)p失(Binary Cross-Entropy Loss,BCE Loss)計(jì)算,該損失更關(guān)注分割的全局效果。損失函數(shù)通過(guò)將分割真實(shí)標(biāo)簽 Mi 和最終預(yù)測(cè)結(jié)果
視為2種不同的概率分布來(lái)計(jì)算。較小的交叉熵意味著這2種概率分布更接近,表明模型訓(xùn)練收斂。

N 是圖像的總像素?cái)?shù), Mi 和
分別是第 i 個(gè)像素的真實(shí)標(biāo)簽和預(yù)測(cè)標(biāo)簽。
鑒于用戶(hù)點(diǎn)擊和邊界提示代表來(lái)自不同模態(tài)的信息,通過(guò)對(duì)比學(xué)習(xí)實(shí)現(xiàn)標(biāo)簽文本提示與交互信息語(yǔ)義對(duì)齊,計(jì)算公式如下:

其中, τ 表示溫度參數(shù),用于調(diào)節(jié)對(duì)比學(xué)習(xí)中softmax分布的平滑程度. sin(?,?) 表示2個(gè)向量的相似度函數(shù)。
由于目標(biāo)邊界的分割對(duì)總損失函數(shù)影響較大,為了獲得更高質(zhì)量的邊界分割,本文引人邊界分割損失函數(shù):

其中, yi 和
分別是第 i 個(gè)像素的真實(shí)值和預(yù)測(cè)標(biāo)簽, ,N 是圖像的總像素?cái)?shù)量。
綜上所述,總損失由主要分割損失 Lseg 、邊界損失 Lbnd 和 Lc-b 組成,總損失可表示為:
L=λlseg+λ2Lbnd+λ3Lc-b
其中, λ1…λ2…λ3 分別為控制損失分量權(quán)重的因子。
2 實(shí)驗(yàn)與分析
本節(jié)評(píng)估了本文所提出的CBCIS方法的有效性。實(shí)驗(yàn)旨在證明該方法相較于最先進(jìn)的現(xiàn)有方法具有更優(yōu)越的性能并驗(yàn)證其在不同數(shù)據(jù)集上的泛化能力。
2.1 評(píng)價(jià)指標(biāo)
實(shí)驗(yàn)采用平均交并比(meanIntersection overUnion,mIoU)和平均點(diǎn)擊次數(shù)(meanNumberofClicks,mNoC)2項(xiàng)指標(biāo)來(lái)評(píng)價(jià)交互式圖像分割任務(wù)的性能。mIoU通過(guò)量化真實(shí)分割與預(yù)測(cè)結(jié)果的重疊程度來(lái)綜合評(píng)估分割質(zhì)量,數(shù)值越高表明分割性能越優(yōu)。而 ΠmNoC 則用于衡量測(cè)試過(guò)程中用戶(hù)交互的頻繁程度:更少的點(diǎn)擊次數(shù)不僅意味著用戶(hù)輸入量的減少,還反映了模型高效的交互設(shè)計(jì)與友好的用戶(hù)體驗(yàn)。其中, mNoC@85 和
指標(biāo)分別表示達(dá)到 85% 和 90% mloU所需的平均點(diǎn)擊次數(shù)。
2.2定量實(shí)驗(yàn)
本文在5個(gè)常用的圖像分割數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn):GrabCut[18]、Berkeley[19]、 SBD[20] 、DAVIS[21]、Pascal VOC[22] 。表1展示了各算法在5個(gè)自然圖像數(shù)據(jù)集的測(cè)試結(jié)果,包含在SBD數(shù)據(jù)集訓(xùn)練的模型和在 COCO+LVIS[23-24] 數(shù)據(jù)集訓(xùn)練的模型。實(shí)驗(yàn)的算法包括深度交互式目標(biāo)選擇(DeepInteractiveObjectSelection,DIOS)[2]、基于潛在多樣性的分割(LatentDiversity-based Segmentation,LD)[25]、反向傳播細(xì)化方案(Backpropagating Refinement Scheme,BRS)[26]、f-BRS[27] CDNet[28]、RITM[1]、PseudoClick[29]FocalClick[30]、FocusCut[31]、SimpleClick[32]和 MFP[33] 。
本文提出的方法在所有數(shù)據(jù)集上均表現(xiàn)出優(yōu)越性能。該方法在SBD數(shù)據(jù)集上訓(xùn)練的CBCIS(ViT-B)模型在Berkeley數(shù)據(jù)集上的 NoC@90 值為1.77,較SimpleClick(ViT-B)的2.46次減少 30% ,較FocusCut(ResNet-101)的3.01次減少 41% 。這一提升源于BEM對(duì)圖像中物體輪廓的多層次表達(dá),既通過(guò)顯式邊界快速定位大致形態(tài),又通過(guò)隱式邊界補(bǔ)充潛在細(xì)節(jié)。在包含背景干擾場(chǎng)景的DAVIS數(shù)據(jù)集中,CBCIS(ViT-L)的 NoC@90 值為4.35,顯著低于RITM(HRNet-18)的5.43和f-BRS(ResNet-101)的7.73,這得益于BFEM通過(guò)動(dòng)態(tài)權(quán)重融合低層高分辨率梯度信息與高層語(yǔ)義特征,有效過(guò)濾背景噪聲并聚焦目標(biāo)邊界,使模型在復(fù)雜動(dòng)態(tài)場(chǎng)景中能更高效地利用用戶(hù)點(diǎn)擊信息。此外,在GrabCut數(shù)據(jù)集上將NoC@90 值從SimpleClick的1.54次降至1.35次,驗(yàn)證了協(xié)同引導(dǎo)機(jī)制對(duì)用戶(hù)意圖提示的有效性。
在 COCO+LVIS 大數(shù)據(jù)集訓(xùn)練的模型中,CBCIS的跨場(chǎng)景泛化能力與交互效率進(jìn)一步提升。大規(guī)模數(shù)據(jù)為模型提供了豐富的實(shí)例多樣性,使其能夠?qū)W習(xí)更魯棒的邊界特征表示與點(diǎn)擊-邊界映射關(guān)系。在PascalVOC數(shù)據(jù)集(多類(lèi)別常見(jiàn)物體場(chǎng)景)中,CBCIS(ViT-L)的 NoC@90 值為1.85,低于 SimpleClick(ViT-L)的1.96(降幅 5.6% )和PseudoClick(HRNet-32)的2.25(降幅 17.8% ),體現(xiàn)了BFEM對(duì)不同尺度目標(biāo)邊界的適應(yīng)性。在DAVIS數(shù)據(jù)集上,CBCIS(ViT-B)的NoC@90 值為4.75,較FocalClick(SegF-B0)的7.06減少 33% 。以上數(shù)據(jù)表明,所提出的融合用戶(hù)點(diǎn)擊位置信息與對(duì)象邊界特征雙分支協(xié)同引導(dǎo)框架能夠有效提升分割精度并減輕交互負(fù)擔(dān)。
表1CBCIS與最先進(jìn)的交互式分割方法的對(duì)比結(jié)果

2.3定性實(shí)驗(yàn)
此外,通過(guò)可視化大目標(biāo)、小目標(biāo)以及模糊邊緣場(chǎng)景下的分割結(jié)果進(jìn)一步分析模型分割性能,如圖2所示。前2列展示的為CBCIS分割大目標(biāo)的效果,可以很明顯看出在單次點(diǎn)擊交互下,模型的分割準(zhǔn)確率達(dá)到了 90% 以上,對(duì)于前景和背景區(qū)分明顯的目標(biāo)分割準(zhǔn)確率達(dá)到了 95% 以上;對(duì)于邊界較為模糊的大目標(biāo),如第1列第2行的狗和第1列第3行的鴨子,CBCIS通過(guò)點(diǎn)擊-邊界雙分支協(xié)同機(jī)制實(shí)現(xiàn)全局輪廓的高效捕捉并避免局部細(xì)節(jié)干擾,達(dá)到了比較理想的分割效果。小目標(biāo)的邊界像素少且易受噪聲影響,傳統(tǒng)模型常因感受野不足導(dǎo)致邊緣模糊或漏分割。BFEM通過(guò)動(dòng)態(tài)融合低層高分辨率特征與高層語(yǔ)義特征,實(shí)現(xiàn)對(duì)小目標(biāo)的精準(zhǔn)定位。例如第3列展示了模型對(duì)小自標(biāo)的分割結(jié)果,如雪地中的人和狐貍、草原上的遠(yuǎn)處的牛和長(zhǎng)頸鹿,模型的分割準(zhǔn)確率也達(dá)到了 90% 以上。對(duì)于目標(biāo)較小且邊緣模糊或低對(duì)比度場(chǎng)景的目標(biāo),傳統(tǒng)方法因其缺乏全局邊界引導(dǎo),須多次點(diǎn)擊修正邊緣偏差,增加用戶(hù)的交互負(fù)擔(dān),而且分割效果往往不理想。CBCIS通過(guò)隱式邊界挖掘與協(xié)同引導(dǎo)機(jī)制突破這一限制,如第4列第3行巖石中的豹子和第5列第2行巖石中的羊,目標(biāo)與背景對(duì)比度較低,人眼甚至很難區(qū)分,CBCIS通過(guò)多層卷積從深層特征中挖掘隱式邊界,利用用戶(hù)點(diǎn)擊信息先驗(yàn)生成初步邊緣,通過(guò)對(duì)比學(xué)習(xí)強(qiáng)制點(diǎn)擊提示與邊界特征語(yǔ)義對(duì)齊,形成“點(diǎn)擊引導(dǎo)目標(biāo)定位-邊界特征優(yōu)化分割掩碼”的閉環(huán)優(yōu)化。
圖2模型分割結(jié)果可視化

綜上,CBCIS的創(chuàng)新框架通過(guò)模擬人類(lèi)視覺(jué)的“全局感知-局部細(xì)化”機(jī)制,系統(tǒng)地提升了不同場(chǎng)景下的分割效率。其可視化結(jié)果充分驗(yàn)證了點(diǎn)擊-邊界協(xié)同引導(dǎo)交互式圖像分割的有效性。
3結(jié)語(yǔ)
本文針對(duì)傳統(tǒng)基于點(diǎn)擊的交互式圖像分割中用戶(hù)提示信息類(lèi)型單一和對(duì)象區(qū)域感知不足的問(wèn)題,提出了一種點(diǎn)擊邊界雙分支協(xié)同引導(dǎo)框架CBCIS。通過(guò)模擬“全局感知”到人類(lèi)視覺(jué)系統(tǒng)的“局部細(xì)化”機(jī)制,實(shí)現(xiàn)用戶(hù)點(diǎn)擊先驗(yàn)(位置線(xiàn)索)和對(duì)象邊界特征(范圍約束)之間的深度協(xié)作。核心內(nèi)容包括:首先,分別通過(guò)Sobel算子和多個(gè)卷積層融合顯式特征信息和隱式特征信息,有效提取圖像中的對(duì)象邊界特征。其次,采用多尺度特征圖融合策略,提高邊界特征的可辨性。再次,設(shè)計(jì)了一個(gè)基于交叉注意力的協(xié)同引導(dǎo)模塊,實(shí)現(xiàn)點(diǎn)擊先驗(yàn)和邊界特征提示之間的語(yǔ)義對(duì)齊,快速定位目標(biāo),捕獲全局形狀,從而提高模型的分割效率。最后,在5個(gè)自然圖像數(shù)據(jù)集的實(shí)驗(yàn)證明了該模型的出色性能。實(shí)驗(yàn)證明,CBCIS通過(guò)融合多級(jí)邊界特征和點(diǎn)擊先驗(yàn),顯著提高了交互效率和分割精度。未來(lái)的研究將側(cè)重于輕量級(jí)設(shè)計(jì)和視頻分割擴(kuò)展,以提高在實(shí)際應(yīng)用場(chǎng)景中的適用性。
參考文獻(xiàn)
[1]SOFIIUK K,PETROVIA,KONUSHINA. Proceedings of the 2O22 IEEE International Conference on Image Processing,October 16-19,2022[C]. Piscataway,NJ:IEEE,2022.
[2]XU NING,PRICE B,COHEN S,et al. Proceedings of the 2O16 IEEE Conference on Computer Vision and Pattern Recognition,June 27-30,2016[ C]. Piscataway, NJ:IEEE,2016.
[3]WUJ,ZHAO Y,ZHUJY,et al.Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition,June 23-28,2014[C] .Piscataway,NJ: IEEE,2014.
[4]張小瑞,莫云菲,孫偉.基于改良編碼與高斯過(guò)程 的交互式醫(yī)學(xué)圖像分割[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2025 (5):138-150.
[5]魏君雅.基于用戶(hù)體驗(yàn)的交互式信息安全監(jiān)控系 統(tǒng)設(shè)計(jì)[J].科技通報(bào),2020(3):63-67.
[6]中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心在數(shù)值模擬的 物理參數(shù)交互式探索研究中取得新進(jìn)展[J].信息網(wǎng) 絡(luò)安全,2025(4):549. L」丁
方法[J].遙感信息,2024(6):12-20.
[8]甘玲,郭千文,朱林華.一種初始分割和區(qū)域合并 的交互式圖像分割方法[J].小型微型計(jì)算機(jī)系統(tǒng), 2017(5) :1103-1106.
[9]張健.基于高低閾值Canny 算子的遙感影像水域 邊緣檢測(cè)方法[J].北京測(cè)繪,2025(4):496-502.
[10]CHEN X, WILLIAMS B M, VALLABHANENI S R, et al.Proceedings of the 2O19 IEEE Conference on Computer Vision and Pattern Recognition,June 16-20, 2019[C] .Piscataway,NJ:IEEE,2019.
[11]LONG J, SHELHAMER E, DARRELLT. Proceedings of the 2O15 IEEE Conference on Computer Vision and Pattern Recognition,June 7-12,2015[C]. Piscataway,NJ: IEEE,2015.
[12]LIEW J,WEI Y,XIONG W,et al. Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition,July 23-28,2017[C].Piscataway, NJ:IEEE,2017.
[13]HU Y,SOLTOGGIO A,LOCK R,et al. A fully convolutional two-stream fusion network for interactive image segmentation[J]. Neural Networks,2019(109): 31-42.
[14]LIN Z,ZHANG Z,CHEN L Z,et al. Proceedings of the 202O IEEE Conference on Computer Vision and Pattern Recognition,June 16-19,2020[C] Piscataway,NJ:IEEE,2020.
[15]CHEN X,ZHAO Z,YU F,et al. Proceedings of the 2021 IEEE Conference on Computer Vision and Pattern Recognition,June 19-25,2021 [C]. Piscataway,NJ: IEEE,2021.
[16]LIN J,XIAO Z, WEI X,et al. Click-pixel cognition fusion network with balanced cut for interactive image segmentation[J].IEEETransactionsonImage Processing,2023(33) :177-190.
[17]LI S H,CHEN Y Q,XU L,et al. ClickAdapter: integrating details into interactive segmentation model with adapter[J]. IEEE Transactions on Circuits and Systems for Video Technology,2025(4) :2951-2962.
[18]ROTHER C,KOLMOGOROVV,BLAKEA. “ GrabCut” interactiveforegroundextractionusing iciaicu giapn cuisL J」·Giapucs 2004(3) :309-314.
[19]MCGUINNESS K,O' CONNOR N E. A comparative evaluation of interactive segmentation algorithms[J]. Pattern Recognition,2010(2) :434-444.
[20]HARIHARAN B,ARBELAEZ P,BOURDEV L,et al.Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition,June 20-25, 2011[C] .Piscataway,NJ:IEEE,2011.
[ 21]PERAZZI F,PONT-TUSET J,MCWILLIAMS B, et al.Proceedings of the 2O16 IEEE Conferenceon Computer Vision and Pattern Recognition,June 27-30, 2016[C]. Piscataway,NJ:IEEE,2016.
[22]EVERINGHAM M,VAN GOOL L,WILLIAMS C K,et al. The pascal visual object classes (voc) challenge [J]. International Journal of Computer Vision,2010(2) : 303-338.
[23]LIN T Y,MAIRE M,BELONGIE S,etal. Proceedings of the 2O14 European Conferenceon Computer Vision,September 6-12,2014 [C].Berlin : Springer,2014.
[24] GUPTA A,DOLLAR P,GIRSHICK R. Proceedings of the 2O19 IEEE Conference on Computer Vision and Pattern Recognition,June 16-20,2019[C] Piscataway,NJ:IEEE,2019.
[25]LI Z W,CHEN Q F,KOLTUN V. Proceedings of the 2018 IEEE Conference on Computer Vision and Pattern Recognition,June 18 - 22,2018[C] Piscataway,NJ:IEEE,2018.
[26]JANG W D,KIM C S. Proceedings of the 2019 IEEE Conference on Computer Vision and Pattern Recognition,June 16-20,2019[C] .Piscataway,NJ: IEEE,2019.
[27]SOFIIUK K,PETROV I,BARINOVA O, et al. Proceedings of the 2020 IEEE Conference on Computer Vision and Pattern Recognition,June 16-19,2020[C]. Piscataway,NJ: IEEE,2020.
[28]CHEN X,ZHAO Z Y ,YU F W,et al. Proceedings of the 2021 IEEE Conference on Computer Vision and Pattern Recognition,June 19- 25,2021[C]. Piscataway,NJ:IEEE,2021. [29]LIU Q,ZHENG M,PLANCHE B,et al.Proceedings of the 2O22 European Conference on Computer Vision, October 23-27,2022[C].Berlin:Springer,2022.
[30]CHEN X,ZHAO Z Y ,ZHANG Y L,et al. Proceedings of the 2O22 IEEE International Conference onImage Processing,October 16-19,2022[C]. Piscataway,NJ:IEEE,2022.
[31]LIN Z,DUAN Z P,ZHANG Z,et al.Proceedings of the 2022 IEEE International Conference on Image Processing,October16-19,2022[C].Piscataway,NJ: IEEE,2022. [32]LIUQ,XU ZL,BERTASIUS G,et al.Proceedings of the 2O23 IEEE International Conference on Image Processing,October8-11,2023[C].Piscataway,NJ: IEEE,2023.
[33]LEE C,LEE S H,KIM C S.Proceedings of the 2024 IEEEInternationalConferenceon Image Processing,October 27-30,2024[C].Piscataway,NJ: IEEE,2024.
(編輯戴啟潤(rùn))
Click-Boundary dual-branch collaborative guidance for interactive image segmentation
LU Yanyan1,WANG Boyu2, WANG Xi 3* , XIA Xin4 (1.Soochow University,Suzhou 215006, China;2.Changzhou University,Changzhou 213159,China; 3.Suzhou Vocational Institute of Industrial Technology,Suzhou 215OO6, China; 4.Suzhou Society of Engineers,Suzhou 2150oo,China)
Abstract:This paper presents an interactive image segmentation method from the perspective of click-boundary dualbranch colaborative guidance,aiming toaddress theisseof insuficientuserprior information intraditional clickbased interactive segmentation.The method realizes the mutual enhancement of user prior and object boundary features through a dual-branch collborativemechanism.Concretely,thispaper constructs a dual-path featureextraction network:explicit feature informationand implicit feature informationare fused through the Sobeloperator and multiple convolutional layers respectively to accurately capture object boundaries in images.Also,a multi-scale feature map fusionstrategycoveringlow-leveland high-level featuresisadoptedtoenhance thediscriminabilityofboundary features.Second,this paper designs a collaborative guidance module based on the cross-attention mechanism, enabling themodelto use theuser’sclick location information toaccurately locate the targetandoptimize the click prioranddecoding processwith thehelpof boundary features.To verifythe effctivenessof the method,this paper conductedcomprehensiveexperimentson 5 natural image datasets.Comparative results with existing state-of-the-art methodsacrossall benchmarks show thatthis method hasachieved significant improvements in both first-time segmentation accuracy and interaction eficiency.Especiallyon the Berkeley dataset,the model reduces the average number of clicks by 28% when achieving 90% segmentation accuracy.
Key Words: interactive image segmentation; Vision Transformer; cross attention mechanism; feature fusion
無(wú)線(xiàn)互聯(lián)科技2025年16期