基于融合多尺度標記信息的深度交互式圖像分割

2021-08-17 00:51:38丁宗元孫權森王洪元

計算機研究與發展 2021年8期

丁宗元孫權森王濤王洪元

1(南京理工大學計算機科學與技術學院南京 210094) 2(常州大學計算機與人工智能學院江蘇常州 213164)

圖像分割是通過計算機視覺算法將圖像劃分為若干內部連通卻彼此特征互異的區域，優秀的分割結果可以顯著提升計算機視覺的其他任務表現，例如目標檢測，圖像識別等.傳統圖像分割算法對圖像中的目標缺乏偏好性.而為了獲取用戶感興趣目標，交互式圖像分割算法被提出.通過引入少量的用戶標記(邊界框、畫線、單擊等)，將這些標記作為先驗，從而指導網絡分割出用戶感興趣目標，此外，先驗能夠對網絡分割的結果起到很好的修正作用.交互式圖像分割在圖像編輯、醫療圖像分析等領域都有著廣泛的應用[1-3].

傳統的交互式圖像分割算法主要利用顏色、紋理等手工特征設計算法.在此基礎上，一些基于圖論的交互式圖像分割算法被提出，例如GraphCut[4]，GrabCut[5]，Random walks[6]等.這些算法在一些簡單的圖像上獲得了較好的分割結果.然而這些簡單的手工特征對一些復雜圖像缺乏魯棒性，導致算法性能急劇下降.而近些年隨著深度學習的成功應用，深度特征逐漸取代傳統手工特征，大大提升了交互式圖像分割的性能.

在基于深度學習的交互式圖像分割領域，涌現了大量性能優異的網絡模型.深度交互式目標選擇(deep interactive object selection)[7]首次將深度學習應用在交互式圖像分割領域，基于全卷積神經網絡模型(fully convolutional neural network, FCN)[8]，用戶通過單擊的方式提供前景與背景的先驗，然后計算圖像中的所有像素到用戶單擊點的歐氏距離(為了便于存儲，在大于255處截斷)獲得交互映射，將交互映射與原始圖像相拼接作為網絡的原始輸入，從而獲得用戶感興趣的目標.這種模型結構簡單，但依然能夠獲取比傳統手工特征更好的分割效果.基于這種融合用戶交互信息的思想也被其他深度交互式圖像分割算法應用[9-11].這種結合用戶交互信息作為網絡初始輸入來指導網絡分割的思想被稱作先融合策略.然而，先融合策略會使得用戶交互信息隨著網絡的加深而逐漸衰減，從而在編碼器部分很難獲得交互信息的持續監督.因此，一些基于后融合策略的算法被提出[12-13]，具體而言，對交互信息單獨卷積，從而與編碼器的高級特征進行融合，這樣的做法使得交互信息更多地體現在選擇的作用上，因此對主網絡的分割精度要求較高.此外，通過計算歐氏距離來構建交互映射的方式具有一些固有問題：首先，由于原始輸入圖像需要進行歸一化處理，而用戶交互映射上的所有值分布在0～255，因此會使得網絡對于用戶交互過于敏感，從而增加用戶交互的次數；其次，由于對于像素到每個交互點的歐氏距離在255處截斷，使得每個交互點的影響范圍固定且比較大，從而對于目標細小區域很難獲得令人滿意的效果.究其本質，對于不同的單擊交互點的作用并不相同，對于大區域的交互，其作用更多體現在選擇，而細小區域的交互更多體現了微調的作用.在文獻[9]中，作者第1次利用高斯分布來表達用戶的交互信息，使得交互映射的值分布在0～1之間，實驗表明這種方法能夠顯著提升深度交互式圖像分割算法的性能.而Forte等人[14]對于每個交互點計算了3種不同尺度的高斯映射，其消融實驗可以看出該方法能夠顯著提升算法的分割精度.但這種方法是直接將3種尺度交互信息作為網絡的輸入，并未將其不同作用分開，因此有進一步提升的空間.文獻[15]將用戶交互的不同作用分開，著重強調了用戶的初始交互，利用雙路網絡的結構對初始單擊映射單獨進行特征提取，從而使得網絡基于初始交互的結果具有更好的位置指導能力以及容錯能力.

為了解決以上的問題，本文提出了基于多尺度標記信息融合的深度交互式圖像分割算法.首先，對用戶單擊點計算2組不同尺度的高斯映射圖，即先計算每個點到用戶單擊點的歐氏距離，然后基于歐氏距離計算高斯分布，通過設置不同的高斯半徑獲得不同尺度的交互映射圖.其次，基于最新的語義分割框架DeepLabV3+[16]，設計出融合不同尺度交互映射的雙路網絡結構用于提取目標的多尺度特征.原始DeepLabV3+[16]的編碼器會過早將特征圖縮小多倍，從而影響提取目標的細節特征.因此，基礎分割網絡的編碼器在ResNet50[17]的基礎上，移除了最大池化層，避免小目標被大幅度下采樣而過早丟失較多的細節信息.同時為了保持目標的非局部特征提取，恢復使用最大池化層對特征圖下采樣并形成新的特征提取分支，即非局部特征注意力模塊.最后，利用一致性增強損失以及概率單擊損失函數來監督非局部特征注意力模塊以及網絡最終的輸出.此外，由于導向濾波(guided filter)[18]對目標具有優異的邊緣保持性能，因此本文利用導向濾波進一步提升網絡的分割精度.

本文的主要貢獻包括3個部分：

1) 充分利用多尺度交互信息，將其用于監督不同目標不同尺度特征的分割表現.

2) 針對目標的不同尺度特征，通過修改網絡編碼器的下采樣位置，使得目標細節特征不被過度下采樣，而目標全局特征的分割性能依然能夠保持.

3) 利用一致性增強損失函數與概率單擊損失函數相結合，顯著提升網絡的分割效果.

1 相關工作

圖像分割是計算機視覺中的一個關鍵過程，它包括將圖像輸入分割成片段以簡化圖像分析.片段表示目標或者目標的一部分，由像素集或者超像素組成.而交互式圖像分割通過引入用戶交互，使得這些分割出的片段更符合用戶需求.

傳統的圖像分割算法利用手工設計特征與嚴格的算法，因此需要更多的人工干預和專業知識，主要包括閾值分割[19]、Meanshift分割[20]以及邊緣檢測法[21]等.這些方法對于一些復雜的圖像性能表現欠佳.近些年深度學習技術在計算機視覺領域日益成熟，大大促進了圖像分割算法的表現.Shelhamer等人[8]第1次將深度學習應用于圖像分割，提出了全卷積神經網絡(fully convolutional neural network, FCN)，通過將VGG(Visual Geometry Group)[22]網絡的全連接層更換為卷積層，然后通過上采樣獲得最終分割結果.在此思想基礎上，大量優秀的深度圖像分割模型被提出.例如在醫療圖像分割領域大放異彩的U-net模型[23]及其衍生模型[24]，基于編碼器-解碼器架構的SegNet模型[25]以及集大成之作的DeepLab系列模型[16,26-28].其中DeepLab系列模型利用空洞卷積(atrous convolution)[27]而不是規則的卷積，每個卷積不同擴張率使殘差模塊能夠捕獲多尺度的上下文信息而且不增加模型參數.并且使用ASPP(atrous spatial pyramid pooling)模塊[16]聚合這些不同尺度的上下文信息.這些思想被后續深度圖像分割算法大量應用，并且取得了優異的效果.同時也極大地鼓舞了深度交互式圖像分割算法的發展.

傳統交互式圖像分割算法同樣采用手工設計特征，使得算法對圖像質量尤為敏感，即算法在復雜圖像的表現極差，極大地增加了用戶的負擔.因此，受深度圖像分割算法的啟發，近些年涌現出大量深度交互式圖像分割算法.2016年，Xu等人[7]結合FCN網絡，利用歐氏距離映射來表達用戶交互信息，并且作者提出的幾種模擬用戶交互策略被其他深度交互式圖像分割算法普遍采用.2017年，Liew等人[10]提出了區域交互式圖像分割算法，結合全局上下文信息優化局部區域分割的結果.2018年，Maninis等人[29]通過極限單擊點(即目標的邊界框上的4個頂點)作為網絡的輸入，輔以少部分額外單擊修正分割誤差.文獻[12]給出了網絡的多種可能性分割，然后利用選擇網絡結合用戶交互得到最終用戶感興趣目標.Mahadevan等人[9]提出了迭代訓練的方式，即訓練過程中每次用戶單擊點都基于上一次分割的最大錯誤區域，此外，還利用高斯分布代替歐氏距離表達的交互映射，并通過消融實驗證明了其有效性.2019年，Jang等人[11]提出了反向修正機制(backpro-pagating refinement scheme, BRS)在測試階段通過對交互映射微小的調節來強制網絡在用戶標記位置分割正確.Majumder等人[30]利用基于超像素的映射指導網絡分割，而不是距離映射或者高斯映射.2020年，Sofiiuk等人[31]提出了一種基于特征的反向修正機制(feature backpropagating refinement scheme, f-BRS)，該機制可在網絡的中間特征上運行，并且只需要對部分網絡進行正向和反向傳遞，使得運算速度大大提升.用戶交互信息為網絡提供了自注意力先驗，因此結合一些注意力模型[32]，一些新的方法相繼被提出.Lin等人[15]提出了首次單擊注意力，著重強調用戶的初始單擊，并對初始單擊分割的結果單獨卷積用以監督其余幾次交互的結果，并利用加權損失函數平衡第1次與其他幾次交互的分割結果.

深度交互式圖像分割算法的主要出發點有：高效地利用用戶標記信息、修改網絡的結構、不同的訓練機制以及損失函數的利用.本文提出的融合多尺度標記信息的算法通過編碼多尺度的高斯映射，從而指導網絡提取目標的不同尺度特征.另外通過修改網絡的部分結構，緩解目標由于過早大幅下采樣而損失較多細節信息.本文還結合一致性增強損失函數與新提出的概率單擊損失函數，有效提升了網絡的分割性能.

2 用戶交互信息變換

在深度交互式圖像分割算法中，用戶的交互信息尤為重要，優秀的交互方式既能夠為網絡提供豐富的先驗信息，又能減輕用戶交互的負擔.常用的交互方式有單擊、涂鴉線以及邊界框等方式.其中涂鴉線不利于模擬用戶習慣用于網絡訓練，邊界框的方式需要用戶標記緊貼目標，從而增加用戶交互負擔.而單擊的方式既有利于模擬用戶習慣用于網絡訓練，對用戶標記要求最低，而且通過簡單的變換就可以提供較為豐富的先驗信息，因此單擊被廣泛用于深度交互式圖像分割算法中.本節主要介紹對單擊交互常用的信息變換方式，豐富用戶提供的先驗信息從而指導網絡分割.

Fig. 1 The overall architecture of proposed method圖1 本文網絡結構圖

2.1 基于歐氏距離映射的交互信息轉換

(1)

(2)

為了便于存儲，歐氏距離映射圖的值在255處截斷.根據用戶交互習慣，第1次單擊點很少在背景上，因此第1次交互的背景歐氏距離映射的所有像素值均為255.

這種基于歐氏距離映射的方法被很多深度交互式圖像分割算法所采用，具有一定的有效性.但由于深度學習需要對輸入圖像進行預處理，其中正則化預處理使得圖像的特征分布與歐氏距離映射的特征分布差距較大，從而不利于網絡訓練，而且對于用戶交互過于敏感.

2.2 基于高斯映射的交互信息轉換

(3)

其中σ為高斯半徑，其可以控制每個交互點的影響范圍.通過式(3)可以看出，高斯映射上位置距離單擊點越近的像素值越接近1，反之越接近0.高斯映射提供了一種更好的統計先驗信息，而且高斯分布使得交互點的影響范圍成非線性分布，即距離交互點越近影響越明顯.文獻[9]通過消融實驗證明了高斯映射能顯著地提升算法性能.

為了使用戶交互具有多尺度性，本文利用2種不同尺度的高斯半徑{σc,σf}，使得對于每個交互點具有2種不同大小的影響范圍，從而用以引導網絡關注目標不同尺度的特征.

3 網絡結構

本文網絡結構如圖1所示，基礎分割網絡在DeepLabV3+[16]的基礎上做一些改動從而分割目標細節特征信息，在此基礎上，附加一個模塊稱之為非局部特征注意力模塊，使得目標整體特征信息得以保持.

3.1 基礎分割網絡

如圖1所示，本文采用類似于DeepLabV3+[16]網絡結構作為基礎分割網絡.它包含編碼器、空洞空間金字塔池化模塊(atrous spatial pyramidal pooling, ASPP)以及解碼器.

本文采用ResNet50[17]作為編碼器模塊.如圖1所示，編碼器的每一層特征記作{F0,F1,F2,F3,F4}.為了避免目標因過度下采樣而丟失較多細節信息，本文在F0之后移除了最大池化層.原始殘差網絡中F1得到的特征圖是原始圖像的四分之一，而本文中為原始圖像的二分之一，根據卷積算子的特性，較小的特征圖使得目標的細節特征貢獻較弱.同時，在最后一層使用空洞卷積獲得更為豐富的多尺度特征.經過修改后的ResNet50網絡詳細結構如圖2所示，其中F0由卷積核大小為7×7，輸出通道為64，步長(stride)為2，填充(padding)為3的卷積操作組成，而F1至F4由瓶頸模塊構成.瓶頸模塊的詳細結構如圖3所示，其中方角矩形框對應卷積操作，圓角矩形對應特征圖的尺寸.瓶頸模塊分為3種，第1種對特征圖通道擴充4倍但不下采樣，第2種對特征圖通道僅擴充2倍但不下采樣，第3種對特征圖通道擴充2倍且下采樣.圖3中的重復次數指的是該瓶頸模塊重復執行的次數.基礎分割網絡的輸入為RGB圖像與高斯映射的拼接，這里的高斯映射為了指導網絡關注更細節的特征，本文將基礎分割網絡所融合的高斯映射的半徑設置為10.

Fig. 2 Illustration of the modified ResNet50圖2 改進的ResNet50示意圖

Fig. 3 Illustration of the bottleneck blocks圖3 瓶頸模塊示意圖

如圖4所示，ASPP模塊的輸入是(F4⊕G4)，其中，⊕表示特征拼接操作，G4為非局部注意力模塊的輸出.特征經過拼接后被輸入到4個膨脹率分別為1,6,12,18的空洞卷積層以及1個自適應全局池化層.接著聚合這5個特征圖將其輸入到解碼器中的卷積模塊.

Fig. 4 Illustration of ASPP module圖4 ASPP模塊示意圖

如圖1中的解碼器模塊所示，與常規的DeepLabV3+[16]解碼器不同的是，本文融合的低級特征為原始圖像分辨率的一半而不是四分之一，這樣可以使網絡在解碼器階段捕獲更豐富的細節特征.另外，在原始的解碼器基礎上，本文添加了一個導向濾波模塊(guided filter)[18]來微調分割的結果.導向濾波比雙邊濾波在邊界處理方面更優秀，并且它還有O(N)線性時間的速度優勢，如圖5所示.對于一個輸入圖像p，通過引導圖像I，經過濾波后得到輸出圖像q，其中n表示輸入圖像中的噪聲，而qi=aIi+b表示對引導圖像的線性加權，其中i表示圖像任意位置的坐標.為了獲取加權系數a與偏置項b，使p與q的差別盡量小，同時為了保持局部線性模型，導向濾波構建帶有正則項的嶺回歸：

(4)

其中i表示圖像任意位置的坐標.

Fig. 5 Illustration of the guided filter圖5 導向濾波示意圖

通過求解式(4)得到a與b在局部的值，從而得到濾波器的最終輸出.本文利用對原始圖像與高斯映射的預處理特征作為導向圖對分割結果進行濾波，從而提升網絡對目標邊緣分割效果.

3.2 非局部特征注意力模塊

基礎分割網絡的編碼器模塊通過移除最大池化層使得網絡能夠獲取更為豐富的細節特征，但同時為了保持目標的非局部特征，本文在基礎分割網絡的基礎上，設計了一個與基礎分割網絡平行的非局部特征注意力模塊.如圖6所示，該模塊的主要部分也是由瓶頸模塊組成，輸入為基礎分割網絡初始卷積后的特征F0與大尺度高斯映射，本文在F0之后通過添加最大池化層進一步縮小特征圖，在大尺度高斯映射的指導下使網絡獲取用戶感興趣目標的非局部特征.需要注意的是，瓶頸模塊G4輸入特征的通道為66，但經過第1次卷積之后通道為64，而G4后的輸出特征通道數與基礎分割網絡編碼器輸出特征F4相同，均為2048.非局部注意力模塊的輸出在ASPP模塊前被融合進基礎分割網絡.另外，為了監督該模塊的特征，本文通過雙線性插值的方式將特征恢復至原始圖像大小，利用概率單擊損失函數來監督G4，這里的概率由大尺度高斯映射提供.具體細節在第4節詳細描述.

顯然，普通的ResNet結構[17]如圖1中的F0→G1→G2→G3→G4信息流，經過改動的基礎分割網絡在擅長處理目標細節特征的同時，也能保持目標的整體信息，即非局部特征.如圖1中的輸出結果所示，非局部特征注意力模塊很好地保持了羊的整體分割，但對于難以分割的羊腿部分，通過小尺度高斯映射指導基礎分割網絡提取細節特征，以及在解碼器部分融合編碼器高分辨率的特征圖，最終得到更為細膩的分割結果.

Fig. 6 Illustration of the non-local feature attention module圖6 非局部特征注意力模塊示意圖

4 損失函數

交互式圖像分割本質上是一種逐像素的二值分類問題，對于二值分類常用的損失函數為二值交叉熵損失(binary cross entropy loss, BCE)，該損失函數有利于關注全局分割效果.首先，對于網絡的輸出fo，可計算出最終的預測為

p=sigmoid(Conv(fo)),

(5)

其中，p∈N×2×H×W表示N個預測特征圖，N表示批大小(batchsize),H,W分別表示預測圖的長和寬.pt，t∈{0,1}表示特征圖屬于前景或背景的概率矩陣.sigmoid(Conv(·))表示網絡最后一層對特征圖采用卷積操作與sigmoid激活函數處理.傳統的二值交叉熵損失函數為

(6)

其中，log(·)表示逐元素計算自然對數.g∈{0,1}N×2×H×W代表分割真實標簽.從式(6)中可以看出，二值交叉熵損失函數將前景與背景同等看待，而在小目標分割的問題上，前景的重要性更容易被背景抵消，從而難以獲得用戶感興趣目標的精確輪廓.

從用戶的角度，待分割目標即屬于顯著性目標，因此，本文借鑒顯著性檢測中常用的一致性增強損失(consistency-enhanced loss, CEL)[33-34]，從而突出用戶感興趣目標的重要性：

(7)

其中TP,FP和FN分別表示真正例、假正例和假反例的個數.這里的p與g主要是前景的特征與真實值.通過式(7)可以看出該損失函數更關注前景的分割效果，因此目標的尺度不會給損失函數造成太大的波動.另外，當預測前景與真實前景重合程度越低則懲罰越大.

除此之外，本文針對交互式分割問題，為了充分利用用戶交互信息，使其也能在優化網絡訓練的過程中起到一定的作用，提出了概率單擊損失函數(probability click loss, PCL)：

(8)

值得注意的是，式(8)中的高斯映射針對本文網絡的2處輸出使用不同的高斯半徑.基礎分割網絡的輸出使用較小的高斯半徑σf迫使網絡關注圍繞交互點更為集中的分割區域.而對于非局部注意力模塊的輸出，采用較大的高斯半徑σc，使得非局部注意力模塊能夠保持目標的非局部信息.

通過組合這3部分的損失函數，本文算法的基礎分割網絡與非局部注意力模塊的損失函數分別為

Lbase=LBCE+λeLCEL+λpLPCL(σf),

(9)

Lnon-local=LBCE+βeLCEL+βpLPCL(σc),

(10)

其中，λe,βe與λp,βp分別為平衡因子用于平衡一致性增強損失與概率單擊損失之間的比重.LPCL(·)表示使用半徑為σf或者σc得到的高斯映射計算出的概率單擊損失.

因此，本文算法的最終損失函數為

Lfinal=Lbase+αLnon-local,

(11)

其中α表示平衡因子用于平衡這2部分的損失函數重要性.本文損失函數經過平均化處理之后均分布在[0,1]之間，因此平衡因子均設為1，并且高斯半徑σf=10,σc=100.

5 實驗結果與分析

5.1 實驗設置

本文利用Semantic Boundaries Dataset(SBD)[35]數據集中的訓練集來訓練模型，該數據集是PASCAL VOC2012[36]數據集的增強版本，其提供了比PASCAL VOC2012更多的真實分割圖.SBD數據集一共有8 498張訓練集共10 582個實例和2 857張測試集共4 119個實例.本文采用與文獻[7]相同的交互點模擬策略在SBD數據集上逐實例生成用于訓練的前景與背景交互點.并且采用隨機翻轉，隨機裁剪為320×320，隨機高斯模糊等方法對數據集進行擴充.模型利用在ImageNet[37]上預訓練的ResNet50[17]來初始化基礎分割網絡的編碼器與非局部注意力模塊的參數，并用學習率為10-3(其中編碼器與非局部注意力模塊的學習率為10-4)且權值衰減為10-5的Adam優化器來優化網絡.最后采用多項式學習率衰減法訓練30個周期.所有實驗在Intel i5-8400 2.80 GHz CPU和單張NVIDIA RTX2080Ti GPU用Pytorch框架實施.

而對于測試階段，本文利用每次在最大錯誤分割中心的方式生成交互點來驗證模型的有效性.每次點擊320×320的圖像需要約0.01 s，滿足實時性要求.

5.2 比較數據集

本文在一些常用的圖像分割數據集上驗證算法的有效性.除了SBD數據集的測試集外，本文還在經典的GrabCut數據集[5]、Berkeley數據集[38]以及MSCOCO數據集[39]上測試算法.

1) GrabCut數據集.該數據集是交互式圖像分割常用的經典數據集，一共50張圖像，每張圖像只有一個目標，該數據集前景與背景有明顯的差別.

2) Berkeley數據集.該數據集有96張圖像共100個目標.該數據集一些圖像的前景與背景相似，因此分割難度相對較大.

3) MSCOCO數據集.該數據集為用于計算機視覺各種任務的大規模數據集，一共有80個類別的目標.本文對其中用于分割的部分將其分為MSCOCO(seen)和MSCOCO(unseen)，并按照文獻[7]中的策略為每個類別各抽取10張圖像用于評估算法.

5.3 評價指標

本文對分割效果的評價指標采用圖像分割中常用的平均交并比(mean intersection over union, mIoU)來評價分割質量的優劣.基于此，本文繪制了mIoU與單擊次數的曲線用于比較每種方法在固定交互次數下的表現.同時，本文還利用基于單擊交互分割中常用的平均交互點數(mean number of clicks, mNoC)指標來衡量算法的性能.它反映了數據集中的每張圖像達到固定mIoU所需要的平均交互次數.對于不同數據集所設定的固定mIoU不同，并且每個樣本的最大交互次數為20.

5.4 性能比較

本文所比較的算法分2類，一類為傳統的基于手工特征的算法：Graphcut(GC)[4]，Growcut(GRC)[40]，geodesic star convexity(GSC)[41]，geodesic matting(GM)[42]，random walks(RW)[6].這類算法主要是基于圖論的方法，利用交互信息構建一元勢能與二元勢能從而實現圖像分割.另一類算法是基于深度學習的交互式分割算法：deep object selection(DOS)[7]，regional image segmentation(RIS)[10]，latent diversity based segmentation(LD)[12]，fully convolutional two-stream fusion network(FCTSFN)[13]，back-propagating refinement scheme(BRS)[11].

如圖7所示，本文給出了mIoU-單擊次數曲線，即不同算法在不同單擊次數下的mIoU值.可以看出，本文算法在最初幾個交互點即可獲得比其他算法優秀的性能，尤其在MSCOCO(seen部分)數據集上性能提升尤為明顯.這是由于本文利用不同尺度的交互信息，以及非局部特征注意力模塊的使用，使得本文算法既在目標的細節特征上取得優異分割結果，又保持了非局部層次的表現.由于GrabCut數據集的圖像前景背景對比明顯，較為容易分割，因此與其他算法優勢并不明顯，但也獲得了一定的性能提升.

表1顯示了不同方法在5個數據集上的mNoC值，在數據集GrabCut與Berkeley上，計算mIoU值為90%時所需要的平均單擊次數，另外2個數據集所要達到的閾值為85%.從表1中可以看出，基于深度學習的算法性能均遠遠優于傳統的算法，這體現了深度特征更強大的語義感知能力.本文算法除了在Berkeley數據集上高于BRS算法不足0.1個單擊次數，在其他數據集上均取得了最好的表現，尤其在MSCOCO數據集(seen)上表現最為優異，比其他算法減少了2.37次單擊.這是由于本文所采用的融合多尺度交互信息的思想，豐富了單擊點的語義信息，大大減輕了用戶的交互負擔.值得注意的是，本文算法與BRS算法的性能較為接近，這是因為BRS算法根據分割結果不斷調整用戶的交互映射，本質上是修正交互信息的尺度，可以看出，充分利用交互映射的不同尺度可以顯著提升用戶的交互效率.

Fig. 7 mIoU varying with the number of clicks on 5 datasets圖7 5個數據集平均交并比隨單擊次數的變化

表1 本文算法與其他算法在5個數據集上的平均交互點數(mNoC)對比

Fig. 8 The qualitative experimental results of the proposed algorithm on 5 datasets圖8 本文算法在5個數據集上的定性實驗結果

圖8給出了本文算法在5個數據集上的部分定性結果，其中紅點表示前景點擊，藍點表示背景點擊.這些圖像既有大目標圖像也有小目標圖像，同時也有很多細節信息.例如袋鼠和狼細長的腿部，企鵝短小的尾部，以及目標較小的瓢蟲與只露機頭的飛機，本文算法在這些細長局部的目標上僅需少量的交互即可獲得不錯的分割效果，同時，本文算法對于目標的非局部信息分割依然能夠獲得很好的保證.此外，從圖8(c)中沙發的分割可以看出，本文算法對于非閉合的目標也能取得不錯的效果，體現了本文算法更強的魯棒性.

5.5 消融實驗

為了驗證本文算法各個模塊的有效性，本文在SBD與MSCOCO(seen)上進行了幾組消融實驗.以完整模型為基準，不斷移除本文中所提出的各個模塊，所得到的mNoC如表2所示.其中Full表示完整模型；NLF表示非局部特征注意力模塊；MP表示基礎分割網絡中所采用的最大池化層，這里需要通過恢復使用最大池化層來驗證該設置的有效性；GF表示導向濾波；CEL表示一致性增強損失函數；PCL表示概率單擊損失函數.

Table 2 mNoC of the Ablation Experiments of Proposed Algorithm

消融實驗分為2組，一組是通過設置相同的高斯半徑，以驗證多尺度高斯映射的重要性，另一組在移除非局部特征注意力模塊后，根據第1組實驗的表現，使用高斯半徑為10的交互映射作為輸入的消融實驗.

首先，針對多尺度交互信息的利用，通過設置4組相同的高斯半徑可以看出，網絡的2部分融合使用相同半徑的高斯映射都會使得模型的性能有所下降，同時可以發現，設置小的高斯半徑更有效，但當高斯半徑過小時，模型性能會有微弱的下降，這是由于過小的高斯半徑隨著網絡的加深，交互信息會越來越弱，從而削弱用戶交互的作用，這也是本文選擇高斯半徑為10作為網絡的最初輸入的原因.

其次，當移除非局部特征注意力模塊時，模型性能有所下降，這是因為基礎分割網絡對小尺度特征圖的卷積層減少，因此對于全局特征的抽象不如單獨的非局部特征注意力模塊.而在恢復基礎分割網絡的最大池化層時，性能卻比僅移除非局部特征注意力模塊有所提升，這是由于目標的特征圖被進一步下采樣，因此獲得的全局特征更為豐富，在有限的交互次數下，保證了大目標的分割精度.導向濾波同樣是為了提升細節的分割精度，所以移除導向濾波也降低了模型的部分性能.最后，通過移除一致性增強損失與概率單擊損失，進一步降低了模型的表現.

通過將所有這些模塊移除的結果可以看出，即使使用最基礎的網絡與二值交叉熵損失，mNoC也依然低于深度交互目標選擇算法(DOS)，可以看出基礎網絡的選擇的重要性以及高斯映射相比歐氏距離映射更有效.

6 總結

本文提出了融合多尺度標記信息的深度交互式圖像分割算法.利用單擊點計算2組具有不同尺度的高斯映射以指導網絡分割，并通過對網絡進行一些簡單的改動即可分割出目標的細節，同時為了保持分割的完整性，在基礎分割網絡的基礎上附加了非局部特征注意力模塊.實驗證明了該方法能夠有效提升細節處的分割效果，同時也減輕了用戶的交互負擔.

作者貢獻聲明：丁宗元負責撰寫初稿、理論推導、實施實驗以及修改工作；孫權森負責提供理論指導以及論文檢閱；王濤負責理論指導與實驗指導，王濤與孫權森并列通信作者；王洪元協助指導實驗與修改論文.