基于FuseNet 的多模態融合圖像分割網絡

2023-10-22 16:01:04黃孝慈

智能計算機與應用 2023年8期

張濤，黃孝慈

（上海工程技術大學機械與汽車工程學院，上海 201620）

0 引言

近年來，基于深度學習的圖像分割方法［1-3］因其具備的精心設計框架，以及各種細分數據集的可用性已取得了很大進展。其中，來自各種深層網絡學習到的更好的特征表示對該方法的迅猛發展發揮了至關重要的核心作用。然而，對于許多現實世界的應用、例如醫療和制造業，收集和標記數據非常耗時，需要用到專業的注釋員。這個問題的直觀解決方法是在現有模型的源數據集上訓練未標記目標域。然而，由于源域和目標域中的各種數據分布而導致的域轉移問題往往會阻礙該解決方法的實現。此外，方法在實現過程中沒有在語言表達的指導下明確定位參考對象，只利用耗時的后處理DCRF 生成最終的細化分割。對于開放集［4-5］圖像分割任務，現已獲得了廣泛的應用，例如交互式圖像編輯和語言引導的人機交互。除了傳統的圖像分割，由于圖像和語言之間的語義差異，語言相關的圖像分割更具挑戰性。此外，文本表達不僅限于實體（例如，“人”、“馬”），還可能包含描述性詞語，如對象屬性（例如“紅色”、“年輕”）、動作（例如“站立”、“保持”）。

以前的研究主要集中在如何融合圖像特征和語言特征。一個簡單的解決方案［6］是利用串聯和卷積的方法融合視覺和語言表達，以產生最終的分割結果。但是，由于視覺和文本信息是單獨建模的，這種方法不能有效地建模圖像和語言之間的對齊。為了進一步模擬多模態特征之間的上下文，一些先前的方法［7］提出了跨模態注意，自適應地關注圖像中的重要區域和語言表達中的信息關鍵詞。最近，Hu等學者［8］利用卷積神經網絡（convolutional neural networks ，CNNs）和長-短期記憶網絡（long shortterm memory， LSTM）［9］的視覺和語言特征串聯來生成分割模板。為了獲得更精確的結果，文獻［10］融合了多層次的視覺特征，以細化分割掩模的局部細節。

綜上所述，盡管這些方法都已獲得了長足的發展，但網絡體系結構和實驗實踐卻已逐步變得更加復雜。這也導致算法的分類與比較顯得更加困難。因此，針對這一現狀，研究中從另一個角度考慮解決這個問題。這里將圖像分割任務分解為2 個子序列任務，分別是：詞向量特征提取和精細分割掩模生成。在本文提出的模型中，主要由以下核心部件組成：

（1）多模態融合模塊。視覺特征和語言特征分別由卷積神經網絡（SegNet）和LSTM 網絡提取，然后融合生成多模態特征。

（2）定位模塊。使用基于注意力機制構建的transformer 將會自適應地獲取圖像中的重要區域和語言表達中的信息關鍵詞之間的相關性。

（3）Segmentation Mask 模塊。使用多采樣率和有效卷積特征層，從而在多尺度上捕獲對象和圖像上下文，并將反卷積特征圖的采樣率提高，由此獲得更精確的分割結果。最后，使用交叉熵損失函數訓練網絡。

1 FuseNet 算法基礎

1.1 語言特征提取

給定一個背景詞向量X＝[x1，x2，…，xm]，其中xi是第i個標記。首先應用表查找來獲得單詞嵌入，之后將其初始化為一個300 維的通道嵌入向量，每個通道表示一個詞向量的維度，再通過GLOVE進行輸入［11］。為了模擬相鄰單詞之間的相互依賴關系，使用標準的LSTM 來處理初始嵌入文本向量：

其中，ht1和ht2分別表示LSTM 向前和向后獲得的文本向量。全局文本通過所有單詞之間的平均池化獲得，其定義如下：

1.2 視覺特征提取

給定輸入圖像I∈H×W×3，利用視覺主干提取多級視覺特征，即和這里，H是原始圖像的高度，W是原始圖像的寬度，d是特征通道的尺寸。對于圖像中的每個像素，研究假設這些像素對應于場景中的靜態部分，即圖像中的背景變化僅由相機運動引起。將最終卷積層所獲得的視覺特征通過MLP 反向投影成高維3D 像素點，有利于像素分類并用于后續的定位環節。 3D 像素點投影如圖1 所示。

圖1 3D 像素點投影Fig. 1 3D pixel projection

2 FuseNet 總體架構

整體模型架構如圖2 所示，本文中模型的輸入由圖像I和背景詞向量X組成。為了模型的輕量化，解碼器模塊具有相對于編碼器模塊的對稱結構，其中輸入和輸出通道的數量相反。研究中，使用SegNet 和LSTM 分別提取I和X的特征，隨后送入多模態融合模塊，融合生成多模態特征。其次，使用基于注意力機制構建的transformer 將會自適應地獲取圖像中的重要區域和語言表達中的信息關鍵詞之間的相關性。最后，使用多采樣率和有效卷積特征層，有利于在多尺度上捕獲對象和圖像上下文，并使反卷積特征圖的采樣率得以提升，從而獲得更精確的分割結果。

圖2 整體模型架構Fig. 2 Overall model architecture

2.1 多模態融合模塊

由圖2 可知，研究中通過融合Fe1和Ptext獲得多模態張量，公式如下：

其中，g表示ReLU激活函數；和分別是Fm1和Fe1的特征向量；We1和Wt是將視覺和詞文本表示轉換為相同特征維度的2 個轉換矩陣。然后，多模態張量Fm2和Fm3通過以下方式獲得：

其中，μ∈［2，3］，上采樣的步長為2×2。在下面的過程中，使用Fm3作為輸入來生成分割掩碼。以往的研究通常采用多次注意力機制來獲得分割結果。在本文中，先是根據詞向量進行定位、再做分割，可以取得良好的性能，對此將展開研究論述如下。

2.2 定位模塊

在多模態任務中，一個主要的挑戰是建立圖像和文本之間的關系模型。近年來，注意力機制已成為功能強大的一種優秀技術，可以在圖像分割中提取與語言表達相對應的視覺內容。特征Fm3包含豐富的多模態信息，必須進一步建模以獲得圖像中的相關區域。定位的目的是為了將每個像素與語言表達所涉及的全局分布的視覺區域關聯起來，這些區域的反應分數高于不相關區域，用于增強全方位推理，同時防止模型過度擬合圖像。研究中將全局文本Ptext視為編碼器輸出，解碼器遵循變壓器的標準架構，使用多頭注意力機制將多模態特征Fm3轉換為一個粗略的分段掩碼熱圖Mmask，因此可得：

其中，響應分數越高的區域就越有可能對應于語言表達（見圖1）。

解碼器需要一個序列作為輸入，因此可將Fm3的空間維度壓縮為一維，從而生成特征映射。由于transformer 架構是置換不變的，就可使用固定位置編碼對其進行補充，這些編碼被添加到每個注意層的輸入中。

2.3 Segmentation Mask 模塊

給定由式（8）中生成的視覺對象，Segmentation Mask 模塊的目標是生成最終的精細分割掩模。研究中，先將原始多模態特征Fm3和視覺對象Mmask連接起來，并利用分割模塊來細化粗分割結果：

其公式定義如下：

其中，Segmentation Mask 模塊的主要結構以及分割過程如圖3 所示。 Segmentation Mask 模塊的卷積特征層使用了多采樣率和全局池化的方式，以便于從多尺度上捕獲對象特征和圖像上下文。請注意，為了獲得更精確的分割結果，通過反卷積的方式將特征圖的采樣率增加了4 個因子。這樣，預測的掩碼

圖3 Segmentation Mask 模塊Fig. 3 Segmentation Mask module

2.4 模型訓練

在模型訓練期間采用交叉熵損失函數，其定義如下：

其中，ge和pe分別表示下采樣中的地面真相掩碼和預測掩碼Hmask的元素。

3 實驗和結果分析

3.1 數據集

在本小節中，簡要介紹用于驗證本模型的數據集，即廣泛使用的Cityscapes 數據集［12］。 Cityscapes由5 000 幅真實的城市交通場景圖像組成，分辨率為2 048×1 024，并帶有密集像素注釋。該數據集中2 975個圖像用于培訓，500 個圖像用于驗證，1 525個圖像用于測試。城市景觀標注了33 個類別，其中19 個用于培訓和評估。不含地面真相的訓練集用于訓練模型，驗證集用于評估模型。 GTA5［13］是一種合成數據集，其圖像從游戲視頻中收集，并通過計算機圖形技術自動生成相應的語義標簽。其中，包括由9 633個像素級標簽合成的圖像。在2 種不同的環境下評估了本文提出的FuseNet 圖像分割框架，并按照以前的方法［14］，將Cityscapes 視為目標域，GTA5 視為源域（GTA5-Cityscapes）。

3.2 實施細節

本文使用Pytork 庫實現了提出的方法，并在NVIDIA 2080TI GPU 上進行了訓練。所有網絡都使用了隨機梯度下降（stochastic gradient descent，SGD）優化器進行訓練。初始學習速率和動量分別設置為2.5e-4和0.9，并采用冪為0.9 的多項式衰減策略來調整學習速率，接下來將最大迭代次數設置為150 000次。輸入圖像的大小調整為416×416，輸入句子的最大長度設置為15。使用1 024 維的LSTM 來提取文本特征。過濾維度設置為1 024。該解碼器具有1 層網絡、4 個頭和1 024 個隱藏單元。用平均交集（mIoU）來評估本文提出方法的性能。

3.3 定量結果

首先，在GTA5-Cityscapes 中驗證本文方法的有效性，相應的比較結果見表1。表1 中，每類的最佳結果以粗體突出顯示。從表1 中可以看出，本文得到的mIoU（52.1%）獲得了最佳值，這大大優于其余方法，同時比僅在源數據上訓練的模型增加了15.5%，表現出了優越性能。本文提出的方法在建筑物、墻壁、道路等類別上取得了更顯著的改進。這些物體具有剛體，并且在不同的源域中形狀相似。mIoU的值越高，也就證明了本文所提出的Segmentation Mask 模塊在學習視覺和語言模態之間語義對齊方面的有效性更強。總地來說，本文提出的分割框架優于其他大部分模型。

表1 FuseNet 在GTA5-Cityscapes 上與其他先進模型的對比結果Tab. 1 Comparison results of FuseNet with other advanced models on GTA5-Cityscapes

本文收集含有不同類別的圖像進行運行時間分析，對比結果如圖4 所示。每次分析重復400 次，然后取平均值。研究比較了4 種最先進的方法，包括Source only、CRST、MLSL、UIA 模型。模型運行時間分析結果如圖4 所示。由圖4 可知，Source only 和CRST 的推理時間大致與圖像中的類數成正比，本文的方法和MLSL 模型的推理時間與圖像中的類數是不變的，并且本文提出的模型比現有的方法快得多。值得注意的是，本文的方法沒有使用任何對抗性學習或任何其他復雜的技巧，這可歸因于源域組合訓練可以在一定程度上提高目標域的性能，源域之間的協作學習比目標域上的協作學習帶來了更多的改進。

圖4 模型運行時間分析Fig. 4 Analysis of model running time

圖5 顯示了訓練過程中分割精度和損失值的變化。 2 幅圖中的結果可以反映模型隨著迭代次數的增加而收斂。如果損失值在幾個時期后略有增加，則該模型將被視為收斂條件。在訓練過程中經過1 500次迭代后，該框架達到了收斂條件，并在對比實驗中獲得了最佳結果，這也驗證了表1 的結論。在第5 階段，5 種方法（包括FuseNet、MLSL、CRST、UIA 和Source only）的準確度分別為83.3%、78.2%、65.5%、62.9%和61.4%。經過1 500個階段后，本文方法取得了最好的性能并穩定增長，其損失值為-4.61，達到了收斂條件。損失值的變化和最終結果表明，本方法在收斂速度和準確度上優于其他基線方法。

圖5 訓練過程中分割精度和損失值的變化Fig. 5 Change of segmentation accuracy and loss value during training

3.4 定性結果

為了直觀地評估定性結果，本文提出的基于現有的MLSL 模型，對含有多類別的圖像進行了圖像分割，分割結果如圖6 所示。圖6（a）～（c）中，從左至右分別是：Language：馬路，車輛，天空，樹，標志，墻壁；Language：馬路，車輛，行人，樹，柵欄，墻壁；Language：馬路，車輛，樹，天空，墻壁。所有這些圖像均來自GTA5-Cityscapes。從這些定性結果中，可以看到本文的模型根據輸入語言所指定的類別對各類型圖像都能夠以精確分割，所分割出來的事物類型往往是最貼近真值的。本文的模型可以利用依賴于語言和transformer 中復雜的特征注意力模型，自適應地提取語言表現中的信息關鍵詞，與圖片中的重要區域之間的信息關聯，從而得到了最匹配的特征分布，加快了推理定位對象的多模態信息融合過程，再通過更精細化的特征分割模塊，最后使模型達到了更高的準確度和更好的結構化分割輸出。

圖6 GTA5-Cityscapes 上不同數量的標記目標圖像上的定性結果Fig. 6 Qualitative results of different number of marker target images on GTA5-Cityscapes

4 結束語

在本文中，提出了一種新穎的用于圖像分割的自適應框架（FuseNet）。其目的是在輸入圖像中將語言表達的類別對應的圖像進行分割。在研究工作中，為這項任務開發了一種簡單而有效的方法。將該任務分解為2 個子序列任務：詞向量特征提取和精細分割掩模生成。首先將提取到的語言和視覺特征送入多模態融合模塊，融合生成多模態特征。其次，使用基于注意力機制構建的transformer 將會自適應地獲取圖像中的重要區域和語言表達中的信息關鍵詞之間的相關性，用于捕獲和傳輸像素級的語義信息。最后，使用多采樣率和有效卷積特征層，從而在多尺度上捕獲對象和圖像上下文，并將反卷積特征圖的采樣率提高以獲得更精確的分割結果。通過對類別先驗的顯式建模，減少冗余類別的重復匹配，研究得到了比之前最好的結果更高的分割性能。從上述實驗中也證實了本文方法的每個組成部分的有效性。此外，只使用了簡單的視覺和語言特征提取主干。更復雜的網絡結構有可能進一步提高性能，這將在未來的工作中加以解決。