999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于FuseNet 的多模態融合圖像分割網絡

2023-10-22 16:01:04黃孝慈
智能計算機與應用 2023年8期
關鍵詞:模態特征方法

張 濤, 黃孝慈

(上海工程技術大學機械與汽車工程學院, 上海 201620)

0 引 言

近年來,基于深度學習的圖像分割方法[1-3]因其具備的精心設計框架,以及各種細分數據集的可用性已取得了很大進展。 其中,來自各種深層網絡學習到的更好的特征表示對該方法的迅猛發展發揮了至關重要的核心作用。 然而,對于許多現實世界的應用、例如醫療和制造業,收集和標記數據非常耗時,需要用到專業的注釋員。 這個問題的直觀解決方法是在現有模型的源數據集上訓練未標記目標域。 然而,由于源域和目標域中的各種數據分布而導致的域轉移問題往往會阻礙該解決方法的實現。此外,方法在實現過程中沒有在語言表達的指導下明確定位參考對象,只利用耗時的后處理DCRF 生成最終的細化分割。 對于開放集[4-5]圖像分割任務,現已獲得了廣泛的應用,例如交互式圖像編輯和語言引導的人機交互。 除了傳統的圖像分割,由于圖像和語言之間的語義差異,語言相關的圖像分割更具挑戰性。 此外,文本表達不僅限于實體(例如,“人”、“馬”),還可能包含描述性詞語,如對象屬性(例如“紅色”、“年輕”)、動作(例如“站立”、“保持”)。

以前的研究主要集中在如何融合圖像特征和語言特征。 一個簡單的解決方案[6]是利用串聯和卷積的方法融合視覺和語言表達,以產生最終的分割結果。 但是,由于視覺和文本信息是單獨建模的,這種方法不能有效地建模圖像和語言之間的對齊。 為了進一步模擬多模態特征之間的上下文,一些先前的方法[7]提出了跨模態注意,自適應地關注圖像中的重要區域和語言表達中的信息關鍵詞。 最近,Hu等學者[8]利用卷積神經網絡(convolutional neural networks ,CNNs)和長-短期記憶網絡(long shortterm memory, LSTM)[9]的視覺和語言特征串聯來生成分割模板。 為了獲得更精確的結果,文獻[10]融合了多層次的視覺特征,以細化分割掩模的局部細節。

綜上所述,盡管這些方法都已獲得了長足的發展,但網絡體系結構和實驗實踐卻已逐步變得更加復雜。 這也導致算法的分類與比較顯得更加困難。因此,針對這一現狀,研究中從另一個角度考慮解決這個問題。 這里將圖像分割任務分解為2 個子序列任務,分別是:詞向量特征提取和精細分割掩模生成。 在本文提出的模型中,主要由以下核心部件組成:

(1)多模態融合模塊。 視覺特征和語言特征分別由卷積神經網絡(SegNet)和LSTM 網絡提取,然后融合生成多模態特征。

(2)定位模塊。 使用基于注意力機制構建的transformer 將會自適應地獲取圖像中的重要區域和語言表達中的信息關鍵詞之間的相關性。

(3)Segmentation Mask 模塊。 使用多采樣率和有效卷積特征層,從而在多尺度上捕獲對象和圖像上下文,并將反卷積特征圖的采樣率提高,由此獲得更精確的分割結果。 最后,使用交叉熵損失函數訓練網絡。

1 FuseNet 算法基礎

1.1 語言特征提取

給定一個背景詞向量X=[x1,x2,…,xm],其中xi是第i個標記。 首先應用表查找來獲得單詞嵌入,之后將其初始化為一個300 維的通道嵌入向量,每個通道表示一個詞向量的維度,再通過GLOVE進行輸入[11]。 為了模擬相鄰單詞之間的相互依賴關系,使用標準的LSTM 來處理初始嵌入文本向量:

其中,ht1和ht2分別表示LSTM 向前和向后獲得的文本向量。 全局文本通過所有單詞之間的平均池化獲得,其定義如下:

1.2 視覺特征提取

給定輸入圖像I∈H×W×3,利用視覺主干提取多級視覺特征,即和這里,H是原始圖像的高度,W是原始圖像的寬度,d是特征通道的尺寸。 對于圖像中的每個像素,研究假設這些像素對應于場景中的靜態部分,即圖像中的背景變化僅由相機運動引起。 將最終卷積層所獲得的視覺特征通過MLP 反向投影成高維3D 像素點,有利于像素分類并用于后續的定位環節。 3D 像素點投影如圖1 所示。

圖1 3D 像素點投影Fig. 1 3D pixel projection

2 FuseNet 總體架構

整體模型架構如圖2 所示,本文中模型的輸入由圖像I和背景詞向量X組成。 為了模型的輕量化,解碼器模塊具有相對于編碼器模塊的對稱結構,其中輸入和輸出通道的數量相反。 研究中,使用SegNet 和LSTM 分別提取I和X的特征,隨后送入多模態融合模塊,融合生成多模態特征。 其次,使用基于注意力機制構建的transformer 將會自適應地獲取圖像中的重要區域和語言表達中的信息關鍵詞之間的相關性。 最后,使用多采樣率和有效卷積特征層,有利于在多尺度上捕獲對象和圖像上下文,并使反卷積特征圖的采樣率得以提升,從而獲得更精確的分割結果。

圖2 整體模型架構Fig. 2 Overall model architecture

2.1 多模態融合模塊

由圖2 可知,研究中通過融合Fe1和Ptext獲得多模態張量,公式如下:

其中,g表示ReLU激活函數;和分別是Fm1和Fe1的特征向量;We1和Wt是將視覺和詞文本表示轉換為相同特征維度的2 個轉換矩陣。 然后,多模態張量Fm2和Fm3通過以下方式獲得:

其中,μ∈[2,3],上采樣的步長為2×2。 在下面的過程中,使用Fm3作為輸入來生成分割掩碼。以往的研究通常采用多次注意力機制來獲得分割結果。 在本文中,先是根據詞向量進行定位、再做分割,可以取得良好的性能,對此將展開研究論述如下。

2.2 定位模塊

在多模態任務中,一個主要的挑戰是建立圖像和文本之間的關系模型。 近年來,注意力機制已成為功能強大的一種優秀技術,可以在圖像分割中提取與語言表達相對應的視覺內容。 特征Fm3包含豐富的多模態信息,必須進一步建模以獲得圖像中的相關區域。 定位的目的是為了將每個像素與語言表達所涉及的全局分布的視覺區域關聯起來,這些區域的反應分數高于不相關區域,用于增強全方位推理,同時防止模型過度擬合圖像。 研究中將全局文本Ptext視為編碼器輸出,解碼器遵循變壓器的標準架構,使用多頭注意力機制將多模態特征Fm3轉換為一個粗略的分段掩碼熱圖Mmask,因此可得:

其中,響應分數越高的區域就越有可能對應于語言表達(見圖1)。

解碼器需要一個序列作為輸入,因此可將Fm3的空間維度壓縮為一維,從而生成特征映射。 由于transformer 架構是置換不變的,就可使用固定位置編碼對其進行補充,這些編碼被添加到每個注意層的輸入中。

2.3 Segmentation Mask 模塊

給定由式(8)中生成的視覺對象,Segmentation Mask 模塊的目標是生成最終的精細分割掩模。 研究中,先將原始多模態特征Fm3和視覺對象Mmask連接起來,并利用分割模塊來細化粗分割結果:

其公式定義如下:

其中,Segmentation Mask 模塊的主要結構以及分割過程如圖3 所示。 Segmentation Mask 模塊的卷積特征層使用了多采樣率和全局池化的方式,以便于從多尺度上捕獲對象特征和圖像上下文。 請注意,為了獲得更精確的分割結果,通過反卷積的方式將特征圖的采樣率增加了4 個因子。 這樣,預測的掩碼

圖3 Segmentation Mask 模塊Fig. 3 Segmentation Mask module

2.4 模型訓練

在模型訓練期間采用交叉熵損失函數,其定義如下:

其中,ge和pe分別表示下采樣中的地面真相掩碼和預測掩碼Hmask的元素。

3 實驗和結果分析

3.1 數據集

在本小節中,簡要介紹用于驗證本模型的數據集,即廣泛使用的Cityscapes 數據集[12]。 Cityscapes由5 000 幅真實的城市交通場景圖像組成,分辨率為2 048×1 024,并帶有密集像素注釋。 該數據集中2 975個圖像用于培訓,500 個圖像用于驗證,1 525個圖像用于測試。 城市景觀標注了33 個類別,其中19 個用于培訓和評估。 不含地面真相的訓練集用于訓練模型,驗證集用于評估模型。 GTA5[13]是一種合成數據集,其圖像從游戲視頻中收集,并通過計算機圖形技術自動生成相應的語義標簽。 其中,包括由9 633個像素級標簽合成的圖像。 在2 種不同的環境下評估了本文提出的FuseNet 圖像分割框架,并按照以前的方法[14],將Cityscapes 視為目標域,GTA5 視為源域(GTA5-Cityscapes)。

3.2 實施細節

本文使用Pytork 庫實現了提出的方法,并在NVIDIA 2080TI GPU 上進行了訓練。 所有網絡都使用了隨機梯度下降(stochastic gradient descent,SGD)優化器進行訓練。 初始學習速率和動量分別設置為2.5e-4和0.9,并采用冪為0.9 的多項式衰減策略來調整學習速率,接下來將最大迭代次數設置為150 000次。 輸入圖像的大小調整為416×416,輸入句子的最大長度設置為15。 使用1 024 維的LSTM 來提取文本特征。 過濾維度設置為1 024。該解碼器具有1 層網絡、4 個頭和1 024 個隱藏單元。 用平均交集(mIoU) 來評估本文提出方法的性能。

3.3 定量結果

首先,在GTA5-Cityscapes 中驗證本文方法的有效性,相應的比較結果見表1。 表1 中,每類的最佳結果以粗體突出顯示。 從表1 中可以看出,本文得到的mIoU(52.1%)獲得了最佳值,這大大優于其余方法,同時比僅在源數據上訓練的模型增加了15.5%,表現出了優越性能。 本文提出的方法在建筑物、墻壁、道路等類別上取得了更顯著的改進。 這些物體具有剛體,并且在不同的源域中形狀相似。mIoU的值越高, 也就證明了本文所提出的Segmentation Mask 模塊在學習視覺和語言模態之間語義對齊方面的有效性更強。 總地來說,本文提出的分割框架優于其他大部分模型。

表1 FuseNet 在GTA5-Cityscapes 上與其他先進模型的對比結果Tab. 1 Comparison results of FuseNet with other advanced models on GTA5-Cityscapes

本文收集含有不同類別的圖像進行運行時間分析,對比結果如圖4 所示。 每次分析重復400 次,然后取平均值。 研究比較了4 種最先進的方法,包括Source only、CRST、MLSL、UIA 模型。 模型運行時間分析結果如圖4 所示。 由圖4 可知,Source only 和CRST 的推理時間大致與圖像中的類數成正比,本文的方法和MLSL 模型的推理時間與圖像中的類數是不變的,并且本文提出的模型比現有的方法快得多。 值得注意的是,本文的方法沒有使用任何對抗性學習或任何其他復雜的技巧,這可歸因于源域組合訓練可以在一定程度上提高目標域的性能,源域之間的協作學習比目標域上的協作學習帶來了更多的改進。

圖4 模型運行時間分析Fig. 4 Analysis of model running time

圖5 顯示了訓練過程中分割精度和損失值的變化。 2 幅圖中的結果可以反映模型隨著迭代次數的增加而收斂。 如果損失值在幾個時期后略有增加,則該模型將被視為收斂條件。 在訓練過程中經過1 500次迭代后,該框架達到了收斂條件,并在對比實驗中獲得了最佳結果,這也驗證了表1 的結論。 在第5 階段,5 種方法(包括FuseNet、MLSL、CRST、UIA 和Source only)的準確度分別為83.3%、78.2%、65.5%、62.9%和61.4%。 經過1 500個階段后,本文方法取得了最好的性能并穩定增長,其損失值為-4.61,達到了收斂條件。 損失值的變化和最終結果表明,本方法在收斂速度和準確度上優于其他基線方法。

圖5 訓練過程中分割精度和損失值的變化Fig. 5 Change of segmentation accuracy and loss value during training

3.4 定性結果

為了直觀地評估定性結果,本文提出的基于現有的MLSL 模型,對含有多類別的圖像進行了圖像分割,分割結果如圖6 所示。 圖6(a)~(c)中,從左至右分別是:Language:馬路,車輛,天空,樹,標志,墻壁;Language:馬路,車輛,行人,樹,柵欄,墻壁;Language:馬路,車輛,樹,天空,墻壁。 所有這些圖像均來自GTA5-Cityscapes。 從這些定性結果中,可以看到本文的模型根據輸入語言所指定的類別對各類型圖像都能夠以精確分割,所分割出來的事物類型往往是最貼近真值的。 本文的模型可以利用依賴于語言和transformer 中復雜的特征注意力模型,自適應地提取語言表現中的信息關鍵詞,與圖片中的重要區域之間的信息關聯,從而得到了最匹配的特征分布,加快了推理定位對象的多模態信息融合過程,再通過更精細化的特征分割模塊,最后使模型達到了更高的準確度和更好的結構化分割輸出。

圖6 GTA5-Cityscapes 上不同數量的標記目標圖像上的定性結果Fig. 6 Qualitative results of different number of marker target images on GTA5-Cityscapes

4 結束語

在本文中,提出了一種新穎的用于圖像分割的自適應框架(FuseNet)。 其目的是在輸入圖像中將語言表達的類別對應的圖像進行分割。 在研究工作中,為這項任務開發了一種簡單而有效的方法。 將該任務分解為2 個子序列任務:詞向量特征提取和精細分割掩模生成。 首先將提取到的語言和視覺特征送入多模態融合模塊,融合生成多模態特征。 其次,使用基于注意力機制構建的transformer 將會自適應地獲取圖像中的重要區域和語言表達中的信息關鍵詞之間的相關性,用于捕獲和傳輸像素級的語義信息。 最后,使用多采樣率和有效卷積特征層,從而在多尺度上捕獲對象和圖像上下文,并將反卷積特征圖的采樣率提高以獲得更精確的分割結果。 通過對類別先驗的顯式建模,減少冗余類別的重復匹配,研究得到了比之前最好的結果更高的分割性能。從上述實驗中也證實了本文方法的每個組成部分的有效性。 此外,只使用了簡單的視覺和語言特征提取主干。 更復雜的網絡結構有可能進一步提高性能,這將在未來的工作中加以解決。

猜你喜歡
模態特征方法
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
國內多模態教學研究回顧與展望
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
基于HHT和Prony算法的電力系統低頻振蕩模態識別
由單個模態構造對稱簡支梁的抗彎剛度
計算物理(2014年2期)2014-03-11 17:01:39
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 秘书高跟黑色丝袜国产91在线| 天天综合网色中文字幕| 国产美女自慰在线观看| V一区无码内射国产| 国产欧美在线| 亚洲第一极品精品无码| 日韩无码白| 欧美一级色视频| 99视频精品在线观看| 日韩大片免费观看视频播放| 最新日韩AV网址在线观看| 国产精品不卡片视频免费观看| 国产精品视频导航| 99在线观看精品视频| 亚洲一区二区在线无码 | 亚洲国产91人成在线| 国产日本一线在线观看免费| 蜜桃臀无码内射一区二区三区| 欧美综合中文字幕久久| 四虎永久免费在线| 2019年国产精品自拍不卡| 国产白浆在线| 亚洲色图欧美| 一本大道视频精品人妻| 国产一区二区三区在线精品专区| 手机在线免费毛片| 国产亚洲精品自在久久不卡| 久久青青草原亚洲av无码| 91福利在线观看视频| 四虎影视库国产精品一区| 亚洲欧洲天堂色AV| 亚洲精品自拍区在线观看| 亚洲国产精品日韩欧美一区| 亚洲妓女综合网995久久| 国产无遮挡猛进猛出免费软件| 日韩中文欧美| 欧美精品亚洲日韩a| 久青草免费视频| 中文字幕在线一区二区在线| 免费在线看黄网址| 亚洲一本大道在线| 亚洲国语自产一区第二页| 日韩天堂视频| 精品国产毛片| 毛片一级在线| 99精品热视频这里只有精品7| 成年人免费国产视频| 免费人成又黄又爽的视频网站| 国产精品99久久久久久董美香| 国产精品自拍合集| 国产尤物在线播放| 国产精品自拍合集| 久久午夜夜伦鲁鲁片不卡| 免费看美女自慰的网站| 亚洲精品高清视频| 99re经典视频在线| 日本高清在线看免费观看| 国产美女自慰在线观看| 香蕉国产精品视频| 亚洲成人一区二区| 久久频这里精品99香蕉久网址| 亚洲综合激情另类专区| 一本大道香蕉久中文在线播放| 91精品伊人久久大香线蕉| 久久成人18免费| 欧美精品亚洲日韩a| 91亚洲视频下载| 中文字幕久久亚洲一区| aa级毛片毛片免费观看久| 精品综合久久久久久97超人| 免费一极毛片| 国产永久在线观看| 伊人成人在线视频| 中文字幕无线码一区| 日韩精品毛片人妻AV不卡| 99热这里只有精品2| 日本一区高清| 国产精品香蕉| 亚洲性影院| 日韩少妇激情一区二区| 日韩AV无码免费一二三区| 日韩高清一区 |