基于改進UCTransNet的海洋微藻圖像分割模型

2024-04-29 00:00:00竇宇陳宏遠譚華超袁貴鴻江彥博劉丹

軟件工程 2024年2期

關鍵詞：海洋微藻;圖像分割;UNet網絡;UCTransNet網絡;注意力機制

0 引言（Introduction）

在赤潮發生的早期，快速鑒定赤潮藻類對防治藻華有著十分重要的意義。圖像分割算法是將圖像在像素級別進行分類的算法。早期的數字圖像處理分割主要采用閾值分割、區域分割、聚類等方法[1]。近年來，深度學習技術開始應用到圖像分割領域。SHELHAMER等[2]提出了FCN（Fully Convolutional Networks）網絡模型，實現了圖片端到端的分割。RONNEBERGER等[3]提出了UNet網絡模型，U形分割模型開始興起。ZHOU等[4]提出了UNet++，使用密集型跳躍連接加強編碼譯碼器之間的聯系。OKTAY等[5]提出了Attention-UNet，將注意力機制引入UNet模型之中。

近年來，多頭注意力機制興起，CHEN等[6]提出了TransUNet網絡模型，使用Transformer作為譯碼器。VALANARASU 等[7]提出了Medical Transformer，在Transformer的基礎上加入了可學習的門控機制。JI等[8]將多尺度的語義特征整合到一個框架中，提出了MCTrans模型。GAO 等[9]把Transformer模塊同時加入UNet的編碼與譯碼模塊，提出了UTNet網絡。JI等[10]使用漸進歸一化自注意力網絡PNS-Net來獲取更大的感受野。ZHANG等[11]將多個網絡融合，提出了MBT-Net網絡模型。WANG等[12]提出了使用Transformer代替跳躍連接的模型———UCTransNet，同時在譯碼階段加入了通道注意力模塊[13]。但是，UCTransNet過于重視特征圖通道之間的聯系而忽略了其空間的特征。本文在UCTransNet的基礎上引入空間注意力機制[14]，得到Channel-Space Attention Module（CSAM）模塊，進一步提高了分割效果。

1 算法改進（Algorithm improvement）

1.1 UCTransNet網絡模型

UCTransNet網絡模型整體的編碼譯碼器依然采用UNet模型架構。取消了原始的跳躍連接，將各級編碼完成的特征圖Ei 輸入帶有Transformer的通道交通融合模塊（CCT）中，然后輸出到譯碼器中。在譯碼階段采用通道交叉注意力模塊Channel wise Cross-Attention（CCA）將CCT的輸出和上采樣的輸出進行融合。

原始UCTransNet模型架構如圖1所示，在CCT模塊中各級特征圖首先經過層歸一化（LN），使輸入數據的分布更規范、差異性更小。在歸一化結束后，將各級數據Concat作為多頭交叉注意力機制（MCA）的V 和K 輸入MCA中，同時將層歸一化之后的各級Ei 作為MCA的Q 輸入。

CCT模塊架構如圖2所示，與原始多頭注意力機制不同的是，MCA是沿著通道軸進行注意力操作，可以加強通道聯系，節省計算量，MCA架構如圖3所示。經過MCA后，各級特征圖進行歸一化和全連接層MLP（Multi-Layer Perceptron），然后輸出到譯碼器上。通過CCT模塊的各級數據加強了通道上的語義聯系，為后續譯碼奠定了基礎。在譯碼階段，CCT輸出的Oi 與譯碼器上采樣的特征圖Di 一起輸入通道交叉注意力模塊（CCA），經過一層全局池化和全連接層與Oi 相乘，形成融合編碼和譯碼數據的特征圖Oi*，然后經上采樣輸出。

CCA模型架構如圖4所示，CCA加強了Di 與Oi 在通道上的語義聯系，并且提高了較為重要的通道的權重。譯碼器將經過4次CCA模塊與上采樣的特征圖，輸入1×1的卷積層與S型函數（Sigmoid）中，最終輸出與原始圖片尺寸一致的分割結果。

1.2CSAM 網絡架構

由于顯微照片下的藻類細胞過小，為了進一步突出特征圖的空間與通道特征，同時消除編碼與譯碼器之間的語義鴻溝。本研究在UCTransNet的基礎上進一步改進了CCA模塊，提出了通道空間融合注意力機制（CSAM），CSAM 模型架構如圖5所示。

不同于CCA模塊比較重視通道之間的特征融合，CSAM在保留CCA通道能力的同時，加強了特征圖空間上的權重，同時在空間和通道多維度上融合編碼與譯碼的數據，使模型的分割結果更精細、準確。CSAM-UCTransNet網絡結構如圖6所示。

CSAM的輸入為CCT輸出的特征圖Oi 以及譯碼器上采樣得到的特征圖Di。CSAM網絡的主干是由三個池化層交叉連接形成的。以Di 為例，設其輸入大小為H 、W 、C，分別代表高度、寬度、通道數。首先Di 經過通道層方向上的自適應平均池化壓縮為1×1×C 的特征圖C1，將C1 經過1×1的卷積與Sigmoid函數得到C2。將輸入Di 與C2 相乘得到通道加權后的特征圖Dc。同時，將輸入Di 在空間上先進行全局平均池化得到H ×W ×1的平均空間特征圖Svi，S1 經過1×1的卷積與Sigmoid函數得到Sv2。同時，為了更加全面地突出數據的空間特性，再將Di 進行最大池化得到H ×W ×1的最大空間特征圖Sm1。Sm1 經過1×1卷積與Sigmoid函數得到Sm2。將Sv2 與Sm2 經cat操作，融合為一個H ×W ×2的特征圖Svm 。將輸入Di 與Svm 相乘得到空間加權后的特征圖Dvm 。將Dvm與Dc 相加得到融合了空間與通道多重特征的Dcs。將Dcs 與CCT輸出的經過相同操作的Ocs 特征圖結合，最后經過1×1卷積與Sigmoid函數得到最終輸出的結果O * 。

2 實驗（Experiment）

2.1 數據集與預處理

本文選用LeicaDM4B低倍顯微鏡，收集小球藻培養液作為實驗樣本。共計拍攝全尺寸小球藻顯微圖片48張，同時使用labeme軟件對圖片進行標記，藻類全尺寸圖片及標簽如圖7所示，其中圖7（a）是采集的小球藻原圖，圖7（b）是小球藻標簽。

圖7中有21張圖片的尺寸為1 920×1 200，27張圖片的尺寸為2 448×1 920。圖像尺寸過大，直接進行訓練會導致設備內存溢出。但是，若將圖片的尺寸直接縮放為256×256，則圖片中的大量信息會損失。所以，將圖像縮放并切割為792張尺寸為480×480的圖片，切割完畢之后將label中像素值小于800的圖片刪除，減少圖片中藻類過少帶來的誤差，剩余401張圖片。每張480×480的圖片含有10～100個小球藻，切分之后的圖片及標簽如圖8所示。

本文對數據集做了以下預處理。

（1）將數據集以3∶1∶1的比例隨機劃分為訓練集、驗證集和測試集。

（2）在訓練之前，對圖像進行數據增強，即對圖片進行旋轉、翻轉、裁剪等操作。

2.2 評價指標

本文使用圖像分割領域常用的評價指標Dice相似系數（Dice Similarity Coefficient， DSC）和交并比（Intersection overUnion， IoU）。

Dice相似系數是用于度量兩個集合相似度的函數，可以用于計算預測圖像和標簽圖像之間的相似度，其取值范圍為[0，1]，DSC的值越接近于1，表示分割效果越好，計算公式如下：

2.3 實驗設置

使用編程語言Python和Pytorch框架進行基本的程序運行和模型搭建。使用Todesk遠程連接NVIDIA GeForce RTX3060，其內存為12 GB。使用Adam作為優化器進行迭代。由于顯卡內存有限，因此訓練時設置batch-size 為2，并且每次訓練結束后將模型在驗證集上進行驗證，記錄下驗證后的Dice相似系數。若這一次的Dice相似系數高于以前歷次驗證結果，則保存當前模型。迭代200次，保存200次中的最佳模型。

2.4 實驗結果分析

本文使用UNet、UNet++、Attention-UNet、UCTransNet、CSAM-UCTransNet模型在同一服務器上設置相同的學習率和batch-size 進行分割訓練，UNet是醫學圖像分割中最常用的網絡模型之一，UNet++在UNet的基礎上使用了密集跳躍連接;Attention-UNet在UNet的譯碼模塊中加入了注意力門（Attention Gate）機制。UCTransNet使用多頭注意力模塊代替UNet跳躍連接。各個模型的分割評價指標結果如表1所示;各個模型的分割效果對比圖如圖9所示。

目前，CSAM-UCTransNet網絡的Dice相似系數最高，超過了70%。這是因為CSAM-UCTransNet在保留了UCTransNet完整的CCT模塊的基礎上，在譯碼階段增加了CSAM 機制對數據的空間和通道進行多尺度融合，彌補了編碼譯碼階段的語義鴻溝，同時提高了模型對圖片細節的感應能力。在5組對比模型中，UNet的效果最差，Dice相似系數僅為56.96%，這是因為UNet僅用最基礎的跳躍連接實現編碼譯碼之間的聯系，這使得模型對于數據細節把控較差。UNet++是在UNet的基礎上使用密集的跳躍連接，具有更強的特征提取能力，能對不同尺度的特征進行融合提取。雖然UNet++融合了各級感受野的特征，但是由于各級感受野只跟相鄰層級進行融合，導致在模型譯碼階段容易忽略信息的細節及邊緣。Attention-UNet在UNet的譯碼模塊加入注意力門機制，其計算效率比UNet++更高，并且能更好地把握全局信息。但是，Attention-UNet是直接將圖片中的細節信息進行加強，導致它極易受噪聲干擾，將雜質一起分割出來。UCTransNet使用當前較為流行的Transformer模塊代替UNet的跳躍連接，并且在譯碼階段加入通道注意力機制，但是UCTransNet過于重視圖像的通道信息而忽視了圖像的空間信息，相較于CSAM-UCTransNet網絡，UCTransNet對于小目標樣本分割效果相對差一點。

圖9為各個模型對驗證集上圖片的分割效果。對比圖為全尺寸顯微照片切割后尺寸為480×480的圖片。圖9（c）呈現了UCTransNet的分割效果，UCTransNet對小目標樣本敏感度不足，對小球藻的邊緣分割效果相對不足。圖9（d）呈現了UNet++的分割效果，其對小球藻的邊緣分割效果較好，但是相鄰細胞易出現粘連情況，影響整體準確性。圖9（e）呈現了UNet的分割效果，與UNet++的分割效果一樣，UNet模型對單個細胞的分割區域過大，導致相鄰細胞互相粘連。圖9（f）呈現了Attention-UNet的分割效果，雖然Attention-UNet對細胞邊緣分割更為細致，但是出現較多的雜質。圖9（g）呈現了CSAM-UCTransNet的分割效果，其對小球藻實現了較為準確的分割，Dice相似系數達到了73.69%，同時IoU 達到了59.16%，結果最好。

3 結論（Conclusion

本文在UCTransNet的基礎上，改進譯碼器的注意力機制，提出了一種結合了通道空間融合注意力機制的網絡模型CSAM-UCTransNet。該模型在譯碼階段不僅考慮了數據的通道信息，還將CCT模塊輸出的數據與譯碼器的空間信息和通道信息進行特征融合，進一步加強了模型在編碼和譯碼之間的聯系，并且強化了模型對樣本在空間上的特征提取能力。相較于其他U形圖像分割模型，CSAM-UCTransNet的分割精度更高，得到的效果圖更好。后續將進一步對模型進行改進，同時引入LoRA[15]等參數高效性微調方法，進一步提高網絡模型的精度和收斂速度。

軟件工程2024年2期

軟件工程的其它文章: 融合大數據的校園公權力監督機制研究與模型構建; 基于Spark的智能菜品推薦系統設計與實現; 基于多特征融合和尺度自適應的核相關濾波算法; 適用于無人機的自動跟蹤算法的研究; 基于ConvLSTM的南京地區共享單車需求預測研究; 基于改進YOLOv8的森林火災檢測算法研究