








摘 "要: 前列腺超聲圖像在臨床中的準確分割對后續診斷具有重要影響。因此,通過深度學習輔助實現前列腺邊界的快速、準確分割非常必要。為此,文中提出了一種改進的前列腺分割網絡(DA?Segformer)。利用Transformer、深監督和注意力機制,快速準確地分割前列腺超聲圖像。引入MAG模塊提高網絡對特征圖和像素關聯性的理解能力,以及對前景像素的敏感度。采用深監督策略,在解碼過程中引入損失函數,優化梯度傳播,增強網絡對關鍵特征的學習表征能力。實驗結果顯示,在前列腺超聲圖像數據集上,DA?Segformer模型的mIoU、Dice系數、準確率和召回率等指標均優于其他主流語義分割模型。該方法有效解決了前列腺超聲圖像手工分割的難題,為臨床診斷提供了有價值的計算機輔助工具。
關鍵詞: 醫學圖像分割; 超聲圖像分割; Transformer; 門控注意力; 深監督; 擴張卷積; 梯度下降; 多尺度特征
中圖分類號: TN911.73?34; TP391.41 " " " " " " " "文獻標識碼: A " " " " " " " " 文章編號: 1004?373X(2024)15?0065?08
Prostate ultrasound image semantic segmentation algorithm
based on improved Segformer
SHI Yongtao1, 2, LIU Di1, 2, GAO Chao1, 2, DU Wei1, 2, QIU Kangqi1, 2
(1. College of Computer and Information Technology, China Three Gorges University, Yichang 443002, China;
2. Hubei Key Laboratory of Intelligent Vision Monitoring for Hydroelectric Engineering, China Three Gorges University, Yichang 443002, China)
Abstract: Accurate segmentation of prostate ultrasound images in clinical settings plays a significant role in subsequent diagnosis. Therefore, it is essential to rapidly and accurately segment the prostate boundary with deep learning assistance. To this end, a novel prostate segmentation network named DA?Segformer is proposed. In this network, the Transformer, deep supervision and attention mechanism are utilized to segment prostate ultrasound images rapidly and accurately. Additionally, the MAG module is introduced to enhance the network′s understanding of feature maps and pixel correlations, so as to improve its sensitivity to foreground pixels. A deep supervision strategy is employed. A loss function is introduced into the decoding process to optimize gradient propagation, so as to enhance the network′s ability to learn and represent the key features. Experimental results demonstrate that the mIoU (mean intersection over union), Dice coefficient, accuracy rate and recall rate of the DA?Segformer model on the prostate ultrasound image dataset are superior to those of the other mainstream semantic segmentation models. The proposed method effectively addresses the challenge of manual segmentation of prostate ultrasound images, and provides valuable computer?aided tools for clinical diagnosis.
Keywords: medical image segmentation; ultrasound image segmentation; Transformer; gated attention; deep supervision; dilated convolution; gradient descent; multi?scale feature
0 "引 "言
前列腺位于男性膀胱下方和直腸前方,是男性生殖系統的重要組成部分。近年來,隨著城市化進程和社會節奏的加快,不良生活習慣導致前列腺相關疾病發病率迅速上升[1]。醫學成像是醫生進行疾病診斷的重要手段之一,利用專業儀器對病人進行掃描以獲取病變位置信息。醫學圖像的解讀主要依賴于放射科醫生的經驗和主觀判斷。然而,這種方式既費時費力,又存在不同醫生經驗差異導致同一圖像可能得出不同解讀的問題。鑒于此,利用計算機輔助醫生進行圖像處理顯得尤為必要[2]。但是目前實現前列腺邊緣輪廓的精準分割還存在不少困難。前列腺邊界存在大量的陰影、偽音等噪聲點,給分割帶來極大的困難[3]。因此,通過計算機技術實現對前列腺邊界的精準分割十分迫切和必要,不僅能夠協助醫生提高分割精度,還能幫助醫生從繁瑣的手工標注任務中解放出來,釋放醫療資源,提升醫院整體的醫療效率。
醫學圖像相對于自然圖像而言,背景環境更為復雜,具體表現為形狀更為多變,邊緣結構更為模糊,紋理結構更為豐富,這極大地提升了醫學圖像分割的挑戰性[4]。基于卷積神經網絡(CNN)的分割模型已經成功地應用在醫學圖像分割任務中。例如前列腺分割、腦腫瘤分割、肺分割、視網膜血管分割等。文獻[5]提出U?Net網絡,改善了醫學圖像分割的性能,采用編碼器?解碼器的結構和跳躍連接的設計模式,將淺層特征和深層特征進行了融合,能夠在保留完整特征的同時定位清晰邊界,解決因為語義相似引起的分割問題,獲得良好的分割性能,隨后一系列基于Unet的改進網絡模型被提出。文獻[6]提出了Attention Unet,將Attention Gate(AG,門控注意力)機制與Unet相結合,注意力機制根據解碼器中的上一層特征圖和編碼器中對應層特征圖之間的相似度,為編碼器特征圖分配不同的權重,使解碼器更加關注于當前分割任務相關的特征,從而更好地利用特征信息,提高分割的準確性。之后XIAO等人針對視網膜血管本身成像的限制以及光源干擾問題,提出了Res?Unet,該模型將殘差網絡Res?net和Unet進行了融合,通過增加網絡的深度防止過擬合,提高了模型的準確度[7]。文獻[8]受到DenseNet[9]的啟發,提出了Unet++模型,使用密集的跳躍連接,通過特征疊加的方式整合不同的特征,并且引入輔助損失函數,衡量該層級的預測結果與真實標簽之間的差異,是一種深度監督的編碼器?解碼器網絡。文獻[10]提出了Unet3+,表示U?net++雖然使用了密集的跳層連接,但未充分利用多尺度的特征圖提取到足夠的信息,因此Unet3+中提出了全尺度跳層連接,精度較U?net++有一定的提升。雖然這些方法在一定程度上提高了醫學圖像的分割精度,但是因卷積運算固有的局限性,CNN在局部建模方面存在歸納偏差,缺乏對圖像長期相關性的解釋,無法建立上下文信息連貫的全局建模,全局信息提取不足等問題。
文獻[11]提出的Transformer模型集成了全局注意力機制,可捕獲長距離的依賴特征,在自然語言處理方面取得了廣泛的成功。文獻[12]將Transformer應用到了CV領域,提出ViT(Vision Transformer)用于分類,但是ViT模型通常需要大量的計算資源和參數量來處理輸入圖像,這對于尺寸較大的圖像分割任務來說,可能會導致非常高的計算成本。文獻[13]提出了Swing Transformer,通過設計一種滑動窗口機制、層級下采樣的操作,并引入局部注意力機制,有效地減少了模型的計算復雜度,可以更有效地處理大尺寸圖像,同時降低計算成本。文獻[14]提出的TransUnet在圖片輸入階段大幅降低圖片尺寸,對于醫學圖像數據集來說,這丟失了太多的語義信息,導致分割效果不理想。隨后,產生了一系列基于Transformer Block的輕量化語義分割網絡,如Seaformer[15]、Topformer[16]、Segmenter[17]等。
基于Transformer架構的語義分割模型在目前的研究中尚存若干問題:
1) 多層感知器(MLP)在不借助預訓練模型的情況下,由于缺乏針對視覺任務的先驗知識,對于復雜醫學影像數據集的分割性能不盡如人意。特別是在邊緣信息的特征提取上表現欠佳,實驗結果表明,前列腺邊緣區域的分割結果顯著不規則,頻繁出現邊緣區域的欠分割和誤分割現象。
2) Transformer模型在各個處理階段主要關注全局上下文信息的建模,忽視了精確定位信息,這導致在低分辨率特征中缺少細節,并且這些低分辨率特征無法通過直接上采樣恢復到全分辨率,從而導致邊界信息的丟失。
為了應對上述挑戰,本文首先針對多層感知器(MLP)在邊緣區域因缺乏先驗知識而出現的明顯欠分割與誤分割現象,提出了一種結合MLP與門控注意力的多尺度線性特征融合機制(MAG),結合了MLP優異的學習能力和門控注意力的局部增強能力,專注于分割目標區域,增強了局部信息的表征,考慮到更多的語境和相關信息,提高了分割的準確性,改善了在前列腺超聲圖像上邊緣分割效果不佳的問題。考慮到本網絡模型有四層架構,并且針對解碼器中使用了上采樣操作從而導致的語義信息丟失的問題,本文引入了改進的深監督策略,通過對編碼過程中得到的多尺度特征圖采用不同擴張率的深度可分離卷積以及上采樣操作,對中間層的特征引入損失函數,使梯度更好地進行反向傳播,提高了對特征的利用率,減少了解碼過程中的語義信息丟失問題,提高了分割精度,同時加快了模型的收斂速度。
通過在前列腺超聲圖像數據集上進行測試驗證,實驗結果表明,相比于經典的CNN分割模型Unet、Attention Unet、Unet++,以及以Transformer Block為主的輕量化語義分割模型Seaformer、Topformer、Segmenter,本文所提出的DA?Segformer模型取得了最佳的實驗結果。
1 "方 "法
1.1 "基本原理
針對前列腺超聲圖像分割,本文結合Transformer、MLP、深監督(Deep Supervision)和門控注意力,提出了一種基于Segformer改進的分割模型(DA?Segformer),其模型結構如圖1所示。
該網絡結構以Transformer Block和CNN作為主體,并嵌入了MAG(多尺度線性特征融合)模塊和深監督模塊。MAG模塊的設計是為了幫助網絡更好地理解特征圖的特征以及像素之間的相關性,增加了模型對前景像素的敏感度。在用該模型進行訓練時,通過抑制模型學習與任務無關的部分,減少網絡對噪聲和不相關信息的關注,同時加重學習與任務有關的特征,從而提高模型的性能和效率。深監督模塊則對MAG模塊得到的特征圖進行損失計算,幫助梯度更好地傳播,使網絡能夠更快地學習更豐富、更有用的特征表示,提高了模型的泛化能力,加快了模型的收斂速度。最后模型會融合不同層次的邊界信息,為最終的分割效果提供大量的邊界補充信息,使分割精度提升明顯,模型的詳細信息如下所述。
1.2 "Transformer Block編碼器
如圖2所示,在編碼器部分采用了高效的多頭自注意力模塊,自注意力估計為:
[Attention(Q,K,V)=SoftmaxQKTdheadV] (1)
式中[Q]、[K]、[V]具有同樣的大小。在自注意力的基礎上,通過Reshape和Linear層減小了[N](特征)的長度,這樣做的好處是減小了計算復雜度,通過如下公式實現:
[K=ReshapeNR,C?R(K)] (2)
[K=Linear(C?R,C)(K)] (3)
Mix?FFN通過引入一種不同的前饋神經網絡結構,提供了一種更加靈活的特征提取方式。傳統的FFN在每個位置上都采用相同的非線性變換,而Mix?FFN則允許在不同位置使用不同的非線性變換,從而增加了模型的表達能力。具體來說,Mix?FFN使用了兩種不同的前饋神經網絡結構:全局前饋神經網絡和局部前饋神經網絡。全局FFN是一個具有較大感受野的前饋神經網絡,能夠更好地捕捉全局上下文信息。而局部FFN是一個具有較小感受野的前饋神經網絡,能夠更好地捕捉局部細節信息。通過同時使用全局FFN和局部FFN,Mix?FFN能夠在處理不同位置的特征時更加靈活和準確。全局FFN可以幫助模型捕捉到更長范圍的依賴關系和語義信息,而局部FFN則可以更好地處理局部細節和細微變化。Mix?FFN可以表示為:
[Xout=MLP(GeLU(Conv3×3(MLP(Xin))))+Xin] (4)
式中[Xin]是來自自注意力模塊的特征。
1.3 "解碼器
Segformer網絡整合了一個主要由MLP結構組成的解碼器部分。首先,不同層的特征圖通過一個線性層使它們的通道維度一致化。然后,這些特征圖被上采樣至[14]分辨率,4張特征圖通過Concat操作融為一體,并分別通過兩個線性層用于融合特征圖和預測結果。這種設計簡化了整個解碼結構,只使用了線性層,避免引入復雜操作。然而,在噪聲大、數據少的前列腺超聲圖像數據集上訓練變得異常困難,為了改善分割效果,對此提出了如下改進方法。
1.3.1 "多尺度線性特征融合模塊(MAG)
在編碼器中得到了4個不同尺度的特征圖像[X1],其尺寸分別為輸入特征圖的[14]、[18]、[116]、[132],淺層特征具有豐富的細節特征,紋理特征更為豐富,高層特征則具有更多的語義信息,Segformer的解碼器全部由MLP層組成,由于沒有先驗知識,考慮到前列腺超聲圖像數據集噪聲大、體量小的特殊性,這樣的解碼器很可能會導致模型收斂慢、精度差、擬合不好數據,而卷積神經網絡加了偏置項,在小數據集上擬合能力更好。因此,提出了MAG模塊,如圖3所示。該模塊首先通過多層感知機(MLP)對輸入的特征圖[Xi]和[Xi-1]進行線性化,使其從四維變成一維的數據,然后通過Reshape將其變為channel都為256的多尺度特征圖[X′i]、[X′i-1],一方面能使多尺度特征圖的通道數對齊,其次可以學習到更加抽象的特征。通過將[X′i]使用雙線性插值方法進行上采樣,使其與[Xi-1]具有相同的尺寸,將[X′i]與[X′i-1]進行并行處理,分別使用1×1的卷積及批歸一化(BN)操作,再將其對應的元素相加進行特征融合,得到更為豐富的語義特征圖。之后進行ReLU(Rectified Linear Unit)操作以及1×1的卷積操作,再使用BN、Sigmoid激活函數得到通道數為1的注意力權重[α],令其與[X′i-1]相乘,得到channel數為256的注意力特征圖,再將其與[X′i]進行Concat操作,通過一個CBL(Conv、BN、ReLU)模塊將通道數從512還原成256,并得到具有豐富語義信息的特征圖[Y]。上述過程可由式(5)~式(10)表示。
[X=Reshape(MLP(X))] (5)
[Attention_Weights=σ(Wa*X+ba)] (6)
[Adjusted_Context=Attention_Weights*C] (7)
[Y=ReLU(Wy*(Adjusted_Context⊕X)+by)] (8)
[Y=Y?X] (9)
[Y=ReLU(BN(Conv(Y)))] (10)
式中:[X]表示輸入特征圖;[Wa]代表注意力權重矩陣;[ba]代表注意力偏置;[σ]表示Sigmoid激活函數;“*”表示乘法;[Wy]是輸出權重矩陣;[by]是輸出偏置;“[⊕]”表示逐元素相加;“[?]”為逐元素相乘(Element?wise Multiplication);[Y]為最終的輸出圖。
1.3.2 "深監督模塊
本文在解碼器中考慮到前列腺超聲圖像的數據量較小以及醫學圖像本身的復雜性,引入了深監督策略,如圖4所示。在解碼過程中,針對不同階段的特征圖[Y],引入損失函數,在訓練期間,這些輔助分支與主要分支共同生成預測結果,并與真實標簽計算損失,將與標簽做損失得到的梯度直接回傳到中間層,這樣一來,網絡在不同深度處都可以接收來自損失函數的梯度信號,從而更好地學習特征,減少模型的過擬合現象,并提高分割精度,加快網絡的收斂速度。首先將解碼階段得到的中間層特征圖[Y]進行上采樣操作,與Mask的尺寸進行對齊,其次本文在進行深監督時,同時注意到了高級特征和低級特征,采用不同擴張率的深度可分離卷積獲取不同的特征信息。通過擴張率為1和3的卷積獲得局部特征信息,擴張率為5和7的卷積獲得全局特征信息。將取得的局部特征信息和全局特征信息相加,進行特征提取,并將通道數調整為2,通道數和尺寸都與mask對齊,通過損失函數計算損失,并且將梯度數據回傳,監督每個分支的輸出。本文高效地利用了中間層的特征,保留更多的多尺度特征信息。實驗表明,深監督策略使網絡可以更好地理解數據,從而學習更復雜的特征表示,加快模型的收斂速度,從而改進模型的性能。
2 "實 "驗
2.1 "數據集及其預處理
為了驗證本文方法的可靠性,本次實驗所采用的超聲圖像全部來自某家醫院的前列腺檢查數據,一共133張。在去除掉病人的隱私后,圖片的分辨率為512×512 pixel,其中訓練集有80張圖片,驗證集有27張圖片,測試集有26張圖片。為了方便訓練,在訓練的時候縮放成256×256 pixel,并且由經驗豐富的放射科醫生為每幅圖像手工標注分割標簽,方便對后續的實驗結果進行性能評估。
2.2 "實驗環境
實驗是基于Windows 11專業版的操作系統,使用1塊NVIDIA GeForce GTX 1660s的設備對上述數據集進行訓練,使用Python 3.8作為開發語言,開發框架為PaddlePaddle 2.9。實驗的batch size設為4,epoch設為50,選擇AdamW作為優化器,權重衰減系數(weight_decay)設為0.01,初始學習率(learning_rate)設為0.001,學習率調度器為PolynomialDecay,指數衰減率為1,根據epoch和learning_rate之間的關系,線性下降學習率。本文采用CrossEntropyLoss作為損失函數,損失函數權重coef設為1。
2.3 "評價指標
本文主要采用Dice相似系數(Dice Similarity Coefficient, DSC)、平均交并比(Mean Intersection over Union, mIoU)、準確率(Precision)、召回率(Recall)作為評價指標來評估模型對前列腺超聲圖像分割性能。
mIoU通過計算兩個集合的交集及其并集的重合比來表征模型性能,定義如下:
[mIoU=TPFN+TP+FP] (11)
Dice系數用于衡量類別真實值與預測結果之間的相似度,定義如下:
[Dice=2TPFN+2TP+FP] (12)
準確率(Precision)是指分類器在預測為正例的樣本中,真正為正例的比例,定義如下:
[Precision=TPTP+FP] (13)
召回率(Recall)是在所有真正為正例的樣本中成功預測為正例的比例,定義如下:
[Recall=TPTP+FN] (14)
式中:FN為分類器預測結果為負樣本,實際為正樣本,即漏報的正樣本數量;TP為分類器預測結果為正樣本,實際也為正樣本,即正樣本被正確識別的數量;FP為分類器預測結果為正樣本,實際為負樣本,即被誤報的負樣本數量。
2.4 "對比實驗
為了客觀評估本文所提出方法的性能,在相同實驗環境及數據集下,將本文提出的模型DA?Segformer與優秀的CNN醫學圖像分割網絡Unet、Attention Unet、Unet++,以及以Transformer為骨干的模型Segmenter、Topformer、Seaformer的測試結果進行對比,實驗結果如表1所示。
由表1可見,本文以Unet前列腺分割模型作為對比模型,其余的模型較此均有一定的提升。其中Attention Unet相比Unet模型,Recall系數提升最為顯著,提升了1.81%。而Unet++在Unet的基礎上融合了深監督策略,精度提升明顯,mIoU提升了2.91%。實驗數據表明,在加入AG和深監督策略之后,模型的性能得到了顯著的提升,因此在本文的模型設計過程中考慮到了AG和深監督的融入,并加以改進,提出了MAG模塊和深監督模塊。本文提出的DA?Segformer在mIoU、Dice系數、Recall這三個指標上都取得了最優的結果,其中相比同樣以Transformer為骨干的輕量化網絡Segmenter、Topformer、Seaformer,mIoU分別提高了1.56%、2.8%、0.52%,DA?Segformer的前景分割平均交并比達到了0.952 5,表明本文模型的分割結果與真實值高度相似。Recall系數達到了0.975 7,相比Segmenter、Topformer模型提升了1.05%、2.05%,表明DA?Segformer模型能夠較準確地識別前景部分,同時Dice系數達到了0.983 0,Precision達到了0.975 6。綜上所述,本文提出的分割模型的分割精度與真實值相似度較高,能夠較好地分割前景和背景,分割性能優于以上提出的6種模型,有效地提升了前列腺超聲圖像的分割精度。
將本文模型與表1的其他6種分割模型結果進行了更為直觀的對比和展示,用訓練好的模型對測試集進行測試。選取部分數據,將其結果同輸入圖像及標簽進行對比,如圖5所示。
從圖5的分割結果來看,其他6種模型均存在分割效果不足的問題,特別是實線方框內部的區域,在分割細節上缺乏一定的敏感度,未能有效地提取圖像的全局信息,對圖像邊緣信息的忽略導致前列腺邊緣區域模糊、前列腺邊界極其不規則。
具體的分割細節如圖6所示。
圖6中,序號為1的箭頭指向為Ground Truth,序號為2的箭頭指向為原版的Segformer所得到的邊緣分割信息,序號為3的箭頭指向則為本文提出的DA?Segformer模型的分割效果圖。可以清晰地看到,圖6a)原本的Segformer模型存在明顯的欠分割現象,對本是前列腺的區域未能識別出來;圖6b)則存在誤分割現象,在真值邊緣信息不規則的情況下,錯誤地將本不屬于前列腺的區域劃分為了前列腺區域;而在本文提出的模型的分割結果上顯示,在添加了MAG模塊和深監督策略之后,加強了對前列腺區域的識別能力,在解碼過程中的語義信息和紋理信息得到了很好的保留,欠分割問題和誤分割問題大大減少,Recall系數和Precision系數要優于原本的Segformer模型,分割結果更接近標簽,分割性能更好。
2.5 "基于Segformer的消融實驗
由表1可知,本研究引入的MAG模塊和深監督模塊都在不同程度上對原本的Segformer模型進行了優化,分割精度上漲明顯,為了具體地了解MAG和深監督對模型的影響程度,以Segformer為基準,設置了相應的消融實驗,實驗結果如表2所示。
本實驗分別對原版的Segformer,以及分別添加MAG、深監督以及預訓練的模型進行了實驗結果對比,實驗結果表明,Segformer的mIoU為0.922 9,Dice系數為0.972 0,召回率為0.955 5。在添加了深監督策略以后,分割精度上漲了0.83%,Dice系數、Precision指標、召回率分別上漲了0.31%、0.81%、0.10%。隨后又對只添加MAG模塊的Segformer網絡進行了測試,mIoU上漲了1.34%,Dice系數、Precision指標、召回率分別上漲了0.5%、0.7%、0.74%。實驗結果表明,在分別加入AG和深監督策略之后,精度上都有1%左右的提升,所以將MAG和深監督同時添加到本文的解碼器之中,將兩種策略的結果進行融合得出最后表2中DA?Segformer的實驗結果。mIoU分割精度有較大的提升,相比于原本的Segformer模型提升了2.96%,相比分別添加深監督和MAG網絡的分割精度分別提升了2.13%、1.62%,而且在其他所有指標上也都有一定的提升,可知在加入MAG和深監督的模塊之后,增強了對顯著特征的提取能力,分割性能得到了明顯的提升,并且相對于添加預訓練模型的Segformer,DA?Segformer的mIoU也提升了0.32%,Dice系數、召回率也分別提升了0.12%、0.61%,說明DA?Segformer的魯棒性較強,也不需要大量的數據來訓練,正好契合醫學圖像數據集的特性。
2.6 "損失函數對比實驗
本文采用深監督策略用于解決前列腺超聲圖像特征復雜、數據量小的問題,通過在解碼器中間層引入損失函數,將梯度及時回傳,增強了對特征的提取能力,同時提高了精度,因此損失函數的選擇至關重要。為了進一步測試損失函數的重要性,本文在同樣的權重參數下,設置了相應的消融實驗,經過實驗表明,CrossEntropyLoss為最佳損失函數,性能效果最好,實驗結果如表3所示。
2.7 "深監督對模型性能的影響
圖7為本文模型有無深監督模塊的訓練曲線圖。
從圖7可知,針對數據量較小的前列腺超聲圖像數據集,沒有嵌入深監督策略的模型收斂速度較慢,且由于上采樣過程中語義信息的丟失,精度也不如DA?Segformer。本文的深監督策略起到了不錯的效果,對上采樣語義信息的丟失問題進行了改善,很好地保留了前列腺邊緣特征,提高了分割精度,同時加快了模型的收斂速度。
3 "結 "論
本文結合Segformer、MAG和深監督策略,提出了一種基于Segformer的改進分割模型DA?Segformer,實現了對前列腺超聲圖像的全自動分割。DA?Segformer使用Transformer作為骨干的編碼器,原本以MLP架構為主的解碼器精度不足,僅僅通過一個以MLP為主的解碼器模塊對多層次特征圖進行邊緣特征提取,這種解碼方式在醫學圖像小數據集上存在分割效果不佳的問題。本文改變了其解碼架構,在解碼器中嵌入了MAG模塊,加強對顯著目標區域的特征提取,并且抑制無關區域;再對多級特征圖在解碼時引入深監督策略,對淺層特征也進行分類,并計算損失,使梯度能夠及時回傳。實驗結果表明,本文模型相較于其他6種模型,取得了最高的分割精度,有效地提高了對前列腺超聲圖像的分割效果。緩解了目前前列腺超聲圖像需要大量醫生進行手工分割的難題。
原版的Segformer以及本文提出的模型在少數前列腺超聲圖像分析中均出現了對于肉眼可明顯識別為非目標區域的噪聲進行錯誤分割的現象,將這些噪聲誤判為前列腺目標區域并對其執行了分割。此現象表明,現有模型設計尚存在改善空間,針對此問題的優化將成為后續研究的焦點。
注:本文通訊作者為石勇濤。
參考文獻
[1] 司明俊.磁共振彌散峰度成像鑒別診斷前列腺癌與良性前列腺增生的臨床價值及參數分析[J].影像研究與醫學應用,2023,7(24):25?27.
[2] MERJULAH R, CHANDRA J. Segmentation technique for medical image processing: A survey [C]// International Conference on Inventive Computing and Informatics. New York: IEEE, 2017: 1055?1061.
[3] 石勇濤,高超,李偉,等.雙態形狀重構及其在前列腺超聲圖像分割中的應用[J].計算機應用研究,2023,40(3):954?960.
[4] 胡帥,李華玲,郝德琛.改進UNet的多級邊緣增強醫學圖像分割網絡[J].計算機工程,2024,50(4):286?293.
[5] RONNEBERGER O, FISCHER P, BROX T. U?Net: Convolutional networks for biomedical image segmentation [C]// Proceedings of 18th International Conference on Medical Image Computing and Computer?assisted Intervention. Heidelberg, Germany: Springer, 2015: 234?241.
[6] OKTAY O, SCHLEMPER J, FOLGOC L L, et al. Attention U?Net: Learning where to look for the pancreas [EB/OL]. [2018?05?20]. https://arxiv.org/abs/1804.03999.
[7] DIAKOGIANNIS F I, WALDNER F, CACCETTA P, et al. ResUNet?a: A deep learning framework for semantic segmentation of remotely sensed data [EB/OL]. [2019?04?24]. http://arxiv.org/abs/1904.00592.
[8] ZHOU Z W, SIDDIQUEE M M R, TAJBAKHSH N, et al. UNet++: A nested U?Net architecture for medical image segmentation [C]// 2018 4th International Workshop on Deep Learning in Medical Image Analysis and Multimodal Learning for Clinical Decision Support. Heidelberg, Germany: Springer, 2018: 3?11.
[9] HUANG G, LIU Z, VAN DER MAATEN L, et al. Densely connected convolutional networks [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2017: 2261?2269.
[10] HUANG H M, LIN L F, TONG R F, et al. UNet 3+: A full?scale connected UNet for medical image segmentation [C]// 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). New York: IEEE, 2020: 1055?1059.
[11] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C]// Advances in Neural Information Processing Systems 30: Annual Conference on Neural Information Processing Systems 2017. [S.l.: s.n.], 2017: 5998?6008.
[12] DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16x16 words: Transformers for image recognition at scale [EB/OL]. [2021?01?12]. https://openreview.net/forum?id=YicbFdNTTy.
[13] LIU Z, LIN Y T, CAO Y, et al. Swin Transformer: Hierarchical vision Transformer using shifted windows [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. New York: IEEE, 2021: 9992?10002.
[14] CHEN J N, LU Y Y, YU Q H, et al. TransUNet: Transformers make strong encoders for medical image segmentation [EB/OL]. [2021?04?12]. https://arxiv.org/abs/2102.04306.
[15] WAN Q, HUANG Z L, LU J C, et al. SeaFormer: Squeeze?enhanced axial Transformer for mobile semantic segmentation [EB/OL]. [2023?10?27]. https://openreview.net/pdf?id=?qg8MQNrxZw.
[16] ZHANG W Q, HUANG Z L, LUO G Z, et al. TopFormer: Token pyramid Transformer for mobile semantic segmentation [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2022: 12073?12083.
[17] STRUDEL R, PINEL R G, LAPTEV I, et al. Segmenter: Transformer for semantic segmentation [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. New York: IEEE, 2021: 7242?7252.
作者簡介:石勇濤(1978—),男,湖北天門人,博士,教授,碩士生導師,主要研究方向為醫學圖像處理、模式識別、最優化方法。
柳 "迪(1997—),男,湖北宜昌人,碩士研究生,主要研究方向為深度學習、醫學圖像分割。
高 "超(1995—),男,廣東深圳人,碩士研究生,主要研究方向為深度學習、醫學圖像處理。
杜 "威(1998—),女,遼寧本溪人,碩士研究生,主要研究方向為機器學習、圖像處理。
邱康齊(1998—),男,湖北孝感人,碩士研究生,主要研究方向為醫學圖像處理。