基于深度學習的聲帶疾病診斷識別方法比較研究

2024-12-31 00:00:00鄒鋒郭珊珊樊玉琦

現(xiàn)代信息科技 2024年8期

摘要：在醫(yī)學圖像診斷領(lǐng)域，計算機輔助診斷技術(shù)已提升了圖像診斷的準確性，但針對聲帶疾病的喉鏡圖像深度學習模型仍相對稀缺，這在一定程度上限制了聲帶疾病識別領(lǐng)域的發(fā)展。文章采用經(jīng)典的VGG-Net算法和一種引入注意力機制的算法來對喉鏡圖像進行分類。通過比較這兩種算法在準確率、召回率/靈敏率和特異率方面的表現(xiàn)，評估它們在醫(yī)學圖像分類性能上的優(yōu)劣。實驗結(jié)果表明，引入注意力機制的SA、SE-Net、CBAM和ECA-Net算法在性能上明顯優(yōu)于VGG-Net算法。結(jié)合深度學習和注意力機制可顯著提升聲帶疾病喉鏡圖像診斷的準確性和效率，這對未來醫(yī)療行業(yè)的健康發(fā)展有著極其重要的意義。

關(guān)鍵詞：醫(yī)學圖像診斷；聲帶疾病；喉鏡圖像；VGG-Net算法；注意力機制

中圖分類號：TP391.4；TP18 文獻標識碼：A 文章編號：2096-4706（2024）08-0111-05

DOI：10.19850/j.cnki.2096-4706.2024.08.025

0 引言

聲帶疾病主要是因為聲帶受到急性創(chuàng)傷或慢性刺激，導致聲帶新生物的出現(xiàn)，引發(fā)聲帶息肉、小結(jié)、聲帶接觸性肉芽腫、聲帶白斑以及喉癌惡性腫瘤等病變。在臨床診斷中，對喉部進行不同角度的圖像取樣，是發(fā)現(xiàn)喉部新生物的重要手段之一[1]。耳鼻喉科醫(yī)生主要依靠電子喉鏡對聲帶新生物進行不同角度的圖像取樣，觀察聲帶病變部位形態(tài)，如大小、顏色、不規(guī)則性、粗糙度和對比度等，通過視覺來識別可疑的病灶，進而診斷出患者病情[2-4]。圖1給出了正常聲帶喉鏡圖像和病態(tài)聲帶喉鏡圖像，其中，圖1（a）至圖1（e）分別為正常聲帶、聲帶息肉、聲帶小結(jié)、聲帶囊腫和聲帶白斑。然而，對聲帶疾病的人工檢測有賴于醫(yī)生的水平和經(jīng)驗，易受醫(yī)生對病變形態(tài)的片面認識和把握能力等主觀因素的影響。同時，大量閱片增加了醫(yī)生的工作量，難免會產(chǎn)生漏診誤診，最終導致患者不能獲得及時有效的治療。

基于此，計算機輔助診斷技術(shù)開始應用在臨床中，可輔助醫(yī)生對醫(yī)學圖像進行分析診斷，極大地提高了診斷的效率和準確性。由于深度學習技術(shù)在自然圖像分類及識別領(lǐng)域取得了較好的成效，相關(guān)學者開始將深度學習技術(shù)應用到醫(yī)學圖像診斷研究中。深度學習的一個較為重要的應用領(lǐng)域是圖像分類，目前已推出一些優(yōu)秀的深度學習模型。Simonyan等人提出了VGG-Net [5]，通過采用多層3×3的卷積核和2×2的池化核不斷加深網(wǎng)絡結(jié)構(gòu)來提升分類性能。Sasikanth等人[6]采用融合最優(yōu)特征級的ANFIS分類器進行腦MRI圖像的分類，取得了較好的分類精度。Esteva等人[7]使用CNN網(wǎng)絡診斷皮膚疾病，基于2 032種不同疾病類型和129 450張圖片的皮膚病數(shù)據(jù)集訓練CNN網(wǎng)絡，取得了與測試專家等同的成效。

深度學習在各類疾病診斷中的成功應用，促使眾多學者紛紛嘗試運用深度學習技術(shù)來處理喉鏡醫(yī)學圖像，輔助檢測和診斷聲帶疾病。Matava等人[8]使用ResNet、Inception和MobileNet三種卷積神經(jīng)網(wǎng)絡對聲帶和氣管進行分類、識別和標記，以在喉內(nèi)鏡視頻的傳輸中識別聲帶和氣管環(huán)。Xiong等人[9]驗證了深度卷積神經(jīng)網(wǎng)絡在喉癌診斷方面的可行性。Cho等人[10]驗證了CNN6、VGG16、Inception V3和Xception在基于喉鏡圖像分析進行聲帶疾病診斷方面的成效。Laves等人[11]比較了SegNet、UNet、ENet、ErfNet四種語義分割網(wǎng)絡在喉內(nèi)鏡圖像分割中的成效。Yin [12]等人通過訓練CNN模型來對喉部圖像進行分類。

然而，與其他醫(yī)學圖像相比，學者們對于應用于喉鏡圖像的深度學習模型的研究還是十分有限的，這是因為在整個喉鏡圖像中聲帶區(qū)域所占比重較小而無關(guān)區(qū)域過多。本文將選取正常聲帶喉鏡圖像和病態(tài)聲帶喉鏡圖像（聲帶息肉、小結(jié)、聲帶接觸性肉芽腫和聲帶白斑等）作為圖像集，對比經(jīng)典算法VGG-Net和引入注意力機制算法的識別效果，對喉鏡聲帶圖像進行聲帶病變二分類（正常、病變），以期發(fā)現(xiàn)符合基于喉鏡圖像的聲帶病變分類識別模型。

1 模型引入

本文將引入已被用于提高各種圖像分類性能的引入注意力機制的SE-Net [13]、CBAM [14]、ECA-Net算法，與經(jīng)典VGG-Net [15]及引入Spatial Attention的VGG算法（SA）進行比較分析。Simonyan等人提出了VGG-Net網(wǎng)絡結(jié)構(gòu)，探索了卷積神經(jīng)網(wǎng)絡深度與其性能的關(guān)系。VGG-Net是傳統(tǒng)的經(jīng)典神經(jīng)網(wǎng)絡，整個網(wǎng)絡采用3×3的卷積核和2×2的最大池化層。其中19層的VGG-Net19網(wǎng)絡結(jié)構(gòu)最佳，包含16個卷積層和3個全連接層，其網(wǎng)絡結(jié)構(gòu)如圖2所示。

如圖3（a）所示，SE-Net是在通道中增加注意力機制，其核心是SE模塊。SE模塊通過學習的方式自動獲取每個特征通道的重要程度，依據(jù)重要程度讓網(wǎng)絡有選擇地增強有用的特征，提升網(wǎng)絡的準確性。對輸入圖像特征進行全局平均池化（Global Average Pooling， GAP），通過兩個全連接層（Full-connected Layer， FC）和非線性層（ReLU和sigmoid激活函數(shù)）生成每個特征通道可以學習的權(quán)重，再通過乘法將權(quán)重加權(quán)到原來的通道對應特征上，獲得具有通道注意力的特征。

SA（Spatial Attention）算法在VGG通道方向添加了空間注意力機制SA。空間注意力機制SA結(jié)構(gòu)如圖3（b）所示，輸入尺寸為W×H×C（W、H、C分別為特征圖的高度、寬度和通道數(shù)）的X圖像，其經(jīng)過平均池化、卷積層和Sigmoid激活函數(shù)變換為空間權(quán)重。輸入X圖像與空間權(quán)重相乘輸出提取特征后的圖像Y。空間注意力機制可通過網(wǎng)絡計算出輸入圖像各個通道的權(quán)重，從而集中關(guān)注重要的特征信息，減少對非重要特征信息的關(guān)注。

ECA-Net的核心是ECA模塊，如圖3（c）所示。ECA-Net是在SE模塊的基礎(chǔ)上經(jīng)過改進而形成的，ECA可增加通道間的信息交互并且避免特征維度的減少，在降低模型復雜度的同時提升模型的性能。ECA模塊的工作原理是對輸入圖像的特征進行全局平均池化（Global Average Pooling， GAP），通過一維卷積進行跨通道間的交互，sigmoid激活函數(shù)生成每個特征通道可學習的權(quán)重，之后將原始圖像的特征與權(quán)重加權(quán)相結(jié)合獲得具有注意力的特征。CBAM（Convolutional Block Attention）是一種卷積注意力模塊，可無縫集成到任何CNN架構(gòu)中，進行端到端訓練，如圖3（d）所示。CBAM是結(jié)合了通道注意力模塊和空間注意力模塊。其原理是通過通道注意力模塊，得到加權(quán)結(jié)果之后，再通過空間注意力模塊后，進行加權(quán)獲得結(jié)果。CBAM既關(guān)注重要特征，又利用有意義的局部區(qū)域，將跨通道信息和空間信息混合在一起來提取信息特征，提高網(wǎng)絡的性能。

2 實驗分析

本文通過Olympus電子喉鏡收集了541張聲帶病變（聲帶息肉、聲帶小結(jié)和聲帶白斑等）的喉鏡圖像和329張正常聲帶的喉鏡圖像。喉鏡圖像的原始像素為720×576，需將其像素調(diào)整為深度學習圖像分類研究中較多使用的224×224模式。

由于聲帶喉鏡圖像存在數(shù)量少且不均衡的問題，這將會導致模型性能差，結(jié)果出現(xiàn)偏差。為了消除圖像數(shù)量不均衡產(chǎn)生的不良影響，使用K折交叉驗證法可更好地確保系統(tǒng)中的模型無過擬合現(xiàn)象，使模型的泛化性得到一定的提高。研究表明，當K為5或10時為最優(yōu)，其中10折交叉驗證被廣泛應用到醫(yī)學領(lǐng)域的深度學習之中，根據(jù)數(shù)據(jù)總量的大小本文選擇K為10。本文10折交叉驗證步驟：首先將圖像集隨機劃分為10個大小相同的子集，每個子集由87張隨機選擇的聲帶圖像（聲帶病變圖像和正常聲帶圖像）組成；再將10個子集的訓練集和測試集的比例設(shè)為80：20；針對每子集進行10次實驗，計算各評價指標的平均值作為最終結(jié)果。

對于醫(yī)學圖像識別模型，關(guān)注準確率A（Accuracy）、召回率R（Recall）/靈敏率（Sensitivity）和特異率S（Specificity）3個指標，用于對聲帶病理二分類識別結(jié)果進行評估，計算式如下：

（1）

其中，真正例（TP）為聲帶病變圖像被正確識別數(shù)；真反例（TN）為正常聲帶圖像被正確識別數(shù)；假反例（FP）為正常聲帶圖像被識別為聲帶病變圖像數(shù)；假正例（FN）為聲帶病變圖像被識別為正常聲帶圖像數(shù)。

本文采用經(jīng)典算法VGG-Net和引入注意力機制的SA、SE-Net、CBAM和ECA-Net算法進行比較研究。本文將喉鏡圖像作為分類網(wǎng)絡輸入，實驗結(jié)果如表1所示。

通過對準確率、召回率/靈敏率以及特異率這三個評估指標進行分析，得出CBAM模型的性能最好，其三個指標分別達到了90.07%、87.56%以及91.77%，如表1、圖4、圖5和圖6所示。引入注意力機制的其他算法SA、SE-Net及ECA-Net，與CBAM模型的性能差距并不明顯。相比之下，經(jīng)典VGG-Net算法的表現(xiàn)相對較差。從實驗結(jié)果可以看出，當評估指標為準確率、召回率/靈敏率和特異率時，引入注意力機制的SA、SE-Net、CBAM和ECA-Net算法明顯優(yōu)于經(jīng)典的VGG-Net算法；在VGG通道中引入注意力機制的SA算法明顯優(yōu)于VGG-Net算法。在所有引入了注意力機制的算法（如SA、SE-Net、CBAM和ECA-Net）中，CBAM的表現(xiàn)最佳。

由圖1可知，白色框框選的區(qū)域是聲帶部位，是診斷聲帶疾病的關(guān)鍵部位，其在整個喉鏡圖像中所占區(qū)域較小，喉鏡圖像中的無關(guān)區(qū)域過多。而借鑒人類視覺選擇性感知機制的注意力機制能將注意力集中在圖像中最重要的區(qū)域，給予聲帶區(qū)域更高的關(guān)注，同時降低對聲帶區(qū)域不相關(guān)部分的關(guān)注度。然而，經(jīng)典的VGG-Net算法是基于整個喉鏡圖像進行分析，賦予各個區(qū)域相同的重要性，沒有特別關(guān)注聲帶區(qū)域。而注意力機制算法（如CBAM）則能夠更好地關(guān)注和捕獲圖像中的重要信息，集中關(guān)注重要的局部區(qū)域，這符合聲帶圖像在喉鏡圖像中的特性，因此在所有使用的算法中，其性能表現(xiàn)最佳。以上結(jié)果表明，相比經(jīng)典的VGG算法，引入注意力機制的算法在識別效果上有顯著的提升，將注意力機制應用于喉鏡聲帶圖像的聲帶病變二分類，可有效提升識別率。

3 結(jié) 論

相較于其他類型的醫(yī)學圖像，喉鏡圖像中聲帶所占比例微小，而非聲帶區(qū)域的豐富紋理和顏色可能對識別準確性產(chǎn)生較大干擾。為了提高喉鏡圖像的特性，本研究引入這些使用了注意力機制的算法，對喉鏡聲帶圖像進行聲帶病變的二分類（即正常或病變），并進行了模型的對比分析。SE-Net、CBAM、ECA-Net等引入了注意力機制的算法在圖像分類任務中表現(xiàn)出顯著的優(yōu)越性，這些算法能夠通過增強有用的特征并將注意力集中于重要的信息來提高網(wǎng)絡的識別準確率。在未來的研究中，打算嘗試對聲帶區(qū)域進行精確分割，使用深度學習算法進行進一步的比較，以期發(fā)現(xiàn)更適合喉鏡圖像聲帶病變分類識別的模型。

參考文獻：

[1] 付嘉，李麗娟，閆燕，等.深度學習輔助電子喉鏡診斷喉白斑的應用研究 [J].臨床耳鼻咽喉頭頸外科雜志，2021，35（5）：464-467.

[2] HSIUNG M W，HSIAO Y C. The Characteristic Features of Muscle Tension Dysphonia before and after Surgery in Benign Lesions of the Vocal Fold [EB/OL].[2023-06-05].https：//sci.bban.top/pdf/10.1159/000081121.pdf.

[3] COUREY M S，SCOTT M A，SHOHET J A，et al. Immunohistochemical Characterization of Benign Laryngeal Lesions [EB/OL].[2023-07-06].https：//sci.bban.top/pdf/10.1177/000348949610500706.pdf.

[4] 韓勇，王家順，李小蘭，等.電子喉鏡下聲帶良性增生性病變的治療 [J].中國耳鼻咽喉顱底外科雜志，2008（2）：143-144.

[5] SIMONYAN K，ZISSERMAN A. Very Deep Convolutional Networks for Large-Scale Image Recognition [J/OL].arXiv：1409.1556 [cs.CV].[2023-06-15].https：//doi.org/10.48550/arXiv.1409.1556.

[6] SASIKANTH S，KUMAR S. Glioma Tumor Detection in Brain Mri Image Using Anfis-Based Normalized Graph Cut Approach [J].International Journal of Imaging Systems and Technology，2018，28（1）：64-71.

[7] ESTEVA A，KUPREL B，NOVOA R A，et al. Dermatologist-Level Classification of Skin Cancer with Deep Neural Networks [J].Nature，2017，542（7639）：115-118.

[8] MATAVA C，PANKIV E，RAISBECK S，et al. A Convolutional Neural Network for Real Time Classification， Identification， and Labelling of Vocal Cord and Tracheal Using Laryngoscopy and Bronchoscopy Video [J].Journal of Medical Systems，2020，44（2）：1-10.

[9] XIONG H，LIN P L，YU J G，et al. Computer-Aided Diagnosis of Laryngeal Cancer via Deep Learning Based on Laryngoscopic Images [J].Ebiomedicine，2019，48：92-99.

[10] CHO W K，CHOI S H. Comparison of Convolutional Neural Network Models for Determination of Vocal Fold Normality in Laryngoscopic Images [J].Journal of Voice，2020，33：634-641.

[11] LAVES M H，BICKER J，KAHRS L A，et al. A Datasets of Laryngeal Endoscopic Images with Comparative Study on Convolution Neural Network-Based Semantic Segmentation [J/OL].arXiv：1807.06081v4 [cs.CV].[2023-06-19].http：//arxiv.org/abs/1807.06081.

[12] YIN L，YANG L，PEI M，et al. Laryngoscope8： Laryngeal Image Datasets and Classification of Laryngeal Disease Based on Attention Mechanism [J].Pattern Recognition Letters，2021，150（6）：207-213.

[13] FAN Y Q，LIU J H，YAO R X，et al. COVID-19 Detection from X-ray Images Using Multi-Kernel-Size Spatial-Channel Attention Network [J/OL].https：//doi.org/10.1016/j.patcog.2021.108055Get rights and content.

[14] HU J，SHEN L，ALBANIE S，et al.“Squeeze-and-Excitation Networks”[J].IEEE Transactions on Pattern Analysis and Machine Intelligence，2020，42（8）：2011-2023.

[15] WANG Q L，WU B G，ZHU P F，et al. “ECA-Net： Efficient Channel Attention for Deep Convolutional Neural Networks [C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）. Seattle：IEEE，2020：11531-11539.

作者簡介：鄒鋒（1976—），男，漢族，廣東河源人，高級工程師，碩士，研究方向：生物醫(yī)學工程；通訊作者：郭珊珊（1988—），女，漢族，湖北襄陽人，主治醫(yī)師，碩士，研究方向：耳鼻咽喉頭頸外科；樊玉琦（1976—），男，漢族，安徽合肥人，副教授，博士，研究方向：人工智能。

收稿日期：2023-08-17

基金項目：浙江省醫(yī)藥衛(wèi)生科技計劃項目（2022PY090）；浙江省教育廳科研項目（Y202147891）；2020年寧波市鄞州區(qū)農(nóng)業(yè)與社會發(fā)展科技項目

Comparative Study on Diagnosis and Recognition Methods of Vocal Cord Diseases Based on Deep Learning

ZOU Feng1， GUO Shanshan2， FAN Yuqi3

（1.Zhejiang Pharmaceutical University， Ningbo 315100， China; 2.Ningbo Yinzhou No.2 Hospital， Ningbo 315192， China; 3.Hefei University of Technology， Hefei 230009， China）

Abstract： In the field of medical image diagnosis， computer-aided diagnostic technology has improved the accuracy of image diagnosis， but laryngoscope image Deep Learning models for vocal cord disease are still relatively scarce， which to some extent limits the development of the field of vocal cord disease recognition. This paper uses the classic VGG-Net algorithm and an algorithm that introduces Attention Mechanism to classify laryngoscope images. Evaluate the performance of these two algorithms in medical image classification by comparing their accuracy， recall/sensitivity， and specificity. The experimental results show that the SA， SE-Net， CBAM， and ECA-Net algorithms that introduce Attention Mechanisms have significantly better performance than the VGG-Net algorithm. The combination of Deep Learning and Attention Mechanisms can significantly improve the accuracy and efficiency of laryngoscopy image diagnosis for vocal cord disease， which is of great significance for the healthy development of the future medical industry.

Keywords： medical image diagnosis; vocal cord disease; laryngoscope image; VGG-Net algorithm; Attention Mechanism

現(xiàn)代信息科技2024年8期

現(xiàn)代信息科技的其它文章: 太陽能無線多點控制技術(shù)的研究與設(shè)計實現(xiàn); 制造領(lǐng)域知識圖譜的構(gòu)建及應用; 一個常數(shù)長度的無證書聚合簽名方案的攻擊與改進; 基于雙流融合網(wǎng)絡的惡意軟件動態(tài)行為檢測; 基于E-ARLL算法的養(yǎng)老助餐服務數(shù)據(jù)異常檢測方法; 基于多智能體仿真的突發(fā)事件血液保障研究