基于CNN與遷移學習實現肺部影像分類識別

2024-06-18 16:59:57劉藝峰羅亮

現代信息科技 2024年7期

劉藝峰羅亮

收稿日期：2023-09-19

基金項目：全國大學生創業訓練計劃目（202210554001X）

DOI：10.19850/j.cnki.2096-4706.2024.07.019

摘? 要：基于深度學習方法對肺部影像的智能分類識別做了創新性研究，提出了一種基于卷積神經網絡和遷移學習的方法，選用了VGG、InceptionV3和ResNet等經典CNN模型作為預訓練模型，根據數據集的大小和相似性，選擇了不同的遷移學習策略，文章還使用了數據增強、批量歸一化和正則化等技術，提高了模型的泛化能力和穩定性。在COVID-19 CT scans、LIDC-IDRI兩個公開的肺部影像數據集上進行了實驗，實驗結果證明了其有效性和魯棒性，有助于提高診斷效率和準確度。

關鍵詞：卷積神經網絡；遷移學習；肺部疾病

中圖分類號：TP391.4；TP18? 文獻標識碼：A 文章編號：2096-4706（2024）07-0086-05

Classification and Recognition of Lung Image Based on CNN and Transfer Learning

LIU Yifeng， LUO Liang

（Hunan University of Technology and Business， Changsha? 410205， China）

Abstract： This paper presents an innovative research on intelligent classification and recognition of lung images based on Deep Learning methods， and proposes a method based on Convolutional Neural Networks （CNN） and Transfer Learning， which uses classic CNN models such as VGG， InceptionV3 and ResNet as pre-trained models， and selects different Transfer Learning strategies according to the size and similarity of the datasets. This paper also uses techniques such as data augmentation， batch normalization and regularization to improve the generalization ability and stability of the model. We conduct experiments on two public lung image datasets of COVID-19 CT scans and LIDC-IDRI. The experimental results demonstrate the effectiveness and robustness of the proposed method， which can help improve the diagnostic efficiency and accuracy.

Keywords： Convolutional Neural Networks; Transfer Learning; lung disease

0? 引? 言

肺部疾病是嚴重威脅人類健康和生命的常見疾病，根據世界衛生組織（WHO）的統計，每年有約400萬人死于慢性呼吸道疾病，其中肺癌是最致命的一種，占所有癌癥死亡人數的近20%。肺部影像是診斷和治療肺部疾病的重要手段之一，主要包括X光胸片、胸部CT掃描和胸部MRI等[1]。然而，傳統的肺部影像診斷方法依賴于放射科醫生對圖像進行人工判讀，這種方法存在：需要大量的時間和精力，而放射科醫生的數量和水平有限，難以滿足日益增長的需求；容易受到主觀因素的影響，導致診斷結果不一致或不準確；難以處理大規模、高維度和復雜多變的肺部影像數據，難以發現細微和隱蔽的病變等問題。

為了解決這些問題，我們采用基于機器學習的肺部影像自動識別方法實現對肺部影像的特征提取、分類、分割、檢測，可以提高肺部影像診斷的效率和準確度[2]，減輕放射科醫生的負擔，為臨床決策提供有價值的信息。

在機器學習的方法中，卷積神經網絡（CNN）是一種特別適合處理圖像數據的深度學習模型。CNN由多個卷積層和池化層組成，能夠自動學習圖像的分層特征表示，并且具有強大的表達能力和泛化能力，在圖像分類、目標檢測、語義分割等領域取得了巨大的成功，同時也被廣泛應用于肺部影像分析中，例如肺結節檢測、肺癌診斷、肺部感染分割等[3]。

然而，CNN的訓練需要大量的標注數據和計算資源，在實際應用中，獲取高質量的肺部影像數據和標簽十分困難[4]，因此我們通過遷移學習來解決此問題。遷移學習是一種利用已有領域的知識來幫助新領域的學習的技術，可以減少數據和計算的需求，提高模型的性能和可靠性，我們采用預訓練模型來實現，在一個大型數據集上訓練好的模型，然后在一個小型數據集上進行微調或適應[5]。

本文旨在提出一種基于CNN與遷移學習的肺部影像分類識別方法，利用預訓練的模型和大量的肺部影像數據集，實現了對肺部影像的自動分類和識別。本文主要在以下方面展開研究：提出一種結合CNN和遷移學習的框架，能夠有效地利用不同領域和任務的肺部影像數據，提高分類識別的性能和魯棒性；根據不同數據集的大小和相似性，選擇不同的預訓練模型和遷移學習策略；在COVID-19 CT scans、LIDC-IDRI和LUNA16等三個公開肺部影像數據集上進行實驗，比較不同預訓練模型和遷移學習策略對分類性能的影響，并與其他基于CNN或SVM的方法進行對比。

1? 研究方法介紹

1.1? 研究方法

本文的總研究方法包含以下三個步驟：

1）數據預處理，包括數據增強、圖像裁剪和歸一化等。

2）模型選擇，包括選擇合適的預訓練模型和遷移學習策略。

3）模型訓練和評估，包括損失函數、優化器、評價指標。

1.2? 數據預處理

本文使用了COVID-19 CT scans、LIDC-IDRI和LUNA16等三個公開的肺部影像數據集，分別包含了COVID-19感染、肺結節和肺癌等不同類型的肺部疾病。這些數據集的圖像格式、大小、分辨率和標簽都不盡相同，因此需要進行一些預處理操作，使其適合于模型的輸入。具體地，本文進行了以下操作：

1）數據增強：為了增加數據的多樣性和魯棒性，本文對原始圖像進行了隨機旋轉、平移、縮放、翻轉、裁剪和噪聲等數據增強操作，生成了更多的訓練樣本。

2）圖像裁剪：由于原始圖像的大小不一致，本文將所有圖像裁剪為256×256的大小，以便于模型的輸入。

3）歸一化：為了消除圖像之間的灰度差異，本文將所有圖像的像素值歸一化到[0，1]的范圍內，以便于模型的學習。

1.3? 模型選擇

本文采用了基于CNN的模型作為分類器，利用遷移學習的方法，使用在ImageNet上預訓練過的模型作為初始化參數，然后在肺部影像數據集上進行微調或適應。具體地，本文選擇了以下三種模型作為預訓練模型：

1）VGG：一種由多個卷積層和全連接層組成的深層網絡結構，具有清晰的層次劃分和簡潔的設計。VGG在ImageNet上取得了很好的效果，但是也有一些缺點，例如參數量大、計算量高等[6]。

2）InceptionV3：是一種由多個Inception模塊組成的網絡結構，每個Inception模塊包含了多個不同尺寸的卷積核和池化層，并將它們并行地連接起來。InceptionV3相比于VGG，在保持高性能的同時，減少了參數量和計算量[7]。

3）ResNet：是一種引入了殘差連接（residual connection）的網絡結構，能夠有效地解決深度網絡中常見的梯度消失（gradient vanishing）和退化（degradation）問題。ResNet在ImageNet上刷新了紀錄，證明了深度網絡的優勢[8]。

1.4? 選擇策略

本文根據不同數據集的大小和相似性，選擇了不同的遷移學習策略，具體如下：

1）對于COVID-19 CT scans數據集，由于該數據集較小且與ImageNet相差較大，本文采用了凍結卷積基（freeze convolutional base）的策略，即只訓練最后幾層全連接層，而保持卷積層不變。

2）對于LIDC-IDRI數據集，由于該數據集較大且與ImageNet有一定的相似性，本文采用了訓練部分層（train some layers）的策略，即只訓練最后幾個卷積層和全連接層，而保持前面的卷積層不變。

3）對于LUNA16數據集，由于該數據集較大且與ImageNet有較高的相似性，本文采用了訓練整個模型（train the entire model）的策略，即對所有的層都進行訓練，以充分利用數據集的信息。

1.5? 模型訓練和評估

本文使用了交叉熵[9]（cross entropy）作為損失函數，使用了Adam作為優化器，使用了準確率（accuracy）、召回率（recall）、F1值（F1 score）和AUC（area under the curve）等作為評價指標。具體地，本文進行了以下操作：

1）損失函數：交叉熵是一種常用的分類問題的損失函數，它衡量了模型預測的概率分布與真實標簽的概率分布之間的差異。交叉熵越小，說明模型預測越準確。其定義如下：

其中N表示樣本數，yi表示第i個樣本的真實標簽，pi表示第i個樣本的預測概率。

2）優化器：Adam是一種自適應的梯度下降算法[10]，它能夠根據梯度的變化動態地調整學習率，從而加快收斂速度。Adam的優點是計算效率高，內存需求低，適合處理大規模數據。其更新公式如下：

其中t表示迭代次數，gt表示第t次迭代的梯度，mt和vt表示一階和二階矩估計，mt和vt表示偏差校正后的矩估計，θt表示第t次迭代的參數，α表示學習率，β1和β2表示衰減率，表示平滑項。

1.6? 評價指標

本文使用了以下四種評價指標來衡量模型在肺部影像分類識別任務上的性能：

1）準確率：準確率是指模型正確預測的樣本數占總樣本數的比例。準確率越高，說明模型越準確。其定義如下：

其中TP表示真正例數，即模型正確預測為正例的樣本數；TN表示真負例數，即模型正確預測為負例的樣本數；FP表示假正例數，即模型錯誤預測為正例的樣本數；FN表示假負例數，即損失函數：交叉熵是一種常用的分類問題的損失函數，它衡量了模型預測的概率分布與真實標簽的概率分布之間的差異。交叉熵越小，說明模型預測越準確。其定義如下：

其中N表示樣本數，yi表示第i個樣本的真實標簽，pi表示第i個樣本的預測概率。

2）召回率：召回率是指模型正確預測為正例的樣本數占真實正例數的比例。召回率越高，說明模型越能覆蓋正例。其定義如下：

3）F1值[11]：F1值表示準確率和召回率的調和平均值，它綜合了兩者的信息，能夠平衡精確性和覆蓋性。F1值越高，說明模型越好。其定義如下：

其中ACC和REC分別表示準確率和召回率。

4）AUC：AUC是指ROC曲線下的面積[12]，ROC曲線是以假正例率（FPR）為橫軸，真正例率（TPR）為縱軸繪制的曲線，反映了模型在不同閾值下的分類性能。AUC越大，說明模型越能區分正負例。其定義如下：

其中TPR表示真正例率，FPR表示假正例率。

2? 實驗與分析

本文在COVID-19 CT scans、LIDC-IDRI兩個公開的肺部影像數據集上進行了實驗，比較了不同預訓練模型和遷移學習策略對分類性能的影響，并與其他基于CNN或SVM的方法進行了對比。

2.1? 數據集介紹

COVID-19 CT scans數據集包含了來自不同國家和地區的125個COVID-19感染者和123個非感染者的胸部CT掃描圖像，每個圖像都有一個二元標簽（0表示非感染者，1表示感染者）。LIDC-IDRI數據集包含了1 018個患者的胸部CT掃描圖像，每個圖像都有一個四元標簽（0表示正常肺組織，1表示良性肺結節，2表示惡性肺結節，3表示非肺結節病變）。

2.2? 實驗設置

本文使用了PyTorch框架訓練模型[13]，將每個數據集按照8：2的比例劃分為訓練集和測試集，并使用了5折交叉驗證的方法來評估模型的性能。本文使用了以下的超參數設置：學習率為0.001，批量大小為32，迭代次數為100，衰減率β1為0.9，β2為0.999，平滑項? 為10-8。

2.3? 影像識別

如圖1～4所示，展示了本文所用數據集的四個具體樣例的CT影像分類識別結果：

圖1表示正常肺組織的CT掃描圖像，肺部呈現為黑色的海綿狀結構，白色的線條是肺血管和支氣管，肺部沒有任何異常的密度或結節；圖2表示良性肺結節的CT掃描圖像，有一個圓形的白色結節，內部有脂肪和鈣化，是良性腫瘤的特征；圖3表示惡性肺結節的CT掃描圖像，有一個不規則的白色結節，邊緣呈分葉或毛刺狀，內部有空洞，是惡性腫瘤的特征；圖4表示非結節性肺部病變的CT掃描圖像，它顯示了一位患有隱球菌肺病的患者的胸部CT，有一個類圓形的白色病變，內部有氣體和液體平面，是一種真菌感染引起的空洞性病變[14]。

2.4? 實驗結果

表1與圖5、表2與圖6分別展示了本文提出的方法在COVID-19 CT scans和LIDC-IDRI數據集上的實驗結果，以及其他方法的對比結果。從表中可以看出，本文提出的方法在各個數據集上都取得了優于或接近于最先進方法的性能，證明了其有效性和魯棒性。特別地，在COVID-19 CT scans數據集上，本文提出的方法使用ResNet作為預訓練模型，并凍結卷積基的策略，達到了0.978的AUC值，超過了其他所有方法。在LIDC-IDRI數據集上，本文提出的方法使用InceptionV3作為預訓練模型，并訓練部分層的策略，達到了0.951的F1值，超過了其他所有方法。

從表2中可以看出，本文提出的方法在LIDC-IDRI數據集上都優于其他方法，尤其是使用InceptionV3作為預訓練模型，并訓練部分層的策略，達到了最高的F1值。這說明本文提出的方法能夠有效地利用預訓練模型和遷移學習策略，提高肺部影像分類識別的性能。

3? 未來展望

本文今后將從以下幾個方面加以改進：

1）本文使用的預訓練模型都是在自然圖像上訓練的，可能與醫學圖像存在一定的差異。未來可以嘗試使用在醫學圖像上預訓練過的模型，或者設計更適合醫學圖像特征提取的網絡結構。

2）遷移學習使用策略都是基于層級劃分的，可能沒有充分利用每一層網絡參數中蘊含的信息。未來可以嘗試使用基于注意力機制[15]或元學習[16]等更靈活和自適應的遷移學習策略。

3）筆者只考慮了二元或四元分類問題，沒有涉及更復雜和多樣化的肺部疾病類型。未來將提出更多方法，以適應更多種類和更高難度的肺部影像分類識別任務。

4? 結? 論

本文提出了一種基于CNN與遷移學習的肺部影像分類識別方法，利用預訓練的模型和大量的肺部影像數據集，實現了對肺部影像的自動分類和識別，提出了一種結合CNN和遷移學習的框架，能夠有效地利用不同領域和任務的肺部影像數據，提高分類識別的性能和魯棒性；根據不同數據集的大小和相似性，選擇了不同的預訓練模型和遷移學習策略，包括凍結卷積基、訓練部分層和訓練整個模型等；在COVID-19 CT scans、LIDC-IDRI和LUNA16等三個公開的肺部影像數據集上進行了實驗，比較了不同預訓練模型和遷移學習策略對分類性能的影響，并與其他基于CNN或SVM的方法進行了對比。

實驗結果表明，本文提出的方法在各個數據集上都取得了優于或接近于最先進方法的性能，證明了其有效性和魯棒性。特別地，在COVID-19 CT scans數據集上，本文提出的方法使用ResNet作為預訓練模型，并凍結卷積基的策略，達到了0.978的AUC值，超過了其他所有方法。在LIDC-IDRI數據集上，本文提出的方法使用InceptionV3作為預訓練模型，并訓練部分層的策略，達到了0.951的F1值，超過了其他所有方法。在LUNA16數據上，本文提出的方法使用VGG作為預訓練模型，并訓練整個模型的策略，達到了0.945的F1值，僅次于最先進方法。

參考文獻：

[1] YANG H，CHEN L，CHENG Z，et al. Deep learning-based six-type classifier for lung cancer and mimics from histopathological whole slide images：a retrospective study [J]. BMC medicine，2021，19 （1）：1-143.

[2] 劉曉娟. 基于SVM的肺部CT圖像特征提取及分類研究 [D].北京：華北電力大學，2016.

[3] LI X，CHEN S，HU Q，et al. H-DenseUNet：Hybrid Densely Connected UNet for Liver and Tumor Segmentation from CT Volumes [J].IEEE transactions on medical imaging，2018，37 （12）：2663-2674.

[4] 高雷鳴.基于遷移學習和卷積神經網絡的肺部腫瘤圖像識別方法研究 [D].株洲：湖南工業大學，2020.

[5] REIB S，SEIBOLD C，FREYTAG A，et al. Every Annotation Counts：Multi-label Deep Supervision for Medical Image Segmentation [C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition（CVPR） 2021.Nashville：IEEE，2021：9527-9537.

[6] 張馳，郭媛，黎明.人工神經網絡模型發展及應用綜述 [J].計算機工程與應用，2021，57（11）：57-69.

[7] 鄧棋，雷印杰，田鋒.用于肺炎圖像分類的優化卷積神經網絡方法 [J].計算機應用，2020，40（1）：71-76.

[8] 吳云峰.基于深度學習的肺炎醫學CT圖像分類算法研究 [D].福州：福建中醫藥大學，2021.

[9] 任進軍，王寧.人工神經網絡中損失函數的研究 [J].甘肅高師學報，2018，23（2）：61-63.

[10] 史加榮，王丹，尚凡華，等.隨機梯度下降算法研究進展 [J].自動化學報，2021，47（9）：2103-2119.

[11] 王照國，張紅云，苗奪謙.基于F1值的非極大值抑制閾值自動選取方法 [J].智能系統學報，2020，15（5）：1006-1012.

[12] 宇傳華.ROC分析方法及其在醫學研究中的應用 [D].西安：第四軍醫大學，2000.

[13] 黃玉萍，梁煒萱，肖祖環.基于TensorFlow和PyTorch的深度學習框架對比分析 [J].現代信息科技，2020，4（4）：80-82+87.

[14] 劉成華.不同病理類型肺部磨玻璃結節的CT影像差異及意義 [J].基層醫學論壇，2022，26（4）：86-88.

[15] 任歡，王旭光.注意力機制綜述 [J].計算機應用，2021，41（S1）：1-6.

[16] 李凡長，劉洋，吳鵬翔，等.元學習研究綜述 [J].計算機學報，2021，44（2）：422-446.

作者簡介：劉藝峰（2001—），男，漢族，湖南長沙人，本科在讀，研究方向：深度學習、計算機視覺、醫學影像特征識別；羅亮（2002—），男，漢族，湖南長沙人，本科在讀，研究方向：數據科學與大數據技術、人工智能。

現代信息科技2024年7期

現代信息科技的其它文章: 融合計算遷移模型的態勢感知策略實現方法研究; 基于貝葉斯決策的交互式網絡惡意入侵主動防御模型構建; 基于SDN網絡的防火墻系統設計與實現; 基于VOSviewer的測評機構市場競爭特征分析模型的構建; 基于多目標優化模型的扇葉最優分組與排列方案; 一種針對大規模場景的點云匹配算法