999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于卷積神經網絡的肺結節分類方法研究

2021-01-13 08:41:56胡永祥
湖南工業大學學報 2021年1期
關鍵詞:分類特征模型

彭 超,胡永祥

(湖南工業大學 計算機學院,湖南 株洲 412007)

1 研究背景

目前,全球范圍內,肺癌是發病率和死亡率最高的癌癥[1]。肺癌早期表現形式之一是直徑小于30 mm的肺結節。因此,肺結節良惡性分類對于肺癌患者的治療影響較大[2]。肺結節主要通過計算機斷層掃描的方式進行診斷。現階段,肺部CT(computed tomography)主要由放射科醫生逐層閱讀,這種方法較依賴醫生的經驗,因此準確率不穩定。肺癌計算機輔助診斷系統能夠減少放射科醫生的閱片工作量,并提供精確的定量分析,降低閱片主觀性,減少人工閱片過程中的失誤,從而提高工作效率和對肺病診斷的正確率。

針對肺結節診斷的計算機輔助診斷系統主要包括兩大類:一類基于傳統圖像處理方法;另一類基于深度學習。隨著CT 數據種類的大量增加,傳統基于人工選取特征的分類方法難以適應大量而且復雜的樣本。同時,基于人工選取的特征提取往往只能提取初級特征,不能挖掘數據中有效的深層次信息,從而導致分類的準確率不高。深度學習作為機器學習的新領域,具有強大的自動提取特征能力,在肺結節分類問題上得到了廣泛的應用。H.C.Shin 等[3]通過訓練多尺度卷積神經網絡提高了肺結節分類的準確率。楊佳玲等[4]將VGG-16 與支持向量機(support vector machines,SVM)分類器結合,其分類準確率達到87.2%。A.Nibali 等[5]利用結節3D CT 圖像與殘差網絡模型構建3D-Resnet-18,此模型在融合3D 數據信息的同時,利用殘差網絡特有的特征生成方式解決結節分類問題,實驗結果表明3D-Resnet-18 算法優于同類型其他算法。Ding J.等[6]采用二維Faster R-CNN結合三維CNN 方法檢測肺結節,FROC 平均得分為0.893,超過了LUNA16 挑戰賽排行榜上的最佳成績(平均FROC 得分為0.864)。H.C.Shin 等[7]將遷移學習用于醫學圖像處理,解決了醫學數據標簽不足的問題。Yan X.J.等[8]通過比較2D 模型和3D 模型,得出3D 模型更適合處理肺結節分類問題。

以ResNet[9]為代表的卷積神經網絡可以自動提取更適合的圖像特征,減少模型的計算復雜度;ResNet 的變種DenseNet[10]所需參數量不到ResNet的一半,實現了資源的最大化利用和計算量的壓縮;雙路徑網絡[11](dual path networks,DPN),是顏水成團隊于2017 年提出的,融合了殘差網絡和密集連接網絡的一種新型卷積神經網絡結構,它在當年ImageNet(ILSVRC2017)比賽中取得圖像定位任務的冠軍,在圖像分類上得到了廣泛的應用。寇國雨[12]將雙路徑網絡用于遙感影像分類中,基于Inria Aerial Image Dataset 數據集進行了DP-CNN 模型的探究實驗,通過與常見語義分割模型的指標對比,驗證了DP-CNN 模型的簡易性、快速性和穩定性,尤其在訓練輪數達到40 后,DPC-NN 模型的正確識別率便穩定在98%左右。Zhu W.T.等[13]利用DPN 設計了一種肺結節自動檢測分類系統。Jiang H.L.等[14]通過DPN 網絡構建空間注意力機制,并在LIDC-IDRI 數據集中進行肺結節分類測試。賈鋒等[15]在分類器部分采用3D 雙路徑網絡,用于特征的匯總和收縮。

盡管上述經典深度學習網絡分類的精確度有所提高,但算法本身的計算復雜度較大,訓練時間較長,對硬件的依賴性較大。在圖像分類模型中,VGG16模型結構簡單,較容易實現且分類性能較好,但是VGG16 對圖片尺寸要求固定。DPN 雙路連接結合了殘差學習和密集連接的優勢,既能從高緯度特征提取底層信息,提高模型的擬合能力,又能減少模型的參數數量,縮短模型的訓練時間。

基于以上分析,為了開發一種容易實現且肺結節分類準確率較高的深度學習算法,本文將VGG16 與DPN 結合,提出一種新算法多尺度3D DPU-VGG16(3D dual path blocks and u-shaped structure based on VGG16,3D DPU-VGG16)用于肺結節良惡性分類。實驗結果表明,3D DPU-VGG16 分類準確率高于同類型算法的,為肺結節良惡性分類提供了新思路。

2 算法設計

課題組提出的肺結節良惡性分類算法流程如圖1所示,主要包含3 個部分:數據預處理、網絡設計、模型訓練。首先,將Luna16 數據集中的數據轉化為圖像數據,經過預處理后形成3D 圖像數據;接著,將數據集送入模型中提取特征,利用PCA(principal component analysis)對特征進行降維;最后,利用SVM 進行良惡性分類。

圖1 肺結節良惡性分類流程Fig.1 Classification process of benign and malignant lung nodules

2.1 雙路徑連接

雙路徑網絡是通過堆疊多個模塊化的微模塊創建的,在此網絡結構中,每一個微模塊的結構都是以瓶頸(bottleneck)的方式來設計,首先是1 個1×1的卷積層,然后連接1 個3×3 的卷積層,并且以1個1×1 的卷積層來結束。前一個1×1 卷積層的輸出被分成兩個部分:第一部分是以元素方式添加到殘差路徑,第二部分與密集型連接通路相連接。為了提高每一個微模塊的傾斜容量(leaning capacity),像ResNeXt 一樣,在第二層使用了組合卷積層(grouped convolution layer)。這樣的設計有助于減緩密集型連接通路的寬度增量和GPU 的內存消耗。

雙路連接結合了殘差學習和密集連接的優勢。殘差學習中的快捷連接是消除深度網絡中梯度消失現象的有效方法。從學習的特征共享角度來看,殘差學習可以實現特征重用,而密集連接則具有利用新功能的優勢。此外,因為不需要重新學習冗余特征圖,密集連接的網絡比殘差學習具有更少的參數。如圖2所示。

圖2 3D DPN 網絡框架Fig.2 Framework of 3D DPN network

在實現過程中,DPN 網絡中特征分為兩個部分:一部分特征用于殘差結構,采用xk表示;一部分用于Dense 連接,采用yk表示。對于每個步驟,x 表示輸入;是指以隱藏狀態為輸入并輸出提取信息的特征提取函數;(x)為誤差;ht表示遞歸神經網絡在第t 步的隱藏狀態,并使用k 作為當前步驟的索引。雙路徑連接特征變化可以用公式(1)表示:

式中:xk為殘差網絡的數學表達式;

yk為密集連接網絡的數學表達式;d(k)為DPN 網絡的數學表達式;

gk為轉換函數,將收集到的信息恢復到當前隱藏狀態;

v(x)為特征學習函數。

2.2 模型設計

雙路徑連接將殘差學習的特征重用和密集連接的新特征利用集成到一個統一的結構中,該結構在ImageNet 數據集上取得了成功。受雙路徑網絡在ImageNet 上成功的啟發,課題組設計了一個用于肺部CT 結節分類的深度網絡。

如圖3 所示,本研究將雙路徑連接塊與VGG16結合,形成一個U 形結構的深度網絡。首先,將尺寸為48×48×32 的肺結節圖片,通過雙線性插值法將圖片大小變為224×224×32。使用2 層卷積層,卷積核的數量為64,大小為3×3×3 提取特征。接著,在第二個卷積層到最后一個卷積層之間加入DPN 網絡,在DPN 特征分配時,選擇殘差網絡作為主干,分給密集連接網絡較少數據,因為殘差網絡比密集連接網絡更有用,并且減少密集連接網絡的輸入可以減緩密集連接網絡的參數成倍增長而占用大量顯存。為了進一步提高模型的擬合能力,減少模型參數的復雜度,在VGG16 的第3 個卷積層后又接了一個DPN網絡,并利用MaxPooling 減少特征圖的尺寸。

圖3 3D DPU-VGG16 網絡設計圖Fig.3 3D DPU-VGG16 network

原始VGG16 網絡由于全連接層的存在導致模型的輸入尺寸固定,對圖片進行縮放會影響模型對圖像特征的提取,為此本文利用卷積層代替VGG16 中的全連接層,如圖4 所示,建立4 個卷積通道,大小為1×1 的卷積核用于減少模型的復雜度,大小為3×3、5×5 的卷積核用于提取不同尺度的特征。第1 個卷積通道由大小為1×1 和3×3 兩種卷積核組成;第2 個卷積通道由大小為1×1 和5×5 兩種卷積核組成;第3 個卷積通道由大小為1×1 的卷積核組成;第4 個卷積通道由MaxPooling 和1×1 的卷積核組成。利用PCA 對融合后的4 個通道的特征進行降維。最后把得到的128 維特征送入SVM 分類器中進行分類。

圖4 卷積通道圖Fig.4 Convolution channel diagram

3 實驗與分析

本文使用的服務器操作系統為CentOS 7.3,GPU顯卡為NVIDIA GeForce GTX 1080,使用的深度學習框架為Keras 和Tensorflow。為了有效提取CT 數據中的3D 特征,提高分類的準確性,在預處理階段將Luna16 數據集中的CT 數據轉化為CT 圖片,經去噪、增強、分割、肺結節提取等步驟后,得到肺部CT 圖像。從三通道CT 圖像裁剪的每個64×64 結節塊,以水平和豎直方向都為16 的步幅,采樣為4 個48×48 的塊。通過這種裁剪策略可以增加訓練集的數量以防止過擬合,更加有效地學習結節的周圍特征,同時對于每個結節塊不會增加過多的噪聲信息。課題組利用遷移學習的思想,把VGGNet 預訓練模型的參數遷移到肺結節良惡性分類的新模型中。對增強之后的數據進行5 倍交叉驗證來評估模型。數據被隨機分為5 個相同數量的子集,每個子集包含整個數據集的20%。在訓練過程中4 個子集作為訓練集,另外一個子集作為驗證。原始學習率為0.001,每次更新后學習率衰減為0.000 1。還設置了dropout 層(rate=0.2),以防止模型過擬合。當驗證數據集上的損失在10 個epoch 之后沒有減少時,訓練停止。

3.1 實驗數據集處理

課題組采用的是Luna16 數據集,從官網下載全部Luna16 數據后,文件subset0.zip-subset9.zip 包含所有888 例CT 數據,annotations.csv 包含所有1 186個結節標注信息(坐標和直徑),candidates.csv 包含551 065 個候選結節信息(坐標和類別標簽)。CT 數據以.mhd、.raw 格式存儲,因此要先轉化為圖像格式,本文使用png 格式。CT 圖像利用斷層掃描技術成像獲取的是患者肺部3 維數據,為了獲取更多的原始圖像信息,課題組利用3D CT 數據作為模型的輸入。

3.1.1 預處理

肺結節數據預處理步驟如下。

1)圖像去噪。設置窗寬窗位(-1 000,600)去除CT 圖像中的噪聲,例如骨頭的亮點、CT 床的金屬線等。生成肺結節圖像,讀取annotations.csv 文件中的坐標和直徑,以坐標為中心,直徑為長,生成正方體區域,最后輸出為圖像文件。

2)對圖像進行圖像增強和圖像分割操作后得到肺部圖像。

3)準備肺結節良惡性分類數據。以該坐標為中心取(32,32,32)大小區域圖像做為候選肺結節圖像,并根據標簽值(0 或1)將圖像分為兩類。

3.1.2 數據擴充

通過對Luna16 數據集的初步處理后,得到的肺結節圖像有1 350 個,非肺結節圖像有549 714 個,正負樣本數量差別較大,為了平衡正負樣本,首先將1 351 例肺結節數據分成訓練數據(80%)和測試數據(20%),然后對肺結節訓練數據和測試數據進行數據擴充(肺結節訓練數據有2 162 例,肺結節測試數據有540 例),對549 714 例非肺結節數據隨機采樣得到5 400 例后,再將其分成非肺結節訓練數據(80%)和測試數據(20%)(非肺結節訓練數據有4 320 例,非肺結節測試數據有1 080 例),最后將兩類訓練數據和測試數據分別進行合并,得到最終的訓練集和測試集。

3.2 評估標準

課題組用準確率、敏感性、特異性、敏感性和特異性與坐標軸圍成的封閉圖形的面積作為評估模型分類性能好壞的指標。TP、FP 定義為真陽性和假陽性,FN、TN 分別表示假陰性和真陰性。

準確率(accuracy)Acc:模型對結節正確分類的能力,

敏感性(sensitivity)SE:模型正確識別惡性結節的識別能力,

敏感性(specificity)SP:模型正確識別良性結節的識別能力,

AUC(area under the curve):ROC(receiver operating characteristic curve)曲線面積,AUC 越大模型的分類效果越好。

3.3 數據集大小對模型的影響

在深度學習任務中,訓練樣本大小對模型至關重要。首先在不同大小的樣本數據上評估模型性能。將數據集進行了不同倍數的擴充:一倍數據集、兩倍數據集和3 倍數據集。原始數據集中惡性結節的數量為1 350。使用數據擴充方法將惡性結節的數量分別擴充到2 700 和4 050。

表1 數據集大小對模型性能的影響Table 1 Effects of the size of the data set on the performance of the model

從表1 可以看出,隨著正樣本數量的增加,模型的綜合性能提高。但是正樣本數量為2 700 個時,模型的性能幾乎和正樣本數量為4 050 的模型性能一樣好,造成這種現象的原因可能是訓練數據的增加使得噪聲對模型的影響增加,同時數據量過大容易造成模型的過擬合。因此,提高模型性能不能單單增加數據量,還要考慮其他因素,比如模型的深度卷積層數量的選擇。由于計算機計算性能的限制,在這個本文中,使用2 700 個正樣本、5 400 個負樣本作為實驗數據。

3.4 DPN 數量對模型的影響

圖像分類的相關研究表明,網絡的深度越大,模型獲得的性能越強。基于深度對模型的重要性,進行相應的實驗,探索DPN 與模型結節分類表現之間的關系。在本文中,通過添加更多的DPN 來增加網絡深度。課題組設置3 組實驗,使用2 700 個正樣本,5 400 個負樣本作為實驗數據,卷積核全部采用3×3,在VGG16 網絡的基礎上分別增加1 個、2 個、3 個DPN,實驗結果如表2 所示。表2 可以說明,對于特定的圖像分類任務,直接增加網絡深度只能在特定點獲得更好的性能,而不能一直改善。導致這一現象的原因是隨著DPN 數量的增多,ResNet 部分難以從高層信息挖掘底層特征,DenNet 提取更多的新特征,使得特征冗余,導致模型過擬合。

表2 DPN 數量對模型性能的影響Table 2 Effects of DPN quantity on model performance

3.5 多通道處理對模型的影響

傳統VGG16 只能輸入固定尺寸的圖片。圖像的擴大或者縮小會造成原始像素信息的丟失,為了讓VGG16 能夠適應不同尺寸的圖像,設置了4 通道卷積網路。為了驗證本文提出的4 通道網絡的有效性。在LIDC- IDRI 數據集中隨機選取176 個病人的CT圖像中提取200 直徑在10 mm 以上的肺結節作為實驗數據,并設置了一組對比實驗,實驗結果圖5 所示。

圖5 肺結節位置對診斷結果的影響Fig.5 Effects of the location of lung nodules on the diagnosis

通過圖5 所示實驗結果可以看出,本文提出的3D DPU-VGG16 模型對于與肺部輪廓相鄰或者不相鄰的結節的診斷能力都高于ResNet 和DenseNet。同時還可以發現3D DPU-VGG16 對與肺部輪廓沒有連接關系的肺結節的診斷準確率為0.90,對于與肺部輪廓相鄰的結節診斷能力只有0.80。從而說明 3D DPU-VGG16 對相對獨立的結節診斷能力較好。

3.6 不同分類器和輸出特征尺寸對模型的影響

大多數基于卷積神經網絡的算法使用softmax 或Sigmoid 輸出分類概率。在本節中,進行相關實驗以研究各種分類器對最終分類準確性的影響。本文采用另外兩個分類器支持向量機(SVM)和隨機森林(random forest,RF)進行實驗。對于SVM 分類器,使用rbf 作為核函數。本文還評估了輸出特征尺寸對最終分類性能的影響。最終的特征維數設置為32,64, 128, 256。詳細結果如表3 所示。使用SVM 分類器的128 個輸出功能以89.2%的精度達到了最佳性能。這可能是因為SVM 分類器可以有效地對輸出特征進行類,并將特征隱式映射到高維特征空間。另外值得注意的是,不同輸出特征的尺寸可能對模型性能產生較大的影響。最終選擇SVM 作為分類器,選擇輸出特征的維數為128 維。

表3 不同分類器和特征輸出尺寸對模型的影響Table 3 Effects of different classifiers and feature output sizes on the model

3.7 肺結節大小對診斷結果的影響

為了研究本文提出的模型的魯棒性,課題組從LIDC-IDRI 數據集中隨機選取150 個病人的CT 圖像提取200 個肺結節作為獨立測試集,將這200 個肺結節數據根據直徑的大小分為如下5 類:0~5 mm、>5~8 mm、>8~10 mm、>10~20 mm、>20~30 mm,并且將每個范圍內的結節數據分別在本文提出的算法3D DPU-VGG16、ResNet18 和DenseNet 進行測試。從圖6 可以看出,與ResNet18、DenseNet 相比,本文提出的3D DPU-VGG16 結節分類能力有所提升,可以發現本算法對直徑為10 mm 以上的肺結節診斷效果好,體現了算法的有效性。模型對小結節的診斷AUC 只有0.79,表明本算法對小結節具有一定的診斷能力。

圖6 肺結節大小對模型診斷結果的影響Fig.6 Effects of the lung nodule size on model diagnosis results

3.8 與其他模型的比較

課題組在原有VGG16 基礎上增加了兩個DPN結構,增加了模型的深度,有利于提高模型的擬合能力。另外,DPN 結構結合了ResNet 和DenseNet 的優點,ResNet 可以實現特征重用,能在一定程度上消除梯度彌散,提高模型的擬合能力。DenseNet 能夠從高層特征中提取底層特征,從而能夠提高模型的準確度。

為了證明本文提出的算法的有效性,將本文提出的模型和一些經典的卷積神經網絡模型進行了對比。首先,利用3D 數據分別對VGG16 以及本文提出的DPU-VGG16 模型進行訓練,然后將3D 數據改為2D 數據,并對DPU-VGG16 模型進行訓練,選擇SVM 作為3 種模型的分類器。最終得到3D DPUVGG16、DPU-VGG16、3D VGG16 的 ROC 曲線圖,如圖7 所示。

圖7 ROC 對比圖Fig.7 ROC comparison

表4 對這3 種模型的Acc, SE, SP, AUC 進行了對比。從圖7 中可以看出,3D DPU-VGG16 的AUC 達到了90%,3D VGG16 的AUC 為0.80,DPU-VGG16的AUC 為0.68。這些數據表明本文提出的算法是有效的。DPU-VGG16 和3D DPU-VGG16 模型性能參數對比結果表明:相對于二維CT 數據,三維CT 數據包含更多的特征,更加適用于肺結節良惡性分類的問題。

表4 模型性能參數對比Table 4 Comparison of model performance parameters

4 結語

肺結節良惡性分類由于其形狀,大小和位置的不同而具有挑戰性,課題組提出了一種基于卷積神經網絡的結節良惡性分類模型3D DPU-VGG16。實驗結果證明了模型的有效性。在LUNA16 數據集上的對比實驗表明,本文提出的模型可以獲得比同類型算法更好的性能,證明了3D DPU-VGG16 的有效性。LIDC-IDRI 數據集中肺結節的直徑對診斷結果的影響表明,本文提出的算法對直徑較大的結節診斷效果更好,對較小的結節有一定的檢測能力,體現了3D DPU-VGG16 的有效性和普適性。因此如何提高小結節診斷的敏感性將是未來研究的重點方向。

猜你喜歡
分類特征模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
主站蜘蛛池模板: 99热这里只有免费国产精品| 亚洲自偷自拍另类小说| 国产污视频在线观看| 国产在线视频二区| 久久国产精品波多野结衣| 乱人伦视频中文字幕在线| 日韩乱码免费一区二区三区| 久久99精品久久久久纯品| 99re在线视频观看| 国产极品美女在线| 亚洲精品成人片在线观看| 亚洲精品无码不卡在线播放| 亚洲欧美一区二区三区图片 | 国产99免费视频| 99精品视频在线观看免费播放| 韩日无码在线不卡| 国产女人爽到高潮的免费视频 | 色香蕉网站| 国产专区综合另类日韩一区| 国产欧美日韩精品第二区| 久热中文字幕在线| 黄色三级网站免费| 免费在线视频a| 亚洲人成网站在线观看播放不卡| 黄片在线永久| 欧美三級片黃色三級片黃色1| 看你懂的巨臀中文字幕一区二区 | 亚洲日韩在线满18点击进入| 丝袜无码一区二区三区| 精品人妻系列无码专区久久| 成人在线视频一区| 女人18一级毛片免费观看| 国产精品午夜福利麻豆| 中文字幕亚洲电影| 欧美黄网站免费观看| 亚洲一区二区三区国产精品| 日韩一级二级三级| 福利在线免费视频| 久久人人爽人人爽人人片aV东京热 | 亚洲成人77777| 天堂va亚洲va欧美va国产| AV不卡无码免费一区二区三区| 国产精品九九视频| 国产在线观看人成激情视频| 亚洲永久色| 亚洲中文字幕无码爆乳| 国产成人高清在线精品| 亚洲免费三区| 伊人查蕉在线观看国产精品| 无码专区在线观看| 国产乱子伦一区二区=| 亚洲欧美成人在线视频| 九色最新网址| 亚洲有无码中文网| 黄色a一级视频| 99久久国产综合精品2020| 国产成人免费高清AⅤ| 91日本在线观看亚洲精品| 国产成人亚洲综合a∨婷婷| 91精品国产一区| 日韩美毛片| 成人在线不卡| 国产在线八区| 国产精品无码一区二区桃花视频| 992tv国产人成在线观看| 日韩视频福利| 精品五夜婷香蕉国产线看观看| 国产欧美高清| 欧美69视频在线| 欧美精品成人| 秘书高跟黑色丝袜国产91在线| 日韩在线中文| 香蕉视频在线观看www| 毛片卡一卡二| 91精品伊人久久大香线蕉| 91精品国产91欠久久久久| 国产网站免费观看| 国产成人乱无码视频| 青青青视频免费一区二区| 色哟哟国产精品一区二区| 亚洲三级色| 成人字幕网视频在线观看|