王 怡,房文靖,張中正
(1.魯東大學 生命科學學院,山東 煙臺 264025;2.魯東大學 數學與統計科學學院,山東 煙臺 264025;3.魯東大學 農學院,山東 煙臺 264025)
根據國際癌癥研究機構(IARC)公布的全球腫瘤流行病的數據統計GLOBOCAN[1],2020全球男女各年齡段(性別)按年齡標準化估計發病率中居于首位的是乳腺癌,高達47.8%,乳腺癌在女性癌癥發病率中位列首位。全球新增癌癥病例約1 930萬例,其中女性乳腺癌占11.7%,成為全球確診率最高的癌癥[2]。乳腺癌早期治愈率高達90%[3],因此應早發現、早診斷、早治療[4]。鉬靶圖像獲得成本較低,尤其在伴簇狀鈣化乳腺癌患者中的診斷價值較高,為疾病診斷提供有效依據[5]。利用基于深度學習的乳腺癌鉬靶圖像進行分類診斷,對于輔助醫生診斷方面具有重要指導意義。
關于乳腺癌預測的傳統方法有Cox比例風險回歸模型[6]、L-BFGS算法[7]、Logistic回歸模型[8]、Gail模型[9]、meta分析法[10]和Claus模型[11],這些模型通過回歸進行風險預測,基本都是地區性的,不具有普適性。
目前人工智能開始應用于乳腺癌預測。刁繼堯[12]基于Spark數據集,采用SVM模型準確率達到87.8%。陳勝等[13]基于乳腺癌威斯康辛數據集,通過sklearn封裝的邏輯回歸算法準確率為97.9%。海金金[14]采用S-DenseNet數據集的乳腺癌病理學分級算法,AUC達到80.51%。董永峰等[15]使用BCDR-F03數據集,基于特征融合的卷積神經網絡乳腺癌圖像分類,AUC達到89%。鄭群花等[16]基于乳腺癌病理圖像,采用卷積神經網絡和遷移學習模型進行乳腺癌病理圖像分類,識別率達99.74%。
本文采用的乳腺鉬靶圖像來自CBIS-DDSM[17](DDSM的乳房成像子集),它是用于篩查乳房X光檢查(DDSM)的數字數據庫的更新和標準化版本。DDSM是一個由2 620個掃描膠片乳腺X光檢查研究組成的數據庫,它包含正常、良性和惡性病例,并帶有經過驗證的病理信息。CBIS-DDSM包括由經過培訓的乳腺技師選擇和策劃的ROI邊界框以及培訓數據的病理診斷信息。
1.2.1 圖像轉換
原始的DDSM乳腺鉬靶數據為DIOCM格式,數據中既包含乳腺鉬靶影像數據,也包含一些病人,設備等參數信息。在數據預處理過程中,從DICOM數據庫中下載乳腺鉬靶鈣化圖像,通過MicroDicom DICOM viewer 3.4.7 x64[18]轉換為bmp格式。其中乳腺鉬靶良性鈣化圖像為540張,惡性為554張,如圖1所示。對這些圖像進行隨機旋轉平移擴充翻倍。

圖1 乳腺鉬靶鈣化影像
1.2.2 圖像去噪——高斯濾波
醫學影像中大多噪聲屬于高斯噪聲,而高斯濾波[19]適用于消除高斯噪聲。用一個指定的模板(或稱卷積、掩膜)去掃描圖像中的每一個像素,用模板確定的鄰域內像素的加權平均灰度值去替代模板中心像素點的值。噪聲屬于低能量部分,通過濾波器將能量低的排除達到平滑效果。采用高斯濾波器,系統函數為平滑的,避免使用理想濾波器所產生的振鈴現象[20]。
本文以CNN以及Resnet網絡為模型對乳腺鉬靶鈣化圖像進行良惡性分類。
卷積神經網絡[21]結構一般包括卷積層、池層和全連接層。通過局部連接和權值共享,降低了模型的參數和復雜度。卷積神經網絡算法流程圖如圖2所示。

圖2 卷積神經網路算法流程框圖
因深度學習網絡存在“退化”,到達一定的深度后,層數的加深導致效果退化。因此產生了Resnet網絡以解決“退化”問題。Resnet殘差網絡[22]其內部的殘差塊使用跳躍連接來緩解梯度消失問題。不僅避免了退化問題,且錯誤率和計算復雜度也降低。通過直接將輸入信息繞道傳到輸出,保證信息完整性,整個網絡則只需要學習輸入、輸出差別的那一部分,簡化了學習目標和難度。Resnet18由basic block殘差路徑構成。Resnet50主要使用“bottleneck block”,先降維再升維,減少了參數數目和現實運算量。
本文采用CNN(batch_size=32/64)、Resnet18(batch_s ize=32/64)和Resnet50(batch_size=32/64)6個模型進行乳腺癌風險預測統計建模。結果見表1。

表1 各個模型的AUC值及測試集和驗證集的準確率 單位:%
目前最好的模型是CNN_64,測試集準確率為99.74%,驗證集準確率為53.24%,AUC為59.29%。模型性能較為良好,但是數據擴充、圖像去噪和模型等可繼續改進。
本文采用的乳腺鉬靶圖像數量對于訓練神經網絡較少,擴充后數量仍有限,下一步計劃采用GAN等其他方式進行數據擴充,預計擴充之后會顯著提高模型準確率。本文實驗是在CNN網絡和Resnet網絡上進行,CNN和Resnet在圖像識別和分類方面有很大潛力。強大的泛化學習能力可以幫助醫生診斷疾病。計劃下一步采用其他卷積神經網絡、遷移學習模型進行識別分類,以期獲得更高的準確率。