楊昌正
(南開大學 統計與數據科學學院,天津 300071)
近年來,皮膚惡性腫瘤愈發常見,患皮膚癌的人越來越多。據統計,美國每年皮膚癌導致的死亡人數超過10 000人,對人們的生命健康造成了巨大的威脅[1],如果能夠在早期發現并及時治療將令患者獲得較高的存活率。早期的皮膚惡性腫瘤診斷基本依賴于醫師的視覺偵察,即主觀判斷,但部分皮膚惡性腫瘤分型的臨床表現非常接近,且觀察者的主觀判斷存在差異,即使是經驗豐富的專家也會存在誤診的可能性,而深度學習在一定程度上解決了這個問題。其利用計算機視覺輔助技術,搭配醫學診斷任務,將皮膚癌圖像與該技術相結合。目前,人工智能手段輔助診斷皮膚癌已取得了階段性的成果。但用于皮膚癌圖像識別的網絡模型過于龐大,其時間與空間成本往往無法滿足快捷高效的診斷要求及遠程醫療要求。本研究提出了一種基于輕量級神經網絡的皮膚癌圖像識別方法,將皮膚癌病理圖像分為AKIEC、BCC、BKL、DF、MEL、NV、VASC七類。該方法在提高訓練效率、降低模型大小的同時保持了較高的精度,使其能夠應用于多種移動設備及嵌入式設備,可滿足臨床診斷及遠程醫療的需要。
近幾年,隨著深度學習的發展,卷積神經網絡(CNN)在計算機視覺領域取得了重大成果,多種卷積神經網絡模型相繼出現(如Alex Net、Dense Net、Google Net、Res Net、Mobile Net 及Efficient Net等)。在皮膚癌圖像識別中,CNN取得了突破性成果。Ganster[2]等將卷積神經網絡應用于皮膚癌MEL分類中,利用卷積神經網絡提取特征并進行MEL識別。Kawahara[3]等提出了基于AlexNet的完全卷積神經網絡來提取MEL代表性特征。Li Y[4]等利用ResNet,將皮膚癌三分類問題化為兩個二分類問題來處理,在ISIC2017比賽中得到了很好的效果,但該模型無法處理多分類問題。皮膚癌圖像分類研究存在著以下問題:傳統神經網絡過于復雜,參數量與計算量較大,訓練往往需要耗費大量的時間與空間,部分情境下難以滿足實際需求,有時訓練樣本較少,這些參數多模型復雜的神經網絡很容易出現過擬合現象,故將皮膚癌圖像識別方法應用于便攜的嵌入式設備中或用于手機等移動設備,實現遠程醫療,使醫生在臨床診斷中方便地做出判斷,這已成為人們的研究熱點。
采用的數據集來自于kaggle的ISIC2018數據集,即國際皮膚成像協會在2018年發布的經過皮膚科專家標注的10 015張彩色皮膚鏡圖像[5],包括七類皮膚癌分型,其圖片分辨率大小為600×450。圖像類別及數量分布如表1所示。

表1 ISIC2018數據集病變分類及數量
數據集中7種病變圖像數量分布十分不均衡,模型在學習過程中往往會給含有多數圖像的類別更多的權重,這導致分類訓練過程中分類器會將少數類分類給多數類,令實驗結果不佳,故需對圖像進行適當的預處理,以減輕數據不平衡造成的影響。針對上述問題,需進行預處理:通過數據增強方法,對小樣本數據(DF、VASC、AKIEC)采取隨機切割、圖片翻轉、旋轉等圖像增強手段,增加訓練集數量,限制每個標簽下訓練樣本的最大數量為500,對數據集進行歸一化操作,只需將數據集除以255,即可使像素值范圍被映射到0~1。
1.2.1 卷積神經網絡
卷積神經網絡是深度學習的一種經典算法,是多層感知機的變種,于1998年由紐約大學的Yann Lecun提出。其采用局部連接及權值共享方式,降低權值數量,使網絡容易被優化,降低了模型過擬合風險,在二維圖像處理中具有很大的優勢。目前,卷積神經網絡已被廣泛用于各種醫學圖像識別、切割及自然圖像處理等任務中,取得了很好的成果。一個基本的卷積神經網絡結構主要由卷積層、池化層、全連接層等部分組成。
卷積層。在卷積神經網絡中,卷積層的作用是提取圖像特征,一般用長寬相等的卷積核,遍歷需要提取特征圖像的每一個像素點。遍歷過程中,卷積層覆蓋圖像的每一個像素值都會與該卷積核對應位置的權值相乘,求和并加上偏置值得到最后的輸出。卷積輸出的通道數即為卷積核的個數,一般情況下,卷積核的通道數等于輸入的通道數。
池化層。池化層的作用是實現尺寸的縮減,在保持特征不變性的同時降低參數量,在一定程度上防止過擬合。池化層基于局部相關性思想,對局部信息進行采樣或信息聚合,分為不同種類。一般情況下,卷積神經網絡會采用最大池化層或平均池化層。
全連接層。在卷積神經網絡中,全連接層將學到的分布式特征表示映射到樣本標記空間,起到分類器作用,即通過特征提取實現分類。全連接層最后一層的神經元個數通常等于待分類類別的數量。
1.2.2 EfficientNet
EfficientNet神經網絡是2019年由Mingxing Tan[6]等提出的針對改變深度網絡模型的輕量級神經網絡。EfficientNet神經網絡配置如圖1所示,共分為9個stage,表中卷積層后默認都跟有BN及Swish激活函數。stage 1是一個3×3的卷積層,stage2~stage8是在重復堆疊MBConv。stage9由3部分組成,即1個1×1的卷積、平均池化、1個全連接層。

圖1 EfficientNet結構圖
MBConv模塊結構如圖2所示[7],對于主分支而言,其是1個1×1卷積用于升維,輸出特征矩陣通道是輸入channel的n倍,通過1個DW卷積及1個SE模塊,使用注意力機制調整特征矩陣,再通過1×1卷積進行降維。

圖2 MBConv結構圖
相比于傳統的卷積神經網絡,EfficientNet具有以下優勢:作為一種輕量級卷積神經網絡,體積及參數量更小,運行速度更快,可以在優化訓練速度的同時提高分類任務的準確度。
1.2.3 改進的EfficientNet模型構建
將模型中的平均池化層修改為最大池化層,以便模型可以在訓練過程中關注到圖像數據中最關鍵、最重要的特征部分,在全連接層后添加 Dropout 層,以減少模型的過擬合程度。將EfficientNetB1在ImageNet數據集上訓練好的權重參數遷移到改進好的模型中,完成模型搭建,經過預處理的圖像被送入EfficientB1分類模型網絡中進行訓練,皮膚癌圖像依次穿過EfficientB1網絡中不同層的MBConv模塊及過渡層進行特征提取,進入最大池化層降維,經過一層batch_normalization層進入全連接層進行特征分布表示,通過損失函數及真實圖像特征計算并進行反向傳播,直到準確率趨近擬合。
實驗環境為基于谷歌開發的開源深度學習框架tensorflow,編程語言為python,硬件設備為RTX A4000。實驗訓練超參數如表2所示。

表2 訓練超參數
選擇構建混淆矩陣來對預測結果進行評估,橫坐標表示真實值,縱坐標表示預測值,樣例如表3所示。

表3 混淆矩陣
采用分類準確率(Accuracy)作為評估指標,分類準確率高則可以在一定程度上代表該模型好。分類準確率公式如下所示:
(1)
將self-EfficientNet模型在經過預處理后的ISIC2018數據集上進行訓練,輸入模型的圖片大小為224×224,通道數為3,每次訓練樣本數為32,學習率為0.001,訓練次數采取早停策略,以便模型在發生過擬合前保存下來,設置為連續3次損失值不下降時停止訓練。訓練結果如表4所示。

表4 訓練結果對比
由三者的準確率可知,3個網絡模型均未發生梯度消失現象,MobileNetV2與ResNet50均具有殘差結構,能夠有效防止梯度消失現象,而self-EfficientNet能通過自適應的正則調整機制來修正網絡。綜合來看,MobileNetV2的參數量最小,而ResNet50的參數量則遠遠大于二者。但是,self-EfficientNet的準確度與損失值更優,準確值相較MobileNetV2高出5.6%,說明self-EfficientNet參數量較小且分類性能最好。

圖3 Self-EfficientNet訓練曲線

圖4 MobileNetV2訓練曲線

圖5 ResNet50訓練曲線
從三者的訓練曲線對比可知,Self-EfficientNet的收斂速度最快,訓練效率最高,僅用26次就完成收斂,訓練效率遠遠超過其他兩種模型,證明該模型在該數據集上具有可行性及優越性。
基于ISIC2018數據集,選擇了self-EfficientNet、MobileNetV2及ResNet50進行分類對比實驗,分別基于遷移學習訓練了26、70、59次完成收斂。訓練收斂后,比對了測試集上各個網絡的分類結果及其參數量。從以上結果可看出,self-EfficientNet與MobileNetV2的loss遠遠小于ResNet50,但ResNet50模型中訓練集loss與測試集loss相差不多,故推測原因并非是過擬合現象。從ResNet50訓練過程中loss與準確度變化較小推測,可能是由于皮膚癌圖像的特征信息相對較少,而ResNet50模型較為復雜,導致該數據集并不能很好地訓練模型,難以擬合函數,故而輕量級卷積神經網絡更占優勢。self-EfficientNet與MobileNetV2相比,self-EfficientNet具有更高的分類準確度、更快的訓練效率及較小的參數量,性能更優越。
為了滿足皮膚癌圖像的識別需求,從深度學習角度出發,利用卷積神經網絡在圖像識別中的優勢,提出了一種基于輕量化卷積神經網絡模型的方法,即self-EfficientNet。該模型通過更改池化層,引入Dropout與遷移學習對EfficientNetB1進行改進,在ISIC2018數據集上與ResNet50、MobileNetV2進行實驗對比。結果表明,self- EfficientNet具有準確率高、收斂速度快等優勢,準確率達到了82.8%,比MobileNetV2模型與ResNet50模型的準確度高出了5.6%,而參數量不到ResNet50的1/3,能夠滿足皮膚癌圖像識別模型應用于各種移動設備及嵌入式設備的要求。但該模型也存在著一些不足,如使用的公共數據集因數據不平衡限制了訓練數量,未來將嘗試利用對抗性網絡生成小樣本數據來解決數據不平衡等問題,并繼續優化模型性能。