王躍,王衛東,趙蕾,鄭天雷
1. 江蘇科技大學 計算機科學與工程學院,江蘇 鎮江 212000;2. 徐州醫科大學附屬醫院 醫療設備管理處,江蘇 徐州 221000
近年來隨著生活方式的轉變及醫療診治水平的提高,惡性腫瘤患病人數逐年增加。資料顯示,以胃癌、胰腺癌、直腸癌為代表的消化道惡性腫瘤在我國發病率前五的惡性腫瘤中占有三席[1]。我國的惡性腫瘤發病率較其他國家也處于較高水平,發病率約占全球的20%,死亡率較世界平均水平高17%[2-4]。目前腫瘤發病原因不明,缺乏有效的篩查手段,導致大部分患者確診時已為中晚期,錯失最佳治療期。
胃癌因其早期不易發現,且惡性程度高,嚴重威脅著居民健康安全。目前胃癌診斷主要方式為:X線鋇餐、纖維內鏡檢查、腫瘤標記物、血常規檢查等。病理分析是胃癌確診依據的“金標準”[5],而內鏡檢查可通過攝像系統直接觀察病人胃黏膜病變程度及病灶位置,并取出疑似病變組織進行病理分析,因此胃鏡是早期胃癌篩查的主要方式。目前胃鏡圖像主要依靠人工判讀,效率低、工作量大且對醫生的資質經驗有較高要求。因部分圖像高度相似,導致早期胃癌診斷率較低[6],從而錯失治療胃癌的黃金時期。因此胃癌的早診斷、早發現已稱為亟需解的醫學問題。
目前醫學圖像處理主要采用深度學習[7-8]方法,已在肺結節診斷、糖尿病視網膜病變等方面取得成功應用[9-10],結合深度學習算法的診斷準確率已接近甚至超過臨床醫生,但與人工判讀方式相比,人工智能技術具有前者無法超越的效率優勢。深度學習主要通過卷積神經網絡利用濾波器矩陣對圖像進行特征提取[7],需要大量已標注數據集來理解數據中的潛在聯系。但在醫學領域因病人信息的保密性和專業性,醫學數據需要專業臨床醫生標注,數據收集復雜且昂貴。有標簽的可訓練數據不足是制約醫學圖像分析發展的瓶頸之一,因此遷移學習將是醫學圖像分析的一個重要發展趨勢。
收集2016年1月至2019年10月在我院胃鏡中心進行檢查的患者圖像,前人研究發現惡性貧血、殘胃、慢性萎縮性胃炎、胃息肉、慢性胃潰瘍等,較正常人更容易發生癌前病變[11],所以圖像選取共分5類:早期和進展期胃癌圖像783張、胃潰瘍胃圖像1042張、慢性胃炎圖像1143張、胃息肉圖像1096張和正常胃鏡圖像1763張。圖像主要采自于日本奧林巴斯CV-290HQ和富士能VP-4450HD工作站,其中胃癌圖像均經過病理分析確診,所有圖像均進行脫敏處理。
在胃鏡圖像采集過程中,受病灶位置、光源亮度、操作習慣、成像主機對比度和分辨率等因素影響,對圖像進行重新編號、去噪聲、裁剪、去黑框等預處理。將收集圖像按照6:2:2的比例劃分為訓練集(training)、驗證集(validation)、測試集(testing)。資料表明在對圖像平移和縮放時,神經網絡學到的特征具有不變性[12],因此可對訓練集的圖像進行翻轉,縮放等處理,以提高圖像訓練時的多樣性,在分批輸入圖像前,需要將圖像規范為相同格式和尺寸。驗證集和測試集圖像只進行尺寸和格式調整,所有圖像大小均調整為224×224,最后進行歸一化處理。
深度遷移學習是為解決機器學習中訓練數據量不足這個基本問題,通過利用公開數據集訓練網絡模型,然后將參數和模型遷移到新的領域,完成新任務的機器學習方法[13-14]。根據域(domain)和任務(task)的不同,遷移學習劃分為特征遷移、樣本遷移和參數遷移等。本文處理目標與源域都是圖像,任務都是對圖像進行訓練提取特征,實現對不同屬性圖片的分類,所以采用參數遷移方式。
本實驗主要使用Pytorch1.2+TensorboardX2.0版本作為本次學習基本框架,在框架中可直接加載VGG16[15],ResNet50[16]等網絡模型。研究發現,早期胃癌圖片與胃潰瘍圖像在ResNet50網絡模型中相較VGG16,AlexNet等網絡模型有更好的識別準確度[17-18]。本文因樣本數量較少,所以基于ResNet34網絡實現,實驗方法為從零訓練ResNet34_scr模型和遷移微調ResNet34_tf,VGG16_tf模型。ResNet模型引入殘差模塊[16]解決了深度學習中隨著網絡深度增加而梯度消失、模型性能退化的問題,已成為目前圖像分類任務的首選。本實驗源圖像為自然圖像集數據集,激活函數為ReLU,損失函數為CrossEntropy,優化器為Adam。
參數微調可解決預訓練神經網絡模型在目標域中特征參數與任務的不匹配問題,是遷移學習的最重要步驟。遷移學習主要分為3個步驟:① 利用大量有標識的數據集(源域)對神經網絡進行訓練,通過模型前端的卷積層和池化層,對源域的圖像特征、參數,進行提?。虎?預訓練模型,將訓練好的模型導入到目標任務中,通過對全連接層自定義,重構分類層;③ 微調,凍結前面多層的網絡參數,用目標域圖像進行訓練,通過前向傳播,記錄前向傳播各參數,將訓練好的模型應用到目標任務中,完成遷移學習[14]。因為實驗數據集較小,且醫學圖像與源域的自然圖像差異性較大,所以本文主要采用凍結方式對模型進行微調。遷移學習微調過程如圖1所示。

圖1 胃鏡圖像遷移學習流程
通過可視化圖像在網絡模型中不同層的輸出,可對網絡模型的學習過程有更直觀的認識。圖2為螞蟻和息肉切除圖像在ResNet34模型中間層的輸出可視化。對于完全不同的輸入圖像,通過低層卷積運算后,仍可觀察出輸入圖像的輪廓;在高層池化運算后,圖像則非常抽象,無法分辨出輸入圖像的不同。網絡模型不同中間層輸出表明:低層網絡主要用于通用特征提取,高層網絡更偏向于特定任務的特征提取。因此通過遷移學習,利用已訓練好的深度模型提取通用特征,可有效完成目標域的圖像識別任務。

圖2 中間層輸出可視化
三個模型分別訓練,評價方法為測試準確率和混淆矩陣。三個模型的訓練結果如圖3所示。觀察圖3發現傳統深度學習方法的模型ResNet34_src準確率提升緩慢,而相同迭代次數時采用遷移學習的ResNet34_tf、Vgg16_tf準確率提升速度很快,且趨于穩定在很高的準確率上,不同模型訓練準確率對比如表1所示。通過觀察表1和圖3發現遷移模型ResNet34驗證集和測試集準確率均最高,識別效果最好,相較另外兩種模型對胃鏡圖像有更好的特征提取和泛化能力。

表1 不同模型訓練準確率對比(%)

圖3 3個模型的訓練結果
混淆矩陣是監測多分類模型分類效果的標準評價方式,其中橫軸表示預測類別,縱軸表示實際類別,顏色深淺表示識別準確率高低。圖4為遷移模型ResNet34測試集的混淆矩陣圖像。橫軸分別對應早期胃癌、慢性胃炎、胃潰瘍、息肉和正常胃部圖像。通過圖4發現遷移模型對正常胃鏡圖像與息肉圖像可以實現精準識別;而早期胃癌、慢性胃炎、胃潰瘍三類圖像容易誤識別,識別率相對較低。

圖4 ResNet34_tf歸一化混淆矩陣
消化道胃鏡檢查是當前早期胃癌篩查的主要方式,目前仍以人工判別為主,容易誤診、漏診,從而錯失最佳治療期。目前胃癌的診斷患者大部分都是晚期患者,晚期胃癌患者手術后5年生存率小于30%,而早期胃癌患者的術后五年生存率高達90%[19-20],因此胃癌的早發現、早治療可顯著提高患者的手術效果和生活質量。雖然深度學習在醫學圖像上已有很多成功應用,但在胃癌圖像識別上應用較少,缺乏相關的研究。
本實驗通過收集胃鏡圖像,將圖像分為早期胃癌、慢性胃炎、胃潰瘍、胃息肉和正常胃部圖像共5類,通過遷移學習將圖像遷移到已訓練好的VGG16、ResNet34網絡,并對微調模型參數,與傳統從零訓練模型相比,通過遷移學習的訓練集和測試集準確率分別為95.64%,90.75%遠高于后者的84.46%和79.53%,結果基本令人滿意。
本次實驗結果存在分類識別率相差較大等問題,經分析主要有以下幾方面原因,主要是收集數據集較小、圖像數量不足,雖經擴展但總量仍較小,模型學到的特征不足;另一方面圖像相似度高,特別是部分早期胃癌與慢性胃炎,胃潰瘍部分表面有血液分布,因數據集有限未對此類圖像進行全部剔除,可能對模型的識別結果造成影響。為進一步提高深度學習在胃鏡圖像識別中的準確率,將收集更多的原始圖像、優化算法、選擇更適合的模型,讓模型有更好魯棒性和普適性。
醫學圖像領域小數據集是基本常態,一般存在一定的類別和正負樣本不平衡問題,但往往數據量較少的樣本又含有更豐富的病例信息??傮w來說殘差網絡在較少的數據集上有很好的特征提取和泛化能力,雖然本研究只是將深度遷移學習應用于胃鏡圖像分類,但也可同樣遷移到其他小數據集圖像研究中去。