陳偉 黎行宙 MOOI Weijun 陳驍俊 孫夢哲 韓文卿 陳敏剛 張艷
在過去的10年中,由于皮膚紫外線暴露增加等原因,黑色素瘤的年新增病例增長了53%[1-3],已經成為嚴重威脅公共健康的一類惡性皮膚疾病。不斷攀升的發病率和致死率引起了對黑色素瘤預防、早期診斷和治療的重視。盡管黑色素瘤是惡性程度及致死率最高的腫瘤之一,但經早期診斷和早期治療的患者擁有極高的術后存活率[4]。
黑色素瘤診斷的第一步是對可疑皮損區域的視診,臨床公認的鑒別準則為ABCDE法則[5]:A為非對稱(Asymmetry),即皮損區域的形狀不能分為對稱的兩半;B是邊緣不規則(Border irregularity),皮損的邊緣表現為不整齊、不光滑,可能有切跡或鋸齒狀,而不像良性和色素痣那樣有光滑的圓形、橢圓形輪廓;C為顏色改變(Color variation),良性色素痣通常為單色,而黑色素瘤常表現為污濁的黑色,期間可有棕、褐、藍、粉或白色等多種不同顏色分布;D是指直徑(Diameter),對于直徑>5~6 mm或在短期內增長明顯的色素斑要特別注意,黑色素瘤面積通常比普通色素痣要大,對于1 cm以上的色素痣在必要情況下建議行活檢評估;E即隆起(Elevation),部分黑色素瘤在早期會有輕微隆起。依據以上標準結合是否有衛星灶、皮損表面是否伴有潰瘍以及家族史等病史,可對色素斑作出臨床判斷。但是,黑色素瘤疾病早期進行鑒別診斷的準確度非常有限。皮膚鏡能觀察到皮損高放大倍率、高分辨率的圖像。Meta分析結果顯示,與裸眼診斷相比,皮膚鏡能夠有效提高臨床診斷的準確度,但仍然嚴重依賴于醫生的臨床經驗。文獻報道,一位經過足夠訓練的醫生對黑色素瘤的診斷靈敏度可達到75%~84%[6]。
近幾年,隨著計算機技術的發展,出現了一些計算機圖像分析技術和輔助診斷算法,對黑色素瘤的鑒別及診斷具有較高的靈敏度[7]。
傳統的計算機圖像分析輔助診斷算法[8]有賴于人工對疾病診斷所累積的經驗(如多重顏色、特殊的形態學結構,包括條紋或偽足以及不規則血管結構等),這類算法通過提取皮膚圖像的結構、顏色、紋理等人工確定的語義特征,并利用這些特征作為淺層分類器的輸入項,實現對皮膚病變的分類。這種方法不能有效利用大規模圖像樣本的優勢來提高分類算法的精確度,且傳統算法模型的分類能力比較有限[9]。
近年來,隨著數據量的快速增長和計算機運算能力的大幅提高,深度學習在圖像識別和分類方面的應用研究取得了很大的進展。在ImageNet數據集上,深度卷積神經網絡(Deep convolutional neural network, DCNN)的圖像分類精度已經超過了人類視覺[10]?;贒CNN的皮膚疾病分類系統是一種端到端的學習方法,輸入端是皮膚疾病圖像和相應的標簽(即該皮膚病圖像的診斷類別),輸出端是分類的結果。但由于皮膚病變外觀的細微可變性和數據集的不平衡性(良性病例遠多于惡性病例),使用DCNN對皮膚病變進行分類仍是一項具有挑戰性的工作。
本研究的數據集來自國際皮膚圖像合作組織(International skin imaging collaboration,ISIC)的皮損圖像數據庫(https://www.isic-archive.com/)和5所醫院合作課題組(上海交通大學醫學院附屬第九人民醫院、上海市奉賢區奉城醫院、海南省婦女兒童醫學中心、上海交通大學附屬第六人民醫院及上海交通大學醫學院附屬新華醫院)的皮膚病數據庫。根據臨床實際需要,我們選擇了14 239張帶有診斷標簽的皮膚鏡圖像(均為病理診斷結果)。
根據數據庫構成和臨床需要,我們將所有圖像樣本分為3大類9小類:良性病變(黑色素痣、皮膚纖維瘤、脂溢性角化病、雀斑、色素性良性角化病、血管性損傷)、癌前病變(光化性角化病)和惡性病變(黑色素瘤、基底細胞癌)。在臨床實踐中,良性病變傾向于保守治療或繼續觀察其變化;癌前病變需要進一步檢查其進展并定期復查;而惡性病變需要更加積極有效的干預手段。
原始數據集包含高分辨率的皮膚圖像,其中病變區域位于圖片的不同位置。為了減少無關背景對皮損特征學習的干擾,我們使用Otsu的分割算法自動計算閾值,獲得皮損區域的輪廓。
雖然數據庫中有1萬多張已標記(明確診斷)的皮膚病圖像,但在DCNN的訓練中,這種級別的數據量依然有提升空間。因此,我們采用離線數據擴增的方法來擴充皮膚圖像的數量,用于DCNN的訓練。數據擴增是從已有的訓練樣本中產生更多的訓練數據,不僅可以減少DCNN的過擬合,還可以解決皮膚圖像數據集數據不平衡的問題。例如,在原始數據集中,惡性黑色素瘤圖像的數量遠遠少于良性痣的圖像,而類別間的數據不平衡會影響分類的準確性。
本研究中,我們使用圖像翻轉和旋轉來增加訓練樣本的數量,但不使用圖像隨機裁剪和顏色變換,以保留整個皮膚損傷區域及其原來的顏色特征。
本研究利用遷移學習來訓練分類網絡。首先對分類網絡進行大規模(128萬張,1 000個類別)的通用圖像庫ImageNet的訓練,獲得與人類視覺相媲美的通用視覺性能,稱為預訓練。在預訓練過程中,DCNN從大量的圖像中學習了曲線、紋理、顏色等一般的統計特征。然后在微調過程中,將預訓練網絡中的softmax層替換掉,將softmax層的輸出設置為9,即將皮損圖像分為9類。使用皮膚圖像的訓練數據集對分類網絡中的所有卷積層和全連接層進行微調,以更新網絡的參數。
本研究采用50層的ResNet(ResNet50)作為皮膚疾病分類的預訓練模型,因為在ImageNet大規模視覺識別挑戰中ResNet取得了比GoogleNet和VGG架構更好的性能表現。ResNet的核心理念是將“shortcut連接”嵌入“plain網絡”中,使得神經網絡中的梯度能夠進行更有效的傳播。從網絡集成的角度看,包含n個殘差區塊的網絡等價于2n個淺層網絡的集成。
實驗樣本為事先從1萬多張皮膚病圖像中預留出的139張(47例惡性黑色素瘤,92例良性黑色素痣),分別由實驗組(DCNN分類系統,構建原理如前所述,由上海計算機軟件技術開發中心合作開發)和對照組(21名皮膚科醫師,其中9名為具有5年以上皮膚鏡診斷經驗的專家,12名為2~5年經驗的普通醫師)進行診斷,分別計算兩組診斷結果的靈敏度、特異度;由于DCNN的圖像分類結果(單次分類任務僅1組數據)無法與21名醫生的共同診斷結果進行數據統計,我們繪制人工智能算法的靈敏度-特異度曲線,計算曲線下面積(Area under the curve, AUC),并與對照組進行比較。
實驗組鑒別黑色素瘤與黑色素痣的靈敏度為87.23%,特異度為80.43%,AUC為0.9129;對照組靈敏度為80.45%±17.78%,特異度為70.91%±11.66%;其中,對照組中專家(9人)靈敏度、特異度分別為86.29%±11.31%和73.91%±8.86%,而普通醫師(12人)則為76.06%±20.81%和68.66%±13.30%。如圖1所示,橫坐標為診斷靈敏度,縱坐標為特異度,藍色曲線為實驗組診斷結果(DCNN能夠根據需要調整分類參數,人為地提高靈敏度或特異度,即DCNN可以做出更偏向黑色素瘤或黑色素痣的判斷,但受限于分類能力,提高靈敏度的同時特異度會下降,反之亦然);圖1A中黑色散點坐標為9名專家的診斷結果(紅色三角為均值);圖1B中綠色散點坐標為12名普通醫師的診斷結果(紅色三角為均值);圖1C為實驗組與對照組所有21名醫生的診斷結果對比。
此外,實驗組完成139張圖片的分類耗時約3 s;對照組每張圖片耗時(25.63±14.35) s,其中專家平均每張圖片耗時為(12.86±4.83) s,普通醫生則為(35.21±11.34) s。

圖1 實驗組DCNN分類結果的靈敏度、特異度曲線(藍色曲線)和對照組21名醫師的診斷結果散點圖Fig. 1 The sensitivity and specificity curves (blue curves) of the DCNN classification results in the experimental group and the scatter plots of the diagnosis results of the 21 doctors in the control group
本研究中,我們使用ResNet50開發了基于數據庫中上萬張已標記皮膚病圖像的DCNN皮膚病分類系統,并與來自5家醫院的21名皮膚科醫生就黑色素瘤-黑色素痣二分類任務進行臨床驗證。實驗結果顯示,DCNN的診斷靈敏度和特異度均高于皮膚科醫生組,特別是DCNN的分類準確度比沒有足夠皮膚鏡鑒別診斷經驗的低年資醫生要高很多。因此,DCNN作為一種臨床輔助診斷工具在黑色素瘤的診斷中有很大的潛力。
但是,本研究獲得的DCNN分類系統和診斷準確度仍有一定的局限性。首先,本研究使用的訓練樣本均為皮膚鏡圖像,未來想實現基于廣泛人群的皮膚病篩查,必須使DCNN分類系統擺脫皮膚鏡檢查的限制。已知的結果表明,DCNN在圖像識別和分類方面能夠超越人類的視覺和判斷,但目前因缺乏臨床數據,無法收集到足夠數量的、診斷結果準確可靠的臨床圖像來訓練DCNN系統。因此,DCNN系統的診斷有效性只有在清晰有效的皮膚鏡圖像中才能得到保證,而在其他常見的臨床圖像中無法進行高效、準確的檢測。
其次,在臨床試驗中,我們關注的是臨床上最重要的黑色素瘤和黑色素痣的鑒別,受人力和試驗復雜性所限,我們沒有對9個甚至更多類的皮膚圖像進行分類和對比。針對潛在患者進行大規模篩查,將是未來DCNN的重要應用途徑。因此,提高DCNN對多種疾病的鑒別診斷能力也很重要,但這取決于皮膚病圖像數據的采集數量。
最為關鍵的是,本研究因無法在短期內收集足夠多的黑色素瘤等惡性病例樣本,所以無法在真實的臨床環境中對未確診的新患者進行實驗。因此,本研究只能采用數據庫中已有的皮鏡圖像作為病例樣本進行研究,使本研究結果具有局限性。在實際臨床工作中,診斷依據不僅局限于觀察皮膚鏡圖像,患者病史、家族史、病變在不同角度下光線下的視診及觸診也是重要的診斷依據。
本研究的數據資料的來源、數量有限,但DCNN仍表現出了很大的潛力,有望在將來成為臨床重大疾病篩查和鑒別診斷的重要方法。