劉兆睿,張漪瀾,謝鳳英,劉 潔
1中國醫學科學院 北京協和醫學院 北京協和醫院皮膚科 疑難重癥及罕見病國家重點實驗室國家皮膚與免疫疾病臨床醫學研究中心,北京 1007302北京航空航天大學宇航學院圖像處理中心,北京 100191
蕈樣肉芽腫(mycosis fungoides, MF)是最常見的皮膚T細胞淋巴瘤(cutaneous T-cell lymphoma, CTCL),為皮膚科疑難重癥及罕見疾病,晚期患者預后差、治療手段有限,早期識別及診治可改善患者預后,具有重要的臨床意義。早期MF可表現為紅斑鱗屑性皮損,與銀屑病、慢性濕疹等良性炎癥性皮膚病難以鑒別。近年來隨著皮膚影像學的發展,皮膚鏡圖像在皮膚病的鑒別診斷中發揮了重要作用[1]。鑒于早期MF及炎癥性皮膚病的預后存在較大差異,目前尚缺乏有效的無創指標進行早期診斷,而通過構建基于圖像智能分析技術的早期診斷模型可高效識別皮膚鏡圖像并進行二分類,有望實現MF的早期診斷。本研究以早期MF患者和炎癥性皮膚病患者為研究對象,比較基于皮膚鏡圖像的智能分析與皮膚科醫師對二者的鑒別診斷能力,并對錯誤分類的皮膚鏡圖像進行分析,以提高早期MF的診斷效率,為構建MF早期診斷模型奠定基礎。
1.1.1 研究對象
回顧性納入2016年1月至2020年12月北京協和醫院皮膚科門診確診的早期MF患者和臨床表現與之相似的炎癥性皮膚病(銀屑病、慢性濕疹、脂溢性皮炎、玫瑰糠疹、扁平苔蘚)患者。納入標準:(1)早期MF均經組織病理學、免疫組化、T細胞受體基因重排檢查等確診,并符合歐洲癌癥治療研究組織(the European Organization of Research and Treatment of Cancer, EORTC)以及國際皮膚淋巴瘤學會(International Society for Cutaneous Lymphoma, ISCL)提出的早期MF診斷標準[2];(2)根據臨床表現、皮膚鏡、組織病理學(部分病例)、治療反應等,由2名經培訓且經驗豐富的皮膚科醫師共同作出炎癥性皮膚病的診斷;(3)入組前1個月內未接受系統或局部治療;(4)均行皮膚鏡檢查,且選取早期(斑片期及斑塊期)皮損進行分析。排除標準:(1)僅毛發、甲、黏膜等特殊部位受累的病例;(2)皮膚鏡檢查圖像不清晰者。
本研究已通過北京協和醫院倫理審查委員會審批(審批號:JS- 2003)。
1.1.2 分組
按4∶1的比例,將患者隨機納入訓練集和測試集。
1.2.1 皮膚鏡圖像采集及診斷特征
采用奧地利MoleMax公司(MoleMax lid,Digital lmaing Systems)皮膚鏡系統進行圖像采集。根據皮損表面情況,采用偏振光浸潤式、偏振光非浸潤式或非偏振光浸潤式進行拍攝,用75%乙醇作為鏡頭與皮損之間的浸潤液體,放大倍數為20倍、30倍或40倍。根據既往臨床經驗、文獻[1- 5]及預實驗,MF的皮膚鏡特征(圖1A)為:暗紅色背景,均勻分布的點狀血管,“精子樣”血管,橘黃色斑片狀區域,片狀分布的白色鱗屑,多角形色素網、色素點(見于皮膚異色病樣MF)。炎癥性皮膚病的皮膚鏡特征如下:(1)銀屑病(圖1B):亮紅色背景,規則分布的點/球狀血管,片狀白色鱗屑;(2)慢性濕疹(圖1C):不均勻分布的點狀血管,海綿狀水皰,片狀分布/彌漫分布的黃色鱗屑,暗紅色背景;(3)扁平苔蘚(圖1D):Wickham紋,多種血管結構,藍灰色、黃棕色色素結構,毛囊角栓;(4)脂溢性皮炎(圖1E):不均勻分布的分支狀血管和線狀彎曲血管,毛囊周圍黃色或白色無結構區,蜂窩狀色素網;(5)玫瑰糠疹(圖1F):外周分布的白色鱗屑(“領圈”征),黃色背景,不規則分布或簇集分布的點狀血管和線狀血管。

圖1 早期蕈樣肉芽腫及炎癥性皮膚病皮膚鏡圖像
1.2.2 模型構建及性能驗證
采用五倍裁剪法對訓練集進行數據擴充,在像素為256×256皮膚鏡圖像的左上、左下、右上、右下角以及中心剪裁出像素為224×224的圖像,使圖像數目擴展為原來的5倍。使用訓練集病例皮膚鏡圖像對6種經典網絡結構利用遷移學習進行訓練,以構建卷積神經網絡(convolutional neural networks,CNN)二分類模型。6種網絡結構分別為AlexNet[3]、VGG16[4]、ResNet18[5]、DenseNet121[6]、SENet[7]以及EfficientNet-B0[8],均為2012年以來的經典CNN結構,常用于皮膚鏡圖像的分類。二分類模型的構建采用Logistic回歸法,使用交叉熵函數作為損失函數。采用5折交叉驗證法對CNN二分類模型進行訓練。訓練過程中使用遷移學習法將在ImageNet數據集中預訓練的模型參數在訓練開始時對CNN二分類模型進行初始化,以降低因數據量較小導致的過擬合現象,提高CNN二分類模型的泛化能力。
采用測試集數據對CNN二分類模型的性能進行驗證。6種網絡結構均選取經5折交叉驗證后的最佳模型(每種網絡結構均有1個最佳模型),并取6個最佳模型的均值為各項指標的最終結果:(1)對每幅皮膚鏡圖像進行鑒別診斷;(2)對所有病例的皮膚鏡圖像進行判讀,將網絡分類層輸出歸一化后取均值,對每例病例進行疾病歸類。
1.2.3 皮膚科醫師診斷標準
從測試集每例病例的皮膚鏡圖像中隨機挑選1幅圖像,并結合皮損的臨床圖像制成網絡問卷,由13名有經驗的皮膚科醫師在未知CNN二分類模型分類、病理結果及其他臨床特征的情況下對測試集病例的皮膚鏡圖像進行診斷。13名皮膚科醫師中,高級職稱2名,中級職稱2名,初級職稱9名。所有參與診斷的皮膚科醫師均經過皮膚鏡培訓且通過考核,同時具有1年以上皮膚鏡判讀經驗。
采用SPSS 23.0軟件進行統計學分析。CNN二分類模型交叉驗證評估結果以均數±標準差表示。計算CNN二分類模型、皮膚科醫師的診斷準確度、靈敏度、特異度、陽性似然比、陰性似然比等指標,并采用獨立樣本t檢驗進行組間比較。采用Kappa值評估CNN二分類模型與皮膚科醫師組內診斷結果的一致性。其中Kappa值>0.75表示組內診斷結果的一致性較高,0.40~0.75表示一致性中等,<0.40表示一致性較差[9]。采用受試者工作特征(receiver operating characteristic,ROC)曲線評估CNN二分類模型與皮膚科醫師在早期MF與炎癥性皮膚病中的鑒別診斷價值。其中曲線下面積(area under the curve, AUC)越接近于1,表明模型對二者鑒別診斷的效果越好。取雙側檢驗,以P<0.05為差異具有統計學意義。
共納入48例早期MF患者(皮膚鏡圖像402幅)和96例炎癥性皮膚病患者(皮膚鏡圖像557幅)。其中訓練集117例(皮膚鏡圖像772幅),測試集27例(皮膚鏡圖像187幅)。訓練集中,MF患者40例,炎癥性皮膚病患者77例(銀屑病20例、慢性濕疹20例、扁平苔蘚17例、脂溢性皮炎10例、玫瑰糠疹10例);測試集中,MF患者8例,炎癥性皮膚病患者19例(銀屑病5例、慢性濕疹5例、扁平苔蘚4例、脂溢性皮炎3例、玫瑰糠疹2例)。研究流程見圖2。

圖2 研究流程圖
訓練集117例病例的772幅皮膚鏡圖像,經五倍剪法擴展共獲得3860幅皮膚鏡圖像。表1為訓練集6種基于CNN的網絡結構經5折交叉驗證法訓練后對早期MF和炎癥性皮膚病進行二分類的統計指標,可知EfficientNet-B0網絡在交叉驗證中獲得了較低的陰性似然比,較高的陽性似然比、靈敏度、特異度以及準確度,在早期MF的識別中有較好的分類性能。

表1 CNN二分類模型交叉驗證評估結果
測試集中,皮膚科醫師鑒別診斷早期MF與炎癥性皮膚病的靈敏度和特異度分別為70.19%和94.74%,Kappa值為0.677。按圖像分類時,CNN二分類模型對早期MF與炎癥性皮膚病鑒別診斷的AUC為0.87,靈敏度和特異度分別為75.02%和82.02%,Kappa值為0.563。按病例分類時,CNN二分類模型對早期MF與炎癥性皮膚病鑒別診斷的AUC為0.97,靈敏度和特異度分別為87.50%和93.85%,Kappa值為0.920,見表2。

表2 CNN二分類模型與皮膚科醫師診斷結果比較[均值(95% CI)]
選取6種CNN二分類模型中對早期MF診斷效能最好的EfficientNet-B0網絡結構進行可視化分析。ROC曲線顯示,按病例分類時,CNN二分類模型診斷早期MF的AUC為0.99,靈敏度和特異度分別為88.9%和100%,且13名皮膚科醫生的診斷靈敏度和特異度均值對應點位于曲線右下方,提示該模型對早期MF的分類效果較好,且優于皮膚科醫師的平均水平,見圖3。

圖3 CNN二分類模型診斷早期MF的受試者工作特征曲線及與皮膚科醫師診斷結果比較圓點為13名皮膚科醫師的診斷靈敏度和特異度(存在部分醫師診斷數據一致,圓點重合的情況),▲為其均值。當圓點位于曲線右下方時,說明CNN二分類模型的診斷效能優于皮膚科醫師平均水平MF、CNN:同圖2;AUC:同表2
圖4為CNN二分類模型誤診的1例早期MF患者(男性,30歲)的皮膚鏡圖像及臨床圖像。在采用CNN二分類模型進行單幅圖像鑒別診斷時,4幅圖像中的3幅(圖4A~4C)診斷錯誤,1幅(圖4D)診斷正確。皮膚科醫生選擇圖4B進行診斷,其診斷準確度為76.92%。

圖4 CNN二分類模型誤診的1例早期MF病例的皮膚鏡圖像及對應的臨床圖像
皮膚科醫師對6例早期MF病例的診斷準確度較低(0~76.92%,對其余患者的診斷準確度為92.31%~100%)。其中對1例早期MF病例的診斷準確度為0(圖5A),3例為69.23%(圖5B~5D),2例為76.92%。6種CNN二分類模型對上述6例病例的平均診斷準確度分別為100%(皮膚科醫師:0)、100%(皮膚科醫師:69.23%)、83.33%(皮膚科醫師:69.23%)、100%(皮膚科醫師:69.23%)、50.00%(皮膚科醫師:76.92%)、100%(皮膚科醫師:76.92%)。

圖5 皮膚科醫生診斷準確率較低的早期MF病例皮膚鏡圖像及對應的臨床圖像
MF是最常見的CTCL,早期MF易被誤診為慢性濕疹、銀屑病、玫瑰糠疹、脂溢性皮炎、扁平苔蘚等炎癥性皮膚病,通過影像學檢查進行評估可提高CTCL檢出率,并避免不必要的活檢操作,具有重要的臨床應用價值。本研究基于皮膚鏡圖像,探究CNN二分類模型對早期MF與炎癥性皮膚病的鑒別診斷能力,結果顯示,測試集中皮膚科醫師鑒別診斷早期MF與炎癥性皮膚病的靈敏度和特異度分別為70.19%和94.74%,Kappa值為0.677。按圖像分類時,CNN二分類模型對早期MF與炎癥性皮膚病鑒別診斷的AUC為0.87,靈敏度和特異度分別為75.02%和82.02%,Kappa值為0.563。按病例分類時,CNN二分類模型對早期MF與炎癥性皮膚病鑒別診斷的AUC為0.97,靈敏度和特異度分別為87.50%和93.85%,Kappa值為0.920,提示該模型對早期MF具有較好的識別能力,尤其按病例分類時,靈敏度、特異度均較滿意,且不同網絡結構模型之間,診斷結果的一致性較高。進一步ROC曲線分析顯示,按病例分類時,EfficientNet-B0網絡結構CNN二分類模型診斷早期MF的AUC為0.99,靈敏度和特異度分別為88.9%和100%,亦提示CNN二分類模型對早期MF的分類效果較好,且優于皮膚科醫師的平均水平。
皮膚鏡作為一種無創的影像學檢查手段,具有便捷、實時、患者接受度高等優點。Lallas等[10]和Ghahramani等[11]分別通過回顧性研究發現早期MF最常見的皮膚鏡特征為短線狀血管、橘黃色斑片狀區域和“精子樣”血管,其中“精子樣”血管為早期MF的特征性血管結構。本課題組于2019年回顧性分析了北京協和醫院皮膚科診治的31例早期MF患者的皮膚鏡特征,并與慢性濕疹和銀屑病患者的皮膚鏡表現進行比較,結果顯示出現線狀血管(靈敏度:90.3%,特異度:92.9%)、“精子樣”血管(靈敏度:74.2%,特異度:100%)以及橘黃色斑片狀區域(靈敏度:90.3%,特異度:91.4%)等皮膚鏡表現高度提示皮損為早期MF[12]。Bilgic等[13]對MF、斑塊狀銀屑病、扁平苔蘚、玫瑰糠疹和結節性癢疹5種皮膚病的皮膚鏡圖像表現進行總結后發現,玫瑰糠疹皮膚鏡下可見黃色背景,其他皮損背景以亮紅色和暗紅色為主;斑塊狀銀屑病、玫瑰糠疹和結節性癢疹主要表現為點狀血管,MF和扁平苔蘚中以點狀和線狀血管為主;在血管分布上,斑塊狀銀屑病呈規則分布,扁平苔蘚呈周邊分布,玫瑰糠疹、MF和結節性癢疹呈斑片狀分布;在鱗屑顏色上,斑塊狀銀屑病、玫瑰糠疹、MF以白色鱗屑為主,扁平苔蘚、結節性癢疹以黃白色鱗屑為主;在鱗屑分布上,除玫瑰糠疹的鱗屑呈外周“領圈樣”分布外,其余疾病的鱗屑分布均呈斑片狀,提示皮膚鏡可用于評估并鑒別診斷MF與炎癥性皮膚病。但準確識別皮膚病圖像對醫生的皮膚鏡判讀能力有較高要求,一般需經系統培訓和長期臨床實踐,且人工判讀皮膚鏡圖像存在主觀差異性。
隨著人工智能(artificial intelligence,AI)深度學習技術的不斷發展,借助皮膚鏡圖像計算機輔助診斷(computer aided diagnosis,CAD)系統可客觀地對多種皮膚科疾病進行診斷,且診斷結果具有較高的重復性[14]。Schindewolf等[15]將CAD系統應用于皮膚惡性腫瘤的協助診斷中,發現惡性黑色素瘤的診斷準確度由75%提高至92%。但傳統皮膚鏡圖像分類模型常使用人工設計的特征,不具有高層語義信息,無法準確描述圖像。CNN能利用卷積運算提取圖像的高層語義特征,近年來被應用于皮膚鏡圖像的診斷分類中。謝斌等[16]利用CNN算法成功構建皮膚疾病診斷模型,該模型對基底細胞癌和色素痣分類的正確率為93.5%,證實CNN模型在皮膚疾病的診斷中具有巨大潛力。Serener等[17]基于CNN算法構建常見惡性色素性皮膚病圖像分類模型,可實現基底細胞癌、鱗狀細胞癌和角質形成細胞腫瘤的分類。
本研究對訓練集數據進行5折交叉驗證以比較不同網絡結構的CNN二分類模型對早期MF與炎癥性皮膚疾病的分類性能。結果顯示6種網絡結構的CNN二分類模型均取得了較好的分類準確度、靈敏度和特異度,尤以EfficientNet-B0網絡結構的綜合能力最佳,其基于復合系數,通過平衡網絡寬度、深度優化網絡結構,在皮膚鏡圖像分類任務中表現出良好的能力。
本研究結果顯示,按病例分類時,CNN二分類模型在測試集中對MF與炎癥性皮膚病鑒別診斷的AUC為0.97,靈敏度和特異度分別為87.50%和93.85%,Kappa值為0.920。而皮膚科醫師鑒別診斷的靈敏度和特異度分別為70.19%和94.74%,Kappa值為0.677。提示CNN二分類模型在早期MF的分類中具有較高的識別能力,且在不同的網絡結構模型間達到了高度一致性。進一步對基于EfficientNet-B0網絡結構的CNN二分類模型進行ROC曲線分析,結果表明該模型診斷早期MF的AUC高達0.99,且靈敏度和特異度優于13名皮膚科醫師的均值,亦說明CNN二分類模型對早期MF的識別能力優于皮膚科醫生整體診斷水平。
在對單幅圖像識別能力的比較中,CNN二分類模型的靈敏度為75.02%,略高于皮膚科醫師(70.19%),但無統計學差異,提示CNN二分類模型根據單幅皮膚鏡圖像識別早期MF的靈敏度已達臨床醫生水平。但其特異度、準確度、Kappa值、陽性預測值、陰性預測值均低于皮膚科醫師。分析原因:單幅皮膚鏡圖像所含信息較少,而皮膚科醫師可綜合皮膚鏡圖像和臨床圖像的特征,獲得更多的診斷信息與依據。數據量是影響CNN學習能力的關鍵因素,由于MF較罕見,本研究納入的患者較少,以致CNN二分類模型的分類能力降低,即便如此,CNN二分類模型在單幅圖像早期MF的識別中AUC亦達0.87,提示其對早期MF具有較高的分類能力。
在對錯誤分類病例的皮膚鏡圖像分析中發現,CNN二分類模型對其中1例病例4幅圖像中的3幅圖像分類錯誤,可能與該患者的MF皮損數目較少、局限性分布、血管結構不明顯,與慢性濕疹、銀屑病等炎癥性皮膚病表現極為相似有關。而13名皮膚科醫師對6例早期MF患者的診斷準確度較低,其中1例病例均誤診,考慮與該患者皮損呈局限性分布,皮膚鏡圖像為非浸潤模式拍攝、血管結構顯示不清晰有關。對于該病例,6種網絡結構CNN二分類模型的診斷準確度均為100%。皮膚科醫師診斷準確度較低的其余5例病例中,CNN二分類模型的診斷準確度整體亦高于皮膚科醫師,提示多點取材、同一病例提供多張皮膚鏡圖像可提高AI的診斷準確度,達到與臨床醫生相當甚至更高的診斷水平。
本研究局限性:(1)MF為罕見病,發病率較低,本研究收集的病例數較少,深度學習模型從原始數據中獲取的信息較少,造成模型過擬合現象。此外,本研究參與皮膚鏡圖像診斷的醫師均為經北京協和醫院培訓、有1年以上皮膚鏡判讀經驗的皮膚科醫師,其診斷能力不能代表全國醫師的水平。(2)為符合臨床實踐情況,皮膚科醫師在進行早期MF分類鑒別時,為其提供了與皮損對應的臨床圖像以輔助診斷,而CNN二分類模型僅提供皮膚鏡圖像,兩者之間存在操作差異。(3)本研究測試集病例仍來自本研究中心,僅對模型的性能進行內部驗證。因此,CNN二分類模型對早期MF的識別能力仍需多中心、大樣本量數據研究加以證實,并進行外部數據驗證。
綜上,基于深度學習的CNN輔助診斷模型具有學習耗時短、受環境因素干擾少、可重復性高等優點,可廣泛應用于多種學科疾病的診斷。已有研究表明,應用醫生結合AI輔助診斷模型可提高疾病的診斷準確度[18]。在臨床實踐中,除皮膚影像檢查外,病史、病程、組織病理、實驗室檢查、治療反應等信息均可為醫生作出診療決策提供重要信息。盡管本研究中CNN二分類模型對早期MF已取得較好的識別、分類能力,但其僅依賴于皮膚鏡圖像信息的診斷方法與臨床診斷過程并不完全相符。未來,本研究團隊將嘗試在網絡結構中納入不同模態的臨床信息,并構建基于多模態的CNN模型,以提高對不同皮膚病的分類準確度,使AI診斷模型更接近臨床實際并具有充分合理的依據,從而進一步用于臨床疾病的輔助診斷,提高診斷準確度。
作者貢獻:劉兆睿和張漪瀾負責研究實施和論文撰寫;劉潔和謝鳳英負責研究設計和論文審校。
利益沖突:無