蔡立志 章 偉 陳敏剛 王乃琪
1(上海計算機軟件技術開發中心上海市計算機軟件評測重點實驗室 上海 201112) 2(華東理工大學信息科學與工程學院 上海 200237)
皮膚癌是惡性皮膚腫瘤的統稱,是由于癌細胞的失控生長引起的,并感染轉移到身體其他部位,包括惡性黑色素瘤、基底細胞癌、鱗狀細胞癌等。在過去幾十年里,皮膚癌特別是黑色素瘤的發病率一直呈現出逐漸上升的趨勢[1]。2012年,美國有76 250例新發黑色素瘤病例,估計因此而死亡的病例高達9 180例[2],2018年美國癌癥協會最新發布的癌癥統計報告數據顯示[1],2018年美國新增91 270例黑色素瘤病例,相較于2012年增加了19.70%,新增死亡病例9 320例,較于2012年增長1.53%。在國際上,皮膚腫瘤的威脅也不容小覷,全世界每年發生132 000種黑色素瘤皮膚癌[3],并且在過去30年中,在大多數發達國家中,其發病率和死亡率都在增加[4]。我國的皮膚癌發病率處于較低水平,但近年來皮膚腫瘤的發病率也急劇上升,每年都在以3%~5%的比例逐漸上升,年新增病例約兩萬人[5]。
預防和及早發現對于逆轉這一趨勢至關重要[6]。研究表明,在早期發現和診斷皮膚癌,可以通過簡單的切除治愈,患者5年內的存活率提高到95%以上,而等到晚期則面臨高于80%的死亡風險[7-8]。因此,臨床中準確區分惡性皮膚癌變與良性痣等良性病變至關重要。
利用深度神經網絡分類識別皮膚癌圖像是當前的研究熱點,但是這些方法要么僅僅采用精調預訓練通用圖像分類模型,而沒有充分考慮任務圖像的自身特征,要么利用簡單的特征融合,不能很好地應對皮膚癌多病癥細粒度類別分類的挑戰。本文結合通用圖像分類模型和圖像分類子領域中細粒度圖像分類問題深入研究皮膚癌圖像分類,并結合源數據集ISIC中病癥圖像對應的元數據特征分析驗證分類模型結合元數據的分類效果。本文的貢獻包括:
梳理計算機輔助皮膚癌診斷的各類方法,對深度神經網絡在皮膚癌圖像分類的應用進行實驗研究,使用遷移學習對比當前各卷積神經網絡模型分類能力,并以此作為基準實驗。
研究皮膚癌病損圖像類別類間相似性特征,將圖像細粒度分類引入醫療圖像分類診斷,結合細粒度分類模型NTS-Net作為診斷模型,提供端到端的模型訓練,對比上述基準實驗,分類結果顯著提升。
結合原始數據集ISIC的圖像元數據特征,將診斷模型特征與元數據(metadata)特征融合探索元數據特征對于分類的影響。
當前皮膚癌診斷方式包括醫生肉眼診斷、活體病理分析、皮膚鏡檢測、傳統計算機輔助診斷、基于深度學習的計算機輔助診斷。一般臨床實踐診斷是直接依靠皮膚科醫生的肉眼來進行判斷的,但這種臨床診斷極易受到醫生臨床經驗的主觀因素以及實際診斷環境等客觀因素的影響。同時,活體病理分析方法又過于費時費力[9]。相比而言,基于皮膚鏡的臨床檢查則具有更好的實際效果,相應診斷結果的靈敏度增加了10%~30%[10]。皮膚鏡[11]是一種無創性的皮膚成像技術,它可以通過可視化增強病變區域肉眼無法辨別的顏色、形態、紋理等特征來表征圖像。將臨床上的皮膚病學和皮膚病理學規則聯系起來,為皮膚科的醫生提供了一種額外的診斷途徑,是早期診斷、篩查、計算機輔助檢測的主要載體[12]。常見的對于診斷皮膚鏡圖像的方法有ABCD準則[13]、模式分析法[14]、孟氏法[15]和七點特征法[16]。這些規則主要對應皮損區域各種形態學特征。但是,皮膚鏡檢查仍有一些不足,例如無法自動識別皮損區和非皮損區、難以區分高度視覺特征相似病變等[17]。
于是研究人員提出基于皮膚鏡檢查規則的計算機輔助診斷系統,原理是先對病變區進行分割,然后從病變區域及其邊界提取手工特征,最后進行分類識別。在傳統計算機輔助診斷系統中的主要挑戰是病變區域分割和從原始數據中選擇有效的特征。具體來說,任務難度是準確地檢測病變的邊界,因為有不同的環境因素,如毛發、光照效應、低的病變對比度、不對稱和不規則的邊界、切口邊緣等。在特征提取步驟中,提取了形狀、顏色、紋理、梯度等多種類型的特征。但是,對分類的顯著特征并沒有明確的認識。獲取到特征數據后,將所選特征與相應標簽一起用于訓練分類器,例如,支持向量機、隨機森林或者多層感知器[18-19]。之后可以將訓練后的模型用于對新的皮膚病變圖像進行分類。這類方法的不足是由于皮膚鏡圖像的高度變化、偽影和訓練數據不足而導致缺乏泛化能力。
目前,深度神經網絡(DNN),尤其是卷積神經網絡(CNN)[20-21]在對象檢測和自然圖像分類等任務方面優于傳統特征工程方法,其分類、檢測和分割的能力已經在許多醫學圖像分析任務中取得突破。Kawahara等[22]提出了一種基于AlexNet[20]的全卷積神經網絡,對原始數據圖像進行多尺度特征提取,并對10個類別的皮膚疾病圖像進行診斷分類。文中并未對皮膚圖像做病損區域的分割以及其他復雜的預處理,但結果相較于之前的方法有了明顯的提升。Pomponiu等[23]提出了一種基于知識遷移思想的模型Deepmole,該模型首先利用自然圖片來訓練深度神經網絡,然后把該網絡當作特征提取器直接在皮膚鏡圖像上提取相關的特征,并最后進行分類操作。實驗結果證明,Deepmole對于皮膚病變的類別診斷上的準確率要明顯優于其他常規方法。2017年2月,斯坦福大學Sebastian Thrun研究團隊采用深度學習方法對皮膚鏡和臨床皮損圖像進行自動分類,并在Nature上發表了相關研究成果[7]。但是這些方法要么僅僅依靠從自然圖像數據集(例如ImageNet[24])訓練特征提取器,而沒有充分考慮皮膚癌圖像的自身特征,要么僅利用通用卷積神經網絡模型,不能很好地應對醫療圖像識別任務的挑戰。所以,卷積神經網絡仍有很大潛力空間來進一步提高皮膚癌圖像識別的精度。
細粒度圖像分類,又被稱作子類別圖像分類,是近年來計算機視覺、模式識別等領域一個非常熱門的研究課題。其目的是對屬于同一基礎類別的圖像(汽車、狗、花、鳥等)進行更加細致的子類劃分,但由于子類別間細微的類間差異,較之普通的圖像分類任務,細粒度圖像分類難度更大。因此,要想順利地對兩個極為相似的對象進行細粒度分類,最重要的是在圖像中找到能夠區分這兩個對象的區分性的區域塊,并能夠對這些有區分性的區域塊的特征進行較好的表示,如圖1所示。

圖1 自然圖像、細粒度圖像、皮膚癌圖像分類識別
在真實的現實場景應用中,有非常多的細粒度圖像識別和細粒度圖像檢索的任務。2016年,美國大自然保護協會在kaggle[25]上發布的比賽要求對甲板上的6種魚類進行識別和分類,很顯然這就是一個細粒度圖像識別任務。2018年、2019年,kaggle上發布根據鯨魚露出來的尾巴進行個體級別的分類任務,相對于子類的分類來說,個體級別的分類是更細粒度的分類問題。此外在新零售的場景中,我們也會有非常多的細粒度圖像的識別需求,例如對貨架或者購物車中不同商品的分類檢測就是一種圖像細粒度識別任務。
對于醫療AI領域而言,需要關注的是醫療圖片與自然圖片的區別,自然圖像分類檢測所面臨的問題是更深的網絡以提高網絡的特征表示能力,更快的檢測速度達到較好的實時性以及更好的檢測效果;而醫療圖像的分類檢測,基本是針對某一個特定特征(如結核、腫瘤)的檢測識別,本身就具有很強的類間相似性,更偏向于細粒度圖像分類的方向。
在皮膚癌圖像分類檢測任務中,多數是直接采用通用的卷積網絡進行醫療圖像分類,或者是采用遷移學習的思想進行模型的微調。這些分類網絡具有較強的特征表示能力,因此在常規圖像分類中能取得較好的效果。然而在細粒度分類中,不同類別之間的差異其實十分細微,因而整體的分類效果并不理想。在本文中,我們將細粒度特征結合到皮膚癌圖像分類中,使用名為NTS-Net[26]的細粒度模型,最后結合皮膚癌圖像的metadata特征優化模型。
在本文中,我們將圖像細粒度分類引入皮膚癌圖像分類中,結合自監督分類模型NTS-Net,采用多代理合作學習方法來解決準確識別圖像中信息區域的問題,訓練出一個端到端的分類檢測模型。
Navigator-Teacher-Scrutinizer Network模型結構如圖2所示。

圖2 Navigator-Teacher-Scrutinizer Network模型結構
Navigator部分作用是向后續的Scrutinizer部分提出圖像中的建議區域,Navigator采用信息量標識圖像中的區域,并從中挑選出最大信息值對應的區域,稱為建議區域(Proposed region)。
Teacher評估Navigator的建議區域并提供反饋,對于每個建議區域,Teacher評估其屬于真實類別標簽(Ground-truth class)的概率,使用置信度反饋回Navigator部分,使得Navigator能獲取較大信息值的區域。
Scrutinizer起到最終的分類作用,該部分會結合原圖像和經過Teacher評估后Navigator提出的建議區域兩個來源獲取分類特征,將兩部分特征作為最后輸入分類器中的分類特征。
NTS-Net模型依賴于一個假設條件:對于細粒度圖像分類任務,圖像A中的信息豐富區Ri域對應類別高置信度,符號表示為:
R1,R2∈A,
C(R1)>C(R2),I(R1)>I(R2)
(1)
式中:I代表信息量度量函數;C代表置信度評價函數。

I(R1)≥I(R2)≥…≥I(Ri)≥…≥I(RA)
(2)
式中:A表示anchors個數。
為了減少Navigator生成區域的冗余,模型采用非極大性抑制算法(NMS)。接著采取前M個信息區域{R1,R2,…,RM}并將它們輸入Teacher network以獲得每個區域R的分類置信列表{C(R1),C(R2),…,C(RM)}。最后優化Navigator network使得{I(R1),I(R2),…,I(RM)}和{C(R1),C(R2),…,C(RM)}具有相同的順序。每個建議區域通過最小化真實標簽和預測值之間的交叉熵損失來優化Teacher網絡。Navigator結構如圖3所示。

圖3 Navigator網絡結構

圖4 Navigator和Teacher網絡結構
使用Teacher網絡代表Conf(Ri),網絡結構類似于在特征向量連接全連接層以及Softmax分類預測。判斷輸入區域屬于目標標簽的概率。
Navigator網絡的Loss為:
(3)
Teacher網絡的Loss為:
(4)
Scrutinizer是最終的分類預測網絡,Scrutinizer網絡進行結果預測時會結合經過Teacher網絡評估的由Navigator網絡提交的信息建議區域特征和原圖特征一起輸入分類器中。實際上,這樣的分類方式可以在不需要圖像中位置信息標簽的基礎上自動識別圖像中細粒度識別關鍵區域并提取特征用于分類。Scrutinizer結構如圖5所示。

圖5 Scrutinizer網絡結構
Scrutinizer網絡的Loss為:
Ls=-logS(X,R1,R2,…)
(5)
在模型具體結構上,特征提取使用的是ResNet50網絡主體,即圖5中的Feature Extractor部分。原圖經過ResNet50后得到特征映射圖,在此基礎上添加兩層卷積層,新添加卷積層參數Wi代表Navigator網絡參數,輸出為多尺度的建議區域圖像的區域信息I。Teacher網絡同樣是在ResNet模型卷積基的基礎上添加Softmax層分類,該部分模型參數為Wc。同時,輸入Teacher網絡的圖像并非原圖,而是將上一個Navigator網絡生成的建議區域上采樣到原圖大小后輸入。網絡根據分類置信度C反饋回Navigator中各建議區域的信息量I。Scrutinizer網絡的作用是分類,與Teacher的分類不同在于它會融合全圖信息和建議區域信息,該部分模型參數為分類器Softmax參數Ws。
上述方法是基于CNN模型,從中輸出/提取深層特征用于分類。盡管此類方法在分類準確率上已取得較大提升,但是仍有空間可以進一步提高分類精度。研究CNN自動學習的特征與其他特征融合后的分類能力是一個重要的方向,即基于特征融合的思想。
我們將特征融合的方式分為兩類,即像素級融合、特征級融合,如圖6所示。

圖6 像素級和特征級融合
(1) 像素級融合:如圖6(a)所示。圖像融合的這種配置是最低級別的技術,通常是將來自不同來源的多個圖像以像素方式組合為一個圖像,然后將其輸入到對象檢測系統中以生成最終結果。像素級融合的主要優勢之一是其計算復雜度低且易于實現。
(2) 特征級融合:如圖6(b)所示,是相比于圖6(a)更高級的融合系統。將不同特征提取器獲取的特征輸送到一個下游系統中,以產生最終結果。這里的特征提取器可以是傳統特征工程提取的特征或者基于CNN模型學習的特征。
在本文中我們采用第二種基于特征融合的方式,這里將用到數據集標簽中的3個維度的特征:位置、年齡、性別。
提取數據集中的除類別外的其他標簽信息作為元數據特征,融合NTS-Net特征和元數據特征。圖7展示在細粒度圖像分類的基礎上,融合元數據特征構建的分類網絡。

圖7 元數據特征融合網絡結構
本文研究是針對ISIC 2019數據集中的8種不同類型病癥的皮膚鏡圖像自動診斷類別,分別是:光化性角化病(Actinic keratosis)、基底細胞癌(Basal cell carcinoma)、良性角化病(Benign keratosis)、皮膚纖維瘤(Dermatofibroma)、黑色素瘤(Melanoma)、黑色素細胞痣/痣(Nevus)、鱗狀細胞癌(Squamous cell carcinoma)和血管病變(Vascular lesionC)。如表1所示。

表1 實驗數據集
本文實驗分為三組,基于ImageNet遷移學習模型(Exp 1)、NTS-Net細粒度分類模型(Exp 2)、基于Metadata特征融合模型(Exp 3)。
Exp 1為基于ImageNet預訓練網絡模型遷移學習皮膚癌圖像分類。包括基于VGG[Exp 1-1]、ResNet[Exp 1-2]、InceptionV3[Exp 1-3]。對預訓練模型的結構調整,首先去掉預訓練模型的原始分類器(通常為最后一個FC層和所有輸出層)。然后選擇一個合適的分類器,本文構建新的全連接層接在卷積層后,并在其后面輸出Softmax分類預測值,實驗結果如圖8所示。

圖8 基于遷移學習模型混淆矩陣和ROC曲線
Exp 2為NTS-Net細粒度模型應用于皮膚癌圖像分類實驗。模型optimizer使用SGD,initial learning rate設為0.001,weight_decay設為1E-4;momentum設為0.9;區域建議數量M設置為6,使用的前K個信息區域K個數設為4;batch-size為16。
實驗結果如圖9和表2所示。

表2 NTS模型和ResNet模型實驗結果對比

圖9 NTS-Net模型混淆矩陣和ROC曲線
Exp 3為NTS-Net細粒度模型融合metadata特征分類實驗。表3展示三組實驗模型評價指標。

表3 NTS模型和元數據特征融合模型實驗結果對比
以卷積神經網絡為代表的深度學習方法在醫療圖像分類識別領域有著廣闊的前景,以遷移學習為基礎針對特定類別圖像的分類任務需要進一步探究。本文所提出的將圖像細粒度分類方法應用于醫療圖像分類任務中取得了較好的結果,但是仍有不足的地方,后續提升分類精度的方式將關注于細粒度圖像特征的提取和分類。