陳園瓊 ,鄒北驥 ,張美華 ,廖望旻 ,黃嘉兒 ,朱承璋
(1.中南大學計算機學院,湖南長沙410083;2.吉首大學軟件學院,湖南張家界427000;3.“移動醫療”教育部-中國移動聯合實驗室,湖南長沙410083;4.機器視覺與智慧醫療工程技術中心,湖南長沙410083;5.中南大學文學與新聞傳播學院,湖南長沙410083)
醫學影像在臨床應用、生命科學研究等方面具有重要作用。不同形態的醫學成像技術通過采樣或重建產生離散型圖像,將數值映射到空域,形成表達解剖區域內部結構或功能的醫學圖像。從X射線、超聲到計算機斷層掃描(computed tomography,CT)、磁 共 振 成 像(magnetic resonance imaging,MRI)、正電子發射型計算機斷層成像(positron emission computed tomography,PECT),成像技術的每次創新都是對醫療對象觀察手段的豐富和觀察能力的提高,在改進醫療手段、提高醫療水平等方面發揮了至關重要的作用。計算機科學的發展和進步極大地提高了醫學影像的解讀能力,深度學習[1]是機器學習的重要研究方向之一。近年來,深度學習在計算機視覺領域取得了令人矚目的成就,將深度學習應用于醫學影像的病灶目標分割、定位、檢測、圖像配準和融合等亦取得了顯著進展,已實現對病灶的快速診斷,診斷時間大大縮短。
基于深度學習的醫療診斷雖然已取得巨大進展[2],但在臨床實踐中尚面臨一些亟待解決的難題。
(1)數據驅動的深度學習算法,其泛化能力經常受質疑與挑戰。樣本數據不足、訓練樣本分布與真實樣本分布不一致,均會導致算法性能急劇下降。不同于有強大數據集的自然圖像處理,在極少醫學樣本場景下訓練得到的模型能否用于高精度敏感的醫學影像分析是其中被質疑的點之一[3]。據《華爾街日報》于2019年1月26日的報道,谷歌用于診斷糖尿病視網膜病變的深度學習算法,在印度的實驗室與醫院遭遇了挑戰,其原因是印度醫院的成像設備較差,谷歌開發的算法無法有效識別低質量影像。
(2)對抗樣本引發人們對深度學習穩健性的深層次擔憂。對抗樣本是指受輕微擾動的樣本,其可導致模型以高置信度輸出錯誤結果。這一“荒謬”現象的出現迫使人們探尋深度學習方法,以得到穩健的輸出結果。

圖1 青光眼篩查時醫生診斷與系統診斷的差別Fig.1 The difference between doctor diagnosis and system diagnosis
(3)深度學習可自動提取抽象特征,其預測過程是端到端的,只有直接結果,無法提供診斷依據和病因病理,不能被完全信任和接受。比如對青光眼的篩查(見圖1),醫生可通過眼壓檢測、視野檢測和人工檢查視盤(optic disc)等檢測方式,結合患者的臨床癥狀和病理報告診斷病癥,給出病因病理;然而深度學習通過神經網絡學習大量有標記的樣本數據,提取特征,得到的模型在臨床實踐中難以解釋其輸入與輸出間的關聯性或因果關系,缺乏過程的可解釋性,難以支持醫療診斷或醫學研究中的因果推理[4]。
可解釋性已成為深度學習在醫學影像處理領域發展與應用的難題。結合深度學習在醫學影像處理中的發展趨勢,首先綜述了深度學習在醫學領域的應用現狀及面臨的問題,然后探討了深度學習可解釋性的內涵,并重點關注深度學習可解釋性研究方法的進展和具有特殊性的醫學影像處理的深度學習可解釋性研究進展,最后探討了醫學影像處理深度學習可解釋性研究的發展趨勢。
深度學習的很多模型,如卷積神經網絡(convolutional neural networks,CNN)、深度信念網絡(deep belief nets,DBN)等已被廣泛應用于醫學影像處理。研究者通過深度學習方法自動提取腦部圖像中阿爾茲海默癥(Alzheimer disease,AD)的特征信息,捕捉由AD引起的腦部變化[5],結合其他多模態信息診斷輕度認知障礙(AD/MCI)[6]。通過深度學習自動檢測肺癌細胞[7],將影像塊和預訓練的CNN相結合,完成乳腺癌組織分類[8]。通過CNN將低級影像數據轉化為與非影像模態數據相融合的特征向量[9],共同學習神經網絡所有模態之間的非線性相關性,完成對子宮頸發育不良的診斷預測。通過CNN自動提取微動脈瘤特征[10],進行視網膜血管分割[11]、視網膜病變分類[12]等。這些輔助診斷系統均通過深度學習完成對疾病的快速篩查和診斷,大大縮短了診斷時間,在降低診斷成本的同時,準確率亦有較大提升。
基于深度學習的醫學影像處理技術取得了巨大進展,與此同時,引發人們對深度學習可解釋性的思考與研究。筆者調研了2016—2020年發表在機器學習與人工智能(artifical intelligence,AI)相關會議(CVPR,ICML,NIPS,AAAI,ICCV,IJCAI)以及國際頂級醫學影像學術會議MICCAI上的關于深度學習可解釋性以及醫學影像處理的深度學習可解釋性的研究論文,對題目中包含關鍵詞explain,interpretable,understanding的相關論文做了統計分析,結果如表1所示。

表1 2016—2020年會議論文統計Table 1 Statistics of conference papers from 2016 to 2020單位:篇
經篩選,共得到相關研究論文212篇。總體來說,深度學習可解釋性正逐漸被認為是亟須解決的重要問題。2015年之前,幾乎無深度學習可解釋性相關研究論文,2016年,相關研究論文僅11篇,2018年,增至78篇,2019年,深度學習可解釋性依舊是研究熱點。在MICCAI上,醫學影像處理的深度學習可解釋性也逐漸受關注。2018年,MICCAI錄用了3篇與深度學習可解釋性相關的論文,2019年,MICCAI專門設置工作組,討論醫學影像處理的深度學習可解釋性。
目前,對可解釋性并沒有統一的定義,廣義的可解釋性是指在需要了解或解決一件事情時,可獲得足夠多可被理解的所需信息。BIRAN等[13]和MILLER[14]將可解釋性定義為人類理解決策原因的程度。模型的可解釋性越高,所做的決定或預測越容易被人理解。在機器學習的國際頂級會議上,有學者從方法和目標等角度給出了對深度學習可解釋性的多種理解。如在2017年第三十一屆神經信息處理系統進展大會(NIPS)上,時間檢驗獎獲得者RAHIMI提出,將深度學習應用于某些領域會引發對透明度和信任度的質疑。BIRAN等[13]認為,AI的關鍵是解釋決策、推薦、預測或行為的能力和過程,如果系統的操作被理解,那么系統是可解釋的。另外,可解釋性是以人類為核心的解釋過程,最終目的是使人類理解,所以,人腦神經元的連接方式、運作模式以及信息處理方式都可能影響對深度學習可解釋性的研究。
傳統的基于統計分析的機器學習模型,其可解釋性較好,如傳統的線性模型可以從權重的角度理解神經網絡中的參數含義及其重要程度和波動范圍;用戶友好的決策樹模型在做每個決策時都會通過決策序列展示其決策依據;基于信息理論的變量篩選標準有助于理解模型決策過程中哪些變量的作用更顯著;基于規則的專家系統依賴特定領域的分類知識庫和單獨的策略庫,根據上下文邏輯關系進行解釋[13]。然而,深度學習模型的結構越來越復雜,對于由多個非線性函數疊加的多層神經網絡模型,很難解釋其決策依據,難以直接理解神經網絡的“腦回路”。因此,通常將AI可解釋性的目標[15]分為以模型為導向和以用戶為導向兩種。

圖2 人工智能可解釋性的兩大目標[15]Fig.2 Explain two goals of AI
研究者在對機器學習模型進行調試時,將其看作黑匣子。只看到輸入和輸出,很難理解黑匣子內部的工作原理,造成難以預測和調試機器學習模型的輸出結果等,最終影響對機器學習模型的深入理解及結果的進一步提升。模型的可解釋性重點關注透明度和信任度。
在很多領域,當將結果呈現給普通用戶時,需要進行解釋。普通推薦系統[16]通過收集各用戶的信息偏好,利用不同的信息源為其提供項目預測和推薦,通常只給出簡單又直觀的理由,無法令用戶信任。為使用戶更好地理解預測結果和推薦結果,一些可解釋性推薦系統[14,17]將用戶納入可解釋范疇,讓用戶了解做相應決策的原因,從而極大提高推薦結果的有效性,增強決策的說服力。在計算機輔助診斷系統中,復雜的深度學習模型解釋決策的能力雖令人滿意[18],但其對結果的可讀性、有效性的解釋質量尚不高。
人類認識世界、探索事物的客觀規律主要基于因果推斷的思維模式?;谛颖镜玫降囊幝桑?9]可較好地被推廣至復雜環境。實踐證明,科學探索中基于因果推斷所發現的客觀規律具有極強的泛化能力。
基于上述理解,筆者嘗試將特定領域的深度學習可解釋性概括為:具備特定領域知識的人在認知負擔可承受的范圍內,掌握深度學習模型輸入與輸出之間因果關系的程度,包括主觀、認知和客觀3個因素,其內涵如表2所示。

表2 可解釋性內涵Table 2 Three factors involved in interpretability
深度學習模型由輸入、中間隱層、輸出3部分組成,其中,中間隱層的每個神經元均由上一層的線性組合和一個非線性函數組成,雖然已知參數的值和訓練過程,但因中間隱層高度非線性,無法理解深度學習模型的具體含義和行為。深度學習的目的是從樣本數據中發現知識和規律并解決實際問題,而神經網絡神經元的分層組合形式,則從物質組成的視角理解神經網絡的運作方式,在此過程中,如果能提供可被理解的數據信息或模型信息,則有助于找到理解和解決問題的方法。以上均可歸納為可解釋性研究方法,深度學習可解釋性研究方法的主流方向見表3。

表3 深度學習可解釋性研究方法的主流方向Table 3 The mainstream direction of interpretability in deep learning
可視化是將大型數據集中的數據以圖形、圖像、動畫等易于理解的方式展示,是探索深度學習可解釋認知因素最直觀的方法之一。通過將抽象數據映射為圖像,建立模型的可視表達,降低研究人員對深度學習模型的認知難度,理解深度學習的內部表達,從而降低模型的復雜度,提高透明度?,F有研究主要集中于輸入數據可視化和模型內部可視化兩方面。
3.1.1 輸入數據可視化
深度學習可從數據中發現知識和規律,在建模之前對輸入的樣本數據進行可視化分析,可快速、全面了解數據的分布特征,便于理解問題。MIKOLAJ等[20]用最大均值差異(maximum mean discrepancy,MMD)方法,分別找到具有代表性和不具代表性的數據樣本,更好地理解數據分布。
3.1.2 模型內部可視化
深度學習的黑箱性主要在于中間隱層的高度非線性。現有研究通過可視化內部神經元[21-23]、可視化濾波器[24,25]、可視化中間隱層[21,26]提升黑匣子的透明度。ZEILER等[21]通過激活最大化和采樣2種方法,對深度神經網絡內部神經元進行可視化,盡可能找到被激活的過濾器的最大化輸入圖像,該圖像可有效顯示特定像素區域,且是可解釋的。同時,通過反池化-反激活-反卷積的逆過程對卷積網絡內部進行可視化,發現低層次對應邊角或色彩特征、紋理特征,高層次對應狗臉、車輪等局部部位,對物體整體識別能力較強。MAHENDRA等[22]通過特征反演學習圖像,利用自然圖像先驗的視覺清晰度重建網絡的中間激活。清華大學朱軍團隊提出的可視化系統 CNNVis[23],通過提取神經元的特征,將各神經元連接,對神經元集群進行可視化。谷歌大腦的特征可視化工具Lucid[25]能展示深度學習網絡內各個神經元及其分工,幫助了解網絡內神經元如何用作物體(如按鈕、衣服和建筑)檢測器、如何在網絡層之間堆積以及如何變復雜。這些可視化方法不僅能展示檢測結果,還可供直觀地觀察神經網絡中各神經元的輸出貢獻大小。
可視化的直觀表達在一定程度上降低了深度學習模型的復雜度,提升了模型的透明度,但無法與更高級的語義相關聯,對人類的認知能力要求很高,仍存在一定的解釋難度。
語義是指數據的解釋和邏輯表示。語義化是指通過量化或學習等方法解釋深度學習模型中隱藏層神經元具有的語義。
3.2.1 神經元或層與語義相關性的量化
為理解網絡所學到的語義,通過分析神經網絡內部神經元或中間隱藏層與人類語義的相關性,并對其進行量化,BAU等[26]提出了網絡切割(network dissection,ND)方法,首先,通過收集來自不同數據源的分層語義標注數據,建立包含大量視覺語義的數據集;然后,利用交并比(intersection over union,IoU)對隱層單元與語義的相關性進行量化,最終從中間隱藏層學習關于顏色、材質、材料、部分、物體、場景等語義。FONG等[27]通過研究語義與相應過濾器的向量嵌入關系,探討多個過濾器組合表示的語義。KIM等[28]通過概念激活向量最大化識別過濾器所編碼的語義。OLAH等[29]將特征可視化與語義詞典相結合,研究了決策網絡以及神經網絡內部對輸出的影響機制。
3.2.2 編碼學習語義
神經網絡內部神經元通過學習語義,在語義層面對神經網絡進行診斷和修改,使其與人類的知識框架相匹配,具有清晰的符號化內部知識表達。SABOUR等[30]創建了膠囊網絡,其內部神經元活動表示圖像中出現的特定實體的各種屬性,并在MNIST數據集上對其進行了訓練,證明膠囊網絡能編碼一些特定的語義,如筆畫的尺度、厚度、傾斜角度、寬度和平移等。信息最大化生成對抗網(information maximizing generative adversarial net,InfoGAN)[31],將網絡的生成器輸入變量分為不可壓縮噪聲和潛在語義代碼。MNIST數據集[32]成功編碼了數字類型、旋轉和寬度語義信息,CelebA數據集[33]編碼了面部數據集中的情感部分,SVHN數據集[34]編碼了照明條件和平板環境,3D face數據集[35]編碼了方位、眼鏡、發型和情緒,3D chair數據集[36]編碼了寬度和三維旋轉信息。上述數據集均通過編碼內部神經元學習語義,較容易理解模型內部的表達。
深度學習模型實現端到端學習,要求解釋深度學習模型從低級語義到高級語義的生成過程,這不僅有利于理解神經網絡的具體結構,而且可輔助深度學習將調參真正變得可控、可解釋。
邏輯關系量化是研究事物之間關系的一種判斷方法。事物內部或各事物間的關系有相關、并列、主次、遞進以及因果等,關系的強弱可說明事物內部或各事物間的邏輯推理能力。比如輸入與輸出之間的因果關系具有極強的推理能力,比普通的相關性更能展現可解釋性。目前從邏輯關系出發的研究主要有端-端邏輯關系、中-端邏輯關系和模型內部神經元的相關性3種。
3.3.1 端-端邏輯關系
為找到圖像中對深度學習結果影響最大的像素,通過研究輸入層變化對輸出結果的影響,判斷輸入與輸出之間的邏輯關系;利用反向傳播[21],結合梯度、網絡權值或特定層上的激活[37-38]跟蹤信息,由網絡輸出跟蹤其輸入或中間隱層;SELVARAJU等[38]通過優化過程過濾梯度,進一步提取用于特定預測證據的細粒度區域。這些方法的核心是通過詳細搜索或優化找到最具代表性的擾動。另外,通過輸入擾動網絡、有規則或隨機遮擋[21,43]部分樣本,分析 遮 擋 對 各 方 法 輸 出 的 影 響[21,39-41]。 例 如 FONG等[40]以元學習作為解釋因子建立擾動,以優化空間擾動掩碼,通過擾動試驗,找到對輸出結果影響較大的特征,從而逐步建立線性可分模型[41]。由于不可能看到所有擾動,因此需找到具有代表性的擾動,KOH等[42]利用統計學影響函數,分析了增加訓練樣本權重或對訓練樣本施加輕微擾動對特定測試樣本損失函數的影響,以更好地理解深度學習模型的預測效果。
以上方法均是通過探究輸入與輸出的映射關系解釋結果的。這種衡量變量/樣本重要性的敏感性方法將可解釋性歸于輸入特征或樣本,更容易被理解,但也易導致相同預測結果的不同可解釋理由,且穩定性較差。這些方法均基于模型不可知,未考慮模型的內部結構,也未打開黑匣子,忽視了對中間隱層結構的研究,無法了解模型內部的工作機理,其邏輯推理基于兩端,對內部的可解釋能力不足。
3.3.2 中-端邏輯關系
研究深度學習模型的中間隱層與輸出之間的邏輯關系是進一步挖掘模型內部工作機理的必要過程。一些研究用更簡單、可解釋的模型通過局部逼近深度學習的中間隱層,與輸出建立邏輯關系。如RIBEJRU等[43]提出的基于梯度方法及局部可解釋模型不可知論解釋(local interpretable modelagnostic explanations,LIME)方法,通過線性模型在預測結果附近建立局部中-端邏輯關系。WU等[44]利用學習網絡,通過決策樹的正則化逼近進行深度神經網絡學習。ZHANG等[45]提出端-端學習的可解釋CNN,用過濾器添加先驗約束,實現訓練后自動回歸某特定對象(如鳥的頭、喙、腿),在卷積層頂層中通過分離式表征進行目標分類,并將神經網絡的表征提煉為決策樹結構[46],由粗到精對隱藏在CNN全連接層中的各決策模式編碼,用決策樹逼近最終決策結果。HOU等[47]利用具有解釋序列數據的有限狀態機(finite-state machine,FSA)學習循環神經網絡(recurrent neural network,RNN),將學習結果作為可解釋結構。WU等[48]用與或圖(ANDOR graph,AOG)解析算子代替在CNN特征區域(regions with CNN features,RCNN)中常用的池化算子。在檢測過程中,用從AOG中實時得到的最佳解析樹解釋包圍框(bounding box)。另外,有研究在強化學習過程中,通過學習因果模型[49]結構,對感興趣的變量的因果關系進行編碼,并用基于因果模型的反事實分析方法解釋強化學習。
通過以上可解釋的方法逼近各深度學習模型的內部機理,建立局部與輸出的邏輯關系,客觀解釋性較強。
3.3.3 神經元之間的關系
研究內部神經元之間的關系對理解深度學習模型的內部機理具有重要意義。通過識別關鍵數據路徑[50]和利用分段線性函數[51]分析模型相應層的功能,檢測訓練過程中神經元的激活情況,尋找不同神經元之間的關系。ZHANG等[52-53]將CNN轉化為圖模型,通過自動學習具有上萬個節點的解釋圖,解釋CNN的層次與知識結構。解釋圖中的每個節點表示CNN中某卷積層對象的部分模式,用知識圖譜解釋決策。這類方法通過探求復雜網絡內部神經元的相互關系,了解深度學習內部的訓練過程和決策過程,探究未知神經網絡組件之間的關系,但此關系僅是潛在因果關系的一部分,神經網絡的拓撲結構依然復雜。
深度學習模型結構復雜,參數龐大,認知負擔重,可視化方法以及語義量化方法并不能有效解釋模型所做決策的因果推理,因此,用因果推理關系的方法分析客觀因素,有助于了解深度學習模型的訓練和決策過程,實現模型內部的透明化。
交互式指通過領域專家與深度學習過程的交互,理解深度學習內部的決策過程。通過可視化工具[26,43]進行人機交互。人對物體、環境的交互邏輯比對顏色、紋理等低級語義的交互更敏感。將深度學習系統模塊化和定制化,先單獨訓練各類高級語義的深度學習模塊[54-55],再根據認知邏輯將這些模塊進行組合,最終完成特定任務。BAU等[55]提出深度干預神經網絡內部的訓練和驗證,以GAN為基礎,在自然圖像中對神經網絡的內部神經元進行模塊化處理,在模型診斷時,結合可視化工具直接激活深度網絡或先激活深度網絡中的神經元或神經元組,通過交互式的可解釋性實驗探索,一定程度上實現了深度學習模型內部的模塊化和定制化。
在醫學領域,病癥的檢查診斷大多需參考醫學影像,而醫學影像高度依賴成像設備和成像環境。相對于自然圖像,醫學影像更復雜,具體表現在:(1)影像種類多,差異大,難以融合;(2)影像大多是非可見光成像(如X射線),通常顯示某種特殊信號的強度值,信噪比較低;(3)病灶等目標與非目標區域之間的顏色、灰度、紋理等外觀差異較??;(4)影像像素大,目標自身缺乏固定的大小、形狀、灰度和紋理等外觀特征,且因個體、成像原理、成像環境等不同差異較大;(5)因受成像原理和成像環境的影響,影像中含多種偽影。
同時,醫學數據以多種模態呈現,每種模態各有所長、相互關聯,如不同疾病之間,不同病癥之間,一種疾病與多種病癥之間,多種疾病與同一病癥之間等,極大地限制了對病癥的預測和診斷。
將深度學習引入醫學領域,極大地提高了對醫學影像的特征提取能力、篩查水平和診斷效率。但受數據驅動的深度學習輔助疾病診斷與篩查系統只能輸出單一的診斷結果或篩查結果,無法給出決策依據,難以被采納,且對算法人員不友好。盡管深度學習可解釋性研究已取得大量令人矚目的成果,但大多聚焦于特定模型,其可解釋性也側重于算法設計人員而非醫生、醫學研究者和患者,極大地限制了醫療診斷系統的臨床應用。
面向醫學影像處理的深度學習可解釋性研究能夠為醫學知識和疾病輔助診斷與大規模篩查系統的深度融合提供有效且可交互的途徑,有力推動醫療的智能化。不同于常用的深度學習可解釋性研究方法,醫學影像處理的深度學習可解釋性研究方法不僅受數據的影響,還與醫生的學識有關,因此,兩者在研究方法上既相似又有區別,主要區別有:
(1)在可視化方法上,深度學習的可解釋性重點關注樣本數據規律的可視化以及模型內部的可視化。而醫學影像重點關注的是病灶區域,要求讀片直觀。
(2)在語義化方法上,深度學習的可解釋性重點關注模型內部神經元或中間隱藏層所表征的語義信息,而醫學影像大多需要用自然語言模擬醫生的決策過程,在輸出診斷結果的同時需生成可理解的決策過程和決策結果,如初級診斷報告等。
(3)在邏輯關系量化上,深度學習的可解釋性重點關注輸入樣本數據與輸出結果之間、模型內部神經元之間、模型內部神經元與輸出結果之間的邏輯關系,而醫學影像更多地關注用醫學知識解釋診斷結果。
最近,對醫學影像處理的深度學習可解釋性研究趨勢主要有:
病灶區域可視化主要指通過熱力圖[56]、注意力機制[57-59]等方法,結合其他手段[60-61],找出病灶區域并提供可視化證據,探究為決策提供依據的醫學影像像素。如PASCHALI等[56]利用模型激活細粒度的Logit熱力圖解釋醫學影像決策過程。LEE等[57]根據頭部CT掃描數據檢測急性顱內出血,提出了一個可解釋的深度學習框架,通過模擬放射科工作流程并進行迭代,生成注意力圖,利用類激活映射[37]從訓練數據中檢索預測基礎。LIAO 等[58]基于注意力機制的弱監督診斷青光眼(見圖3),為青光眼的自動檢測提供了可視化解釋依據(見圖4),在自動檢測青光眼過程中,系統給出了3種類型的輸出:預測結果、注意力圖和預測基礎,增強了結果的可解釋性。GARCIA-PERAZA-HERRERA 等[59]在檢測早期鱗片狀細胞腫瘤時,以嵌入式激活圖表示側重結果的可解釋性并以其作為約束,通過可視化方法,提供較詳細的注意力圖。在基底細胞癌變檢測過程中,設計了一個解釋層作為數字染色方法,將在診斷決策中起重要作用的圖像區域聚集在一起[60]。BIFFI等[61]在原始圖像上通過可視化方法量化學習病理的特異性,用特定任務的可解釋特征區分臨床條件,使決策過程透明化。

圖3 青光眼診斷可視化模型[58]Fig.3 Diagnosable visual models of glaucoma
通過可視化方法在真實圖像中定位或量化區域,提供可視化證據,提升對深度學習模型內部表征能力的感知,理解模型的決策依據。

圖4 青光眼可解釋性的定性與定量表達[58]Fig.4 Qualitative and quantitative expression of glaucoma interpretability
目前,將醫學知識引入模型,并與神經元相關聯的研究尚不多見,大多用自然語言處理方法將病歷信息[62-67]融入圖像處理過程,通過多模態醫學信息,將醫學影像直接映射為診斷報告,給出可理解的診斷依據,見圖5。

圖5 醫學影像與診斷報告生成可解釋的診斷報告Fig.5 Medical imaging and diagnostic reports generate interpretable diagnostic reports
ZHANG等[62]提出多模態醫學影像診斷模型,將影像模型和語言模型統一在深度學習框架中,在醫學影像和診斷報告2個模態間建立映射關系,這樣,深度學習模型不僅能根據影像給出診斷結果,還能模擬醫生診斷并編寫診斷報告,提供可理解的診斷依據?;谙嗤椒?,WANG等[63]注意到放射科醫生在閱片時,會觀察不同疾病的癥狀,例如肝轉移會蔓延至局部淋巴結或身體其他部位,所以在診斷報告中包含與其他疾病的關聯關系,基于此,首先從文本中獲取先驗領域知識,然后與這些癥狀進行關聯,開發了多目標CAD框架,用于檢測多種疾病,不僅改進了深度學習模型的性能,而且提供了更精準的診斷報告。在預測高惡性腫瘤時,SHEN等[64]通過量化診斷特征解釋了以專家知識驅動的方式形成的低級放射科醫師模型的語義特征。KIM等[65]利用GAN(由可解釋的診斷網絡和合成病變生成網絡組成)學習腫瘤與標準化描述之間的關系,完成可解釋的乳腺腫塊計算機輔助診斷。ZHANG等[66]提出的MDNet模型集合多種網絡,設計了一種基于語義和視覺可解釋的醫學影像診斷網絡,生成影像的表達,用長短期記憶網絡(LSTM)提取語義信息,并生成更加細致的逐字影像關注區,但模型復雜度較高。FAUW等[67]進一步改進了該模型,在2個不同的神經網絡間插入可解釋的表征,并將二者結合起來,先利用分割網絡從頻域光相干斷層掃描(OCT)影像中找出病灶特征,輸出分割特征圖,然后,將分割特征圖作為輸入,利用帶有確診和最佳轉診的組織圖訓練分類網絡,進行分類,輸出診斷概率和轉診建議,實驗結果與專家臨床診斷結果相當,是醫學影像可解釋性研究取得的一個重要里程碑成果。
在對疾病進行輔助診斷和篩查時,將不同的深度學習模型與醫學知識深度融合,不僅能輸出診斷結果,還能提供診斷決策依據,供驗證和對比。若診斷決策與深度學習不一致或與所依據的醫學知識不一致,則可通過進一步分析做出更好的決策;若醫生的決策更好,可對深度學習模型進行調整,若深度學習模型的決策更好,則可豐富醫生的知識,使其做出更好的決策。
深度學習可解釋性的邏輯關系在于針對模型設計人員進行數據的因果推理,但是基于哪些因素得到的輔助診斷結果無人知曉。
NIU等[68]借鑒傳染病學原理中的科赫法則探索醫學影像卷積神經網絡的可解釋性,科赫法則(Koch’s postulates)(見圖 6)通過將某種病變與特定的病原體建立聯系,鑒定傳染病,是傳染病病原學鑒定的金標準。

圖6 科赫法則[68]Fig.6 Koch"s postulates
另外,還有一些學者將其他領域的方法引入醫學影像的可解釋性研究。如LI等[69]在功能性核磁共振成像(fMRI)識別自閉癥譜系障礙的檢測中,結合影像結構和博弈論中的shapely值解釋了如何通過共享變量引擎(SVE)查看單個特征;ALAA等[70]利用深概率模型獲取復雜的疾病進展,同時利用注意力機制提高臨床可解釋性。GOHORBANI等[71]提出用基于語義的神經網絡內部狀態進行解釋,用方向導數量化模型,預測由激活向量學習的底層高級語義。通過眼底影像預測糖尿病視網膜病變(DR)級別,測試微動脈瘤(MA)、全視網膜光凝術(PRP)等治療方法在不同DR級別上的重要性。
以上方法大多通過引入其他領域判斷因果關系的方式建立模型的可解釋基礎,具有一定的可解釋性,但其與醫學知識的融合尚不夠。基于醫學知識的因果判斷方法尚需進一步探討。
現階段,深度學習模型的性能得到極大提升,但模型的復雜性幾乎同步提高,可解釋性成為AI發展的一大難題,雖然深度學習的可解釋性研究取得了一定進展,但仍待進一步探索,特別是對醫學影像深度學習的可解釋性研究還處于初級階段。因此,基于對當前研究實踐的分析和理解,筆者認為醫學影像深度學習的可解釋性研究未來可從以下幾個方面展開。
研究深度學習的透明度,目前可視化輸入數據、可視化中間隱層、可視化高卷積層的特征圖等方法在一定程度上均增加了深度學習模型的透明度。通過改進深度學習模型內部的可視化,并將可視化特征圖與醫學知識融合,對模型所做決策的依據進行深入挖掘,以提高醫學影像處理的深度學習可解釋性,這對降低模型的認知難度,提高認知能力具有非常重要的意義。
現有的大多數語義可解釋方法都將圖像識別與自然語言處理相結合,生成可被理解的診斷報告。自然語言處理用的是深度學習方法,相當于用黑匣子解釋黑匣子,雖然可以得到語義信息,但模型不可知。目前在遷移學習、語義分割等方向上的發展極大促進了深度學習的可解釋研究,同時,將模型內部的語義化方法與多模態的醫學數據相結合,可能是語義化醫學影像的另一發展途徑。
在邏輯推理基礎上,知識圖譜作為可讀性高的外部知識載體,為提高算法的可解釋性提供了極大可能。用影像神經網絡構建醫學診斷知識圖譜,與深度卷積神經網絡的影像特征提取能力相結合,提升模型的領域知識匹配能力和知識邏輯推理能力,有可能將AI醫學診斷從直覺學習向邏輯學習推進。
如何在領域專家和模型設計人員與深度學習模型之間建立交互,對提升可解釋性至關重要。深度干預神經網絡內部訓練階段和驗證階段的設計,通過模塊化神經網絡內部神經元,利用可視化工具,通過交互探查深度學習的各階段,找尋交互式操作對模型診斷的影響,實現深度學習模型內部模塊化和定制化。通過模塊化進行深度特征提取,如果高級語義定義可順利完成,特別是由醫生完成,則將在貼近認知層次基礎上豐富因果邏輯的客觀性,從而極大提高深度學習的可解釋性。
深度學習的超強性能促進AI應用的巨大發展,AI模型可幫助醫生縮短閱片時間,加快診斷,然而,算法結論的可解釋性變得越來越重要,對算法決策過程的了解,有助于建立人機間最大程度的理解和信任。近年來,可解釋性問題廣受政府、工業界和學術界的關注。美國國防部高級研究計劃署(DARPA)對可解釋 AI項目(explainable AI,XAI)給予了資助,我國國務院在《新一代人工智能規劃》中提出,實現具備高可解釋性、強泛化的人工智能??梢灶A料,當AI具有可解釋性時,其高效的診斷速度和精準的診斷水平,可使醫療從業人員從重復繁雜的診療任務中解脫出來,智能診斷系統在為病人提供快速診斷的同時,提供可解釋的診斷依據。
基于可解釋性的定義,介紹和分析了醫學影像深度學習可解釋性的研究現狀和進展,重點討論了現有的深度學習可解釋性研究方法和醫學影像處理的深度學習可解釋性研究方法,并簡單討論了醫學影像處理深度學習可解釋性研究的發展方向,希望對相關領域研究人員提供一定幫助。