多模態深度學習及其在眼科人工智能的應用展望

2021-10-12 00:39:40李錫榮

協和醫學雜志 2021年5期

李錫榮

中國人民大學 1數據工程與知識工程教育部重點實驗室 2信息學院人工智能與媒體計算實驗室，北京 100872 3北京致遠慧圖科技有限公司人工智能實驗室，北京 100872

以深度學習為代表的新一代人工智能(artificial intelligence, AI)技術對各行各業的影響是前所未有的。例如美國科學家利用AI輔助新型冠狀病毒疫苗研發[1]，訓練深度卷積網絡根據咳嗽聲音篩查新型冠狀病毒肺炎患者[2]；日本農民利用深度學習模型根據黃瓜品相對其進行自動分類[3]，等等。這種影響的形成，與深度學習自身的技術特點密不可分。

深度學習是一種以深層人工神經網絡為架構，以原始數據為輸入，以目標任務為輸出，具備端到端(end-to-end)學習能力的機器學習算法[4- 5]。相比傳統機器學習算法，深度學習具有強學習能力和高易用性的特殊優勢。以圖像分類任務為例，傳統方法分為特征提取(feature extraction)和分類器訓練(classifier training)兩個階段。前者負責從原始圖像樣本中提取與當前指定任務相關的向量化的視覺特征，而后者基于視覺特征和樣本所對應的類別標簽，尋找最優分類決策邊界。這兩個階段之間并不存在反饋機制。分類器訓練只能在既定特征空間進行，即使不同類別的樣本在該特征空間缺乏區分性。與之相反，深度學習將特征提取和分類器訓練納入一個神經網絡框架中，輸入數據經過多層神經網絡，逐次提取表達能力更強的視覺特征，最后經任務層給出分類結果。任務層獲得的錯分信息經后向傳播(back propagation)反饋給特征層，使其不斷調整、優化特征提取過程，從而實現特征提取和分類器訓練的聯合優化。值得進一步指出的是，由于傳統方法天然缺乏聯合優化能力，因此特征提取[一些文獻稱之為特征工程(feature engineering)[6]]非常關鍵，往往需要密集的領域知識和大量的經驗式設計。相比之下，深度學習的特征提取過程更為精簡，相同或相似的神經網絡架構可用于解決傳統意義上完全不同的兩個任務(如圖像分類和文本分類)。

鑒于醫學影像在健康篩查、疾病診斷、精準治療、預后評估等諸多任務中的關鍵作用，用于醫學影像結構分析與語義理解的深度學習正成為重要的交叉學科研究方向。由于眼睛是全身唯一活體能夠直接觀察到血管和神經的部位，關于該部位的多種類型醫學影像如眼底彩照 (color fundus photography, CFP)、超廣角眼底圖像 (ultra-wide-field fundus images, UWF)、光學相干斷層成像(optical coherence tomography, OCT)、裂隙燈照片等(圖1)具有無創、非侵入、經濟等優點，因此發展眼科AI對于在不同年齡段開展大規模眼健康篩查具有重要意義。

圖1 不同類型眼科影像示例

以CFP為例，眼科AI涉及結構分析(左右眼識別、黃斑定位、視杯視盤分割、血管提取等)和語義理解(圖像質量評估、眼底病灶分割、眼底疾病識別等)兩大類任務。近年來關于特定子任務的代表性研究案例逐年增多(表1)。例如，谷歌2016年發表于JAMA的研究[7]，首次證實了利用深度卷積網絡從單張后極部CFP中識別糖尿病視網膜病變(diabetic retinopathy, DR)的可行性。谷歌下屬的DeepMind公司于2018年在Cell發文表明，以OCT圖像序列作為輸入的AI模型在多個病種的轉診判斷上，有望達到臨床專家的水平[9]。北京協和醫院的新近研究證實，基于單張CFP，AI模型在10余種常見眼底疾病的識別精度上已可媲美住院醫師[19]。

表1 單模態深度學習在眼科領域的應用舉例

上述眼科AI方向的工作均以單一類型影像(如CFP、OCT、UWF等)作為AI模型的輸入。而在臨床實踐中，醫生為了實現更精準的診斷，往往需同時參考不同類型、不同模態的影像樣本進行綜合分析、交叉驗證和判斷。以CFP和OCT為例，考量二者成像部位的物理位置關系可以發現，CFP反映的是視網膜平面，而OCT圖像反映的是視網膜切面，兩種不同模態的影像包含的信息存在互補性。為充分利用不同模態影像之間的互補性，需要從單模態深度學習轉向多模態深度學習。

1 多模態深度學習的原理

關于模態(modality)一詞，既往文獻為了覆蓋盡可能多的研究領域，其定義要么語焉不詳，要么過于抽象[21- 22]。考慮到AI輔助診斷的背景，本文給出如下定義：模態是對由一種特定類型裝置采集的具有相同表達形式的數據的總稱。根據該定義，CFP是一種模態，而OCT是另外一種模態，因此圖1亦可視為不同模態的眼科影像。上述定義也區分了數據本身的多樣性(diversity)和模態在概念上的根本差異。因個體因素(如具體設備型號、拍攝者、被拍攝者、拍攝條件等)導致的影像上的差異，不能形成一個單獨的模態。同一模態的樣本因數據采集過程中的系統性偏差形成的風格各異的數據集合，稱為域 (domain)[23]。

相比單模態深度學習，多模態深度學習架構的一個重要特性是其數據層要具備同時接受不同模態輸入的能力。在其學習過程中，不但要充分提取和利用各個模態內部的有用信息，同時要挖掘各模態之間的互補性并進行有效的多模態信息融合，以實現較單模態網絡更優的性能。根據融合發生的位置，多模態深度學習包括數據層、特征層和任務層融合3種范式(圖2)。

圖2 多模態深度學習的3種范式(虛線方框)A.數據層融合；B.特征層融合；C.任務層融合

數據層融合將不同模態的樣本混在一起作為“單模態”輸入，強制神經網絡在訓練過程中提取與模態無關的特征[24](圖2A)。這種范式的優點是可以直接使用現有的單模態架構，缺點是對模態之間的空間關聯性要求較高，不適用于類似CFP和OCT這兩種空間上正交的模態。

特征層融合嘗試在各個模態的特征提取過程中融合不同模態的信息(圖2B)。淺層特征仍保留相當多的原始數據信息，而深層次的特征包含更多與任務相關的語義特征，因此一般選擇在深層特征上進行融合。常見的融合算法有簡單的特征向量拼接[25]和旨在獲取高階關聯信息的雙線性池化 (bilinear pooling)、張量融合 (tensor fusion)等[26]。

任務層融合是將基于各個模態分別給出的預測結果進行融合[27](圖2C),因此，在概念上可以看成是多個單模態網絡的集成。各個網絡既可以獨立并行訓練，也可以聯合訓練。對比3種范式，數據層融合實現最簡單，但適用范圍較窄；特征層融合的適用范圍廣、模型學習能力強，但對融合模塊的設計和訓練數據量也提出了更高要求；任務層融合則介于二者之間。在實踐中選取何種范式，需具體問題具體分析。目前，第2種范式是研究者采用的主流方案。

2 多模態深度學習在醫學領域的應用

多模態深度學習在醫學領域的最新應用主要集中于各類腫瘤/癌癥的輔助診斷和預后預測方面(表2)。例如，針對乳腺癌分類任務，Wang等[28]提出了一種多模態分類網絡。該網絡以普通超聲、彩色多普勒超聲、剪切波彈性成像、應變彈性成像4種不同模態的圖像同時作為輸入，并在特征層以特征拼接的形式實現多模態信息融合。

表2 多模態深度學習在醫學領域的應用舉例

針對腦腫瘤患者的總生存期預測任務，Zhou等[29]將總生存期分為短期(<10個月)、中期(10～15個月)、長期(>15個月)3類，從而將一個連續值的回歸問題簡化為三分類問題。研究者提出了一種多模態、多通道分類網絡，接受4種模態的MR影像作為輸入；為降低計算復雜度，引入了預處理模塊，將三維MR立體圖像投影得到不同方向的二維平面圖。與Wang等[28]的研究類似，該研究從不同模態圖像提取的特征以及腫瘤大小、患者年齡等輔助信息，也是通過特征拼接的形式實現了多模態信息的融合。

鑒于特征拼接的局限性，研究者們嘗試探索更復雜、表達能力更強的多模態融合策略。Chen等[26]以組織病理學圖像和基因組特征為多模態輸入，構建了針對癌癥診斷與預后預測任務的模型。該模型采用張量融合(tensor fusion)提取組織病理學圖像特征和基因組特征之間的關聯關系。Jiang等[30]嘗試利用靜脈期CT和動脈期CT圖像的互補性以實現更準確的胰腺分割。神經網絡先分別從靜脈期CT和動脈期CT圖像中提取不同層次的深度特征，之后進行多層次、選擇性特征融合。

上述特征融合策略，無論是簡單的特征拼接還是相對復雜的具備學習能力的融合，均是由研究者根據其經驗人工設計。為了克服人工設計的局限性，Peng等[31]針對癌細胞遠端轉移預測任務，嘗試通過網絡結構搜索(network architecture search, NAS)在訓練過程中動態確定對于融合PET和CT特征最有效的特征融合網絡。盡管該研究表明了NAS在性能上的優勢，由于其本身需要額外的訓練數據，這種動態生成的網絡結構存在過擬合的風險。此外，NAS以性能為導向，由此獲得的網絡結構較之前人工設計的網絡的可解釋性較差。

3 眼科AI的多模態深度學習

3.1 探索

相較于其他醫學領域，眼科AI的多模態深度學習應用目前仍處于起步階段(表3)。筆者在主流期刊檢索到該方向的首篇應用成果發表于2019年[32]，內容為多模態年齡相關性黃斑變性(age-related macular degeneration，AMD)分類問題。研究者采用了一種雙流(two-stream)網絡架構，分別從CFP和OCT B-scan圖像中提取相關特征，之后將不同模態特征進行拼接，再輸入到后續的分類任務層，實現正常眼底/干性AMD/濕性AMD的三分類。Xu等[33]采用了類似的網絡架構，并將任務進一步細分為四分類問題(正常眼底/干性AMD/濕性AMD/息肉狀脈絡膜血管病變)。上述研究結果均表明，相比僅采用CFP或OCT圖像的單模態網絡，多模態網絡在分類準確率方面明顯提升，初步顯示了多模態深度學習在眼科AI上的應用潛力。

表3 多模態深度學習在眼科領域的應用舉例

不同于以CFP和OCT圖像作為多模態輸入，Li 等[24]嘗試將CFP和經生成對抗網絡[34]合成的熒光素眼底血管造影(fluorescein fundus angiography, FFA)混在一起，通過數據層融合，引導神經網絡在訓練過程中學習模態無關而與任務相關的視覺特征。因此，該技術方案在本質上可以視為一種比基于傳統底層圖像處理技術更為復雜的數據增強。

北京協和醫院在國際視覺與眼科研究協會2021年會上報告的一項工作[27]表明，以CFP和OCT圖像序列為輸入的多模態深度學習模型也可用于同時檢測多種常見致盲性眼底疾病，如DR、AMD、視網膜前膜、病理性近視等。相比之前的工作，除檢測病種數量增加外，在OCT分支網絡中引入了一種深度多示例學習模塊[18]，可直接接受整個OCT圖像序列，無須人工選擇OCT B-scan圖像作為多模態網絡的輸入。

3.2 挑戰

雖然上述探索得出了令人鼓舞的研究結果，但眼科AI的多模態深度學習仍存在相當多的技術挑戰需要攻克，主要集中于數據和算法兩個層面。

數據層面，相比單模態場景，多模態數據存在配對要求，其前期原始數據采集和后期人工標注的難度及成本顯著增加。因此，需加強各相關單位合作機制創新，以獲得更多的多模態研發數據；此外，在數據高效深度學習 (data-efficient deep learning)方面需進行技術創新，以在訓練數據規模受限的條件下實現有效的多模態學習。

算法層面，盡管現有的研究結果表明，多模態模型總體性能優于單模態模型，但在特定病種中，多模態模型并不總能超過在該病種上表現最優的單模態模型。單一模態影像并不能覆蓋所有疾病特征。比如DR作為血管病，特征表現面積較大， CFP相比OCT可反映更多的疾病信息；而黃斑水腫的特征反映在視網膜層次厚度和結構的變化上，OCT的優勢則更明顯。如何設計更加智能的、具有自主選擇能力的多模態信息融合機制是值得深入探索的研究課題[35]。

3.3 前景

需要指出的是，由于現有關于多模態眼科AI的研究相對較少，多模態深度學習在病種亞型分類、分期和相應的處置建議推薦等方面，較單模態的優勢尚未充分體現。以干性AMD為例，玻璃膜疣是干性AMD的特征性臨床表現，在早期階段，玻璃膜疣較小，OCT相比CFP更容易觀察到這一表現。理論上可以利用不同模態影像在病種不同階段的不同適應性，實現更細粒度的分類，從而推薦更恰當的處置建議。

在數據形態上，現有研究主要考慮融合不同模態的影像，而在臨床實踐中，患者信息除影像數據外，還有非影像數據，比如定性的病史、定量的視光檢查結果等。當前，這些非影像數據存在記錄不準確或不完整等問題。隨著電子病歷系統的普及和建設水平的提高，能夠有效融合影像和非影像數據的多模態AI有望在青少年近視綜合防控、成人慢病管理、個性化醫療保健等多個應用場景發揮關鍵作用。

4 小結

深度學習是當前醫學人工智能的核心技術。現有研究結果表明，在眼底疾病輔助診斷方面，多模態深度學習較基于單一模態的技術方案在識別性能上存在明顯優勢。發展面向眼科的多模態深度學習技術具有廣闊的應用前景。由于多模態影像對于眼底疾病診斷的高效性和必要性，眼底成像設備已呈現“一體化”和“低成本化”的趨勢，多模態AI輔助診斷具有巨大的普及空間。此外，眼底作為非侵入式觀察全身健康狀況的“窗口”，對于慢性病進展的檢測和管理起著重要提示作用。我們有理由相信，多模態眼底分析在眼科以外的醫療健康領域也有著巨大的需求和應用潛力。

利益沖突：無

志謝：感謝北京致遠慧圖科技有限公司丁大勇博士對本文的建議，中國人民大學博士生林海斕在本文修訂方面提供的幫助。