杜昱崢,曹 慧,聶永琦,魏德健,馮妍妍
山東中醫藥大學 智能與信息工程學院,濟南 250355
阿爾茨海默病(Aizheimer’s disease,AD)是一種以認知功能障礙為主要臨床特征的神經系統退行性疾病[1]。目前常規的診斷方法是由醫生利用專業知識與臨床經驗判讀腦神經影像,診斷效率依賴于醫護人員與圖像采集設備等醫療資源水平,可能因病患信息無法及時反饋導致漏診、誤診。因此,眾多學者開發先進的計算機輔助診斷(computer aided diagnosis,CAD)系統,輔助臨床醫生提高AD診斷效率與早期預測準確性。
近年來,以深度學習方法為基礎的CAD系統在帕金森病、肌萎縮側索硬化癥以及AD等神經退行性疾病診斷中取得了顯著成果[2-4]。深度學習方法通過構建深層次網絡自動提取圖像抽象特征,并在網絡架構、全局或局部上下文信息提取、特征多尺度融合等方面進行改進,從而實現對受試者正常衰老類(normal control,NC)、進展型輕度認知障礙類(progressive mild cognitive impairment,pMCI)、穩定型輕度認知障礙類(stable mild cognitive impairment,sMCI)和阿爾茨海默病類(AD)四個不同階段[5]的分類診斷。隨著計算機視覺技術的發展,深度學習方法在圖像處理領域應用越來越廣泛,先后涌現出許多經典神經網絡,特別是卷積神經網絡[6](convolutional neural network,CNN)。CNN是一類包含卷積計算且具有深度結構的前饋神經網絡,通過端到端的學習方式挖掘圖像深層特征,無需人工操作復雜的特征提取。CNN及其衍生模型在AD患者的病程診斷、早期預測領域展示出極大的應用潛力[7-9]。
本文首先整理了阿爾茨海默病研究常用的數據集,其次介紹了基于深度學習的AD分類診斷方法,將其按照經典深度學習網絡模型的改進工作依次闡述;然后介紹深度學習網絡模型的可解釋性,以及對不同方法與改進思路的優劣勢進行對比分析;最后結合深度學習在AD輔助診斷領域面臨的挑戰,對未來研究方向進行展望。
數據集是開展深度學習研究的重要因素之一。近年來,隨著醫療信息技術的發展,大規模、標準化的神經影像數據集為深度學習在AD輔助診斷領域提供了支持。現全球公開數據集的數據樣本豐富,研究人員可根據工作需求選擇對應數據集的單模態數據或聯合多模態數據構建輔助診斷模型。通過AD相關期刊的論文報告和相關開源數據集網站對近年來有關AD數據集進行整理和介紹,表1總結了阿爾茨海默病研究常用數據集。

表1 阿爾茨海默病研究常用數據集Table 1 Commonly used datasets of Alzheimer’s disease research
ADNI[10]數據集分為:ADNI-1、ADNI-GO/2、ADNI-3三個階段。該數據集包括1 800多名受試者的磁共振成像(magnetic resonance imaging,MRI)、正電子發射斷層成像(positron emission tomography,PET)、擴散張量成像(diffusion tensor imaging,DTI)、腦脊液生物標志物以及基因生物標記物數據等其他相關診斷信息。
OASIS數據集包括OASIS-1、OASIS-2及OASIS-3三階段。OASIS-1提供416名18歲至96歲的參與者的橫斷面掃描成像[11],每個參與者的每單次收集包括3或4個單獨的T1加權MRI掃描。OASIS-2提供150名60歲至96歲的參與者縱向掃描成像集合,每個參與者的收集次數為兩次或以上,訪問時間間隔約為一年,共計收集373次掃描成像[12]。每個參與者的每單次收集包括3或4個單獨的T1加權MRI掃描。OASIS-3提供1 098名42歲至95歲參與者的不同掃描序列MRI以及來自不同示蹤劑的PET的回顧性匯編[13]。
AIBL[14]數據集是一項對1 112名健康、MCI和AD患者的縱向研究,同時定期進行隨訪和評估,周期為18個月。所有數據來自兩個中心(40%的受試者來自西澳大利亞的珀斯,60%來自維多利亞州的墨爾本)進行收集,影像數據主要包含MRI、PET等。
MIRIAD[15]數據集對46名輕中度AD受試者和23名對照者進行縱向容積T1結構MRI掃描。在規定的時間間隔內(0、2、6、14、26、38和52周,以及18和24個月),使用相同的設備總共進行798次掃描,AD患者總共2 199個掃描對,對照組總共1 182個掃描對,另外還包括性別、年齡和簡易精神狀態量表等相關臨床信息。
NACC[16]數據集匯集美國29個阿爾茨海默病研究中心合作建立的統一900多個數據元素,按不同的數據集和元數據分組,包含68個數據元素(如種族、教育、性別、診斷、中風、抑郁癥、DNA可用性、組織可用性、MRI可用性等)。
深度學習作為機器學習的分支,通過端到端的學習方式從龐大的訓練樣本集中自動提取神經影像抽象特征信息從而獲得高精度的分類診斷模型。本章將深度學習在阿爾茨海默病分類診斷中的應用方法按照基礎神經網絡架構分為6類,具體方法見圖1,重點總結卷積神經網絡與多網絡融合的AD分類診斷方法。

圖1 深度學習在AD分類診斷中的應用方法Fig.1 Application of deep learning in classification and diagnosis of AD
卷積神經網絡(CNN)是一類包含卷積計算且具有深度結構的前饋神經網絡,由輸入層、卷積層、池化層、全連接層、輸出層組成,其基本網絡結構如圖2所示。CNN及其衍生模型在AD患者病程診斷、早期預測領域具有極大的應用前景。根據卷積核的維數可將CNN方法分為2D CNN與3D CNN,兩者結構對比如圖3所示。

圖2 卷積神經網絡結構圖Fig.2 Convolutional neural network structure diagram

圖3 2D CNN和3D CNN結構對比圖Fig.3 Comparison of 2D CNN and 3D CNN structures
2.1.1 2D CNN
2D CNN用于AD診斷通常基于二維腦神經影像,如腦部MRI的矢狀面、橫斷面、冠狀面掃描2D切片,主要選自結構或功能上預定義的大腦區域,并從每個區域提取具有代表性的特征。
Khagi等人[17]使用OASIS數據集調優AlexNet提取2D MRI切片的矢狀面、橫斷面病變特征。但其識別性能依賴于初始預訓練權重導致過濾MRI圖像冗余特征的能力較弱。為了去除圖像不相關特征,Lee等人[18]提出結合熵切片與去除離群值的特征選擇方法提取圖像局部信息,該模型在測試集中NC/AD的二分類準確率達98.53%。
但是上述研究側重于篩選更有價值的多切片用于訓練,很難捕捉圖像上細微的病變信息。為此,石磊等人[19]基于特征金字塔網絡(FPN)設計了一個深度特征增強卷積神經網絡學習切片多尺度特征信息,實現了AD四種病程的分類診斷。Nawaz等人[20]同樣注重網絡結構優化,提出了一種Deep-CNN網絡。卷積層采用4~128 size的過濾器提取AD各階段分類的特征表示,但該算法的深層網絡結構需占用大量訓練時間。為解決上述問題,Jain等人[21]基于篩選的MRI冠狀面切片微調預訓練網絡VGG-16,降低訓練時間成本。與上述文獻的網絡框架改進不同,Saratxaga等人[22]在訓練策略上做出嘗試,采用高效的CLR三角學習率策略構建BrainNet2D卷積網絡用于AD分類,大大加快了診斷網絡收斂速度。
在AD分類診斷中,2D CNN往往通過增加網絡深度與復雜度提高模型的非線性表達能力,但該方式同時伴隨網絡參數量激增與梯度消散。為此,Tufail等人[23]采用深度可分離卷積構建輕量級網絡,通過分離區域信息與通道卷積有效減少卷積運算參數量。針對深度網絡的梯度問題,Puente-Castro等人[24]在加深網絡的同時引入殘差學習思想,并將受試者性別、年齡等特征向量與模型全連接層連接,以提高模型拓展性和泛化性,但是簡單融合人口統計學信息忽略了不同種族間AD發病機制的異質性。為此,Bae等人[25]使用首爾國立大學本當醫院(SNUBH)與ADNI兩跨種族數據集交叉訓練網絡,AD識別準確率在兩數據集中均達88%以上。為進一步提升臨床應用成熟度,張榮等人[26]通過遷移學習方法對二維MRI、PET圖像進行特征提取,隨后采用Adaboost算法對多模態圖像特征進行選擇融合,研究表明AD/MCI/NC多分類準確率達92.8%。
上述研究均基于結構磁共振成像(structural magnetic resonance imaging,sMRI),sMRI能夠量化大腦結構上存在的全局或局部腦萎縮形態學改變,但部分認知正常的老年人亦可能出現局部腦區體積縮小的情況。為克服sMRI影像形態學分析的局限,孔伶旭等[27]獲取患者功能性磁共振成像(functional magnetic resonance imaging,fMRI)用于診斷網絡,但不足之處在于fMRI成像高維性會導致網絡收斂時間過長。為此,該研究采用輕量化網絡MobileNet提取切片的代表性特征,并將得到的瓶頸特征輸入到頂層實現分類,大幅度提高網絡訓練效率。
上述分析可知,二維卷積神經網絡的方法具有以下優勢:(1)結合離群值去除、熵切片等特征選擇算法能夠提高二維切片圖像的特征利用率,有助于提高AD分類準確性。(2)使用AlexNet等預訓練模型作為初始化或特征提取器,節省了細致繁瑣的超參數步驟,可促進網絡訓練學習的有效性。(3)MRI成像中具有豐富的腦部細節信息,有利于構建更深層的二維卷積神經網絡用以高精度識別診斷。(4)采用sMRI、fMRI多種磁共振成像方法揭示被試者腦結構、腦功能多視角的潛在信息,能夠有效利用更加全面的神經影像特征以提高AD診斷的精確度。
但該方法也存在以下問題亟需解決:(1)對于MRI中立體的區域萎縮評估,二維卷積往往需要分析多個切面,導致特征提取十分粗略,并且不能完全捕捉圖像的空間信息。(2)2D CNN診斷模型通過遷移學習方法初始化網絡雖然能夠降低模型訓練難度但在AD分類診斷實際應用中對MRI等復雜神經影像的目標類型判別穩定性偏低。(3)應用于MRI的2D CNN深度學習算法往往基于單一尺度特征提取方法區分NC與AD人群,此二分類不能提供有效的早期腦部變化信息實現MCI階段的診斷與預測。(4)深層次的神經網絡結構意味著需要處理大規模數據與大量參數,并且難以避免訓練階段面臨的梯度消散和網絡性能退化等問題。(5)選取MRI的2D分割切片通常只考慮大腦的中心部分,可能涉及的病變相關腦區研究范圍有限。
2.1.2 3D CNN
二維卷積神經網絡基于MRI 2D切片分析AD時對圖像上下文信息的全局特征表達能力有限,易導致腦部空間與組織結構等特征信息丟失。而三維卷積神經網絡能更好地利用圖像3D特性并從中提取高分辨率特征,從而有效提升AD的分類精度。3D CNN用于AD診斷主要基于兩種方法:(1)以體素為單位定量分析全腦MRI圖像中不同腦組織的局部成分差異[28],以此測量大腦區域是否發生腦萎縮的形態學方法;(2)選取AD的感興趣區域(region of interest,ROI)構成三維圖像塊(如:海馬區),并從中提取高維腦圖像的細微局部病變特征的預定義方法。
Maqsood等人[29]將大腦灰質、白質、腦脊液的三維體素合并至一張圖像,利用遷移學習方法組合MRI腦區結構的抽象特征表示,AD/NC得到89.6%的分類準確率。考慮到全腦體素特征的高維性,Basheera等人[30]基于獨立成分分析法提出一種逐體素3D CNN網絡。該模型針對灰質體素特征顯示了良好的特異性和敏感性。為進一步細化不同語義級別特征,趙尚義等人[31]提出一種融合多語義的三維卷積網絡,利用嵌套密集跨層路徑連接的方式提取不同強度語義的特征信息,但是該模型性能依賴于圖像預處理步驟。為了克服高標準樣本獲取困難的局限,Mehmood等人[32]微調VGG-19網絡捕獲三維MRI信號體素的空間特征,并結合數據增強方法優化訓練集,但其網絡結構在提取高維度特征時會伴隨梯度問題。為實現梯度優化,Karasawa等人[33]提出一種基于ResNet的三維卷積AD診斷網絡,并且刪除了該網絡50%節點進一步簡化參數量。但實現模型壓縮與保持性能間的平衡仍具挑戰性。為此,陸小玲等人[34]向輕量化模型的道路探索,采用3D MobileNet網絡處理MRI切片,實驗結果表明與傳統遷移學習方法相比AD分類準確率提高了約8%。輕量化網絡在提升診斷性能與減少網絡參數方面具有一定的優勢。
上述研究雖然在AD分類任務中都取得了良好性能,但復雜高維腦影像的特征選取與解析過程可能導致部分低級特征圖信息丟失。為此,杜麗君等人[35]將生成的低級特征圖輸入注意力卷積,將得到不同像素位置的注意力權重與特征對應相乘以保留更多序列信息,并添加子輔助任務進一步優化分類結果,但是聯合多任務多類型數據學習易引起模型參數量增加。為此,Spvsov等人[36]構建一種參數高效層,該層通過分組卷積與可分離卷積提高參數利用率,降低網絡訓練成本。
上述基于三維體素的方法可以評估患者大腦解剖結構的全局變化,但是對于高維腦圖像中局部小尺寸特征的提取能力較弱。為解決這一問題,眾多研究選擇AD患者影像中特定感興趣區域(ROI)的候選框作為卷積神經網絡的特征輸入。曾安等人[37]在不預定義ROI的前提下采用不同全連接層結構的3D CNN網絡識別MRI,研究發現其分類效果均次于3D CNN-ROI方法。為進一步挖掘大腦異常變化的微觀特征,Zhu等人[38]提出一種帶有空間注意力塊的patch-net提取ROI小塊的判別特征,以此提高模型分類精度。但是重點區域的選取對后續實現精準診斷同樣非常重要。為了避免忽略重點ROI,魏志宏等人[39]綜合大腦中海馬、灰質等多個腦區ROIs,并增加網絡中間層的連接和輸出實現多類型特征整合,但是該方法不足之處在于以腦組織分割等預處理操作為前提。
研究表明,海馬是驗證AD最有效、最容易獲得的生物標志物之一[40-41],但現有的圖像處理技術針對MRI影像的海馬分割速度和精度較低。為解決海馬體分割工作效率不高的問題,顏宇等人[42]提出一種含注意力機制的U形3D CNN用于海馬體分割。該網絡通過復用低層級的空間信息完成腦組織高效分割,但是并未實現海馬分割和AD診斷流程一體化。為此,Sun等人[43]基于V-Net提出一個端到端的雙功能卷積網絡,將AD病理狀態分類與海馬體分割結合,實現了海馬形態變化與AD進展的相關性分析。
患者腦萎縮在AD早期階段難以察覺,通過MRI的結構成像發現病變難度較大,三維卷積神經網絡分析fMRI、PET等高維腦功能成像能夠反映病變腦區的代謝變化,在AD早期診斷研究中得以應用。林萬云等人[44]提出一種“前小后大”的策略改進3D CNN的卷積核尺寸和步長,基于PET成像有效檢測局部腦代謝變化,結果顯示AD早期預測準確率達71.19%。但是相比PET成像,fMRI成像的臨床應用更為普遍。為此,賈洪飛等人[45]提出一種基于fMRI圖像轉換結合改進3DPCANet模型對AD不同階段患者進行分類。考慮到fMRI可以實現多種功能水平的圖像轉換,Jia等人[46]采用CCA典型相關分析思想融合兩種轉換類型的圖像特征,提高了輸入的功能圖像變換的魯棒性。
上述分析可知,三維卷積神經網絡的方法具有以下優勢:(1)三維卷積神經網絡能夠充分利用MRI圖像體素間的三維空間結構信息,提取表達性更強和更具臨床意義的語義特征,從而實現AD疾病的精準診斷。(2)基于體素的方法可以定量檢測腦組織的密度差異,無需對感興趣區域先驗假設,具有客觀性、全面性。(3)基于ROI圖像塊的方法可以充分利用MRI影像的有效信息,提取高維腦圖像的細微局部特征。(4)綜合多個ROI特征信息,不僅能避免數據來源較為單一的局限性而且能利用各腦區之間可能存在的聯系與相互間的影響。(5)三維卷積神經網絡基于PET等腦功能成像分析腦部相關區域的代謝變化,對AD的早期診斷及鑒別診斷特異性和靈敏性較高,為疾病的早期干預提供了可能。
但該方法也存在以下問題亟需解決:(1)分析全腦MRI圖像時提取的特征向量具有高維性,神經網絡訓練時間長、計算參數量大、計算資源要求及成本高,未來研究方向需要在保持網絡性能的前提下,向輕量化模型的道路探索。(2)在AD分析領域訓練三維卷積神經網絡需要的樣本數據量大,而且缺乏像ImageNet的大規模標準數據庫,采用加深網絡結構的方法提升性能可能會因樣本量不足而發生過擬合。(3)所有患病人群腦功能病變異常不總是發生在相同的所選ROI腦區,固定相同的腦區可能會導致丟失用以區分患者的關鍵信息。(4)提取分析海馬可以為腦病理狀態分類提供更有針對性的特征,現有的CAD算法中,同時實現海馬分割和AD診斷的端到端高精度模型性能還有待優化。(5)針對fMRI多種功能水平的圖像轉換,今后需設計多類型轉換圖像研究高魯棒性的特征融合算法以獲得圖像間最相關分類特征,從而增強AD鑒別能力。
循環神經網絡(recursive neural network,RNN)[47]是一種基于非參數序列的學習方法,隱藏層中的神經元相互連接傳輸數據信息,并表達數據之間的相關性。阿爾茨海默病屬于時間依賴性神經退行性疾病。與CNN相比,RNN可以處理時間序列數據以學習時間依賴性。在患者臨床癥狀出現前,對時間序列上的臨床表現進行綜合分析,有望對患者的病情進展、發病時間等進行預測。
長短時記憶網絡(long short-term memory,LSTM)[48]在標準RNN中引入門控單元概念,解決了傳統RNN的梯度消失問題,使其更加適合分析時序臨床特征,從而實現病情預測,其基本網絡結構如圖4所示。

圖4 長短時記憶網絡結構圖Fig.4 Long short-term memory network structure diagram
Pelka等人[49]采用LSTM學習MRI切片的序列間相關信息進行AD早期預測,pMCI患者的識別準確率達78%。該方法側重于分析MRI切片間縱向動態,但對大腦海馬區域時間縱向特征的提取能力偏弱。為此,Li等人[50]利用海馬區一年內的縱向測量信息訓練LSTM網絡,但是在預測時間序列的臨床研究中不可避免部分數據缺失問題。為解決上述問題,Ghazi等人[51]調整LSTM網絡的損失權重來緩解缺失值問題,采用批量梯度下降法更新權重參數,有效緩解了數據缺失的影響,但是批量梯度下降可能會占用大量運行時間,因此還需研究適宜的模型訓練算法優化訓練時間。
上述分析可知,循環神經網絡的方法具有以下優勢:(1)充分從患者時間間隔的隨訪數據中提取動態時序特征,以此加速AD的早期診斷進程。(2)對于不規則的采集臨床數據,RNN能夠使輸入數據在維度變化中保持穩定,并且擁有長期儲存數據的能力。
但該方法也存在以下問題亟需解決:(1)應用時間間隔較長的隨訪數據時會產生非常大的計算量和運算時間。(2)LSTM雖然解決了傳統RNN存在的梯度問題,但是在小數據集上的分類精度并不理想。
因此,在高質量圖像樣本不足及標注困難的局限下,自動編碼器、深度置信網絡、生成式對抗網絡因其不依賴于數據標簽的優勢為無監督深度學習提供了一個重要的技術研究方向。
自動編碼器(auto encoder,AE)[52],是一種無監督學習網絡。AE由編碼器和解碼器組成,其網絡結構如圖5所示。編碼器在網絡前向傳播過程中對特征圖進行降維壓縮,以此刪除圖像的冗余信息,解碼器再利用特征圖重構輸入圖像。

圖5 自動編碼器結構圖Fig.5 Auto-encoder structure diagram
18氟-氟代脫氧葡萄糖PET成像可用于評估大腦局部葡萄糖代謝活性[53],但是PET的臨床低普及度導致標記訓練樣本量較少。為此Hong等人[54]采用變分自編碼器無監督學習網絡解決PET標記數據量不足的問題,并且結合層次凝聚聚類算法組織特征,量化腦內蛋白軌跡用以推斷病程進展,但是單一模態的數據集質量參差不齊可能會引起各個模型間的性能差異性。為此,Kim等人[55]通過融合MRI和PET多模態數據提升模型分類性能,提出了一種堆疊多層神經網絡sELM-AE。該網絡采用堆疊多層AE增強各模態復雜特征模式的表達能力,但是模型在處理高維的多模態數據時存在計算量大、圖像配準困難等問題。
上述分析可知,自動編碼器的方法具有以下優勢:(1)一定程度上解決了因大量未標注圖像(如:PET)或標注圖像不可用導致模型訓練困難的問題。(2)堆疊多層網絡的逐層訓練方式能夠對原始序列降維,有助于利用有限的神經影像數據學習到高度復雜模式的特征表示。
但該方法也存在以下問題亟需解決:(1)雖然堆疊AE可以自由選擇提取特征的維度,但是網絡調整和優化模型參數的難度大。(2)在處理高維的多模態數據時存在計算量大、圖像配準困難等問題。(3)堆疊自編碼器網絡往往伴隨高計算量與長收斂時間。后續研究可嘗試模型輕量化等網絡結構化裁剪方法,在保證模型性能的基礎下穩定的壓縮計算量。
在無監督神經網絡模型中,深度置信網絡能夠通過預訓練初始化權網絡權重提升網絡收斂速度。
深度置信網絡(deep belief network,DBN)[56]與上述AE的作用類似,可以通過無監督學習方式對輸入數據進行高維特征表示。DBN由可視層、分類層和若干個隱藏層組成,其網絡結構如圖6所示。DBN的隱藏層由多個受限玻爾茲曼機(restricted Boltzmann machine,RBM)構建,各層之間存在對稱連接,但是層內的神經元無任何連接。DBN中每次只訓練一層RBM,當前層的輸出作為下一層RBM的輸入,直至完成DBN中所有RBM層的訓練,最后使用wake-sleep算法進行調優[57]。

圖6 深度置信網絡結構圖Fig.6 Deep belief network structure diagram
DBN網絡通過疊加多層RBM解析神經影像中復雜的非線性特征表示。Shen等人[58]提出一種三層RBM的DBN網絡基于腦PET成像提取MCI的鑒別特征。由于pMCI與sMCI類間差異較小,僅依靠單模態PET圖像容易受信息量不足等因素影響。為此,Zhou等人[59]綜合MRI和PET多模態成像提出一種稀疏響應網絡SR-DBN,結合主成分分析算法獲取兩模態圖像的高層語義信息,但是DBN網絡初始權值一定程度上具有指向性,可能與目標多模態學習任務存在較大差異。
上述分析可知,深度置信網絡的方法具有以下優勢:(1)DBN可以通過無監督的特征學習方式保留高維度神經影像數據的深層次特征,適用于高維標簽數據樣本不足的模型訓練。(2)逐層訓練RBM方式為整個DBN網絡賦予了較好的初始權值,解決了深層次神經網絡的優化問題。
但該方法也存在以下問題亟需解決:(1)DBN的無監督預訓練對初始權值一定程度上具有指向性,需結合適當的全局尋優算法對DBN的初始權值進行優化。(2)在多模態數據融合的復雜分類診斷任務中網絡訓練難度大,模型分類精度和魯棒性表現不理想。
無論是有監督或無監督的深度學習方法都需要海量的數據作為支撐。近年來,生成式對抗網絡以其圖像生成領域的優勢在無監督學習研究中掀起熱潮。
生成式對抗網絡(generative adversarial network,GAN)[60]為深度學習提供了一種新穎有效的數據建模方式。GAN由生成器和鑒別器組成,其網絡結構如圖7所示。生成器通過模仿真實圖像合成新圖像來混淆鑒別器,同時鑒別器也不斷地加強鑒偽能力,利用兩個神經網絡之間相互博弈形成對抗性關系。這種對抗性學習方式使GAN不斷增強高級語義信息的特征表達能力,通過無監督學習生成偽標簽,可以有效解決小樣本訓練集問題。

圖7 生成式對抗網絡結構圖Fig.7 Generative adversarial network structure diagram
考慮到AD分類診斷的深度學習方法需要大量的訓練數據,因此基于GAN的數據增強技術被廣泛應用于不同的神經影像。Islam等人[61]提出采用深度卷積生成式對抗網絡(deep convolutional generative adversarial networks,DCGAN)合成不同階段的PET圖像,有效克服了訓練樣本的類別不平衡問題。與PET圖像相比,MRI圖像數據量大,GAN主要用于擴充其高質量的圖像訓練集。Yu等人[62]采用三重博弈訓練策略以提高MRI圖像質量,該研究受Odena等人[63]的啟發,增加3D DenseNet輔助鑒別器。但三重對抗方法會增大網絡訓練難度,加重網絡訓練的不穩定性,導致在單一模態數據有限的條件下強化特征的能力降低。為此,潘偉博等人[64]將GAN應用于MRI和PET多模態融合。該方法利用3D循環對抗生成網絡補全PET數據,并且使用分層分解策略捕獲共享潛在表示,MCI/AD分類準確率為79.0%。
上述分析可知,生成式對抗網絡的方法具有以下優勢:(1)為AD分類診斷模型訓練提供多類別、高質量的神經影像,幫助深度網絡獲得充分訓練,最終達到良好的分類性能。(2)GAN能結合其他先進的網絡模型構建深度生成模型。(3)GAN在融合多模態數據的分類任務中通過學習不同模態數據間的關聯性補齊缺失數據,為多模態診斷模型的模態缺失問題提供了有效解決方法。
但該方法也存在以下問題亟需解決:(1)生成器與鑒別器的訓練過程需保持良好的交替同步,網絡訓練不穩定可能會導致網絡崩潰無法收斂。(2)生成圖像質量與神經網絡設計有著直接聯系,綜合設計合適的網絡架構以保證生成圖像的有效性與多樣性。(3)為多模態數據補齊缺失模態的生成模型,無法為數據間的潛在關聯提供良好的可解釋性。
綜上所述,CNN、RNN等單網絡方法具有訓練速度快、計算成本低等優點,在AD診斷中廣泛應用。由于AD病理特征的復雜性與多樣性,單網絡無法從成像方式復雜的神經影像中充分學習更深層次的數據特征,滿足對AD診斷精準度、速度等需求。所以,眾多學者針對多網絡融合方法的應用價值進行探討。
多網絡融合是一種通過聯立兩個或以上的網絡架構,實現對AD分類診斷的深度學習方法。按照基于深度學習技術的AD分類診斷方法中多網絡架構的融合方式,可將其分為多網絡級聯和多網絡集成。
2.6.1 多網絡級聯
多網絡級聯指多個網絡串聯完成AD分類診斷,即后一個網絡的輸入為前一個網絡的輸出,采用構建多個神經網絡的策略增強多級特征融合表達,進而實現阿爾茨海默病的一體化精準診斷。
Aqeel等人[65]提出了一個基于LSTM的混合神經網絡,LSTM后級聯一個多層感知機網絡用于AD分類,而LSTM的特征提取性能將直接影響最終分類效果。為此,Xia等人[66]構建一個雙網絡架構用于特征計算,如圖8所示。前網絡的特征圖輸入到3D CLSTM中進一步提取深層次空間結構特征,能有效捕捉MRI圖像的高維特征信息。但是該方法在高維數據量偏小的情況下很難提取大腦萎縮區域信息。為此,Jin等人[67]提出了一種新型無監督學習的對抗自編碼器網絡定位患者ROI腦區,通過重構MRI與原始的差異圖像判別AD,如圖9所示。該方法通過計算差異圖捕捉患者ROI腦區,一定程度上克服了高維標注數據匱乏導致訓練困難的問題。

圖8 3D CNN+3D CLSTM級聯神經網絡結構圖Fig.8 3D CNN+3D CLSTM cascaded neural network structure diagram

圖9 文獻[67]對抗自編碼器網絡結構圖Fig.9 AAE network structure diagram in[67]
為了進一步提高診斷效率,一部分研究直接選取最早受到AD影響的海馬區進行分析。Li等人[68]在雙側海馬掩膜上構建多通道三維-二維卷積神經網絡識別AD,但該算法的診斷性能受限于海馬分割精度。為此,Cui等人[69]在局部海馬圖像塊上構造DenseNet網絡,并采用球面諧波系數優化提取表面形狀特征。這不僅省略了繁瑣的腦組織分割步驟,而且可以有效綜合海馬的局部與全局特征。上述基于全腦或ROI腦區MRI的單一影像進行鑒別診斷可能存在假性結果,綜合受試者多類別影像檢查有助于捕獲更豐富的病理信息,提高診斷質量。為此,Feng等人[70]基于多模態數據應用級聯RNN學習圖像深層隱藏特征,采用MRI與PET多模態數據構建3DCNN與LSTM級聯網絡,但在面臨模態數據缺失時可能會影響分類診斷結果,因此還需挖掘模態之間的潛在聯系進一步提高多模態模型性能。
上述分析可知,多網絡級聯的方法具有以下優勢:(1)綜合各種單一網絡的優點,各網絡分工協作完成AD分類任務,有利于減少負荷的工作量。(2)不僅能從原始數據中快速篩選特征,而且能進一步融合多尺度深層特征,構建多級特征表達從而輔助AD的精準診斷。(3)將多模態融合和分類統一到一個模型中,通過學習不同模態的共享特征表示來挖掘相連腦結構特征關系。
但該方法也存在以下問題亟需解決:(1)后網絡對前網絡的依賴性很大,如果前一個網絡的輸出結果不理想,則可能直接導致后一個網絡失效。(2)多網絡雖然能有效提取大腦圖像中的深層特征,但是在特征融合過程中會產生特征冗余,從而影響全連接層網絡的分類性能。(3)考慮到多模態技術的實際臨床應用,并不是所有AD受試者均能提供完整的模態數據。模型可能受其中一模態數據丟失的影響,導致診斷性能下降。
2.6.2 多網絡集成
隨著網絡級聯次數的增加可能會引起過擬合,可以通過集成方式降低過擬合風險。多網絡集成采用構建多個基分類器的集成算法進行腦圖像分類,即對來自多個網絡結構的分類結果采用投票策略輸出最終決策。根據MRI的輸入特征,可以將AD診斷的集成學習方法分為多切片集成與多圖像塊集成。
Zeng等人[71]選取三個維度面上的MRI 2D切片進行訓練,將獲得的CNN集成分類器用于AD分類。其基分類器結構如圖10所示,能夠有效利用同一腦區中不同方向上的特征信息。為進一步提高模型的準確率和穩定性,Kang等人[72]在集成網絡中引入遷移學習,提出DCGAN和CNN的集成方法。該網絡集成VGG16、ResNet50、DCGAN的鑒別器三個分類器,可以有效緩解數據匱乏對模型性能提升的局限。但是以上研究忽略了AD惡化漸進性這一重要特征,為此,Liang等人[73]提出將Time-LSTM模塊集成到多任務學習框架,聯合多時間點縱向任務建立AD預測模型。該模型在預測60個月內MCI進展為AD具有最佳的診斷效力。

圖10 MRI 2D切片基分類器結構圖Fig.10 MRI 2D slice based classifier structure diagram
上述研究通過集成多個2D切片用于特征計算,但集成3D圖像塊的方法學習到的特征更適合于提取高維腦MRI圖像的細微特征。Raju等人[74]沿橫斷面方向取27塊圖像塊輸入多層集成3D CNN網絡提取特征,NC/AD二分類準確率達到97.77%。但是采用固定尺度提取圖像塊的方式帶來了巨大的參數計算量。為此,Wang等人[75]引入密集連接減輕計算壓力。該網絡構建3D DenseNet作為基分類器,結構如圖11所示。并且在DenseNet的兩DenseBlock之間增加1×1×1的卷積操作,同時保證特征提取的快速性與精確性。但是為了避免有效腦區遺漏,往往圖像塊劃定的范圍較大,導致全腦影像特征利用率低。Li等人[76]通過K均值聚類方法劃分三維圖像塊簇來提高特征利用率。該方法將相似腦組織圖像小塊進行聚類,可獲得較好的圖像方差魯棒性。上述研究針對網絡集成網絡架構改進,為了進一步提高模型對AD診斷的適應能力,Pan等人[77]結合AD臨床病因改進網絡的融合算法。該集成網絡采用遺傳算法篩選最優分類器組合。相比簡單的概率集成,結合遺傳算法的特征組合方法展現出更大優勢。

圖11 文獻[75]中3D DenseNet基分類器結構圖Fig.11 3D DenseNet classifier structure diagram in[75]
上述分析可知,多網絡集成的方法具有以下優勢:(1)能夠獲取更全面的腦組織病變信息,有效彌補單一網絡模型丟失細節的缺點。(2)多個分類器結合進行集成學習能有效防止過擬合。(3)參與集成的基分類器和腦區是一一對應的,可以找出有顯著分類能力的腦區。
但該方法也存在以下問題亟需解決:(1)多網絡集成可能由于劃定腦區范圍大導致需要占用多個大量空間存儲的基分類器,而且基分類器可能會帶來額外的時間成本開支。(2)選擇不同的腦區劃分方法用于集成學習可能會對最終分類結果產生影響。(3)多個腦區基分類器集成導致計算代價與標注成本高,訓練時間長。
綜上所述,多網絡融合方法在級聯學習和集成學習方面均呈現出高水平模型性能。相比主流單網絡方法,多網絡融合在AD診斷應用中表現出更強的非線性特征映射能力、模型泛化能力和容錯能力,更能滿足實際臨床的需要。但是多網絡結構增加了計算成本和存儲開銷,網絡設計難度也較大,今后工作需向更高效率的輕量化網絡探索與應用。
深度學習為圖像識別提供了一種強大的技術方法,但是深度學習模型的“黑盒”特性在面對其復雜的體系結構和模型參數時無法提供直接的推理過程和決策解釋,是阻礙模型改進以及推廣應用的主要障礙之一。因此,理想的AD分類診斷系統不僅能夠進行準確的診斷決策,而且可以提供決策的中間過程,對模型臨床應用也尤為重要。
在AD診斷任務中,主要通過類激活映射(class activation mapping)、注意力機制(attention mechanism)等方法定位病灶腦區并提供可視化解釋依據。為了實現模型可解釋性與特征可視化,Qiu等人[78]通過全卷積神經網絡生成AD風險概率圖提供模型解釋,使其突出與AD相關的高危腦區。但是該方法依賴于梯度加權,對模型預測無關的因素敏感時魯棒性較差。為此,Bohle等人[79]采用分層相關性傳播(layer-wise relevance propagation,LRP)方法克服這一限制。該研究結合LRP生成腦部熱力圖解釋模型輸出,LRP能夠量化輸入特征與AD分類結果兩者間的相關性,但是生成熱力圖的方法主要通過視覺挑選特征進行定性分析。為了進一步捕捉病變腦區并量化對最終診斷結果的貢獻程度,Jin等人[80]提出一種3DAN網絡。該網絡引入注意力機制用于捕捉大腦重要萎縮部位,并通過注意力得分量化分析各個腦區。但是模型額外引入模塊需修改原有的網絡結構,導致在實際應用中以花費大量的時間成本為代價,可通過拆分網絡的各功能模塊生成解釋性的方法節省運行時間。
基于類激活映射等可解釋性方法可以將抽象數據映射為類激活圖,以此建立模型的可視化表達,可快速、全面地了解病灶腦區的分布特征,提高模型透明度。但該方法存在以下問題亟需解決:(1)病灶可視化方法無法與更高級的語義相關聯。將可視化特征與語義相解釋結合,并解釋可視化輸出從低級語義到高級語義的生成過程,有助于深入挖掘決策依據,降低模型認知難度。(2)模型準確性與可解釋性相對立,難以平衡。一般規律下,復雜度高、參數量大的深度學習模型比結構簡單、參數量小的模型性能水平更高,但是模型可解釋性較弱。拆分深度學習模型的功能模塊分別生成解釋然后再進行組合,是高精度復雜網絡模型增強可解釋性的方法之一。(3)基于醫學知識的因果推理可解釋性仍待進一步探索。利用知識圖譜將AD臨床診斷知識引入到深度學習模型中,有助于理解模型的邏輯推理過程,可有效解釋模型所做決策的真正原因。
綜上所述,深度學習方法為阿爾茨海默病輔助診斷提供了多樣性與高效性的網絡模型,通過卷積神經網絡(CNN)、循環神經網絡(RNN)、自動編碼器(AE)、深度置信網絡(DBN)、生成式對抗網絡(GAN)和多網絡融合的方法實現了AD病程的高精度分類。本章對上述方法進行綜合分析,從主要思想、優缺點三個方面進行對比總結,如表2所示。
表2從深度學習的經典網絡及多網絡融合各診斷方法的主要思想、優劣勢進行歸納總結。為對上述方法進行更全面的對比分析,將從增強網絡特征表達能力、將網絡擴展到三維圖像、解決小樣本問題、提高泛化能力、節省計算成本五方面,對AD診斷方法面向高精度與輕量化的性能優化方法的優缺點和準確率進行歸納總結,如表3所示。

表2 基于深度學習的AD分類診斷方法總結Table 2 Summary of deep learning-based diagnostic methods for AD classification

表3 高精度和輕量化的優化方法對比分析Table 3 Comparison of high precision and lightweight optimization methods
(1)在增強網絡特征表達能力的相關算法中,采用嵌套的密集跨層連接、增加中間層的連接和輸出、改進卷積核的尺寸和步長等方法提取腦體積萎縮或局部腦代謝變化特征,高效捕獲圖像中病灶腦區。如林萬云等人[44]在模型中使用小尺寸卷積核和步長保留特征信息,采用大尺寸的卷積核和步長去除冗余信息,有效提取AD早期階段sMCI與pMCI的特征差異。
(2)在網絡擴展到3D圖像的相關算法中,采用構建3D ICA_CNN、3D CNN+3D LSTM雙網絡、多層3D CNN集成學習等方法,從三維體素、三維ROI圖像塊和腦組織圖像塊集成中提取大腦三維結構特征,獲取全面的空間維度信息。如Basheera等人[30]基于ICA的3D CNN逐體素分析網絡,從全腦體素中分割提取灰質用于病變分析,表現出良好的特異性和敏感性,NC/AD分類準確率達99.75%。
(3)針對小樣本訓練集改進的相關算法中,采用遷移學習、數據增強、無監督學習等方法,實現有效擴充樣本量或降低對高質量標記數據的需求。如Mehmood等人[32]采用微調VGG-19網絡結合數據增強的方法基于全腦體素進行AD分類診斷,NC/AD二分類準確率達98.73%。
(4)在提高模型泛化能力的相關算法中,采用跨種族數據集交叉訓練、MRI聯合PET多模態學習、結合臨床病因改進網絡集成算法等方法,在AD診斷應用中表現出更強的泛化能力,更能滿足實際臨床的需要。如Bae等人[25]考慮到種族和地區背景的差異,使用ADNI與首爾國立大學本當醫院數據集交叉訓練,增強模型跨種族患者間的通用性與泛化性。
(5)在節省計算成本和存儲開銷的相關算法中,采用擁有預訓練權重的輕量化網絡、密集跨層跳層結構的網絡、將網絡底層多參數卷積塊替換為瓶頸結構等方法,降低網絡復雜度,提高計算資源利用率。如Wang等人[75]在三維圖像塊的集成學習中,通過構建3D DenseNets基分類器減輕計算壓力,NC/AD分類準確率達98.83%。
通過上述分析可知,AD分類診斷算法在分類精度和模型輕量化方面達到了較高水平,但由于病灶隱匿性與神經影像高維性,通用的影像學診斷模型,存在病灶特征丟失的不足。為此,眾多學者展開相應研究,以降低病灶特征損失。將上述分類診斷算法進行歸納總結,針對保留單模態病灶特征與捕捉多模態特征相關性兩方面的特征優化方法進行對比分析,如表4所示。

表4 減少病灶特征損失分類診斷算法的性能對比分析Table 4 Comparative analysis of performance of diagnostic algorithm for reducing characteristic loss of lesions
(1)在保留sMRI數據單模態病灶特征的相關算法中,采用特征金字塔網絡、注意力patch-net等方法提取更細粒度的病灶特征,捕捉相鄰病程圖像的細微差別。如Zhu等人[38]使用帶注意力塊的patch-net提取sMRI小塊的判別特征,有助于提高早期階段MCI的分類準確率,sMCI/pMCI分類準確率達80.90%。
(2)在保留fMRI數據單模態病灶特征的相關算法中,采用3DPCANet網絡改進等方法提高模型對大腦紋理特征的學習能力。如賈洪飛等人[45]采用3DPCANet提取fMRI轉換圖像特征,實現了NC到AD間多個階段的分類診斷,sMCI/pMCI分類準確率達77.78%。
(3)在保留PET數據單模態病灶特征的相關算法中,Shen等人[58]采用在腦ROI上訓練多層DBN網絡等方法保留高維度神經影像數據的深層次特征,識別AD早期階段病灶代謝特征,sMCI/pMCI分類準確率達86.60%。
(4)在捕捉sMRI、PET多模態神經影像特征相關性的改進方法中,采用Adaboost算法、構建MDNMF模型、多層極端學習網絡、SR-DBN結合主成分分析等方法捕獲兩模態特征間的高級關聯并融合形成高質量特征表示,在AD分類診斷中具有良好的臨床應用成熟度與泛化能力。如Kim等人[55]采用多層極端學習策略構建sELM-AE網絡,聯合sMRI、PET模態間抽象特征表示,NC/AD分類準確率達97.12%,NC/MCI分類準確率達87.09%。
(5)在捕捉fMRI不同轉換圖像間多模態特征相關性的改進方法中,采用3DPCANet結合典型相關分析等方法提取融合轉換圖像間最相關特征與依賴關系。如Jia等人[46]采用CCA典型相關分析思想融合兩種轉換類型的圖像特征,實現了輸入的功能圖像變換的魯棒性,NC/AD分類準確率達92.00%。
上述分析可知,基于深度學習的阿爾茨海默病輔助診斷研究近年來獲得了廣泛關注,本章對其當前面臨挑戰和未來展望進行闡述。
近年來,深度學習技術的快速發展使其在AD診斷、早期預測領域取得了不錯的成果。雖然各神經網模型已取得明顯的性能突破,但是仍面臨諸多挑戰。本節將深度學習在AD輔助診斷領域面臨的挑戰歸納如下:
(1)多分類診斷模型辨別MCI的準確率仍然較低。MCI是AD的前驅期,是高度可變群體,故對sMCI和pMCI的鑒別與診斷十分重要。現有的研究中NC/AD分類準確率一般在82.0%~99.0%,但是sMCI與pMCI由于樣本間差異較小,其分類準確度普遍偏低。
(2)模型性能受數據來源的限制。現有的研究中基于MRI、PET等影像組學在AD的研究多為回顧性分析,不同的掃描設備、不同成像參數及不同醫學中心掃描方式會有所差異,因此會影響神經網絡模型對疾病的分類效果,會出現模型在某個數據集上訓練效果較好,但在其他數據集上表現較差的情況,導致很難在實際臨床中普及應用。
(3)多模態模型的診斷性能有待提高。不同格式的數據(如:影像和化驗數據)的融合算法還有待完善。而且考慮到多模態技術的實際臨床應用,模型可能受其中一模態數據丟失的影響,如果僅使用現有的完整模態數據進行訓練,將會進一步加重小樣本問題,導致模型的性能降低。
(4)高質量醫學影像數據稀缺。在基于深度學習方法的研究中,模型需要大量圖像樣本進行訓練和測試以獲得更高的分類精度。AD的腦神經影像學數據維度極高、結構復雜且提取特征數往往遠大于樣本數,易導致模型過擬合。
(5)深度學習方法的“黑盒”特性,導致模型可解釋性較差。深度神經網絡中包括多個隱藏層,導致特征選擇和決策過程具有很大的不確定性。基于深度學習的三維、多模態醫學圖像的AD分類涉及到與源數據不同維數的非線性卷積和池化,使得很難解釋原始數據中特征識別的重要性。
為解決AD診斷領域所面臨的挑戰,深度學習技術為AD的分類診斷提供卓越性能的高精度診斷模型,今后的研究工作可側重于以下幾個方面展開:
(1)通過融合不同生物標志物數據提高AD早期診斷準確率。AD病因具有復雜性和異質性,融合多模態比單模態方法分類效果更好。在神經影像的基礎上增加其他生物標志物,如臨床診斷數據、基因數據等,有利于進一步了解阿爾茨海默病的潛在生理機制,為MCI的轉化預測提升分類精度。
(2)克服數據來源限制以加強模型實際臨床應用性。加強臨床工作者與理論技術人員的交流,實地考察放射科日常醫療環境與設備應用條件,評估成像數據來源對網絡性能的影響。雖然現有的計算機輔助系統仍然無法取代醫學專家,但可以提供支持信息,以提高臨床決策的可信度。
(3)挖掘模態之間的潛在聯系增強多模態模型性能。針對多模態數據的語義沖突問題,捕捉模態之間的層次關聯用于提高特征融合算法對復雜數據的融合性能。針對缺失模態問題,利用好模態之間的信息互補性,以及平衡網絡中富模態與缺失模態的特征權重。
(4)高維小樣本深度學習方法的研究。一方面通過技術上的手段加以克服,如無監督學習、遷移學習、數據增廣等,另一方面利用現有的開放性數據庫構建標準化的神經影像數據集訓練神經網絡,克服樣本匱乏問題。
(5)結合可視化技術提高深度學習模型可解釋性。深度神經網絡結合類激活圖等可視化分析方法了解病灶腦區的分布特征,在保證決策準確率的情況下提高模型透明度,進一步解釋影像學特征與診斷結果之間的關系,輔助醫生臨床決策。
綜上所述,本文對阿爾茨海默病相關數據集、經典深度學習網絡模型在阿爾茨海默病分類診斷中的應用以及深度學習模型可解釋性三個方面的相關工作進行了介紹和總結。基于對現有工作的綜述,重點總結了深度學習中卷積神經網絡和融合多網絡在阿爾茨海默病分類診斷中常用的改進方法,可以作為未來研究工作的參考。相信隨著深度學習方法的不斷優化改進,未來為阿爾茨海默病的臨床診斷與早期預測將提供更加準確、高效的輔助診斷方法。