廖德盛,吳 敏
年齡相關性黃斑變性(age-related maculardegeneration,ARMD)影響全世界約1.7億人,預計到2040年全球患者將增加到2.88億[1],是視力進行性損傷甚至永久失明的主要原因,尤其是60歲以上人群[2]。早發現、早診斷、早治療可以延緩ARMD的進展,顯著改善患者的生活質量。在ARMD的診療過程中,醫學影像具有關鍵的作用,眼底照相、光學相干斷層掃描成像(optical coherence tomography,OCT)、B超等影像學檢查都是臨床中重要的輔助診斷和病情監測隨訪的工具。但是隨著ARMD患者的日益增多,眼科工作人員對ARMD患者的影像學數據的解讀和管理日益復雜。此外,目前眼科影像的分析臨床中多由技師或醫生負責閱片,閱片結果的準確性受到多方面因素的影響,如醫生的情緒、經驗、知識儲備、疲勞度等[3],再加上人眼的分辨率有限,對于微小的病灶很難識別出來,這可能導致醫生做出的判斷可能會有一定的偏差。針對以上問題,越來越多的學者提出用人工智能(artificial intelligence,AI)代替醫生進行閱片分析的想法,并在此領域做了大量研究,這些研究結果顯示AI可能會幫助醫生解決上述問題。AI及其概念首先被McCarthy等于1956年提出:開發出能像人一樣思考問題的計算機[4]。AI是人類計算機技術高速發展產物,它不僅能推動科學技術的發展,還能對人類社會產生深遠的影響。深度學習(deep learning,DL)作為AI的一子領域是當今科學研究的新趨勢,憑借其在圖像及語音的識別和分類等方面有著巨大的優勢,如今應用于眾多行業和領域當中[5-6]。由于醫學圖像在醫學的診療過程具有重要的意義,DL技術在以影像學驅動的生物醫學中的各個領域得到了廣泛的應用,如心血管[7]、呼吸[8]、泌尿[9]、影像[10-11]等。DL可通過多個非線性神經網絡層進行自動特征提取,從而自動地完成特征學習和分類[12],可見DL較閱片醫生具有更高強度、更持久、能像人類一樣思考卻不受主觀因素影響的優點[13],因此開展AI技術在眼科疾病中的研究具有廣闊的前景,包括糖尿病視網膜病變[14]、青光眼[15]、白內障[16]、早產兒視網膜病變[17]、視網膜靜脈阻塞[18]等。本文針對DL技術在ARMD輔助診斷中的研究進展和不足進行如下綜述。
1.1DL的提出自從AI技術的概念被提出之后,人們對其不斷地深入研究和探索,利用算法讓計算機具有學習能力,使其能在大數據中自己學習、總結經驗和自我完善,最終得出一種對新數據分析和預測的算法,這就是機器學習(machine learning,ML)的提出。隨著人們對AI的研究不斷深入,“深度學習”一詞在20世紀80年代被提出,并于2006年Hinton等[19-20]提出深度信念網絡的概念和一種成功的多層神經網絡訓練方法,掀起了神經網絡研究熱潮,DL從此得到迅速的發展。
1.2DL模型DL模型是指通過多層人工神經網絡提取和轉換低級的數據特征成為高級的、復雜的數據特征的一種學習算法,對所收集的數據進行準確地分析和預測[21]。DL通常分為兩種:監督學習,包括卷積神經網絡(convolutional neural networks,CNN)和循環神經網絡(recurrent neural network,RNN);無監督學習,包括深度置信網絡(deep belief networks,DBN)和自動編碼器(autoencoder,AE)。監督學習和無監督學習兩者之間的區別在于有無經過標注的訓練數據集。DL在眼科學領域應用最多的幾種常見模型主要有CNN、RNN和DBN等。
1.2.1CNN 20世紀80年代提出的CNN是經典的DL網絡之一,由卷積層、池化層和全連接層構成[22]。CNN最大的優點是具有良好的數據特征提取和學習能力,主要運用于生物醫學領域影像圖片識別、語音識別等[23]。
在CNN中,卷積層、池化層是神經網絡的特征抽取器,其中卷積層負責提取輸入數據的不同特征,池化層降低輸入特征的分辨率,連續地縮小特征圖,導致特征圖數目的增加,這起到二次提取特征的作用;全連接層連接在特征抽取器的后面,用來整合特征抽取器中具有類別區分性的局部信息,最后輸出結果[24]。全連接層會將特征抽取器提取到的二維特征圖壓縮成一維向量,從而使信息降維,更適用于整體圖像分類。而眼科影像圖像多為二維圖像,因此CNN通常是眼科學中研究DL的首選網絡算法。近年來,隨著CNN的發展,加速了DL在眼科醫學影像中的應用[25-27]。但是CNN需要通過大量且高質量的數據集來訓練才能得到一個運行良好的模型[28]。
1.2.2RNN RNN也叫遞歸神經網絡,主要由輸入層、隱藏層和輸出層組成,其特點為隱藏層之間是有聯系的。在每次運算時都會將前一隱藏層的輸出數據帶入下一隱藏層一起訓練,這樣就可以保持數據的時序關系,因此RNN通常應用于含有時序的任務[29],例如音頻分析和語言識別等[30]。但是此模型訓練困難,參數較多,調節不方便,往往會出現時序梯度消失或錯亂的情況,而且該網絡不具備特征學習的能力。
1.2.3DBN DBN是Hinton等[19-20]于2006年提出一種學習算法。DBN由多層神經元構成,層與層之間的神經元相互連接,但層內不相連[31],分為顯性神經元和隱性神經元[32],用來做特征分析。此外,DBN亦可用來生成數據。具有高靈活性、容易擴展、更加抽象地學習高層特征的特點,但應用范圍有限,網絡結構復雜。
1.2.4 基于CNN的改進網絡模型在CNN被提出之后,便引起了全世界各地研究人員的青睞。近年來相繼出現了基于CNN的改進模型:LeNet[33]、VGG[34]、GoogleNet[35]等,它們的出現使CNN在運算時避免了過度擬合的問題,并且在保證運算準確度的同時增加運算速度,此外CNN的改進模型具有更復雜的網絡結構,能夠計算更大的數據,得到更好的結果。
2.1 基于眼底照相應用DL對ARMD進行分析眼底照相是通過眼底照相機直接獲取眼底圖片的方法,具有檢查成本低、無痛苦與創傷、患者依從性高、圖片可數字化、可存儲與傳輸等優點[36-37],至今仍是ARMD最基本、最普遍的檢查方法之一,可以記錄病灶的情況和對病灶的發展進行隨訪觀察。
Keel等[38]使用大量的眼底照相數據集來開發和驗證DL算法,研究采用了56113幅視網膜圖像訓練DL模型,同時用另外的86162幅圖像以驗證DL模型。在驗證數據集中,DL對新生血管ARMD的檢測敏感性和特異性分別為96.7%和96.4%;對測試數據集進行測試,靈敏度和特異性分別為100%和93.4%。結果顯示該系統識別眼底圖像中的新生血管ARMD方面表現良好。Grassmann等[39]用了經過預處理好的120656張眼底圖像作為訓練集,并且在招募時排除了非ARMD威脅視力的疾病,此外還收集了來自奧格斯堡地區合作健康研究的5555幅眼底圖像,用于評估訓練后模型的性能。在驗證集中DL檢測到眼底圖像有明確的早期或晚期ARMD跡象的正確率有84.2%,優于人類分析結果。但與Keel的研究結果類似,DL模型易受除ARMD其他病理改變影響,對分析產生干擾。Peng等[40]使用DL模型先在5802張圖像上接受訓練,并在4549名參與者的縱向隨訪中對900張圖像進行了測試,最后將DL的識別準確度與眼底病專家相比:DL模型得出的平均準確度為81.8%,優于專家的77.0%。Matsuba等[41]用5000張超廣角眼底照相[正常:4130張,濕性年齡相關性黃斑變性(wARMD):870張]訓練得到DL模型,再用該模型測試了111張測試圖像(正常:69張,wARMD:42張),得到了100%的靈敏度和97.31%的特異性,并與6位眼科醫生診斷wARMD作對比,結果顯示DL模型的診斷準確率優于眼科醫生。
基于眼底照相應用DL對ARMD進行分析有不錯的效果,可輔助醫務人員對ARMD患者做出臨床決策。但DL模型會受到一些因素影響,Keel和Grassmann研究的假陽性眼底圖像中顯示有其他類型黃斑病變,說明DL在分析圖像時易受其他病理改變影響。此外,在屈光介質混濁的條件下得到的不清晰圖像,會降低DL模型的識別準確率性。近年來有研究在訓練DL模型時采用圖像清晰程度和來源不同的數據,以提高模型在真實世界中分析準確性,圖像質量問題可通過大量、廣泛且復雜的數據來訓練得以解決。此外,在2018年印度推出一種能行眼底檢查的智能手機,結合自帶的AI系統對眼底疾病識別的靈敏度和特異度分別為95.8%和80.2%[42],說明AI只要通過大量數據訓練還能在不同的條件下發揮識別功能,今后有望得到大規模且常態化的普及。但現階段的DL模型是否能適用于同時伴隨多種疾病的ARMD診斷能力仍未知。
2.2 基于OCT應用DL對ARMD進行分析OCT是一種非接觸性無創影像診斷技術,利用入射光束在不同眼組織上產生不同的反射強度,經過計算機處理成像,其具有無創性、分辨率高、成像快等特點[43]。研究表明,OCT檢查相比于其他檢查方法對黃斑的結構有更好的分辨力,對黃斑區疾病有更高的診斷精確度[44-45],有助于識別ARMD的重要體征,例如黃斑水腫、新生血管病灶等,是臨床上ARMD治療后隨訪的重要工具。
Treder等[46]利用多層深度卷積神經網絡(DCNN)對wARMD圖像和正常眼底圖像進行鑒別,實驗采用已經在ImageNet中的120萬張圖像進行預訓練的DCNN對1012張圖像(ARMD:701張,健康:311張)進行訓練,直到訓練集的準確率達到100%,之后利用使用DL框架TensorFlowTM,檢測100幅OCT圖像(ARMD:50幅,健康:50幅),最后結果為:敏感性100%,特異性92%,準確率96%。Rim等[47]模型開發了一種DL技術從OCT中識別伴有新生血管的年齡相關性黃斑變性(nARMD),用了來自韓國的12247張OCT圖像訓練模型,來自美國的91509張OCT圖像進行外部驗證。在外部驗證方面,AUC和AUPRC保持在0.952(95%CI:0.942~0.962)和0.891(95%CI:0.875~0.908)的高水平。DL除了可以將OCT圖像分類為正常和ARMD,還可以再從已經確診為ARMD的OCT圖像中分類干性或濕性ARMD。Motozawa等[48]對ARMD患者和健康對照組的1621個OCT圖像進行了研究。第一個CNN模型使用1382個ARMD的OCT圖像和239個正常OCT圖像進行訓練和驗證;第二個CNN模型使用了721個wRARMD圖像和661個干性年齡相關性黃斑變性(dARMD)圖像進行訓練和驗證。第一個CNN模型,得到了100%的敏感性、91.8%的特異性和99.0%的準確性的分類;在第二個模型,在識別ARMD有無滲出性變化中,敏感性為98.4%,特異性為88.3%,準確性為93.9%。Yim等[49]在一只眼睛被診斷為wARMD的患者中,引入了CNN來分析患者的OCT圖像后預測第二只眼睛進展為wRARMD的概率,結果該AI系統比5/6的專家表現得更好。鑒于一只眼的ARMD病史是另一只眼發病的危險因素,在臨床上醫生可通過發現OCT圖像中另一只眼早期微小病變來預測另一只眼ARMD的發生,DL可通過大數據的學習和管理來輔助醫務人員預測ARMD的發生,甚至可預測發展成早期或晚期ARMD的大概時間年限。
DL模型在分析OCT圖像中具有較高的準確性。種族、年齡和性別的不同可能會有不同的視網膜結構和外觀,然而Rim的模型在不同種族和地域的OCT中都有良好的分類性能,這證明DL模型的分類具有通用性。當OCT圖像出現偽影,或者當與其他眼部病理改變或中央凹病變相混淆時,DL模型分析OCT圖像的性能在現實環境中可能會降低。大多研究都是給數據集附上標簽后才開始訓練,但是現實世界中的OCT圖像是沒有標簽的。最近,Seebock等[50]使用無監督DL算法將OCT圖像分類為健康圖像、早期或晚期ARMD,并且能夠實現81.4%的診斷準確率,進一步完善無監督學習算法可能會減少對大型標記訓練數據集的依賴。
2.3 基于眼底照相合并OCT應用DL對ARMD進行分析目前的研究大多為基于眼底照相或基于OCT應用DL對ARMD進行分析、分類。有研究證明把眼底照相和OCT圖像結合分析,可做到兩種成像技術之間取長補短,最終可得到更精確的分類效果。Khalid等[51]建立了一個特別的模型,可以通過在OCT和眼底圖像之間建立對應關系來自動識別ARMD。該試驗分為3個階段:第一階段收集了100個人的眼底照相,并對每個人進行68次OCT掃描得到6800張OCT圖像,這些圖像被兩位眼科專家標記為健康、早期ARMD和晚期ARMD;第二階段先單獨對兩組數據進行分類,之后在OCT分析中,將圖像分類為正常圖像和ARMD,而被分類為ARMD的患者的眼底照相自動進入第三階段的分析;第三階段將自動進入第三階段的眼底圖像進行分析,分類為早期ARMD和晚期ARMD。DL模型在OCT圖像分析技術上分別達到96.4%、97.1%和96.19%的準確性、靈敏度和特異性;在同一數據集上的眼底圖像分析分別達到了86%、76.6和90%。當分析同時具有OCT和眼底圖像分析的融合系統時,它的準確度、靈敏度和特異性分別為98%、100%和97.14%。結果顯示融合模型較單獨模型具有更好的分類效果。Yoo等[52]經過數據擴充和訓練得到一種結合OCT和眼底照相的多模式DL模型對ARMD進行分類,僅使用OCT的DL診斷準確率達到了82.6%(81.0%~84.3%)。僅使用眼底的DL表現出83.5%(81.8%~85.0%)的準確率。將眼底與OCT結合使用可提高診斷能力,準確率達90.5%(89.2%~91.8%)。研究結果表明,由于眼底和OCT成像可在視網膜上提供互補的信息,因此將OCT和眼底照相結合的DL模型具有更好的效能。
ARMD是一種進行性且不可逆的損害,人工智能DL學習技術不僅有望幫助我們大規模地開展ARMD的早期篩查工作,還可以減少因醫務工作者的各種因素而給診斷帶來的失誤。AI的發展可能給ARMD的診斷帶來了安全性、可靠性、高效率以及普適性。不論是基于眼底照相還是OCT應用DL對ARMD進行分析,自動化算法都能發揮類似人類專家分級的作用,可以節省篩查或診斷ARMD時所需的大量人力成本和費用。
從目前的研究來看,雖然DL模型在實驗室環境中初步應用于ARMD輔助診斷獲得了較好的敏感性、特異性和準確性,但目前的DL技術應用于ARMD中仍存在以下缺陷:(1)需要很多且高質量的訓練圖像來訓練和驗證算法[53],才能有更高的泛化能力[54-55],同時需要計算機專業和醫學專業的人才來運行,導致其很難在全國普遍開展;(2)DL的學習過程本身是一種自動提取特征進行學習的過程,多由計算機工程師編輯算法而來,其工作過程是不透明、不可知的,即“黑匣子”性質[40]不符合醫學的可解釋性;(3)此外AI不能代替醫生與患者直接溝通,這可能會忽略了ARMD患者的一些重要病史;(4)其他結構或病理變化(例如其他病理性視網膜有關的病變)可能會影響DL模型對ARMD評估的性能;(5)現階段DL模型評估ARMD的研究僅為回顧性研究,是否能前瞻性應用于臨床仍存在不確定性。
研究已證實DL輔助醫生診斷ARMD是可行的,可能具有廣闊的應用前景。但是需要解決的問題仍有許多,可從以下幾個方面思考:(1)建立統一的權威研究機構和標準對過程進行評估和比較,同時規范化數據集的收集和管理;(2)培養有DL算法編程知識的醫學人才,使“黑匣子”透明化,建立一種無論是大醫院還是基層醫院的工作人員都能理解并操作的模型;(3)在今后還可以針對ARMD的治療效果、同時合并其他眼病的診斷等方面展開研究,增強在復雜情形下對ARMD的甄別能力;(4)可訓練結合多種輔助檢查分析ARMD的DL模型,提高模型的分類能力。雖然國內外學者在此領域中進行了很多的研究,展現了DL對ARMD等同于或好于人工的檢測性能,但仍需更深入地研究來解決一些問題,以建立適合于臨床廣泛應用的ARMD輔助診斷模型。