吳 星,黃燁霖,葉 子,馬 彤,陳羽中,王大江
1 解放軍總醫院第三醫學中心 眼科醫學部,北京 100039;2 北京鷹瞳科技發展股份有限公司,北京100089
青光眼是主要致盲性眼病之一,早期發現、及時治療可有效避免青光眼致盲[1-2]。然而,青光眼發病隱匿,絕大多數患者直到進入中晚期發現視功能障礙甚至視力喪失時才就醫。因此需要重視青光眼的早期篩查,早期干預可有效減少患者視功能損害。目前我國眼科醫生僅4.48萬,且存在眼科醫療資源分配不均的問題。現有三級醫療模式下,難以實現青光眼的早期發現、及時轉診、及時治療。人工智能(artificial intelligence,AI)或許可以輔助解決此困境。近年來,AI逐漸用于眼科醫學應用研究,通過計算機硬件、軟件對臨床數據進行模型訓練,以實現疾病的智能診斷和預測。在現有醫療模式下,應用AI模型輔助診斷青光眼病灶是緩解醫療資源匱乏、降低篩查成本的良好策略[3]。在我國青光眼診斷領域,人工智能病灶診斷系統尚處于起步階段。眼底圖像因其方便和相對經濟已成為大規模青光眼篩查的一種方法[4-5],本研究應用人工智能識別眼底圖像,構建快速無創輔助診斷青光眼病灶的系統,為實現青光眼早期篩查提供思路。
1數據集來源 選取2020年3月- 2021年4月在解放軍總醫院第三醫學中心完成眼底照相的4 000例受檢者的8 000張眼底圖片,提取年齡、性別、眼底圖片構建數據集。對數據進行脫敏處理和數據清洗,去掉與研究無關的、存在過度缺失的變量,并去掉剩余數據中存在明顯錯誤或數據缺失的病例,最終納入3 779例受檢者的6 837張眼底圖片。
2眼底圖像標注 建立人工閱片小組,利用醫學圖像標注系統對數據集中所有眼底圖像進行分期標注。人工閱片小組專家由3名副高以上職稱的眼科專家組成。每張眼底圖像由2名眼科專家獨立標注青光眼性眼底病灶,若出現相左意見,則由第3名眼科專家負責進行標注復核并出具最終標注結果。所有醫師閱片均以國內公認的青光眼視盤損害標準為準:早期,上方或下方盤沿輕度丟失,伴相應部位視網膜神經纖維層缺損(retinal nerve fiber layer defect,RNFLD);中期,上方或下方盤沿明顯丟失,伴相應部位RNFLD;晚期,上方、下方、鼻側或顳側盤沿明顯丟失,伴彌漫性
RNFLD[6]。
標注包含分割標注和分類標注。分割標注包括視杯、視盤及RNFLD區域劃分;分類標注包括青光眼分期的單標簽分類標注和病灶的多標簽分類標注。依據標準,本研究將青光眼分期的標簽分為非青光眼、早期青光眼、中期青光眼、晚期青光眼四個類別。病灶的分類標簽為局限性RNFLD、彌漫性RNFLD、視盤出血、視杯切跡。最終按青光眼分期的圖片數量分為非青光眼1 048張,早期青光眼2 725張,中期青光眼2 277張,晚期青光眼787張。
3人工智能青光眼病灶診斷系統 人工智能青光眼病灶診斷系統包含兩部分核心模塊。1)分割-分類一體化預測模型:該模型使用的卷積神經網絡架構是“分割和分類一體化的多任務學習神經網絡”(圖1)[7-8]。該網絡的輸入是長寬均為512像素的RGB眼底圖像,使用堆疊的卷積神經網絡層進行特征提取后,輸入到分割任務和分類任務兩個分支中,即可分別得到長寬為512像素的單通道分割結果及類別數為4的分類結果。采用隨機抽樣法生成訓練集和驗證集。使用訓練集、交叉熵損失函數及反向傳播算法進行監督訓練得到預測模型后,將眼底圖片輸入系統中進行識別,輸出分割預測結果和分類預測結果,即對眼底圖像中的視杯、視盤及RNFLD 3個區域進行分割,且從分類結果判斷是否存在局限性RNFLD、彌漫性RNFLD、視盤出血及視杯切跡病灶。

圖 1 分割和分類一體化的多任務學習神經網絡Fig.1 Multi-task learning neural network integrating segmentation and classification
2)杯盤比計算模塊: 計算模塊利用分割結果中的視杯區域信息和視盤區域信息,利用圖像處理技術得到垂直方向的杯盤比值(圖2)。

圖 2 杯盤比自動計算模塊Fig.2 Automatic calculation module of cup-to-disc ratio
最后將驗證集中的圖片輸入到訓練好的人工智能青光眼病灶診斷系統中,將輸出結果與專家手工標注結果進行對比,以評估該系統的性能。
4統計學方法 使用R 3.2.4 軟件進行統計分析。采用召回率(Recall)、精確度(Precision)、交并比(intersection over union,IOU)、準確度(accuracy)、敏感度、特異性、受試者工作特征曲線下面積(area under the curve,AUC)評估人工智能青光眼病灶診斷系統性能。性能指標為真陰性值(true negative,TN)、真陽性值(true positive,TP)、假陰性值(false negative,FN)、假陽性值(false positive,FP)、金標準中目標的區域(Garea)和預測結果中目標的區域(Parea),根據下述公式計算:

1數據集特征 將納入本研究數據集中的全部眼底圖片,按照訓練集∶驗證集為6∶4的比例劃分為訓練集4 102張,驗證集2 735張。其構成信息詳見表1。

表 1 數據集特征Tab. 1 Characteristics of dataset
2人工智能青光眼病灶診斷系統的分割性能 以專家手工標注結果為金標準,通過訓練集的訓練后,集中人工智能青光眼病灶診斷系統對分割性能驗證結果見表2。可見:1)在視杯分割預測結果上召回率平均為0.837,精確度平均為0.814,交并比平均為0.816,AUC平均為0.874;2)在視盤分割預測結果上召回率平均為0.928,精確度平均為0.926,交并比平均為0.916,AUC平均為0.941;3)在視網膜神經纖維層缺損分割預測結果上召回率平均為0.653,精確度平均為0.612,交并比平均為0.480,AUC平均為0.749。

表 2 青光眼病灶分割性能評估Tab. 2 Diagnostic performance of the artificial intelligent fundus analysis system for segmentation
3人工智能青光眼病灶診斷系統的分類性能評估
以專家手工標注結果為金標準,通過訓練集的訓練后,集中人工智能青光眼病灶診斷系統對分類性能驗證結果見表3。可見:1)在局限性RNFLD病灶預測結果上準確度平均為0.890,敏感度平均為0.896,特異性平均為0.638,AUC平均為0.893;2)在彌漫性RNFLD病灶預測結果上準確度平均為0.950,敏感度平均為0.744,特異性平均為0.961,AUC平均為0.901;3)在視盤出血病灶預測結果上準確度平均為0.966,敏感度平均為0.650,特異性平均為0.967,AUC平均為0.969;4)在視杯切跡病灶預測結果上準確度平均為0.951,敏感度平均為0.794,特異性平均為0.957,AUC平均為0.892。

表 3 人工智能青光眼病灶診斷系統分類性能評估Tab. 3 Diagnostic performance of the artificial intelligent fundus analysis system for classification
4評估青光眼疾病進展中的杯盤比變化 在驗證集中通過人工智能青光眼病灶診斷系統對不同分期的青光眼眼底照片進行杯盤比識別計算,杯盤比值隨青光眼視神經病變的進展逐漸增大,與疾病的臨床預期具有一致性。見表4。

表 4 青光眼疾病進展中的杯盤比變化Tab. 4 Change of cup-to-disc ratio in the progression of glaucoma
本研究基于人工智能眼底分析技術建立了青光眼病灶診斷系統,并利用該系統探索青光眼在疾病進展中的杯盤比發展情況。我們發現人工智能青光眼病灶診斷系統在視盤分割預測任務上,于青光眼視神經病變的不同時期均表現出優異的性能(Recalls> 0.921,Precisions> 0.914,IOUs>0.901,AUCs > 0.929)。但對中晚期青光眼分割性能表現相對差些,分析其原因可能是中晚期青光眼患者的視盤出現萎縮弧的比例更高[9-11],這對于人工智能系統判別視盤邊界有一定影響。在視杯分割預測任務上,于青光眼中晚期表現出較高的性 能(Recalls> 0.859,Precisions> 0.845,IOUs>0.834,AUCs > 0.896)而在早期及非青光眼中的分割性能表現相對較差(Recalls> 0.794,Precisions>0.733,IOUs> 0.764,AUCs > 0.824)。這可能與早期及非青光眼的淺視杯給人工智能系統判別視杯邊界帶來了一定困難有關[12]。人工智能青光眼病灶診斷系統在視網膜神經纖維層缺損分割預測任務上,于青光眼中晚期表現出的性能較早期及非青光眼期好。這是由于視網膜神經纖維層缺損區域伴隨青光眼的疾病進展而愈發顯現,當缺損區域邊界明顯時,人工智能系統更易捕捉[13-15]。柴家星等[16]研發了用于青光眼眼底照片視杯盤分割的改進 U-Net算法并將模型在公開的數據集(DRIONS-DB、RIM-ONE、DRISHTI-GS)中進行驗證,結果顯示在針對視盤區域分割任務中該算法模型的IOU分別為0.93、0.94和0.93;在RIMONE和DRISHTI-GS數據集上,針對視杯區域分割任務該算法模型的IOU分別為0.845與0.93,與眼科醫生分割結果相比,其算法模型依舊展現出優越性。這與本研究的人工智能青光眼病灶診斷系統在分割任務中性能的表現較為相似,側面證明了本研究的算法模型較為精準。
人工智能青光眼病灶診斷系統在病灶分類預測任務上,于青光眼疾病四期進展中均表現出較高的準確度(局限性RNFLD: Accuracys> 0.846;彌漫性RNFLD: Accuracys> 0.879;視盤出血:Accuracys> 0.929;視杯切跡: Accuracys> 0.899)。由于數據集中缺乏早期及非青光眼眼底照片的部分病灶陽性標注,本研究中缺乏部分敏感度、AUC指標計算。此外本研究結果顯示,人工智能青光眼病灶診斷系統自動識別和計算的杯盤比值,在青光眼疾病進展中呈現明顯的分布差異和規律性,這表明了杯盤比值是通過眼底照片診斷青光眼分期的重要因素之一,該測量結果有重要的輔助診斷價值。
目前,人工智能在青光眼領域的重要意義及應用前景主要在于篩查[17-20]。本研究在應用人工智能青光眼病灶診斷系統時做出的青光眼診斷和分期僅基于眼底照片判斷的視神經結構改變,所以在臨床進行青光眼疾病診斷時,還需要綜合考慮患者的病史、眼壓、解剖結構和功能等因素。在發展中國家,尤其是農村地區,對人群進行大規模的青光眼篩查在實踐中有一定的難度。基于遠程醫療的人工智能青光眼病灶診斷系統可以篩查出存在異常眼底體征的疑似青光眼患者,給予醫療建議轉診至上級醫院并為醫生提供輔助診斷,這有利于解決青光眼所帶來的公共衛生問題。考慮到用于內部驗證的數據集與用于模型訓練的數據集具有非常相似的特征,這可能會導致研究結果與實際情況有一定差異。因此,未來需要建立源自真實世界的大樣本量眼底數據庫對該人工智能青光眼病灶診斷系統進行外部測試及應用。總之,本研究應用人工智能眼底分析技術構建的快速無創輔助診斷青光眼病灶的AI系統,為實現青光眼大規模篩查提供了思路。