于偉泓,張 瀟, 吳 嬋,陳 歡,楊治坤,賀 峰,張枝橋,張碧磊,鞏 迪,王月麟,楊景元,李 冰,孫燕媛,馬亞靜,陸慧琴,夏 蔚,周 偉,張東磊,潘慶敏,楊 寧,王淑娜,孫曉蕾0,遇 穎,蘇 暢,萬 博,汪明啟,王 敏,陳有信
1中國醫學科學院 北京協和醫學院 北京協和醫院眼科 中國醫學科學院眼底病重點實驗室,北京1007302中日友好醫院眼科,北京 1000293西安市第一醫院眼科,西安 7100024蘇州大學附屬第一醫院眼科,江蘇蘇州 2150065天津醫科大學總醫院眼科,天津3000526山西醫科大學第一醫院眼科,太原0300017山東第一醫科大學第二附屬醫院眼科,山東泰安2710168徐州醫科大學附屬醫院眼科,江蘇徐州 2210049濰坊醫學院附屬醫院眼科中心,山東濰坊 26103510山東第一醫科大學附屬眼科醫院(山東省眼科醫院),濟南 25002111哈爾濱醫科大學附屬第四醫院眼科,哈爾濱 15000112承德醫學院附屬醫院眼科,河北承德 06702013北京市通州區潞河醫院眼科,北京10119914平頂山市第一人民醫院眼科,河南平頂山46709915咸陽市第一人民醫院眼科,陜西咸陽 712099
糖尿病視網膜病變(diabetic retinopathy, DR),是糖尿病的主要眼部并發癥,屬于不可逆的致盲性眼病。目前我國有DR患者3000余萬,DR的早期篩查與治療是目前急需解決的問題。近年來,隨著人工智能識別技術的興起,為解決DR篩查工作量大但眼底專科醫師短缺的矛盾,DR的人工智能輔助診斷技術逐漸成為研究的熱點[1]。目前已有多個DR人工智能研究團隊公開了旗下篩查系統,并自認為性能較好。例如,美國IDx團隊研發的DR人工智能篩查系統,該系統于2018年4月獲得了美國食品藥品監督管理局(Food and Drug Administration,FDA)的首個批準文件[1- 2],其研究成果主要基于Kaggle (https://www.kaggle.com/)、MESSIDOR 2(https://www.adcis. net/en/third-party/messidor/)等數據集[3],但此類數據集未充分考慮測試集設計與臨床適用性的適配度,測試集中數據質量參差不齊,缺乏規范的標準管控。國內也有多個團隊研發了DR人工智能系統,其中3家順利獲得了我國FDA器審中心的審核批準(https://www.nmpa.gov.cn/ylqx/ylqxjgdt/2020081009 3435157.html),但這些成果的研發與驗證主要是基于研發團隊自行建立的數據集,均未公開,因此無法對不同的軟件性能進行“頭對頭”比對。
基于實際臨床應用場景的DR測試集在我國乃至全球尚屬空白,北京協和醫院眼科基于真實世界數據,構建了DR眼底彩照人工智能研究標準數據庫,并于2019年7月將數據庫中1.5萬張圖片發布于人工智能醫療器械創新合作平臺,可作為人工智能研究的開發和驗證(http://www.aimd. org.cn/newsinfo/615994.html? templateId=506998)。本文從該標準數據庫的數據構成、建庫規范、初建規模、審核管理、更新規則、使用規則、日常管理等進行全方位闡述。
考慮到數據庫應具有代表性,因此圖像采集來源于真實世界,覆蓋目前臨床常用的眼底彩照相機型號,且眼底圖像的內容考慮到各DR分期的分布以及圖像質量、合并其他病變等混雜因素。
標準數據庫最終納入來自全國8個省/直轄市(陜西省、山東省、江蘇省、天津市、黑龍江省、河南省、河北省、山西省)14個地區真實世界連續采集的糖尿病患者后極部眼底彩照1.5萬張,每只眼一張后極部眼底彩照。照相機涵蓋了目前市場主流的眼底照相機機型,包括Canon CF- 1、Canon CR- 2、Daytona P200T、Kowa Nonmyd D7、Kowa Nonmyd WX 3D、Kowa Nonmyd α-DⅢ、SUOER SW- 8800、Topcon 50IX、Topcon TRC- 50IX、Topcon TRC-NW300、Zeiss FF450、Zeiss VISUCAM 500。
標準數據庫包含無DR、輕度非增殖性DR、中度非增殖性DR、重度非增殖性DR、增殖性DR、激光治療后DR等各個病程的眼底彩照,同時結合真實世界數據采集情況,納入了圖像質量差、不適合標注的眼底彩照,以及合并其他眼底疾病的DR圖像。
數據庫對圖像質量進行了明確要求,包括圖像采集部位、覆蓋范圍、分辨率等。圖像采集部位要求40°~55°拍攝的眼底后極部(包括視盤和黃斑區)眼底彩照一張,以黃斑與視盤連線中點為中心的圖像最佳;以全分辨率保存數字圖像,圖像文件要求為無損壓縮的JPG/JPEG/BMP/PNG等格式,像素要求不低于30像素/度。
圖像收集后需對圖像進行數據脫敏和預處理,數據脫敏時去除數據中的敏感信息,預處理則為減少數據中的缺失值、噪音及無關信息的干擾,提高數據質量。本研究中心采用ImageMagick軟件進行完全脫敏(100%脫敏),刪除圖像文件命名與圖像中的敏感隱私信息,保證數據安全(圖1)。

圖1 數據脫敏過程
數據預處理是指對所收集的數據進行分類或分組前的審核、篩選、排序等處理。本研究中心采用OpenCV軟件進行預處理,裁剪時,僅對圖像的尺寸進行統一化,并未對圖像進行壓縮或處理,對圖像質量無影響。眼底圖的有效影像內容在一個圓形視野內,通過Python工具讀取圖像三通道信息確定視野的圓心和直徑,按照圓形外接正方形截取圖像,把圓外部分全填充為黑色,并把處理結果保存至新的目錄且采用新的名稱,以減輕后續標注和模型訓練的人工干預及編程工作量。
2.3.1 標注人員資質及分組
本數據庫數據由北京協和醫院眼科閱片中心眼底閱片團隊進行標注。考慮不同環節的工作量和人員資質差異,標注工作由標注醫師(眼底專業研究生學歷、住院醫師及以上職稱且從事眼底病相關工作至少2年)、評估醫師(主治醫師及以上職稱且從事眼底病相關工作3~5年)和仲裁專家(副主任及以上職稱且從事眼底病相關工作至少8年)3級醫師參與。對標注團隊人員進行統一培訓,所有醫師經考核合格后方可進入正式標注環節。
標注以小組方式進行,即一張圖片由小組中多人閱片。每小組應由奇數閱片人員組成(如3人、5人、7人)。以3人為一組的標注模式通常采用以下方案:(1) 2名標注醫師相互獨立標注,標注結果一致的圖像直接入庫;標注結果不一致時進行分歧討論,討論后結論達成一致則圖像入庫,若無法達成一致,則引入第3人(仲裁專家)再次進行討論,討論達成多數一致則圖像入庫,討論無法達成一致,則剔除圖像。(2)3名標注醫師相互獨立標注,標注結果達成多數一致的圖像直接入庫;完全不一致時進行分歧討論,討論后結論達成一致則圖像入庫,若討論無法達成一致,則剔除圖像。(3)3名標注醫師相互獨立標注,標注結果達成多數一致的圖像直接入庫;完全不一致時進行分歧討論,討論后結論達成一致則圖像入庫,若無法達成一致,引入第4人(仲裁專家),圖像結論以仲裁結果為準。本數據庫采用前2種方案。
2.3.2 標注設備要求
數據標注所用顯示器的相應要求:彩色顯示器,分辨率大于1366×768,使用尺寸大于15英寸,標注時將屏幕調至最大亮度,標注界面背景為黑色。
2.3.3 標注標準的制定
圖像標注內容一般包括:(1)圖像質量判定標注;(2)病灶標注(可選,若數據庫不要求則可不標注,根據任務需求決定);(3)DR分級標注。
本中心數據庫圖像質量級別的定義符合谷歌采用的圖像質量分類標準。DR與病灶的分級標注依據2003年美國眼科學會提出的國際臨床DR嚴重程度分級及糖尿病黃斑水腫嚴重程度分級標準。
數據庫建庫過程的各個階段均要求對參與人員進行先期培訓,考核合格者方能承擔相應工作。
數據采集階段,要求圖像收集人員是接受培訓并考核合格的眼科工作人員(技師或眼科醫生),持有技師資格證書或醫師資格證書。
數據標注階段,標注醫師首先獨立觀察圖像質量是否合格:若不合格,則在圖像上標注相應分級(5或6),即完成標注;若合格,則首先標注相應分級(1~4),然后再對圖像進行DR分級,且在圖像上根據DR分級標出相關病灶。每完成一個標注時段,由評估醫師對此時段所有獨立標注的結果進行標注質量評估:先以所有標注醫師DR分級標注結果的中位數作為標準,然后計算每個標注醫師的Kappa值。Kappa 取值于閉區間[-1, 1],但通常落在[0, 1] 上,一般可用以下6個等級衡量其一致性:[-1, 0]視為不一致,(0, 0.2]視為一致性極低,(0.2, 0.4]視為一致性一般,(0.4, 0.6] 視為一致性中等,(0.6, 0.8] 視為高度一致,(0.8, 1]視為幾乎完全一致。Kappa值為(0.6, 1]視為標注合格,[-1, 0.6]視為標注不合格,需重新標注,同時標注人員也應重新培訓,考核通過后方能繼續標注任務。
當數據庫新建或更新時,需要進行數據庫審核,通常包含內審和外審。
本數據庫內審人員為北京協和醫院眼底專業副主任醫師及以上資質人員。外審人員為來自全國10家三級甲等醫院具有豐富閱片經驗的眼底專業主任醫師,1人擔任審核組長,9人參與閱片。按8%~10%的比例隨機抽取數據庫的圖片,進行分組獨立閱片,數據庫既有的標注結果與專家審核結果的Kappa值為審核標準。
本數據庫國際分期標注結果與專家標注結果一致性的Kappa值為0.968,一致性等級為“幾乎完全一致”。
人工智能軟件除滿足臨床試驗研究要求外,還需遵守國際標準化組織制定的人工智能研究標準化規范[1,5]。配合各人工智能軟件的不同預期用途,數據庫可排列組合成不同的子數據庫,以滿足各種DR人工智能系統的測試需求。
本數據庫的不同排列組合列舉如下:(1)有/無DR;(2)DR需要轉診/無需轉診;(3)DR國際分期(0期、1期、2期、3期、4期);(4)有/無激光治療的DR;(5)合并/不合并其他病變的DR;(6)圖像質量良好可以進行標注/質量差無法標注;(7)上述分類的各種組合。
數據庫安全管理需符合統一標準原則、全程管控原則、安全共享原則,確保數據庫的真實性、完整性、時效性。數據存儲、數據傳輸與數據使用由授權的指定人員操作并及時記錄。
數據庫采用動態更新的方式以保證數據庫的科學性。根據真實世界研究結果及臨床實際需求,每年將動態更新通過國內同行專家外審的1000張圖片。
數據庫從計劃執行到搭建至今,陸續形成了一套體系文件和記錄,規范了標準數據庫全生命周期的各項活動,如數據采集、數據脫敏、數據預處理、數據標注、標注培訓、數據安全、數據庫管理、數據庫審核等過程,并要求如實、及時完成相關記錄。
作者貢獻:陳有信為項目總負責人和總策劃;于偉泓負責數據庫的策劃與具體落實;張瀟、吳嬋、 陳歡、楊治坤、賀峰、張枝橋負責閱片與質量控制;張碧磊, 鞏迪、王月麟、楊景元、李冰負責數據標注;孫燕媛、馬亞靜負責數據庫管理與建庫過程記錄;陸慧琴、夏蔚、周偉、張東磊、潘慶敏、楊寧、王淑娜、孫曉蕾、遇穎、蘇暢、萬博、汪明啟、王敏負責真實世界數據收集。
利益沖突:無