劉梟寅,梁宏,郭兆君,賀偉罡
1.國家藥品監督管理局 醫療器械技術審評中心,北京 100081;2.國家藥品監督管理局 醫療器械技術審評檢查長三角分中心,上海 201203
據統計2017年全球約有4.25億糖尿病患者,其中中國約占1.14億,超過1/3的患者會出現糖尿病視網膜病變(以下簡稱“糖網”)[1]。糖網是工作年齡人群第一位的致盲性疾病,早期干預可延緩病情發展避免致盲,早期干預的主要方式是定期的眼底照相檢查[2]。但目前我國87%的患者就診于縣級以下基層醫療機構,近70%未接受規范檢查[3],由于各種原因,又難以在基層配備足夠數量具備眼底檢查能力的醫生。近年來基于深度學習的糖網人工智能(Artificial Intelligence,AI)輔助診斷軟件首先于國外出現[4-5],國內也開展了很多相關研究[6-8],相關產品的出現為這一問題的解決帶來了希望。
近兩年在國內申請注冊的糖網AI軟件核心功能是采用深度學習算法對單張眼底照片進行糖網二分類,即判斷眼底彩照是否存在II期及以上糖網。II期及以上的糖網患者應轉診到專業眼科機構進行干預,II以下可留在基層醫療機構定期復查。不同產品支持的拍攝方式(散瞳或免散瞳)、拍攝范圍、相機種類等方面有所區別。AI對患者雙眼多張照片分析結果進行簡單邏輯運算后給出綜合結果,但不能僅憑AI診斷結果進行臨床決策,需要由醫生對圖像拍攝質量和診斷結果進行綜合判斷,報告簽字后生效,必要時需重新拍攝、修改結果。有些產品還具有一些輔助功能,如:自動圖像質量判定、糖網分級(給出每一級糖網分級)、眼底病灶識別,這些功能采用深度學習算法或常規模式識別算法。產品一般由客戶端和云端(或本地服務器)組成,深度學習算法運行在云端或本地服務器。
這些產品是否具有足夠的安全有效性并符合法規上市,需要藥監部門的把關。藥監局發布了《深度學習輔助決策醫療器械軟件審評要點》[9],為所有深度學習醫療器械軟件構建了監管框架,還有一些專家學者從倫理、標準、質量體系等方面探索評估方法[10-14],但國內外尚無專門針對糖網AI軟件評價方法。筆者所在的部門過去2年完成多個此類產品的審評,形成了對其安全有效性評價的方法。除常規軟件要求外,需要重點評估訓練數據質控、人機配合、算法性能評估、性能影響因素評估、使用限制說明、網絡安全等方面。上述方法有效地支持了產品上市前評估,為后續同類產品的審評提供了依據,并為類似產品的審評提供了一定參考價值。
深度學習算法需要優質和足夠的訓練數據以保證訓練質量,而醫療數據的標注專業性很高,因此需要充分評估算法訓練數據的質控過程,從源頭上保證算法質量[15]。應從“人機料法環”方面評估訓練數據采集、整理、標注過程的科學性和規范性,訓練、調優、驗證集劃分的合理性。
數據采集方面,重點關注申請人對采集人員、采集設備、采集過程的要求。采集人員應規定資質、培訓、考核要求。采集設備應明確所使用的相機的品牌型號、散瞳與否、拍攝角度、范圍、分辨率。采集過程應明確人員職責、采集步驟、結果審核等要求。采集到的原始數據應進行脫敏以保護患者隱私。若使用歷史數據,至少應明確采集設備的要求,對其他要求開展差異分析論證采集過程和標準的科學性、規范性。
數據整理方面,應明確預處理方式,如濾波、增強、重采樣、尺寸裁剪、均一化等,建議要求申請人使用典型圖片演示每步預處理后圖像的變化以便直觀了解。應明確棄用照片的規則和棄用的數量,以便于了解產品不適用的情形。
數據標注方面,應評估標注人員、基層設施、標注過程、質量評估是否科學規范。標注人員可區別于采集人員,按照一線標注人員、審核人員、仲裁人員分別制定選拔、培訓、考核的要求,要求通常逐級增高。基礎設施方面,眼底照相作為光學直接成像,標注環境宜與實際閱片環境一致,還應給出標注軟件的情況及其驗證確認。標注過程應以流程圖的形式給出,重點明確會對標注質量產生重要影響環節的細節,如標注規則及其合理性依據,持續保證一線標注人員標注質量的方法,審核和仲裁的規則。
數據集構建方面,需給出標注前基礎數據集和標注后劃分的訓練集、調優集、驗證集的樣本量和分布情況及其確定依據。樣本分布宜接近流行病學分布,應特別注意保證糖網I級、II級樣本的比例。樣本分布應充分考慮采集設備、主要采集參數(如散瞳與否、拍攝角度范圍)、來源醫療機構、合并其他眼底疾病/癥狀等因素,兼顧地域、年齡、性別等基線信息。為解決樣本分布不均衡問題,可對訓練集、調優集進行數據擴增,不宜對測試集擴增。若進行了數據擴增,應給出擴增數據集的樣本量和分布情況。
糖網AI軟件核心功能單一,結果明確,看似可以替代醫生,但其實是由于使用場景局限,反而更需要操作者充分了解產品的使用限制,二者各自需承擔的工作,合理配合,才能發揮產品優勢。國家衛健委印發的糖網分級診療技術方案希望發揮基層全科醫生承擔起糖網初篩任務[16],但目前很多基層醫生尚不具備相應能力,需要經過培訓以獲得拍攝和糖網分級的能力,在此基礎上再借助AI提升效率。
需要評估產品使用流程是否落實了“醫生負責,AI輔助”,說明書中是否充分提示了使用風險和使用限制,申請人應制定包括基本操作和上述關注點的操作者培訓和考核方案,并驗證方案的可行性,以證明人機交互良好。糖網AI軟件需要操作者完成的工作主要有圖像拍攝、圖像質量判斷(主要包括拍攝范圍、拍攝質量)、結果確認簽字,必要時還需要重新拍攝或修改結論。需要注意的是,有些產品雖然有圖像質量判斷模塊,但由于軟件驗證無法窮舉覆蓋所有不合格情況,仍需由醫生對圖像質量做最終判斷。
糖網二分類主要采用敏感性、特異性來考量算法性能,應一并給混淆矩陣,已批準產品的性能下限定在80%~90%。還可給出準確性、陽性預測值、陰性預測值、ROC-AUC等參數。糖網多分類的應給出各類的敏感性、特異性以及多分類的kappa系數。圖像質量評估輸出二分類的參考糖網二分類,輸出圖像質量評分的參考糖網多分類。
算法性能評估可基于自建測試集、臨床試驗數據集、回顧數據、真實世界數據、第三方數據集等。各測試集應明確用于產品測試的樣本量和樣本分布情況,明確數據收集、整理、標注的情況,特別是標注過程和標注規則,對于標注質控不佳、標注規則有差異的測試集不宜與其他測試集進行合并統計分析。列表給出基于各測試集的測試結果,結果應包含置信區間,分析測試結果之間差異的原因,進而初步識別出產品性能的影響因素及其影響程度。
算法性能影響因素評估是為了了解產品的泛化能力,若對于某項性能影響因素的泛化能力不佳,如處理某一機型圖片的性能低于預期,應視其影響程度在不同文件中增加使用限制。從目前申報產品來看,影響糖網二分類性能的主要因素有圖像質量、合并其他眼底疾病/癥狀、機型差異。為提高產品泛化能力,首先應盡可能保證訓練集針對各因素有充足的樣本分布,此外還應針對各因素建立子測試集,驗證算法是否具備了對這些因素的泛化能力。如同算法性能評估,各子測試集數據可以來自不同數據集,但只有標注規則相同的集合才能合并。
針對圖像質量,對于無論圖像質量評分高低均給出糖網分級的軟件,應對不同圖像質量評分的測試集進行測試,算法性能低于預期的,不宜在軟件中展示糖網分級結果,或在軟件界面和說明書中給出“圖像質量評分較低時糖網分級結果不可靠應由醫生自行判斷”的提示。
合并其他眼底疾病/癥狀,應明確算法訓練過程是否單獨考慮了其他疾病,并驗證是否符合設計,可以對合并與未合并其他疾病的數據集分別進行測試,分析性能差異是否均能滿足預期,是否出現顯著性差異。
針對機型差異,應對預期宣稱可處理其圖片的機型分別建立子測試集進行算法性能評價,單機型的圖像數量和樣本分布應具有一定的代表性,性能測試結果應滿足預期性能。
產品軟件操作流程、相機拍攝方式、操作者要求、產品性能、可達到預期性能的相機等方面的差異決定了產品的使用限制。在證明產品滿足基本安全有效性的前提下,為解決剩余風險的使用限制應在注冊證、產品界面、說明書等處給出。
在注冊證適用范圍中,強調不能僅憑本產品結果進行臨床決策,圖像質量應由醫生評價認可。產品的禁忌證為無法拍攝眼底照片的患者,其他禁忌證與眼底照相檢查相同。
在產品技術要求中,應給出經前期性能影響因素評估后允許對其圖像進行分析的眼底相機的型號。
在軟件界面中,AI分析結果界面應允許醫生修改,報告界面應有醫生簽字處以落實醫生責任。
在說明書中,應給出產品的所有注意事項,特別是結合前期的人機配合、算法性能評估、算法影響因素評估后得出的使用限制,如:① 產品僅用于檢測糖網,不用于檢測其他疾病,如果未檢測糖網,不意味著不存在其他眼部疾病;② 產品應由有資質的機構和人員按照說明書使用;③ 執業醫師應該結合軟件診斷、患者病史、主訴等各種信息綜合給出診斷意見,特別應關注患者眼部相關的疾病及做過的治療;④ 執業醫師應接受過相應培訓,產品使用中負責評估圖像拍攝質量和范圍是否符合診斷要求,AI診斷結果是否正確,必要時重新拍攝或修改結論。此外,作為新生事物還應簡述產品訓練過程、臨床試驗、網絡部署等以便用戶了解產品。
產品若部署在云端,云計算服務供應商視為供應商,除提交網絡安全描述文檔證實常規網絡安全風險可控之外,還需要提供云計算服務供應商出具的安全等級評測報告和信息安全管理體系認證證明,以證明所采用云計算服務的網絡安全風險可控。
在國內外沒有同類產品安全有效性評價方法和相關產品標準的情況下,本研究以現有軟件、網絡安全和深度學習的監管框架[9,17-19]為基礎,結合已獲批上市糖網AI軟件的特點,提出了安全有效性評價方法。已發布的肺炎CT影像輔助分診與評估軟件審評要點[20]也采用了類似方法制定,但由于產品特點差異,評價重點不同。本研究不是機械的套用深度學習審評要點,而是以人機配合和算法性能為切入點,提出了6方面重點評價內容,明確了糖網AI軟件上市前審評尺度,有效指導后續產品申報。
本研究針對眼底照相屬于直接光學成像,采集易受影響,圖像變異性大的特點,提出人機配合方面的評估要求。這一思路可供未來具有類似特點的產品借鑒,如直接成像的設備、需要連續處理(如內窺鏡)、使用者需要培訓才能具有資質或能力的產品。關于算法性能評估和性能影響因素評估,本研究提出了可將自建測試集、臨床試驗、回顧數據、真實世界數據、第三方數據集在滿足一定條件情況下重排形成不同的子測試集進行性能評估的思路,可供各類AI產品借鑒。本研究重視產品注意事項的呈現,提出對于上述環節發現的問題應根據其嚴重程度分別在注冊證、產品界面、說明書中給出相應的使用限制,這是解決產品剩余風險的重要手段。
上述評價方法主要針對目前我國已上市的基于眼底照片的糖網單病種AI產品,主要關注糖網二分類功能,未深入討論圖像質量判斷、病灶識別等輔助功能的評估。由于產品比較新,缺少定量的評價指標,本研究僅是基于當前認知的審評尺度,隨著研究的深入,希望未來能夠給出更多定量的評價指標。當前,眼底多病種AI病灶識別圈畫也在蓬勃發展,其評價方法有待進一步研究。
針對眼底糖網AI軟件,本文在現有深度學習算法監管要求框架基礎上,針對算法性能和泛化能力,提出了該產品安全有效性的評價方法,主要包括訓練數據質控、人機配合、算法性能評估、性能影響因素評估、注意事項說明、網絡安全等6方面內容。評價方法有效指導相關產品上市申報,并對類似產品的評價起到借鑒作用。