中國醫學科學院醫學信息研究所 醫療器械與藥物戰略情報研究室,北京 100020
近年來,人工智能技術在醫療器械領域的應用發展迅速,為多種疾病的診斷、慢性病的監測與管理提供了更為高效的技術手段[1-2],而人工智能醫療器械的注冊審批是決定該技術能否產品化、獲得市場準入并進行規模化臨床應用的前提條件。不同于傳統醫療器械,人工智能醫療器械具有迭代速度快、算法可釋性差、對診療影響較大等特點,產品審批涉及產品劃分、算法評估、臨床評價、數據處理等多方面內容,難度較大,對管理機構和人員在審批途徑、方法、指標等方面的選擇提出挑戰[3-4]。
2017年8月,美國出臺《數字健康創新行動計劃》 (Digital Health Innovation Action Plan),提出要鼓勵創新,提高管理效率,實現監管現代化[5]。作為醫療器械的監管機構,美國食品藥品監督管理局(Food and Drug Administration,FDA)認為傳統審批程序不能很好適用于人工智能醫療器械產品,計劃通過開展軟件預認證試點項目等改革探索,創新審批模式,提高對產品上市后真實世界數據的利用效率,為上市前審批創造較為寬松的空間,并在上市后持續保障產品的安全、有效[6-7]。與此同時,FDA針對人工智能醫療器械傳統途徑審批也已展開,多種用途產品陸續上市,已積累一定審批經驗。本研究旨在通過對FDA人工智能醫療器械準入制度的改革創新和已上市產品審批與應用的分析,總結前沿監管思路與方法,以期為我國行政管理部門和制造商對人工智能醫療器械產品的監督與管理提供參考。
1976年美國通過《醫療器械修正案》(Medical Device Amendments)[8],提出對醫療器械上市前和上市后監管的理念,建立了以產品風險為依據的醫療器械分類管理制度,將醫療器械按照風險程度分為Ⅰ—Ⅲ類[9]。FDA對Ⅰ類低風險產品實行一般控制,除極少數產品外,大多數Ⅰ類產品僅需備案管理,而不需要進行上市前通告[510(k)];Ⅱ類為中等風險產品,FDA對其實施特殊控制,需要進行510(k)審批,將擬申報醫療器械與已上市的參照器械在功能、性能、技術等方面進行對比,通過實質等同證明申報器械的安全性和有效性,從而獲準上市,也有少量Ⅱ類產品可豁免510(k);對于Ⅲ類高風險醫療器械,FDA則要求制造商進行更為嚴格的上市前審批(Premarket Approval Application,PMA)[10]。目前美國上市的人工智能醫療器械多數屬于Ⅱ類中等風險醫療器械。
從頭開始(De Novo)通道是FDA針對高風險以外的醫療器械新品種提供的審批通道,設立于1997年,同510(k)與PMA一樣,依據法律框架《聯邦食品、藥品和化妝品法案》 (Food Drug & Cosmetic Act)下的條款513(f)(2)設立[11]。FDA規定企業進行510(k)申請時,在收到沒有實質等同(No Substantial Equivalence,NSE)通知的30天內,可以提交De Novo申請,請FDA對器械進行風險評估并分類,按照實際風險類型的要求進行審批。FDA會對產品使用的收益和風險進行衡量,給出是否通過的決定[12],如果De Novo被批準,不僅該器械會被允許在美國市場銷售,還會隨之建立一個醫療器械新類型,后續同類產品則可以使用該分類以510(k)途徑進行上市前申請[13]。在此通道設立前,無論產品風險高低,只要已上市產品中不存在相同類型,就需要提交Ⅲ類器械的PMA申請。De Novo通道的設立加快了中低風險創新醫療器械的審批效率,降低了產品的上市成本。2016年,根據美國《21世紀治愈法案》(21st Century Cures Act)[14]的新規定,制造商可自行就是否存在同類型上市產品做出判斷,不再需要提前獲得FDA的NSE即可提交De Novo申請。
為應對人工智能軟件快速持續學習、不斷進化等特性所帶來的監管挑戰,FDA于2017年啟動了軟件預認證試點項目,提出將嘗試建立基于制造商質量與組織卓越文化(Culture of Quality and Organizational Excellence,CQOE)的審批模式,作為完全基于產品的傳統審批模式的選擇性補充(圖1)。該項目旨在通過對制造商及其產品上市后表現及管理行為的收集,評估制造商是否已建立CQOE,能否做到保障軟件在全生命周期內的安全、有效[15]。2017年FDA已從100家制造商中選出9家參與首期項目,其中包括蘋果、羅氏、Fitbit、強生等,并著手進行更多制造商的評選[16]。
2019年,FDA公布軟件預認證試點項目1.0版工作模型,根據流程,FDA將先對軟件制造商的卓越性進行評價,從企業資源、用戶使用、學習與成長和管理過程四個角度評價企業在患者安全、產品質量、臨床責任、網絡安全責任和前瞻性文化五個方面的管理水平和既往表現,評價問題多達140余項。經認可的制造商也將被分為兩級,具有卓越文化且軟件監管經驗較多的制造商被評為二級,其低風險和中等風險產品不再需進行FDA上市審批;而具有卓越文化但軟件監管經驗較少的制造商為一級,僅低風險產品不需要審批。

圖1 FDA軟件預認證試點項目產品監管模式
經認可制造商仍需要審批的產品將通過流程化程序進行審批,FDA將參考制造商在CQOE評估中提交的產品資料,結合制造商在證明產品分析性能、臨床表現和安全性測量方面提交的材料,給出最終審批決定。FDA希望在流程化審批中更早介入與制造商的互動以提高審批效率,縮短上市所需時間。
預認證項目框架另一特點在于重視上市后真實世界的產品表現和受管理情況。經認可制造商在產品上市后需要持續關注產品表現,收集用戶體驗、產品性能、臨床結果等數據,并持續保障產品的安全性,解決出現的風險問題。此外,制造商在CQOE申請中所聲明和承諾的內容也將在產品上市后的管理中由FDA進行核實與查證。
FDA將數字醫療器械軟件主要分為四類,即醫療器械獨立軟件、移動醫療應用程序、臨床決策支持軟件和醫療器械數據系統[17-18]。前三種軟件涉及疾病檢測、監測、診斷、治療等功能,是目前運用人工智能技術的主要軟件類型。FDA參考國際醫療器械監管機構論壇標準,根據軟件所申明的用途和所針對疾病的嚴重性對其進行風險分類[19]。而最后一類軟件功能以醫療數據的儲存、傳輸和管理為主,通常作為低風險軟件管理,不作為人工智能軟件監管的重點。
以獨立軟件為代表的人工智能醫療器械在使用過程中會根據真實世界數據和反饋不斷自我學習與進化,FDA希望能根據軟件特性制定新的管理框架和監管范式,在不影響產品上市后安全性和有效性的基礎上,允許其在一定程度內學習和進化以提高軟件性能,且不需要重新審批[20]。2019年2月,FDA發布了《人工智能醫療器械獨立軟件修正監管框架(討論稿)》(Proposed Regulatory Framework for Modifications to Artificial Intelligence/Machine Learning (AI/ML) -Based Software as a Medical Device Discussion Paper),提出對人工智能獨立軟件進行全生命周期監管的思路與方法[21]。FDA認為人工智能軟件持續的改進和迭代可以遵循以下原則:① 制造商需要建立質量標準監管系統,以及包括數據管理、特征抽取、訓練和評價在內的機器學習質量管理規范;② 制造商可以在提交上市申請時同時提交產品在使用時發生“學習”后,性能等方面預期發生的變化,并提供產品發生預期變化后仍保持安全性和有效性的方法;③ 當產品發生預期變化后收集資料做好記錄,如產品發生預期外變化則需與FDA溝通,將變化控制在預期之內或提交新的預期變化申請;④ 加強管理透明度和產品真實世界性能監測,并提交周期性報告。
自2017年美國第一個人工智能醫療器械軟件上市以來,該類型器械在FDA的審批數量持續上升,截至2019年底,已有數十種產品通過審批進入市場,主要審批途徑為510(k)和De Novo。這些獲批產品的主要類型包括放射診斷器械、臨床化學檢測系統、心血管診斷和監測器械、神經病學診斷器械和眼科診斷器械等,其中以醫學影像診斷軟件數量最多,用途包括多種疾病診斷(表1),而目前上市的產品基本為“鎖定”算法軟件[22]。
2.1.1 影像分析輔助診斷軟件
2017年1月,FDA批準了首個人工智能醫療器械軟件Arterys Cario DL,該軟件可以通過對心臟血流和血管的核磁影像數據的分析,為醫生和專家提供臨床決策支持。無論是從產品名稱還是產品的對外宣傳都可以發現這是一款應用了深度學習技術的人工智能軟件,然而在FDA發布的產品概要中卻沒有關于算法的描述。而且,這款產品的審批通道是510(k),其選擇進行實質等同對比的兩款參照器械也并未說明是人工智能軟件。一年后該公司用于腫瘤學輔助診斷的產品Arterys Oncology DL上市,此次的產品概要中就明確提出應用了深度學習模型。
ContaCT是FDA通過De novo通道獲準上市的第一個影像計算機輔助分級提示軟件,它通過人工智能算法對腦血管CT影像中閉塞的大血管數量進行分析,將超過閾值的影像返回醫生進行復核,醫生可以通過移動應用程序預先瀏覽這些圖片的壓縮版。軟件概要在用途的說明中明確表示,不會在圖片上做任何標記和提示,也不做出任何診斷,是醫生標準診斷流程的額外輔助。為驗證產品的有效性,制造商用300張腦血管CT影像對產品進行測試,并將產品判斷結果與多位神經放射學專家讀片標定的真實結果進行比較,結果顯示產品ROC曲線下面積(Area Under Curve,AUC)為0.91,靈敏度和特異性分別為87.8%和89.6%。此外,制造商還進行了產品檢測時間與傳統流程下檢測時間的對比,證明該產品的使用可以提高醫生的診斷效率。FDA基于該軟件設置的新分類為影像計算機輔助分類提示軟件,此后又有多家公司的數款產品以該分類通過FDA準許上市,功能包括乳腺癌檢查等。
OsteoDetect是一款影像計算機輔助骨折診斷軟件,通過對成人后前位和側位手腕X射線影像的分析,輔助醫生識別橈骨遠端骨折。產品使用深度學習算法,通過三層結構運行,即網絡層、表示層和決策層。制造商對使用該產品醫生和未使用該產品醫生診斷結果的AUC、靈敏度、特異性、陽性預測值、陰性預測值等數據進行對比,以證明OsteoDetct可以輔助醫生進行診斷。
2.1.2 心電數據監測與診斷軟件
AI-ECG Platform是FDA以510(k)通道批準上市的人工智能心電圖產品,其功能是進行12導聯心電圖數據的測量和自動化結果的分析與解釋,為醫生提供心率不齊、心肌梗塞、心室肥大等心臟異常的判斷。醫生可自行在軟件判斷的基礎上做出確認、修正或刪除的決定。該產品選擇與兩種參照器械分別在數據測量和數據分析上實質等同,其中一種是同公司的心電圖產品,另一種是2005年上市的可編程心電圖診斷軟件。AI-ECG Platform雖引入了人工智能算法,在算法上與參照軟件有所不同,但產品預期功能不變且未引入影響安全性與有效性的新問題,FDA則仍判定該產品與已上市的參照器械實質等同。同樣以510(k)通道獲準上市的產品還包括KardiaAI等。
作為人工智能移動醫療應用程序的代表,Apple公司的兩款配合其智能手表使用的非處方移動醫療應用程序ECG APP和Irregular Rhythm Notification Feature也通過FDA的De Novo通道獲準上市,分別用于心率失常的識別和基于不規則心率的心房纖顫提醒。通過可穿戴設備獲取并分析生理數據,用于特定疾病的監測也是人工智能器械的重要應用方向之一。
2.1.3 糖尿病視網膜病變診斷
IDx-DR是由FDA眼科評審專家組以De Novo途徑審批通過的首個糖尿病性視網膜病變診斷軟件,基于該軟件設立的新分類為視網膜診斷軟件。IDx-DR采用基于服務器的自適應算法,通過對眼底照相機獲得的眼底彩色圖像進行識別,判斷視網膜病變及其程度,并由軟件自動給出檢測出輕度以上糖尿病視網膜病變(more than mild Diabetic Retinopathy,mtmDR)、未檢測出的mtmDR或圖片質量不足以進行判斷的結果,但該軟件僅用于已確診糖尿病但從未檢測出糖尿病性視網膜病變的成年患者。軟件從FDA收到De Novo申請到審批上市歷時僅3個月。
2.1.4 生化數據監測與疾病預測軟件
DreaMed Advisor Pro是由FDA臨床化學評審專家組審批通過的胰島素療法調節器械,也是該分類下的第一款產品。該產品根據I型糖尿病患者的動態血糖監測、自我血糖監測和胰島素泵數據的計算,就患者胰島素泵使用的基礎輸注率、碳水化合物比率、校正系數以及患者行為做出優化建議,輔助醫生進行臨床決策。制造商提供了兩組短期小規模臨床試驗數據,其中一組為15人的多中心試驗,對比針對同一患者產品和專家所給出的建議結果,另一組為6人的單一中心試驗,對比應用產品和專家的決策方案后,血糖的數據情況,結果證明DreaMed Advisor Pro與內分泌專家給出胰島素使用方案基本相似。
DIP/U.S. Urine Analysis Test System是FDA通過510(k)途徑上市的一款家用尿檢測處方軟件,由應用程序、色板和尿檢測試劑條組成,用于半定量分析尿樣本中的葡萄糖、蛋白質、血、尿液比重和pH值,以及定性判斷尿中是否含有亞硝酸鹽。該軟件可以輔助醫生管理并診斷影響腎臟功能導致內分泌失調的代謝性疾病或系統性疾病,而患者端是無法看到檢測結果的。該軟件圖像識別算法運行時基于后端的云計算服務器,運用服務器端算法進行數據分析,輸出檢測結果。制造商通過兩組試驗對產品的精確性、可用性、準確性、穩定性、干擾、檢測極限等指標進行評價,結果表明其各項性能皆優于其選擇的參照器械,從而證明實質等同。此后,該公司用于檢測尿液中白蛋白和肌酐的軟件ACR LAB Urine Analysis Test System也通過相同途徑獲準上市。

表1 FDA批準上市的典型人工智能醫療器械(軟件)
2.2.1 按產品功能分類
無論從分類編號還是參與評審的專家組來看,美國人工智能醫療器械的審批與其他醫療器械一樣,根據產品的功能與用途進行分類。一些影像輔助診斷產品在功能未發生改變的情況下,雖引入了人工智能算法,但仍能被視為與十余年前上市的參照器械等同,通過510(k)途徑獲準上市,不需要開展大規模臨床實驗。具有新的功能和用途的中等風險人工智能醫療器械通過De Novo途徑上市后,也將為其后續具有相似功能的產品建立新的分類,并將成為后續產品的實質性等同的參照器械,從而加快產品的上市速度。
2.2.2 未突出算法解釋
雖然FDA對Ⅱ類特殊控制的人工智能器械提出了算法說明要求,但從目前獲準上市器械的概要文件中可以發現,產品對于算法部分的描述較為簡單且沒有統一標準。部分產品明確提出運用了人工智能技術或機器學習、深度學習、卷積神經網絡等算法、模型,而部分產品僅提到算法,甚至少量產品未對算法進行描述,這個現象在影像輔助診斷以外的產品中尤為明顯。制造商大多通過短期、小規模臨床實驗從產品的靈敏度、特異性等角度證明產品性能優于已上市參照器械,且在用途上未引入其他風險,即可獲得實質等同的判定。
2.2.3 數量與種類快速增長
近年來,美國人工智能醫療器械上市產品數量快速增長,除本土產品外,以色列、意大利、中國等多個國家都已有產品在美國上市,這一方面說明美國市場的巨大吸引力,另一方面也肯定了美國注冊準入制度的效率。從已上市產品來看,人工智能軟件的分類代碼不斷增加,既有通過De Novo審批途徑后新設立的,也有既有類型產品在技術改進后引入人工智能技術的,已實現了多種疾病的監測、診斷和檢測。此外,該領域還存在同一家公司產品用途迅速擴展的特點,Zebra Medical Vision僅在2019年就有顱內出血、氣胸、胸腔積液等多款產品相繼上市,而Aidoc Medical的BriefCase也從首款顱內出血診斷產品陸續實質等同出大血管閉塞診斷等多種產品。
從監管制度建設與產品上市進展來看,美國人工智能醫療器械的發展仍處于起步階段,器械上市審批仍沿用傳統審批程序,已上市的數十種產品應用范圍僅包括癌癥、心腦血管、眼科和骨科等領域小部分疾病的輔助診斷、檢測和監測。但同時,該領域發展受到聯邦政府的高度重視,上市產品數量與用途迅速增長,注冊審批經驗不斷積累,多個針對人工智能特點制定的審批模式正在探索、試點階段,管理當局希望能通過對制度的創新和對上市后真實世界數據的有效利用,繼續加快產品上市速度,保障產品使用安全,并順應產品特點,允許其在上市后繼續“進化”。
相比于美國,中國人工智能醫療器械的準入管理更為嚴格,2018年8月正式施行的新版《醫療器械分類目錄》對于診斷功能軟件有著明確界定,通過算法對病變部位進行自動識別并提供明確診斷提示的軟件,按照第Ⅲ類醫療器械進行管理[23]。基于此分類原則,目前國內提交申請的大部分新一代人工智能醫療器械都將被判定為第Ⅲ類器械進行注冊與監管,需要進行嚴格的臨床試驗。此外,雖然中國在2015年發布的《醫療器械臨床評價技術指導原則》中就已提出同品種評價的概念,但鮮有產品通過該評價方法獲批上市,所以美國常用的實質等同審批在我國較難實現[24]。我國醫療器械管理存在“嚴進寬出”的特點,上市后監管力度不足,數據難以獲得和利用,依靠上市后數據和CQOE輔助評價的“美國模式”在當前階段也并不適用。我國人工智能醫療器械管理需要借鑒國外已有經驗并結合我國行業發展特點,就國內外器械研發方向盡快建立目標疾病的測試數據庫,從產品的試驗設計、臨床表現、工作流程和數據安全管理等方面做好上市前評價,并逐步完善上市后監管機制,積累器械全生命周期管理數據和經驗,為領域長期發展做好準備。
目前,國家藥品監督管理局及其下屬機構已發布《深度學習輔助決策醫療器械軟件審評要點》《醫療器械生產質量管理規范附錄獨立軟件》《醫療器械軟件注冊技術審查指導原則》等臨床與注冊指導性文件[25-27],并已著手進行眼底影像、肺部影像等數據庫的建設。截至2020年底,我國已有8個國產和1個進口人工智能醫療器械通過審批并在國內上市,類型包括眼科圖像診斷、心電數據監測與診斷、生化數據監測和影像分析輔助診斷等軟件和器械。