蘇 毓 覃開舟 許 健 劉如琦 徐 婷 陸 陽 呂文文 渠田田 沈恩璐 黃雪群 陳召霞 馮鐵男
1.復旦大學附屬婦產科醫院信息科,上海 200082;2.上海交通大學醫學院附屬新華醫院信息科,上海 200092;3.上海交通大學醫學院臨床研究中心,上海 200025
研究者發起的臨床研究(investigator-initiated trial,IIT)是指醫療衛生機構開展的,以個體或群體為研究對象,不以藥品、器械注冊為目的,研究疾病診治及健康維護活動的研究[1,2]。IIT 研究基本覆蓋臨床診療中患者的各項需求,源于臨床醫生具體實踐而非商業驅動,對推動國家診療水平的發展意義重大[3]。由于當前IIT 研究仍然缺乏成熟的支撐體系[4],相比于制藥企業發起的注冊臨床試驗(industry-sponsored clinical trial,IST),能夠獨立完成大規模、高質量IIT的研究者不多。電子數據采集(electronic data capture,EDC)系統是臨床研究支撐體系的重要組成部分,其中REDCap(research electronic data capture)在國際上廣泛使用,幾乎是當前IIT 的首選工具,支持開展了1 萬多項以IIT 為主的臨床研究[5]。但隨著IIT 的發展,REDCap 在功能上也需要提升。本文將基于IIT需求、REDCap 及現有主流EDC 系統,從EDC 標準、功能擴展度、維護成本等維度,對未來高效支持IIT的EDC 系統建設進行闡述,為后續面向IIT 的EDC系統建設和發展提供參考。
近年來,隨著國家對IIT 的重視[6],IIT 項目數量呈現高速增長,見圖1、圖2。臨床研究是推動國家診療技術發展的核心驅動力,研究成果能夠為進一步規范臨床診療提供循證證據,規范的診療可合理管控國家醫保支出,促進國家財政健康。EDC 系統是支持臨床研究的關鍵一環,當前除REDCap 外,還沒有功能全面且能高效支持IIT 的EDC 系統。由于IIT 和IST 存在一定的差異,成熟的IST EDC 系統不完全適用于IIT[7],見表1。國內IIT 研究者主要是臨床醫生,可投入時間較少,因此對成熟配套的系統、支撐體系的完善需求更加強烈。隨著我國IIT項目逐年增多,為保證IIT 的研究質量,國家層面也亟待建立針對IIT 項目的EDC 體系[8]。

表1 IIT 和IST 的差異點

圖1 clinicaltrials.gov 近10 年注冊的IIT 項目數

圖2 中國臨床試驗注冊中心官網近10 年注冊的IIT 項目數
EDC 最基本的要求是需要匹配臨床研究的生命周期,滿足不同項目階段的需求,包括但不限于①電子病例報告表(electronic case report form,eCRF)構建:生成符合臨床試驗方案的eCRF;②邏輯核查:在錄入數據時,能夠對數據進行實時自動邏輯核查,如數據值的范圍、邏輯關系等,亦支持人工邏輯核查;③數據質疑和管理:能夠對有疑問的數據發起質疑、對質疑進行處理和關閉,并保留質疑的痕跡;④數據保存和稽查軌跡:系統一旦保存輸入的數據后,系統應對所有數據的刪改保留稽查軌跡,稽查軌跡不允許從系統中被刪除或修改;⑤數據存儲和導出:能對錄入的數據進行及時存儲并支持常用數據格式的導出。以上5 點功能是EDC 數據庫建設的一般要求[12]。從IIT 的特征和需求出發,總結以下5條對服務于IIT 的EDC 系統建議。
EDC 數據庫字段的標椎化是開展高質量臨床研驗的基礎。構建符合行業標準和研究需求的EDC,首先需要按照標準建立統一的數據字段體系,實現業務和數據的一致性、完整性和準確性。統一且國際認可的數據字段標準、編碼、字典、數據格式,可更好地提升數據采集、質控、整合、計算等步驟的效率,提升臨床試驗質量。臨床數據交換標準協會(Clinical Data Interchange Standards Consortium,CDISC)標準是國際及國內普遍認可并廣泛使用的標準[13-15]。開展IIT 的研究人員目前大多沒有數據標準的概念[15],臨床醫生有各自的字段定義習慣,收集的數據變量命名和數據結構會偏離CDISC 標準,因此,建議支持IIT 的EDC 系統需要有更科學、完善的數據標準模塊,使IIT 項目有規范的數據標準,且方便研究者使用。此外,相比于IST 研究,由于IIT 項目類型多、覆蓋面廣,涉及的變量多,已有的CDISC 標準字段庫很難完全覆蓋研究所需字段;隨著IIT 的不斷發展,數據字段庫也需要不斷更新,所以也需要提供便利的字段標準庫迭代更新模塊。
目前我國IIT 項目的監管和實施還存在諸多困難,如沒有足夠的人力對IIT 項目進行全面、系統的質量檢查,人員分工和職責劃分不明確。區別于IST研究,在IIT 項目中,臨床研究協調員、數據管理員的角色可能均由同一人承擔。IST 有全職人員,明確負責不同模塊的工作,系統使用熟練。IST 是為了藥品或器械的注冊,對數據準確性、真實性、顆粒度的要求更高,容錯率低;IIT 研究主要目的是回答科學問題,研究方案更面向科學問題的論證和解釋,會涉及方案變更、方案修改,如納入和排除標準的修改、檢查報告的增加或減少等。所以IIT 要求EDC更具靈活性,如人員權限配置、研究不同階段對變更的處置流程等。
數據溯源是開展臨床研究的重要環節,因此EDC 在提供數據采集的基礎上,還應該能夠提供數據保存及備份功能。EDC 系統需支持源數據(文件、圖片、音頻、視頻)上傳、保存、分類和管理,以便在系統中完成數據的核查確認。IIT 會收集除了院內就診數據外的其他真實世界的醫療數據,包括物聯網穿戴設備、院外的隨訪數據等。多元數據的存儲,需要設立統一的患者主索引,如患者身份ID,支撐患者就診信息的全面整合。不同來源的數據能夠以患者為維度實現歸一,方便溯源,也提升數據搜索、利用的效率。
在IIT 中,EDC 系統需要與不同系統對接,包括統計軟件、數據采集軟件,需要有對應的數據接口,且能夠生成導出標準的臨床研究格式,還需要生成能夠直接導入到SAS、SPSS、R 軟件等專業醫學統計軟件中的數據文件。系統應該支持CDISC 和臨床數據獲取標準及其他數據字段標準的文件整合,同時在EDC 完成數據采集后,在符合研究規范的前提下,研究者通常會進行數據的初步分析、驗證,這時需要有簡單易用的數據清洗和統計分析功能。清洗工具支持變量分級、變量類別轉換、對變量進行新的分組和合并、變量的缺失值填補等,在統計分析功能方面,參考相關的臨床研究報告標準,支持一般描述性、差異性分析等統計方法。
服務于IIT 的EDC 系統,對其數據接口和功能擴展性的要求更高,如對接物聯網穿戴設備、組學數據的采集和管理、醫療信息系統的非結構化數據等。如果這部分無法實現,數據采集周期及工作量將大大增加,耗費在數據的謄寫和核對上。這就需要EDC 系統有較好的擴展性,以滿足研究發展和未來變化的需要。為了維護EDC 系統的正常運轉和迭代,背后需要研發、運維、醫學、數據管理團隊的支持。研發團隊需要進行技術的鉆研和創新,還需與運維團隊一起及時響應系統使用過程中遇到的問題;醫學和數據管理團隊需要支持系統背后醫學術語庫、數據庫搭建、邏輯核查等規則的設立、維護和更新。只有這樣才能讓EDC 同步IIT 研究發展的需要。
數據采集是臨床研究中非常耗費時間和精力的環節,EDC 系統通過信息技術可在一定程度上提升數據采集的效率及準確性。目前,EDC 系統的開發和維護主要是由各類商業公司承擔,如PhaseForward公司的InForm、美國MediData 的Rave 系統、Edetek、COMFORM?等,這些系統主要以服務IST 為主。傳統的IIT 研究的數據采集和管理主要依靠紙質的病例報告表(case report form,CRF)來完成,效率和準確性都存在一定問題[16]。筆者對比了幾家國內外公司研發的EDC 系統及REDCap,它們在支持IIT上都有著不同的差距和不足。國外較為成熟的EDC系統如Inform、Rave 等,常在跨國藥企的臨床試驗中被使用,但因租用費用昂貴,研究者難以負擔,可定制化弱,在IIT 中應用較少[17]。REDCap 作為國際上被研究者廣泛使用的數據采集系統在一定程度上可滿足IIT 的需要,但REDCap 是一個免費開源系統,系統維護需要研究者自己負責,所以迭代相對緩慢。研究者在系統建立項目,REDCap 的數據庫管理體系沒有規范的數據字段標準,導致后續數據的匯集和共享非常困難,數據的運用效率低。REDCap較多支持中小型研究項目,隨著IIT 需求變大,在支持多中心、復雜研究上仍顯乏力。因此如何打造符合IIT 的EDC 系統在國內還處于初期發展階段。
近年來,隨著國內醫療信息技術的發展和人工智能技術的崛起,市場已經有關于IIT EDC 產品的探索,支持研究者完成高質量的臨床研究。構建一套良好的支持IIT 的EDC 系統,除需要參考臨床試驗方案規范指南[18],有國際數據標準作為支撐,還需要考慮功能的可擴展性,滿足IIT 的創新性。
上海交通大學醫學院臨床研究中心參照臨床研究相關的法規和政策,在原有EDC 系統基礎上,設計建設了服務IIT的新型EDC平臺,進一步擴充EDC系統對IIT 的支撐范圍和深度。平臺的建設包含項目全流程管理、臨床試驗質量管理、臨床數據采集、物聯網數據采集、醫學影像工具、分布式語義檢索等6 大模塊。
項目全流程管理和臨床試驗質量管理模塊支持IIT 項目的全流程管理,自帶數據字典標準,可對受試者病歷數據進行自動化清洗和采集,補充相應的專病數據庫和受試者CRF 表單自動填充。項目的質量控制管理體現在從過程監管到數據稽查,確保臨床研究的質量。支持多個科研項目的同時執行與狀態查看等,幫助研究者隨時知曉在庫項目的進程。IIT中涉及的方案變更和CRF 修改亦可通過系統進行修改、版本發布、版本維護,靈活應對。
臨床數據采集模塊提供異質異構臨床數據的采集能力,包括檢驗、診斷等結構化數據和檢查結論、病史等文本數據及醫學影像文件,通過標準接口實現數據在平臺的匯集和存儲,采用國家商用密碼的對稱加密算法進行加密傳輸以保障數據安全。通過自然語言處理技術、數據倉庫技術等,能夠將采集的異質數據進行結構化、標準化,治理后的數據能根據EDC 表單結構進行自動回填且符合標準。平臺運用患者主索引技術將各個系統的患者編號進行統一,不同系統具備相同身份特征的受試者或患者數據都會進行主索引合并,實現同一患者在各業務系統的數據打通。通過這種模式的數據采集可最大限度提升數據的完整度和利用率。
物聯網數據采集模塊主要用于可穿戴設備的管理及數據采集,如心率、運動量、睡眠時間、血壓等健康信息,采集的各類體征數據將經過數據加密后遵循統一格式進行存儲、傳輸,集成治理后自動填充到EDC 系統的eCRF,本模塊內嵌相關的設備對接標準,符合標準的設備能夠和EDC 系統無縫對接,滿足IIT 中對此類數據采集的需要。
醫學影像工具模塊可對接臨床數據采集系統,獲取影像數據,基于pytorch(pytorch 是一個開源的Python 機器學習庫)集成檢測、分割、降低假陽性、分類等多個模型的機器學習級聯網絡。在應用層面上,能實現影像圖片的圖層分割、自動標注、自動分類、脫敏,自動標注的數據可進行人工審核,亦支持手動標注,極大提升科研效率。平臺可對任意來源的影像數據進行同一標準的解析和存儲,支持多格式的導出,對后續數據調取和再應用提供便利。自動標注的人工智能模型隨著數據的積累自身也在不斷迭代而更加精準。
分布式語義檢索模塊對接以上5 個模塊,創新性地集成智能隨訪工具,可通過微信公眾號自動推送表單的方式進行院外隨訪、數據采集與分析。運用醫學知識圖譜、自然語言處理技術等技術,將匯集的數據治理后存儲在平臺的數據湖中,既往的前瞻性項目數據亦可作為數據資產沉淀,在該平臺實現數據的匯集、深度挖掘和運用。
綜上,本平臺結合IIT 的實際需求,通過開放的架構實現功能的擴展,集成影像工具、物聯網設備、智能隨訪等,遵循數據標準化原則,擴大數據采集維度。平臺融合人工智能技術,實現復雜維度的數據采集整合,形成標準化可復用的數據資產,全面支持隨機對照研究、回顧性研究和前瞻性研究,提高IIT 的效率。