李 洪 徐 華 洪 娜 弓孟春*
產品周期原則對于創新藥品的研發及生產是一個非常重要且復雜的指導原則。藥品的產品周期包括初期的基礎研究,如生化、藥理、動物實驗等,上市前在人體進行的臨床研究(1~3 期),以及上市后的各類活動。整個過程一般會延續10年或更長時間,所涉及的藥品研發費用,包括研發失敗產品的費用,平均為26 億美元左右(約182 億人民幣)[1]。因此,將創新藥品的產品周期原則落實成為每個時期具體的計劃和工作內容,對藥品的整體研發、是否成功上市,以及上市后藥品的后繼發展具有重要意義。
藥品產品周期的最后一部分是藥品上市后臨床研究(第4 期),這個時期的主要工作內容包括探討藥品上市后在真實診療環境中的安全性、臨床療效,以及對藥品市場準入的準備。在這期間,進行上市后的臨床研究是其必要和重要的手段之一[2]。由于藥品研發的費用在上市后明顯低于上市前,如何高效低成本地進行上市后的臨床研究已成為研究熱點。
與隨機臨床研究(randomized clinical study,RCT)不同,醫療大數據來源于真實診療環境,是指以各種不同形式存在的醫療數據,具有數量大(Volume)、多樣性(Variety)、實時性(Velocity)、真實性(Veracity)特點[3]。雖然有各種各樣的不足之處,應用醫療大數據進行研究也帶來明顯的優勢,包括節省大量的資料收集時間(已存在的資料),具有一定的人群代表性(樣本量較大而且來自真實世界環境),工作成本(相對RCT 而言)較低。
我們就以下3 個方面討論探討醫療大數據與上市后臨床研究的關系:1)上市后臨床研究的定義、分類、目的;2)醫療大數據的特點,類型,數據清洗過程及技術,優點及存在不足之處;3)利用醫療大數據進行上市后臨床研究需關注的實際操作要點。
上市后臨床研究泛指藥品(或醫療器械)在得到國家藥監部門上市注冊準許以后所進行的臨床研究[4]。這類臨床研究大體可以上分為被動和主動兩種方式。被動方式也可以被解釋為“有條件的上市注冊準許”的前提之一。美國食品藥品監督管理局(FDA)對此的定義是:“FDA 可能在申報的產品被考慮批準時要求其做上市后的研究以保障其安全性及療效(在上市后)繼續得到以呈現”[5]。主動方式則是主辦方主動地主導進行上市后的臨床研究,可細分為藥企(或醫療器械公司)為主辦方(company sponsored research)以及臨床研究人員為主辦方(investigator sponsored research,ISR)兩種形式。
上市后的臨床研究的目的可以分為:1)履行對“有條件的注冊準許”的承諾;2)更好地了解藥品(或醫療器械)上市后在隨機臨床研究環境以外(真實世界)的安全性,以及長期的療效;3)擴大適應證;4)不斷地深化其市場,執行市場營銷策略和醫學計劃。
治療乙型病毒性肝炎的藥品恩替卡韋在美國的上市是一個典型的“有條件的注冊準許”。該藥由百時美施貴寶公司研發。因為其在早期研發階段發現動物模型中的存在安全問題,在2004年得到FDA批準時要求百時美施貴寶公司在恩替卡韋上市后進行一項為期10年的國際上市后安全臨床研究(REALM,080 研究)。這項研究入組了全球12 522 例慢性乙型病毒性肝炎和肝硬化受試者。盡管這項上市后臨床研究經費龐大,時間跨度大,涉及多個國家患者,但作為對有條件的注冊的承諾,該公司還是進行并完成了這項研究。這是國際上樣本量最大、隨訪時間最長的一項前瞻性、隨機、開放標簽的觀 察性研究,也是自核苷(酸)類似物抗病毒藥物發現以來最為重要的研究之一。該研究的目的是觀察及比較不同核苷(酸)類似物治療的長期結局。研究的主要終點是臨床終點事件(Clinical Outcome Events,COEs)發生率包括:1)惡性腫瘤;2)HBV感染相關肝臟疾病進展;3)全因死亡。
盡管藥企(或醫療器械公司)或臨床研究人員可以同為主辦方進行主動的上市后臨床研究,探索人群中用藥安全及療效,由藥企(或醫療器械公司)作為主辦方的臨床試驗多為適應證內,而由臨床研究人員發起作為主辦方的上市后臨床研究則有在超適應證的領域開展。
對企業而言,根據其產品的性質進行上市后臨床研究不但在產品的后期可以繼續探索相關醫學科學問題,而且,這也是一個把有關的臨床專家組織起來的行之有效的方式。經驗表明,由企業負責經費并組織上市后臨床研究的做法,讓參與的研究者能對未滿足的醫療需求進行深入的探討是一個對多方有利的做法。這種做法的研究是上市后臨床研究的主體。
大部分上市后臨床研究為前瞻性研究,雖然不受類似上市注冊臨床研究的嚴格監管,但其執行層面上與隨機對照試驗(RCT)非常相似,包括患者的招募、治療、隨訪,分析結果,以及發表研究結果等各階段的工作內容。因此這一類前瞻性的上市后臨床研究通常具有費用高、時間長、流程復雜、總體效率有待提高等RCT 常見特點。
在本研究中,醫療大數據特指已存在的醫療數據庫,多類型的健康信息系統(HIS,EMR,LIS,PACS等)已成為基于真實世界數據的觀察性臨床研究的重要來源。這些數據庫不但可以來自多個不同的源處,也可以根據研究需求,例如研究的問題及設計,應用于不同場合中[6]。應用醫療大數據的其中一個特點是前期階段需要投入較高的數據清洗和整理的成本。即使在信息化技術比較發達的階段,用于數據清洗和整理的成本仍相當可觀。圖1表達了從來自醫院原始數據到數據可以用于分析階段的一個簡要的數據處理流程。
從圖1可以看到,經過大量數據處理工作,來自醫院的數據才可以用于分析和研究。這個任務是需要一支多學科的技術團隊完成的,包括醫學、藥學、計算機工程、軟件開發、統計等。這些跨學科的合作也促進了醫學信息學(medical informatics)近年來的快速發展。除來自HIS、LIS、PACS 中的結構化數據,醫院的醫療數據通常包括如來自EMR的病例內容等非結構化信息,這類文本型非結構化數據的處理的手段及技術比較復雜,包括自然語言處理(nature language processing,NLP)以及一些專門開發的從文本中提取信息的算法。此外,來自醫院信息系統的數據和經過NLP 處理后的結構化數據中,大量的醫學術語尚未標準化,當前國際和國內已發布和認可了多種醫學術語集用來規范化這些非標準的醫學術語,例如世界衛生組織(WHO)的國際疾病分類(ICD-10 或ICD-11)用來標準化表示臨床診斷術語[7],ICD-9-CM/PCS 用來標準化診斷或手術術語[8],標準化中文臨床藥物編碼NCCD 用來表示藥品相關術語,LOINC 用來表示實驗室檢查相關的術語[9]。SNOMED CT 則支持更加豐富的語義表示能力,涵蓋大多數方面的臨床信息,如疾病、操作、微生物、藥物等,經過大量的術語標準化,形成便于計算機處理的醫學術語集,創造了中文臨床數據大規模研究分析的基礎[10]。這些技術的應用極大地提高了數據處理的速度和準確性,有利于提升數據庫質量。

圖1 醫療大數據處理流程——以醫院數據庫為例
相比傳統的臨床研究數據獲取方式,醫療大數據的數據獲取具有自動化、周期短、人工成本低、更新快速等優勢,其對于醫療大數據應用在上市后臨床研究以提高其效率是有非常大的吸引力。例如,患者按計劃入組是進行臨床研究工作過程中的一個非常關鍵的工作。能否利用醫療大數據找到某些符合要求的醫院和病患以提高病人入組的速度?由于 醫療大數據的真實性,醫療大數據也當然帶有真實世界資料的最大痕跡,例如原始數據(或信息)中存不同程度缺失(data missing)的情況,醫護人員錄入信息時偶然可能導致的錯誤錄入,數據預處理過程中產生的數據誤差,算法的局限性導致的一定程度的NLP 識別或信息抽取誤差,以及數據編碼過程中產生的編碼誤差等。盡管如此,大數據從規模上可以抵消一部分局限性帶來的分析偏差,相應的數據質檢技術和數據缺失值和異常值處理方法從很大程度上減少了醫療大數據本身局限性對分析帶來的影響。
如何將醫療大數據應用于上市后臨床研究中在很大的程度上還取決于藥監機構的主導方向,例如FDA 或中國國家藥品監督管理局(NMPA)的支持與否。雖然藥監部門利用真實世界醫療數據做藥品安全的監查的工作由來已久,但是利用真實世界的數據批準新藥(或批準已上市的藥品新的適應癥)仍處于一個非常初級的階段。2019年3月,美國FDA 批準了哌柏西利(Ibrance)補充新適應證,使此藥可以聯合一種芳香酶抑制劑或氟維司群用于治療男性HR+、HER2-晚期或轉移性乳腺癌。美國FDA 此次批準主要基于美國電子健康記錄數據,以及IQVIA 保險數據庫、腫瘤大數據公司Flatiron的乳腺癌數據庫、輝瑞全球安全性數據庫收錄的Ibrance 上市后在真實世界腫的男性患者中的用藥數據。這個批準有多個重要的因素促成:1)患男性乳腺癌的病人數量非常的少。預計2019年發生男性乳腺癌的數量僅為女性乳腺癌病人數的百分之一不到,屬(美國)罕見病的范疇。2)若要進行常規的前瞻性臨床研究將導致招募病人有很大的障礙。3)研究從多個現有的數據庫交叉地檢查男女乳腺癌病人對該藥的反應是否一致,重點開展了用藥安全性的比較。在這種情況下,美國FDA根據2016年頒發的《21 世紀治愈法案》的精神,運用真實世界數據作為其審批決策的依據,批準了該藥的新的適應證。這個批準對于括大已存在的醫療大數據的應用在世界范圍內是一個里程碑事件。對于將來各國藥監部門使用真實世界資料批準新的適應證具有重要意義。
上述內容闡述了醫療大數據及上市后臨床研究的背景和關系,即將醫療大數據應用于上市后的臨床研究中,要做好多方面優劣勢平衡:既要利用現存資料庫的方便性,也要考慮到由于資料的缺失對研究結論帶來的可能的偏移(bias);既要利用醫療大數據帶有的人群和真實世界的背景,也要考慮到應用到上市后臨床研究可能會遇到的倫理和病患隱私的問題。醫療大數據應用于上市后臨床研究需注意以下實際操作問題。
從時間點和數據內容來看,數據庫建設之初的設計可能與使用的實際需求存在一定偏差。在這種情況下,若單純從項目角度去檢查這個資料庫的話,通常存在數據的各種質量問題。因此,當數據質量存在問題時,勿立刻否定全部數據。關鍵在于該資料庫里是否有研究相關的信息。
數量與數據庫里的信息完整性這兩者都同等的重要。數量在一定程度上代表了覆蓋的廣度,體現一定的病人(或病種)的代表性(representativeness)。信息的完整性(data completeness)則代表了數據庫的質量。從嚴格意義來說,沒有好的數據質量無法開展一項有意義的科學研究。
一般來說,醫療數據庫會有各種不同類型的信息。但是,如前所說,信息缺失是不可避免的。遇到信息缺失時,先要檢查項目設計及研究問題,把缺失的情況做細致的分析,要看看是哪一種機制造成缺失的情況:1)完全隨機缺失(missing completely at random,MCAR);2)隨機缺失(missing at random,MAR);3)非隨機缺失(not missing at random,NMAR)[11]。對于各種不一樣的缺失信息,現有的文獻提供有不少的解決方案,包括估算缺失值的算法及人工智能(artificial intelligence,AI)學習方法。
研究問題是整個研究的“靈魂”。一個好的研究問題的定義一定是具有科學意義且能夠被量化的,并可通過具體的分析方法進行實現的問題。在記算力高度發達,數據獲取相對容易得到的時代,許多研究者在開展項目之前,往往“忽視”了一個好的研究問題的提出[12]。因為研究問題可以決定研究的設計,所需要的關鍵信息,數據收集的方式,信息分析的方法,結果解讀的范圍;缺乏好的研究問題的研究往往會在一個“人為地尋找答案”(fishing answers)的“死胡同”里轉不出來。
制訂相應統計分析計劃(statistical analysis plan,SAP)可以使上市后臨床研究的信息得到合適的分析。由于應用醫療大數據作臨床研究在分析之前信息已存在,我們應該嚴格遵守一個原則:在SAP 正式定稿之前,無論時間多緊迫,都不應該動手分析資料。在隨機臨床研究過程中,有一個“資料鎖定”的時間概念。只有在按規定程序開啟了被“鎖定”的資料,SAP 才會開始啟動分析資料。在用回顧性資料庫做上市后臨床研究時也可以在研究計劃上做好相應類似的時間點。
對如何運用醫療大數據做上市后臨床研究做好倫理委員會審查,目前在國內還處于一個初步探索的階段[18],并沒有一個國家機構的統一標準。這里包括不少“灰色”地帶的問題。例如,用已有的醫療大數據做(上市后)臨床研究是否要倫理委員會的審查?用什么標準做審查?如何回答免“患者知情同意書”的問題?醫料數據的所有權?等等。但是,目前有一點是肯定的,即任何運用醫療大數據做研究,包括上市后臨床研究,在開展項目之前都要取得相應的倫理委員會的審查和正式的批準?,F在有許多高影響因子的科學雜志也對包括回顧性研究在內的研究提出了倫理委員會的審查要求。所以,應用醫療大數據做上市后臨床研究時應該把研究方案遞交給倫理委員會審查列入工作計劃中。
1)和任何科學研究一樣,從研究分析的結果中只能在類似的人群或工作環境中推論。2)因為用已有的資料庫做研究時,有些信息的缺失的原因或機制不明確,而由于這些缺失可能會對結論造成可能的偏移。所以,對這種分析結果一定要慎重。
做好上市后臨床研究對創新藥品在注冊批準以后的良性繼續發展具有重要意義。進行這種研究的目的很多,但關鍵問題是如何提高研究的效率,包括時間、費用及代表性等。本研究對應用醫療大數據提高上市后臨床研究的效率持有樂觀態度,認為,隨著對提高應用真實世界信息的認識和加強這方面的實踐,特別是藥監機構對此持有正面態度,我們將會在不久的將來看到醫療大數據在上市后臨床研究中的大量應用,不僅僅是藥品安全監測,而且包括批準新的適應證。本文也就應用醫療大數據的六個實際操作問題做了討論。