關 健
(中國醫學科學院北京協和醫院 & 國家人口健康科學數據中心(臨床醫學)和腫瘤專題數據服務,北京 100730,gjpumch@126.com)
隨著醫療電子化和信息化,電子病歷的普及和生命科學醫學科技的發展為醫學數據提供了豐富的數據資源,互聯網、計算機技術和大數據分析提供了科學數據共享、整合和應用研發的技術基礎。
國際上,數據共享最初從藥物研發臨床試驗數據開始,其倡議和實踐更強調原始數據共享,或專指利益相關者(包括研究人員、政府監管機構、資助機構和醫療出版商)將掌握的研究數據、過程數據,如臨床試驗的患者/受試者個人水平提供給科學研究[1-2]。美國和歐洲相關協會等要求臨床試驗數據公布和共享[3-4]。1997年美國食品和藥物管理局現代化法案強制要求所有涉及藥物的試驗在一個稱為ClinicalTrials.gov 的在線數據庫,注冊臨床嚴重情況。2002年后擴展到2期之后的對照臨床試驗。研究者具有訪問臨床試驗原始數據的需求,許多制藥企業,如羅氏公司和葛蘭素史克公司的政策對已批準產品的試驗數據允許訪問。另外,由政府基金資助的研究數據通常被強制開放或共享。如,美國國立衛生研究院(NIH)要求其資助的項目產生的數據,包括基因組數據進行共享[5];2007年,美國國家人類基因組研究所成立了電子病歷和基因組學聯盟,以開發、傳播和應用DNA生物庫與電子病歷系統相結合的大型研究方法以推進大規模、高通量的基因研究。為了促進全基因組關聯研究的廣泛數據共享,美國NIH建立了基因型和表型數據庫以及隨附的數據共享政策。國際組織則積極推動科學出版物及其基礎數據的共享。歐盟研究和創新局在《歐洲2020年智能、可持續和包容性經濟戰略》強調了知識和創新在促進增長方面的核心作用。在2020年規劃中,提出更廣泛地獲取科學出版物和數據有助于:基于以前的研究結果(提高結果質量);鼓勵協作,避免重復工作(提高效率);加快創新(更快的市場進步意味著更快的增長);讓公民和社會參與(提高科學過程的透明度),并發布出版物和數據共享規劃和指導手冊。國際醫學雜志編輯委員會(the International Committee of Medical Journal Editors,ICMJE)已對會員期刊提出要求,涉及臨床試驗的文章發表后6個月內共享去識別個體患者數據。這項要求提出在其會員期刊上發表臨床試驗報告的前提條件:①自2018年7月1日起,提交給ICMJE期刊,涉及臨床試驗結果的投稿必須包含數據共享聲明;②2019年1月1日或之后開始招募參與者的臨床試驗必須在試驗注冊中包含數據共享計劃[6]。
“十三五”以來,我國實施國家大數據戰略,推進數據資源開放共享。2018年2月科技部和財政部印發了《國家科技資源共享服務平臺管理辦法》(以下簡稱“共享平臺管理辦法”)中明確了由國家政府資助的項目的數據(科學數據)作為科技資源匯交和共享的要求。2018年4月頒布的《科學數據管理辦法》,從法規層面進一步加強和規范科學數據管理,保障科學數據安全,提高開放共享水平。
根據《科學數據管理辦法》第二條有關科學數據的定義,醫學科學數據是在醫學領域,或醫學與其他科學領域融合交叉,通過基礎研究、應用研究、試驗開發等產生的數據,以及通過觀測監測、考察調查、檢驗檢測等方式取得并用于科學研究活動的原始數據及其衍生數據。醫學數據根據形成過程和用途不同,可以臨床診療、管理等業務數據和研究數據。業務數據在一定的條件下可以轉化為研究數據,因此,根據收集數據的初始目的和來源不同,醫學科學數據的主要來源可以概括分為兩大類:①解決生物醫學科學問題的研究過程中產生的數據(以下簡稱“研究科學數據”)。具體包括生物醫學、基礎醫學(涉及基因組等組學)、涉及人體的臨床研究(個體信息、疾病和研究結果),包括臨床試驗等。②用于研究的醫學業務數據(以下簡稱“業務科學數據”)。具體是指擬用于研究的醫學業務數據,包括健康體檢、臨床診療、護理數據、管理數據、衛生經濟學數據等。生命科學快速發展,特別是基因組、蛋白質組和代謝組學等分子組學的發展,豐富了醫學科學數據的內容。隨著新一代測序技術的發展,使基因組測序的精確性提高,成本降低,越來越多的基因及其表達的組學數據成為醫學科學數據和醫學大數據的組成部分。
數據共享使醫學科學數據既是醫學科技的成果,也成為醫學科技的重要資源。醫學數據的用途,隨著共享的范圍而提升價值。最初機構內不同學科的數據共享,對于一個疑難疾病、涉及多專科的疾病來說,提升診斷和治療的價值。數據共享和大數據分析技術,不僅能實現同一機構內的數據獲取和長期縱向比較分析;更能促進醫學數據從機構內、機構間的共享,通過轉化醫學促使研究的多領域合作,促進了醫學數據向多元化機構合作共享。數據共享不僅促進科學數據的再利用和避免重復研究,能夠降低社會整體科技成本,促進創新科技發展。此外,經數據共享、整合和再挖掘有助于減小醫學科學研究結果的偏倚性。以真實世界研究為例,由于真實世界證據在樣本量小時極易產生結果偏倚性,導致產生了基于隨機對照研究的理想化的臨床試驗。隨著電子病歷的普及和互聯網技術的應用,反過來真實世界證據是臨床試驗的有力補充,且具有臨床試驗所沒有的優勢[7]。數據共享不僅可以對橫斷面實現對不同機構和區域現有相同種類數據進行整合和挖掘,還可以對不同來源數據結果,如真實世界數據與臨床試驗數據進行比較和分析,提升臨床診療水平,有利于數據基礎的臨床決策[8],以及開展多中心前瞻性的真實世界研究。認識到數據共享的價值和意義,共享合作的趨勢,逐漸從個體(如研究者)之間、單機構、單一專業或領域逐漸向區域多領域、多地域和全球范圍共享擴展,部分領域的全球數據共享(如腫瘤數據)已經被倡導和響應[9]。
數據共享是專指公開或在特定訪問條件下向其他研究人員提供個人水平(Individual-level)數據,包括原始數據和/或衍生數據;共享包括數據用戶之間的數據傳輸或數據交換。數據共享是健康醫療大數據建設和科學數據再利用的潛在方案,也是促進醫學科學數據最終發揮更大價值、避免重復研究、節省成本的潛在方案。我國醫學科學數據的共享具有一定優勢。我國人口基數大,具發達國家和發展中國家疾病譜,疾病數據資源和遺傳資源豐富,對于疾病發病和預防,以及診斷治療的研究優勢明顯。在組學大數據時代的背景下,我國生物遺傳資源的基因組、轉錄組、表觀組、蛋白質組等多層次組學數據已累計達PB量級,成為世界最大的生物學數據輸出國之一。但是,醫學科學數據共享優勢和風險并存。醫學科學數據共享因與人類自身的關系,與其他領域的科學數據相比,其共享面臨更多風險和倫理挑戰。個人水平數據為研究和試驗開發,以及觀測、監測、考察調查、檢驗檢測等過程或期間收集的每個參與者分別記錄的單個數據;如臨床試驗中收集的患者級數據包括患者標識符、部位標識符、出生日期、性別、種族、療效結果、實驗室測試結果等[10]。數據共享不可避免地發生個體參與者(患者或受試者)權利與數據共享應用的科學、研究、研發等社會公益之間的沖突。由于國際期刊等數據共享實踐較早,而我國2018年之前,對科學數據匯交和共享沒有明確強制要求,使我國一些優質科學數據匯交到國外相應數據庫,而在國內反而沒有備案。我國生物資源的海量組學數據由國際三大生物數據中心管理,不僅導致發生不可預見事件時,我國科學家將無法及時拿到寶貴的數據的尷尬,涉及人類遺傳資源信息的數據還涉及國家安全。因此,為了進一步加強遺傳資源管理和保護,《中華人民共和國人類遺傳資源管理條例》(以下簡稱“遺傳資源管理條例”)自2019年7月1日起施行。
醫學科技資源特殊性之一,是倫理引導和管理的必要性和重要性。作為醫學科技資源的重要組成部分,醫學科學數據的共享、使用和挖掘等需要符合倫理原則。在推進醫學科學數據共享和再使用的實踐中產生了新的倫理問題,或使原有倫理問題更為突出。事實上,倫理挑戰和問題貫穿醫學科學數據產生及其應用,涉及研究內容、研究過程、研究結果、成果及其轉化的整個過程。生命科學技術本身的發展,醫學與其他領域前沿科技的融合,以及醫學科學數據共享本身都使倫理實踐面臨前所未有的倫理挑戰,如生命科學在豐富數據的同時導致個體隱私內容的變遷。基因測序產生的數據使遺傳信息成為個體隱私內容的重要內容,遺傳信息作為隱私的逆向識別將帶來對個人、家庭、工作和生活帶來基因歧視威脅。共享過程中數據的互聯網傳送和獲取過程具有一定的安全隱患,而為了個體隱私保護實行去隱私化數據共享將導致隨時退出難以實現,數據再利用知情同意履行困難或履行不能等。
兩個辦法頒布的目的是規范管理的前提下促進數據共享,使醫學等科學數據共享具有了直接依據。國家科學數據中心和地方科學數據中心,提供醫學科學數據共享的平臺、機構的認證和根據《科學數據管理辦法》等落實和促進政府資助科技項目驗收,以及科研機構、組織、個人實施科技項目和履行數據共享等均亟須可行性的實踐指導。但現有的倫理管理和倫理審核體系無法滿足和指導醫學科學數據共享和使用的倫理實踐,亟須擬定相關標準和管理規范,指導推進負責任的可持續的醫學科學數據共享。本專題將分為四大部分,通過分析醫學科學數據共享涉及的重要倫理挑戰和問題,提出醫學科學數據使用和共享的倫理要求,并對數據共享面臨和亟待解決的倫理問題提出潛在解決方案,建立具有實踐指導性的醫學科學數據倫理管理和審核規范指南,進行系統闡述和必要解讀。希望能夠指導醫學科學數據共享的倫理管理和倫理審核實踐,促進負責任的科學數據共享和數據再使用,以保障醫學科學數據使用和共享符合倫理原則和保護數據貢獻者等權益,最大限度降低風險,最大程度發揮價值,推動我國醫學科技的健康快速發展。