舒影嵐 陳艷萍* 吉臻宇 趙 凱 王春安
當前,生命科技與信息技術融合突破,驅動健康醫療大數據在臨床科研、健康管理、公共衛生等核心領域廣泛應用,使之成為創新最活躍、輻射最廣泛和融合最深化的經濟新引擎[1-3]。臨床科研以臨床決策支撐為依托,推動藥物研發和精準醫療;健康管理在多元化數據監測基礎上,提供電子健康管理服務;公共衛生聚焦流行病預警和響應機制,優化醫院管理[4-6]。歐美各國深刻認識到健康醫療大數據作為國家基礎性戰略資源重要性,爭相建設國家健康醫療數據庫,搶占醫學研究、精準診療和尖端移動設備前沿陣地[7]。2016年,在原國家衛生和計劃生育委員會(衛計委)牽頭下,逐步建設國家基因庫,落實1個國家數據中心、5個區域數據中心、X個應用發展中心(即“1+5+X”)健康醫療大數據規劃,催生新業態、促進新經濟。
健康醫療大數據是醫療健康產業發展的必要途徑[8-9]。發達國家已搭建較為成熟的健康醫療大數據服務平臺,并在有效管理和技術升級上展開激烈競爭。美國擁有完整的醫療健康大數據庫,建成覆蓋本土的12個區域電子病歷數據中心、9個醫療知識中心、8個醫學影像與生物信息數據中心。英國斥資55億英鎊建設全國一體化醫療照護信息儲存服務系統,收集和儲存了超過23000個醫療信息系統數據,覆蓋超過5000萬居民醫療信息,并已為130萬名醫務人員提供服務。丹麥成立國家生物銀行,集中和管理了超過700萬生物樣本,樣品可經倫理委員會審批使用,供科研人員研究流行病學和疾病圖譜。日本實施國立大學醫院醫療信息遠程傳輸網絡系統計劃,福山大學附屬醫院累計收集超過1700萬病歷記錄和1.43億件用藥處方及300萬件病名,可實現處方自動分析和匹配功能。
醫院是產生和使用醫療健康大數據的重要終端[10]。在行業信息共享、價值挖掘等方面,美國醫療機構通過統一大數據標準、積累海量病案實現了改善醫院運營、提供輔助診斷等功能。美國建立了衛生信息傳輸健康等級7(health level seven,HL7)標準和健康信息交換協議(health information exchange,HIE),用于多種操作和硬件環境,以規范臨床醫學和健康信息格式,降低系統互聯成本并促進系統間數據共享[11]。在醫療健康大數據應用方面,緬因州的圣約瑟夫醫療健康中心使用數據分析軟件,根據患者患病風險和保險分類,建立工作流程表、制定工作計劃,將30 d復發率減少了15%。在新澤西州,醫院系統應用IBM Watson人工智能(artificial intelligence,AI)分析平臺分析特定疾病(硬化癥、糖尿病和肺癌),提出規范化臨床治療建議,診斷正確率達75%[12]。
在大數據解決方案領域,經過數十年摸索,產業化應用初顯鋒芒。Inovalon作為美國最大醫療數據庫服務商,通過分析和改進臨床治療結果,為美國國家質量保證委員會、醫療保險等部門提供服務,服務超過85萬醫務工作者、37萬醫療機構及71%的美國公民,并擁有300億醫學案例[13]。然而,受限于較長的市場驗證周期、海量繁雜非結構化數據處理、數據使用合規性、定價模式轉變等原因,大數據公司經過20年發展方才摸索出針對保險公司、醫療機構、制藥及生物技術公司服務的不同商業服務模式,其數據應用領域和商業模式仍有待進一步拓展。
在大數據指導精準診療領域,根據基因組大數據可實現個體化治療,并為靶向用藥提供有效的治療指導。如在非小細胞肺癌藥物研發中,經過大量基因數據篩選后,發現只有當患者發生特定突變,而K-RAS基因未突變時,使用特羅凱和易瑞沙進行靶向治療方有效。如患者攜帶K-RAS基因,則推薦使用K-RAS靶向抑制劑安卓健。此外,醫院和機構充分利用大數據提供精準診斷。美國斯坦福大學建立的數據庫Hivdb可在患者測序后,通過比對發現基因的抗藥性突變,針對性地提供艾滋病(human immunodeficiency virus,HIV)治療方案。然而,盡管積累了PB級別組學數據,用于精準診療大數據研究卻面臨動態數據獲取難度大、臨床癥狀影響因素多、個體與群體篩選結果因果關系不確定等應用難題。
在健康管理領域,對大數據的精確獲取和健康管理功能推動可移動穿戴設備的精細化、專業化。2014年,美國Empatica公司研發出一款通過美國FDA批準的癲癇發作的監測智能手表,可通過機器學習來識別驚厥性癲癇發作,并向護理人員發送警報[14]。2017年,美國Kardia公司推出美國FDA批準的心電圖移動設備,通過采集心悸、呼吸短促等問題信號預測心臟及中風的風險[15]。然而,由于各個廠商的算法和標準不統一,缺乏共享開放機制的支撐,這些數據的有效整合利用還存在一定阻礙。未來,數據海量積累、格式化收集存儲以及共享機制探索均為醫療健康大數據有效應用的重要環節。
近年來,在相關政策、社會環境和技術創新等影響下,我國大數據產業從無到有,全國各地發展健康醫療大數據積極性較高,行業應用得到快速推廣,市場規模明顯擴大。2015-2017年,我國健康醫療大數據市場規模分別為10億元、15億元及27億元。2018年,我國健康醫療大數據市場規模預計達到43億元,并保持未來2-3年市場規模增長率在50%以上。當前,大數據戰略已上升為國家戰略高度,國家從戰略規劃、技術能力以及應用與管理三個層面積極落實推進大數據發展政策,加速大數據產業發展從理論研究進入應用。
2015年,由原國家衛計委發布《全國醫療衛生服務體系規劃綱要(2015-2020年)》,提出2018年底前建成國家政府數據統一開放平臺,率先在醫療、衛生等重要領域實現公共數據資源合理適度向社會開放。2017年7月,國家發展改革委印發《關于促進分享經濟發展的指導性意見》,提出充分運用大數據等信息技術手段,多渠道收集相關數據并建立數據庫,促進經濟發展,改善民生。2017年12月,國家強調推動實施國家大數據戰略,加快建設數字中國。2016年,原國家衛計委牽頭起草的《關于促進和規范健康醫療大數據應用發展的指導意見》提出,到2020年,建成國家醫療衛生信息分級開放應用平臺,基本實現城鄉居民擁有規范化的電子健康檔案和功能完備的健康卡,適應國情的健康醫療大數據應用發展模式基本建立,健康醫療大數據產業體系初步形成、新業態蓬勃發展。
在醫療健康數據庫方面,2006年我國開始建設國家醫療健康數據庫,整合區域范圍內醫院、基層衛生機構及公共衛生機構的各類數據,形成以個人為中心的全生命周期電子健康檔案庫。2015年,原國家衛計委啟動了十省互聯互通項目,我國約50%的委屬醫院,42%的省屬醫院和38%的市屬醫院已啟動醫院信息平臺建設。2016年,原國家衛計委啟動“1+5+X”健康醫療大數據發展規劃,建設江蘇省(東)、貴州省(西)、福建省(南)、山東省(北)以及安徽省(中)五大數據中心。2017年,原國家衛計委牽頭組建醫療健康數據三大集團,包括中國健康醫療大數據產業發展有限公司、中國健康醫療大數據科技發展集團公司及中國健康醫療大數據股份有限公司,以承擔國家健康醫療大數據中心、區域中心、應用發展中心和產業園建設任務。在生物數據庫方面,國家基因庫2016年正式建成,該基因庫集生物資源樣本庫、生物信息數據庫和生物資源信息網絡為一體。
福建省和江蘇省作為國家健康醫療大數據中心的“先行者”,立足自身優勢,逐步建立了政策保障體系和數據平臺。福州啟動了國家健康醫療大數據中心與產業園建設試點工程(福州園區),圍繞“一個中心、一個產業園、兩個基地、四大應用領域”在全國首發“一個辦法、兩大平臺”,即《福州市健康醫療大數據資源管理暫行辦法》、國家健康醫療大數據平臺(福州)和國家健康醫療大數據安全服務平臺(福州)。通過匯聚公共衛生數據、臨床數據、基因組學數據、物聯網數據等近百億條數據,在安全為先、隱私保護的前提下,將對外提供數據、應用、科研、生態和安全五方面服務?!皟纱笃脚_”已完成全市13家市屬醫院、24家縣級醫院和其他醫療機構的健康醫療大數據采集。南京成立國家健康醫療大數據中心與產業園建設試點工程(南京園區),實行“1+3”模式。即“1個中心”將構建統一權威、互聯互通的人口健康醫療信息平臺,并培育“互聯網健康醫療”新業態;“3個基地”分別為醫療養生等方面的綜合服務應用基地、生物醫藥研發應用基地以及尖端醫療科技應用基地。南京存儲中心一期工程已于2017年9月底全面完成,其存儲容量達52PB,并配置了2340TFLOPS的超算設備,用于統一儲存江蘇省8000萬人的個人健康檔案和電子病歷,以及全省174家三級醫院的影像資料等健康醫療大數據。
隨著采集手段革新、規則演算優化及AI的發展,健康醫療大數據領域涌現出一系列新技術、新應用和新產品,開辟了大數據應用新領域。
在醫療解決方案大數據領域,云醫療是在云計算、物聯網、3G通信以及多媒體等新技術基礎上,結合醫療技術,利用AI和機器學習,快速通過機器判斷病理檢驗結果,實現醫療資源共享,以滿足廣大人民群眾日益提升的健康需求的一項全新的醫療服務[16]。騰訊智慧醫學影像解決方案將醫學影像大數據與臨床應用需求深度整合,利用騰訊的AI技術和云基礎設施打造統一化的醫療云平臺[17]。云醫療解決方案推進醫療服務信息化,改進醫院流程管理,解決數據孤島問題,為臨床科室提供高效、準確的影像介入治療和手術,同時保障醫學診斷數據的私密性和安全性。
在健康服務平臺大數據領域,阿里巴巴集團布局醫療健康領域,成為醫療健康行業提供較為全面的互聯網解決方案的健康數據機構。騰訊控股的企鵝醫院正式開業,采用線上、線下結合的模式,可通過在線注冊的43萬??漆t院醫生提供轉診服務。阿里巴巴、騰訊等信息科技巨頭依靠數據傳輸、AI、區塊鏈等新技術的創新與應用,將為醫療大數據在健康服務領域的應用提供更全面有效的應用基礎支持[18]。
在醫藥大數據領域,恒瑞制藥、太美醫療、藥渡數據信息科技等企業致力于信息技術在醫藥研發領域的應用,產品和服務涵蓋藥物開發和臨床研究等領域,利用大數據幫助研發人員解密疾病的生物衍生物或某種藥物作用原理,將醫藥研發過程中海量數據變成可讀、可試可用的知識,實現跨學科數據連接。對數據進行解讀和商業價值判斷,通過大數據、機器學習等技術整合醫藥行業資源優勢,打造數據驅動的醫藥全產業鏈互聯網平臺[19]。
在生物信息大數據領域,華大基因等生物信息行業龍頭借助于大數據的優勢,開展基因組、轉錄組、蛋白質、疾病表型組、表觀遺傳組及進化組等生物信息大數據研究,是醫療大數據技術進步的原始動力,通過樣本采集、處理及存儲,對臨床信息進行清洗、標準化以及信息錄入,完成組學數據整合及“樣本+信息+數據”關聯,實現生物樣本全周期大數據管理。研究與技術相輔相成,是推動生物信息大數據蓬勃發展的引擎[20]。
在精準診療領域,騰訊與醫院攜手,共建以AI臨床應用的“智慧醫院”,從診前優化、數據分析和可視化應用等領域為醫療工作者提供更加快捷有效的診斷工具[21];在移動醫療領域,翰宇藥業與騰訊公司簽約共同開展糖尿病等慢病全時監控干預,為無創連續血糖監測手環實現數據對接、統計交互提供完整平臺;中科院與深圳諾嘉共建健康大數據聯合實驗室,研發移動醫療系統和智能芯片打造老齡智能科技產品;在健康大數據領域,華大基因聯手阿里打造BGI Online beta,碳云智能收購了以色列Imagu Vision人工智能公司,建立iCarbonX-Israel人工智能研發中心,開發數字生命生態系統。
目前,我國已初步建立健康醫療數據庫,形成人口健康信息化體系,并在信息技術結合醫學研究、健康管理等領域卓有成效。繼續保持健康醫療大數據先發優勢需要從根本上提高數據長期獲取、儲存和運算能力,大力推動臨床檢測和患者信息科學應用,并突破健康信息使用中法律和技術瓶頸。
健康醫療大數據應用發展規劃和規章制度將會更加完善,健康信息服務管理規范,信息使用權限明確,各方合法權益得到保護??沙雠_健康醫療大數據資源管理和開放共享相關法律法規,規范健康醫療大數據開發開放相關管理服務活動;可設立健康醫療大數據法規委員會,開展健康醫療大數據資源集聚和共享的建設。相關主體在健康醫療大數據采集、傳輸、存儲、利用、開放等環節的權利、責任和義務更加明確,實現風險可控原則下最大限度的健康醫療數據開放,建立具有中國特色的健康醫療大數據開放、共享與應用的引導和監管協同發展新模式。
加快組建國家健康醫療大數據研究院、大數據系統計算技術國家工程實驗室。通過國家與地方聯合共建的方式,建立多模態健康大數據高性能處理平臺,實現TB-PB級的多模態健康大數據處理及分析能力,建成具有開放性的健康大數據融合、處理及智能分析平臺。建立健康大數據研究中心,開展醫療健康數據的存儲、分析、建模、使用等角度研究數字化生命的關鍵技術研究。建立公共服務平臺,推動大數據基礎理論、大數據的未來新型計算體系、大數據驅動的智能應用技術等領域技術研發和成果轉化。支持高校和科研機構開展基于健康醫療大數據的技術研究,包括臨床數據與生物研究數據結構化、AI學習及數據分析、臨床診斷輸出等。整合大數據研究機構、臨床醫院與生命健康企業優勢力量,成立產學研聯盟。完善健康醫療數據資源體系和智庫,全面深化醫療健康大數據在臨床和科研、公共衛生、教育培訓等領域的產業化應用。
全面推動健康醫療信息工程,充分利用大數據、云計算、互聯網+、物聯網等新技術,建立和完善健康檔案、電子病歷和全員人口三大基礎數據庫。推動人口健康信息化建設,建立統籌協調、規范有序的人口健康信息化管理機制,建設和完善標準體系,匯集多方資源,構建人口健康大數據中心。
加快生物樣本庫建設。依托國家基因庫二期工程,建成全球最大的綜合性生物資源樣本庫和最大基因組高性能計算中心,在民族多樣性、重大疾病等方面建設6個特色資源庫;建立活體庫模型,形成長期、連續的觀測數據;形成250 Pb/年的基因組數據和30億堿基/年的合成堿基產出能力。
積極開展醫療大數據多模態、非結構化收集技術、大數據分析和融合關鍵技術、知識庫融合工程技術、個體化健康管理和公共衛生大數據分析及應用技術、數據治理和隱私保護技術等領域的研究。加強健康醫療海量數據存儲清洗、分析挖掘、安全隱私保護等關鍵技術攻關。集中攻克健康醫療大數據高效讀取收集標準化、大數據管理容量擴增、軟硬件混合高效并行化計算等核心技術。研發基于多源海量臨床數據交叉分析面向個體患者的診治技術,推進基因芯片與測序技術在遺傳性疾病診斷、癌癥早期診斷和疾病預防檢測方面的應用,快速提高健康醫療大數據核心技術水平[22-23]。
設立大數據創新應用專項基金,支持研發健康管理相關的AI技術、3D打印技術、醫用機器人、大型醫療設備、健康和康復輔助器械以及可穿戴設備,加快研發成果轉化;提高數字醫療設備、物聯網設備以及智能健康產品質量,促進健康管理產業升級;建立醫療信息系統、智能健康電子產品、可穿戴設備、健康醫療移動應用等數據資源相互融合雙向共享機制,形成中國特色的健康醫療大數據產業新業態。
打造健康醫療大數據全球生命創新中心,從核心工具開發、地貧“清零”、腫瘤精準防控、超級物種研究、地球數字化、深海生物多樣性、DNA身份認定、基因與兒童認知等八大專項入手,建立產業創新集聚區,形成跨領域、多層次的生物醫療產業鏈。大力培育健康醫療大數據研發、應用與延伸產業和相關產品支撐產業,建設包括生物數據收集、測序儀研發生產、精準診療研發、可穿戴設備研制等生物醫療數據產業園。
加強健康醫療大數據安全管控。研究制定健康醫療大數據管理辦法,完善信息安全管理機制,明確數據采集、傳輸、存儲、使用、開放等各環節的范圍邊界、責任主體和具體要求。加強病毒防范、漏洞管理、入侵防范、身份認證、訪問控制、信息傳輸和存儲加密保護等安全防護措施。加強大數據安全監測和預警,建立安全信息通報和應急處置聯動機制,完善風險隱患化解和應對工作措施。
建立健康醫療大數據標準規范,推進健康醫療大數據產業標準體系建設,加快建立針對醫療衛生機構、健康管理機構、大數據企業等數據標準體系,滿足健康醫療大數據收集、傳輸、存儲、分析、應用、安全和管理需求;完善涵蓋數據采集、資源分類、開放共享、交換交易、數據安全、融合應用等關鍵共性標準,實現跨部門、跨層級及跨系統的數據交換與共享。完善數據開放共享支撐服務體系,遵照國家有關疾病診斷編碼、臨床醫學術語、檢查檢驗規范、藥品應用編碼、信息數據接口和傳輸協議等相關標準進行建設,促進健康醫療大數據產品和服務流程標準化。加快建立健康醫療大數據市場標準,設立第三方公共生物醫療數據服務運營公司,引導企業、行業協會、科研機構、社會組織等按照規范要求開放或交易數據,公司向市場提供內容格式規范化的開放數據平臺。
引進國外先進社區健康發展模式和經驗,啟動百萬人次的健康基因身份證試點,打造國際通用健康醫療大數據產業模式。加強國際交流,有序推進健康醫療大數據應用發展人才交流合作。鼓勵企業和科研單位開展對國際先進技術學習和創新,搭建中國健康醫療大數據國際論壇。成立國際健康醫療大數據應用和產業聯盟,集聚政產學研用資源,共同推進醫療健康大數據相關研究、應用推廣、開發合作。
培養專業型人才,支持高校圍繞醫療健康大數據研究培養博士、博士后,鼓勵高校開設健康醫療大數據相關專業和研究生課程;推動科研機構、醫療機構與國外名校合作,建設掌握大數據研究核心技術人才梯隊。引進產業型人才,以大型醫療衛生機構醫療健康大數據領域研發和產業化項目為載體,積極引進醫療健康大數據領軍人才和高端人才;鼓勵大數據產業創新,通過人才導向基金提升產業人才集聚能力。儲備技能型人才,鼓勵醫療衛生和科研機構等針對健康醫療數據應用開展臨床案例、醫療診療結果等科學管理、數據分析、醫學診斷等職業技能培訓,強化實用型臨床醫學數據人才支撐作用。