李靜 單既楨
北京市衛生健康委信息中心 北京 100034
隨著云計算、大數據、互聯網+、人工智能等技術的發展,人類社會已逐步邁入大數據時代。大數據將改變以往任何行業管理、分析、利用數據的方式,而醫療保健是大數據應用最有可能帶來革命性變革的領域之一。醫療健康大數據是國家重要的基礎性戰略資源[1],其在醫療、公共衛生、慢病管理、領導決策、科研等方面有巨大的應用價值,對醫療健康的工作模式帶來了深刻的影響,為深化醫改、醫療服務提升、擴大醫療健康資源供給、滿足人民日益多元化的健康服務需求具有重要的意義。
醫療健康大數據數據集分類是醫療健康大數據資源整合、共享和利用的基礎,醫療健康大數據信息資源的類目分為新型數態、基礎信息、公共衛生、計劃生育、醫療服務、醫療保障、藥品管理和綜合管理等 8 個類型。
醫療健康大數據分析主要涉及醫療健康大數據和大數據分析方法,即將先進的分析技術(大數據分析架構和大數據挖掘分析軟件)應用于醫療健康大數據集。數據分析是大數據價值鏈中的最終和最重要的階段,目的是提取有價值的信息,為決策者提供技術支撐。大數據分析主要關系兩個方面內容:大數據和分析技術,如何把二者有機地結合挖掘數據中潛在的價值加以運用服務于業務部門是智能研究的重要趨勢之一[2]。大數據分析方法包括預測分析、聚類分析、統計分析、因子分析、相關分析、回歸分析、A/B Testing(水桶測試)、數據挖掘算法等。大數據集可通過不同類型的分析工具(包括基于SQL 查詢、數據挖掘、統計分析、事實聚類、數據可視化、自然語言處理、文本分析、人工智能等)實現對大數據的分析發掘[3-4]。
(1)跨域就診分析。四川省通過動態流向圖、熱點圖等方式展示區域內各市、區或縣之間患者流向,以及分析特定疾病特定區域的患者流向情況,從而反映區域各地區醫療資源分配和疾病流行情況。通過分析患者就診區域分布特征,對不同區域患者進行畫像,挖掘不同區域患者就診特征。通過數據關聯分析和聚類分析,精準定位跨域跨級就診的集中病種和人群特征。
(2)影像數據分析。上海申康以其管轄的34家三級醫院的影像檢查數據為基礎,建立了區域醫療多病種的影像特征庫,從中抽取五項符合規則的病例進行樣本庫制定,后期醫生完成影像診斷報告書寫的同時將有價值的數據錄入對應疾病分類中。運用病種影像特征庫進行大數據量分析,用于常見疾病陽性診斷。
(3)數據質量分析。四川省對區域內居民病案首頁和新農合數據利用大數據技術關聯分析,發現數據異常情況,如患者同一時間重復住院的問題,從而識別虛報業務量或騙保行為。
(1)區域健康管理。從上文案例可推出,國內針對大數據的應用側重從疾病診療、醫療保險、疾病監測分析等方面著手進行研究和分析,但隨著大健康理念的不斷深入,醫療模式正在由有病治病向無病保健方向發展,形成由單一的藥物治療轉為藥物治療與非藥物治療相結合、被動治療轉為被動治療與主動預防保健相結合,最終形成以預防為主的健康管理模式。如何通過大數據技術實現個體或區域群體全生命周期健康狀況的監測、分析和評估[5],例如對引起疾病的諸如遺傳、飲食起居習慣、外界環境等因素進行分析及預測,從而改善存在問題形成健康閉環管理,達到疾病預防和控制的目的。
研究區域內亞健康與疾病間的相互關系,分析各種體征參數與理化指標在亞健康辨識中的作用及權重;應用聚類分析、關聯分析、時間序列、回歸分析等手段研究亞健康指標之間的關聯性;通過對亞健康人群的數據進行挖掘,分析導致疾病的影響因素,建立評估和預測模型,預測疾病發生危險度[5]。
(2)建立區域身體健康評估標準。通過大數據技術實現區域健康評估標準,為居民制定有個體針對性的預防、診治和預后規范;同時,關注精神心理健康,運用大數據技術對居民進行精神防護相關的數據采集、分析。
(3)區域慢性非傳染病分析。運用大數據、數據挖掘技術對區域內居民的高血壓、糖尿病、心血管疾病等慢性非傳染性疾病的個案數據進行匯總、分析,形成區域熱力圖和趨勢分析圖,并結合個體的地域特點、人文環境、遺傳因素及飲食習慣等因素評分統計,對發病規律、病因進行挖掘,在此基礎上,建立慢病預測模型,引導預防慢性病的發生。
(4)區域傳染病分析。運用大數據分析、挖掘技術對常見的傳染性疾病,如結核病、艾滋病、流感等個案數據開展大數據匯總、分析,生成區域分布圖,動態感知傳染趨勢,協助區域公共衛生管理部門阻斷傳染源。
隨著醫療健康領域需求的不斷轉變,健康管理理念正在日益滲透,醫療健康大數據的分析和挖掘技術具有巨大的應用前景。縱觀國內醫療健康大數據分析業務發展歷程,目前主要面臨著數據標準難以統一、數據整合及共享困難、大數據技術手段缺乏、數據安全防護不足和數據挖掘分析人才匱乏等方面的問題。
(1)數據整合及共享難度大。醫療健康相關信息系統建設時往往因購置渠道不一、接口設計復雜、沒有統一標準等歷史原因,形成眾多“信息孤島”,造成各系統的數據字典差異較大,影響了大數據在收集、傳輸、儲存、內部共享和使用中的一致性和準確性,對大數據的挖掘、分析帶來了難度。因此行業內應進一步推進建立統一規范的、可互聯互通的、可推廣應用的數據集和數據元,作為臨床診療、疾病管理和科學研究的基礎,從而更加有利于挖掘數據存在的價值。
同時,醫療、公共衛生、疾控、婦幼等各業務條線數據分散存儲,基于帶寬和系統性能因素,大量業務數據的傳輸效率低下,對數據有效的整合共享帶來了瓶頸。
(2)大數據技術手段缺乏。隨著醫療健康與信息化技術的長期融合,產生了種類繁多、數量眾多的醫療健康數據。但醫療健康大數據挖掘和分析技術的引入和應用尚處在初級階段,究其原因在于大數據深度分析、挖掘技術還在理論研究中,在大數據的查詢、快速加載、處理、分析等方面與業務需求尚有差距。
(3)技術人員短缺。與大數據技術手段缺乏類似,我國大數據分析、挖掘技術起步較晚,研究和應用型人才欠缺,且國內高校沒有設立專門的大數據挖掘、分析專業,且醫療健康和大數據分析、挖掘復合型人才更是鳳毛麟角,相關學者和科研人員大都在摸索國外的先進技術,因此,醫療健康大數據挖掘、分析人才的培養任重而道遠。
(4)數據安全和隱私保護薄弱。在健康醫療數據共享與開放的過程中,傳統的安全防護手段無法跟上數據量非線性增長的部分,數據安全防護會暴露眾多漏洞,容易造成網絡攻擊、數據泄露、病毒攻擊等一系列問題,信息安全將面臨更大的挑戰。另外,在對個人健康數據進行采集、存儲、使用和共享的過程中,個人健康數據會與一些網絡行為、社交信息整合在一起,這時常規隱私保護手段會顯得比較薄弱,容易造成隱私泄露,從而對個人的生活造成不良影響甚至帶來更加嚴重的危害。
為落實“健康強國”的政策號召,進一步維護區域內居民的健康權益,需加快建設區域醫療健康大數據中心,加強區域醫療健康數據資源管理,建立大數據應用體系,尤其需根據現有數據資源挖掘與健康管理和評估、疾病預防可改變每個居民就醫方式和健康維護的方式,從而提高區域整體健康水平,真正實現醫療健康大數據應用的最終目標。為盡快實現終極目標,提高大數據挖掘、分析技術的應用成效,作為區域醫療健康信息化工作者,下一步需致力于研究建設信息共享模式及標準規范、數據安全和隱私保護機制等課題,為區域醫療健康大數據的精準、深入應用夯實基礎。