張遠林 譚思遠 李遠杉 徐澤全 盧熙 徐旭 李俊峰 唐毅 彭建強 鄭昭芬 李艷紅
(1.湖南省人民醫(yī)院信息中心 湖南師范大學附屬第一醫(yī)院,湖南 長沙 410005; 2.湖南師范大學附屬第一醫(yī)院,湖南 長沙 410005; 3.湖南省人民醫(yī)院心血管內(nèi)科 湖南省心力衰竭臨床醫(yī)學研究中心 湖南師范大學附屬第一醫(yī)院,湖南 長沙 410005; 4.湖南省人民醫(yī)院 湖南師范大學附屬第一醫(yī)院,湖南 長沙 410005)
大數(shù)據(jù)是指需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力來適應海量、高增長率和多樣化的信息資產(chǎn),每個人每天都在不斷地產(chǎn)生大量的數(shù)據(jù)。同樣越來越多的醫(yī)療機構(gòu)通過電子健康檔案、組學、醫(yī)學影像資料以及可穿戴設(shè)備等作為健康和疾病相關(guān)的電子記錄,從而擁有了自己數(shù)字形式的醫(yī)療大數(shù)據(jù),并進一步將這些記錄數(shù)據(jù)用于醫(yī)學研究[1]。將醫(yī)學實踐作為證據(jù)的基于數(shù)據(jù)和精準醫(yī)療的新時代正在到來。通過對大量數(shù)據(jù)進行整合分析,識別危險因素與疾病的相關(guān)性,并進行風險預測,最終改善疾病的治療和預后[2-3]。現(xiàn)就醫(yī)療大數(shù)據(jù)的特性及來源、大數(shù)據(jù)分析的技術(shù)、大數(shù)據(jù)在心血管疾病研究中的優(yōu)勢以及面臨的挑戰(zhàn)做一綜述。
由于技術(shù)的進步和醫(yī)療記錄的數(shù)字化,醫(yī)療衛(wèi)生行業(yè)正在產(chǎn)生大量的醫(yī)療數(shù)據(jù)[4]。其具有容量大、種類多、獲取速度快、來源渠道多和應用價值高等特征。
醫(yī)療數(shù)據(jù)是分散的,具有多種來源,如臨床數(shù)據(jù)、基因數(shù)據(jù)、智能監(jiān)測數(shù)據(jù)和日常數(shù)據(jù)等[5-6]。表1總結(jié)了各種醫(yī)療數(shù)據(jù)分類及具體來源。研究者可通過使用適當?shù)姆治龉ぞ吆图夹g(shù),綜合各種來源的數(shù)據(jù),分析健康相關(guān)信息,從而協(xié)助醫(yī)療決策[7-8]。

表1 醫(yī)療數(shù)據(jù)的各種來源
傳統(tǒng)數(shù)據(jù)主要依靠數(shù)據(jù)分析師使用傳統(tǒng)技術(shù)和數(shù)據(jù)倉庫進行存儲、處理和管理。然而,醫(yī)療保健領(lǐng)域的大規(guī)模數(shù)據(jù)革命無法使用傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)、工具和技術(shù)。許多具有高計算能力和存儲容量的先進技術(shù)已被開發(fā)來解決傳統(tǒng)系統(tǒng)性能低和難度大的問題,如機器學習、數(shù)據(jù)挖掘、神經(jīng)網(wǎng)絡(luò)、模式識別和神經(jīng)學習等[9-11]。因此,大數(shù)據(jù)技術(shù)被稱為具有高計算能力和分析能力的先進技術(shù),能處理從各種來源收集的大量數(shù)據(jù),并從中進行分析。表2展示了大數(shù)據(jù)分析的技術(shù)。

表2 大數(shù)據(jù)分析的技術(shù)
與傳統(tǒng)數(shù)據(jù)庫系統(tǒng)相比,醫(yī)療大數(shù)據(jù)系統(tǒng)可存儲和處理各種各樣的醫(yī)療數(shù)據(jù),無論是結(jié)構(gòu)化、半結(jié)構(gòu)化還是非結(jié)構(gòu)化的數(shù)據(jù),比如患者的電子健康檔案、實驗室數(shù)據(jù)、臨床試驗報告和保險數(shù)據(jù)[5]。通過對這些醫(yī)療原始數(shù)據(jù)進行數(shù)據(jù)轉(zhuǎn)換,利用大數(shù)據(jù)分析技術(shù)對數(shù)據(jù)進行分析,從而實現(xiàn)大數(shù)據(jù)在心血管領(lǐng)域的應用[1,12](見圖1)。其應用主要包括以下幾個方面。

圖1 大數(shù)據(jù)的應用框架
大數(shù)據(jù)分析可通過建立預測模型,識別高危人群,提供個性化的醫(yī)療推薦,協(xié)助驗證藥物靶標和發(fā)現(xiàn)藥物副作用,協(xié)助分析及監(jiān)測疾病流行病學,發(fā)現(xiàn)疾病表型數(shù)據(jù)等方式在心血管疾病應用中發(fā)揮巨大作用,最終讓醫(yī)生和患者均能獲益。
在醫(yī)療衛(wèi)生系統(tǒng)中,鑒別潛在患病人群或高風險人群的預測模型有助于提高臨床醫(yī)生實施治療決策的效率[13]。盡管目前大數(shù)據(jù)分析在人群管理中的應用尚處于起步階段,但大數(shù)據(jù)分析在健康醫(yī)療領(lǐng)域中已顯示出其優(yōu)越性[14]。例如在電子病歷系統(tǒng)中,應用自然語言處理、機器學習和數(shù)據(jù)挖掘等方法,可尋找潛在心血管疾病的高危人群,并對已診斷有心血管疾病患者的疾病進展進行監(jiān)控[1,15]。Shameer等[16]基于電子醫(yī)療記錄的特征選擇方法和機器學習構(gòu)建預測模型并用于預測心力衰竭的發(fā)生及輔助心力衰竭的診斷。其對1 068例患者進行了評估,結(jié)果表明經(jīng)過訓練和測試的預測模型曲線下面積為0.78,準確度為83.19%。Parkes等[17]檢索了1980—1999年的電子數(shù)據(jù)庫并對行植入型心律轉(zhuǎn)復除顫器患者的心電圖進行分析,構(gòu)建了一種可用于協(xié)助診斷心律失常發(fā)生的應用模型。Evangelou等[18]通過對血壓特征(收縮壓、舒張壓和脈壓差)的遺傳關(guān)聯(lián)研究,發(fā)現(xiàn)了535個新的血壓基因位點,這些基因位點不僅為血壓調(diào)節(jié)提供了新的生物學見解,而且還強調(diào)了血壓和生活方式暴露之間的密切關(guān)聯(lián),從而可幫助臨床醫(yī)生更好地識別高危人群。
心血管疾病中存在諸多疾病種類,不同疾病的臨床表現(xiàn)可能相似,而相同疾病的臨床表現(xiàn)也可能存在較大的差異。大數(shù)據(jù)可通過分析各項數(shù)據(jù)來區(qū)別各類疾病之間的異同,進而通過機器學習和自然語言等分析處理工具,實現(xiàn)“表型圖譜”的繪制和對患者的個性化分析,根據(jù)個人當前的健康狀況和病史開發(fā)個性化的系統(tǒng),為其提供精確和個性化的醫(yī)療推薦[19-20]。Serial等提出了一種基于大數(shù)據(jù)分析的健康管理系統(tǒng),利用大數(shù)據(jù)模型構(gòu)建健康信息搜索,同時利用基于傳感器的智能信息系統(tǒng)實時遠程追蹤患者生命體征,當患者生命體征出現(xiàn)異常時發(fā)出警報,并根據(jù)預測結(jié)果提供個性化的治療方案,從而幫助醫(yī)生快速獲取患者的信息,針對患者制定個性化的治療方案[21]。
心血管疾病的預防和治療需要不斷的探索和發(fā)現(xiàn)新型藥物。在藥物發(fā)現(xiàn)、基因組藥物靶標驗證、標志物驗證和藥物再利用的過程中,電子健康檔案的建立發(fā)揮越來越重要的作用。識別哪些疾病表型與藥物相關(guān)的遺傳變異有關(guān)并系統(tǒng)評估各類藥物在未經(jīng)試驗疾病的潛在作用,需從整體的大數(shù)據(jù)中整合各類疾病及疾病發(fā)生機制,并進行大數(shù)據(jù)分析,從而協(xié)助明確各類藥物在未經(jīng)試驗疾病的潛在作用或已批準的藥物確定新的疾病適應證。例如西地那非和β受體阻滯劑等藥物已成功用于治療新的疾病[22]。托珠單抗是被用于治療風濕性關(guān)節(jié)炎的藥物,由于白介素-6與心肌梗死之間存在因果關(guān)系的發(fā)現(xiàn)使其應用于心肌梗死存在可能[23]。
藥物臨床試驗是識別不良反應的第一道防線,但它們在識別罕見不良反應及對多種藥物同時使用時的相互作用的能力仍存在一定局限性。利用大數(shù)據(jù)分析可對藥物的罕見不良反應及藥物之間的相互作用進行識別及分析。Wang等[24]通過對950萬份臨床記錄以及先前的用藥知識和已知的不良反應作為數(shù)據(jù)來源對藥物不良反應進行大數(shù)據(jù)分析,從而識別可能的藥物不良反應。Noor等[25]基于醫(yī)療大數(shù)據(jù)構(gòu)建數(shù)據(jù)驅(qū)動的醫(yī)療決策框架用于識別潛在的藥物副作用,通過富集分析確定藥物-藥物相互作用機制,該醫(yī)療決策框架表現(xiàn)出較好的預測能力,其準確度為85.5%。
大數(shù)據(jù)分析可對心血管疾病的流行病學進行分析及監(jiān)測。大數(shù)據(jù)分析能將醫(yī)療數(shù)據(jù)進行分析并發(fā)布公共衛(wèi)生信息,協(xié)助公共衛(wèi)生管理機構(gòu)開展活動,提高人群對疾病的防治意識,從而減少心血管疾病的危險因素[26-27]。研究人員利用丹麥人口電子健康登記處的數(shù)據(jù),將620萬例患者的14.9年登記數(shù)據(jù)轉(zhuǎn)化為1 171個重要軌跡,發(fā)現(xiàn)痛風和慢性阻塞性肺疾病等疾病在許多軌跡的交點上,提示痛風與慢性阻塞性肺疾病可能存在關(guān)聯(lián)[28]。Morley等[29]回顧性分析了1998—2010年英國30歲以上患者的電子健康數(shù)據(jù)并開發(fā)了一種表型算法,對心房顫動的發(fā)生進行識別及預測。結(jié)果表明,結(jié)合多個數(shù)據(jù)源并整合有關(guān)治療和合并癥的信息可顯著提高對心房顫動發(fā)生的識別準確度,并實現(xiàn)對心房顫動的監(jiān)測。
心血管疾病在發(fā)生和發(fā)展的過程中會經(jīng)過多種潛在的病理生理過程,涉及許多不同的表型(如炎癥、血栓形成、鈣化形成和纖維化等)。大數(shù)據(jù)分析可對心血管疾病基因型和表型之間的關(guān)系進行分析,提高臨床醫(yī)師對心血管疾病的診治能力[30]。如通過鑒定具有高外顯性致病突變的個體(如遺傳性肺動脈高壓和肥厚型心肌病),可證明基因修飾的存在[31]。Ghiassian等[32]基于HuGE Navigator基因庫構(gòu)建內(nèi)表型網(wǎng)絡(luò)模型,利用蛋白質(zhì)組學數(shù)據(jù)探索巨噬細胞活化參與炎癥過程和反應,并建立了炎癥、血栓和纖維化相互作用的亞網(wǎng)絡(luò),這些內(nèi)表型與心血管危險因素相關(guān)的差異表達基因密切相關(guān),他們認為通過大數(shù)據(jù)構(gòu)建的網(wǎng)絡(luò)模型研究區(qū)域內(nèi)蛋白質(zhì)及其相互作用可用于研究特定疾病的分子機制及疾病表型。Roque等[33]借助大數(shù)據(jù)工具對電子健康檔案進行分析,通過文本挖掘豐富現(xiàn)有結(jié)構(gòu)化的患者數(shù)據(jù),實現(xiàn)大數(shù)據(jù)模型對疾病的危險分層并識別和研究疾病并發(fā)癥。
盡管大數(shù)據(jù)在心血管疾病中的應用能產(chǎn)生諸多獲益,但目前大數(shù)據(jù)分析在心血管領(lǐng)域中尚未進一步深入,主要聚焦在概念和大數(shù)據(jù)的潛在作用以及大數(shù)據(jù)分析工具的應用等方面,同時大數(shù)據(jù)也存在固有的缺陷,如數(shù)據(jù)標準化與管理、數(shù)據(jù)安全、如何與臨床整合、專業(yè)性及方法學差異等,限制了它的進一步應用[1,34]。
隨著醫(yī)療保健行業(yè)開始向數(shù)據(jù)分析逐步發(fā)展,數(shù)據(jù)管理是一個重大挑戰(zhàn)。由于大數(shù)據(jù)分析是基于大量但并不完整的數(shù)據(jù)源,因此患病人群的抽樣誤差、無法估計的混雜因素以及治療選擇偏倚都會影響大數(shù)據(jù)分析工具的應用[35]。在醫(yī)學領(lǐng)域中,由于缺乏統(tǒng)一的數(shù)據(jù)標準以及數(shù)據(jù)源中醫(yī)學用詞的不一致性,可能會妨礙對某些研究問題的有效推斷,因此需對數(shù)據(jù)進行標準化和管理。可通過建立統(tǒng)一標準的國際疾病分類(international classification of diseases,ICD)編碼(ICD-9-CM、ICD-9和ICD-10),在同一個人中交叉引用多個數(shù)據(jù)源會顯示不同來源定義的病例的陽性預測值,允許開發(fā)和共享表型算法等方法來實現(xiàn)數(shù)據(jù)標準化與管理[36]。
目前,國際上許多國家建立了全國性的電子健康檔案數(shù)據(jù)標準集[37-38],并且在心血管疾病中的應用有了很多高質(zhì)量的研究成果,如Nanjo等[39]基于英國的電子健康檔案來調(diào)查無家可歸者心血管疾病的流行率和發(fā)病率,發(fā)現(xiàn)無家可歸的人群比有家室的人群心血管疾病的發(fā)病率更高,并且更容易有心血管疾病的危險因素。中國目前心血管大數(shù)據(jù)建設(shè)起點低,數(shù)據(jù)缺乏標準化和統(tǒng)籌管理,高質(zhì)量大數(shù)據(jù)相關(guān)心血管研究成果少[40-42]。因此,中國未來若想在心血管大數(shù)據(jù)上有所突破,建立符合中國國情的心血管大數(shù)據(jù)標準體系至關(guān)重要。
數(shù)據(jù)安全是醫(yī)療保健領(lǐng)域最重要和最具挑戰(zhàn)性的任務之一。由于醫(yī)療信息涉及到個人隱私和公共信息安全,信息的所有權(quán)難以界定,中國一直對信息的公開使用持謹慎態(tài)度,需充分考慮患者隱私及意愿、數(shù)據(jù)安全性以及其他與電子病歷相關(guān)的法律問題。在醫(yī)療領(lǐng)域應用大數(shù)據(jù)分析,法律和監(jiān)督管理問題可能成為潛在的障礙,包括患者私人信息的泄露、非法使用患者信息,甚至用這些數(shù)據(jù)分類患者,有差別地提供醫(yī)療服務或醫(yī)療資源[43-44]。在大數(shù)據(jù)時代,醫(yī)療保健數(shù)據(jù)是高度敏感的數(shù)據(jù),因此醫(yī)療保健數(shù)據(jù)的隱私問題必須得到認真考慮,必須對其進行保護,防止未經(jīng)授權(quán)的使用,使其無法公開可用,而且還要防止不法者借此進行醫(yī)療保健欺詐。因此需在倫理道德及法律法規(guī)的監(jiān)控下使用數(shù)據(jù)。
將大數(shù)據(jù)分析預測模型與臨床實際相整合,是大數(shù)據(jù)在臨床上成功應用的關(guān)鍵。已有的心血管風險預測模型和評分很少應用到常規(guī)臨床實踐中,而且已有模型在改善患者預后方面的作用十分有限。與傳統(tǒng)風險模型相比,大數(shù)據(jù)分析工具的數(shù)據(jù)規(guī)模更大,種類更多,在預測方面更加精確,可借助大數(shù)據(jù)分析技術(shù)將資源整合到臨床治療決策實施中,進而產(chǎn)生臨床效用。但由于大數(shù)據(jù)分析存在重復計算的風險,這種情況下該預測模型的臨床實用性可能較差,因此提升大數(shù)據(jù)分析的臨床效能還需開發(fā)新型工具[45]。
信息學和大數(shù)據(jù)庫的建立需要較高的信息學專業(yè)知識,而大數(shù)據(jù)分析結(jié)果應用于臨床則需專業(yè)的臨床知識進行判斷。然而從事臨床和衛(wèi)生保健的專業(yè)人員很少接受過信息學、編碼、軟件開發(fā)或其他相關(guān)的技能方面的正式培訓。加強從事醫(yī)療的專業(yè)技術(shù)人員對信息學的學習可能比較重要,或可通過組建多學科團隊從而滿足醫(yī)療大數(shù)據(jù)庫的建設(shè),包括將醫(yī)療人員、基因組學、基礎(chǔ)生物學、數(shù)學、計算機科學、統(tǒng)計學和工程學等專業(yè)人員的整合[46]。
在臨床治療過程中,即使經(jīng)過多重驗證,大數(shù)據(jù)分析工具的表現(xiàn)仍然會有差異,包括數(shù)據(jù)缺失、預測模型過度匹配、多重比較和出現(xiàn)假陽性的風險等。因此在使用大數(shù)據(jù)分析工具之前必須進行再驗證[47]。
通過整合和有效地使用醫(yī)療保健領(lǐng)域的大數(shù)據(jù)分析工具和技術(shù)有可能獲得巨大收益,如幫助患者在正確的時間作出正確的決定,在降低醫(yī)療保健成本的同時改善患者的健康狀況,節(jié)約臨床不必要的花費。醫(yī)療保健數(shù)據(jù)支持研究人員和科學家通過更精確和適當?shù)闹委焷砑訌娽t(yī)療保健服務。醫(yī)療數(shù)據(jù)還有助于評估健康風險和分析疾病發(fā)展趨勢,以加強公共衛(wèi)生監(jiān)測。還可通過利用這些數(shù)據(jù)提高對心血管疾病病因和發(fā)病機制的理解,從而改善心血管疾病患者的健康和醫(yī)療保健。但在充分地發(fā)揮這些數(shù)據(jù)潛力的同時,同樣會面對更大的挑戰(zhàn)。