陳莉平 宋立冉?


摘 要:我國臨床資料表明腦卒中具有較高的復發率,采用風險預測模型及時對腦卒中患者進行智能化的復發風險篩查,識別腦卒中高復發人群具有重要意義。文中提出基于腦卒中患者數據建立腦卒中大數據應用平臺,通過采集和集成腦卒中患者的數據,提取導致腦卒中復發的重要危險因素,在此基礎上,采用基于機器學習的集成學習框架在平臺的數據分析層構建腦卒中復發風險評估模型。目前已開發了腦卒中復發預測模型的原型系統,腦卒中平臺業務管理人員可利用平臺的預測模型對腦卒中初患人群進行復發風險預測。
關鍵詞:腦卒中;復發;大數據;機器學習;集成學習算法;危險因素;預測模型;原型系統
中圖分類號:TP274 文獻標識碼:A 文章編號:2095-1302(2019)06-00-05
0 引 言
腦卒中是由腦血管病變發展到一定程度導致的,具有較高發病率、致殘率和死亡率,已成為當今世界嚴重危害人類健康和生命安全的重大疾病。中國卒中協會2015年首次發布的中國卒中報告顯示,目前我國腦卒中發生率正以每年8.7%的速度上升[1],每年死于腦卒中的患者達到130萬,腦卒中在我國已成為第一位死亡原因[2]。因此,若能及時采用有效的風險評估工具對患者進行復發危險因素篩查,識別高復發風險患者,提高高危患者的風險意識并積極控制危險因素,對降低腦卒中復發率、致殘率和死亡率有重大意義[3]。目前在臨床上用于篩查及預測腦卒中復發風險的工具較多,但均是基于外國人群研發的評估模型。在國內也有學者采用回顧性隊列研究方法,通過對腦卒中患者進行隨訪,構建復發的預測模型[4],但是選擇的樣本量偏少,在實際應用中對臨床決策指導意義不大。隨著大數據處理技術的出現,醫療及健康數據也不斷增加,醫療、健康、衛生等領域也進入了大數據時代[5],當前已有采用大數據對患者慢病進行危險因素評估和個性化干預的研究出現[6]。基于以上幾點,我們對腦卒中國內外復發風險評估模型的應用情況進行了詳細分析,研究并初步建立了腦卒中大數據平臺,并以此為基礎構建腦卒中復發預測原型系統,以期在臨床上幫助醫生對高復發風險患者進行早期、準確、快速地識別,同時幫助患者和家屬將患者病情轉化成積極有效的二級預防干預,這對減少腦卒中的復發具有現實意義。
1 基于大數據模型構建需求
1.1 國外評估模型
針對腦卒中患者的復發風險評估,當前臨床主要采用ABCD評分系統、Essen量表和SPI-II量表等評測工具,其提出的時間較早,且都是基于外國人群研發的評估模型。隨著國人生活方式的改變和生活節奏的加快,卒中患者有年輕化的趨勢,基于不同的人群組,各危險因素的賦分權重是否合理尚未被證實,因此,針對國人來說,這些模型的預測作用較為有限,進一步建立和完善適合國人的腦卒中預測風險評估模型,發現新的危險因素具有重要意義。
1.2 本土評估模型
國內學者主要采用回顧性隊列研究方法構建腦卒中復發的預測模型,將符合腦卒中診斷標準,且首次卒中,并在一定時間內入院的患者作為研究對象,研究過程如下:
(1)記錄患者個人信息、既往史、家族史、生活習慣、入院時的臨床量表評分、入院幾小時內的血壓檢測結果、入院幾天內的實驗室檢查結果;
(2)設計患者隨訪量表,包括患者出院后用藥、血壓、血糖、血脂和康復情況;
(3)隨訪采用電話隨訪和信訪等形式,以患者發病時間為起點,患者腦卒中復發,失訪或死亡為終點;
(4)運用統計學方法進行建模和驗證。構建這類模型所采用的樣本較少,不具有代表性,且樣本來源僅限于研究者所選定的地區,覆蓋面較窄,所構建的預測模型在實際應用中對臨床決策指導意義不大。
1.3 卒中患者數據存儲存在的問題
在當前我國腦卒中防治體系中,不同機構會間接或直接涉入到對同一患者的治療和康復管理過程中,并對患者在院前、院中、院后各個治療階段和康復過程中產生的數據各自存儲。在數據來源和記錄方面,不同機構所采用的記錄類型和規則也不同,從而導致數據的共享極度困難,更無法自動從卒中患者完整的數據信息中挖掘出有價值的預測模型。因此,迫切需要構建腦卒中大數據平臺,采集和集成腦卒中患者數據(患者個人信息,臨床特征、既往史、家族史、生活習慣、實驗室數據、住院診療情況,卒中后二次復發等信息),基于這些信息構建用于國人腦卒中復發預測的評估模型,并將達到一定成熟度和預測性能指標的模型自動地對系統新采集進來的既往腦卒史患者實施及時和有效的篩查是建立腦卒中大數據管理分析平臺的現實需求。
2 腦卒中健康大數據管理平臺構建
2.1 平臺的功能架構
采用Hadoop作為基本的分布式執行架構,構建腦卒中大數據平臺,并在該架構上配置R與Spark等分析工具,形成集腦卒中患者數據采集、存儲、分析、模型學習、風險預測等應用服務系統。平臺功能主要由患者卒中后五年內數據采集與存儲管理系統、基于機器學習的數據分析系統和腦卒中復發預測應用服務等構成。數據采集與數據存儲系統主要對來自不同機構患者的數據進行采集、異構數據的集成、數據存儲、數據加密和權限認證等;數據分析系統對大數據進行分析和處理,篩選腦卒中復發危險影響因素,并在此基礎上部署機器學習算法,通過對危險因素元組數據集進行訓練學習,以構建腦卒中復發風險評估模型;應用服務系統主要基于訓練完成的復發風險評估模型自動、快速對新集成的卒中患者的復發風險進行預測、預警和識別,為決策支持、科研應用、健康服務和智能輔助診斷提供應用支持,功能架構如圖1所示。數據分析與機器學習算法部署是平臺的核心,包括構建算法學習接口,調用R平臺機器學習算法庫等。
2.2 腦卒中大數據管理
腦卒中大數據管理服務主要解決平臺腦卒中大數據采集、讀取、存儲、集成及安全性等問題,為后期的數據建模、分析及預測提供穩定、及時和智能化的支持。
2.2.1 數據采集??腦卒中患者大數據管理平臺實現以腦卒中患者為采集對象,利用數據接入及導入工具對分散在基地醫療機構、社區衛生中心、保健機構、體檢機構、醫院等不同腦卒中數據源所在的各級機構中的患者信息進行采集和集成,最終形成一個研究型和結構化的卒中患者病歷信息庫。采集內容涉及患者個人信息、既往史、家族史、實驗室數據、住院診療數據、階段性隨訪數據、體檢數據等。數據導入針對腦卒中各類異構數據源提供可兼容的異構數據采集接口,實現對不同來源,不同機構下的SQL Server Oracle,MySQL,PostgreSQL等多種關系數據庫數據的數據導入;在數據采集策略上,支持全量、批量、實時數據的接入及導入;在離線數據獲取方面,支持HDFS,FTP,文本文件等日志類數據文件;也可對Flume,Kafka等流式數據實現實時入。
2.2.2 數據存儲與管理
在平臺數據的存儲和管理端,針對數據集成后患者信息的保密性和涉及患者隱私的數據安全性制定管理策略,同時保證能對集成后的數據執行高效的數據部署、讀寫和存儲,平臺所采用的技術集中在以下方面:
(1)數據脫敏。在應對數據安全性的策略上,平臺對集成的患者個人信息中的姓名、社保卡號、出生日期、身份證號、家庭住址、聯系方式、家族病史、個人病史等,根據不同信息的隱私保密程度和后期使用要求,采用重要信息遮蔽、混合屏蔽、確定性屏蔽等方式進行去隱私化處理。針對其他重要數據信息,根據數據的類型,采用數據變形、數據范化等抽象處理策略,在保證用戶數據安全的同時,更好地保留數據特征及關聯關系,以服務于下一步數析。
(2)數據高效存儲。針對結構化數據庫數據,就診記錄、病程記錄、住院記錄等文本半結構化數據,圖像及影像非結構化等異構數據進行集成后,在數據的存儲策略上,平臺采用基于Hadoop架構下的(HDFS)分布式文件系統等技術實現數據的存儲,根據不同的數據類型,采用分布式存儲方式將數據部署在集群各DataNode中,并由DataNode對這些數據進行統一管理,形成一個具有廣闊擴展能力、在不同地點部署及同步處理能力、可管理海量級別數據文件,消除傳統數據存儲中存儲元數據困擾的分布式數據存儲系統。
2.3 腦卒中大數據分析
疾病風險預測的構建思想,通常是把人群中臨床事件發生前收集的相關危險因素信息與最終是否發病等臨床結果建立聯系,以形成風險預測評估模型[7-8],在腦卒中大數據平臺數據分析層,基于風險預測評估模型的這種實現思想,結合集群的分布式處理功能,以R為分析工具,利用其靈活和易于使用的腳本語言,對腦卒中大數據經過預處理后的數據進行深入分析,提取腦卒中患者復發的重要影響因素,在平臺的數據分析層部署基于機器學習的集成學習算法以構建腦卒中復發風險評估模型,用于腦卒中管理業務中腦卒中復發高危人群的識別。
2.3.1 數據預處理腦卒中患者的管理數據來源廣泛,數據形式多樣,涉及種類較多,為了實現腦卒中大數據的挖掘和分析,平臺對患者數據中的性別、年齡、冠心病、房顫、收縮壓、舒張壓、甘油三酯、同型半胱氨酸、低密度脂蛋白、高密度脂蛋白、C-反應蛋白、血糖、總膽固醇、吸煙史、飲酒史、二次卒中情況、體力活動、脂蛋白、體重指數、尿酸、高血壓家族史、糖尿病家族史、高血壓病史、糖尿病病史、卒中家族史等涉及腦卒中危險因素的相關數據進行清洗、插補缺失值、規范數據格式、不合理樣本去除等操作,并將常規腦卒中影響因素作為建模變量進行賦值,使數據格式和質量符合建模的要求,數據處理后的結果見表1所列。
2.3.2 腦卒中危險因素重要屬性篩選將平臺上腦卒中大數據集群中經過數據預處理后的腦卒中危險因素數據集進行隨機采樣,并根據數據集中危險因素的數據類型(分類屬性或數值屬性),采用不同的單因素分析方法對影響腦卒中復發的顯著性因素進行篩選。具體篩選方式:將患者的性別、高血壓病病史、糖尿病病史、冠心病病史、房顫史、吸煙史、飲酒史、體力活動、高血壓家族史、卒中家族史、糖尿病家族史等具有分類屬性的變量與卒中復發史進行卡方檢驗;將年齡、同型半胱氨酸、收縮壓、舒張壓、甘油三酯、低密度脂蛋白、高密度脂蛋白、C反應蛋白、血糖、總膽固醇、體重指數、尿酸等具有連續屬性的變量在二次卒中組和非卒中組間進行獨立樣本T檢驗。通過單因素分析,最終獲取各個集群中具有顯著意義的腦卒中影響指標,并基于顯著性指標形成腦卒中元組數據集,用作后續的數據分析及建模。
2.3.3 腦卒中復發風險學習模型部署
機器學習是一種能夠賦予機器學習的能力以及完成編程無法完成的功能的方法,通過利用學習算法對數據進行訓練,并將滿足性能要求的模型對數據進行范化預測,該方法已成功被運用在健康管理、疾病風險預測等領域[9]。因考慮到平臺所集成的卒中數據量級,卒中患者在卒中后五年內具有很高的復發率,各個數據維度基本不存在嚴重的稀疏性,數據在集成學習前也已做過預處理,因此在針對平臺數據學習算法的部署上,機器學習集成算法應用場景較多,將決策樹作為基分類器,在大部分分類器上的AdaBoost[10]器集成學習算法框架。該框架能基于多個學習器創建一個較強學習器,相比其他學習框架,集成學習不會對數據過度擬合,可顯著降低泛化錯誤率,具有更強的容錯和抗擾動能力,在達到同等性能的情況下,所用學習時間最短。算法原理如圖2所示。
在算法的執行端,平臺結合數據集群的分布式處理功能,以R為分析工具,調用其內置的AdaBoost集成學習算法庫,對平臺上經過處理后分布存儲的腦卒中元組數據集進行學習和建模,學習算法如下:
具體的學習方案:
(1)從腦卒中指標數據集中隨機抽取75%的樣本數據集用來訓練模型,余下25%的數據作為測試集用以評估模型的性能;
(2)對訓練數據集的權值分布進行初始化處理,每一個訓練樣本初始賦予相同的權重;
(3)第一個分類器嘗試使用決策樹對訓練數據建模,并根據預測結果調整其在下一個分類器訓練數據中樣本的權重,如果在上一個分類器的預測中,一個卒中復發/無復發被執行錯誤分類成無復發/復發,那么在下次分類器的訓練樣本采樣過程中,該錯誤樣本就會被賦予較高的權重,以使其能夠以較高的概率被抽中納入到本次分類器,反之,降低上次被正確預測樣本的權重到本次分類器,以提高樣本被正確分類的概率,再用調整權重后的樣本對下一個分類器進行訓練,從而依此迭代訓練數據集。具體的迭代次數取決于十折交叉驗證的結果;
(4)在各類分類器的訓練過程結束后,加大分類誤差率小的分類器的權重,使其在最終的分類函數中起決定作用,降低分類誤差率大的分類器的權重,并最終將多個訓練得到的分類器組合成決策型強分類器;
(5)隨著平臺上新卒中患者數據的不斷采集,更新訓練集并重復以上過程,直到模型的預測性能不再提高為止。
3 腦卒中復發預測原型系統
目前已完成腦卒中數據平臺的初步搭建,實現了腦卒中患者數據的采集和存儲,集成了多達上萬例腦卒中患者數據,平臺在對當前腦卒中患者數據進行預處理后,從腦卒中影響因素中篩查得出,患者的年齡、高血壓、甘油三酯、冠心病、高血壓家族史、體重指數、總膽固醇、同型半胱氨酸、高密度脂蛋白等指標是導致腦卒中復發的前9項顯著性影響因素,影響腦卒中復發的前9位因素重要性對比如圖3所示。
平臺執行已部署完成的AdaBoosting機器集成算法,針對當前平臺上萬例腦卒中患者數據,將腦卒中元組數據集中的7 000例用作腦卒中復發風險評估模型構造的訓練數據集,將剩下的3 000多例數據作為模型的測試集,運用準確率、敏感性、特異性、Kappa、Auc等指標參數和ROC曲線來評估平臺當前模型的預測性能。
當前模型性能參數包括準確性:0.83,靈敏度:0.85,特異性:0.81,陽性預測度:0.93,陰性預測度:0.81,Kappa:0.66,Auc=0.88。準確性為0.83,表明平臺當前所采集和集成的數據集訓練得到的預測模型能夠對腦卒中患者是否復發的預測準確性達到83%;靈敏度為0.85,說明患者被正確分類的比例達到85%;陽性預測度為0.93,意味著模型在預測時,患者極有可能像陽性才會預測為陽性,其可以仔細定位到陽性患者,同時忽略非陽性患者,說明模型不太容易因無意義的噪聲而減弱其預測準度;Kappa達到0.66,也表明腦卒中患者是否復發的預測結果與其實際結果之間達到不錯的一致性。當前預測模型的ROC曲線如圖4所示,圖中ROC曲線離45°的分類器基準線距離較遠,ROC曲線下面積Auc達到0.88,說明分類器分類效果良好。
4 結 語
本文對腦卒中患者大數據的應用需求進行了分析,并采用大數據技術對卒中患者在治療過程中相關醫療記錄進行集成和存儲,已初步完成了腦卒中數據平臺的搭建,并在平臺的數據分析層部署了腦卒中重要危險因素篩查和基于機器學習AdaBoost學習算法。根據平臺原型從當前采集到的數據篩查結果來看,年齡、高血壓、甘油三酯、冠心病、高血壓家族史、體質指數、總膽固醇、同型半胱氨酸、高密度脂蛋白等指標是導致腦卒中復發的顯著因素。從算法針對7 000多例腦卒中患者數據訓練出的結果來看,模型具有較好的泛化能力(準確性:0.83,靈敏度:0.85,特異性:0.81,陽性預測度:0.93,陰性預測度:0.81,Kappa:0.66,Auc=0.88),當前數據所建立的模型能夠對腦卒中初次患病后的人群進行復發風險預測。隨著采集和接入更多的卒中患者數據,模型可達到更為準確的預測效果。根據未來平臺應用者使用需求深度的增強,可在平臺上部署其他數據分析算法,以對卒中數據做更深層次的挖掘,為決策支持、科研應用、健康服務和智能輔助診斷提供更加準確的參考依據。
參 考 文 獻
[1]廖美容,周義杰,蘇丹.自擬中經2號方治療中風急性期的療效評價[J].右江醫學,2013,41(4):573-575.
[2] WU X,ZHU B,FU L.Prevalence,incidience,and mortality of stroke in the Chinese island populations:a systematic review[J].PLoS One,2013,8(11):67-69.
[3] PADHUKASAHASRAM B,HALPERIN E,WESSEL J,et al.Presymptomatic risk assessment for chronic non-communicable disease[J].PloS one,2010,5(12):96-99
[4]安雅臣,王玉潯,張江,等.缺血性腦卒中復發預測模型的構建[J].中國康復理論與實踐,2013,19(3):210-213.
[5]潘驚萍,張子武.醫療衛生大數據探索[J].中國衛生信息管理雜志,2016,13(4):187-189.
[6] STEINBERG G B,CHURCH B W,MCCALL C J,et al.Novel predictive models for metabolic syndrome risk:a“big data”analytic approach[J].The American journal of managed care,2014,20(6):211-218.
[7]鄧乃揚.支持向量機-理論、算法與擴展[D].北京:科學出版社,2009.
[8]劉建平,程錦泉.應用分類樹模型構建缺血性腦卒中發病風險的預測模型[J].中國慢性病預防與控制,2012,20 (3):257.
[9]宗慧,趙韡.應用機器學習算法構建心梗患者風險預測模型[J].中國數字醫學,2016(4):36.
[10] ALFARO E,GAMEZ M,GARCIA N.Adabag-an R packages for classif-ication with boosting and bagging[J].Journal of statistical software,2013(54):1-35.