張志潔
(嶺南師范學院 計算機與智能教育學院,廣東 湛江 524048)
隨著人們對健康和生存質量需求的日益提高,腦卒中防治工作逐漸成為全社會關注的焦點。腦卒中是由腦血管病變發展到一定程度導致的,具有較高發病率、致殘率和死亡率,已成為當今世界嚴重危害人類健康和生命安全的重大疾病。在中國卒中協會首次發布的中國卒中報告顯示,目前我國腦卒中發生率正以每年8.7%的速度上升,每年死于腦卒中的患者達到130萬,腦卒中在我國已成為第一位死亡原因。
近年來,國家相繼出臺了《“健康中國2030”規劃綱要》《國家大數據戰略》《“互聯網+”行動計劃》等相關文件,致力于利用互聯網和信息化的優勢,解決腦卒中防治熱點問題,信息化已成為腦卒中防治工作的重要手段。因此,若能及時采用有效的風險評估工具進行早期腦卒中病情預警,識別高復發風險患者,提高高危患者的風險意識并積極控制危險因素,對降低腦卒中復發率、致殘率和死亡率有重大意義。
大數據技術作為一種有效的信息化技術手段,在多源異構醫療大數據的存儲和處理分析中能夠發揮重要的效用,已成為國內外研究者們關注的重點方向之一。目前,已構建了基于Hadoop的醫療輔助診斷系統、醫療康復推薦系統,基于Spark的高血壓藥物推薦平臺、衛生統計系統、醫療實時數據分析平臺,基于大數據的醫院臨床知識系統等,在如何對多源異構醫療大數據進行存儲、處理方面進行了廣泛探討。
本課題結合Spark技術,構建新型的腦卒中醫療大數據服務平臺,并以此為基礎建立腦卒中預防模型,結合機器學習算法對腦卒中高風險患者進行早期、準確、快速識別,旨為腦卒中疾病的早期預警、復發防控、風險評估提供技術和方法學支撐,擬從以下3個方面開展研究:基于數據驅動的腦卒中特征選擇;腦卒中服務平臺的系統功能設計;構建腦卒中服務平臺的關鍵技術。以上各部分內容在邏輯上依次聯系,從而構成一個有機整體,如圖1所示。

圖1 腦卒中服務平臺架構圖
近年來隨著大數據時代的到來,醫療領域中的大數據源出現了指數級別的增長,可以看作是醫療數據的爆炸式增長模式,在各種醫療服務平臺中使用大數據進行分析有助于對用戶的病情進行準確決策,有助于輔助醫生進行診斷和資料方案的制定。
醫療大數據的來源豐富,數據格式多元化,常見的數據來源有居民健康檔案及基本公共衛生、健康體檢、臨床診療、健康/疾病檢測、健康保險和可穿戴設備等。這些數據內容多樣化,包含有姓名、年齡、住址、電話等隱私信息,面診過程中病患的身體狀況、醫療檢測、影像等信息和個體健康信息等。僅一個社區醫院累積的數據量就可達數萬億字節甚至數千萬億字節(PB)之多。因此,如何在合理的時間內達到擷取、管理并整合這些數據,使之能快速成為能夠幫助醫生或者用戶進行更積極治療或決策是亟待解決的問題。
本課題依據數據挖掘技術的知識體系,針對腦卒中醫療大數據的多層次、多粒度、參數關聯復雜等特點,采用合適的數據挖掘方法對大規模數據進行深入分析和挖掘,將用戶的醫療數據進行分步式處理。首先,采用隨機森林算法對采集到的數據進行缺失值填充,隨機森林算法收斂速度快、精度高,能有效對大規模原始數據集進行高效處理;其次,采用高斯函數對異構的數據進行數據融合,使得原始數據集中的異構數據能有效進行整合;最后,采用熵值法從原始數據集中篩選出高價值數據屬性,使得后期的數據分析和挖掘更精準、快捷。通過對大規模多源異構數據的有效預處理和特征選擇,可獲得核心腦卒中醫療數據集,為服務平臺的后續數據挖掘提供支撐,有助于為用戶提供精準的醫療服務和決策。
現有的多數醫療服務平臺的功能都存在需要改進的地方,比如:如何讓用戶方便快捷地了解自身健康情況,如何讓用戶在平臺中獲得精準的醫學治療方案建議,如何為用戶推薦適合其需求的服務等。
為解決目前醫療服務平臺存在的難點問題,滿足腦卒中患者的需求,節約患者就醫時間,解決腦卒中患者“看病難”的問題,需設計新型的腦卒中服務平臺,其具有特色鮮明的各種功能。首先,依托互聯網,使得用戶可以隨時隨地了解自身健康狀況,快速鎖定具體病情發展趨勢,清晰知曉自身病情狀況。其次,醫生也可通過此平臺及時獲知用戶病情發展特點,對治療方案進行應對調整;最后,通過對用戶病情風險的預測結果和對用戶偏好的分析,并結合用戶當前地理位置信息,為用戶提供合理的個性化推薦,推薦適合該用戶病情特點的醫院及醫生,縮短就醫時間和流程,在一定程度上為他們的就醫提供適當的導向,提升患者的就醫效率。同時,根據用戶疾病特點和用戶喜好,為用戶推薦個性化的健康生活常識和醫學知識,以幫助用戶提升自我意識,主動積極地緩解病情,促進生活質量的提高。
在腦卒中醫療大數據服務平臺的構建中,設計基于Hadoop技術的分布式并行處理架構,它由實現數據分析的MapReduce計算框架和實現數據存儲的分布式文件系統(HDFS)有機結合組成,此平臺可對海量醫療數據進行高效存儲、處理,并將區塊鏈技術應用于存儲層中,既能保證數據的安全性和一致性,也能保證計算效率,提高數據質量,以形成數據格式統一的分布式數據存儲倉庫,并為后續數據挖掘和分析提供支撐。
基于前期的數據存儲、預處理后,采用機器學習算法對醫療大規模數據進行深入分析和挖掘,發現數據內在機理、剖析數據蘊含趨勢。首先,采用神經網絡算法對核心高維數據集進行分析和挖掘,對用戶患病風險進行預測,以對腦卒中患者進行早期、準確、快速地識別,神經網絡算法運行速度快、精度高,已廣泛成功運用于多領域,能高效地為腦卒中疾病的早期預警、復發防控、風險評估提供強有力的技術支撐;其次,基于神經網絡算法的預測結果和數據屬性的各自權值,深入分析引發病情風險的重要因素,為疾病的有效預防和治療提供指引和參照;第三,采用協同過濾方法,結合用戶病情風險預測結果、用戶偏好、用戶當前地理位置等信息,為用戶推薦合適的就醫醫院醫生,為用戶及時就醫提供支撐。同時,結合用戶病情分類結果和就醫情況信息等,采用決策樹算法為用戶進行個性化健康生活方案和康復、預防方案的推薦,作為用戶生活中的健康助手以提升用戶的醫學防護意識,將患病風險轉化成積極有效的二級預防干預,有效提升患者生存質量。
結合前人的研究,為補全醫療信息化行業的缺口,滿足腦卒中患者的需求,在現今的醫療服務平臺已有的功能的基礎上,結合大數據技術及機器學習算法,構建腦卒中服務平臺,為腦卒中的患者提供診前風險預測和個性化醫療信息推薦功能。通過采用缺血性腦卒中最新診斷標準,對用戶腦卒中進行準確地診前風險預測,幫助用戶快速鎖定具體患病風險,提前了解自身健康狀況,便于用戶及時就醫。并且,根據腦卒中風險預測結果、用戶需求等,為用戶就醫流程進行合理推薦,為用戶進行個性化健康生活方案和康復、預防方案進行科學推薦,有利于用戶有效就醫引導,提高就醫效率,幫助患者在日常生活中快速便捷地獲取健康生活知識,緩解病情。有效推動醫療信息服務的理念從“面向集體”向“面向個體”轉變,打造個性化和私人化貼身服務,幫助患者提高生活質量,提升智慧生活品質,推進醫療信息領域的創新發展。