陳海波 李曉
摘 要:本文基于糖尿病防診治大數據中心,構建糖尿病及其并發癥協作研究平臺,包括數據采集、存儲、處理與分析、開放共享以及應用創建等方面,同時研究結合運營商用戶互聯網行為、位置等數據,構建糖尿病精準傳播示范應用的技術手段和工具。利用大數據分布式存儲與Hadoop技術,設計集成醫療數據和聯通數據的協作研究平臺,為醫療機構及科研院所的糖尿病及并發癥專病診療研究、預防策略研究提供技術支撐。
關鍵詞:糖尿病及其并發癥協作研究平臺;大數據;META分析
一、研究背景
當前我國圍繞糖尿病及并發癥專病的大數據中心尚未建立,如何建立糖尿病及并發癥專病大數據中心,將糖尿病及并發癥專病從機會性發現高危人群轉變為全民高危人群發現已成為一個迫切要解決的課題;如何高效地創建糖尿病防診治科普知識的生產、加工、傳播全鏈條式的信息化傳播體系、科普與廣泛傳播糖尿病防診治知識、提高糖尿病的知識普及率與早期防控率是一個亟待要解決的問題[1]。
二、研究目標
本文通過研究規范化信息整合技術、糖尿病專病信息分析技術、信息脫敏與加密技術、多權限管理技術,結合運營商用戶互聯網行為、位置等數據,構建糖尿病及其并發癥協作研究平臺,包括數據采集、存儲、處理與分析、開放共享以及應用創建等方面研究,為糖尿病及其并發癥研究相關企事業單位、科研院所提供糖尿病科研樣例數據與大數據分析挖掘能力,包括META分析、數據可視化、統計分析、大數據挖掘、糖尿病患者及家屬精準傳播與應用定制開發等功能旨在提升糖尿病早期防診治策略推廣與療效提升的信息化傳播體系網絡,實現信息共享、深入科普與廣泛傳播。
三、研究內容
本研究利用大數據分布式存儲與Hadoop技術,構建集成醫療數據和聯通數據的協作研究平臺,為多家科研院所診療研究提供平臺支撐。糖尿病及其并發癥協作研究平臺在符合數據安全條件下,面向糖尿病及其并發癥研究相關的企事業單位、科研院所等用戶提供數據樣本資源庫管理、預測/決策模型、數據分析算法庫、應用開發工具集、多類應用接口等眾多服務,為開展糖尿病及其并發癥協作研究提供工具支持。平臺建設內容涵蓋數據采集、存儲、處理與分析、開放共享以及典型應用等方面。
(一)糖尿病及其并發癥協作研究平臺數據采集與存儲
基于臨床醫生、科研人員科研需求驅動,集成采用FTP、Kafka等數據采集技術,根據不同研究場景以接口形式實現批量或實時從糖尿病防診治大數據中心及聯通大數據中心采集數據,通過ETL工具實現數據的清洗、轉化,實現多種格式數據自動、標準化采集及預處理。糖尿病及其并發癥協作研究平臺支持關系型數據庫(MySQL、Oracle等)、非關系型數據庫(HBase、Redis等)及分布式文件系統(HDFS),可根據數據特點及研究場景選擇合適數據庫,實現糖尿病及其并發癥相關結構化、非結構化數據資源的統一存儲管理。
(二)糖尿病及其并發癥協作研究平臺數據處理與分析
糖尿病及其并發癥協作研究平臺采用Hive、MapReduce、Spark等技術實現分布式計算,支撐批量處理、計算與交互式分析,具備海量數據低延遲大規模并行處理能力;平臺同時采用Storm、Spark Streaming等組件實現實時流數據處理,支持并行處理技術和緩存機制。
(三)糖尿病及其并發癥協作研究平臺數據開放與共享
糖尿病及其并發癥協作研究平臺采用多租戶架構,通過隔離功能確保不同應用同時運行,實現數據共享,提高性能,降低開發成本。租戶計算資源獨享、存儲空間獨享、租戶空間數據獨享、數據加工過程私密,并可將頁面邏輯、業務邏輯通過容器承載,在資源利用率最大化前提下,實現應用安全隔離、快速部署、彈性伸縮、版本查詢及安全回滾。平臺從數據資源、存儲資源、計算資源等方面對多租戶進行權限管理和資源控制,包括租戶管理、權限管理、資源管理等功能,面向糖尿病及其并發癥研究相關的企事業單位、科研院所等租戶提供按照采樣規則提取的脫敏模型訓練樣例數據。
(四)糖尿病及其并發癥協作研究平臺應用創建
糖尿病及其并發癥協作研究平臺在先進數據存儲與軟件計算架構基礎上,實現分布式數據挖掘方法和工具的研發,包括META分析(文獻薈萃)、數據可視化、統計分析、大數據挖掘、糖尿病患者及家屬精準傳播、應用定制開發等功能。
1.META分析
構建全文檢索引擎,按關鍵詞全面搜索需要分析論點相關的各類研究資料,確定納入和排除標準,結合大數據挖掘和文本挖掘等算法,評價文獻實驗質量和結果的適應性,綜合多個標準和角度比對分析,剔除不滿足標準的文獻,保證系統評價的有效性。
2.統計分析與數據可視化
平臺提供主流統計分析指標算法,包括均數、中位數、眾數、方差、標準差、極差等。平臺提供儀表盤、自助查詢分析、業務報表、多維分析等多種可視化方式,并提供主流可視化圖形如餅圖、折線圖、柱圖、環圖等,為不同用戶提供多樣化可視化能力。
3.大數據挖掘
平臺提供安全可控、可擴展、開放式的工具集成管理功能,預置多種大數據分析和挖掘算法及工具供用戶使用。平臺預置通用分析工具與專項分析工具,包括鉆取分析、關聯性分析、綜合查詢等多種類型的數據分析處理算法;此外,平臺還預置大數據相關性分析、通用挖掘工具集與專項挖掘工具,包括聚類、神經網絡法、關聯性分析、遺傳算法、決策樹與模糊集方法等。平臺支持高級統計分析語言(R語言等)的集成與開發,提供給資深數據科學家對糖尿病數據進行多維度的高級統計分析,深入探索與挖掘數據價值,發現新的數據規律,推動醫療技術的發展。
4.糖尿病患者及家屬精準傳播
平臺通過運營商數據建立用戶社交網絡,將與指定用戶有關系的所有用戶建立關系圖譜,識別出關系圖譜中成員的日常行動軌跡,通過機器學習算法對圖譜內用戶實現綜合數據分析挖掘,建立親屬關系預測的數據挖掘模型,精確識別出指定用戶的親屬關系網絡。通過短信、互聯網、新媒體等傳播渠道實現糖尿病醫療知識的精準傳播。
(五)糖尿病及其并發癥協作研究平臺數據安全管理
1.脫敏技術
平臺采用靜態數據脫敏方式,構建大數據平臺脫敏算法庫,包括L多樣性、數據抑制與差分隱私等算法。平臺智能選擇脫敏算法,并行、高效按照脫敏規則對隱私數據進行脫敏。
2.加密技術
平臺采用國密SM4對稱加密算法,確保敏感數據被越權訪問時仍能得到有效保護。在數據加解密機制方面,為滿足大數據平臺中靜態加密及傳輸加密需求,平臺采用透明加密區加密機制,應用Hadoop KMS(Hadoop Key Management Server)使HDFS實現透明端到端加密[2],確保數據只能被客戶端加密和解密,指定的HDFS讀取和寫入數據均會透明加密和解密,無須用戶應用程序代碼變更,通過高效加解密方案,實現高性能、低延遲的存儲層加解密,實現加解密對上層業務透明,上層業務只需指定敏感數據,完全感知不到加解密過程。
3.日志追溯技術
平臺提供完備的操作日志記錄能力,包括所有對數據的采集、加工處理、查詢、分析、挖掘、共享等操作,記錄內容包含操作賬戶、登錄地址、操作時間、操作內容等,對于敏感信息的操作例如數據的導出、數據的共享等,還將記錄原始數據內容,并且對數據追加數字水印。當數據出現泄露時,可以根據泄露的數據水印結合數據的操作日志進行審計與追責。
本研究基于糖尿病防診治大數據中心的糖尿病專病數據,結合運營商用戶互聯網行為、位置等數據,構建糖尿病及其并發癥協作研究平臺,包括數據采集、存儲、處理與分析、開放共享以及應用創建等方面研究。集成應用FTP、Kafka等數據采集技術以接口形式實現批量或實時從糖尿病防診治大數據中心及聯通大數據中心采集數據,通過ETL工具實現數據的清洗、轉化;應用MySQL、HBase、Redis、HDFS等存儲糖尿病專病及運營商數據;應用Hive、MapReduce、Spark等技術實現分布式計算與交互式分析,應用Storm、Spark Streaming等組件實現并行實時流數據處理;應用多租戶架構實現數據共享;應用搜索引擎與文本挖掘等實現META分析;基于親屬關系預測模型實現糖尿病宣傳知識精準傳播;基于角色訪問控制實現統一認證多權限管理;應用國密SM4對稱加密、數據抑制、差分隱私等實現數據加密與脫敏;應用日志實現數據追溯。其中,涉及Kafka實時流采集、多租戶數據共享、親屬關系預測模型與加密脫敏四個重點技術模型。
平臺應用將充分結合云計算、大數據、物聯網、人工智能、LBS(基于位置的服務)等技術,進一步加強對糖尿病的病患診療信息的感知、采集和整合;對涉及居民個人的健康醫療數據進行脫敏、脫密,構建一體化健康大數據智能分析平臺,實現對包括糖尿病患者、家屬的健康數據、醫衛機構的糖尿病專病數據、醫學研究數據等相關綜合信息的集成與共享;通過對糖尿病專病大數據服務能力的分級、分權限開放,為醫療科研單位提供定向研發的糖尿病專病數據加工、處理、分析、統計、展示等一攬子平臺技術工具。
四、結論
本研究通過加快建糖尿病及并發癥專病防控技術突破,促進技術合理規范應用,為遏制糖尿病及并發癥發病率居高不下的局面提供積極有效的科技支撐。將糖尿病及并發癥專病預防策略從機會性發現高危人群轉變為全民高危人群發現,改進我國糖尿病一級預防策略,填補我國糖尿病預防研究領域的空白;同時構建個體糖尿病及并發癥風險預測模型,實現防診治策略創新。通過糖尿病信息化科研管理平臺與傳播體系的創建實施,將提高我國對建糖尿病及并發癥專病防控及預防的技術水平;糖尿病及并發癥專病大數據平臺的建立,將為醫療健康管理部門提供有力的科學決策的依據,助力健康中國的建設,提高我國居民的幸福感和獲得感。同時通過該研究,將可以規范糖尿病患者治療與管理,強化醫療大數據的服務能力,創新醫療大數據的服務模式,提升糖尿病及并發癥專病的防診治水平。
參考文獻:
[1]俞俊亞,張衛林,張倩,夏學經.西山區結核與糖尿病患者防治知識知曉率分析[J].糖尿病新世界,2017(17).
[2]朱建波,李萍,于炯,廖彬.改進的Kerberos協議在HDFS環境下的研究[J].計算機工程與設計,2014(10).