徐巧云,諸紀,陸雯珺
(上海計算機軟件技術開發中心,上海201112)
醫療大數據可視化系統架構研究與實踐
徐巧云,諸紀,陸雯珺
(上海計算機軟件技術開發中心,上海201112)
基于現如今海量的多源異構型醫療大數據,提出一種基于醫療大數據可視化系統架構的研究與實踐。數據由原來的二維向三維轉化,形成相互連接的立體數據體系,全方位的展現數據之間的相互關系,保證數據信息的具象可視化效果,同時為政府、醫院、居民決策提供支撐。
大數據;可視化;醫療大數據
隨著“互聯網+”的迅速發展,醫療大數據受到國家、政府機構等多方面的關注,2016年6月國家發布的指導意見中指出,要大力推進健康醫療信息系統和健康醫療數據互聯互通,相互融合,營造良好的創新應用發展環境,必須要堅持實行以人為本、規范有序、創新驅動、開放融合、共建共享的原則。但與此同時,海量的異構數據面臨著分析處理的挑戰,為此,深入研究醫療大數據重中之重[1]。
國家“十三五”規劃指出,推動大數據產業的健康快速發展,必須深度挖掘大數據在各行業領域的創新應用,探索大數據與傳統行業相結合的新模式,完善大數據產業鏈。攻克數據采集、存儲、分析、發掘、可視化等前沿關鍵技術。支撐大數據軟硬件產品的研發。在大數據產業公共服務中,完善支撐體系和生態體系,加強標準體系建設、夯實質量技術基礎。
如今越來越多的BI繪制工具已成功上市,這些工具越來越自動化、智能化。但是隨著各類可視化新需求的產生,傳統可視化形式的限制,隱藏在大數據背后的價值越發難以被挖掘出來,難以被人類所發覺。由于展現形式的局限,降低了數據的可讀性和實效性,從而影響了用戶的理解和決策。透過平面屏幕來接收信息始終掣肘人們的感官,VR、AR、全息投影,這些最火熱的技術早已經被應用到旅游、游戲、房產等各個行業領域,未來大數據可視化必將與這些技術擦出火花,帶來更真實的感官體驗和更接近現實的交互體驗,使用戶可以完全“沉浸”到數據之中。相對于枯燥乏味的柱狀圖、折線圖等傳統表現形式,全方位的觀看、控制、觸摸,讓數據變得更具沖擊力。
隨著大數據技術與產業的快速發展,大數據已不僅僅是數據科學家與領域專家研究的技術,而越來越多的企業用戶,甚至是普通用戶也開始應用、關注大數據分析的結果。例如,如今越來越多的人關注應該去哪個醫院就診,哪個醫院的RW標準最符合,甚至是哪個醫生的坐診率最高,都可以通過醫療大數據可視化直觀地展示出來。大數據可視化讓更多的人能夠理解、使用大數據。
新型的大數據可視化產品層見疊出,各類語言也都有自己的可視化庫,傳統的BI軟件和數據分析也在不斷擴展可視化功能,再加上專門用于可視化的成品軟件和大數據可視化工具逐漸被廣泛應用,因此,用戶更需要慎重考慮工具的選型標準。基于醫療大數據真實性高、速度快的特點,在工具選型方面需滿足快速收集、篩選、分析、歸納以及展現政府、醫療機構所需的信息,實現實時數據圖形可視化、場景化以及實時交互。可視化的實現方式主要有編程和非編程兩類[2]。
當前市面上可視化編程工具主要包括以下三種類型:從藝術創作的角度,Processing不僅能夠為藝術家提供編程語言,同時能夠保持著藝術家對創作的追求;從統計學和數據處理的角度,即既能支撐數據的分析處理,又能提供制圖功能,如R,SAS等;綜合前兩類的特點與功能,市面上出現D3.js、Echarts等工具,既能兼顧數據處理,又能展現出多樣的可視化效果,能夠更友好地在互聯網上進行互動和展示數據。
Echarts作為一種前端數據可視化控件,通過調用輕量級Canvas類庫Zrender,能夠快速清晰地構成可視化圖表,在與用戶友好交互的同時,滿足用戶個性化定制需求。具體實現方式是通過script標簽引入,執行echarts.init進行初始化,最終實例化出圖表對象[3]。目前Echarts已廣泛應用于各類商業活動中。
對復雜海量數據進行可視分析是數據分析的重要研究內容。在一個傳統典型的大數據可視分析過程中,自動分析的初步結果將通過可視化形式展現給用戶,新的自動分析結果將通過人機交互技術和改進自動分析模型展示給用戶。可視化與可視分析旨在清晰有效地傳達與溝通數據,幫助政府、醫療機構等用戶利用視覺發現數據的真知灼見,使用大數據可視化技術從解決問題的角度進行服務創新。
(1)研發可視化系統功能及技術架構
研發自助式分析的大數據可視化工具,通過創建并且分享儀表盤的方式為數據分析人員提供一個快速的數據可視化功能,簡化數據探索分析操作。同時提升系統數據格式的拓展性、數據模型的高粒度保證、快速的復雜規則查詢、兼容主流鑒權模式(數據庫、OpenID、LDAP、OAuth或者基于 Flask AppBuilder的 REMOTE_USER等模式)。通過一個定義字段、下拉聚合規則的簡單的語法層操作即可實現讓數據分析人員將數據源在平臺上豐富地呈現。
(2)構建模塊化組件設計庫
基于EChart工具技術研究,在canvas類庫[6]zrender的基礎上搭建主題圖庫,由數據驅動,實現支持數據視圖、拖拽重計算、動態類型切換、多圖聯動、數據區域漫游、多維度堆積、個性化定制[7],通過調用EChart提供的多種圖表、模型、地圖等來豐富大數據的展現方式。同時提供自定義系列的圖表,數據分析人員通過查看自定義的圖表數據可以更加清晰直觀的獲取的特定的信息。研究基于數據文檔JavaScript庫的可視化數據處理技術,實現數據庫中的數據信息與HTML、SVG、CSS結合[8],在立體展示空間內,數據由原來的二維向三維轉化,形成相互連接的立體數據體系,全面的體現出數據信息之間的相互關系,數據信息的具象可視化效果得到了有效的保障。
(3)支持多數據源接入的開放接口技術研發
深度整合Druid以保證在操作超大、實時數據的分片和切分都能快速、高效的完成。通過Druid數據技術,基于分布式的快速列式存儲,實現海量數據存儲查詢,保證實時數據低延遲的插入、靈活的數據探索和快速數據聚合。支持多種類數據源,包括Excel、Txt、Csv等多種文本格式,MySQL、SQL Server、DB2、ORACLE、Postgre SQL、Access等數據庫,Hive、Spark、ODPS、ADS、Trafodion等大數據集群;Baidu、聚合數據、人人、微博、京東云、通聯數據、simplybrand、teambiton、worktile等API類型的數據接入。
通過數據收集、數據清洗、數據分析等過程,對海量的醫療數據進行歸納分析,形成下列相關數據表,從而提升醫療大數據可視化形成的效率、質量。數據庫設計是整個大數據可視化系統設計的基礎,整個數據庫應用系統的軟件架構以及數據處理的效率[4]將直接受到數據庫設計合理性的影響[5]。根據業務需求,整個大數據可視化系統包含了若干張數據表,儲存了各個分析數據。E-R關系圖如圖2所示:
智能導診、疾病預防等場景向人類展示了醫療大數據非常廣闊的應用前景。本系統針對區域醫療改革推行,收集了近200萬家庭醫生簽約信息,以及總計超過100所市、區級醫院和社區服務中心簽約情況。對區域醫療大數據清洗、切片和儲存之后接入本系統。
為了直觀感受政策推行態勢,系統針對區域醫療改革全區、社區以及團隊家庭醫生簽約情況進行分析。通過地圖縮放梯度,設計直方圖以及趨勢圖分級探索月簽約人數、簽約率變化趨勢的影響因子。按照總簽約人數對社區、團隊、個人進行排序,研究分析區域各區塊政策推行力度以及民眾關注度。同時對戶籍人口、常住人口、60歲以上人口、婦女兒童以及慢性病患者五類人群分別以圓環占比圖的形式進行單獨分析,了解最直接受益者簽約情況、佐證政策的正確性。
對“1+1+1”組合簽約居民的就診行為在政策推行后的變化趨勢,系統通過內嵌雙層南丁格爾玫瑰圖,直觀的展示組合內、組合外以及社區首診、雙向轉診人數對比。同時統計分析政策推行以來各數值的變化,以折線圖的形式對各個數據拐點、突變點分析。最后篩查異常看病次數以及行為的市民,即時遏制非法看病行為。

圖3 家庭醫生簽約情況展示圖

圖4 居民就診行為分析展示圖
醫療大數據可視系統,一方面通過數據的可視化探索可以幫助理解數據、評估數據的可用性。另一方面,幫助政府在政策影響力、醫院在制度管理、居民在對就診行為等方面做出最適合的預測與判斷。為政府提供決策數據支撐;為醫院提供面向業務全流程的可視化服務,直觀展現從技術、產品研發到市場的企業生態鏈,發現問題;為居民提供選擇醫院困難、就診費用高昂等問題,通過醫療大數據可視化可直觀選擇適合自己病情的醫院。
[1]王藝,任淑霞.醫療大數據可視化研究綜述[J].計算機科學與探索,2017,11(5):681-685
[2]雷蕾.常用數據可視化技術分析[J].現代電視技術,2014,9:137-139
[3]王子毅,張春海.基于Echarts的數據可視化分析組件設計實現[J].微型機與應用,2016,35(14):46-51
[4]孫寧,趙維平,王宇飛,王凌[J].現代計算機,2017,1:64-69
[5]代元平,鄭君芳.醫學實驗文檔管理系統的數據庫設計與實現[J].中國醫療設備,2016,31(4):93-96.
[6]劉嫦娥.數據可視化技術在Web中的研究及應用[J].電腦知識與技術,2017,13:7-8.
[7]陳旭,楊鶴標.醫療保險數據可視化系統設計與實現[J].軟件導刊,2017,6(16):59-62.
[8]強津培,戴松.面向教學的數據可視化圖表交互系統研究[J].系統仿真學報,2016,9(28):2101-2108.
徐巧云(1990-),女,上海人,本科,助理工程師,研究方向為大數據可視化、大數據成果轉化
諸紀(1995-),男,浙江溫州人,本科,初級,研究方向為大數據可視化
陸雯珺(1993-),女,上海市人,本科管理學、經濟學學士學位,助理工程師,研究方向為數據治理理論、金融領域數據管理應用
Research and Practice of Visualization System for Large Medical Data
XU Qiao-yun,ZHU Ji,LU Wen-jun
(ShanghaiComputer Software Technology DevelopmentCenter,Shanghai 201112)
Based on the big data ofmulti-source heterogeneous medicaldata,proposes a research and practice based on the architecture ofmedical data visualization system.Makes the originaldata from two dimensionalto three-dimensional,and to form a rigorous and interconnected data system,itcan presentthe comprehensive expression ofthe data information mutualrelations,and ensure representationalvisualeffectof the data,itsupports government,hospitaland residentto make decisions efficiently.
Big Data;Visualization;Medical Big Data
1007-1423(2017)30-0027-04
10.3969/j.issn.1007-1423.2017.30.006
2017-08-24
2017-10-15