張大政
(杭州慧康物聯(lián)網(wǎng)科技有限公司,浙江 杭州 310052)
當(dāng)前我們正處于一個數(shù)據(jù)爆炸性增長的“大數(shù)據(jù)”時代,大數(shù)據(jù)在各行各業(yè)中都有寬廣的應(yīng)用前景。在醫(yī)療健康領(lǐng)域,數(shù)據(jù)已經(jīng)成為行業(yè)的核心資產(chǎn),基于大數(shù)據(jù)的研究應(yīng)用優(yōu)化了醫(yī)院業(yè)務(wù)流程、管理模式和決策方式,對醫(yī)療行業(yè)發(fā)展健康管理、精準(zhǔn)醫(yī)療、智慧運營管理等有深遠(yuǎn)意義。目前,針對健康醫(yī)療大數(shù)據(jù)的研究和各類應(yīng)用正在如火如荼地探索中,總體而言主要包括:臨床業(yè)務(wù)、藥物研發(fā)、公眾健康、個性化醫(yī)療、醫(yī)療商業(yè)模式等方面。醫(yī)療衛(wèi)生行業(yè)的數(shù)據(jù)量極大且結(jié)構(gòu)多樣化,其復(fù)雜程度早已超過了傳統(tǒng)意義。采用更為合理的數(shù)據(jù)科學(xué)研究模型、更為高效的大數(shù)據(jù)分析技術(shù),建立適合醫(yī)療健康領(lǐng)域的大數(shù)據(jù)應(yīng)用平臺可以產(chǎn)出更為準(zhǔn)確的大數(shù)據(jù)分析結(jié)果和預(yù)測結(jié)論,同時也能更符合醫(yī)療衛(wèi)生行業(yè)較高的隱私安全標(biāo)準(zhǔn)。
傳統(tǒng)的數(shù)據(jù)分析方法在處理大數(shù)據(jù)時遇到了瓶頸。Hadoop是由業(yè)界主流的大數(shù)據(jù)分布式系統(tǒng)基礎(chǔ)架構(gòu),用戶可以在不了解分布式底層細(xì)節(jié)的情況下,輕松地在Hadoop 上開發(fā)和運行處理海量數(shù)據(jù)的應(yīng)用程序,使得醫(yī)院的所有海量歷史數(shù)據(jù)都可以容納在大數(shù)據(jù)庫中并進(jìn)行實時的海量數(shù)據(jù)檢索和計算。不但保證數(shù)據(jù)容量增加不影響性能,而且可以不宕機增加數(shù)據(jù)存儲和處理節(jié)點實現(xiàn)線性容量擴展。
知識圖譜旨在描述真實世界中存在的各種實體或概念。其中,每個實體或概念用一個全局唯一確定的ID 來標(biāo)識,稱為它們的標(biāo)識符。每個屬性-值對用來刻畫實體的內(nèi)在特性,而關(guān)系用來連接兩個實體,刻畫他們之間的關(guān)聯(lián)。知識圖譜亦可被看作是一張巨大的圖,圖中的節(jié)點表示實體或概念,而圖中的邊則由屬性或關(guān)系構(gòu)成。
醫(yī)療信息涵蓋了醫(yī)療過程和醫(yī)院活動的全部數(shù)據(jù)資源,包括臨床醫(yī)療信息和醫(yī)院管理信息。目前醫(yī)學(xué)信息包括純數(shù)據(jù)(如體征參數(shù)、化驗結(jié)果)、信號(如肌電信號、腦電信號等)、圖像(如B 超、CT 等醫(yī)學(xué)成像設(shè)備的檢測結(jié)果)、文字(如病人的身份記錄、癥狀描述、檢測和診斷結(jié)果的文字表述),以及用于科普、咨詢的動畫、語音和視頻信息[1]。
隨著公眾對開放醫(yī)療數(shù)據(jù)需求的提升,以及對隱私問題的擔(dān)憂,加之物聯(lián)網(wǎng)技術(shù)、智能可穿戴設(shè)備的出現(xiàn)以及云服務(wù)的發(fā)展為醫(yī)療數(shù)據(jù)的安全性帶來新的考驗,其中最緊迫的莫過其安全性及健康數(shù)據(jù)的隱私性。具體醫(yī)療健康業(yè)務(wù)數(shù)據(jù)面臨的巨大挑戰(zhàn)在于如何對數(shù)據(jù)進(jìn)行匿名化——移除個人和私有信息,但要同時保證處理后的數(shù)據(jù)對于分析仍舊足夠有用。
在第二次人工智能浪潮時期,只要向計算機中輸入足夠多的知識,計算機就能相應(yīng)地完成很多任務(wù),但是其能力也僅限于所輸入知識的范圍;如果想擴充計算機的實用性及其應(yīng)對例外病例的能力,則需輸入海量知識,永遠(yuǎn)輸不完。另外,從根本上講,輸入的符號與其所表示的意義往往脫節(jié),對計算機而言,掌握“語義”非常困難。有一項技術(shù)——機器學(xué)習(xí)得到了穩(wěn)步發(fā)展,即人工智能程序自身進(jìn)行學(xué)習(xí)。機器學(xué)習(xí)常用的原理包括最近鄰分類算法、樸素貝葉斯算法、決策樹、支持向量機等,而其中最為著名的當(dāng)屬人工神經(jīng)網(wǎng)絡(luò)。ANN 是在第三次人工智能浪潮中興起的一門集腦科學(xué)、信息科學(xué)、計算機科學(xué)于一體的高度綜合的前沿、交叉學(xué)科,是一種通過模仿人類腦神經(jīng)回路將生物神經(jīng)網(wǎng)絡(luò)在結(jié)構(gòu)、功能等方面的理論高度抽象、概括、綜合而構(gòu)成的信息處理系統(tǒng),是當(dāng)代人工智能領(lǐng)域的重要分支。
深度學(xué)習(xí)是一種當(dāng)前人工智能算法里取得良好效果的一類,通過模擬人類大腦分層認(rèn)知結(jié)構(gòu),模擬人腦對數(shù)據(jù)進(jìn)行分析。可以應(yīng)用到醫(yī)療臨床檢測與診斷的各個環(huán)節(jié)中,從醫(yī)學(xué)檢測采集,到檢測結(jié)果的圖像處理分析,病變區(qū)域檢測,輔助疾病診斷及治療與預(yù)后的整個過程當(dāng)中。各過程相輔相成。
醫(yī)療健康領(lǐng)域大數(shù)據(jù)應(yīng)用平臺的整體架構(gòu)設(shè)計上,需要充分考慮數(shù)據(jù)的獲取、數(shù)據(jù)的治理、數(shù)據(jù)的應(yīng)用三個層面,因此整個大數(shù)據(jù)應(yīng)用平臺的建設(shè)必須包括平臺基礎(chǔ)層、中臺軟件、業(yè)務(wù)前臺層三個方面。
平臺基礎(chǔ)層主要負(fù)責(zé)基礎(chǔ)服務(wù),這些平臺組件將提供包括基礎(chǔ)軟件(數(shù)據(jù)同步采集轉(zhuǎn)換與存儲)、商業(yè)智能分析平臺與人工智能基礎(chǔ)軟件?;A(chǔ)軟件中的大數(shù)據(jù)實時同步轉(zhuǎn)換平臺是針對大數(shù)據(jù)場景下的數(shù)據(jù)采集、抽取、同步及轉(zhuǎn)換業(yè)務(wù),采用底層數(shù)據(jù)庫級別的數(shù)據(jù)同步鏡像技術(shù),實時地將業(yè)務(wù)庫中的數(shù)據(jù)同步到大數(shù)據(jù)庫中,保證挖掘分析數(shù)據(jù)和原始業(yè)務(wù)數(shù)據(jù)一比一鏡像,實現(xiàn)最高級別的數(shù)據(jù)質(zhì)量,保證數(shù)據(jù)完整性、真實性、防范各種假數(shù)據(jù)、不一致數(shù)據(jù)等,同時可以對數(shù)據(jù)進(jìn)行轉(zhuǎn)換處理,將轉(zhuǎn)換后的數(shù)據(jù)寫入到專用的數(shù)據(jù)集市中。大數(shù)據(jù)實時存儲計算平臺主要針對目前數(shù)據(jù)平臺中數(shù)據(jù)量太大、存儲模式不合理等因素造成的電子病歷數(shù)據(jù)查詢、更新操作非常慢、數(shù)據(jù)監(jiān)控困難、綜合管理系統(tǒng)決策支持滯后等等問題,需要重新構(gòu)建一個安全、可靠、穩(wěn)定、能同時解決歷史數(shù)據(jù)與實時數(shù)據(jù)讀寫速度快、響應(yīng)效率高的大數(shù)據(jù)存儲、數(shù)據(jù)質(zhì)量監(jiān)控、決策支持、挖掘、分析的中心實施方案。大數(shù)據(jù)實時存儲計算平臺應(yīng)包括數(shù)據(jù)分布式存儲、分布式消息隊列和分布式計算等功能組件。在分布式存儲方面,基于Hadoop 大數(shù)據(jù)分布式系統(tǒng)基礎(chǔ)架構(gòu),實現(xiàn)對存儲容量的線性擴展,提供符合SQL92 規(guī)范的交互功能,使得傳統(tǒng)的數(shù)據(jù)開發(fā)人員可以通過SQL 語句對大數(shù)據(jù)平臺中的數(shù)據(jù)進(jìn)行業(yè)務(wù)處理。在生產(chǎn)環(huán)境下,存儲平臺可實時備份,包括異地備份,在數(shù)據(jù)故障情況下,可實現(xiàn)數(shù)據(jù)的快速恢復(fù)。需要對整個存儲平臺實現(xiàn)良好的性能監(jiān)控和故障預(yù)警功能。在不影響現(xiàn)有服務(wù)的同時,可以實現(xiàn)導(dǎo)向式的硬件橫向擴展。對于平臺中所存儲的數(shù)據(jù)文件要進(jìn)行加密處理,而通過SQL 查詢的數(shù)據(jù),要實現(xiàn)動態(tài)數(shù)據(jù)屏蔽。通過商業(yè)智能分析平臺,建立支持多維模型的數(shù)據(jù)倉庫,實現(xiàn)對健康檔案及其衍生主題數(shù)據(jù)庫的深度挖掘、統(tǒng)計分析、綜合展示,智能分析、獲取數(shù)據(jù)的內(nèi)在價值,更好地滿足綜合管理、輔助決策的需求。人工智能基礎(chǔ)軟件面向AI 模型生產(chǎn)的生命周期,為模型的硬件加速、硬件適配、算子優(yōu)化、代碼編譯優(yōu)化、文件系統(tǒng)適配建立基礎(chǔ),方便用戶后續(xù)在人工智能中臺上進(jìn)行一站式構(gòu)建AI 算法。
數(shù)據(jù)治理體系建設(shè)的目的是建立數(shù)據(jù)擁有者、使用者、數(shù)據(jù)以及支撐系統(tǒng)之間的和諧互補關(guān)系,從全機構(gòu)視角協(xié)調(diào)、統(tǒng)領(lǐng)各個層面的數(shù)據(jù)管理工作,確保內(nèi)部各類人員能夠得到及時、準(zhǔn)確的數(shù)據(jù)支持和服務(wù)。通常認(rèn)為,數(shù)據(jù)治理體系涵蓋如下功能域:數(shù)據(jù)資源目錄管理、主數(shù)據(jù)管理、元數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)標(biāo)準(zhǔn)管理以及數(shù)據(jù)生命周期管理。在數(shù)據(jù)治理的過程中,需要對數(shù)據(jù)架構(gòu),管控平臺,治理工具三方面進(jìn)行投入,才能將數(shù)據(jù)治理工作事半功倍。
在醫(yī)療健康領(lǐng)域大數(shù)據(jù)應(yīng)用平臺的建設(shè)過程中,對于使用者來說能體現(xiàn)大數(shù)據(jù)應(yīng)用平臺的效果,因此在平臺的建設(shè)過程中需要充分想明白對于數(shù)據(jù)的應(yīng)用,因此需要構(gòu)建一個統(tǒng)一的業(yè)務(wù)前臺,業(yè)務(wù)前臺可在中臺基礎(chǔ)上開展面向數(shù)據(jù)交換與交易、面向區(qū)域衛(wèi)生、面向醫(yī)院及面向居民的應(yīng)用。
在醫(yī)療健康領(lǐng)域可以充分利用大數(shù)據(jù)應(yīng)用平臺開展疾病智能輔助診斷、慢病健康管理、區(qū)域衛(wèi)生監(jiān)管分析等應(yīng)用。
在疾病智能輔助診斷方面,基于大數(shù)據(jù)應(yīng)用平臺,使用科學(xué)的知識抽取、推理、表示和NLP 電子病歷語義分析服務(wù)等技術(shù),對歷史病歷數(shù)據(jù)和文獻(xiàn)數(shù)據(jù)進(jìn)行學(xué)習(xí),將同種疾病不同患者的就診數(shù)據(jù)根據(jù)體征、環(huán)境因素、社會因素、經(jīng)濟因素等多個角度劃分為不同的亞組人群,以選擇適合不同亞群的檢查檢驗類型、治療方案等,通過大數(shù)據(jù)劃分形成臨床診療決策輔助系統(tǒng)。醫(yī)務(wù)人員在進(jìn)行臨床診斷時,可以更加客觀準(zhǔn)確地診斷病情制定出周詳?shù)闹委熀捅=》桨?,進(jìn)而極大地降低了臨床診斷的誤診和漏診問題幫助患者提高恢復(fù)健康的速度[2]。
在慢病健康管理方面,通過機器學(xué)習(xí)及數(shù)據(jù)挖掘技術(shù),對海量的患者和健康體檢者的常規(guī)體檢大數(shù)據(jù)進(jìn)行分析并建模,建立能夠區(qū)分健康人和重疾患者的分析預(yù)測模型,實現(xiàn)對慢病患者有效地健康指導(dǎo)。
在區(qū)域衛(wèi)生監(jiān)管分析應(yīng)用方面,如圖1 所示:基于大數(shù)據(jù)應(yīng)用平臺建立醫(yī)療衛(wèi)生管理監(jiān)測指標(biāo)體系數(shù)據(jù)模型,基于醫(yī)療衛(wèi)生管理監(jiān)測指標(biāo)體系開展大數(shù)據(jù)挖掘分析和預(yù)警預(yù)測,指導(dǎo)公立醫(yī)院醫(yī)改業(yè)務(wù)開展。

圖1 區(qū)域衛(wèi)生監(jiān)管分析模型
實現(xiàn)公立醫(yī)院醫(yī)療衛(wèi)生管理監(jiān)測大數(shù)據(jù)挖掘分析,依據(jù)國家省市公立醫(yī)院醫(yī)改政策和醫(yī)療衛(wèi)生管理監(jiān)測指標(biāo),針對衛(wèi)生資源管理、醫(yī)改指標(biāo)統(tǒng)計、醫(yī)改成效監(jiān)測、醫(yī)藥監(jiān)測、醫(yī)療監(jiān)測、醫(yī)保監(jiān)測和財務(wù)監(jiān)測等重點指標(biāo)數(shù)據(jù)采用大數(shù)據(jù)智能挖掘技術(shù),進(jìn)行智能挖掘分析。利用大數(shù)據(jù)挖掘技術(shù),可以分析用戶對醫(yī)生的評價、用戶關(guān)鍵詞熱點話題查詢、對患者患病類型進(jìn)行區(qū)分以及患者對醫(yī)藥投訴評價、患者診后跟蹤生存率統(tǒng)計等后臺APP 信息的手機與挖掘分析。為衛(wèi)計局管理者和公立醫(yī)院管理中心提供醫(yī)療服務(wù)水平、質(zhì)量提升和績效考核評價,提供客觀真實的依據(jù)和數(shù)據(jù)基礎(chǔ)。
國外健康醫(yī)療大數(shù)據(jù)建設(shè)相對成熟,重點發(fā)展基于數(shù)據(jù)的服務(wù)。國外健康醫(yī)療大數(shù)據(jù)公司主要為醫(yī)療服務(wù)提供者提供平臺及服務(wù)。將大量數(shù)據(jù)變?yōu)榭捎眯詳?shù)據(jù)后利用人工智能或機器學(xué)習(xí)提供輔助決策支持。由于國內(nèi)醫(yī)療數(shù)字化起步較晚,在大數(shù)據(jù)應(yīng)用平臺建設(shè)方面處于探索與試驗階段,構(gòu)建一個數(shù)據(jù)實時的、安全、可靠、穩(wěn)定的大數(shù)據(jù)應(yīng)用平臺有利于提升醫(yī)療衛(wèi)生服務(wù)效能,提升疾病防治能力,完善全民健康服務(wù)體系。