姚俊明 邢 丹 邵婷婷
(濟寧醫學院醫學信息工程學院 日照 276826)
隨著生活水平提高,大眾對健康和個性化健康服務需求日益增強,醫療健康領域由以醫院為中心轉變為以患者為中心的全生命周期、全過程、系統連續的精準醫療健康服務模式。同時由于移動互聯網、物聯網及信息技術等迅猛發展,采用電子病歷和醫學圖像等醫療健康大數據進行遠程醫療決策和疾病預測成為可能。通常數據來源包括自我量化、電子健康記錄、醫學研究或疾病監測、生物標本和基因測序的生物信息等,其來源于不同健康醫療機構及設備,常以孤島形式存在。以往應用人工智能算法的數據處理模式是將數據收集到單個數據庫中再進行處理、清洗并建模,無法滿足不斷持續增長的數據可擴展需要,同時還存在單點攻擊或失效風險。近年來由于智能可穿戴設備、智能手機、智能醫療設備興起,可隨時隨地獲取個人醫療健康數據。通過在設備和云之間增加邊緣計算節點的移動邊緣計算模式,具有延時低、充分利用資源、可減輕骨干網壓力等優點被廣泛應用。借助邊緣計算物聯網設備可以將繁重任務交給邊緣節點,利用通信平衡計算性能,使其節能并增強性能。通過網絡邊緣架起云容量和設備需求的橋梁,可加速內容交付并提高移動服務質量。醫療健康數據敏感程度較強,信息安全要求較高,現有隱私保護措施尚有待完善,例如在對多源數據進行分析時仍可通過數據關聯分析挖掘出更多信息。相關研究指出少數特征組合可唯一標識某些個體,如基因檢測數據與病理數據結合較易匹配到具體個人。本文在移動云環境下,采用聯邦學習[1]方式建立具有安全和隱私保護功能的慢病管理模型并進行探討,為提高醫療健康數據信息安全水平提供參考。
2.1.1 國外 目前各國對應用數據進行慢病管理進行了積極探索。美國使用信息技術構建以家庭為基礎的慢性病遠程管理模式;以色列將各醫療機構數據推送至前置端并接入國家健康信息交換平臺,對糖尿病大數據進行分析、建立管理模型,幫助患者控制病情;韓國利用國家脫氧核糖核酸(Deoxyribo Nucleic Acid,DNA)管理系統將DNA和患者醫療數據結合并提供個性化診斷和治療[2]。
2.1.2 國內 我國醫療信息化建設前期,醫院各業務系統由于未采用統一標準而形成大量信息孤島,體現在醫院各科室內部、醫院之間、醫院與社區及區域之間。由于醫療數據產生具有大量性和復雜性特征,醫院內數據傳輸、交換任何環節出現問題均可能導致數據泄露[3]。在人工智能領域,傳統數據處理模式是一方收集數據轉移到另一方進行處理、清洗并建模,最后將模型移交第3方。隨著法規完善和監控嚴格,如果數據離開收集方或者用戶不清楚模型具體用途,運營者可能觸犯法律。傳統機器學習模型將不同數據整合到一方,由于涉及隱私和數據安全等法律問題通常難以實施。
2.2.1 概述 現有基于機器學習的隱私保護方法包括加密方法(以多方安全計算、同態加密為代表)和擾動方法(以差分隱私為代表),但數據加密過程計算量較大,復雜情況下將產生巨大性能開銷,而差分隱私在一定程度上會對模型的預測準確性造成影響[4]。為了應對數據隱私和安全問題,歐盟出臺首部數據隱私保護法案《通用數據保護條例》,但需要從技術上解決數據孤島問題,聯邦學習則能讓人工智能更加高效、準確地共同使用各自數據,在小數據和弱監督條件下建立更好的模型[5]。
2.2.2 研究進展 Brisimi等提出通過存儲在智能手機和不同醫院設備的健康信息,分析預測心臟病患者的住院治療,使多個數據持有者在無需直接交換原始數據情況下協作[6]。Lee等探討在聯邦學習環境中為跨機構相似患者提供隱私保護平臺,用于疾病和臨床試驗志愿者監測[7]。Ren等提出在移動邊緣計算環境下,通過在邊緣節點上部署多個深度強化學習代理為物聯網設備提供決策;使用聯邦學習對深度強化學習代理進行訓練,降低物聯網設備與邊緣之間的傳輸成本[8]。Qian等探討通過部署移動邊緣云為用戶提供延遲敏感服務,提出隱私感知位置方案以解決具有隱私保護的服務位置問題[9]。楊強等提出針對醫聯體腦卒中患者建立協同防止服務模式[10]。
2.2.3 聯邦機器學習算法應用 傳統醫療健康機器學習將數據集中到服務器端,通過運行機器學習算法訓練相應模型。而聯邦機器學習能夠保證不進行數據交換的同時開展模型訓練。本文在移動邊緣環境下采取聯邦機器學習算法,使數據不出本地通過交換加密的參數進行模型訓練,突出個人對數據的控制權,大幅降低用戶數據泄露風險,實現慢性病數據共享和智能疾病預測、預診、輔助診斷、隨訪跟蹤和質量控制等目的。為保證區域醫療數據安全共享,將聯邦學習應用于醫聯體分級診療內部,形成安全、具有隱私保護功能的機器學習。
隨著智能可穿戴設備、物聯網和移動互聯網興起,醫療健康數據由集中存儲在醫療機構內部的傳統模式向分散存儲模式轉變,存儲設備包括醫生辦公室終端、家用設備、患者智能手機等,數據處理呈現分散性。健康醫療大數據高速、大量產生,單個數據庫集中存儲管理方式已無法滿足需求。一是考慮數據規模和隱私問題而無法將數據匯總在單個數據庫中;二是集中存儲存在信息泄露風險,如單點攻擊或故障導致可能數據泄露;三是建立數據中心需要大量基礎架構。分散式管理聯邦學習方式將數據視為中心數據庫一部分,避免數據集中收集、處理和原始數據交換。一旦數據存在標簽缺失嚴重問題,通過遷移學習可對標簽進行補全,擴大可用數據規模,進一步提高模型效果[11]。
針對醫聯體內慢病患者、慢病高危人群、健康個體的健康醫療數據,通過聯邦機器學習方式,建立慢病預測分析模型,使數據不出本地以保證安全,實現導致慢病發生的高危因素定位、針對健康個體的健康管理指導、針對高危人群的健康危險評估和預警干預。如進行非藥物干預,則可通過手機推送保健計劃,包括建議科學飲食結構、健康生活方式等;如進行藥物干預,可建議使用藥物種類、劑量等。
由醫聯體和健康云端組成。醫聯體是由同區域內村衛生院、社區醫院、二級及三級醫療機構聯合組成的醫療團體。醫聯體由用戶端、邊緣服務器和云端服務器組成。用戶端為基層醫療機構(村衛生院、社區醫院),負責收集、存儲基層用戶健康數據。邊緣服務節點由二、三級醫院服務器充當,見圖1。

圖1 移動邊緣環境下聯邦學習架構
3.4.1 服務層 位于最高層,為醫聯體內二、三級醫療機構提供服務,包含所需軟件組件。使用下層算法層組件根據具體需求實現邏輯功能。基于形成的慢病分析模型,面向醫療機構、患者等用戶提供慢病風險評估、慢病高危篩查、精準健康管理、管理效果評估等應用服務。該層包含以下組件:一是用戶服務組件,支持用戶訪問和使用聯邦學習服務。典型功能包括用戶界面、任務提交、數據與模型導入與導出工具、數據發布與發現。二是參與方協調服務組件,功能包括參與方身份和配置文件管理、對服務活動和使用的監控、事件處理和問題報告、安全管理服務。三是通用算法服務組件,提供通用算法功能,使得算法可應用到數據中。常見通用服務組件包括分類、聚類和回歸。四是場景服務組件,提供與業務耦合性較強的功能組件,隨著業務或用戶需要變化而變更。典型應用場景包括語音識別、生物特征識別、計算機視覺和自然語言處理。五是數據服務組件,包括數據發布、數據發現。六是任務管理組件,用于管理聯邦學習活動中的建模與預測活動。支持新建聯邦學習任務;查詢聯邦學習任務狀態與日志;結束正在運行的聯邦學習任務;在可能情況下回復部分失敗任務;提供聯邦學習任務管理能力。
3.4.2 算法層 實現聯邦學習的基本算法,使用算子層組件,為服務層提供支持,是實現聯邦學習算法的邏輯,獨立于具體業務。主要具有以下功能:樣本對齊;特征對齊;聯合特征工程;領域自適應;通用聯邦學習算法實現;算法評估;加密建模與預測。
3.4.3 算子層 為實現聯邦學習算法邏輯所需的高抽象通用組件。使用下層基礎架構層提供功能,向算法層提供高抽象組件,算法開發者可利用其快速實現聯邦學習算法。包含以下組件:多方安全計算算子、聚合算子、激活函數、正則化處理器、代價函數、優化方法、梯度處理器。多方安全計算是聯邦學習底層安全機制的核心,在聯邦學習參與方進行活動時對數據進行加密或脫敏,保障源數據不被泄漏。實現方式包括同臺加密、秘密共享、遺忘傳輸、混淆電路、RSA加密算法、可信執行環境。
3.4.4 基礎架構層 運行基礎架構,向上提供通用計算、存儲、通信的能力。包括以下功能:提供編程接口;提供計算、運行建?;蝾A測任務;提供存儲機制,對產出模型與必要數據進行存儲,以及提供數據導入/導出實用工具;提供資源調度與管理機制,跟蹤與記錄資源狀態;提供通信基礎設施,在各參與方之間安全地傳遞信息;數據清理,即清理冗余信息及不完整信息;數據集成,確定預測參考值及相關屬性,建立影響權重;數據轉換,將非布爾屬性的人體生理數據轉換成布爾屬性數據,進行離散化處理。
3.4.5 跨層功能 包括一系列功能組件,與上述4層組件進行交互以提供支撐能力,具有以下功能:訓練能力;運營能力;數據安全能力,包括賬戶、身份認證、授權和安全策略、數據完整性管理、數據銷毀及隱私泄露防護;監督和評估能力。

圖2 聯邦學習框架功能
以線性回歸訓練為例,分4步進行。第1步:邊緣服務器根據慢病管理任務向各醫療健康客戶端下發學習模型,分發公鑰給用戶端,用以對訓練過程中交換數據進行加密。第2步:用戶端之間以加密形式交互用于計算梯度的中間結果。第3步:用戶端之間分別基于加密梯度值進行計算,同時某一用戶端根據其標簽數據計算損失,將結果匯總至邊緣服務器。邊緣服務器通過匯總結果計算總梯度值并解密。第4步:邊緣服務器將解密后梯度分別回傳 至用戶端,用戶端根據梯度更新各自模型參數。數據設備端訓練的模型參數通過無線網絡傳輸至邊緣服務層,基站收集各用戶參數并存儲在邊緣服務器上。邊緣服務器端聚合上述參數并更新整體模型參數。迭代上述步驟直至損失函數收斂以完成整個訓練過程。在樣本對齊及模型訓練過程中,用戶端數據均保留在本地,訓練中數據交互不會導致數據隱私泄露。因此雙方在聯邦學習幫助下實現合作訓練模型。將該模型下發至各參與用戶可開始新一輪訓練學習。將訓練好的模型參數向上聚集在云端可進行進一步醫療健康數據共享。
以醫聯體為單位配備具有人工智能的邊緣服務器節點計算可將云計算與海量數據結合,各醫聯體內用戶設備組成強大的人工智能實體,提高認知能力。系統核心優勢在于無需集中訓練數據,不同數據擁有方在不交換彼此數據情況下建立虛擬共有模型,其效果等同于各方聚合數據建立的最優模型。聯邦學習是解決數據孤島問題的可行方案,本課題所研究的在移動邊緣環境下實現跨醫療機構、醫聯體內慢病患者預測模型,可感知用戶設備和邊緣服務器中的數據,還可靈活減少訓練次數,降低通信開銷。
聯邦機器學習具有數據樣本非獨立同分布、各節點數據量不平衡、超大規模分布式網絡、通信受限等特點。與集中學習相比聯邦學習更強調對個人數據的控制權。醫療健康慢病管理包含大量個人敏感信息且受政策與法律的制約不可傳播與共享,有限的數據使模型性能提升面臨瓶頸[4]。在醫聯體中利用移動邊緣云對慢病患者數據建模,同時多個醫聯體還可在健康云中心建立更廣泛的模型,實現數據不出本地通過交換加密參數進行模型訓練,大幅降低用戶數據泄露風險。但聯邦學習技術處于起步階段,尚存在通信負載、參與方提供參數缺乏相應質量驗證機制、傳輸及存儲過程隱私性保護等安全風險,此外參與用戶的異構性、模型參數聚合算法、用戶通信鏈路可靠性等方面尚待深入研究[13-14]。