唐飛 何平遜 郭芷佟 唐麒淞 沈菊穎
1. 重慶郵電大學 重慶 400065;
2. 重慶育才中學校 重慶 400050
隨著數據規模的增大和數據的廣泛共享,海量醫療數據被收集、存儲、分析和共享,醫療數據的隱私保護面臨著嚴峻的挑戰,如用戶個人隱私信息泄露問題。出于對醫療數據隱私保護的考慮,一些新興技術的出現,如區塊鏈[1]、聯邦學習[2]、同態加密[3]等,極大地促進了對醫療數據隱私保護機制的研究。文章旨在如何利用區塊鏈、聯邦學習等隱私保護技術,設計一種基于區塊鏈和聯邦學習的醫療隱私保護機制,實現多方醫療機構的用戶數據安全保護,同時提高醫療服務水平。通過本文研究,可以有效緩解醫療數據隱私敏感信息泄露的問題,保證醫療用戶的數據安全與隱私,具有一定的學術和實踐意義。
在醫學研究中,由于生物醫學現象的變異較大,各種因素錯綜復雜,由實驗或觀察得到的結果往往會受到許多隨機因素的影響,需要利用統計學方法進行推斷。醫學統計學是關于收集數據、分析數據和由數據得出結論的一組概念、原則和方法,其重要作用在于能夠透過偶然現象來探測其規律性,使研究結論具有科學性。與此同時,醫療大數據時代,大量的醫療數據不斷被采集、存儲,并用于醫療診斷和傳輸共享[4],將分散在各個醫療機構的本地醫療數據進行分析和計算,打破醫療數據的信息孤島,將會更好地推動醫療事業的發展。
由于醫療數據涉及個人的健康信息、病歷記錄、診斷結果、藥物處方等敏感信息,海量醫療數據被收集、存儲、分析和處理,不可避免地帶來個人隱私敏感信息泄露的風險,各個醫療機構不愿意共享數據,通常各家醫療機構使用公開的統計分析工具進行各自所需的醫學統計分析,不同醫療機構之間難以利用對方的數據進行聯邦統計分析和推斷。因此亟須構建醫療數據安全共享和聯邦統計推斷的新模式,打消醫療機構的安全顧慮,聯合多方數據協同分析,推動醫療數據價值的高效釋放。
區塊鏈技術是一種去中心化的分布式賬本技術,它通過將數據以區塊的形式鏈接起來,并使用密碼學技術確保網絡中的所有參與者對數據的一致性達成共識[5-7]。它改變了傳統依賴中心節點進行信息驗證的模式,利用智能合約維護契約關系和規則,保證了數據在生成、存儲、傳輸、校驗和訪問全流程中的安全,實現數據一致存儲、不可篡改和偽造。目前,區塊鏈在醫療健康中的應用包括電子數據授權與訪問、疾病監測管理、電子病歷存儲和共享、傳染病防控、藥品溯源與防偽[8]、精準醫療、遠程醫療、運營管理等。
作為打破數據孤島和隱私保護的機器學習解決方案,與“模型不動,數據動”的集中式學習不同,聯邦學習是一種“數據不動,模型動”的分布式機器學習技術[9-10],各個參與方可以在不披露各方底層數據的前提下共同建模。利用聯邦學習,將擁有各自醫療數據的參與方緊密聯系起來,各醫療機構通過各自本地數據建立局部模型,并將訓練完成的局部模型上傳到可信第三方,可信第三方將收集的各個本地模型進行安全聚合得到全局模型,并將全局模型下發至各個醫療機構。通過上述聯合建模,各醫療機構能夠保證各自的數據不出本地,從而保護用戶的個人隱私數據,同時又能夠利用已建好的模型實現醫療診斷和分析處理。
同態加密是一種密碼學技術,對經過同態加密的數據依據某種方法計算得到輸出,將此輸出進行解密,可以得到與原始未加密數據經過相同計算得到的結果相同[11-12]。同態具有加法同態性和乘法同態性,可以利用加法和乘法構造任何計算方法對密文進行計算。隨著研究和技術的進展,同態加密有望成為醫療數據安全和隱私保護的重要工具。為保證醫療機構本地數據的安全性和隱私性,利用快速同態加密工具,在密文狀態下實現醫療數據的統計推斷[13]等操作,從而保證醫療數據在相關操作過程中的安全性,為醫療數據提供隱私保護。
在實際的醫療場景需求中,跨醫療機構數據共享和交換涉及不同機構間的數據隱私、安全性和互操作性等方面的考慮,不可避免地會造成數據隱私泄露風險。針對各醫療結構之間的互信問題,醫療數據的安全存儲,以及傳輸過程中泄露問題等,結合實際的使用需求,提出基于區塊鏈與聯邦學習的大數據安全與隱私保護機制,方案架構圖如圖1所示。

圖1 基于區塊鏈與聯邦學習的大數據安全與隱私保護機制
區塊鏈作為整個架構的底層技術,為各醫院方提供了安全的數據存儲和溯源。一方面通過加密和分布式存儲,確保醫療數據的安全性和完整性。醫療機構和患者可以更好地控制和管理自己的數據,并通過智能合約定義數據的訪問權限,保護隱私。另一方面一旦醫院方提供的數據真實性受到質疑,可以通過區塊鏈進行溯源。同時在聯邦學習框架下,多個醫療機構根據實際需求進行聯合建模,用于聯邦統計推斷。多個醫療機構將各自本地需要進行聯邦統計推斷的數據,經過同態加密形成密文數據,并加密上傳到聯邦統計推斷模型進行推斷;聯邦統計推斷模型收到來自各個醫療機構的加密數據后解密,并進行同態加密密文域上的安全聚合,并計算相應的檢驗統計量;聯邦統計推斷模型將檢驗統計量下發至各個醫療機構,各醫療機構通過解密獲取銘文統計推斷結果。從而輔助各個醫療機構得出準確的推斷結論。
以獨立t檢驗聯邦統計推斷為例,說明本文3.1中的方案架構的具體方案。一般來說,聯合多方進行獨立t檢驗的推斷結果要比某一機構進行獨立t檢驗的推斷結果更準確,但是多機構間互不信任,為保證各自本地數據的安全性和隱私性,利用聯邦統計推斷模型,將本地數據加密后上傳,然后進行數據聯合推斷,獲得聯邦統計模型的獨立t檢驗推斷。因此基于區塊鏈與聯邦學習的醫療數據隱私保護機制研究的具體設計方案——獨立t檢驗聯邦統計推斷模型如圖2所示。
假設僅有兩方醫療機構A和B進行聯合建模,獨立t檢驗聯邦同態加密統計模型表達式如下:
其中,t是聯邦學習模型給出的最終推斷結果(t統計量),X1,X2分別是兩組選項,,則分別表示兩組選項的均值,是兩組選項均值的差值,是兩組選項均值差值的標準誤。
獨立t檢驗聯邦邦統計推斷模型推斷過程如下。
(1)數據上傳。A和B分別將各自本地數據X1,X2進行同態加密,形成醫療密文數據E(X1),E(X2),并將醫療密文數據加密上傳至獨立t檢驗聯邦統計推斷模型。
(2)統計量計算。獨立t檢驗聯邦統計推斷模型收到A和B的加密醫療密文數據E(X1),E(X2),將醫療密文數據E(X1),E(X2)解密,在醫療密文數據上進行基本運算操作,計算得出聯邦統計推斷模型所需的醫療密文數據變量
(3)安全聚合:利用聯邦學習中FedAvg[2]算法的思想,獨立t檢驗聯邦統計推斷模型將A和B兩方的密態數據進行聯邦安全聚合。
(4) 統計量下發。經過醫療密文數據的安全聚合,分析與計算獨立t檢驗聯邦統計量,即獨立t檢驗統計量,并下發至A和B兩方醫院。
(5)明文數據獲取。A和B兩方醫院收到密文獨立t檢驗統計量并進行解密,然后再次經過同態解密并獲得明文聯邦統計推斷結果。
綜上所述,本文通過研究背景具體分析了醫療隱私保護需求,針對醫療數據的隱私泄露問題,利用區塊鏈、聯邦學習等隱私保護技術,提出一種基于區塊鏈與聯邦學習的醫療數據隱私保護機制。通過上述機制的具體方案設計,展示了方案架構的具體實現,結合隱私保護相關技術,能夠保證用戶個人數據的安全,同時緩解醫療數據隱私泄露風險,進一步提高醫療機構的醫療服務水平。