何韻詩
(華南理工大學,廣東 廣州 510641)
聯邦學習本質上是1種分布式機器學習框架。聯邦學習中的參與實體掌握著一部分訓練數據和計算資源,能夠保護自身數據的隱私安全,通過合作訓練得出反映全局數據特征的模型[1-3]。聯邦學習與傳統學習的本質差異在于實體間的互相信任問題。在聯邦學習過程中,基于對自身利益的保護,各實體方的信任度不同。聯邦學習提供的共享學習模式能夠使數據保持原有的狀態,使系統具有高效性、隱私性以及可用性[4]。
邊緣計算是目前主流的1種分布式計算技術,能夠彌補云計算運行中造成的能耗大和隱私泄露問題。隨著邊緣計算的不斷發展,它能夠為云計算模式中敏感隱私數據提供保護機制。相關研究表明,基于聯邦學習的邊緣計算能夠利用數據建模解決數據隱私方面存在的安全問題[5]。
聯邦學習是一種機器學習框架,在保障數據信息安全的狀態下,可以實現數據共享和數據參與方之間的協作訓練。參與方能夠通過互聯網技術與邊緣服務器建模,構建出全局模型[6]。因此,聯邦學習能夠使邊緣計算應用于安全級別更高的場景。基于聯邦學習的邊緣計算構建的模型能夠實現數據信息的傳輸[7]。
聯邦學習的概念最初是由谷歌的McMahan于2017年提出的,我國在2018年人工智能大會上詳細地介紹了聯邦學習的具體研究方向。1年后,我國成為了世界上第1個聯邦學習框架的開創者,至今已為國內外多家企業提供了相關服務,實現了聯邦學習的廣泛應用[8]。
聯邦學習能夠為參與方提供協同合作和安全學習的協議。作為新型的學習機制,聯邦學習能夠在保障數據隱私不被侵害的情況下,統一建模多個參與方的數據,使多個客戶端能夠在同一中央服務器中進行協同訓練,同時保證各參與方的數據隱私不被公開[9]。聯邦學習在未來的發展中具有十分廣闊的應用前景,其模型如圖1所示。

圖1 聯邦學習模型
聯邦學習中,將海量數據的參與方設為N,其中各參與方擁有的數據用{D1,D2,…,DN}表示,以構建1個模型MFED。傳統的學習方法是將所有參與方擁有的海量數據集中在一起,用D={D1∪D2…DN}來表示,以構建出1個模型MSUM。聯邦學習的過程可以表述如下。第一,系統初始化。系統服務器明確學習目標和學習模型后,能夠發布到全局模型中,并指定參數效率。第二,模型訓練。聯邦學習參與方能夠使用本身的數據在全局模型中進行模擬訓練,通過最小化損失函數推算本地模型,將梯度參數上傳至服務器。第三,服務器聚合。服務器接收到各參與方上傳的模型參數,進行聯邦學習得到1個全新的全局模型,然后更新全局模型參數。第四,全局模型。當參與方使用全新的全局模型參數更新本地模型后,再上傳本地模型的梯度參數。重復操作上述步驟,將獲得全局模型。相關研究表明,上述聯邦學習過程能夠使參與方達到理想模型場景。
保護參與方的隱私安全是聯邦學習的重要目的。在聯邦學習過程中,所有參與方共享1個參數模型,因此參與方實際的數據處于隱藏不被公開的狀態。然而,因為參與方加入或退出時的數據信息處于公開狀態,所以存在隱私被竊取或被泄露的風險。相關研究人員證實,根據參與方的加入與退出信息能夠檢測相關的隱私信息。由于服務器沒有權限訪問參與方,會使惡意扮演參與方的不法之人偽裝進入開展聯邦學習,進而竊取其他參與方的隱私。此外,聯邦學習的服務器存在一定的安全風險[10]。例如,當聯邦學習的服務器出現故障時,惡意參與方往往有機可乘,利用故障服務器竊取或泄露其他參與方的相關隱私。參與聯邦學習的參與方擁有的數據和價值存在一定差異,如果參與方掌握大量的數據且數據價值較高,那么應該做好隱私保護工作。
隨著互聯網技術的發展,產生的數據量成倍增長,網絡存儲空間面臨著巨大壓力,而互聯網技術對網絡服務的響應速度和數據隱私性有著極高的要求。云計算技術快速高效地分析大量網絡數據,而將數據安全有效地傳輸至云計算中心卻有一定難度。在傳輸海量數據的過程中,云計算通常會因為數據處理耗費大量的時間,降低了用戶的體驗感。
移動終端設備連接互聯網會產生海量的數據信息。基于傳統的云計算技術無法及時有效地處理海量的數據信息,因此邊緣計算的概念首次被提出。邊緣計算是1種在接近智能手機或移動終端的地方提供云計算能力的新型技術。邊緣計算能夠將計算能力下沉到無線側,是1種給用戶提供數據計算和數據儲存的新型計算模型,能夠極大程度上提高云計算技術的數據存儲處理能力和用戶請求的響應速度,減少網絡帶寬的損耗,進而保證數據信息的隱私與安全。邊緣算法模型如圖2所示。

圖2 邊緣算法模型
參與聯邦學習的參與方和服務器的可信度不同,因此數據信息面臨的安全隱私風險也不相同。按照參與方的可信任程度,將信息安全的領域劃分為理想模型和惡意模型。理想模型是指各參與方都能夠嚴格按照聯邦學習的相關協議進行計算,不違反規則做過多的運算,并且不使用隱私保護技術隱藏敏感信息。但是,理想模型是不存在的。要通過隱私保護技術解決惡意參與方帶來的敏感信息,需要加大聯邦學習的力度,完善聯邦學習的相關制度。聯邦學習是目前及未來互聯網數據信息隱私安全的主要研究方向。
針對單一個體參與方的隱私保護來說,聯邦學習采用的是最理想且先進的差分隱私法。差分隱私最初是由DWORK于2006年提出的,是聯邦學習隱私保護模型的1種,用于保障參與方信息安全。差分隱私不會只針對某1個惡意的攻擊者,即便攻擊者事先掌握了系統中的某1條數據信息,也不能推斷出其余未知的信息內容。差分隱私有著強大的數學計算方法,能抵擋入侵者的攻擊,從而保護單個參與者的隱私安全。
ROBINC于2007年提出了關于差分隱私的用戶級算法,能夠隱藏參與方在聯邦學習過程中產生的數據信息。為有效保護參與方的隱私安全,設計1種差分隱私的協議機制,只需在參與方聯邦學習的數據信息上添加1個噪聲即可。
RYU于2008年提出了關于差分隱私應用于聯邦學習模型的方法,利用差分隱私的交替方向乘子法(Alternating Direction Method of Multipliers,ADMM),解決參與方之間通信受到的外來惡意攻擊。有學者提出利用差分隱私方法構建新型的聯邦學習框架,能夠給參與聯邦學習用戶方的數據信息提供更高級別的隱私保護。結合聯邦學習技術與差分隱私算法,不僅能使單獨的參與方隱私安全受到更好的保護,還能夠有效防止惡意參與方的攻擊。
聯邦學習過程中,服務器沒有權限直接訪問參與方,因此無法保證每1個參與方的可信度,其中難免會有惡意的參與方潛入聯邦學習中盜取或泄露相關隱私。聯邦學習通過差分隱私添加噪聲干擾的方式,保護單一參與方的隱私。但是,經過噪聲干擾的數據,二次傳輸時會存在一段空白,因此存在一定的隱私風險。
傳統的加密技術十分復雜且計算量較大,無法應用于存儲空間小或者計算能力差的設備。為防止有惡意參與方盜取隱私行為,需采用更加精密的加密技術。同態加密是1種能夠實現多方計算的技術,不需要解密密文,只需通過代數運算便能夠加密。同態加密經過一系列運算加密后的結果與經過破譯后的效果相同。
差分隱私算法與同態加密技術能夠極大程度上提高隱私保護效率。針對單一的參與方使用差分隱私方法中的噪聲干擾,結合同態加密技術能夠在聯邦學習過程中消除部分噪聲的干擾,從而更好地保護隱私,防范惡意參與方與不可信的服務器聯合竊取隱私,保護參與方在聯邦學習的過程中加入或退出相關信息。
聯邦學習僅通過傳輸模型的參數,不需要共享實際的數據,能夠解決各參與方的數據孤島問題。大數據環境下,海量的數據信息出現在互聯網中,需要保護參與方的隱私,提高聯邦學習的效率。目前,許多專家及學者結合先進的區塊鏈技術與聯邦學習,通過適當的激勵機制,大大提高了參與方聯邦學習的主動性與積極性。
此前,聯邦學習中的激勵機制和公平研究多以區塊鏈技術開展。激勵機制是為了吸引更多掌握著有價值數據的參與方加入聯邦學習,提高聯邦學習的模型的完整性。區塊鏈技術作為目前先進的信息技術,能夠給聯邦學習的激勵機制提供安全保障。目前,這方面的研究尚未成熟,需要不斷探索和研究區塊鏈技術與聯邦學習。
邊緣計算成為代替云計算的1種新型計算技術,能夠精確計算海量數據,經過存儲、傳輸、共享以及隱私保護等方式嚴格保密數據。聯邦學習是1種新型分布式機器學習方式,將其應用在邊緣計算中能夠讓邊緣設備的數據信息保持原有的狀態,并協同相關的機器模型共同訓練。聯邦學習技術能夠為邊緣計算的數據信息提供隱私保護,而邊緣計算能夠基于聯邦學習實現互聯網技術的新跨越。因此,基于聯邦學習的邊緣計算是目前及未來科學技術領域中的重要研究方向。