999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向數(shù)據(jù)混合分布的聯(lián)邦自適應(yīng)交互模型

2023-06-07 03:40:26郭松岳王陽(yáng)謙柏思遠(yuǎn)劉永恒王夢(mèng)鴿
關(guān)鍵詞:模型

郭松岳 王陽(yáng)謙 柏思遠(yuǎn) 劉永恒 周 駿 王夢(mèng)鴿 廖 清,

1 (哈爾濱工業(yè)大學(xué)(深圳)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 廣東 深圳 518055)

2 (鵬城實(shí)驗(yàn)室 廣東深圳 518055)

3 (上海浦東發(fā)展銀行 上海 200002)

機(jī)器學(xué)習(xí)需要收集大量用戶數(shù)據(jù)作為樣本進(jìn)行訓(xùn)練,但包含隱私的數(shù)據(jù)經(jīng)由多方處理,勢(shì)必在數(shù)據(jù)傳輸、交換時(shí)造成泄露風(fēng)險(xiǎn).例如,F(xiàn)acebook 泄露的用戶隱私數(shù)據(jù)就曾經(jīng)被濫用于總統(tǒng)大選的預(yù)測(cè),最終引發(fā)了股票的大跌和群眾抗議活動(dòng).2018 年,歐盟正式推行《通用數(shù)據(jù)保護(hù)條例》(General Data Protection Regulation,GDPR)[1],而中國(guó)也于2017 年6 月1日開(kāi)始實(shí)施《中華人民共和國(guó)網(wǎng)絡(luò)安全法》,并將個(gè)人信息安全列入重點(diǎn)保護(hù)范圍[2],近期國(guó)務(wù)院決定于2021 年9 月1 日開(kāi)始正式施行《中華人民共和國(guó)數(shù)據(jù)安全法》,從而進(jìn)一步完善對(duì)個(gè)人信息的保護(hù).《中華人民共和國(guó)數(shù)據(jù)安全法》和GDPR 法案的施行表明了民眾和政府對(duì)數(shù)據(jù)隱私的保護(hù)意識(shí)逐漸增強(qiáng),這無(wú)疑給傳統(tǒng)機(jī)器學(xué)習(xí)方式帶來(lái)了嚴(yán)峻的挑戰(zhàn)[3].而聯(lián)邦學(xué)習(xí)(federated learning,F(xiàn)L)[4]可以在保證數(shù)據(jù)隱私安全的前提下,進(jìn)行機(jī)器學(xué)習(xí)模型的訓(xùn)練.

聯(lián)邦學(xué)習(xí)是一種新興的分布式機(jī)器學(xué)習(xí)框架,該框架不直接將用戶數(shù)據(jù)暴露給服務(wù)器和網(wǎng)絡(luò),而是在客戶端對(duì)隱私數(shù)據(jù)進(jìn)行模型訓(xùn)練,并選擇性地傳遞模型參數(shù)至中央服務(wù)器,從而共同建立一個(gè)中央服務(wù)器模型.這個(gè)中央服務(wù)器的性能表現(xiàn)與將整個(gè)用戶數(shù)據(jù)集放在一起進(jìn)行訓(xùn)練的性能表現(xiàn)相差不大[5-6],同時(shí)保證了數(shù)據(jù)的隱私安全.

傳統(tǒng)的聯(lián)邦學(xué)習(xí)方法側(cè)重于獨(dú)立同分布場(chǎng)景下的訓(xùn)練分析,并假設(shè)用戶設(shè)備的數(shù)據(jù)分布相同或近似[7].然而,在實(shí)際場(chǎng)景中由于用戶的使用習(xí)慣不同,其產(chǎn)生的本地?cái)?shù)據(jù)會(huì)存在不同程度的差異,從而導(dǎo)致用戶數(shù)據(jù)的分布不同.如圖1 所示,用戶A是電子產(chǎn)品經(jīng)銷(xiāo)商,拍攝的照片多為顯卡、手機(jī)等電子設(shè)備圖片;而用戶B是戶外運(yùn)動(dòng)愛(ài)好者,更喜歡風(fēng)景、美食等圖片.因此用戶A,B的數(shù)據(jù)在樣本分布上存在差異,我們稱這種差異為數(shù)據(jù)的非獨(dú)立同分布(non-independent and identically distributed,Non-IID).Non-IID 現(xiàn)象的存在會(huì)令聯(lián)邦學(xué)習(xí)出現(xiàn)嚴(yán)重的性能下降,最終導(dǎo)致聯(lián)邦學(xué)習(xí)模型的訓(xùn)練效果遠(yuǎn)不如預(yù)期效果.因此在聯(lián)邦學(xué)習(xí)場(chǎng)景中,如何處理非獨(dú)立同分布數(shù)據(jù)是亟待解決的問(wèn)題[8-9].

Fig.1 Image sample categories of user A and user B圖1 用戶A、用戶B 圖片樣本類(lèi)別

本文提出了一種新型的聯(lián)邦自適應(yīng)交互模型(federated adaptive interaction model,F(xiàn)edAIM)框架,該框架可以同時(shí)對(duì)不同偏置程度的混合數(shù)據(jù)進(jìn)行自適應(yīng)地交互學(xué)習(xí),從而有效地提升Non-IID 樣本下的的準(zhǔn)確精度,其主要貢獻(xiàn)包括3 個(gè)方面:

1)針對(duì)Non-IID 場(chǎng)景下的混合數(shù)據(jù)分布問(wèn)題,提出了自適應(yīng)聯(lián)邦學(xué)習(xí)交互框架FedAIM,該框架可以同時(shí)處理不同偏置程度的混合數(shù)據(jù).

2)FedAIM 引入陸地移動(dòng)距離(earth mover’s distance,EMD)對(duì)客戶端數(shù)據(jù)進(jìn)行偏置程度度量和客戶端劃分,并設(shè)計(jì)極偏服務(wù)器和非極偏服務(wù)器2 類(lèi)模塊分別處理不同偏置程度的客戶端數(shù)據(jù),從而提高聯(lián)邦學(xué)習(xí)的模型準(zhǔn)確率.

3)在FedAIM 中,本文提出了一種基于信息熵(information entropy)的模型參數(shù)交互機(jī)制,使得FedAIM的中央服務(wù)器可以有效地聚合2 類(lèi)服務(wù)器產(chǎn)生的模型參數(shù),從而減少聯(lián)邦學(xué)習(xí)中服務(wù)器間的交互輪次.

1 相關(guān)工作

本節(jié)主要介紹經(jīng)典的聯(lián)邦學(xué)習(xí)方法和Non-IID場(chǎng)景下的聯(lián)邦學(xué)習(xí)方案.

1.1 聯(lián)邦平均(FedAvg)框架

McMahan 等人[10]提出的聯(lián)邦平均(federated averaging, FedAvg)框架是最常見(jiàn)的聯(lián)邦學(xué)習(xí)框架.FedAvg的具體流程為:客戶端使用本地?cái)?shù)據(jù)輸入模型進(jìn)行訓(xùn)練,將模型參數(shù)上傳中央服務(wù)器,中央服務(wù)器模型通過(guò)聚合客戶端模型參數(shù)并對(duì)模型參數(shù)重分配的方式進(jìn)行聯(lián)合學(xué)習(xí).

此時(shí)中央服務(wù)器C在t+1輪加權(quán)聚合后的模型參數(shù)為

其中n為所有客戶端的數(shù)據(jù)總量.

國(guó)內(nèi)外已有大量研究表明,Non-IID 的存在對(duì)FedAvg 的訓(xùn)練效果造成極大的影響.特別是在偏置程度較大時(shí),客戶端擁有極度偏置的數(shù)據(jù)樣本分布.此時(shí)局部梯度的加權(quán)不再是對(duì)宏觀收斂方向的無(wú)偏估計(jì),從而會(huì)對(duì)訓(xùn)練效果造成嚴(yán)重的影響[11].

1.2 Non-IID 場(chǎng)景下的聯(lián)邦學(xué)習(xí)方案

Zhao 等人[5]在Non-IID 場(chǎng)景下,基于對(duì)FedAvg框架的改進(jìn)提出了FedShare 框架,該框架會(huì)根據(jù)客戶端的樣本分布偏置程度,向客戶端分配n份IID 的共享數(shù)據(jù)來(lái)減弱客戶端樣本分布的偏置程度.Li 等人[12]提出了FedProx 框架,F(xiàn)edProx 在FedAvg 的基礎(chǔ)上通過(guò)在優(yōu)化目標(biāo)上引入二次近側(cè)項(xiàng)來(lái)確保客戶端本地模型不會(huì)與中央服務(wù)器模型相差過(guò)大,從而在一定程度上解決Non-IID 數(shù)據(jù)問(wèn)題.Smith 等人[13]提出的MOCHA 框架使用多任務(wù)學(xué)習(xí)訓(xùn)練中央服務(wù)器模型,但MOCHA 不能解決如深度學(xué)習(xí)這類(lèi)的非凸問(wèn)題.Duan 等人[14]提出Astraea 框架,Astraea 使用KL(Kullback-Leibler)散度對(duì)客戶端的數(shù)據(jù)分布的偏置程度進(jìn)行度量,并按KL 散度將客戶端重新分配到中介服務(wù)器下進(jìn)行異步訓(xùn)練,從而達(dá)到緩解客戶端偏置程度的目的.Zhang 等人[15]采取了基于客戶端選擇的方式在FedAvg 上進(jìn)行改進(jìn),提出了CSFedAvg框架.該框架通過(guò)收集客戶端本地模型,篩選出本地?cái)?shù)據(jù)分布較全、模型收斂效果較好的客戶端模型,使用篩選后的那部分客戶端參與FedAvg 的模型聚合過(guò)程,從而降低Non-IID 對(duì)聯(lián)邦學(xué)習(xí)的影響.

然而,現(xiàn)有方法大多側(cè)重于單一偏置程度的Non-IID 數(shù)據(jù),忽略了解決不同偏置程度的混合數(shù)據(jù)分布問(wèn)題.本文提出的FedAIM 框架同時(shí)考慮了極偏數(shù)據(jù)和非極偏數(shù)據(jù)的混合分布情況,并引入EMD 對(duì)各客戶端數(shù)據(jù)偏置程度進(jìn)行度量,從而將擁有不同數(shù)據(jù)偏置程度的客戶端分配至極偏服務(wù)器和非極偏服務(wù)器2 個(gè)模塊.此外,本文還提出了一種新型的基于信息熵的模型參數(shù)交互機(jī)制,使得FedAIM 可以有效地聚合2 類(lèi)服務(wù)器的模型參數(shù),從而提升模型對(duì)混合數(shù)據(jù)分布的準(zhǔn)確率和收斂速度.

2 研究發(fā)現(xiàn)

本節(jié)主要介紹Non-IID 下傳統(tǒng)聯(lián)邦學(xué)習(xí)的表現(xiàn)以及Non-IID 數(shù)據(jù)偏置程度的度量方式EMD.

2.1 Non-IID 下的FedAvg 表現(xiàn)

為了探究FedAvg 在Non-IID 下的表現(xiàn),本文在MNIST 數(shù)據(jù)集上進(jìn)行了不同偏置程度客戶端組合的混合場(chǎng)景實(shí)驗(yàn).將MNIST 圖片數(shù)據(jù)集按照標(biāo)簽劃分為10 類(lèi),在FedAvg-IID 的場(chǎng)景中,每個(gè)客戶端從10 類(lèi)樣本中每類(lèi)隨機(jī)挑選300 張圖片,因每個(gè)客戶端擁有的樣本類(lèi)別和數(shù)目一樣,數(shù)據(jù)分布不存在極偏現(xiàn)象.

在FedAvg-NonIID(0)的場(chǎng)景中,每個(gè)客戶端從10 類(lèi)樣本中隨機(jī)挑選8 類(lèi)樣本,并從每類(lèi)中隨機(jī)挑選300 張圖片,因每個(gè)客戶端擁有的樣本類(lèi)別大部分重合,數(shù)據(jù)分布存在較弱的偏置程度.在FedAvg-NonIID(1)場(chǎng)景中,每個(gè)客戶端從10 類(lèi)樣本中隨機(jī)挑選5 類(lèi)樣本,并從每類(lèi)中隨機(jī)挑選300 張圖片,因每個(gè)客戶端擁有的樣本類(lèi)別部分重合,數(shù)據(jù)分布存在中等的偏置程度.在FedAvg-NonIID(2)場(chǎng)景中,每個(gè)客戶端則是從10 類(lèi)樣本中隨機(jī)挑選2 類(lèi)樣本,并從每類(lèi)中隨機(jī)挑選300 張圖片,此時(shí)因每個(gè)客戶端擁有的樣本類(lèi)別大部分不重合,所以數(shù)據(jù)分布存在較強(qiáng)的偏置程度.

圖2 展示了在MNIST 數(shù)據(jù)集下,F(xiàn)edAvg 框架在不同數(shù)據(jù)偏置程度下的模型準(zhǔn)確率.其中FedAvg-IID表示在IID 場(chǎng)景下FedAvg 的模型準(zhǔn)確率,而FedAvg-NonIID(0)~FedAvg-NonIID(3)表示FedAvg 框架在Non-IID 場(chǎng)景下隨著樣本偏置程度逐漸增加時(shí)的模型準(zhǔn)確率.可以發(fā)現(xiàn)FedAvg 在IID 場(chǎng)景下能夠快速收斂并獲得較好的模型準(zhǔn)確率,而隨著數(shù)據(jù)偏置程度的增加FedAvg 的模型準(zhǔn)確率急劇降低.因此,F(xiàn)edAvg的傳統(tǒng)聯(lián)邦學(xué)習(xí)方法難以在偏置程度較高的Non-IID 場(chǎng)景下獲得滿意的模型效果.

Fig.2 Accuracy of FedAvg under different degrees of Non-IID圖2 FedAvg 在不同程度Non-IID 下的準(zhǔn)確率

2.2 Non-IID 數(shù)據(jù)偏置程度的度量方式EMD

為了有效地解決混合Non-IID 場(chǎng)景下數(shù)據(jù)不同偏置程度的度量問(wèn)題,我們引入EMD 作為Non-IID數(shù)據(jù)偏置程度的度量方式.EMD 可以定量地計(jì)算2個(gè)數(shù)據(jù)分布的距離[16-17],而其中距離W(Pr,Pa)定義為

其中Pr,Pa是2 個(gè)不同的概率分布,S(Pr,Pa)是組合Pr和Pa分布的所有可能的聯(lián)合分布集合.對(duì)于每一個(gè)可能的聯(lián)合分布 γ,x和y是 γ中的隨機(jī)變量,則樣本對(duì)距離的期望值為E(x,y)~γ[‖x-y‖].在所有的聯(lián)合分布中,對(duì)期望值取下界便是Pr,Pa的EMD 距離.

相較于傳統(tǒng)的聯(lián)邦學(xué)習(xí)使用JS(Jensen-Shannon)散度和KL 散度進(jìn)行數(shù)據(jù)偏置程度度量,EMD 對(duì)數(shù)據(jù)的偏置程度具有更好的可度量性.例如,使用JS或KL 散度對(duì)2 個(gè)沒(méi)有重合的數(shù)據(jù)分布進(jìn)行度量時(shí),度量值常為定值或無(wú)窮值.而EMD 仍然可以度量2個(gè)數(shù)據(jù)分布之間的距離.因此,EMD 在Non-IID 環(huán)境下可以適應(yīng)不同偏置程度的混合數(shù)據(jù)分布.

為了進(jìn)一步探究在聯(lián)邦學(xué)習(xí)中EMD與模型訓(xùn)練精度的關(guān)系,我們使用CIFAR-10 數(shù)據(jù)集在Non-IID 場(chǎng)景下對(duì)經(jīng)典的聯(lián)邦學(xué)習(xí)框架FedAvg 進(jìn)行實(shí)驗(yàn).如圖3 所示,隨著EMD數(shù)值的增大,即數(shù)據(jù)偏置程度變大,F(xiàn)edAvg 的準(zhǔn)確率下降,且當(dāng)客戶端數(shù)據(jù)分布EMD=3 時(shí),F(xiàn)edAvg 的準(zhǔn)確率急劇下降.這說(shuō)明在Non-IID 場(chǎng)景下存在EMD-Accuracy 閾值θEMD,因此可以根據(jù)EMD閾值θEMD將客戶端劃分為極偏客戶端(extremely biased clients,EBC)和非極偏客戶端(nonextremely biased clients,NEBC).

Fig.3 Relationship between EMD and accuracy on CIFAR-10 dataset圖3 在數(shù)據(jù)集CIFAR-10 下EMD 和準(zhǔn)確率的關(guān)系

3 FedAIM 框架

本文考慮到Non-IID 場(chǎng)景下的混合數(shù)據(jù)分布問(wèn)題,提出了FedAIM 框架.本節(jié)首先結(jié)合圖4 對(duì)FedAIM框架的基本結(jié)構(gòu)進(jìn)行了表述.其次,闡述客戶端的分類(lèi)規(guī)則和流程,并設(shè)計(jì)了極偏服務(wù)器和非極偏服務(wù)器2 個(gè)模塊.最后,提出了一種基于信息熵的模型參數(shù)交互機(jī)制,使得FedAIM 中央服務(wù)器可以有效地聚合極偏服務(wù)器和非極偏服務(wù)器產(chǎn)生的模型參數(shù).

3.1 FedAIM 整體結(jié)構(gòu)

如圖4 所示,本文的FedAIM 主要分為中央服務(wù)器(central sever,CS)、極偏服務(wù)器(extremely biased server,EBS)和非極偏服務(wù)器(non-extremely biased server,NEBS)3 個(gè)部分.在FedAIM 中,首先使用EMD 閾值劃分出極偏客戶端和非極偏客戶端.在極偏服務(wù)器中,各極偏客戶端被分入不同的中介服務(wù)器(mediator server,MS),設(shè)計(jì)了FedSeq 對(duì)中介服務(wù)器中的客戶端進(jìn)行模型參數(shù)更新;在非極偏服務(wù)器中,采用FedAvg 對(duì)非極偏客戶端進(jìn)行模型參數(shù)更新.在中央服務(wù)器中,設(shè)計(jì)了基于信息熵的模型參數(shù)交互機(jī)制對(duì)極偏服務(wù)器模型參數(shù)wEBS和非極偏服務(wù)器模型參數(shù)wNEBS進(jìn)行聚合和更新.

3.2 客戶端劃分

本節(jié)基于EMD 計(jì)算各客戶端Non-IID 分布的偏置程度,并將客戶端劃分為極偏客戶端和非極偏客戶端.當(dāng)客戶端的EDM > θEMD時(shí),客戶端的樣本分布均衡程度低,劃分為極偏客戶端;當(dāng)客戶端的EDM <θEMD時(shí),客戶端的樣本分布較為均衡,劃分為非極偏客戶端.客戶端劃分的具體流程為:

1)各客戶端依據(jù)全局樣本種類(lèi)計(jì)算客戶端的EMD 值.

2)當(dāng)客戶端EMD<θEMD時(shí),客戶端歸入非極偏服務(wù)器.

3)當(dāng)客戶端EMD>θEMD時(shí),客戶端歸入極偏服務(wù)器,并按照中介服務(wù)器的數(shù)據(jù)樣本總體分布偏置程度最低的原則,對(duì)極偏客戶端進(jìn)行中介服務(wù)器的分配.

基于EMD 劃分客戶端流程如算法1 所示.

3.3 非極偏服務(wù)器

由于非極偏服務(wù)器模塊中的非極偏客戶端樣本分布較全,Non-IID 程度小,因此我們選擇FedAvg 的方式進(jìn)行訓(xùn)練.非極偏服務(wù)器訓(xùn)練的具體流程為:

各客戶端接收非極偏服務(wù)器第t輪的模型參數(shù)作為客戶端本地模型初始參數(shù)為

客戶端在t+1輪的本地模型參數(shù)的變化值為

其中第k個(gè)客戶端的數(shù)據(jù)集為Dk,數(shù)據(jù)量為nk,在t輪時(shí)的模型參數(shù)為.同時(shí)客戶端k的第i個(gè)數(shù)據(jù)樣本符合的概率分布,xi為客戶端k的第i個(gè)數(shù)據(jù)樣本,yi為xi的標(biāo)簽.L(·)為損失函數(shù).η是學(xué)習(xí)率,為客戶端k在第t輪的模型梯度.變化值是上一輪的客戶端k的本地模型梯度,是損失函數(shù)L(·)和學(xué)習(xí)率η相乘得到的.

由此可以得到非極偏服務(wù)器的模型參數(shù)在t+1輪的加權(quán)聚合為

其中LNEBC為非極偏客戶端序列,n為所有非極偏客戶端的數(shù)據(jù)總量.此外,在每個(gè)交流輪次結(jié)束時(shí),非極偏服務(wù)器都會(huì)將非極偏服務(wù)器模型參數(shù)wNEBS上傳至中央服務(wù)器.

3.4 極偏服務(wù)器

在極偏服務(wù)器中,我們?cè)O(shè)計(jì)了一種新型的客戶端訓(xùn)練方式FedSeq,通過(guò)將客戶端劃分為多個(gè)集群并引入中介服務(wù)器對(duì)集群進(jìn)行并行式訓(xùn)練.該訓(xùn)練方式既可降低極偏服務(wù)器單個(gè)訓(xùn)練迭代的時(shí)間,也可通過(guò)對(duì)客戶端再分配的方式降低集群中數(shù)據(jù)樣本分布的偏置程度,從而增強(qiáng)模型對(duì)Non-IID 場(chǎng)景下的魯棒性.FedSeq 在中介服務(wù)器中訓(xùn)練具體流程為:

在極偏服務(wù)器第t輪訓(xùn)練中,中介服務(wù)器m接收極偏服務(wù)器的模型參數(shù)作 為初始參數(shù),初始參數(shù)為

中介服務(wù)器m下的第1 個(gè)客戶端m1的模型參數(shù)為

而中介服務(wù)器m下的第k個(gè)客戶端mk的模型參數(shù)為

由此,得到更新后的中介服務(wù)器m的模型參數(shù)為

其中K為中介服務(wù)器m的客戶端總數(shù),為中介服務(wù)器m下的最后一個(gè)客戶端mK的模型參數(shù).

當(dāng)所有中介服務(wù)器都完成1 輪迭代后,F(xiàn)edAIM將進(jìn)行中介服務(wù)器之間的模型參數(shù)交互.在中介服務(wù)器模型參數(shù)交換過(guò)程中,考慮到當(dāng)中介服務(wù)器中數(shù)據(jù)分布偏置程度較大或數(shù)據(jù)量較小均會(huì)導(dǎo)致極偏服務(wù)器訓(xùn)練效果不佳的情況,從而設(shè)計(jì)了一種中介服務(wù)器權(quán)重分配機(jī)制.該機(jī)制考慮到各中介服務(wù)器中的數(shù)據(jù)偏置程度和數(shù)據(jù)量對(duì)中介服務(wù)器權(quán)重進(jìn)行合理重分配,讓訓(xùn)練效果較好的中介服務(wù)器在極偏服務(wù)器中獲得較大的權(quán)重;讓訓(xùn)練效果較差的中介服務(wù)器在極偏服務(wù)器中獲得較小的權(quán)重.

定義中介服務(wù)器m在極偏服務(wù)器的權(quán)重Bm為

其中Bk=,nk為客戶端k的數(shù)據(jù)量,JEMD,k為客戶端k的EMD值.

t+1輪的極偏服務(wù)器模型參數(shù)由所有中介服務(wù)器的模型參數(shù)聚合而成,極偏服務(wù)器模型參數(shù)為

其中 M 為所有中介服務(wù)器的集合,B為所有中介服務(wù)器的權(quán)重總和,為FedSeq 更新后的中介服務(wù)器m的模型參數(shù).

3.5 基于信息熵的模型參數(shù)交互機(jī)制

考慮到傳統(tǒng)聯(lián)邦學(xué)習(xí)中,中央服務(wù)器因?yàn)槟P蛥?shù)頻繁交互導(dǎo)致的通信代價(jià)大,本文提出了基于信息熵的模型參數(shù)交互機(jī)制,從而幫助中央服務(wù)器以較小的交互輪次獲得較高的模型準(zhǔn)確率.

首先,需要確定在中央服務(wù)器中基于信息熵的模型參數(shù)交互機(jī)制的條件:當(dāng)非極偏服務(wù)器模型處于較為穩(wěn)定的狀態(tài),且極偏服務(wù)器模型與中央服務(wù)器模型產(chǎn)生較大差別時(shí),進(jìn)行極偏服務(wù)器模型與中央服務(wù)器模型的參數(shù)交互.

參照文獻(xiàn)[5,18-19]計(jì)算極偏服務(wù)器模型參數(shù)和中央服務(wù)器模型參數(shù)的權(quán)重發(fā)散(weight divergence,WD)程度,如式(14)所示:

其中表示第t輪的極偏服務(wù)器模型參數(shù).當(dāng)權(quán)重發(fā)散程度超過(guò)閾值θWD時(shí),我們認(rèn)為極偏服務(wù)器和中央服務(wù)器模型參數(shù)之間產(chǎn)生了較大差異.在本文中,設(shè)定θWD=0.015.

用損失函數(shù)差值作為衡量模型穩(wěn)定的標(biāo)準(zhǔn),如式(15)所示:

其次,考慮到信息熵在一定程度上可以反映模型包含的信息量[20-22],而信息量越大的模型在混合分布場(chǎng)景下可能意味著訓(xùn)練樣本數(shù)據(jù)規(guī)模越大、數(shù)據(jù)種類(lèi)越齊全.因此在模型參數(shù)交互階段,通過(guò)極偏服務(wù)器和非極偏服務(wù)器模型參數(shù)的信息熵來(lái)自適應(yīng)調(diào)整非極偏服務(wù)器的權(quán)重為

其中arctan(·)為反正切函數(shù),A的 大小可以代表當(dāng)一個(gè)模型的信息量遠(yuǎn)大于另一個(gè)模型時(shí)信息量小的模型保留的比例,c是用來(lái)縮放2個(gè)模型信息量差值的大小.在本文中,設(shè)定A=0.5,c=1.而和則分別表示非極偏服務(wù)器模型參數(shù)和極偏服務(wù)器模型參數(shù)的信息熵,由式(17)(18)計(jì)算得到.

先將模型參數(shù)和的參數(shù)取值區(qū)間劃分為y個(gè)等長(zhǎng)區(qū)間,進(jìn)而計(jì)算模型參數(shù)在各區(qū)間y上的概率和:

其中和分別表示模型參數(shù)和在區(qū)間y內(nèi)的參數(shù)個(gè)數(shù),NwNtEBS和NwEtBS分別表示模型參數(shù)和的總參數(shù)個(gè)數(shù).

最后,當(dāng)模型參數(shù)交互條件滿足時(shí),在極偏服務(wù)器和非極偏服務(wù)器模型參數(shù)交互階段采用式(21)進(jìn)行極偏服務(wù)器和非極偏服務(wù)器的自適應(yīng)聚合,更新中央服務(wù)器模型

3.6 FedAIM 框架算法

FedAIM 框架具體流程如算法2 所示.

4 實(shí)驗(yàn)與結(jié)果

本節(jié)首先介紹了關(guān)于MNIST,CIFAR-10,F(xiàn)ashion-MNIST,SVHN,F(xiàn)EMNIST 共5 個(gè)實(shí)驗(yàn)數(shù)據(jù)集的基本信息以及運(yùn)行軟硬件配置和本地迭代次數(shù)(epoch)的選取設(shè)置.其次,在固定極偏占比 λ的混合數(shù)據(jù)分布下,將FedAIM 與7 種對(duì)比方法進(jìn)行了分析.最后,還針對(duì)極偏占比 λ設(shè)計(jì)了相應(yīng)的對(duì)比分析實(shí)驗(yàn).

4.1 數(shù)據(jù)集簡(jiǎn)介

本文實(shí)驗(yàn)采用的5 個(gè)數(shù)據(jù)集,各數(shù)據(jù)集樣本示例如圖5 所示.

Fig.5 Examples of datasets samples圖5 各數(shù)據(jù)集的樣本示例

1)MNIST.手寫(xiě)數(shù)字?jǐn)?shù)據(jù)集,分為數(shù)字0~9 共10 類(lèi)樣本,訓(xùn)練集為60 000 個(gè)樣本,測(cè)試集為10 000 個(gè)樣本.

2)CIFAR-10.常用圖片數(shù)據(jù)集,分為10 類(lèi)衣物,標(biāo)簽為數(shù)字0~9,訓(xùn)練集為50 000 個(gè)樣本,測(cè)試集為10 000個(gè)樣本.

3)Fashion-MNIST.衣物圖片類(lèi)MNIST 數(shù)據(jù)集,分為10 類(lèi)衣物,訓(xùn)練集為60 000 個(gè)樣本,測(cè)試集為10 000個(gè)樣本.

4)SVHN.街景門(mén)牌號(hào)碼數(shù)據(jù)集,分為數(shù)字1~10共10 類(lèi)樣本,訓(xùn)練集為73 257 個(gè)樣本,測(cè)試集為26 032個(gè)樣本.

5)FEMNIST.適用于聯(lián)邦學(xué)習(xí)的圖片分類(lèi)數(shù)據(jù)集,圖像種類(lèi)除了包含有數(shù)字0~9,還有26 個(gè)大寫(xiě)字母和26 個(gè)小寫(xiě)字母,共62 類(lèi),客戶端平均樣本數(shù)為226.83 個(gè),客戶端數(shù)量3 550 個(gè).

4.2 各數(shù)據(jù)集實(shí)驗(yàn)設(shè)置

表1 展示了對(duì)比實(shí)驗(yàn)在各個(gè)實(shí)驗(yàn)數(shù)據(jù)集上的實(shí)驗(yàn)設(shè)置.例如,在MNIST 數(shù)據(jù)集中,設(shè)置了客戶端本地模型LeNet CNN[23]架構(gòu)進(jìn)行訓(xùn)練,優(yōu)化器采用隨機(jī)梯度下降SGD 方法[24],同時(shí)設(shè)置學(xué)習(xí)率為0.01,沖量為0.78.各客戶端中模型批大小為64,其他數(shù)據(jù)集上實(shí)驗(yàn)數(shù)值設(shè)置與MNIST 數(shù)據(jù)集相近似.

Table 1 Experimental Setting on Different Datasets表1 在不同數(shù)據(jù)集上的實(shí)驗(yàn)設(shè)置

4.3 客戶端數(shù)據(jù)處理及劃分

由2.2 節(jié)得知,Non-IID 場(chǎng)景下存在EMD-Accuracy閾值,且當(dāng)EMD閾值θEMD≥3時(shí)FedAvg 的訓(xùn)練精度急劇下降.在本文實(shí)驗(yàn)中,各客戶端隨機(jī)從訓(xùn)練數(shù)據(jù)集中抽取n類(lèi)數(shù)據(jù)的圖片樣本進(jìn)行模型訓(xùn)練,并計(jì)算各客戶端EMD值,當(dāng)θEMD≥3時(shí)被劃分為極偏客戶端,反之則為非極偏客戶端.

4.4 實(shí)驗(yàn)軟硬件配置

本文實(shí)驗(yàn)使用Python-3.6.4 作為編程語(yǔ)言,利用Pytorch 框架建立神經(jīng)網(wǎng)絡(luò)架構(gòu).表2 展示了本文實(shí)驗(yàn)所需的軟件及硬件配置參數(shù).

Table 2 Software and Hardware Configurations in Experiment表2 實(shí)驗(yàn)軟硬件配置

4.5 準(zhǔn)確率對(duì)比實(shí)驗(yàn)結(jié)果

為了驗(yàn)證FedAIM 在混合Non-IID 數(shù)據(jù)下的性能表現(xiàn),將FedAIM 框架與7 種方法進(jìn)行了對(duì)比.

1)FedShare[5].各客戶端共享中央服務(wù)器中部分?jǐn)?shù)據(jù)進(jìn)行模型訓(xùn)練.

2)Astraea[14].引入KL 散度對(duì)數(shù)據(jù)進(jìn)行偏置程度度量,進(jìn)而將客戶端分配到各中介服務(wù)器進(jìn)行模型訓(xùn)練.

3)CSFedAvg[15].中央服務(wù)器只選擇客戶端中數(shù)據(jù)分布較全的非極偏客戶端參加訓(xùn)練.

4)FedAvg[10].經(jīng)典的聯(lián)邦平均算法.

5)FedProx[12].引入二次近側(cè)項(xiàng)使得本地模型與全局模型不會(huì)差異過(guò)大.

6)FedNova[26].在FedAvg 的基礎(chǔ)上,通過(guò)標(biāo)準(zhǔn)平均后的本地參數(shù)變化值來(lái)抑制客戶端偏移.

7)SCAFFOLD[27].引入控制因子來(lái)矯正客戶端偏移現(xiàn)象.

表3 展示了當(dāng)客戶端極偏占比λ =40%時(shí)FedAIM 和對(duì)比方法在MNIST,CIFAR-10,F(xiàn)ashion-MNIST,SVHN,F(xiàn)ashion-MNIST 數(shù)據(jù)集上的模型準(zhǔn)確率.如表3 所示,F(xiàn)edAIM 在MNIST,CIFAR-10,F(xiàn)ashion-MNIST,SVHN,F(xiàn)EMNIST 數(shù)據(jù)集上的模型最終準(zhǔn)確率均優(yōu)于現(xiàn)有的對(duì)比方法.其中FedAvg 在5 個(gè)數(shù)據(jù)集上的準(zhǔn)確率最低,因?yàn)镕edAvg 方法更適合于IID 數(shù)據(jù)場(chǎng)景.而針對(duì)Non-IID 數(shù)據(jù)場(chǎng)景設(shè)計(jì)的CSFedAvg,Astraea,F(xiàn)edProx,F(xiàn)edNova,SCAFFOLD,F(xiàn)edShare 在5 個(gè)數(shù)據(jù)集上的識(shí)別準(zhǔn)確率均有不同程度的提高.在MNIST 數(shù)據(jù)集中,F(xiàn)edAIM 的準(zhǔn)確率達(dá)到了98.54%.此外,在CIFAR-10,F(xiàn)ashion-MNIST,SVHN,F(xiàn)EMNIST 數(shù)據(jù)集中FedAIM的準(zhǔn)確率比第2 優(yōu)的Astraea 方法的準(zhǔn)確率分別提高百分比約2.5,3,3.9,2.7.這是因?yàn)锳straea 忽略了各中介服務(wù)器之間Non-IID 程度不同的影響,而FedAIM可以通過(guò)極偏服務(wù)器和非極偏服務(wù)器2 類(lèi)模塊分別處理不同偏置程度的數(shù)據(jù),即針對(duì)不同偏置程度的數(shù)據(jù)使用不同的訓(xùn)練方式.因此,F(xiàn)edAIM 可以有效地提升學(xué)習(xí)模型的準(zhǔn)確率.

Table 3 Accuracy comparisons of Each Method on Different Datasets表3 不同數(shù)據(jù)集下各方法的準(zhǔn)確率對(duì)比%

4.6 交流輪次對(duì)比實(shí)驗(yàn)結(jié)果

圖6 展示了在MNIST,CIFAR-10,F(xiàn)ashion-MNIST數(shù)據(jù)集上,F(xiàn)edAIM 與7 種對(duì)比方法的模型識(shí)別準(zhǔn)確率隨著交流輪次的變化情況.在MNIST 數(shù)據(jù)集上,當(dāng)交流輪次達(dá)到1 000 時(shí)FedAvg 準(zhǔn)確率最低,這是因?yàn)镕edAvg 更適用于處理IID 場(chǎng)景下數(shù)據(jù),而在Non-IID 場(chǎng)景下FedAvg 魯棒性較差.此外,針對(duì)Non-IID場(chǎng)景下的 FedAIM,CSFedAvg,Astraea,F(xiàn)edShare,F(xiàn)edNova,F(xiàn)edProx,SCAFFOLD 框架均獲得較好的準(zhǔn)確率(>95%)并且,CSFedAvg 只使用了較少的交流輪次就達(dá)到了95%的準(zhǔn)確率,這是因?yàn)镃SFedAvg 在訓(xùn)練時(shí)會(huì)拋棄部分極偏客戶端進(jìn)行訓(xùn)練,而在較為簡(jiǎn)單的MNIST 數(shù)據(jù)集上拋棄部分客戶端數(shù)據(jù)對(duì)模型識(shí)別影響不大.所有對(duì)比方法在最終收斂穩(wěn)定時(shí),F(xiàn)edAIM 框架仍獲得了最高的準(zhǔn)確率.在CIFAR-10 數(shù)據(jù)集上,F(xiàn)edAIM 只需要500 交流輪次即可獲得約82.0%的較高準(zhǔn)確率,而Astraea 方法則需要1 250 交流輪次才可達(dá)到約80.0%的準(zhǔn)確率.這是因?yàn)锳straea每次交流輪次結(jié)束時(shí)都需要各中介服務(wù)器之間的模型聚合,而FedAIM 只有在滿足非極偏服務(wù)器模型穩(wěn)定且極偏服務(wù)器模型與中央服務(wù)器模型差異較大的模型參數(shù)交互條件時(shí)才會(huì)進(jìn)行模型聚合,故FedAIM交流輪次更少.此外,CSFedAvg 方法雖然在500 交流輪次時(shí)模型準(zhǔn)確率基本穩(wěn)定,但準(zhǔn)確率只有75.0%,F(xiàn)edShare 和SCAFFLOD 的準(zhǔn)確率也僅約72.6%和75.7%.

Fig.6 Model accuracy on MNIST, CIFAR10, Fashion-MNIST datasets under different communication rounds圖6 MNIST, CIFAR-10, Fashion-MNIST 數(shù)據(jù)集在不同交流輪次下的模型準(zhǔn)確率

同樣地,在Fashion-MNIST 數(shù)據(jù)集上,F(xiàn)edAIM 只需要最少的交流輪次即可獲得最高的準(zhǔn)確率.例如,F(xiàn)edAIM 在1 000 交流輪次時(shí)準(zhǔn)確率約為84.0%,比第2 優(yōu)的Astraea 準(zhǔn)確率高了約3%,而第3 優(yōu)的FedNova準(zhǔn)確率只有80.7%.此外,F(xiàn)edSha re,F(xiàn)edProx,CSFedAvg方法的準(zhǔn)確率分別為73.1%,76.5%,74.9%,而FedAvg方法則只有68.0%左右.因此,在數(shù)據(jù)混合分布場(chǎng)景下,F(xiàn)edAIM 只需較少的交流輪次就能達(dá)到更高的準(zhǔn)確率.

圖7 展示了在SVHN 和FEMNIST 2 個(gè)數(shù)據(jù)集上8 種方法的識(shí)別準(zhǔn)確率隨交流輪次的變化.FedAIM在SVHN 和FEMNIST 數(shù)據(jù)集上同樣只需要較少的交流輪次即可獲得最高的準(zhǔn)確率,而第2 優(yōu)的Astraea方法則需要最少2 倍多的交流輪次才可達(dá)到相近的準(zhǔn)確率.此外,之前在MNIST,F(xiàn)ashion-MNIST,CIFAR-10數(shù)據(jù)集上表現(xiàn)較好的FedNova 在SVHN 和FEMNIST數(shù)據(jù)集上的準(zhǔn)確率大幅度下降,這是因?yàn)镾VHN 和FEMNIST 訓(xùn)練樣本中的噪聲較多,會(huì)導(dǎo)致各個(gè)客戶端在本地更新時(shí)的模型參數(shù)變化值并沒(méi)有被有效糾正,從而影響了模型的準(zhǔn)確率.

Fig.7 Model accuracy on SVHN and FEMNIST datasets under different communication rounds圖7 SVHN 和FEMNIST 數(shù)據(jù)集在不同交流輪次下的模型準(zhǔn)確率

4.7 極偏占比 λ實(shí)驗(yàn)

為了進(jìn)一步探究混合分布場(chǎng)景的極偏客戶端占比 λ對(duì)于模型準(zhǔn)確率的影響,本文選擇了SVHN 數(shù)據(jù)集和Fashion-MNIST 數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù)集,實(shí)驗(yàn)結(jié)果如圖8 所示.

Fig.8 Model accuracy on SVHN and Fashion-MNIST datasets under different λ values圖8 不同 λ數(shù)值下在SVHN 和Fashion-MNIST 數(shù)據(jù)集上的模型準(zhǔn)確率

如圖8 所示,隨著極偏占比 λ值的增加即極偏客戶端占比提高,所有方法的模型準(zhǔn)確率都會(huì)出現(xiàn)大幅度下降,而FedAIM 即使在λ=80%的情況下,與λ=40%相比,在SVHN,F(xiàn)EMNIST 上模型準(zhǔn)確率也分別只下降了約1.4%,1.3%,這說(shuō)明FedAIM 即使在極偏客戶端占絕大多數(shù)的混合分布場(chǎng)景中仍然可以生成性能優(yōu)越的識(shí)別模型,這得益于FedAIM 將極偏客戶端和非極偏客戶端分別分入了極偏服務(wù)器和非極偏服務(wù)器;分別采用了適合客戶端數(shù)據(jù)分布極偏程度的訓(xùn)練流程.而CSFedAvg 由于隨著 λ值的增大,極偏客戶端占比增加,可供CSFedAvg 主動(dòng)選擇的客戶端數(shù)量迅速減少,所以CSFedAvg 的模型準(zhǔn)確率會(huì)隨著 λ的增加急劇降低.FedProx,F(xiàn)edNova,SCAFFOLD 隨著λ的增加,模型準(zhǔn)確率下降的程度大致相同,原因在于它們都是采用在損失函數(shù)和優(yōu)化目標(biāo)的層面上進(jìn)行限制本地模型更新的策略.

4.8 客戶端本地迭代次數(shù)實(shí)驗(yàn)

為了探究本地迭代次數(shù)對(duì)于模型準(zhǔn)確率的影響,本文以客戶端總數(shù)K= 50,λ = 40%,中介服務(wù)器個(gè)數(shù)M=3為實(shí)驗(yàn)設(shè)置,在MNIST,CIFAR-10,F(xiàn)ashion-MNIST 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表4 所示.

Table 4 Model Accuracy Under Different Local Epochs表4 不同本地迭代次數(shù)下的模型準(zhǔn)確率

從表4 中,我們發(fā)現(xiàn)在這3 個(gè)數(shù)據(jù)集上,隨著客戶端本地迭代次數(shù)的增大,F(xiàn)edAIM 和Astraea 的模型準(zhǔn)確率并沒(méi)有顯著地提升或降低.考慮到本地迭代次數(shù)增大時(shí)模型訓(xùn)練時(shí)間較長(zhǎng),但模型準(zhǔn)確率提升幅度不大這一現(xiàn)象,因此在本文的實(shí)驗(yàn)最后將客戶端本地迭代次數(shù)統(tǒng)一設(shè)定為2.

5 總 結(jié)

本文針對(duì)Non-IID 場(chǎng)景下不同客戶端數(shù)據(jù)混合分布所導(dǎo)致的聯(lián)邦學(xué)習(xí)效果不佳的問(wèn)題,提出了一種聯(lián)邦自適應(yīng)學(xué)習(xí)交互框架FedAIM.該框架基于EMD 對(duì)客戶端進(jìn)行偏置程度度量并構(gòu)建2 類(lèi)服務(wù)器模塊分別處理極偏數(shù)據(jù)和非極偏數(shù)據(jù),從而緩解客戶端數(shù)據(jù)混合分布的問(wèn)題,提高模型準(zhǔn)確率.此外,我們提出了基于信息熵的模型參數(shù)交互機(jī)制,使得FedAIM 可以有效地聚合2 類(lèi)服務(wù)器產(chǎn)生的模型參數(shù),從而有效地減少服務(wù)器之間的交互輪次,降低通信代價(jià).在未來(lái)的工作中,我們會(huì)將FedAIM 框架作進(jìn)一步擴(kuò)展,使得FedAIM 框架能夠更細(xì)粒度地處理數(shù)據(jù)混合分布.

作者貢獻(xiàn)聲明:郭松岳負(fù)責(zé)方案的構(gòu)思與實(shí)施、實(shí)驗(yàn)結(jié)果整理與分析、論文撰寫(xiě)與修訂;王陽(yáng)謙指導(dǎo)方案設(shè)計(jì);柏思遠(yuǎn)負(fù)責(zé)方案設(shè)計(jì)與實(shí)施;劉永恒參與方案可行性討論;周駿負(fù)責(zé)框架工程化指導(dǎo);王夢(mèng)鴿負(fù)責(zé)集成框架至浦發(fā)銀行波塞冬隱私計(jì)算產(chǎn)品中;廖清指導(dǎo)論文撰寫(xiě)與論文修訂.

猜你喜歡
模型
一半模型
一種去中心化的域名服務(wù)本地化模型
適用于BDS-3 PPP的隨機(jī)模型
提煉模型 突破難點(diǎn)
函數(shù)模型及應(yīng)用
p150Glued在帕金森病模型中的表達(dá)及分布
函數(shù)模型及應(yīng)用
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 免费jjzz在在线播放国产| 在线观看91精品国产剧情免费| 亚洲浓毛av| 亚洲日韩精品无码专区| 亚洲高清中文字幕| 日本www在线视频| 怡红院美国分院一区二区| 国产成人调教在线视频| 丁香亚洲综合五月天婷婷| 三级视频中文字幕| 亚洲综合婷婷激情| 免费看久久精品99| 国产凹凸视频在线观看| 亚洲视频在线观看免费视频| 91黄视频在线观看| 在线播放91| 成年人国产视频| 波多野结衣二区| 亚洲欧洲日本在线| 国产清纯在线一区二区WWW| 欧美 亚洲 日韩 国产| 亚洲va欧美va国产综合下载| 久青草网站| 国产欧美视频综合二区| 欧美高清三区| 日韩资源站| 亚洲人成网站18禁动漫无码 | 2021最新国产精品网站| 亚洲天堂自拍| 女人18毛片水真多国产| 久久午夜夜伦鲁鲁片无码免费 | 欧美午夜在线观看| 国产亚洲视频在线观看| 日韩欧美中文| 色欲色欲久久综合网| 精品無碼一區在線觀看 | 在线精品自拍| 三级视频中文字幕| 欧美激情视频二区三区| av一区二区三区高清久久| 国产精品va免费视频| 国产欧美日韩在线在线不卡视频| 亚洲 成人国产| 在线中文字幕网| 久久久波多野结衣av一区二区| 亚洲人成日本在线观看| 亚洲男人的天堂视频| 国产一区二区三区免费| 国产九九精品视频| 国产永久在线观看| 亚洲 日韩 激情 无码 中出| 日韩欧美国产综合| 国产精品手机在线观看你懂的| 成人精品视频一区二区在线| 尤物亚洲最大AV无码网站| 国产精女同一区二区三区久| 亚洲性影院| 亚洲色图欧美在线| 97se亚洲综合不卡| 欲色天天综合网| 国产精品三区四区| 特级精品毛片免费观看| 91国语视频| 无码免费的亚洲视频| 国产污视频在线观看| 色婷婷狠狠干| 99久久精品久久久久久婷婷| 免费国产不卡午夜福在线观看| 国产精品va| 天堂成人在线| 99国产精品国产| 另类综合视频| 视频二区国产精品职场同事| 97国产在线播放| 亚洲国产精品人久久电影| 福利国产在线| 欧美日韩中文国产| 免费福利视频网站| 丁香综合在线| 青青操视频免费观看| 91麻豆精品国产高清在线| 亚洲伦理一区二区|