999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種面向智聯(lián)網(wǎng)的高效聯(lián)邦學(xué)習(xí)算法

2023-12-16 10:30:12胡亮青李曉歡
計(jì)算機(jī)工程 2023年12期
關(guān)鍵詞:設(shè)備方法模型

葉 進(jìn),韋 濤,胡亮青,羅 森,李曉歡

(1.廣西大學(xué) 計(jì)算機(jī)與電子信息學(xué)院,南寧 530003;2.廣西綜合交通大數(shù)據(jù)研究院,南寧 530201)

0 概述

人工智能(Artificial Intelligence,AI)和物聯(lián)網(wǎng)(Internet of Things,IoT)相結(jié)合能夠得到智聯(lián)網(wǎng)(Artificial Intelligence of Things,AIoT)。IoT 設(shè)備是數(shù)字神經(jīng)系統(tǒng),AI 是系統(tǒng)的大腦。當(dāng)AI 被添加到IoT 時,意味著這些IoT 設(shè)備可以在沒有人類參與的情況下分析數(shù)據(jù),做出決策。人工智能通過機(jī)器學(xué)習(xí)和越來越強(qiáng)的決策能力為物聯(lián)網(wǎng)增加價值。物聯(lián)網(wǎng)因?yàn)檫B通性和數(shù)據(jù)交換為人工智能增加價值[1]。

目前,AI 模型訓(xùn)練的主要方法是以云為中心,即IoT 設(shè)備將訓(xùn)練數(shù)據(jù)傳輸?shù)竭h(yuǎn)程云服務(wù)器進(jìn)行處理。然而,對隱私越來越敏感的數(shù)據(jù)所有者可以選擇不與第三方共享數(shù)據(jù)。同時,將大量數(shù)據(jù)傳輸?shù)竭b遠(yuǎn)的云端會增加網(wǎng)絡(luò)的負(fù)擔(dān),并導(dǎo)致不可接受的延遲,尤其是對時間敏感的任務(wù),這可能會阻礙AIoT 的進(jìn)一步發(fā)展。因此,聯(lián)邦學(xué)習(xí)(Federated Learning,F(xiàn)L)[2]被提出。在FL 的每次迭代中,遠(yuǎn)程云服務(wù)器將一組模型參數(shù)傳輸給客戶機(jī),例如AIoT 設(shè)備,然后使用本地存儲的訓(xùn)練數(shù)據(jù)更新模型參數(shù),最后把更新的模型參數(shù)傳回遠(yuǎn)程服務(wù)器進(jìn)行全局聚合。整個過程不需要傳輸原始數(shù)據(jù),因此,F(xiàn)L 訓(xùn)練過程實(shí)現(xiàn)了保護(hù)隱私的協(xié)作機(jī)器學(xué)習(xí)。

在AIoT 的實(shí)際場景中,大規(guī)模實(shí)現(xiàn)FL 還面臨著以下挑戰(zhàn):1)AIoT 設(shè)備的通信帶寬有限,遠(yuǎn)程云服務(wù)器和IoT 設(shè)備之間的通信鏈路是高度不可靠的,意味著只有一小部分設(shè)備能夠參與每一輪通信,F(xiàn)L算法對通信成本和低參與率特別敏感;2)由于AIoT設(shè)備間的存儲、計(jì)算和通信能力有所不同,使得AIoT 網(wǎng)絡(luò)有顯著的系統(tǒng)異構(gòu)性;3)AIoT 設(shè)備間的數(shù)據(jù)通常是非獨(dú)立同分布(non-Independent Identically Distribution,non-IID)的,且數(shù)據(jù)量也是不平衡的,意味著AIoT 網(wǎng)絡(luò)中有顯著的數(shù)據(jù)異構(gòu)性[3-4]。文獻(xiàn)[5-6]分別在實(shí)驗(yàn)和理論上證明了當(dāng)設(shè)備數(shù)據(jù)是non-IID 時,F(xiàn)L 會受到客戶機(jī)漂移的影響,導(dǎo)致不穩(wěn)定和緩慢的收斂??蛻魴C(jī)漂移是指:不同設(shè)備間non-IID 的數(shù)據(jù)分布會導(dǎo)致它們計(jì)算的梯度高度傾斜,每一輪訓(xùn)練中設(shè)備的模型更新方向逐漸發(fā)散、過擬合于本地?cái)?shù)據(jù)。

為AIoT 設(shè)計(jì)FL 算法需要綜合考慮低參與率、系統(tǒng)異構(gòu)性和數(shù)據(jù)異構(gòu)性。在現(xiàn)有的FL 算法中,有一些是專門處理數(shù)據(jù)異構(gòu)性的。SCAFFOLD[6]在服務(wù)器和客戶端添加了控制變量,用來控制模型訓(xùn)練時的更新方向,然而在每輪通信時,控制變量會隨著模型一同傳輸,這增加了額外的通信成本,且當(dāng)設(shè)備參與率很低時,客戶端由于不能參與每輪的模型訓(xùn)練而導(dǎo)致其控制變量陳舊,算法性能大大降低。FedProx[7]和FedDyn[8]在損失 函數(shù)上 添加了 近端正則化項(xiàng),以約束客戶機(jī)模型遠(yuǎn)離全局模型的更新,由此同時解決系統(tǒng)異構(gòu)性和數(shù)據(jù)異構(gòu)性問題,然而這類方法需要精調(diào)其超參數(shù),否則會降低算法的收斂速度。FedNova[9]是一種標(biāo)準(zhǔn)化平均方法,其在客戶端上傳其參數(shù)改變量前根據(jù)本地更新次數(shù)和梯度權(quán)重進(jìn)行標(biāo)準(zhǔn)化,消除了異構(gòu)系統(tǒng)中的客觀不一致性。此外,文獻(xiàn)[10]在服務(wù)器端提出了自適應(yīng)的方法,F(xiàn)edPD[11]使用了原始對偶方法,VRL-SGD[12]應(yīng)用減少方差的方法消除了客戶機(jī)間的不一致性,文獻(xiàn)[13]設(shè)計(jì)了一種基于個性化本地蒸餾的方法,文獻(xiàn)[14]提出了一種半監(jiān)督聯(lián)邦學(xué)習(xí)系統(tǒng)SSFL,根據(jù)客戶端損失函數(shù)值動態(tài)調(diào)整本地模型在全局模型中所占的權(quán)重。然而,它們中的大多數(shù)都需要客戶機(jī)完全參與或者客戶機(jī)存儲,這些算法在AIoT 實(shí)際場景中可能存在問題。動量是一種加速優(yōu)化的方法,它通過增加慣性來平滑模型更新方向和減少方差,可以提高深度神經(jīng)網(wǎng)絡(luò)(DNN)的收斂速度和測試精度[15-16]。由于動量技術(shù)可平滑模型的更新方向,因此可以潛在地緩解客戶機(jī)漂移問題[17]。目前,已經(jīng)有許多工作研究利用動量技術(shù)來加速FL 的學(xué)習(xí)過程,主要可分為4 類:

1)在客戶端引入動量項(xiàng)的方法,如FedNova[9]、FedNAG[18]和MFL[19]。這類方法通過在客戶端維持一個模型更新方向的動量項(xiàng)來加快客戶端模型的優(yōu)化,提升了本地模型的優(yōu)化速度,但是non-IID 的設(shè)備數(shù)據(jù)可能會讓客戶端漂移的影響更加嚴(yán)重,不適合AIoT 場景。

2)在服務(wù)器引入動量項(xiàng)的方法,如FedAvgM[20]、FedMom[21]和SlowMo[22]。這類方 法通過 在服務(wù) 器維持一個全局模型更新方向的動量來加速全局模型的更新,提升了服務(wù)器模型的訓(xùn)練速度,但也不適合AIoT 場景,因?yàn)樗鼈儧]有修改客戶端的模型更新方向,客戶端漂移現(xiàn)象仍然存在。

3)在客戶端和服務(wù)器都應(yīng)用動量的方法,如STEM[23]。這類方法在服務(wù)器和客戶端都做了加速,但是沒有引入漂移控制的機(jī)制。

4)在服務(wù)器聚合全局梯度信息并發(fā)送給客戶端,在客戶端本地訓(xùn)練時當(dāng)全局動量使用,以修改客戶機(jī)的 模型更 新,如FedADC[17]、FedCM[24]和DOMO[25]。全局梯度信息代表了所有客戶機(jī)的模型更新方向,一定程度上能代表全局?jǐn)?shù)據(jù)分布。這類方法讓客戶機(jī)在本地訓(xùn)練時拿到全局?jǐn)?shù)據(jù)分布的信息,不會過擬合于自己的數(shù)據(jù)分布,緩解了客戶機(jī)漂移問題,保證了低參與率場景下的性能[24],通常很適合AIoT 場景。然而,這類方法仍然有以下不足:AIoT 設(shè)備在本地訓(xùn)練期間無法更新全局動量;經(jīng)過設(shè)備多次模型更新之后,設(shè)備持有的全局動量很快變得陳舊,產(chǎn)生誤差;動量技術(shù)對梯度誤差的魯棒性不強(qiáng),由于誤差累積,其性能可能比經(jīng)典梯度下降(GD)差[26-27]。

將全局梯度信息用來調(diào)整客戶端更新的方法比較適合AIoT 場景,為了彌補(bǔ)現(xiàn)有方法會用到過時動量信息的缺點(diǎn),本文提出一個新的基于全局動量的聯(lián)邦學(xué)習(xí)算法FedCNM。FedCNM 在遠(yuǎn)程云服務(wù)器端聚合全局動量信息,用來初始化AIoT 設(shè)備的本地模型。同時為了消除系統(tǒng)異構(gòu)性帶來的客觀方差,F(xiàn)edCNM 在AIoT 設(shè)備模型訓(xùn)練結(jié)束后對設(shè)備待上傳的累積模型更新量做標(biāo)準(zhǔn)化處理,從而更準(zhǔn)確地近似真實(shí)的全局梯度,同時保證動量技術(shù)的有效性。與現(xiàn)有FL 算法相比,F(xiàn)edCNM 將代表全局模型更新方向的全局動量應(yīng)用在客戶端本地訓(xùn)練之前,避免在本地訓(xùn)練時會用到過時的信息產(chǎn)生誤差,從而緩解客戶機(jī)漂移現(xiàn)象,保證低參與率AIoT 場景下的性能,并且FedCNM 允許快速客戶端比慢速客戶端執(zhí)行多個本地更新,更靈活地支持異構(gòu)AIoT 系統(tǒng)環(huán)境。

1 系統(tǒng)模型

考慮如圖1 所示的系統(tǒng)模型,該模型有N個AIoT 設(shè)備和1 個遠(yuǎn)程云服務(wù)器。這N個通信和計(jì)算資源有限的AIoT 設(shè)備分別擁有本地?cái)?shù)據(jù)集D1,D2,…,Di,…,DN,因 此,全局?jǐn)?shù)據(jù)集D?D1∪D2∪…∪DN。假設(shè)對 于所有i≠j,有Di∩Dj=?,定義數(shù)據(jù)集Di中的樣本個數(shù)為|Di|,其中,|*|表示集合的大小。所有設(shè)備樣本個數(shù)的總和為|D|,其中遠(yuǎn)程云服務(wù)器可以連接所有AIoT 設(shè)備,實(shí)現(xiàn)信息傳輸。

圖1 基于全局動量的FL-AIoT 結(jié)構(gòu)模型Fig.1 FL-AIoT structure model based on global momentum

將遠(yuǎn)程云服務(wù)器的全局損失函數(shù)定義為f(x),其中,x表示模型參數(shù)。不同的機(jī)器學(xué)習(xí)模型對應(yīng)不同的f(x)和x。使用x*表示使f(x)值最小化的最優(yōu)參數(shù)?;谒岢龅哪P?,本文的學(xué)習(xí)問題是最小化f(x),可以表述為:

由于機(jī)器學(xué)習(xí)模型和原始數(shù)據(jù)集的復(fù)雜性,尋找上述優(yōu)化問題的封閉解通常是棘手的。因此,可以在中央服務(wù)器收集所有邊緣設(shè)備的數(shù)據(jù)后,使用基于梯度迭代的算法(GD)來解決式(1)所示的學(xué)習(xí)問題。梯度下降的更新規(guī)則如下:

其中:t表示迭代指數(shù);η>0 表示學(xué)習(xí)率;模型參數(shù)xt沿負(fù)梯度方向更新。使用上述更新規(guī)則,GD 可以通過連續(xù)迭代解決式(1)所示學(xué)習(xí)問題。

動量技術(shù)作為GD 的改進(jìn),引入了動量項(xiàng)[28],更新規(guī)則如下:

其中:Δt是與xt有相同維度的動量項(xiàng);α是動量衰減因子。與GD 相比,通過引入動量項(xiàng),f(x)可以更快地收斂到最小值[29]。

在FL 系統(tǒng)中,每個AIoT 設(shè)備i都有自己的本地模 型,其 中,t表示第t輪通信。將AIoT 設(shè) 備i的 本地?fù)p失函數(shù)定義為fi(x),fi(x)只在Di有定義。因此,F(xiàn)L 的全局損失函數(shù)可以表示為:

當(dāng)t=0 時,遠(yuǎn)程云服務(wù)器初始化模型參數(shù)x0。當(dāng)?shù)趖輪FL 開始時,遠(yuǎn)程云服務(wù)器將全局模型發(fā)送給AIoT 設(shè)備。設(shè)備i根據(jù)其本地?cái)?shù)據(jù)集Di對其本地?fù)p失函數(shù)fi(x)進(jìn)行Ki次模型更新:

所有設(shè)備將其更新后的本地模型上傳至遠(yuǎn)程云服務(wù)器,云服務(wù)器通過加權(quán)平均的方式聚合全局模型:

在文獻(xiàn)[30]中,F(xiàn)L 方法已被證明對于凸優(yōu)化問題具有全局收斂性,并表現(xiàn)出良好的收斂性能。下一節(jié)將介紹本文基于全局動量的FL 算法FedCNM。

2 算法設(shè)計(jì)

在幾乎所有深度學(xué)習(xí)的實(shí)例中,目標(biāo)函數(shù)是參數(shù)的高度非凸函數(shù),在模型參數(shù)空間中可能存在許多不同的次優(yōu)局部極小值??蛻魴C(jī)的模型參數(shù)往遠(yuǎn)離全局模型更新軌跡的方向更新是引發(fā)客戶機(jī)漂移的一個原因。

為了緩解這個問題,本文將全局梯度信息融入到客戶端更新中,以調(diào)整客戶機(jī)的更新方向。具體地,在FedCNM 中,客戶機(jī)i可以通過計(jì)算αKiηlΔt來近似其模型在全局模型更新方向上的下一個位置,利用來初始化客戶機(jī)模型,相當(dāng)于客戶機(jī)i提前應(yīng)用到了未來信息??紤]到FL 的系統(tǒng)異構(gòu)性和客戶端之間的不平衡數(shù)據(jù)量,客戶端的本地更新次數(shù)可能不一樣,會導(dǎo)致目標(biāo)不一致性[9]的問題,即經(jīng)過客戶端次數(shù)不一樣的本地更新后,用標(biāo)準(zhǔn)的平均方法平均模型會使結(jié)果收斂到一個非預(yù)期的平穩(wěn)點(diǎn),對此,本文標(biāo)準(zhǔn)化處理客戶端待上傳的模型改變量,以減少模型更新的方差。圖2 展示了FedCNM 的本地學(xué)習(xí)過程。本文用到的符號在表1中列出進(jìn)行說明。

表1 符號說明Table 1 Symbol description

從式(8)可以看出,F(xiàn)edCNM 在客戶機(jī)的梯度方向上增加了一個修正項(xiàng)αΔt來調(diào)整客戶機(jī)的更新方向,這種提前應(yīng)用Δt計(jì)算模型近似未來位置的梯度來做梯度下降的方式,不會產(chǎn)生隨著客戶端迭代次數(shù)過多Δt變得陳舊的問題。盡管每輪只對所有客戶端的一個子集進(jìn)行采樣,但過去局部更新的梯度信息仍然包含在Δt中,因此,F(xiàn)edCNM 能減少客戶端更新方向與全局方向的偏差,緩解客戶機(jī)漂移問題,且對于聯(lián)邦學(xué)習(xí)客戶機(jī)低參與率具有魯棒性。

在算法1 中,Δt+1是第t輪參與學(xué)習(xí)的客戶機(jī)模型改變量的平均值,用于服務(wù)器模型的更新,其具有以下更新規(guī)則:

從式(10)可以看出,Δt+1是所有客戶機(jī)梯度的指數(shù)移動平均,與傳統(tǒng)優(yōu)化算法里的動量項(xiàng)一致,因此,全局模型的更新方向經(jīng)過動量平滑,潛在地加快收斂。FedCNM 算法在每輪訓(xùn)練開始時會將全局模型和代表全局更新方向的服務(wù)器動量廣播至客戶端,這會增加服務(wù)器到客戶端的通信量,但是客戶端到服務(wù)器的通信量仍保持不變。請注意,如果沒有來自服務(wù)器的附加信息或讓客戶端存儲本地狀態(tài),則不可能消除由于客戶端異構(gòu)而導(dǎo)致的本地梯度更新的偏差。從這個意義上說,如果客戶機(jī)不存儲本地狀態(tài),則不可避免地要使用額外的通信。本文也將在第3 節(jié)指出,盡管FedCNM 每輪的通信量是FedAvg 的1.5 倍,但是在達(dá)到目標(biāo)訓(xùn)練精度時所需的總體通信量仍是少于FedAvg 的。

3 實(shí)驗(yàn)

本節(jié)將模擬各種真實(shí)的AIoT 場景對FedCNM和對比的FL 方法進(jìn)行經(jīng)驗(yàn)評估。與文獻(xiàn)[8,31]一樣,在第3.2、3.3、3.4 節(jié)分別從3 個方面(大規(guī)模設(shè)備、低參與率和Non-IID 數(shù)據(jù))評估FedCNM 的性能,在第3.5 節(jié)評估超參數(shù)α的敏感性,在第3.6 節(jié)評估本地優(yōu)化器對FedCNM 的影響。

3.1 實(shí)驗(yàn)設(shè)置

在CIFIAR-10[32]和CIFAR-100[32]數(shù)據(jù)集 上評估本文算法。為了模擬客戶端數(shù)據(jù)異構(gòu)性,采取與文獻(xiàn)[8]相同的數(shù)據(jù)劃分方式。具體來說,通過將訓(xùn)練數(shù)據(jù)隨機(jī)不替換地分配給客戶端來生成IID 數(shù)據(jù),且劃分的數(shù)據(jù)量是平衡的。對于non-IID 數(shù)據(jù),通過從參數(shù)為{0.3,0.6}的Dirichlet 分布中采樣標(biāo)簽比率來模擬數(shù)據(jù)的異質(zhì)性,同時為了生成不平衡數(shù)據(jù),從對數(shù)正態(tài)分布中采樣數(shù)據(jù)點(diǎn)的數(shù)量,控制對數(shù)正態(tài)分布的方差,得到不平衡數(shù)據(jù)。

將本文方法FedCNM 與幾種先進(jìn)的聯(lián)邦學(xué)習(xí)技術(shù)進(jìn)行比較,這些技術(shù)包括最流行的FL 優(yōu)化算法FedAvg[2]、基于服務(wù)器動量的算法FedAvgm[20]、在客戶端應(yīng)用服務(wù)器動量的算法FedADC[17]、服務(wù)器自適應(yīng)優(yōu)化的方法FedAdam[10]、異構(gòu)優(yōu)化的方法FedProx[7]。本文采 用標(biāo)準(zhǔn)ResNet-18[33]作為所有基準(zhǔn)測試的骨干網(wǎng)絡(luò)。

由于通信成本和最終性能都是FL 的重要指標(biāo),因此與文獻(xiàn)[31]一樣,測量在規(guī)定的輪數(shù)下取得的性能以及算法達(dá)到目標(biāo)精度所需的通信量。不同方法所消耗的通信量不一樣,F(xiàn)edADC 和本文FedCNM算法完成一輪訓(xùn)練需要額外傳輸全局梯度信息,所需通信量是FedAvg 的1.5 倍。對于在最大通信輪內(nèi)無法達(dá)到目標(biāo)精度的方法,本文在通信輪上加一個加號。在本節(jié)中,以模型傳輸次數(shù)作為通信量的單位。

與文獻(xiàn)[7]一樣,通過向不同的客戶端分配不同的工作量來模擬系統(tǒng)異構(gòu)性。在本文模擬中,固定了全局?jǐn)?shù)量的epochs(遍歷其本地?cái)?shù)據(jù)集)E,并在每一輪將x個epochs(從[1,E]之間隨機(jī)均勻選擇)分別分配給選定的設(shè)備。在本文的所有實(shí)驗(yàn)中,E=10。通過在每一輪獨(dú)立于前幾輪的隨機(jī)抽樣來模擬部分參與。將CIFAR-10、CIFAR-100 數(shù)據(jù)集的批大小定為32。在客戶端訓(xùn)練中使用不加動量的SGD 優(yōu)化器,所有方法的學(xué)習(xí)率為0.1,學(xué)習(xí)率采用指數(shù)衰減,衰減參數(shù)從{1.0,0.998,0.995}中選取,施加0.001 的權(quán)重衰減來防止過擬合。此外,還使用梯度裁剪來增加算法的穩(wěn)定性。對于服務(wù)器學(xué)習(xí)率,除了FedAdam 從{1,0.1,0.01}中選擇,其他對比方法的全局學(xué)習(xí)率設(shè)置為1。FedADC 中的α值固定為1,β值從{0.6,0.7,0.8,0.9}中選擇。FedAvgM 的β值 從{0.5,0.7,0.9}中選擇。FedCNM 中 的α值 從{0.1,0.5,0.9,0.95}中選擇。在本文中,F(xiàn)edAdam 中的β1設(shè)置為0.9,β2設(shè)置為0.99,τ值從{1,0.1,0.01,0.001}中選擇。FedProx 中的μ從{0.1,0.01,0.001}中取值。

3.2 中等規(guī)模和大規(guī)模設(shè)備上的性能評估

在本節(jié)中,將研究FedCNM 在具有中等規(guī)模和大規(guī)模設(shè)備下的收斂性能。具體來說,中等規(guī)模有100 個設(shè)備,設(shè)備參與率為10%,大規(guī)模有500 個設(shè)備,設(shè)備參與率為2%,數(shù)據(jù)以Non-IID[Dirichlet(0.3)]方式進(jìn)行劃分。測試精度基于指數(shù)移動平均,參數(shù)為0.9。

圖3 和圖4 分別提供了FedCNM 與對比方法在中等規(guī)模和大規(guī)模下收斂性能的詳細(xì)比較。首先,可以清楚地觀察到,基于動量的算法(Fedadc、Fedavgm 和FedCNM)都能改善FedAvg 的收斂性能。FedCNM 的表現(xiàn)最優(yōu),在所有任務(wù)中都是最佳性能,部分原因是,在FedCNM 中,類似Nesterov’s Acceleration Gradien(tNAG)[34]的動量加速使每個客戶端能夠提前查看全局更新軌跡,并找到全局梯度軌跡附近的局部最小值,從而校準(zhǔn)客戶機(jī)的更新,且提早使用全局動量信息的方法避免了用到過時的全局梯度信息。其次,在大規(guī)模分布實(shí)驗(yàn)中可以觀察到,所有算法的整體性能都比客戶端數(shù)量適中時低。這是因?yàn)?,客戶端?xùn)練數(shù)據(jù)數(shù)量的減少加劇了客戶端漂移。從所花費(fèi)通信量方面來說,在中等規(guī)模CIFAR-10 實(shí)驗(yàn)中,標(biāo)準(zhǔn)FL 方法(FedAvg)實(shí)現(xiàn)79%的模型測試精度需要796 輪,F(xiàn)edCNM 則只需要237 輪,節(jié)約了70.22%的通信成本。從收斂圖中還可以看到,F(xiàn)edProx 的性能與FedAvg 相當(dāng),自適應(yīng)聯(lián)邦優(yōu)化的FedAdam 方法總是需要一個自適應(yīng)的過程(在圖中表現(xiàn)為需要一定輪數(shù)之后才能看到測試精度的提升),在CIFAR-100 數(shù)據(jù)集大規(guī)模分布實(shí)驗(yàn)中,F(xiàn)edAdam 的性能變得不穩(wěn)定,原因可能是極低的參與率使得FedAdam 難以收斂。

圖3 FedCNM 與對比方法在中等規(guī)模設(shè)備下的收斂曲線圖Fig.3 Convergence curves of FedCNM and comparison methods in a moderate number of clients

圖4 FedCNM 與對比方法在大規(guī)模設(shè)備下的收斂曲線圖Fig.4 Convergence curves of FedCNM and comparison methods in a large number of clients

3.3 低參與率場景的性能評估

為了評估FedCNM 在客戶機(jī)低參與率場景下的魯棒性,模擬50 臺設(shè)備不同參與水平的場景。對數(shù)據(jù)以Non-IID[Dirichlet(0.6)]方式進(jìn)行劃分。測試精度基于指數(shù)移動平均,參數(shù)為0.9。

表2 和表3 展示了FedCNM 在不同參與水平下的性能,其中加粗?jǐn)?shù)據(jù)表示最優(yōu)值,下同。雖然由于每輪參與者有限,所有方法在最終輪時的總體精度都有所下降,但在所有基準(zhǔn)任務(wù)上,F(xiàn)edCNM 更有效地整合了來自所有設(shè)備的信息,有效地對齊了服務(wù)器和單個客戶機(jī)的梯度。當(dāng)降低參與水平時,其他方法的測試精度都有明顯下降,而FedCNM 的下降幅度最小。特別是在CIFAR-10 的實(shí)驗(yàn)中,基于動量的算法(FedADC 和FedAvgm)出現(xiàn)了性能惡化,原因可能是它們在本地優(yōu)化過程中用到了過時的全局梯度信息,加劇了客戶機(jī)漂移。

表2 FedCNM 與對比方法在不同參與水平下達(dá)到目標(biāo)精度所需通信量的比較(模型傳輸次數(shù))Table 2 Comparison of the traffic required by FedCNM and comparison methods to achieve target accuracy at different participation levels(number of parameters transmitted)單位:次

表3 FedCNM 與對比方法在不同參與水平下在規(guī)定的輪數(shù)取得性能的比較(測試精度)Table 3 Performance comparison of FedCNM and comparison methods in target rounds at different participation levels(test accuracy)%

3.4 不同數(shù)據(jù)分布場景的評估

在本節(jié)中,研究在不同設(shè)備分布[IID,Dirichle(t0.6),Dirichlet(0.3)]下FedCNM 和對比方法的性能。實(shí)驗(yàn)中,客戶端數(shù)量為200,客戶機(jī)參與水平為5%,測試精度基于指數(shù)移動平均,參數(shù)為0.9,結(jié)果如表4 和表5 所示。當(dāng)數(shù)據(jù)劃分從IID 到Dirichlet 0.6 或者從Dirichlet(0.6)到Dirichlet(0.3)時,數(shù)據(jù)異構(gòu)性變得更加non-IID,這使得全局優(yōu)化問題更加困難。

表4 FedCNM 與對比方法在不同設(shè)備異構(gòu)性下達(dá)到目標(biāo)精度所需通信量的比較(模型傳輸次數(shù))Table 4 Comparison of traffic required by FedCNM and comparison methods to achieve target accuracy with different device heterogeneity(number of parameters transmitted)單位:次

表4 和表5 顯示,隨著客戶機(jī)異構(gòu)性的增加,競爭方法的測試精度都有明顯下降,而對FedCNM 的影響是最小的。例如,在CIFAR-10 實(shí)驗(yàn)中數(shù)據(jù)劃分從IID 到Dirichle(t0.6)時,在通信輪次達(dá)到500 輪時FedCNM 的測試精度下降了0.85%,F(xiàn)edAvg 的測試精度下降了5.07%,F(xiàn)edAdc 的測試精度下降了3.40%。這意味著,F(xiàn)edCNM 對客戶機(jī)異質(zhì)性更為魯棒。

3.5 α 敏感性分析

本節(jié)通過實(shí)驗(yàn)分析FedCNM 算法中唯一與算法相關(guān)的超參數(shù)α對收斂性和性能的影響。在{0,0.3,0.5,0.9,0.95,0.99} 中 給α取值來測試FedCNM,在CIFAR-10 數(shù)據(jù)集上使用Dirichle(t0.6)劃分,100 個客戶機(jī),10%參與率設(shè)置。測試精度如表6 所示。

表6 不同α 值下FedCNM 的測試精度Table 6 Test accuracy of FedCNM under different α values

從表6 中可以發(fā)現(xiàn),F(xiàn)edCNM 在選擇的所有α下都能成功地收斂到平穩(wěn)點(diǎn)。但不同α平穩(wěn)點(diǎn)的泛化能力不同,導(dǎo)致表6 的測試精度不同。注意到α設(shè)置過小或過大都會影響FedCNM 的收斂性和泛化性。α<1 的FedCNM 始終優(yōu)于α=0 對應(yīng)的FedAvg。經(jīng)驗(yàn)上,筆者發(fā)現(xiàn)當(dāng)α設(shè)置為0.9 時,性能最好,這與傳統(tǒng)的動量算法一致。

3.6 不同本地優(yōu)化器影響評估

本節(jié)研究不同本地優(yōu)化器對算法性能的影響,包括施加動量的隨機(jī)梯度下降(SGD+M)、NAG、Adam、AMSGrad。在第3.2~3.4 節(jié)中,實(shí)驗(yàn)使用的是不施加動量的樸素隨機(jī)梯度下降(SGD)優(yōu)化器,因此本節(jié)不報(bào)告SGD 的結(jié)果。在本節(jié)實(shí)驗(yàn)中,客戶機(jī)數(shù)量為100,客戶機(jī)參與率為10%,數(shù)據(jù)集使用CIFAR-10,客戶機(jī)的數(shù)據(jù)劃分方式為Dirichle(t0.3),所有優(yōu)化器的本地學(xué)習(xí)率為0.01,施加0.001 的權(quán)重衰減來防止過擬合,使用梯度裁剪來增加算法的穩(wěn)定性。實(shí)驗(yàn)結(jié)果如圖5 所示。

從圖5 中可以觀察到,F(xiàn)edCNM 在4 種不同本地優(yōu)化器下的性能均優(yōu)于其他對比方法,當(dāng)本地優(yōu)化器使用基于動量的優(yōu)化器(SGD+M、NAG)時,其性能會明顯優(yōu)于其他對比方法,分別提高了10.53%和10.44%的測試精度。此外,當(dāng)本地使用自適應(yīng)的優(yōu)化方法時,會對自適應(yīng)的聯(lián)邦優(yōu)化方法FedAdam 產(chǎn)生影響,500 輪內(nèi)都觀察不到測試精度的提升,可能需要更多的通信輪次,F(xiàn)edAdam 才能發(fā)揮效果。

4 結(jié)束語

本文引入一種新的FL 方法FedCNM,該方法對AIoT 的實(shí)際場景具有較強(qiáng)的魯棒性,其將在服務(wù)器聚合的全局梯度信息嵌入到本地模型的更新過程中,以控制客戶機(jī)漂移。在CIFAR-10 數(shù)據(jù)集和CIFAR-100 數(shù)據(jù)集的圖像分類模型上的實(shí)驗(yàn)結(jié)果表明,所提出的FedCNM 方法在保證了總體通信量不增加的情況下,加速了模型的訓(xùn)練,收斂速度和最終測試精度優(yōu)于對比的FL 方法。FedCNM 在單輪學(xué)習(xí)中引入了額外的通信,通信問題仍然是制約聯(lián)邦學(xué)習(xí)發(fā)展的一個挑戰(zhàn),下一步將從客戶機(jī)分組聚合出發(fā)進(jìn)行通信優(yōu)化研究,進(jìn)一步減少通信量。

猜你喜歡
設(shè)備方法模型
一半模型
諧響應(yīng)分析在設(shè)備減振中的應(yīng)用
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
基于MPU6050簡單控制設(shè)備
電子制作(2018年11期)2018-08-04 03:26:08
3D打印中的模型分割與打包
500kV輸變電設(shè)備運(yùn)行維護(hù)探討
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 久久77777| 久久情精品国产品免费| 欧美日韩一区二区在线播放| 日韩无码黄色网站| 中文字幕欧美成人免费| 亚洲综合久久成人AV| 日本免费a视频| 一级毛片免费观看久| 天堂中文在线资源| 好紧好深好大乳无码中文字幕| h网站在线播放| 久久黄色影院| 亚洲人成成无码网WWW| 青青久久91| 国产三级精品三级在线观看| 精品91视频| 亚洲国产成人麻豆精品| 久久亚洲精少妇毛片午夜无码| 亚洲欧美精品在线| 欧美福利在线| 中文天堂在线视频| 欧美高清国产| 999精品免费视频| 欧美成一级| 国产成人无码久久久久毛片| 欧美特级AAAAAA视频免费观看| 午夜国产精品视频| 五月天久久婷婷| 国产国产人在线成免费视频狼人色| 久久男人视频| 国产激情无码一区二区免费| 国产黑丝视频在线观看| 亚洲三级片在线看| 中文字幕天无码久久精品视频免费 | 青青青国产精品国产精品美女| 国产午夜一级毛片| 黄片在线永久| 无码日韩人妻精品久久蜜桃| 久久精品视频一| 91精品国产一区| 国产精品专区第1页| 亚洲天堂伊人| 国产玖玖玖精品视频| 91蝌蚪视频在线观看| 国产在线无码一区二区三区| 91无码视频在线观看| 精品撒尿视频一区二区三区| 亚洲av无码专区久久蜜芽| 国产情侣一区二区三区| 亚洲成人播放| 国产亚洲日韩av在线| 国产95在线 | 亚洲三级成人| 欧美亚洲国产精品久久蜜芽| 亚洲人成影院在线观看| 国产精品一区二区久久精品无码| 午夜日本永久乱码免费播放片| 久久久波多野结衣av一区二区| 久久久久国色AV免费观看性色| 国产在线观看一区精品| 免费在线色| 亚洲女同一区二区| 在线播放91| 欧美天堂在线| 91青青草视频在线观看的| 亚洲日韩AV无码精品| 一区二区偷拍美女撒尿视频| 97国产在线观看| 综合久久五月天| 亚洲人成网站18禁动漫无码| 欧美专区日韩专区| 欧美精品影院| 久久久久人妻一区精品| 国产丰满大乳无码免费播放| 国产乱子伦手机在线| 日韩在线永久免费播放| 久久午夜夜伦鲁鲁片无码免费| 韩日免费小视频| 亚洲人成影视在线观看| 日本一区高清| 亚洲娇小与黑人巨大交| 国产无码性爱一区二区三区|