基于DBSCAN聚類的聯(lián)邦學(xué)習(xí)算法優(yōu)化

2025-07-06 00:00:00王國明李苗苗

安徽理工大學(xué)學(xué)報(bào)·自然科學(xué)版 2025年2期

關(guān)鍵詞：模型

引文格式：，.基于DBSCAN聚類的聯(lián)邦學(xué)習(xí)算法優(yōu)化[J].理工大學(xué)學(xué)報(bào)（自然科學(xué)版），2025，45（2）：92-99.DOI：10. 3969/j. issn.1672-1098. 2025.02.012

中圖分類號(hào)：TP391 文獻(xiàn)標(biāo)志碼：A 文章編號(hào)：1672-1098（2025）02-0092-08

Federated Learning Algorithm Optimization Based on DBSCAN Clustering WANG Guoming，LI Miaomiao

（School ofComputerScienceandEngineering，Anhui UniversityofScienceand Technology，HuainanAnhui 232Ool，China） Abstract：Objective In federated learning，each node generates its own local data independently，resulting in heterogeneity between the data.During the training，heterogeneity can cause a gradient drift in the local model generated by federated learning，whichdecreases the accuracy and convergence speed of the federated learning model. Methods To address this isse，a federated learning optimization algorithm were introduced based on DBSCAN clustering，denoted as FLDC，which utilized the DBSCAN algorithm for clustering and grouping local clients.The client data distribution within the layer was similar.Additionally，it utilized a hierarchical sampling method to select clients from each layer and created a subset of clients，improving the diversity of training dataand ensuring thatthe clientdata samples in the subset reflected the global data distribution characteristics.Results Experiments on MNIST and CIFAR-1O showed that FLDC achieved 0.29% to 8.38% higheraccuracyand faster convergencecompared to the benchmark algorithm.Conclusion FLDC efectively reduces the impact of heterogeneous data on model performance in heterogeneous scenarios.

Key Words ： machine learning; federated learning; data heterogeneity； clustering

為了應(yīng)對(duì)集中式機(jī)器學(xué)習(xí)中必須要求用戶數(shù)據(jù)共享的挑戰(zhàn)，Google提出了聯(lián)邦學(xué)習(xí)（FederatedLearning，F(xiàn)L）[1]。FL能夠保證各參與方在不共享數(shù)據(jù)的前提下，進(jìn)行隱私保護(hù)下的聯(lián)邦建模[2]然而，由于物聯(lián)網(wǎng)設(shè)備的處理能力和架構(gòu)不同，以及用戶的使用習(xí)慣和個(gè)人愛好不同，這導(dǎo)致了數(shù)據(jù)的非獨(dú)立同分布（NonIndependentandIdenticallyDistribution，Non-IID）性質(zhì)，即數(shù)據(jù)異構(gòu)性。數(shù)據(jù)異構(gòu)場景下的算法優(yōu)化成為FL研究的重要方向之一。在數(shù)據(jù)異構(gòu)環(huán)境下，F(xiàn)L面臨著一系列挑戰(zhàn)，包括客戶端數(shù)據(jù)差異性大、模型不可復(fù)用等問題。文獻(xiàn)[3]提出在中央服務(wù)器上創(chuàng)建一個(gè)與總體分布相同的共享數(shù)據(jù)集，以減輕數(shù)據(jù)異構(gòu)的影響。然而，該方法違背了FL初衷，且存在潛在的用戶隱私泄露風(fēng)險(xiǎn)。文獻(xiàn)「4-6利用全局模型與本地模型的差異性來指導(dǎo)本地模型的更新方向，并且通過控制模型參數(shù)的更新來提高模型準(zhǔn)確度

在FL訓(xùn)練過程中，客戶端的選擇是一個(gè)關(guān)鍵的階段。優(yōu)秀的客戶端意味著他們擁有高質(zhì)量的數(shù)據(jù)樣本，對(duì)全局模型的訓(xùn)練產(chǎn)生更大的貢獻(xiàn)，從而加速模型的收斂速度。因此，越來越多的研究人員開始選擇對(duì)FL的客戶端選擇進(jìn)行優(yōu)化。文獻(xiàn)[7]提出一種基于客戶端信息更新量的客戶端選擇策略，在通信受限的情況下選擇具有顯著權(quán)重更新的客戶端子集，保證模型精度的同時(shí)，減少不必要的通信；文獻(xiàn)[8-9]通過制定一種標(biāo)準(zhǔn)來篩選能夠執(zhí)行FL任務(wù)的客戶端;文獻(xiàn)[10]提出一種基于多標(biāo)準(zhǔn)的客戶端選擇方法FedMCCS，評(píng)估所有客戶端的CPU、內(nèi)存、能耗和時(shí)間資源；文獻(xiàn)［11-12]提出個(gè)性化處理方法，為客戶端設(shè)備生成多個(gè)全局模型，然而該方法并不適用于只需要單個(gè)模型的場景；文獻(xiàn)[13-14]提出通過對(duì)客戶端節(jié)點(diǎn)聚類的方式將各節(jié)點(diǎn)劃分到不同的簇中，提升簇內(nèi)數(shù)據(jù)的相似度，為每個(gè)聚簇訓(xùn)練一個(gè)模型，減輕了數(shù)據(jù)不同分布帶來的影響；文獻(xiàn)［15]提出使用K-Means方法進(jìn)行聚類分簇的客戶端選擇方法，然而使用K-Means聚類方法無法排除離群點(diǎn)的干擾，可能受到惡意節(jié)點(diǎn)的攻擊。

因此，提出一種基于DBSCAN聚類的聯(lián)邦學(xué)習(xí)算法優(yōu)化（federated learning algorithm optimiza-tion based on DBSCAN clustering，F(xiàn)LDC），依據(jù)客戶端的數(shù)據(jù)分布特征將所有客戶端劃分到不同的邏輯層，并從每個(gè)層中選取一定比例的客戶端參加訓(xùn)練。這種方法可以更精確地反應(yīng)全局?jǐn)?shù)據(jù)的分布情況，使參與訓(xùn)練的客戶端數(shù)據(jù)分布更加均勻和多樣化，提高全局模型的效果并加快收斂速度。

基于聚類分層的聯(lián)邦學(xué)習(xí)算法

1.1 DBSCAN聚類算法

DBSCAN[16]（Density - Based Spatial ClusteringofApplicationswithNoise）是一種常用的基于密度的聚類算法。該算法將具有足夠密度的區(qū)域劃分為簇，能夠在具有噪聲的空間數(shù)據(jù)庫中發(fā)現(xiàn)任意形狀和大小的簇，并且能夠識(shí)別和標(biāo)記離群點(diǎn)

定義1（Eps 鄰域） q 為給定空間中的兩點(diǎn)， p 的Eps 鄰域點(diǎn)集表示為 N_Eps（p）。

（1）式中， D 為樣本數(shù)據(jù)集， dist（p，q）為 p 與 q 之間的距離。

定義2（密度閾值 MinPtsΩ）一個(gè)點(diǎn)的鄰域中必須包含的最少數(shù)據(jù)點(diǎn)數(shù)量為 MinPts 。

定義3（核心點(diǎn)和邊界點(diǎn)）如果 p 在其Eps 鄰域內(nèi)所包含的點(diǎn)個(gè)數(shù)大于密度閾值 MinPts ，即 N_Eps （p）?MinPts ，則稱 p 為核心點(diǎn);如果 N_Eps（p）lt; MinPts ，但 p 在某個(gè)核心點(diǎn)的 Eps 鄰域內(nèi)，則稱 p 為邊界點(diǎn)。在圖1中，若 MinPts=6 ，Eps為 r，p 就是核心點(diǎn)， q 就是邊界點(diǎn)。

Eps和MinPts兩個(gè)參數(shù)的選擇對(duì)DBSCAN算法的聚類效果至關(guān)重要。因此，為了確保實(shí)驗(yàn)的準(zhǔn)確性和一致性，為達(dá)到最佳聚類效果，將MinPts統(tǒng)一設(shè)定為4。Eps參數(shù)則是通過繪制 k -dist圖來確定。k-dist圖是一種用于可視化數(shù)據(jù)集中數(shù)據(jù)點(diǎn)之間距離關(guān)系的圖形表示方法。具體來說，可以計(jì)算出每個(gè)點(diǎn)到距其第 k 近的點(diǎn)的距離，然后將這些距離按降序或升序排序后繪制變化曲線圖，拐點(diǎn)處對(duì)應(yīng)的距離即為Eps的值（見圖2）。

如圖2所示，將MNIST數(shù)據(jù)集分配給100個(gè)客戶端，并進(jìn)行了一次本地訓(xùn)練。隨后，整理了包含本地?cái)?shù)據(jù)特征的100個(gè)局部模型參數(shù)，并繪制出對(duì)應(yīng)的 k -dist圖。圖2中橫坐標(biāo)表示距離的序號(hào)，縱坐標(biāo)表示距離的值。通過觀察圖中的拐點(diǎn)，確定其對(duì)應(yīng)的縱坐標(biāo)Eps值是1.59。

K-means聚類方法相比，DBSCAN算法無需預(yù)先設(shè)定簇的數(shù)量，并且具備識(shí)別噪聲數(shù)據(jù)的能力，相較于層次聚類，DBSCAN的計(jì)算復(fù)雜度更低，且其參數(shù)設(shè)置更為直觀，易于理解和調(diào)整。因此，結(jié)合FLDC算法的研究場景，選擇DBSCAN算法作為聚類方法。

1. 2 聯(lián)邦學(xué)習(xí)框架

聯(lián)邦學(xué)習(xí)的計(jì)算環(huán)境通常包括中央服務(wù)器（Server）、參與方（Client）和所屬的本地?cái)?shù)據(jù)（Da-ta）。聯(lián)邦學(xué)習(xí)的基本框架圖如圖3所示，其執(zhí)行過程可概括為：

1）模型初始化中央服務(wù)器初始化全局模型，并下發(fā)給所有參與方；2）局部模型更新參與方接收中央服務(wù)器共享的全局模型參數(shù)，利用本地?cái)?shù)據(jù)進(jìn)行訓(xùn)練，更新局部模型;

3）局部模型上傳參與方將更新后的局部模型參數(shù)上傳給中央服務(wù)器，等待下一步的聚合操作；

4）全局模型聚合中央服務(wù)器收集所有上傳的局部模型信息，加權(quán)求和更新全局模型，將新的全局模型參數(shù)分發(fā)給下一輪參與訓(xùn)練的參與方。重復(fù)此過程，直至訓(xùn)練出符合要求的全局模型

在這個(gè)過程中，每個(gè)參與方根據(jù)各自擁有的本地?cái)?shù)據(jù)獨(dú)立訓(xùn)練，互不干擾。除了接受來自中央服務(wù)器下發(fā)的全局參數(shù)，參與方之間不能共享數(shù)據(jù)信息，在一定程度上保護(hù)了參與方數(shù)據(jù)的隱私安全。

1.3基于聚類分層的客戶端選擇

傳統(tǒng)的聯(lián)邦學(xué)習(xí)算法通過隨機(jī)選擇獲得的客戶端數(shù)據(jù)無法準(zhǔn)確地反映整體數(shù)據(jù)的分布特性，進(jìn)而影響了聯(lián)邦學(xué)習(xí)訓(xùn)練的質(zhì)量。為了實(shí)現(xiàn)客戶端采樣的均衡性，提出采用DBSCAN算法進(jìn)行聚類，并結(jié)合分層選擇策略來進(jìn)一步優(yōu)化客戶端的篩選流程。

首先，所有參與方在獲得初始化模型后，根據(jù)各自擁有的數(shù)據(jù)進(jìn)行一次訓(xùn)練，得到含有本地?cái)?shù)據(jù)特征的局部模型，并將模型參數(shù)信息上傳至中央服務(wù)器。隨后，服務(wù)器采用DBCSCAN算法執(zhí)行聚類分層，得到所有參與方的層標(biāo)簽列表，并根據(jù)這些標(biāo)簽將所有參與方劃分為不同的層。在每個(gè)通信輪次內(nèi)，每個(gè)層按照一定比例隨機(jī)選擇一部分客戶端，形成參與訓(xùn)練的客戶端子集。最后，服務(wù)器采用加權(quán)聚合的方法更新全局模型（見圖4）。

整個(gè)流程如算法1所示。

算法1FLDC算法

輸入客戶端集合 s ，客戶端本地?cái)?shù)據(jù) X ，通信輪次 C ，本地訓(xùn)練輪次 E ，客戶端參與比例 r ，初始化全局模型 w⁰ 。

輸出全局模型 w_t 服務(wù)器端*／

1.for each client k∈S in parallel do 2. w^k← ClientUpata （X_k，w⁰） //客戶端更新本

地模型 3.

//DBSCAN聚類分層 4.while C-1gt;0 do//每個(gè)通信輪次，按層隨

機(jī)選擇 5.for each T_i∈T do//T為層集合 6. nums max（r?T_i，1）（204 7. S_t← random subset of nums clients in T_i//S_t

為參與訓(xùn)練的客戶端子集 8.for each client k∈S_t in parallel do 9.

10. /加權(quán)聚合全局模型， n 為總數(shù)據(jù)量， n_k 為客戶端 k 的數(shù)據(jù)量

/*客戶端*/

11.ClientUpdata （X_k，w） //執(zhí)行本地更新

12. β← （ split X_k into batches of size B ）

13.for each local epoch e from 1 to E do

14.for batch b∈β do

15. ww-η?L（w;b） //

16. Return w to server

步驟 1～步驟10是在服務(wù)器端執(zhí)行的操作；步驟1、2是服務(wù)器下發(fā)初始化模型，客戶端收到初始化模型后，根據(jù)本地?cái)?shù)據(jù)執(zhí)行一次局部模型更新，并將更新后的模型參數(shù)上傳到服務(wù)器；步驟3中服務(wù)器采用DBSCAN算法執(zhí)行聚類操作，將客戶端劃分到不同的邏輯層中；步驟4＼～步驟7，在每個(gè)層中按照比例 r 隨機(jī)選擇客戶端，組成客戶端子集；步驟8＼～步驟10中服務(wù)器接收來自客戶端子集的模型更新參數(shù)，并采用加權(quán)平均的方式聚合成為全局模型，步驟 11～步驟16是在客戶端執(zhí)行的操作。被選中參與訓(xùn)練的客戶端根據(jù)各自的本地?cái)?shù)據(jù)進(jìn)行多輪迭代學(xué)習(xí)和訓(xùn)練，并將更新后的模型參數(shù)發(fā)送回服務(wù)器

2 實(shí)驗(yàn)結(jié)果及分析

2.1 數(shù)據(jù)集和模型

1）MNIST數(shù)據(jù)集包含10個(gè)類別，共計(jì)70000個(gè)樣本，每個(gè)類別包含7000個(gè)樣本，其中6000個(gè)用于訓(xùn)練，1000個(gè)用于測試。每個(gè)樣本都是一張28×28 像素的黑底白字的手寫數(shù)字圖片。在MNIST數(shù)據(jù)集上，采用由1個(gè)卷積層、1個(gè)最大池化層和3個(gè)全連接層組成的神經(jīng)網(wǎng)絡(luò)模型。

2）CIFAR-10數(shù)據(jù)集包含10個(gè)類別，共計(jì)60000個(gè)樣本，每個(gè)類別包含6000個(gè)樣本，其中5000個(gè)用于訓(xùn)練，1000個(gè)用于測試。每個(gè)樣本都是一張 32×32 像素的RGB圖像。在CIFAR-10數(shù)據(jù)集上，采用由2個(gè)卷積層、2個(gè)平均池化層和2個(gè)全連接層組成的神經(jīng)網(wǎng)絡(luò)模型。

2.2 實(shí)驗(yàn)設(shè)置

為了驗(yàn)證所提算法在異構(gòu)環(huán)境下的有效性，實(shí)驗(yàn)選擇FedAvg[17]、FedProx、IFCA[18]作為對(duì)比算法。其中，F(xiàn)edAvg算法是經(jīng)典的聯(lián)邦學(xué)習(xí)算法，采用隨機(jī)選擇客戶端的方式進(jìn)行聯(lián)邦訓(xùn)練；FedProx算法是一個(gè)基于FedAvg的優(yōu)化框架，在本地增加了一個(gè)近端項(xiàng)，用來強(qiáng)制減少局部模型和全局模型之間的模型差異；IFCA算法是一個(gè)迭代式聯(lián)邦聚類算法。

為了模擬實(shí)驗(yàn)所需的客戶端數(shù)據(jù)異構(gòu)分布，采用狄利克雷分布（Dirichletdistribution）對(duì)數(shù)據(jù)集進(jìn)行劃分。在狄利克雷分布中，參數(shù) ∝ 的取值會(huì)影響概率密度函數(shù)的形狀。在實(shí)驗(yàn)中，當(dāng) α 接近1時(shí)，數(shù)據(jù)分布越趨向于均勻分布，當(dāng) α 接近0時(shí)，則趨向于非獨(dú)立同分布。實(shí)驗(yàn)設(shè)置了3個(gè)不同的 α 值 α=1，α=0.7 和 α=0.3 以評(píng)估算法在同構(gòu)數(shù)據(jù)和不同程度異構(gòu)數(shù)據(jù)上的性能表現(xiàn)

參數(shù)設(shè)置如下：實(shí)驗(yàn)中共涉及100個(gè)客戶端，每輪參與訓(xùn)練的客戶端比例為0.2，batchsize設(shè)定為64，epochs設(shè)定為5，學(xué)習(xí)率設(shè)為0.01。對(duì)比實(shí)驗(yàn)中，在MNIST數(shù)據(jù)集上的通信輪次為50，CI-FAR-10數(shù)據(jù)集上的通信輪次為100。

2.3 實(shí)驗(yàn)結(jié)果及分析

數(shù)據(jù)異構(gòu)環(huán)境下，聯(lián)邦學(xué)習(xí)中的客戶端各自擁有本地?cái)?shù)據(jù)，基于本地?cái)?shù)據(jù)的局部模型在迭代過程中會(huì)朝著不同的更新方向移動(dòng)，導(dǎo)致聚合后的全局模型準(zhǔn)確率降低。在本實(shí)驗(yàn)中，針對(duì)兩個(gè)不同的數(shù)據(jù)集，分別模擬了3種不同的數(shù)據(jù)分布場景。通過實(shí)施多輪迭代訓(xùn)練，收集了4種算法在全局模型訓(xùn)練上的性能表現(xiàn)，結(jié)果如表1和表2所示。由表1MNIST數(shù)據(jù)集上4種算法的全局模型測試精度隨著 α 的增加而減小。同時(shí)，由表2CIFAR-10數(shù)據(jù)集上4種算法的全局模型測試精度也會(huì)隨著 α 的增加而減小。與MNIST數(shù)據(jù)集不同的是，由于CI-FAR-10數(shù)據(jù)集噪聲更大，因此其分類準(zhǔn)確率較低。在MNIST數(shù)據(jù)集上， α 從1減少到0.3時(shí)，F(xiàn)edAvg、FedProx、IFCA算法的模型精度分別下降了 6.56%.5.05%.4.28% ，F(xiàn)LDC僅下降了 3.55% ：在CIFAR-10數(shù)據(jù)集上， α 從1減少到0.3時(shí)，F(xiàn)edAvg、FedProx、IFCA算法的模型精度分別下降了4.22%.4.96%.4.54% ，F(xiàn)LDC僅下降了 3.35% 。

綜合實(shí)驗(yàn)結(jié)果，與其他3種算法相比，F(xiàn)LDC在2種數(shù)據(jù)集上的分類準(zhǔn)確度都取得了最高值，證明了提出算法的有效性。這是因?yàn)镕LDC采用DBSCAN算法聚類分層后，并不是為每層訓(xùn)練一個(gè)模型，而是從每層選擇客戶端，利用所有被選擇客戶端的數(shù)據(jù)訓(xùn)練一個(gè)全局模型。這種方式確保了訓(xùn)練數(shù)據(jù)的分布特征具有全局代表性，豐富的數(shù)據(jù)能夠有效提升訓(xùn)練模型的泛化性，減少異構(gòu)數(shù)據(jù)帶來的影響，從而提高FLDC的模型效果。

α=0.3 時(shí)，4種算法在MNIST數(shù)據(jù)集上的全局模型準(zhǔn)確度隨通信輪次的變化趨勢見圖5， α= 0.3時(shí)，4種算法在CIFAR-10數(shù)據(jù)集上的全局模型準(zhǔn)確度隨通信輪次的變化趨勢見圖6。可以看出，與FedAvg、FedProx、IFCA算法相比，F(xiàn)LDC擁有更高的穩(wěn)定性和更快的收斂速度。相較于MNIST數(shù)據(jù)集，4種算法在CIFAR-10數(shù)據(jù)集上的波動(dòng)幅度更為顯著，這是因?yàn)樵谠肼曒^多的情況下，模型的參數(shù)更新會(huì)出現(xiàn)較大的波動(dòng)，導(dǎo)致模型準(zhǔn)確度隨通信輪次的變化波動(dòng)增大。相較于其他3種算法，F(xiàn)LDC使用的DBSCAN算法在聚類分層過程中會(huì)將數(shù)據(jù)質(zhì)量較差的客戶端標(biāo)記為噪聲點(diǎn)，在選擇客戶端時(shí)不予考慮。這一機(jī)制確保了每次局部更新時(shí)，訓(xùn)練輪次中的客戶端子集都擁有均勻多樣且高質(zhì)量的數(shù)據(jù)樣本，從而有效提升了全局模型的穩(wěn)定性和收斂速度。

在進(jìn)行模型的算法開銷分析時(shí)，考察了Fe-dAvg、FedProx、IFCA和FLDC4種算法在達(dá)到特定目標(biāo)準(zhǔn)確度時(shí)所需的通信輪數(shù)。表3展示了這些算法在MNIST數(shù)據(jù)集上達(dá)到 84% 準(zhǔn)確度以及在CIFAR-10數(shù)據(jù)集上達(dá)到 42% 準(zhǔn)確度時(shí)的通信輪數(shù)需求。結(jié)果表明，F(xiàn)LDC算法在MNIST數(shù)據(jù)集上僅需12輪通信即可實(shí)現(xiàn) 84% 的準(zhǔn)確度，而在CI-FAR-10數(shù)據(jù)集上，F(xiàn)LDC同樣展現(xiàn)出較低的通信輪數(shù)需求。

相比之下，F(xiàn)edAvg和FedProx算法沒有特別針對(duì)異構(gòu)環(huán)境進(jìn)行優(yōu)化，所以需要更多的通信輪次來達(dá)到相同的準(zhǔn)確度。IFCA算法需要在每輪迭代中進(jìn)行模型聚類和選擇，這會(huì)導(dǎo)致更多的通信和計(jì)算資源消耗。FLDC算法的主要優(yōu)勢在于只需要進(jìn)行一次聚類分層，有效減少了不必要的通信和計(jì)算開銷。在CIFAR-1O數(shù)據(jù)集上FLDC算法達(dá)到42% 模型精度所需的通信輪數(shù)僅比IFCA算法少一輪。這表明，在處理更復(fù)雜的數(shù)據(jù)集時(shí)，其計(jì)算效率仍有待提高。

2.4 消融實(shí)驗(yàn)

1）最優(yōu)聚類算法DBSCAN 算法與K-means算法是2種常用的聚類方法，通過對(duì)這兩種算法的聚類效果進(jìn)行深入分析，以確定最適合本課題研究需求的聚類方法。圖7呈現(xiàn)了在 α 值分別設(shè)定為0.7和0.3的條件下，CIFAR-10數(shù)據(jù)集被分配給100個(gè)客戶端后，前20個(gè)客戶端的數(shù)據(jù)分布情況。可以看出，隨著數(shù)據(jù)異構(gòu)性的增強(qiáng)，客戶端之間的數(shù)據(jù)分布呈現(xiàn)出更加顯著的不均勻性。

圖7不同異構(gòu)設(shè)置下的前20個(gè)客戶端的數(shù)據(jù)標(biāo)簽分布

圖8DBSCAN算法和K-means算法在CIFAR-10數(shù)據(jù)集上的聚類結(jié)果統(tǒng)計(jì)（ α=0.7 ）

之后，分別應(yīng)用DBSCAN算法和 K- means算法對(duì)100個(gè)客戶端進(jìn)行聚類分層。圖8的子圖（a）和圖8（b）分別呈現(xiàn)了 α=0.7 時(shí)DBSCAN算法和K-means算法的聚類結(jié)果統(tǒng)計(jì)。

圖8（a）中DBSCAN算法將100個(gè)客戶端劃分為“0”“1”、“2”、“3”4個(gè)不同的類別，標(biāo)記為“-1”的類別代表異常數(shù)據(jù)點(diǎn)。類別“2”的客戶端數(shù)據(jù)點(diǎn)表現(xiàn)出較高的密度，這是因?yàn)樵?α=0.7 時(shí)，狄利克雷分布導(dǎo)致的客戶端數(shù)據(jù)傾向于均勻分布。這種分布特性導(dǎo)致大部分客戶端的數(shù)據(jù)具有相似的特征，DBSCAN算法在聚類過程中會(huì)把它們歸為同一類別。依據(jù)DBSCAN算法的聚類結(jié)果，將K-means算法簇的數(shù)量（ K 值）設(shè)置為4，圖8（b）中展示了聚類后的客戶端類別統(tǒng)計(jì)。相比之下，K-means算法雖然能夠?qū)?shù)據(jù)點(diǎn)分配到不同的簇中，但它缺乏對(duì)噪聲點(diǎn)的識(shí)別和標(biāo)記功能。此外，K-means算法要求用戶預(yù)先設(shè)定簇的數(shù)量，并且往往需要通過多次試驗(yàn)來調(diào)整 K 值，以達(dá)到最佳的聚類效果，這一過程可能會(huì)消耗大量的計(jì)算資源

為了量化評(píng)估兩種算法的聚類效果，采用輪廓系數(shù)作為評(píng)價(jià)指標(biāo)。如表4所示，在兩種不同的數(shù)據(jù)異構(gòu)條件下，DBSCAN算法的平均輪廓系數(shù)分別為0.65和0.62，均比K-means算法的0.62和0.61更接近于1。綜合考慮聚類效果和計(jì)算效率，選擇DBSCAN算法作為本課題的聚類方法

2）最優(yōu)Eps參數(shù)值DBSCAN 算法無需預(yù)先指定聚類數(shù)量，簇的數(shù)量直接由算法運(yùn)行后的結(jié)果確定。而DBSCAN算法的聚類效果在很大程度上依賴于兩個(gè)關(guān)鍵參數(shù)：Eps（鄰域半徑）和MinPts（最小點(diǎn)數(shù)）。為了驗(yàn)證通過繪制 k -dist圖計(jì)算的Eps值最佳，采用輪廓系數(shù)評(píng)估不同Eps值設(shè)置下DBSCAN算法的聚類效果。

實(shí)驗(yàn)基于CIFAR-10數(shù)據(jù)集進(jìn)行。在 α=0.7 時(shí)，通過k-dist圖得到的Eps值為1.49，人為設(shè)置了4個(gè)不同的Eps值（1.29，1.39，1.59，1.69）進(jìn)行對(duì)比實(shí)驗(yàn)。同樣，在 α=0.3 的條件下， k-dist 圖得到的Eps值為1.59，也設(shè)置了4個(gè)Eps值（1.39，1.49，1.69，1.79）作為對(duì)比。實(shí)驗(yàn)結(jié)果的平均輪廓系數(shù)分別記錄在表5中。實(shí)驗(yàn)數(shù)據(jù)表明，兩種異構(gòu)條件下，Eps的值分別為1.49和1.59時(shí)，計(jì)算出的平均輪廓系數(shù)最接近理想值1。這說明通過繪制 k -dist圖計(jì)算Eps參數(shù)值是合理的，能夠確保DBSCAN算法在不同數(shù)據(jù)分布條件下均能獲得最佳的聚類效果。

3 總結(jié)與展望

針對(duì)聯(lián)邦學(xué)習(xí)在異構(gòu)環(huán)境中模型精度下降的問題，提出了一種基于DBSCAN聚類的聯(lián)邦學(xué)習(xí)優(yōu)化算法FLDC。在聯(lián)邦學(xué)習(xí)的客戶端選擇階段，該算法采用DBSCAN算法對(duì)客戶端節(jié)點(diǎn)聚類分層，通過分層抽樣提高訓(xùn)練中客戶端數(shù)據(jù)的多樣性，減少異構(gòu)數(shù)據(jù)對(duì)模型性能的影響。實(shí)驗(yàn)結(jié)果表明，F(xiàn)LDC算法具有較高的模型精度，并且擁有更高的穩(wěn)定性和收斂速度。

然而，隨著大數(shù)據(jù)時(shí)代的發(fā)展，聯(lián)邦學(xué)習(xí)面臨的數(shù)據(jù)環(huán)境會(huì)更加多變，在未來的工作中，將關(guān)注如何在聯(lián)邦學(xué)習(xí)的全局模型聚合階段縮小局部模型的更新梯度差異，以及權(quán)重合理分配的問題，從多方面優(yōu)化聯(lián)邦學(xué)習(xí)算法的性能

參考文獻(xiàn)：

[1] 肖雄，唐卓，肖斌，等.聯(lián)邦學(xué)習(xí)的隱私保護(hù)與安全防御研究綜述[J].計(jì)算機(jī)學(xué)報(bào)，2023，46（5）：1019-1044.

[2] 王健宗，孔令煒，黃章成，等.聯(lián)邦學(xué)習(xí)隱私保護(hù)研究進(jìn)展[J].大數(shù)據(jù)，2021，7（3）：130-149.

[3] ZHAO Y，LI M，LAI L，et al.Federated learning with non-iid data[J/OL].arXiv.org，2022.[2022-7-21]. https：//arxiv. org/abs/1806.00582.

[4] LI T，SAHU A K，ZAHEER M，etal. Federated optimization in heterogeneous networks[J/OL].arXiv. org，2022.[2020- 4-21]. https：//arxiv. org/abs/1812.06127.

[5] KARIMIREDDY S，KALE S，MOHRI M，et al. SCAFFOLD：stochastic controlled averaging for federated learning[C]//Proceedings of the 37th International Conference on Machine Learning. New York： ACM， 2020：5 132-5143.

[6] 陸曉.一種提高聯(lián)邦學(xué)習(xí)準(zhǔn)確度的算法[J].信息技術(shù)與信息化，2023（8）：180-183.

[7] RIBEROM，VIKALOH.Communication-efficientfederated learning via optimal client sampling[J/OL]. arXiv. org，2022.[2020-7-13]. https：//arxiv.org/abs/2007. 15197.

[8] ZHENG C，AHSAN A，SYED Z，et. al. TiFL：a tierbased federated learning system[C]//Proceedings of the 29th International Symposium on High-Performance Parallel and Distributed Computing. New York： ACM， 2020：125-136.

[9]NISHIO T，YONETANI R. Client selection for federated learning with heterogeneous resources in mobile edge [C]// 2019 IEEE International Conference on Communications. Singapore： IEEE，2019：1-7.

[10]ABDULRAHMAN S，TOUT H，MOURAD A，et al. FedMCCS：multicriteria client selection model for optimal IoT federated learning[J].IEEE Internet of Things Journal，2021，8（6）：4 723-4 735.

［11］夏雨，崔文泉.基于Reptile的個(gè)性化聯(lián)邦學(xué)習(xí)算法 [J].計(jì)算機(jī)系統(tǒng)應(yīng)用，2022，31（12）：294-300.

[12] 倪宣明，沈鑫圓，張海.面向異構(gòu)數(shù)據(jù)的自適應(yīng)個(gè)性化聯(lián) 邦學(xué)習(xí)- 一種基于參數(shù)分解和持續(xù)學(xué)習(xí)的方法[J]. 中國科學(xué)：信息科學(xué)，2022，52（12）：2306-2 320.

[13］魯晨陽，鄧蘇，馬武彬，等.基于DBSCAN聚類的集群聯(lián)邦學(xué)習(xí)方法[J].計(jì)算機(jī)科學(xué)，2022，49（S1）： 232-237.

［14］常黎明，劉顏紅，徐恕貞.基于數(shù)據(jù)分布的聚類聯(lián)邦學(xué) 習(xí)[J].計(jì)算機(jī)應(yīng)用研究，2023，40（6）：1697-1701.

[15]MUHAMMAD K，WANG Q，TRAGOS E，et al. FedFast： going beyond average for faster training of federated recommender systems[C]//Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Virtual：ACM SIGKDD， 2020：1 234-1 242.

[16]陳葉旺，曹海露，陳誼，等.面向大規(guī)模數(shù)據(jù)的DBSCAN加速算法綜述［J].計(jì)算機(jī)研究與發(fā)展，2023， 60（9）：2 028-2 047.

[17]BRENDAN M H，MOORE E，RAMAGE D，et al. Communication-efficient learning of deep networks from decentralized data[C]//Proceedings of the 2Oth International Conference on Artificial Intelligence and Statistics. Fort Lauderdale：JMLR，2017：1 273-1 282.

[18]GHOSH A，CHUNG J，YIN D，et al. An efficient framework for clustered federated learning[J]. IEEE Transactions on Information Theory，2022，68（12）：8 076-8 091.

（責(zé)任編輯：李麗）