孫躍杰,趙國生,廖祎瑋
(哈爾濱師范大學(xué) 計算機科學(xué)與信息工程學(xué)院,哈爾濱 150025)
深度學(xué)習(xí)技術(shù)蓬勃發(fā)展至今,能否獲取足夠的高質(zhì)量樣本數(shù)據(jù)是制約其發(fā)展速度的重要因素之一.由于數(shù)據(jù)安全、競爭關(guān)系等因素,獲取數(shù)據(jù)過程中出現(xiàn)了嚴(yán)重的數(shù)據(jù)孤島問題,并且在數(shù)據(jù)的集中過程中還存在數(shù)據(jù)泄漏的風(fēng)險.因此聯(lián)邦學(xué)習(xí)(Federated Learning,FL)作為新興的分布式機器學(xué)習(xí)范式應(yīng)運而生[1].它使得各個參與方可以在不泄露底層數(shù)據(jù)的前提下共同建立模型,適用于訓(xùn)練數(shù)據(jù)涉及敏感信息以及數(shù)據(jù)量過大無法集中收集的情況.然而,當(dāng)客戶參與聯(lián)邦學(xué)習(xí)時,會不可避免的消耗他們的設(shè)備資源,同時客戶也承擔(dān)著一定的安全風(fēng)險,因此對聯(lián)邦學(xué)習(xí)激勵機制的研究一直是當(dāng)下的熱點.
區(qū)別于博弈論的一次直接達(dá)到納什均衡,演化博弈論的行為主體在演化過程中會動態(tài)修正自己的行為,在多次博弈之后達(dá)到均衡.據(jù)此而建立的聯(lián)邦學(xué)習(xí)激勵機制更切合實際并且更加有助于聯(lián)邦的長期穩(wěn)定發(fā)展.
本文將演化博弈中的“適者生存”的基本思想運用到聯(lián)邦學(xué)習(xí)當(dāng)中,將演化穩(wěn)定策略(Evolutionary Stabilization Strategies,ESS)與復(fù)制動態(tài)方程(Copy Dynamic Equations,CDE)相結(jié)合,提出了一種演化均衡的聯(lián)邦學(xué)習(xí)激勵機制(Evolutionary Balanced Federated Learning Incentive Mechanism,EBFLIM).本文的主要貢獻(xiàn)如下:
1)通過模型質(zhì)量評估算法評估聯(lián)邦參與者提交模型的質(zhì)量同時量化其訓(xùn)練成本,并對低質(zhì)量模型提交進(jìn)行篩除,以提升聯(lián)邦任務(wù)的完成效果.
2)提出了一種演化均衡的聯(lián)邦學(xué)習(xí)激勵機制EBFLIM,克服了聯(lián)邦學(xué)習(xí)中參與者虛報訓(xùn)練成本造成的激勵不匹配問題,實現(xiàn)了對聯(lián)邦學(xué)習(xí)激勵機制的優(yōu)化.
本文其余部分組織如下:第1節(jié)總結(jié)與聯(lián)邦學(xué)習(xí)激勵機制和演化博弈論相關(guān)的研究工作;第2節(jié)提出面向聯(lián)邦學(xué)習(xí)激勵優(yōu)化的演化博弈模型;第3節(jié)針對本文提出的優(yōu)化方法進(jìn)行仿真實驗;第4對本文進(jìn)行總結(jié)并交代下一步工作.
為了聯(lián)邦激勵能夠更合理的覆蓋參與者的資源消耗,吸引更多高質(zhì)量數(shù)據(jù)用戶加入聯(lián)邦,已有很多學(xué)者投入了聯(lián)邦學(xué)習(xí)激勵機制的研究.Tang等人[2]針對組織異質(zhì)性和公共產(chǎn)品特性提出了社會福利最大化問題,并提出了一種針對cross-silo FL的激勵機制,同時提出了一種分布式算法,使組織能夠在不知道彼此的估值和成本的情況下最大化社會福利.Yu等人[3]為了解決訓(xùn)練成本和激勵之間暫時不匹配的問題,提出了聯(lián)邦激勵機制,通過上下文感知的方式將給定的預(yù)算進(jìn)行動態(tài)劃分,最大化集體效用,同時最小化數(shù)據(jù)所有者之間的不平等.Ding等人[4]針對non-IID數(shù)據(jù)進(jìn)行了最優(yōu)契約設(shè)計.契約規(guī)定了每一個類型用戶參與聯(lián)邦學(xué)習(xí)能夠獲得的獎勵并且會給到服務(wù)器更偏好的用戶類型更高的獎勵,從而達(dá)到激勵相對高效、低成本用戶參與聯(lián)邦學(xué)習(xí)的目的.Bai等人[5]首先構(gòu)建眾包系統(tǒng)的激勵模型.其次,結(jié)合反向拍賣和VCG拍賣的概念,提出了一種基于拍賣的激勵機制.Sun等人[6]首先考慮了空地網(wǎng)絡(luò)的動態(tài)數(shù)字孿生和聯(lián)合學(xué)習(xí),其次基于 Stackelberg 博弈設(shè)計聯(lián)邦學(xué)習(xí)的激勵機制.此外,考慮到不同的數(shù)字孿生偏差和網(wǎng)絡(luò)動態(tài),設(shè)計了一個動態(tài)激勵方案,以自適應(yīng)地調(diào)整最佳客戶的選擇及其參與程度.Richardson等人[7]考慮聯(lián)邦參與者因冗余數(shù)據(jù)獲得獎勵的搭便車現(xiàn)象,提出了基于影響力的激勵方案保證激勵預(yù)算與聯(lián)邦模型價值成比例有界,防止聯(lián)邦被迫支付多余獎勵.杜等人[8]提出了以在線雙邊拍賣機制為基礎(chǔ)的ODAM-DS算法.基于最優(yōu)停止理論,幫助邊緣服務(wù)器在適當(dāng)?shù)臅r間選擇移動設(shè)備,最小化移動設(shè)備的平均能耗.Hu等人[9]首先,將數(shù)據(jù)質(zhì)量和數(shù)據(jù)量相結(jié)合,構(gòu)建了特定指標(biāo)下的聯(lián)邦學(xué)習(xí)激勵機制模型.然后,對基于服務(wù)器平臺和數(shù)據(jù)島的效用函數(shù)構(gòu)建的激勵機制模型進(jìn)行了兩階段的Stackelberg博弈分析.最后,導(dǎo)出兩階段博弈的最優(yōu)均衡解,確定平臺服務(wù)器和數(shù)據(jù)島的最優(yōu)策略.從等人[10,11]建立了一個關(guān)于FL激勵機制設(shè)計的推理研究框架,提出了FML激勵機制設(shè)計問題的精確定義,基于不同的設(shè)置和目標(biāo)提供了一個清單,供實踐者在沒有深入博弈論知識的情況下選擇合適的激勵機制.同時在文獻(xiàn)[11]中基于VCG 提出了一種聯(lián)邦激勵機制,使社會剩余最大化,并使聯(lián)邦的不公平最小化.
博弈論作為解決雙方或多方收益問題的重要手段應(yīng)用于各種環(huán)境,基于博弈論的聯(lián)邦學(xué)習(xí)激勵機制的研究近年來也非常火熱.Hasan等人[12]使用享樂博弈將聯(lián)邦的交互建模為穩(wěn)定的聯(lián)盟劃分問題.解決了是否存在確保納什穩(wěn)定聯(lián)盟分區(qū)的享樂博弈的問題,并分析了納什穩(wěn)定集的非空條件.丁等人[13]針對以數(shù)據(jù)為中心的開放信息系統(tǒng),基于演化博弈構(gòu)建了面向隱私保護的多參與者訪問控制演化博弈模型.Byde等人[14]描述了一種基于演化的評估拍賣機制的方法,并將其應(yīng)用于包括標(biāo)準(zhǔn)第一價格和第二價格密封投標(biāo)拍賣在內(nèi)的機制空間,對拍賣理論進(jìn)行了擴展.王等人[15]介紹并給出了混合均勻有限人口中隨機演化動力學(xué)問題與確定復(fù)制方程的相互轉(zhuǎn)化關(guān)系.同時介紹了無標(biāo)度、小世界等復(fù)雜網(wǎng)絡(luò)上演化博弈的研究結(jié)論.全等人[16]通過利用一個廣義適應(yīng)度相關(guān)的Moran過程,研究了一個有限規(guī)模的良好混合種群中的對稱2×2博弈的演化模型,給出了博弈的進(jìn)化穩(wěn)定策略,并將其結(jié)果與無限種群中復(fù)制者動力學(xué)進(jìn)行了比較.王等人[17]綜述了網(wǎng)絡(luò)群體行為和隨機演化博弈模型與分析方法等方面的研究工作.針對以上方面的若干研究方法進(jìn)行總結(jié),并探討了通過隨機演化博弈進(jìn)行網(wǎng)絡(luò)群體行為研究的可行性.
由于聯(lián)邦參與者虛報成本而造成激勵不匹配的問題會導(dǎo)致集體利益受到損害,但現(xiàn)有的聯(lián)邦學(xué)習(xí)激勵機制缺乏對激勵不匹配問題的重視.
因此本文在考慮了信息不對稱因素的同時,構(gòu)建演化博弈模型,設(shè)計了更符合實際應(yīng)用場景的聯(lián)邦學(xué)習(xí)激勵機制.
本節(jié)提出一種面向聯(lián)邦學(xué)習(xí)激勵優(yōu)化的演化博弈模型.首先在聯(lián)邦學(xué)習(xí)系統(tǒng)中建立聯(lián)邦參與者-聯(lián)邦組織者演化博弈模型(Federal Participant-Federal Organizer Evolutionary Game Model,FPFOEGM),然后通過對聯(lián)邦參與者提交的模型進(jìn)行質(zhì)量評估來過濾低質(zhì)量模型,同時結(jié)合聯(lián)邦參與者的信譽度指標(biāo)設(shè)計聯(lián)邦激勵策略,最后通過求解復(fù)制動態(tài)方程得到演化穩(wěn)定策略.
基于客戶-服務(wù)器架構(gòu)構(gòu)建的聯(lián)邦學(xué)習(xí)系統(tǒng)模型如圖1所示.考慮當(dāng)前有n個聯(lián)邦參與者表示為P={p1,p2,…,pn}.有模型使用者向聯(lián)邦發(fā)送任務(wù)請求并將自己獲得收益的一部分下發(fā)給聯(lián)邦用于激勵聯(lián)邦參與者.為了能夠?qū)δP瓦M(jìn)行質(zhì)量評估和篩選,同時量化參與者訓(xùn)練成本,在聯(lián)邦中加入具有一定計算能力的聯(lián)邦組織者,組織者接收參與者提交的模型進(jìn)行篩選后將符合條件的模型上傳至參數(shù)服務(wù)器進(jìn)行整合,并作為協(xié)調(diào)方在激勵預(yù)算允許的范圍內(nèi)對參與者進(jìn)行激勵.

圖1 基于客戶-服務(wù)器架構(gòu)的聯(lián)邦學(xué)習(xí)模型Fig.1 Federated learning model based on client-server architecture
本文在FPFOEGM模型中設(shè)置以下假設(shè)條件:
1)博弈參與者均具有有限理性.聯(lián)邦參與者通過選擇合適的模型提交策略獲得收益;聯(lián)邦組織者通過選擇適當(dāng)?shù)募畈呗垣@得收益.
2)博弈雙方的策略選擇隨著博弈進(jìn)行發(fā)生動態(tài)變化.
3)聯(lián)邦組織者的博弈收益即為聯(lián)邦的收益.
FPFOEGM模型可以用一個三元組進(jìn)行表示,FPFOEGM={M,S,U}.
1)M=(Np,No)表示演化博弈參與者,Np為聯(lián)邦參與者,No為聯(lián)邦組織者.
2)S=(Sp,So)表示聯(lián)邦參與者和聯(lián)邦組織者的策略空間,其中Sp={Sp1,Sp2,…,Spn}為聯(lián)邦參與者的策略集,So={So1,So2,…,Som}為聯(lián)邦組織者的策略集.
3)U=(Up,Uo)表示博弈雙方收益函數(shù)集合,Up為聯(lián)邦參與者的收益函數(shù),Uo為聯(lián)邦組織者的收益函數(shù).
在演化博弈模型中,聯(lián)邦參與者和聯(lián)邦組織者均有多個博弈策略可選擇,并且雙方選擇同一個策略的概率會隨著博弈進(jìn)行發(fā)生變化,因此雙方的策略選取是一個動態(tài)過程.
本節(jié)對聯(lián)邦參與者提交模型的質(zhì)量進(jìn)行了評估并且針對聯(lián)邦中的成本虛報現(xiàn)象設(shè)定信譽度指標(biāo).提出了一種基于演化博弈的聯(lián)邦學(xué)習(xí)激勵優(yōu)化方法.
2.3.1 模型質(zhì)量評估
將模型質(zhì)量評估加入FPFOEGM模型,量化模型訓(xùn)練成本的同時去除低質(zhì)量的模型提交.當(dāng)聯(lián)邦參與者接收到來自模型使用者發(fā)布的任務(wù)時,將從參數(shù)服務(wù)器中下載模型數(shù)據(jù)并使用本地數(shù)據(jù)進(jìn)行訓(xùn)練,提交訓(xùn)練好的模型表示為M={m1,m2,…,mn},有m個評估模型質(zhì)量的指標(biāo)A={a1,a2,…,am},G=gij表示聯(lián)邦參與者提交的訓(xùn)練模型mi在指標(biāo)aj上的評估值.模型質(zhì)量的評估與測試集的測試結(jié)果密切相關(guān),因此基于混淆矩陣將模型質(zhì)量評價指標(biāo)總結(jié)為準(zhǔn)確率(a1)、精確率(a2)、召回率(a3)3種.
由于以上評估指標(biāo)均與模型質(zhì)量成正相關(guān),因此可以通過式(1)對指標(biāo)進(jìn)行歸一化處理,并以此為依據(jù)去除低質(zhì)量模型.
(1)


(2)

針對模型使用者對模型性能的不同需求,引入權(quán)重ωj,使模型質(zhì)量評估結(jié)果更加符合實際情況.通過式(3)對參與者pi第k次提交模型的質(zhì)量進(jìn)行評估,便于聯(lián)邦組織者進(jìn)行激勵策略選擇.
(3)
模型質(zhì)量評估算法如表1所示.

表1 模型質(zhì)量評估算法Table 1 Model quality assessment algorithm
2.3.2 信譽度評估
在聯(lián)邦學(xué)習(xí)中,每個參與者追求個體利益最大化時,存在虛報訓(xùn)練成本的情況,即上報聯(lián)邦的成本與提交模型的質(zhì)量不匹配,這會導(dǎo)致集體利益受到損害甚至造成合作失敗.因此在對聯(lián)邦參與者提交的模型進(jìn)行質(zhì)量評估后,針對虛報成本現(xiàn)象進(jìn)行信譽度評估.
一般情況下,聯(lián)邦學(xué)習(xí)中的聯(lián)邦參與者的訓(xùn)練成本與其提交的模型質(zhì)量成正比,因此本文假設(shè)其真實訓(xùn)練成本與模型質(zhì)量在數(shù)值上相等.在聯(lián)邦學(xué)習(xí)中,聯(lián)邦參與者上報的成本超出真實成本越多,其信譽度越低,反之信譽度則越高.

(4)

(5)

(6)


表2 信譽度評估算法Table 2 Reputation evaluation algorithms
2.3.3 激勵分配方法
在對聯(lián)邦參與者提交模型的質(zhì)量及其信譽度進(jìn)行評估的基礎(chǔ)上,設(shè)計激勵策略削弱聯(lián)邦參與者虛報訓(xùn)練成本的欲望提高聯(lián)邦整體效用.

(7)

(8)

(9)


(10)

(11)
綜上可得:
(12)
激勵分配算法如表3所示.

表3 激勵分配算法Table 3 Incentive allocation algorithm
在FPFOEGM中,考慮到聯(lián)邦參與者虛報訓(xùn)練成本的情況引入了聯(lián)邦組織者,聯(lián)邦參與者為P,聯(lián)邦組織者為O.構(gòu)建聯(lián)邦參與者的策略集{PS1,PS2},PS1表示誠實即上報成本等于真實訓(xùn)練成本、PS2表示虛報,即上報成本大于真實訓(xùn)練成本;構(gòu)建聯(lián)邦組織者的策略集{OS1,OS2},OS1表示使用模型,OS2表示不使用模型.一般情況下,聯(lián)邦給予聯(lián)邦參與者的激勵可以覆蓋其訓(xùn)練成本.
下面分析博弈過程中參與者的收益情況,參與者在不同策略下的收益情況如表4所示.

表4 參與者和組織者的收益矩陣Table 4 Benefit matrix of participants and organizers
其中c1、c2分別為聯(lián)邦參與者選擇誠實策略和虛報策略時,其真實訓(xùn)練成本.s為來自聯(lián)邦的激勵收益,e1、e2為聯(lián)邦使用模型獲得的收益.
基于上述收益矩陣,設(shè)x為P中采用策略PS1的參與者所占比例,y為O中采用策略O(shè)S1的組織者所占比例.則聯(lián)邦參與者如實上報成本和虛報成本下的期望收益如式(13)所示:
(13)
聯(lián)邦參與者的平均收益如式(14)所示:
(14)
由此可得聯(lián)邦參與者的復(fù)制動態(tài)方程如式(15)所示:
(15)
同理,聯(lián)邦組織者使用模型和不使用模型的期望收益如式(16)所示:
(16)
聯(lián)邦組織者的平均收益如式(17)所示:
(17)
則聯(lián)邦組織者的復(fù)制動態(tài)方程如式(18)所示:
(18)
基于聯(lián)邦參與者與聯(lián)邦組織者的復(fù)制動態(tài)方程,對EBFLIM模型的演化穩(wěn)定策略的求解過程如下:
1)計算復(fù)制動態(tài)方程的穩(wěn)定解
2)演化穩(wěn)定性分析
①聯(lián)邦參與者上報成本策略的演化博弈分析

圖2 聯(lián)邦參與者復(fù)制動態(tài)相位圖Fig.2 Replication dynamic phase diagram of federated participants
②聯(lián)邦組織者策略的演化博弈分析

圖3 聯(lián)邦組織者復(fù)制動態(tài)相位圖Fig.3 Replication dynamic phase diagram of the federation organizer
③聯(lián)邦參與者與聯(lián)邦組織者的博弈演化穩(wěn)定策略
演化穩(wěn)定策略指如果絕大多數(shù)個體選擇演化穩(wěn)定策略,那么小部分的突變個體就無法入侵到這個群體[18].根據(jù)上述演化穩(wěn)定均衡解,構(gòu)建雅可比矩陣,求出行列式與跡.雅可比矩陣構(gòu)建如式(19)所示:
(19)
根據(jù)雅可比矩陣計算其行列式和跡,結(jié)果如式(20)和式(21)所示:
(20)
TrJ=(1-2x)[y(s1-s2)+(c2-c1)]+
(1-2y)[x(s2-s1+e1-e2)+(e2-s2)]
(21)
在EBFLIM模型中,選擇虛報策略的聯(lián)邦參與者的實際訓(xùn)練成本較低,所以c1>c2在基于模型質(zhì)量以及聯(lián)邦參與者信譽度的聯(lián)邦激勵機制的作用下,聯(lián)邦參與者和聯(lián)邦組織者的收益滿足以下條件:s1-c1>s2-c2,e1-s1>e2-s2.
利用雅可比矩陣判斷是否為演化穩(wěn)定策略,若局部平衡點對應(yīng)矩陣的行列式DerJ大于零,且跡TrJ小于零,則為ESS;若DerJ大于零,且跡TrJ大于零,則為不穩(wěn)定解;若DerJ小于零,且跡TrJ為任意值,則為鞍點.
基于以上條件局部均衡點穩(wěn)定性分析如表5所示.

表5 局部均衡點穩(wěn)定性分析Table 5 Stability analysis of local equilibrium point
本文使用經(jīng)典MNIST手寫數(shù)據(jù)集進(jìn)行實驗仿真.為了真實還原聯(lián)邦學(xué)習(xí)系統(tǒng)環(huán)境,將訓(xùn)練圖例按照隨機比例分配給10名聯(lián)邦參與者以模擬參與者持有不同訓(xùn)練資源的情形,并從中隨機選取5名有意虛報訓(xùn)練成本的參與者.本實驗在Windows系統(tǒng)下通過Matlab平臺搭建GoogLeNet執(zhí)行手寫數(shù)字識別訓(xùn)練任務(wù)以模仿參與者訓(xùn)練模型的過程.具體參數(shù)設(shè)置如表6所示.

表6 訓(xùn)練參數(shù)設(shè)置Table 6 Training parameter setting
首先對參與者提交模型的質(zhì)量及參與者信譽度進(jìn)行評估,在EBFLIM中,聯(lián)邦參與者提交高質(zhì)量的模型可以得到更多的激勵收益,同時也會提升聯(lián)邦的總體效用.10名聯(lián)邦參與者使用各自持有的數(shù)據(jù)對模型進(jìn)行訓(xùn)練,之后用相同的測試集對他們訓(xùn)練好的模型進(jìn)行測試,測試準(zhǔn)確率如圖4所示.

圖4 測試準(zhǔn)確率Fig.4 Test accuracy
通過對測試結(jié)果進(jìn)一步分析可以得到10個模型對應(yīng)的混淆矩陣,通過公式(22)計算Precision和Recall.
(22)
其中TP表示是正類并且被判定為正類的實例,FP表示實際為負(fù)類但被判定為正類的實例,FN表示本為正類但被判定為負(fù)類的實例.
每個模型識別不同類別測試樣例的精確率與召回率應(yīng)被分以不同的權(quán)重,在仿真實驗過程中,為了簡化實驗過程,將不同分類的權(quán)重均設(shè)置為1,則進(jìn)一步處理后,不同模型對應(yīng)的精確率與召回率如圖5所示.

圖5 處理后的精確率與召回率Fig.5 Precision and recall after processing


表7 參與者的模型質(zhì)量、上報成本和信譽度Table 7 Model quality,reporting cost,and creditworthiness of participants
由表7數(shù)據(jù)可知,參與者9因未能通過模型質(zhì)量篩選而被移出聯(lián)邦,在本實驗設(shè)置的條件下,對使用模型評估算法前后兩種狀態(tài)下的聯(lián)邦學(xué)習(xí)系統(tǒng)引入FedAvg框架[19]進(jìn)行參數(shù)聚合得到兩個訓(xùn)練模型,用相同測試集對兩個模型進(jìn)行測試,輸出相應(yīng)的混淆矩陣,測試結(jié)果表明,在參與者9持有數(shù)據(jù)占比僅為0.3%的情況下,經(jīng)過模型質(zhì)量篩選后聚合得到的模型的精度仍比未經(jīng)過篩選得到的模型提高了0.01%.在聯(lián)邦學(xué)習(xí)實際應(yīng)用的過程中,該方法對聯(lián)邦模型精度的提升效果會隨著數(shù)據(jù)量以及聯(lián)邦參與者數(shù)量的增加而更加顯著.

(23)
在個體收益分享法中,參與者i對集合體做出的邊際收益被用于計算他能得到的收益分成如式(24)所示:
(24)
其中v(X)表示評估集合體效用的函數(shù).
使用3種不同的激勵分配方法,聯(lián)邦參與者的激勵收益情況如圖6所示.

圖6 不同分配方法下參與者的收益Fig.6 Benefits of participants under different distribution methods
EBFLIM在進(jìn)行激勵分配時,綜合考慮了參與者虛報成本的現(xiàn)象,降低虛報參與者的激勵收益,同時提高誠實上報訓(xùn)練成本的參與者的激勵收益.如圖6所示,利用平均分配法和個體收益分享法均會導(dǎo)致部分誠實上報訓(xùn)練成本的參與者的收益占比小于或等于部分真實訓(xùn)練成本較低的虛報者,而EBFLIM對虛報者的激勵收益進(jìn)行了削減并將其二次分配給誠實上報成本的參與者,與平均分配法和個體收益分享法相比誠實參與者的收益提升了70%和57.4%,虛報參與者收益降低了65%和69.5%,達(dá)到了提高聯(lián)邦參與者積極性,減少虛報現(xiàn)象的目的.
進(jìn)一步分析聯(lián)邦參與者與聯(lián)邦組織者的演化過程和模型中最優(yōu)策略的選取問題.[x,y]初值分別取[0.2,0.8],[0.4,0.6],[0.6,0.4],[0.8,0.2],圖7展示了在激勵機制的作用下博弈雙方的動態(tài)演化的過程,可見不同初始狀態(tài)的策略選擇經(jīng)過演化最終會達(dá)到一定的穩(wěn)定狀態(tài)并且該狀態(tài)可以使參與者與聯(lián)邦均獲得最佳收益.

圖7 不同初始狀態(tài)的動態(tài)演化過程Fig.7 Dynamic evolution process of different initial states
本文提出了面向聯(lián)邦學(xué)習(xí)激勵優(yōu)化的演化博弈模型,分析評價表明,優(yōu)化后的聯(lián)邦學(xué)習(xí)激勵方法能夠有效的限制聯(lián)邦中虛報成本的參與者的收益,降低其虛報成本的動力,同時在不同初始情況下參與者與聯(lián)邦均能選取使雙方收益最優(yōu)的策略,提高了聯(lián)邦的整體效益.下一步的工作首先是將其它導(dǎo)致聯(lián)邦學(xué)習(xí)激勵不匹配的因素融合進(jìn)來,以適用于更多樣的情形.其次是嘗試對所提激勵優(yōu)化方法進(jìn)行應(yīng)用.