999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

負(fù)激勵(lì)對(duì)聯(lián)邦學(xué)習(xí)激勵(lì)機(jī)制的影響
——基于演化博弈的角度

2023-06-02 08:02:20劉家鳳劉佳萍河北工程大學(xué)管理工程與商學(xué)院煙臺(tái)南山學(xué)院紡織科學(xué)與工程學(xué)院
現(xiàn)代經(jīng)濟(jì)信息 2023年15期
關(guān)鍵詞:激勵(lì)機(jī)制策略模型

郭 洋 劉家鳳 劉佳萍 .河北工程大學(xué)管理工程與商學(xué)院 .煙臺(tái)南山學(xué)院紡織科學(xué)與工程學(xué)院

一、引言

隨著人工智能和大數(shù)據(jù)技術(shù)快速發(fā)展,數(shù)據(jù)的安全性和隱私性得到越來(lái)越多的關(guān)注[1]。作為機(jī)器學(xué)習(xí)的新興范式,聯(lián)邦學(xué)習(xí)可在保證參與者數(shù)據(jù)隱私安全的前提下充分挖掘數(shù)據(jù)中潛在價(jià)值。近年來(lái),聯(lián)邦學(xué)習(xí)在醫(yī)學(xué)成像[2]、智能終端[3]以及計(jì)算機(jī)視覺等領(lǐng)域得到了廣泛應(yīng)用。

但審核機(jī)制與監(jiān)督機(jī)制的缺失給參與者提供了破壞聯(lián)邦學(xué)習(xí)的機(jī)會(huì),提高了聯(lián)邦學(xué)習(xí)項(xiàng)目管理難度,給聯(lián)邦學(xué)習(xí)項(xiàng)目帶來(lái)了極大的不穩(wěn)定性。而負(fù)激勵(lì)可以有效約束參與者的行為,將參與者帶給聯(lián)邦學(xué)習(xí)項(xiàng)目的不穩(wěn)定性降到最低,豐富聯(lián)邦學(xué)習(xí)項(xiàng)目管理的方法。因此,引入負(fù)激勵(lì)到聯(lián)邦學(xué)習(xí)項(xiàng)目管理中,對(duì)聯(lián)邦學(xué)習(xí)的可持續(xù)發(fā)展和實(shí)際應(yīng)用具有重要的理論意義和實(shí)際價(jià)值[4]。然而,參與聯(lián)邦學(xué)習(xí)時(shí),參與者不僅需提供設(shè)備資源,還會(huì)消耗自身的計(jì)算資源。若負(fù)激勵(lì)幅度過(guò)大,會(huì)大幅度降低參與者的積極性,導(dǎo)致項(xiàng)目無(wú)法進(jìn)行。相反則對(duì)參與者的約束能力下降,無(wú)法維護(hù)項(xiàng)目的穩(wěn)定性,給聯(lián)邦學(xué)習(xí)項(xiàng)目管理帶來(lái)極大的不穩(wěn)定性。為解決以上問(wèn)題,利用演化博弈模型動(dòng)態(tài)演化負(fù)激勵(lì)對(duì)聯(lián)邦學(xué)習(xí)項(xiàng)目穩(wěn)定性的影響問(wèn)題,為激勵(lì)機(jī)制的設(shè)計(jì)提供行之有效的參考意見,豐富負(fù)激勵(lì)理論的發(fā)展領(lǐng)域。

二、文獻(xiàn)綜述

目前針對(duì)聯(lián)邦學(xué)習(xí)激勵(lì)機(jī)制方面已有一些研究工作。Deng 等[5]發(fā)現(xiàn)聚合惡意參與者低質(zhì)量模型會(huì)惡化全局模型質(zhì)量,提出質(zhì)量意識(shí)激勵(lì)機(jī)制。王鑫等[6]構(gòu)建以貢獻(xiàn)度分配獎(jiǎng)勵(lì)的獎(jiǎng)勵(lì)機(jī)制并評(píng)估參與者的可靠性,并降低評(píng)估結(jié)果較差的參與者獎(jiǎng)勵(lì)。Gao 等[7]依據(jù)貢獻(xiàn)指標(biāo)和聲譽(yù)分配獎(jiǎng)勵(lì),對(duì)貢獻(xiàn)度較低的惡意行為進(jìn)行懲罰。考慮以上激勵(lì)機(jī)制在聯(lián)邦學(xué)習(xí)中的應(yīng)用,本文著重分析負(fù)激勵(lì)對(duì)激勵(lì)機(jī)制穩(wěn)定性的影響,為制定激勵(lì)效果更加穩(wěn)定的激勵(lì)機(jī)制提供參考意見。

利用演化博弈探究因素的影響已有一定的研究。姚至臻等[8]利用演化博弈探究參與者參與行為轉(zhuǎn)化的影響因素。王道平等[9]構(gòu)建了不同級(jí)別參與者知識(shí)交互行為的演化博弈模型,并認(rèn)為研究對(duì)象不同行為策略選擇關(guān)注的重點(diǎn)因素不同。由于聯(lián)邦學(xué)習(xí)項(xiàng)目的復(fù)雜性,聯(lián)邦學(xué)習(xí)項(xiàng)目組織者和參與者的行為意愿時(shí)刻變化,給聯(lián)邦學(xué)習(xí)項(xiàng)目帶來(lái)的影響有利有弊。據(jù)此,考慮參與雙方有限理性和重復(fù)博弈的特點(diǎn),構(gòu)建演化博弈模型對(duì)負(fù)激勵(lì)對(duì)聯(lián)邦學(xué)習(xí)激勵(lì)機(jī)制的影響進(jìn)行動(dòng)態(tài)演化。

三、聯(lián)邦學(xué)習(xí)負(fù)激勵(lì)機(jī)制演化博弈模型

(一)問(wèn)題描述和基本假設(shè)

考慮聯(lián)邦學(xué)習(xí)項(xiàng)目參與雙方都是有限理性的,很難通過(guò)一次決策就達(dá)到最優(yōu)策略,特別是機(jī)器學(xué)習(xí)領(lǐng)域,由于投資額巨大、數(shù)據(jù)隱私性強(qiáng)、利益相關(guān)者眾多等特點(diǎn),使得其比一般實(shí)體項(xiàng)目更加復(fù)雜,因此,在參加聯(lián)邦學(xué)習(xí)項(xiàng)目期間,組織者和參與者需要通過(guò)不斷調(diào)整參與項(xiàng)目策略直至達(dá)到演化穩(wěn)定的狀態(tài)。為便于研究的進(jìn)行,做出以下假設(shè):

假設(shè)1:組織者有兩種策略選擇,其一選擇引入負(fù)激勵(lì)(簡(jiǎn)稱“負(fù)激勵(lì)”),指組織者會(huì)在項(xiàng)目的實(shí)行過(guò)程中對(duì)提供錯(cuò)誤信息的惡意參與者進(jìn)行直接罰款和降低聲譽(yù)等級(jí)等懲罰性操作。組織者選擇“負(fù)激勵(lì)”行為策略的概率為;其二為只實(shí)行正激勵(lì)機(jī)制(簡(jiǎn)稱“正激勵(lì)”),指組織者對(duì)參與者的表現(xiàn)只采用正向激勵(lì)機(jī)制,僅根據(jù)參與者表現(xiàn)結(jié)果給予參與者相應(yīng)的工資報(bào)酬等,組織者選擇“正激勵(lì)”行為策略的概率為。

假設(shè)2:參與者有兩種選擇,其一為積極參與聯(lián)邦學(xué)習(xí)項(xiàng)目(簡(jiǎn)稱“積極參與”),即參與者在參與項(xiàng)目時(shí),不隱瞞自身數(shù)據(jù),保證投入數(shù)據(jù)正確,完全誠(chéng)實(shí)的參與聯(lián)邦學(xué)習(xí)項(xiàng)目,參與者選擇“積極參與”行為策略的概率為;其二為采取惡意行為破壞聯(lián)邦學(xué)習(xí)項(xiàng)目(簡(jiǎn)稱“惡意行為”),即參與者選擇進(jìn)行諸如利用較少或錯(cuò)誤數(shù)據(jù)進(jìn)行本地模型訓(xùn)練,造成本地模型訓(xùn)練提前中止等惡意行為,參與者選擇“惡意行為”行為策略的概率為。

假設(shè)3:如果組織者選擇實(shí)行激勵(lì)機(jī)制,并檢測(cè)到參與者未發(fā)生任務(wù)失敗、中途下車、輸入錯(cuò)誤信息等惡意行為,會(huì)提高參與者聲譽(yù)等級(jí)并對(duì)其進(jìn)行獎(jiǎng)勵(lì),這會(huì)增加參與者聲譽(yù)收益。

假設(shè)4:本文的組織者主要是指組織構(gòu)建聯(lián)邦學(xué)習(xí)模型的領(lǐng)頭團(tuán)體或者公司,并且其對(duì)參與者是否實(shí)行負(fù)激勵(lì)機(jī)制僅取決于負(fù)激勵(lì)機(jī)制對(duì)項(xiàng)目收益的提升效果和成本負(fù)擔(dān)。參與者主要指擁有聯(lián)邦學(xué)習(xí)項(xiàng)目所需數(shù)據(jù)的個(gè)人或團(tuán)體,其是否實(shí)行惡意行為不僅取決于惡意行為帶來(lái)的額外收益,還需要考慮實(shí)行惡意行為的成本。參與者需要一定的聲譽(yù)才能繼續(xù)進(jìn)行項(xiàng)目,這表示參與者不會(huì)導(dǎo)致聲譽(yù)歸零,否則帶來(lái)的成本會(huì)劇增。根據(jù)現(xiàn)有聯(lián)邦學(xué)習(xí)項(xiàng)目的基本設(shè)置,本文具體參數(shù)及含義如表1 所示。

表1 模型參數(shù)和代表含義Table 1 Model parameters and their representation

(二)聯(lián)邦學(xué)習(xí)激勵(lì)機(jī)制演化博弈模型構(gòu)建

根據(jù)博弈雙方的利益訴求,計(jì)算參與者在{惡意行為,積極參與}、組織者在{正激勵(lì),負(fù)激勵(lì)}策略集合下,雙方主體演化博弈收益并組成演化博弈收益矩陣,如表2所示。

表2 博弈收益矩陣Table 2 Game income matrix

表3 仿真參數(shù)數(shù)值Table 3 Numerical values of simulation parameters

根據(jù)演化博弈利益矩陣,計(jì)算博弈雙方的復(fù)制動(dòng)態(tài)方程,步驟如下:首先,根據(jù)利益矩陣計(jì)算參與者主體不同策略的期望收益Ex1和Ex2;其次根據(jù)期望收益計(jì)算參與者主體的平均收益;最后,再根據(jù)Malthusian 動(dòng)態(tài)方程構(gòu)建參與者主體的復(fù)制動(dòng)態(tài)方程。參與者主體選擇“積極參與”的期望收益為Ex1:

參與者主體選擇“惡意行為”行為策略的期望收益為Ex2:

參與者主體根據(jù)兩種決策行為的期望收益計(jì)算平均收益Ex:

根據(jù)式(1)—(3),計(jì)算可得參與者主體的復(fù)制動(dòng)態(tài)方程為:

類比得出組織者主體的復(fù)制動(dòng)態(tài)方程為:

(三)策略穩(wěn)定性分析

根據(jù)式(4)和式(5)可組成演化博弈模型的二維動(dòng)力系統(tǒng)(6)。由組織者和參與者的二維動(dòng)力系統(tǒng)表示,當(dāng)F(x)=0和F(y)=0,即選擇策略變化率不變時(shí),組織者和參與者選擇策略的狀態(tài)是穩(wěn)定不變的。由此可得演化博弈模型的五個(gè)均衡點(diǎn),P1(0,0),P2(0,1),P3(1,0),P4(1,1),P5(x*,y*)。

四、模型仿真分析

在本節(jié)中,本文在Matlab2018a 環(huán)境下對(duì)激勵(lì)機(jī)制演化博弈模型進(jìn)行數(shù)值仿真,驗(yàn)證負(fù)激勵(lì)機(jī)制的穩(wěn)定性。為分析參與者和聯(lián)邦學(xué)習(xí)組織者不同初始策略和負(fù)激勵(lì)主要參數(shù)罰款對(duì)系統(tǒng)演化趨勢(shì)的影響,結(jié)合現(xiàn)有的聯(lián)邦學(xué)習(xí)激勵(lì)機(jī)制和審核機(jī)制設(shè)定的成本和利益,工資等初始參數(shù)的設(shè)定,依據(jù)本文參數(shù)的具體定義和約束條件給出參數(shù)的初始值,在表 3 進(jìn)行展示。

(一)初始狀態(tài)對(duì)行為演化趨勢(shì)的影響

演化博弈雙方策略的初始狀態(tài)對(duì)于博弈結(jié)果會(huì)有直觀的影響,隨著演化進(jìn)程可以達(dá)到穩(wěn)定演化均衡狀態(tài),在不同的初始比例條件下系統(tǒng)演化的波動(dòng)性和雙方收斂到穩(wěn)定狀態(tài)的時(shí)間都不相同。對(duì)均衡點(diǎn)為P4(1,1)的情形進(jìn)行仿真,此時(shí)各參數(shù)需滿足F+R3+W2+S-W1-R2>0,W2<W1,B4+C2-C3>0,C2<C3。由圖1 可知雙方主體選擇策略的初始比例對(duì)系統(tǒng)收斂速度有所影響,當(dāng)選擇策略的初始比例越接近均衡點(diǎn)該系統(tǒng)收斂速度越快。這說(shuō)明初始策略比例對(duì)參與雙方是否向(積極參與,獎(jiǎng)懲激勵(lì))模式出發(fā)至關(guān)重要。當(dāng)x=0.1 時(shí),演化達(dá)到穩(wěn)定點(diǎn)的所需時(shí)間較長(zhǎng),但組織者較快達(dá)到穩(wěn)定性,這表明組織者急切需要激勵(lì)機(jī)制來(lái)解決參與者參與意愿并不強(qiáng)烈或?qū)嵭袗阂庑袨榈膯?wèn)題。與之相對(duì)的是x=0.9 的情形下,穩(wěn)定所需時(shí)間較短,表明越早建立激勵(lì)機(jī)制,模型訓(xùn)練過(guò)程穩(wěn)定得也越快。初始比例變換給演化穩(wěn)定時(shí)間的影響,表明負(fù)激勵(lì)機(jī)制具備強(qiáng)有力的約束力來(lái)監(jiān)管和激勵(lì)參與者,從未導(dǎo)致參與者更快更迅速的調(diào)整自己的策略。

圖1 初始狀態(tài)對(duì)演化結(jié)果影響Figure 1 The influence of initial state on evolution results

(二)罰款F 對(duì)演化結(jié)果的影響

組織者罰款力度F 對(duì)參與者行為的影響趨勢(shì),如圖2所示。隨著F 的增加,對(duì)參與者策略穩(wěn)定性有不同程度的影響。

圖2 罰款對(duì)演化結(jié)果影響Figure 2 The influence of penalty on the evolution results

當(dāng)值減少至0 時(shí),參與者選擇“積極參與”策略的概率為0.652 5。表明在沒有罰款的情況下,聲譽(yù)機(jī)制對(duì)參與者的激勵(lì)程度為65.25%,即在所有的參與者中,僅有65.25%的參與者會(huì)選擇激勵(lì)參與聯(lián)邦學(xué)習(xí)項(xiàng)目,其余參與者會(huì)選擇放棄或?qū)嵭袗阂庑袨椤.?dāng)時(shí),罰款對(duì)參與者策略穩(wěn)定性的影響較為均勻。隨著F 增加F≤0.1,參與者“積極參與”的概率緩慢提高,但增加的幅度較小,極限值為0.823 9。表明罰款與參與者實(shí)行惡意行為或不參與項(xiàng)目的隱形收益持平時(shí),最多可保留82.39%的參與者。當(dāng)0.1≤F≤0.5 時(shí),參與者積極參與聯(lián)邦學(xué)習(xí)項(xiàng)目的概率成指數(shù)型增加,這表明罰款的增加已經(jīng)嚴(yán)重影響到參與者不參與聯(lián)邦學(xué)習(xí)項(xiàng)目的利益,導(dǎo)致參與者生成巨大的利益落差,進(jìn)而主動(dòng)選擇積極參與聯(lián)邦學(xué)習(xí)項(xiàng)目。但是這種增長(zhǎng)是有限度的,當(dāng)罰款超過(guò)0.5 之后,參與人數(shù)穩(wěn)定在99.44%。結(jié)合現(xiàn)有的聯(lián)邦學(xué)習(xí)項(xiàng)目激勵(lì)機(jī)制經(jīng)驗(yàn)分析可得,F(xiàn) 的增加提高了組織者實(shí)行激勵(lì)機(jī)制的收益,大大降低了組織者的投資風(fēng)險(xiǎn)。但罰款會(huì)提高客戶的退出或?qū)嵭袗阂庑袨榈某杀荆茌^好地維持訓(xùn)練環(huán)境的健康和穩(wěn)定。同時(shí)罰款的穩(wěn)定也代表著負(fù)激勵(lì)的應(yīng)用趨向于穩(wěn)定。

五、結(jié)語(yǔ)

本文運(yùn)用演化博弈理論,構(gòu)建了激勵(lì)機(jī)制下聯(lián)邦學(xué)習(xí)組織者和參與者雙方主體的聯(lián)邦學(xué)習(xí)演化博弈模型,并結(jié)合系統(tǒng)動(dòng)力學(xué)理論,對(duì)聯(lián)邦學(xué)習(xí)組織者和參與者之間的利益訴求、演化行為、影響因素進(jìn)行詳細(xì)分析。研究結(jié)果表明:當(dāng)直接懲罰的罰款增加與參與者的額外收益持平時(shí),可保證82.39%的參與者會(huì)積極參與聯(lián)邦學(xué)習(xí)程序的訓(xùn)練過(guò)程,但過(guò)度的懲罰并不會(huì)持續(xù)增加參與者的激勵(lì)性,罰款增加對(duì)參與者的激勵(lì)效果在遞減。

為促進(jìn)聯(lián)邦學(xué)習(xí)項(xiàng)目各利益主體的協(xié)同,本文提出以下建議:(1)作為引導(dǎo)者,聯(lián)邦學(xué)習(xí)項(xiàng)目組織者應(yīng)重視領(lǐng)域聲譽(yù)帶來(lái)的收益,勇?lián)?zé)任,積極建設(shè)有利于項(xiàng)目進(jìn)行的獎(jiǎng)懲制度機(jī)制。負(fù)激勵(lì)機(jī)制的建立,不僅實(shí)際增加聯(lián)邦學(xué)習(xí)模型的利益,而且對(duì)自身的聲譽(yù)和行業(yè)認(rèn)可度的提升也卓有成效。構(gòu)建和完善對(duì)與參與者的監(jiān)督評(píng)判機(jī)制,結(jié)合聲譽(yù)機(jī)制和懲罰機(jī)制,降低獎(jiǎng)懲激勵(lì)機(jī)制的建設(shè)和運(yùn)行成本是組織者目前急需進(jìn)行的工作。(2)參與者應(yīng)積極提供數(shù)據(jù)參與聯(lián)邦學(xué)習(xí)項(xiàng)目的訓(xùn)練過(guò)程。參與者因在聯(lián)邦學(xué)習(xí)模型構(gòu)建過(guò)程中處于被動(dòng)地位,導(dǎo)致自身參與意識(shí)不強(qiáng),搭便車行為和惡意參與行為顯著。組織者應(yīng)加強(qiáng)罰款和聲譽(yù)損失的管理力度,積極引導(dǎo)參與者參與聯(lián)邦學(xué)習(xí)模型訓(xùn)練。參與者應(yīng)明確自身是聯(lián)邦學(xué)習(xí)項(xiàng)目的受益者,對(duì)組織者不履行職責(zé)的行為進(jìn)行反饋,充分發(fā)揮主動(dòng)權(quán),積極提供優(yōu)質(zhì)數(shù)據(jù),促進(jìn)聯(lián)邦學(xué)習(xí)模型的良性循環(huán)。囿于自身研究水平和客觀條件,本文對(duì)聯(lián)邦學(xué)習(xí)參與者問(wèn)題的研究不夠全面,只是做了初步探討,在今后的研究中將基于現(xiàn)有研究做進(jìn)一步的研究和探討。具體的研究方向可從構(gòu)建更加完善的聲譽(yù)機(jī)制和加強(qiáng)對(duì)參與者的預(yù)先篩選等方面。■

猜你喜歡
激勵(lì)機(jī)制策略模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
例談未知角三角函數(shù)值的求解策略
我說(shuō)你做講策略
高中數(shù)學(xué)復(fù)習(xí)的具體策略
濕地恢復(fù)激勵(lì)機(jī)制的國(guó)際立法及啟示
激勵(lì)機(jī)制助推節(jié)能減排
3D打印中的模型分割與打包
山西票號(hào)的激勵(lì)機(jī)制及其現(xiàn)代啟示
主站蜘蛛池模板: 在线国产三级| 久久久精品久久久久三级| 91亚洲精选| 国产91蝌蚪窝| 国产一级一级毛片永久| 精品少妇人妻无码久久| 亚洲第一区在线| 亚洲高清在线天堂精品| 欧美日韩中文国产| 青青草91视频| 夜夜爽免费视频| 国产区在线看| 青青青国产在线播放| 一级成人a毛片免费播放| 超薄丝袜足j国产在线视频| 久久国产成人精品国产成人亚洲| 欧洲极品无码一区二区三区| 欧美性色综合网| 国产午夜福利在线小视频| 欧美在线综合视频| 国产精品永久不卡免费视频| 国产成人高清精品免费| 五月丁香伊人啪啪手机免费观看| 99这里只有精品免费视频| 国产国产人免费视频成18| 欧美日韩国产高清一区二区三区| 久久天天躁狠狠躁夜夜躁| 国产主播福利在线观看| 久久国产精品电影| 亚洲开心婷婷中文字幕| 国产91色在线| 国产成人亚洲欧美激情| 热伊人99re久久精品最新地| 日本黄色不卡视频| 亚洲熟女中文字幕男人总站| 国产全黄a一级毛片| 97国产一区二区精品久久呦| 国产91小视频| 日本不卡在线| 久久久久夜色精品波多野结衣| 九色91在线视频| 成人日韩精品| 国内视频精品| 日韩精品无码一级毛片免费| 精品免费在线视频| 亚洲人成网站观看在线观看| a级高清毛片| 麻豆精品国产自产在线| 国产一区亚洲一区| 四虎成人免费毛片| 中国美女**毛片录像在线 | 一级片免费网站| 538国产在线| 亚洲国产精品不卡在线| 久久国产亚洲偷自| 国产呦视频免费视频在线观看| 欧美三级视频网站| 极品性荡少妇一区二区色欲 | 久久这里只精品国产99热8| 国产96在线 | 国产一区二区三区夜色| 免费在线国产一区二区三区精品| 日本高清在线看免费观看| 欧美中文字幕第一页线路一| 亚洲精品手机在线| 精品一區二區久久久久久久網站| 久久久久国产精品嫩草影院| 尤物特级无码毛片免费| 日本一区中文字幕最新在线| 原味小视频在线www国产| 99视频全部免费| 久久久久久国产精品mv| 91丨九色丨首页在线播放| 激情综合网址| 国产不卡在线看| 日本影院一区| 99这里精品| 国产成人精品午夜视频'| 亚洲国产欧美中日韩成人综合视频| 高潮爽到爆的喷水女主播视频| 国产丰满大乳无码免费播放| 国产丝袜第一页|