999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度強(qiáng)化學(xué)習(xí)算法的財(cái)務(wù)機(jī)器人任務(wù)分配的研究

2022-02-27 03:05:40張文娟廖帥元
中國(guó)管理信息化 2022年1期
關(guān)鍵詞:深度動(dòng)作用戶

劉 星,張文娟,廖帥元

(1.國(guó)網(wǎng)湖南省電力有限公司 信息通信分公司,長(zhǎng)沙 410007;2.長(zhǎng)沙凱鈿軟件有限公司,長(zhǎng)沙 410000)

0 引言

任務(wù)分配的主要研究方法可分為兩種:固定分配方法和綜合評(píng)估方法。固定分配方法:按要求設(shè)置好每個(gè)任務(wù)的執(zhí)行用戶。該方法存在一定缺陷,即不能隨著系統(tǒng)和實(shí)際任務(wù)的變化而靈活設(shè)置任務(wù)的執(zhí)行用戶。綜合評(píng)估方法:通過考慮各方面因素,綜合評(píng)估每個(gè)時(shí)刻可能發(fā)生的不同情況和影響因子(如負(fù)載、工作能力水平等),以此進(jìn)行任務(wù)分配。財(cái)務(wù)機(jī)器人采用綜合評(píng)估的思想,以工作任務(wù)進(jìn)度自動(dòng)計(jì)算規(guī)則作為深度策略梯度方法的重要依據(jù),得到最大的總獎(jiǎng)賞。

近年來,深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)研究熱點(diǎn),應(yīng)用廣泛。深度學(xué)習(xí)側(cè)重對(duì)事物的感知,強(qiáng)化學(xué)習(xí)更側(cè)重解決問題,因此采用深度學(xué)習(xí)算法以及自定義策略梯度優(yōu)化任務(wù)執(zhí)行路徑,為任務(wù)分配提供新的思路,從而找到全局最優(yōu)解。

1 任務(wù)分配數(shù)學(xué)模型

1.1 問題描述

目前輸配電成本監(jiān)審日常工作仍舊采用人工方式進(jìn)行工作安排、電話溝通、紙質(zhì)傳遞和報(bào)送等工作,缺少對(duì)整體工作計(jì)劃的有效管理手段,工作范圍上存在遺漏缺少情況,工作進(jìn)度上無法及時(shí)準(zhǔn)確地把控和監(jiān)管,工作過程中信息傳遞和溝通不暢通,部門工作配合方面步伐不一致,工作的組織和開展零散、效率不高,工作成果的質(zhì)量低,亟待建設(shè)相應(yīng)的信息化項(xiàng)目來滿足實(shí)際成本監(jiān)審和監(jiān)管的工作需要,做到工作事前有計(jì)劃、事中有監(jiān)管(進(jìn)度和質(zhì)量)、事后有評(píng)價(jià),提升精益管理水平。

在財(cái)務(wù)機(jī)器人工作分配中通常包括人工分配任務(wù)以及自動(dòng)分配任務(wù)。在任務(wù)分配過程中,由于系統(tǒng)缺少對(duì)用戶工作經(jīng)驗(yàn)、用戶任務(wù)完成度的評(píng)估,而引起任務(wù)分配不均衡。這種情況通常會(huì)降低工作效率。因此任務(wù)均衡分配極其重要。

1.2 任務(wù)分配的主要因素

在財(cái)務(wù)機(jī)器人中,任務(wù)和用戶及其任務(wù)完成情況是任務(wù)分配的核心影響因素。由于每個(gè)任務(wù)和用戶都存在不同的屬性值,因此在財(cái)務(wù)機(jī)器人工作任務(wù)分配問題中,依據(jù)主要的工作任務(wù)進(jìn)度自動(dòng)計(jì)算規(guī)則判定該用戶是否是最合理的任務(wù)執(zhí)行者。

工作任務(wù)進(jìn)度自動(dòng)計(jì)算規(guī)則是由開發(fā)者根據(jù)以往的工作經(jīng)驗(yàn),合理得到的一組判定任務(wù)完成進(jìn)度的算法。進(jìn)度自動(dòng)計(jì)算結(jié)果=A*B*C,其中B 和C 支持自定義。其中A 表示任務(wù)提交次數(shù),如表1;B 表示任務(wù)收集狀態(tài),如表2;C 表示任務(wù)審核狀態(tài),如表3。

表1 提交次數(shù)

表2 收集狀態(tài)

表3 審核狀態(tài)

為了提高財(cái)務(wù)機(jī)器人的工作效率,達(dá)到最高點(diǎn),需構(gòu)造工作任務(wù)進(jìn)度自動(dòng)計(jì)算規(guī)則,讓任務(wù)分配均衡達(dá)到最好,因此構(gòu)造任務(wù)分配總體達(dá)到最優(yōu)目標(biāo)函數(shù)是必要的。

2 算法分析

深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)是人工智能領(lǐng)域新的研究熱點(diǎn),DRL 是由具有感知能力的深度學(xué)習(xí)(Deep Learning,DL)和具有決策能力的強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)相結(jié)合產(chǎn)生的。DL 的基本思想是通過多層的網(wǎng)絡(luò)結(jié)構(gòu)和非線性變換,組合底層特征,形成抽象的、易于區(qū)分的高層表示,已發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。RL 的基本思想是通過最大化智能體(Agent)從環(huán)境中獲得的累計(jì)獎(jiǎng)賞值,以學(xué)習(xí)到完成目標(biāo)的最優(yōu)策略。其中DQN 作為經(jīng)典算法之一,它用一個(gè)深度網(wǎng)絡(luò)代表價(jià)值函數(shù),依據(jù)強(qiáng)化學(xué)習(xí)中的Q-Learning,為深度網(wǎng)絡(luò)提供目標(biāo)值,對(duì)網(wǎng)絡(luò)不斷更新直至收斂。由于DQN 是基于Q-Learning,如果輸出DQN 的Q 值,可能會(huì)發(fā)現(xiàn),Q 值非常大,這時(shí)QLearning 預(yù)測(cè)目標(biāo)值的時(shí)候可能出現(xiàn)overestimate,對(duì)于這一類問題,我們可采用DDQN 解決。

本文采用DQN 算法、DDQN 和輪詢調(diào)度三種算法,其中DQN 和DDQN 融合了強(qiáng)化學(xué)習(xí)的Q-Learning和深度神經(jīng)網(wǎng)絡(luò),本文將探索哪一種算法能更快地求取合理的任務(wù)分配。

2.1 DQN 算法

DQN 包含狀態(tài)(state)、行動(dòng)(action)和獎(jiǎng)勵(lì)(reward)三個(gè)要素。reward 值靜態(tài)描述了各個(gè)狀態(tài)之間轉(zhuǎn)移的立即獎(jiǎng)勵(lì)值,行動(dòng)則決定狀態(tài)之間的轉(zhuǎn)移規(guī)則。QLearning 迭代時(shí)采用立即獎(jiǎng)勵(lì)值、Q 值函數(shù)和折扣率共同組成評(píng)價(jià)函數(shù),Q 值表中保存各狀態(tài)行動(dòng)對(duì)(s,a)的估計(jì)值。Q-Learning 算法在給定策略h(x)下,在狀態(tài)S采取行動(dòng)A的評(píng)價(jià)函數(shù)為:

式中:α∈(0,1)為學(xué)習(xí)步長(zhǎng);γ∈(0,1]為折扣率,決定agent 以多大權(quán)重考慮未來獎(jiǎng)勵(lì);t 為時(shí)間步;R為在采取當(dāng)前(S,A)的立即獎(jiǎng)勵(lì);max 函數(shù)表示算法會(huì)根據(jù)下一個(gè)(S,A)中預(yù)測(cè)值的最大值來評(píng)價(jià)(S,A);式中R+γ max Q(S,a)-Q(S,A)定義為時(shí)間差分誤差(TD error),算法通過TD error 對(duì)估計(jì)值遞增更新直到收斂,行動(dòng)選擇常采用ε-greedy 策略。將agent從開始狀態(tài)轉(zhuǎn)移到目標(biāo)狀態(tài)整個(gè)過程稱為一次情景(epsiode),在episode 中每次狀態(tài)轉(zhuǎn)移的時(shí)刻稱為一個(gè)時(shí)間步(time step)。

Deep Q-Learning 算法流程如下:

(1)首先初始化“樣本集”(Memory D),簡(jiǎn)稱D,它的容量為N,初始化Q 網(wǎng)絡(luò),隨機(jī)生成權(quán)重ω,初始化target Q 網(wǎng)絡(luò),權(quán)重為ω-=ω,循環(huán)遍歷episode=1,2,…,M:初始化initial state S1;

(2)循環(huán)遍歷step=1,2,…,T:用∈-greedy 策略生成action at(以∈概率選擇一個(gè)隨機(jī)的action,或選擇at=maxaQ(S,a;ω));

(3)執(zhí)行action at,接收reward rt 及新的state S+1;

(4)將transition 樣本(S,a,r,S)存入D 中;

(5)從D 中隨機(jī)抽取一個(gè)minibatch 的transitions(S,a,r,S);

(6)如果j+1 步是terminal 的話,令y=r;否則,令y=r+γ maxa′Q(S,a′;ω-);

(7)對(duì)(y-Q(S,a;ω))2 關(guān)于ω 使用梯度下降法進(jìn)行更新;

(8)每隔C steps 更新target Q 網(wǎng)絡(luò),ω-=ω。

(9)輸出原始問題的最優(yōu)策略h*(x)為在各狀態(tài)下貪婪地選擇Q 值最大的行動(dòng)。

2.2 DDQN 算法

DDQN 網(wǎng)絡(luò)結(jié)構(gòu)和DQN 一樣,也有一樣的兩個(gè)Q網(wǎng)絡(luò)結(jié)構(gòu)。在DQN 的基礎(chǔ)上,通過解耦目標(biāo)Q 值動(dòng)作的選擇和目標(biāo)Q 值的計(jì)算這兩步,來消除過度估計(jì)的問題。在DDQN 這里,不是直接在目標(biāo)Q 網(wǎng)絡(luò)里面找各個(gè)動(dòng)作中最大Q 值,而是先在當(dāng)前Q 網(wǎng)絡(luò)中先找出最大Q 值對(duì)應(yīng)的動(dòng)作,即

然后利用這個(gè)選擇出來的動(dòng)作amax(S,w)在目標(biāo)網(wǎng)絡(luò)里面去計(jì)算目標(biāo)Q 值。即:

綜合起來寫就是:

DDQN 算法流程如下:

(1)隨機(jī)初始化所有的狀態(tài)和動(dòng)作對(duì)應(yīng)的價(jià)值Q,且隨機(jī)初始化當(dāng)前Q 網(wǎng)絡(luò)的所有參數(shù)w,初始化目標(biāo)Q 網(wǎng)絡(luò)Q′的參數(shù)w′=w。清空經(jīng)驗(yàn)回放集合D。

(2)進(jìn)行迭代。

1)初始化S 為當(dāng)前狀態(tài)序列的第一個(gè)狀態(tài),拿到其特征向量φ(S);

2)在Q 網(wǎng)絡(luò)中使用φ(S)作為輸入,得到Q 網(wǎng)絡(luò)的所有動(dòng)作對(duì)應(yīng)的Q 值輸出。用∈-貪婪法在當(dāng)前Q 值輸出中選擇對(duì)應(yīng)的動(dòng)作A;

4)將{φ(S),A,R,φ(S′),is_end}這個(gè)五元組存入經(jīng)驗(yàn)回放集合D;

5)S=S′;

6)從經(jīng)驗(yàn)回放集合D 中采樣m 個(gè)樣本{?(S),A,R,φ(S′),is_endj},j=1,2,…,m,計(jì)算當(dāng)前目標(biāo)Q 值y:

7)使用均方差損失函數(shù)1/m∑j=1/m(y-Q(φ(S),A,w))2,通過神經(jīng)網(wǎng)絡(luò)的梯度反向傳播來更新Q 網(wǎng)絡(luò)的所有參數(shù)w;

8)如果T%C=1,則更新目標(biāo)Q 網(wǎng)絡(luò)參數(shù)w′=w;

9)如果S′是終止?fàn)顟B(tài),當(dāng)前輪迭代完畢,否則轉(zhuǎn)到步驟2)。

2.3 輪詢調(diào)度算法

輪詢調(diào)度算法是簡(jiǎn)潔的,無須記錄所有用戶任務(wù)分配情況,只需要把任務(wù)依次按順序輪流分配給用戶,當(dāng)用戶都分配了任務(wù)后,還需要繼續(xù)分配,則重新開始循環(huán)。

3 任務(wù)分配流程

(1)學(xué)習(xí)環(huán)境設(shè)計(jì):通過和環(huán)境進(jìn)行交互,利用不確定的環(huán)境獎(jiǎng)賞來發(fā)現(xiàn)最優(yōu)行為序列。本文提出的學(xué)習(xí)環(huán)境主要根據(jù)調(diào)度方案包含工作任務(wù)進(jìn)度完成度建模,獲取當(dāng)前調(diào)度方案下完成任務(wù)所需的時(shí)間,從而對(duì)當(dāng)前調(diào)度方案針對(duì)調(diào)度目標(biāo)的優(yōu)劣進(jìn)行評(píng)估。

(2)動(dòng)作集:動(dòng)作集是為Q 學(xué)習(xí)算法的可以選擇執(zhí)行動(dòng)作的集合。本文通過工作任務(wù)自動(dòng)計(jì)算規(guī)則,充當(dāng)Q 學(xué)習(xí)算法的動(dòng)作集合。

(3)狀態(tài)變量確定和狀態(tài)空間劃分:該因素是Q 學(xué)習(xí)算法合理選擇動(dòng)作的基礎(chǔ),為了使得算法更好地選擇工作任務(wù)自動(dòng)計(jì)算規(guī)則,實(shí)現(xiàn)優(yōu)化調(diào)度目標(biāo),必須完成算法狀態(tài)空間的離散化和定量化。

(4)懲罰函數(shù):懲罰函數(shù)的設(shè)計(jì)目的在于對(duì)算法每次動(dòng)作執(zhí)行后的優(yōu)化效果進(jìn)行獎(jiǎng)懲。對(duì)于優(yōu)化的動(dòng)作,進(jìn)行獎(jiǎng)勵(lì),使得該動(dòng)作具有較大的選取概率;對(duì)于不優(yōu)的動(dòng)作,進(jìn)行懲罰,減小該動(dòng)作的選取概率。

(5)算法流程:根據(jù)上述Q 學(xué)習(xí)算法相關(guān)定義,最后確定算法的流程。

算法實(shí)現(xiàn)步驟如圖1 所示。

圖1 優(yōu)化算法實(shí)現(xiàn)步驟

4 仿真校驗(yàn)

為了驗(yàn)證上述方法的均衡性以及工作效率,選擇本文提出的DQN 算法、DDQN 算法和輪詢調(diào)度方法進(jìn)行實(shí)驗(yàn)對(duì)比分析。

4.1 用戶所獲得各類任務(wù)比例

三種方法的用戶所獲得的類別任務(wù)比例分別如圖2、圖3、圖4 所示。從圖2 可以看出,對(duì)于不同的任務(wù),4個(gè)實(shí)驗(yàn)用戶分配到的任務(wù)數(shù)量基本一致,并沒有按照用戶完成任務(wù)的效率合理分配任務(wù);從圖3 可以看出,根據(jù)不同的任務(wù)類型,4 個(gè)實(shí)驗(yàn)用戶分配到的任務(wù)數(shù)量完全不一樣,可以推斷出DQN 算法可以給用戶合理地分配任務(wù);從圖4 可以看出,DDQN 與DQN 任務(wù)分配占比相似,可推斷DDQN 算法可用于任務(wù)分配問題。用戶對(duì)于該任務(wù)完成度越高,被分配的任務(wù)量也就越多,并且隨著其他一些任務(wù)或用戶屬性的影響,任務(wù)量與工作進(jìn)度之間的關(guān)系還可以產(chǎn)生動(dòng)態(tài)變化,說明深度強(qiáng)化學(xué)習(xí)算法可以有效的按照工作進(jìn)度合理分配任務(wù)。

圖2 輪詢調(diào)度法

圖3 DQN 算法

圖4 DDQN 算法

4.2 深度強(qiáng)化學(xué)習(xí)訓(xùn)練結(jié)果分析

因?yàn)镈QN 和DDQN 算法區(qū)別在于Q-target 的計(jì)算,所以兩者神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)一樣,結(jié)構(gòu)圖如圖5 所示。其中target_net 與eval_net 采用相同的網(wǎng)絡(luò)架構(gòu)和不同的參數(shù)。

圖5 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖

采用DQN 算法得到的損失結(jié)果展示如圖6 所示。采用DDQN 算法得到的損失結(jié)果展示如圖7 所示。由圖可知隨著訓(xùn)練步長(zhǎng)的增加,損失值在不斷減小,表明該函數(shù)更加趨近于最優(yōu)解。

圖6 DQN 函數(shù)損失圖

圖7 DDQN 函數(shù)損失圖

5 結(jié)論

本文通過系統(tǒng)地分析任務(wù)分配問題的特點(diǎn),提出了財(cái)務(wù)機(jī)器人任務(wù)分配問題的數(shù)學(xué)描述,采用深度強(qiáng)化學(xué)習(xí)算法(DQN、DDQN)解決任務(wù)均衡分配問題。這兩種方法收斂速度快,可以有效地處理連續(xù)動(dòng)作集的問題,彌補(bǔ)了后者初期解決速度慢的缺點(diǎn)。實(shí)驗(yàn)結(jié)果表明,該方法適用于財(cái)務(wù)機(jī)器人,在性能上優(yōu)于傳統(tǒng)的任務(wù)分配方法(輪詢調(diào)度法)。

猜你喜歡
深度動(dòng)作用戶
深度理解一元一次方程
深度觀察
深度觀察
深度觀察
動(dòng)作描寫要具體
畫動(dòng)作
動(dòng)作描寫不可少
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
主站蜘蛛池模板: 欧美综合激情| 不卡网亚洲无码| 国产精品欧美在线观看| 伊人久久影视| 日韩中文欧美| 91小视频在线| 人人爱天天做夜夜爽| 日本精品影院| 久久五月天国产自| 亚洲最新在线| 国产欧美在线视频免费| 午夜a视频| 成人免费网站在线观看| 午夜电影在线观看国产1区| 九色视频最新网址| 免费欧美一级| 国产精品视频999| 天天综合网亚洲网站| 五月婷婷综合色| 毛片免费在线| 日韩在线欧美在线| 国产精品理论片| 国产91在线|日本| 一级成人欧美一区在线观看| 亚洲精品日产精品乱码不卡| 国产玖玖视频| 国产乱人激情H在线观看| 日韩在线观看网站| 国产亚洲视频中文字幕视频| 亚洲第一成年网| 中文字幕在线永久在线视频2020| 国产一区二区精品福利| 国产日韩欧美在线视频免费观看| 国产综合亚洲欧洲区精品无码| 国产99视频在线| 欧美一级视频免费| 伊人天堂网| 亚洲人成人伊人成综合网无码| 亚洲男人的天堂在线观看| 色网在线视频| 91网红精品在线观看| 国产精品自拍露脸视频| 成人91在线| 免费看美女毛片| 欧美精品在线观看视频| 在线99视频| 99精品久久精品| 无码精油按摩潮喷在线播放| 亚洲欧美另类专区| 青草视频网站在线观看| 免费一级成人毛片| 亚洲欧洲自拍拍偷午夜色无码| 免费观看成人久久网免费观看| 亚洲an第二区国产精品| a级毛片在线免费| 91免费观看视频| 成人午夜视频免费看欧美| 国产一级毛片在线| 麻豆精品视频在线原创| 国产真实乱人视频| 亚洲精品无码人妻无码| 国产精品无码影视久久久久久久| 精品亚洲国产成人AV| 99精品在线视频观看| 国产超碰一区二区三区| 日韩小视频网站hq| 欧美国产视频| 色综合久久综合网| 国产最新无码专区在线| 日韩经典精品无码一区二区| 99re在线观看视频| 在线欧美一区| av天堂最新版在线| 尤物精品国产福利网站| 国产成人AV综合久久| 在线观看免费AV网| 97视频免费在线观看| 99热这里只有精品2| 久久77777| 9久久伊人精品综合| 伊人久久精品亚洲午夜| 丝袜亚洲综合|