999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于生成對(duì)抗網(wǎng)絡(luò)的強(qiáng)化學(xué)習(xí)算法的研究

2022-07-26 09:31:20俞君杰
微型電腦應(yīng)用 2022年6期
關(guān)鍵詞:信息模型

俞君杰

(江蘇電力信息技術(shù)有限公司, 江蘇, 南京 210013)

0 引言

生成對(duì)抗網(wǎng)絡(luò)是最近提出的一類生成模型,其訓(xùn)練了生成器以優(yōu)化區(qū)分器同時(shí)學(xué)習(xí)的成本函數(shù)[1]。盡管學(xué)習(xí)成本函數(shù)的概念在生成建模領(lǐng)域相對(duì)較新,但長期以來,人們?nèi)匀徊捎脧?qiáng)化學(xué)習(xí)算法模型,導(dǎo)致存在學(xué)習(xí)效率低下,收斂速度慢等種種缺陷[2-3]。

因此,許多學(xué)者不斷研究其改進(jìn)和替換方法。文獻(xiàn)[4]公開了ASE學(xué)習(xí)算法,通過改進(jìn)樣本的采樣工序來提高目標(biāo)函數(shù)的精確度。該算法通過人工智能的方式提高了數(shù)據(jù)應(yīng)用和訓(xùn)練能力,但數(shù)據(jù)學(xué)習(xí)過程和應(yīng)用能力方法沒有提及,無法獲取數(shù)據(jù)訓(xùn)練或者計(jì)算的過程,工作效率滯后,也無法解決相關(guān)技術(shù)問題。文獻(xiàn)[5]應(yīng)用一種通過小計(jì)算獲取大效果的Q學(xué)習(xí)算法,應(yīng)用過程中,計(jì)算量比較小,該算法能夠輸出較佳的數(shù)據(jù)最優(yōu)解,對(duì)于解決復(fù)雜數(shù)據(jù)問題具有突出的技術(shù)效果,能夠通過隨機(jī)的方式實(shí)現(xiàn)數(shù)據(jù)的動(dòng)態(tài)變化,大大提高了數(shù)據(jù)應(yīng)用能力。該算法訓(xùn)練樣本的過程復(fù)雜,且對(duì)計(jì)算機(jī)系統(tǒng)性能要求過高,具有一定的局限性。本文借助生成對(duì)抗網(wǎng)絡(luò)的思想,給出用生成對(duì)抗網(wǎng)絡(luò)實(shí)現(xiàn)強(qiáng)化學(xué)習(xí)算法,下面將具體闡述該算法的結(jié)構(gòu)框架和相關(guān)理論內(nèi)容理論背景、基本思路、算法實(shí)現(xiàn)和實(shí)驗(yàn)分析。

1 相關(guān)理論

1.1 強(qiáng)化學(xué)習(xí)理論

在具體學(xué)習(xí)和應(yīng)用中,該研究構(gòu)建的馬爾科夫決策過程(MDP)能夠提高數(shù)學(xué)建模能力,尤其是在強(qiáng)化學(xué)習(xí)中,MDP應(yīng)用在完全可觀測的技術(shù)環(huán)境中具有一定現(xiàn)實(shí)意義,觀測到的狀態(tài)內(nèi)容完整地決定了決策需要的特征,幾乎所有的強(qiáng)化學(xué)習(xí)問題都可以轉(zhuǎn)化為MDP。一個(gè)MDP過程受幾個(gè)重要參數(shù)所影響,該重要數(shù)據(jù)參數(shù)因素中存在有限的數(shù)據(jù)信息狀態(tài)集s,有限的數(shù)據(jù)信息動(dòng)作集A,還能夠?qū)崿F(xiàn)使數(shù)據(jù)信息進(jìn)行轉(zhuǎn)移的狀態(tài)轉(zhuǎn)移概率P,實(shí)現(xiàn)數(shù)據(jù)信息回饋的回報(bào)函數(shù)R,將數(shù)據(jù)信息進(jìn)行折算的折扣因子γ。在MDP從狀態(tài)到動(dòng)作的映射過程為

Pss′=P(st+1=s′|st=s,at=a)

(1)

π(a|s)=P(at=a|st=s)

(2)

其中,t表示一個(gè)時(shí)間間隔,a表示目標(biāo)函數(shù)。根據(jù)MDP回報(bào)函數(shù)R能夠得出累計(jì)回報(bào)為

(3)

其中,G代表累加回報(bào)值,k代表回報(bào)函數(shù)R的自變量。由式(3)得出狀態(tài)處的期望回報(bào)值V為

(4)

由式(4)得出動(dòng)作處的期望回報(bào)值Q為

(5)

綜上式得出最有函數(shù)解的公式為

(6)

1.2 生成對(duì)抗網(wǎng)絡(luò)理論

在具體應(yīng)用過程中,將生成對(duì)抗網(wǎng)絡(luò)作為生成建模的一種方法,通過生成模型G和判別模型D兩種不同的方式實(shí)現(xiàn)數(shù)據(jù)信息評(píng)估與分析。實(shí)現(xiàn)數(shù)據(jù)信息生成對(duì)抗網(wǎng)絡(luò)的判別模型能夠?qū)?shù)據(jù)信息通過輸入分類數(shù)據(jù)信息,進(jìn)而將數(shù)據(jù)信息通過生成模型的方式進(jìn)行輸出,進(jìn)一步將能夠?qū)崿F(xiàn)的基礎(chǔ)數(shù)據(jù)樣本信息通過信息p(x)的形式實(shí)現(xiàn)輸出。為了提高數(shù)據(jù)信息的分類與輸出,通過生成模型完成。基于上述分析,該研究的生成對(duì)抗網(wǎng)絡(luò)模型結(jié)構(gòu)見圖1。

圖1 生成對(duì)抗網(wǎng)絡(luò)模型結(jié)構(gòu)圖

結(jié)合圖1對(duì)該研究的生成對(duì)抗網(wǎng)絡(luò)模型進(jìn)行以下介紹,在生成對(duì)抗網(wǎng)絡(luò)模型的過程中,通常將對(duì)抗過程劃分為極小、極大二元博弈問題。在一種形式上,輸出的生成模型具有出色噪音處理能力,在具體工作過程中能夠?qū)⑤敵龅脑肼曌鳛檩斎胄畔ⅲ⑤斎氲臄?shù)據(jù)信息轉(zhuǎn)化為樣本數(shù)據(jù)集合x~G,通過判別模型也能夠輸出數(shù)據(jù)信息,并將數(shù)據(jù)樣本數(shù)據(jù)信息集合記作為樣本x,然后將樣本數(shù)據(jù)集合x進(jìn)行數(shù)據(jù)輸入,其中輸出樣本數(shù)據(jù)信息通過分布式概率D(x)進(jìn)行計(jì)算。

通過判別模型輸出的數(shù)據(jù)信息損失能夠?qū)崿F(xiàn)正確的信息分類,并通過平均對(duì)數(shù)概率實(shí)現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)信息損耗計(jì)算。在進(jìn)一步計(jì)算過程中,通過對(duì)比真實(shí)經(jīng)驗(yàn)樣本以及數(shù)據(jù)生成模型進(jìn)而實(shí)現(xiàn)均等混合數(shù)據(jù)信息的評(píng)估輸出:

(7)

其中,生成模型的優(yōu)化方向是使D(x)增大,D(G(z))減小。將判別模型輸出的真實(shí)樣本通過大概率取樣,進(jìn)而能夠?qū)⑸赡P蜆颖靖怕手当M可能小;而判別模型與其理念相反。在明白兩個(gè)模型的優(yōu)化方向后,下面將闡述生成模型與判別模型的訓(xùn)練樣本過程。

首先,生成模型作為訓(xùn)練樣本的概率期望回報(bào)值V相關(guān)公式為

V=E[logD(x)]+E[log(1-D(x))]

(8)

對(duì)式(8)用積分的形式表示出來:

(9)

(10)

其中,Pdata表示整個(gè)對(duì)抗模型訓(xùn)練出數(shù)據(jù)樣本的概率,PG(x)表示生成模型G訓(xùn)練出數(shù)據(jù)樣本的概率。將式(10)帶入到式(9)中并進(jìn)行化簡計(jì)算得到:

V=-2log 2+2JSD(Pdata(x)|PG(x))

(11)

其中,JSD表示分布相似性的散度。通過式(11)的轉(zhuǎn)換得到生成模型G訓(xùn)練出來的樣本為

2JSD(Pdata(x)|PG(x))

(12)

通過式(12)可以得出,通過組合判別模型D與生成模型G,能夠進(jìn)而輸出生成的對(duì)抗網(wǎng)絡(luò)模型。這是因?yàn)榕袆e模型的優(yōu)先優(yōu)化更有利于目標(biāo)函數(shù)快速收斂,對(duì)訓(xùn)練樣本的速度影響更大,關(guān)于生成對(duì)抗網(wǎng)絡(luò)優(yōu)化過程如圖2所示。

(a) 初始過程

(b) 優(yōu)化判別模型

(c) 優(yōu)化生成模型

(d) 兩個(gè)模型收斂圖2 生成對(duì)抗網(wǎng)絡(luò)模型的優(yōu)化過程

1.3 基于生成對(duì)抗網(wǎng)絡(luò)的強(qiáng)化學(xué)習(xí)算法

1.3.1 算法總體結(jié)構(gòu)框架

針對(duì)強(qiáng)化學(xué)習(xí)在訓(xùn)練樣本的開始階段,訓(xùn)練樣本學(xué)習(xí)效率低下,收斂速度滿足不了現(xiàn)有技術(shù)的需求,該研究將生成對(duì)抗網(wǎng)絡(luò)模型融入本研究技術(shù)中,通過構(gòu)建和設(shè)計(jì)強(qiáng)化學(xué)習(xí)算法提高該研究的計(jì)算能力,總體結(jié)構(gòu)框如圖3所示。

圖3 算法總體結(jié)構(gòu)框架示意圖

由圖3可知,在訓(xùn)練開始之前,根據(jù)強(qiáng)化學(xué)習(xí)的目標(biāo)策略進(jìn)行和歷史數(shù)據(jù)的真實(shí)經(jīng)驗(yàn)樣本聯(lián)合構(gòu)建真實(shí)經(jīng)驗(yàn)樣本集。在訓(xùn)練初始情況下,將生成對(duì)抗網(wǎng)絡(luò)算法模型的數(shù)學(xué)模型以及樣本數(shù)據(jù)模型作為試驗(yàn)樣本數(shù)據(jù)信息進(jìn)行訓(xùn)練、分析,以生成新的樣本,這種樣本數(shù)據(jù)信息并不是歷史數(shù)據(jù)所得出的真實(shí)經(jīng)驗(yàn),僅是理論上可行的數(shù)據(jù)樣本,可稱為虛擬樣本[6]。虛擬樣本不能直接并入真實(shí)經(jīng)驗(yàn)樣本集中,還需要通過智能體agent進(jìn)行一次訓(xùn)練,智能體類似于人腦一樣,既可以感知環(huán)境信息,也可以執(zhí)行最優(yōu)決策[7]。它會(huì)將好的虛擬樣本并入到真實(shí)樣本集當(dāng)中,提高訓(xùn)練樣本的質(zhì)量。大量的經(jīng)驗(yàn)樣本不斷更新狀態(tài)動(dòng)作,以達(dá)到全局最優(yōu)。同時(shí)引入關(guān)系修正單元,基于生成對(duì)抗網(wǎng)絡(luò)算法模型將經(jīng)驗(yàn)樣本一分為二,并算出兩者的相似性[8],在狀態(tài)空間大的情況下,能顯著提高強(qiáng)化學(xué)習(xí)的訓(xùn)練速度,并通過相對(duì)熵進(jìn)一步提高訓(xùn)練樣本的質(zhì)量。

在生成對(duì)抗網(wǎng)絡(luò)模型的基礎(chǔ)下定義強(qiáng)化學(xué)習(xí)計(jì)算,為了更好地進(jìn)行描述,需引入真實(shí)經(jīng)驗(yàn)樣本集C和獎(jiǎng)賞函數(shù)r的概念,表示為

C=[(s,a),(s′,r)]=[x1,x2]

(13)

在后續(xù)狀態(tài)函數(shù)s中,如何將該函數(shù)信息延續(xù)也是生成對(duì)抗網(wǎng)絡(luò)模型工作的關(guān)鍵,通常通過生成有限的狀態(tài)函數(shù)s′實(shí)現(xiàn)數(shù)據(jù)信息的分析與計(jì)算。在信息分析時(shí),通過將x1、x2兩者不同的數(shù)據(jù)信息產(chǎn)生數(shù)據(jù)關(guān)聯(lián)具有至關(guān)重要的作用,其關(guān)聯(lián)性通過以下公式描述:

I(x1,x2)=H(x2)-H(x2|x1)=P(x2)log2(P(x2))+

P(x2,x1)log2(P(x2|x1))=

(14)

式中,H表示熵,I表示x1、x2兩者之間的差異性。通過生成對(duì)抗網(wǎng)絡(luò)算法模型生成經(jīng)驗(yàn)樣本集G:

G=[(s,a),(s′,r)]=[G1,G2]

(15)

其中,G1、G2分別對(duì)應(yīng)x1、x2。由于后續(xù)狀態(tài)函數(shù)是延續(xù)上一個(gè)有限的狀態(tài)函數(shù),因此G1、G2兩者具有相似性,引入相對(duì)熵(KL)的概念,用其表示G1、G2兩者相似性:

(16)

式中,P數(shù)據(jù)信息對(duì)應(yīng)G1,Q數(shù)據(jù)信息對(duì)應(yīng)著G2。其中,p數(shù)據(jù)值對(duì)應(yīng)P函數(shù)值中數(shù)據(jù)信息,q值對(duì)應(yīng)Q數(shù)據(jù)信息中的函數(shù)值,i表示函數(shù)自變量。在狀態(tài)空間大的情況下,能顯著提高強(qiáng)化學(xué)習(xí)的訓(xùn)練速度,并且通過式(16)的延展推導(dǎo),還能滿足兩個(gè)關(guān)鍵要素:

(1) 倘若P=Q,則DKL=0。

以上關(guān)鍵要素用文字描述,則表示通過上述函數(shù)生成的數(shù)據(jù)狀態(tài)與后續(xù)數(shù)據(jù)信息生成的狀態(tài)相吻合,后續(xù)數(shù)據(jù)信息是通過函數(shù)生成的后續(xù)狀態(tài)與獎(jiǎng)賞函數(shù)進(jìn)行對(duì)比的工作進(jìn)行對(duì)比情況的比較。在這種數(shù)據(jù)信息的相對(duì)熵能夠以無限趨近的方式相似時(shí),則表示這種方式生成的數(shù)據(jù)信息或者通過對(duì)抗網(wǎng)絡(luò)算法模型進(jìn)行訓(xùn)練的樣本數(shù)據(jù)信息質(zhì)量比較高,根據(jù)式(7)演變得出:

(17)

其中,k為上述算法模型用到的權(quán)重參數(shù),W為上述算法模型中能夠?qū)崿F(xiàn)生成對(duì)抗網(wǎng)絡(luò)模型的目標(biāo)函數(shù)。當(dāng)相對(duì)熵比較無限地接近并與0趨近時(shí),能夠使對(duì)抗網(wǎng)絡(luò)算法模型輸出的目標(biāo)函數(shù)變得較小。

(2) 倘若PG=Pdata,則V(D,G)達(dá)到局部最優(yōu)。

以上關(guān)鍵要素用公式推導(dǎo),如果PG=Pdata,則根據(jù)式(10)得出D(x)=0.5,根據(jù)式(11)得出:

(18)

如果PG=Pdata,則P=Q,DKL=0,JSD=0,V(D,G)為最小值-2log2,取得局部最優(yōu)。

2 實(shí)驗(yàn)與分析

該研究構(gòu)建的實(shí)驗(yàn)內(nèi)容為一輛四輪小車處于兩面高中間底的山谷模型,其模型示意圖如圖4所示。

圖4 實(shí)驗(yàn)?zāi)P?/p>

該實(shí)驗(yàn)?zāi)P偷哪M內(nèi)容為在一個(gè)光滑曲面上給四輪小車一個(gè)加速度,使其到達(dá)五角形標(biāo)記的位置。但由于四輪小車初始加速度很小,四輪小車不能向左一次出發(fā)到達(dá)標(biāo)記位置,需經(jīng)過利用慣性,多次上下坡才能完成測試條件。在該實(shí)驗(yàn)?zāi)P椭校瑢?shí)驗(yàn)中設(shè)置重要參數(shù)折扣因子γ=0.99,學(xué)習(xí)率α=0.001,狀態(tài)s=[p,v],動(dòng)作a={+1,-1,0}。p表示四輪小車所處的水平位置,v表示四輪小車當(dāng)前位置的瞬時(shí)速度。+1表示四輪小車的初始加速度向左,-1表示四輪小車的初始加速度向右,0表示不給四輪小車初始加速度。

數(shù)據(jù)試驗(yàn)時(shí),通過強(qiáng)化學(xué)習(xí)算法的工具包OpenAI Gym進(jìn)行仿真,計(jì)算機(jī)操作系統(tǒng)為Windows 10,64位,計(jì)算機(jī)的開發(fā)工具為Visual Studio 2019,OpenCV 3.0,該研究采用文獻(xiàn)[5]中Q學(xué)習(xí)算法作為參照,采用基于生成對(duì)抗網(wǎng)絡(luò)的強(qiáng)化學(xué)習(xí)(GRL)算法與Q學(xué)習(xí)算法在實(shí)驗(yàn)?zāi)P蜕线M(jìn)行訓(xùn)練,初始訓(xùn)練次數(shù)為5,兩種算法需獨(dú)立執(zhí)行10次,得出訓(xùn)練次數(shù)與算法執(zhí)行步數(shù)關(guān)系曲線如圖5所示。

圖5 兩種算法性能對(duì)比圖

從圖5中可以看出,采用生成對(duì)抗網(wǎng)絡(luò)的強(qiáng)化學(xué)習(xí)算法收斂所需的訓(xùn)練次數(shù)更少,這表明采用生成對(duì)抗網(wǎng)絡(luò)的強(qiáng)化學(xué)習(xí)算法的系統(tǒng)性能更好,訓(xùn)練樣本的速度也更快。分析其原因在于采用生成對(duì)抗網(wǎng)絡(luò)將真實(shí)經(jīng)驗(yàn)樣本集C作為模板,生成新的虛擬樣本并入到樣本集C當(dāng)中,大量的經(jīng)驗(yàn)樣本不斷更新動(dòng)作a,因此訓(xùn)練樣本的速度快。

為了更好地表現(xiàn)出基于生成對(duì)抗網(wǎng)絡(luò)的強(qiáng)化學(xué)習(xí)算法性能優(yōu)勢(shì),該研究采用在訓(xùn)練次數(shù)為1和10的情況下開始生成樣本,并且應(yīng)用網(wǎng)絡(luò)模型輸出的對(duì)抗網(wǎng)絡(luò)進(jìn)行強(qiáng)化計(jì)算后的結(jié)果需獨(dú)立執(zhí)行10次,得出訓(xùn)練次數(shù)與算法執(zhí)行步數(shù)關(guān)系曲線如圖6、圖7所示。

圖6 起始訓(xùn)練次數(shù)為1的GRL算法性能圖

圖7 起始訓(xùn)練次數(shù)為10的GRL算法性能圖

結(jié)合圖6與圖7中GRL算法的曲線圖綜合來看,其中起始訓(xùn)練次數(shù)為1的GRL算法收斂得最快,在訓(xùn)練次數(shù)為40左右就已收斂,而起始訓(xùn)練次數(shù)5和10的GRL算法分別在訓(xùn)練次數(shù)為60與80次的收斂。分析其原因在于采用生成對(duì)抗網(wǎng)絡(luò)將真實(shí)經(jīng)驗(yàn)樣本集C作為模板,生成新的虛擬樣本并入到樣本集C當(dāng)中,越早的加入生成新的虛擬樣本,更新動(dòng)作a的頻率也就越大,因此在起始訓(xùn)練樣本次數(shù)越低的情況下,用生成對(duì)抗網(wǎng)絡(luò)的強(qiáng)化學(xué)習(xí)算法的系統(tǒng)性也就會(huì)更好,訓(xùn)練樣本的速度也更快。

3 總結(jié)

該研究利用生成對(duì)抗網(wǎng)絡(luò)模型與執(zhí)行最大熵強(qiáng)化學(xué)習(xí)算法之間的等效性,推導(dǎo)使用一種特殊形式的判別模型,該判別模型利用了生成模型的似然值,從而對(duì)目標(biāo)函數(shù)收斂進(jìn)行了無差別估計(jì)。上述方法的輸出結(jié)果表明,該研究方法的輸出性能比Q算法的輸出性能具有顯著的提升,該算法的收斂速度比較快。這種方案也存在其他方面的不足,這仍舊需要進(jìn)一步探究。

猜你喜歡
信息模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
展會(huì)信息
一個(gè)相似模型的應(yīng)用
信息
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 99视频只有精品| 人人妻人人澡人人爽欧美一区 | 天天色综网| 性视频一区| 国产精品综合色区在线观看| 99热亚洲精品6码| 人妻免费无码不卡视频| 亚洲日本中文综合在线| 亚洲国模精品一区| 91成人在线免费视频| 99久久精品免费观看国产| 97久久精品人人做人人爽| 91尤物国产尤物福利在线| 亚洲中字无码AV电影在线观看| 中文字幕无码中文字幕有码在线 | 成人福利在线视频免费观看| 五月天天天色| 99久视频| 国产黑人在线| 亚洲A∨无码精品午夜在线观看| 久久综合国产乱子免费| 亚洲国产日韩一区| 精品一区二区久久久久网站| 日韩在线中文| 亚洲激情99| 在线一级毛片| 手机看片1024久久精品你懂的| 国产成人精品18| 人妻无码一区二区视频| 亚洲大尺码专区影院| 日韩国产高清无码| 色噜噜在线观看| 成人毛片在线播放| 国产精品开放后亚洲| 成人在线观看不卡| 国产欧美视频一区二区三区| 日本亚洲最大的色成网站www| 在线亚洲精品自拍| 久久免费看片| 欧美亚洲一二三区| 制服丝袜国产精品| 精品视频在线观看你懂的一区| 婷婷伊人五月| 国产专区综合另类日韩一区 | 少妇精品网站| 91成人精品视频| 国产精品入口麻豆| 丁香五月婷婷激情基地| 成人国产精品网站在线看| 成人福利在线视频| 久996视频精品免费观看| 国产网友愉拍精品| 久热中文字幕在线观看| 久久国产精品77777| 欧洲亚洲一区| 亚洲一区二区约美女探花| 老司机午夜精品网站在线观看| 亚洲精品无码日韩国产不卡| 凹凸国产熟女精品视频| 2022精品国偷自产免费观看| 永久免费无码日韩视频| 日韩一级二级三级| 国产成人一区| 国产午夜精品一区二区三区软件| 四虎国产精品永久在线网址| 国产成人精品一区二区免费看京| 高h视频在线| 色婷婷亚洲综合五月| 中国美女**毛片录像在线| 久久国产精品影院| 久久婷婷综合色一区二区| 日本精品影院| 国产sm重味一区二区三区| 亚洲欧美精品一中文字幕| 狠狠五月天中文字幕| 一区二区三区四区精品视频| 性欧美久久| 3344在线观看无码| Jizz国产色系免费| 亚洲精品无码成人片在线观看| 午夜福利无码一区二区| 久久综合久久鬼|