999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進(jìn)Q-Learning算法的機器人路徑規(guī)劃

2025-02-05 00:00:00潘琦濤趙岳生甘育國
物聯(lián)網(wǎng)技術(shù) 2025年3期

摘 要:移動機器人的路徑規(guī)劃問題受到了廣大學(xué)者的關(guān)注。當(dāng)機器人在未知環(huán)境中進(jìn)行路徑規(guī)劃時,為了提高規(guī)劃的效率,通常需要獲取相關(guān)的先驗知識。在強化學(xué)習(xí)路徑規(guī)劃中,先驗知識可以通過多種方式融入到算法中,其中Q-Learning算法是一種常用的方法。傳統(tǒng)的Q-Learning算法路徑規(guī)劃存在拐點多、路徑長、訓(xùn)練輪次多等問題。因此,提出一種改進(jìn)算法,針對原Q-Learning算法在機器人路徑規(guī)劃中存在的學(xué)習(xí)速度慢、探索效率低、規(guī)劃路徑長等突出問題進(jìn)行了優(yōu)化。首先,基于柵格地圖,在傳統(tǒng)算法的基礎(chǔ)上采用徑向基函數(shù)(RBF)網(wǎng)絡(luò)對Q-Learning算法的動作值函數(shù)進(jìn)行逼近;其次,為了平衡探索與利用的比例,采用了動態(tài)調(diào)整貪婪因子的方法;最后,增加了機器人可選擇的動作,擴充了動作集,改進(jìn)為八方向探索。仿真結(jié)果表明,與Q-Learning算法相比,改進(jìn)后的Q-Learning算法可將最優(yōu)路徑長度縮短23.33%,拐點個數(shù)減少63.16%,算法訓(xùn)練輪次減少31.22%。

關(guān)鍵詞:Q-Learning;ROS機器人;強化學(xué)習(xí);路徑規(guī)劃;徑向基函數(shù);探索策略

中圖分類號:TP242.6 文獻(xiàn)標(biāo)識碼:A 文章編號:2095-1302(2025)03-00-05

0 引 言

路徑規(guī)劃是移動機器人實現(xiàn)自主導(dǎo)航不可或缺的技術(shù)。一般來說,將路徑規(guī)劃過程描述為在已知或未知的環(huán)境中搜索一條從初始點到目標(biāo)點距離最短、轉(zhuǎn)折少、不碰撞障礙物的路線。路徑規(guī)劃常用的算法有傳統(tǒng)規(guī)劃算法、利用幾何學(xué)的圖形方法、借鑒生物機制的仿生學(xué)算法和其他算法[1-4]。強化學(xué)習(xí)算法在機器人的路徑規(guī)劃與避障中得到廣泛應(yīng)用,其在解決復(fù)雜環(huán)境中的規(guī)劃問題時具有一定的優(yōu)勢,其中Q-Learning算法是常用的一種算法[5]。

傳統(tǒng)的Q-Learning算法在程序初始化時,將Q值全部設(shè)置為0,這導(dǎo)致移動機器人在初始階段的環(huán)境探索范圍不明確且起始階段迭代次數(shù)太多,從而影響到起步階段移動機器人的探索學(xué)習(xí)速度。文獻(xiàn)[6]使用了鯨魚優(yōu)化算法來初始化Q值表,加快了Q-Learning算法的收斂速度,其次提高了鯨魚優(yōu)化算法的局部開發(fā)能力,結(jié)合配對策略提出了配對鯨魚優(yōu)化算法,以加快探索的速度。文獻(xiàn)[7]提出了一種基于Q-Learning算法的經(jīng)驗-記憶Q-Learning(EMQL)算法,其學(xué)習(xí)效率通過靜態(tài)獎勵和動態(tài)獎勵組成的雙重獎勵機制得到了提高。其中,靜態(tài)獎勵可以防止機器人過度探索狀態(tài)節(jié)點,動態(tài)獎勵幫助機器人避免在未知環(huán)境中進(jìn)行盲目探索。文獻(xiàn)[8]引入了信息素機制,使得Q-Learning算法在迭代過程中持續(xù)地優(yōu)化智能體的探索范圍,但不能保證尋得最優(yōu)解。文獻(xiàn)[9]提出了基于階段的Q-Learning算法,通過設(shè)置探索步長和獎勵值提高算法的收斂速度。

上述改進(jìn)算法從Q值表初始化、獎勵機制、探索范圍、探索步長等方面出發(fā)提高了算法的性能,但是未針對Q-Learning算法的缺點逐一進(jìn)行優(yōu)化改進(jìn),導(dǎo)致算法效率不高,不容易求得最優(yōu)解,改進(jìn)效果不明顯。基于此,本文提出了一種改進(jìn)的Q-Learning算法。實驗結(jié)果表明,該算法相比于Q-Learning算法更優(yōu)異,訓(xùn)練輪次減少且規(guī)劃的路徑長度縮短。

1 Q-Learning 算法

1.1 強化學(xué)習(xí)相關(guān)理論

Q-Learning是強化學(xué)習(xí)的一種算法,用于在沒有先驗環(huán)境信息的情況下,通過不斷試錯、反復(fù)探索和學(xué)習(xí)來求解最優(yōu)策略[10]。強化學(xué)習(xí)旨在通過智能體與環(huán)境之間的相互作用學(xué)習(xí),不斷調(diào)整策略以獲取最佳的決策,最終達(dá)成特定目標(biāo)。智能體通過執(zhí)行動作影響環(huán)境,之后環(huán)境返回獎賞和狀態(tài),此交互過程被稱作馬爾可夫決策過程(Markov Decision Process, MDP)[11]。如圖1所示,強化學(xué)習(xí)的基本要素包括可以行動的智能體(agent)、環(huán)境(environment)、動作(action)、狀態(tài)(state)和獎賞(reward)。在強化學(xué)習(xí)中,智能體以一種試錯的方式進(jìn)行學(xué)習(xí)。它選擇一個動作,將其應(yīng)用于當(dāng)前的狀態(tài),然后觀察環(huán)境的反饋,即下一個狀態(tài)和相應(yīng)的獎賞。通過不斷地與環(huán)境交互,智能體逐漸學(xué)會改進(jìn)自己的決策與行為,從而獲得最大的累計獎賞。

強化學(xué)習(xí)的任務(wù)通常使用馬爾可夫決策過程(MDP)來描述,其求解過程需滿足馬爾可夫性。該性質(zhì)也稱無后效性,即系統(tǒng)的當(dāng)前狀態(tài)已經(jīng)包含對未來所有信息的預(yù)測,過去的狀態(tài)對后續(xù)的狀態(tài)不產(chǎn)生影響。只要系統(tǒng)當(dāng)前狀態(tài)已知,就可以決定系統(tǒng)未來的狀態(tài),那么該狀態(tài)具有馬爾可夫性,可用式(1)描述:

P(St+1|St)=P(St+1|S1, S2, S3, ..., St) (1)

式中:S是有限狀態(tài)集,記為S={S1, S2, …, Sn};P是狀態(tài)轉(zhuǎn)移矩陣,定義為狀態(tài)對之間發(fā)生轉(zhuǎn)移的概率,用式(2)描述:

(2)

引入動作集A、獎懲函數(shù)R,即可組成四元組lt;S, A, P, Rgt;。其中,狀態(tài)集S包含了系統(tǒng)在有限時間內(nèi)的狀態(tài);動作集A包含了智能體的可選動作;P是狀態(tài)轉(zhuǎn)移矩陣;獎懲函數(shù)R用于計算智能體在某個狀態(tài)下做出行動后得到的獎勵值。

1.2 Q-Learning算法流程

強化學(xué)習(xí)的算法主要有時間差分(TD)算法、Q-Learning、SARSA學(xué)習(xí)算法、A3C算法、SAC算法和DQN算法[12-17]。其中,Q-Learning算法是在時間差分(TD)算法的基礎(chǔ)上提出的通過狀態(tài)-動作對值函數(shù)Q(S, A)來進(jìn)行值函數(shù)迭代的算法, 這是一種與模型無關(guān)的迭代學(xué)習(xí)過程。Q值表示智能體在執(zhí)行一個動作后,由現(xiàn)在的狀態(tài)轉(zhuǎn)到下一個狀態(tài)的獎賞值。Q-Learning算法的流程如圖2所示,通常初始化Q值表,令其值為0,接著機器人根據(jù)Q值表選擇一個動作并執(zhí)行。環(huán)境會反饋給機器人一個狀態(tài)和執(zhí)行動作的回報,然后依據(jù)迭代公式更新Q值表,最后機器人返回選擇動作,如此循環(huán)。

Q-Learning算法中Q值表的迭代公式為:

Q′(s, a)=Q(s, a)+α[r+γmaxa′ Q(s′, a′) - Q(s, a)] (3)

式中:Q′(s, a)為當(dāng)前狀態(tài)和動作的新Q值,s為系統(tǒng)環(huán)境的狀態(tài)集合,a為智能體的動作集合;Q(s, a)為當(dāng)前Q值;α為學(xué)習(xí)速率,取值范圍是小于1的正數(shù);γ為折現(xiàn)率,取值范圍為[0, 1];r為即時獎勵,該值是智能體在當(dāng)前狀態(tài)下做出行動的獎勵;s′為智能體執(zhí)行當(dāng)前動作a后的下一狀態(tài),a′為相應(yīng)的下一動作;maxa′ Q(s′, a′)為在新狀態(tài)s′下累計得到的最大獎勵值。

2 改進(jìn)的Q-Learning算法

為了解決Q-Learning算法在執(zhí)行路徑規(guī)劃任務(wù)時存在的收斂速度緩慢、探索與利用效率低、規(guī)劃路徑不佳等問題,本文將從Q值表初值、機器人探索機制、探索步長等方面對Q-Learning算法進(jìn)行改進(jìn)。

2.1 RBF神經(jīng)網(wǎng)絡(luò)

在路徑規(guī)劃中,機器人的狀態(tài)大部分是連續(xù)的,狀態(tài)空間的維度過高,采用傳統(tǒng)的表格表示較困難,并且Q-Learning算法會產(chǎn)生“維數(shù)災(zāi)難”問題。RBF神經(jīng)網(wǎng)絡(luò)具有許多優(yōu)點,包括結(jié)構(gòu)簡單、易訓(xùn)練、收斂速度快等,其核心能力在于能夠逼近任意非線性函數(shù)。因此,本節(jié)利用RBF神經(jīng)網(wǎng)絡(luò)的局部逼近能力來逼近Q-Learning算法中的Q值函數(shù),可以有效地處理高維狀態(tài)空間,并獲得準(zhǔn)確的Q值函數(shù)估計,從而改善算法性能。

RBF神經(jīng)網(wǎng)絡(luò)是前饋神經(jīng)網(wǎng)絡(luò),神經(jīng)元之間的信息流只能沿著前向的方向傳遞,用于對輸入數(shù)據(jù)進(jìn)行逼近。輸入層接收數(shù)據(jù),隱藏層通過高斯函數(shù)映射數(shù)據(jù),輸出層生成最終結(jié)果。網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,該網(wǎng)絡(luò)是n輸入m輸出的,并且有j個隱節(jié)點。圖中,X=[x1, x2, ..., xn]T是n維輸入向量;Ci=[ci, 1, ci, 2, ..., ci, n]是第i個隱節(jié)點的位置,i=1, 2, ..., j,Ci是n維的;Wj, m=[w1, w2, ..., wj]T為隱藏層輸出權(quán)值矩陣,wi=[wi, 1, wi, 2, ..., wi, m];Y=[y1, y2, ..., ym]T為m維輸出向量。

RBF神經(jīng)網(wǎng)絡(luò)與Q-Learning算法相結(jié)合的RBF-Q網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。

圖4中,第一層為輸入層,RBF-Q網(wǎng)絡(luò)的輸入變量由Q-Learning算法中的有限狀態(tài)變量和動作變量組成,其中有限狀態(tài)變量是n維的,記S=[s1, s2, ..., sn]T,動作變量記為a。因此,RBF-Q網(wǎng)絡(luò)輸入變量維數(shù)是n+1,記輸入變量為x=[x1, x2, ..., xn, xk]T,k=n+1。

第二層有j個節(jié)點,每個節(jié)點為k維高斯函數(shù),第q個節(jié)點的表達(dá)式為,i=1, 2, ..., k;q=1, 2, ...,""j。φq為隱藏層第q個節(jié)點的輸出,xi為輸入向量的第i個分量,μiq和σiq分別為第q個徑向基函數(shù)(RBF)的中心及寬度。

第三層的輸出節(jié)點是唯一的,其值為第二層各個節(jié)點的輸出值乘以其權(quán)重的和,即 ,ωi是第i個隱藏層節(jié)點和輸出節(jié)點之間的權(quán)值。

2.2 動態(tài)調(diào)整貪婪因子

Q-Learning算法通過ε-貪婪策略來選擇當(dāng)前狀態(tài)下的最優(yōu)動作,即選擇具有最大Q值的動作。然而,為了探索未知的狀態(tài)和動作,Q-Learning也會以一定的概率選擇非最優(yōu)動作,這被稱為探索策略。

ε-貪婪策略可以用數(shù)學(xué)表達(dá)式表達(dá)如下:

(4)

式中:A為動作集;p為概率;為使得智能體獲得最大獎賞的動作。ε參數(shù)的選擇會影響收斂速度,當(dāng)ε的值較大時,探索的機會更多,模型的收斂速度更快;當(dāng)ε的值較小時,利用的機會更多,但收斂速度比較慢。

為了提高算法的性能和效率,需要根據(jù)環(huán)境的反饋來調(diào)整智能體的探索和利用策略,即動態(tài)調(diào)整貪婪因子ε,數(shù)學(xué)表達(dá)式如下:

ε=max{εmax-e·εdecay, εmin} (5)

式中:εmax和εmin分別是貪婪因子的最大值和最小值;εdecay是每個訓(xùn)練輪次中貪婪因子的衰減量;e是當(dāng)前的訓(xùn)練輪數(shù)。通過動態(tài)調(diào)整貪婪因子ε的值,可以在訓(xùn)練過程中逐漸減少探索的比例,增加利用的比例。改進(jìn)后的策略在初始階段會進(jìn)行更多探索,以便更好地了解環(huán)境和獲取更多信息;而在后續(xù)階段會更多地利用已知信息作為先驗知識,獲得更高的回報。

2.3 多步長探索機制

實際應(yīng)用場景中的機器人可以沿著任意方向進(jìn)行移動搜索,但在仿真場景中應(yīng)用Q-Learning算法時受柵格地圖特征的影響,可供機器人搜索的方向是有限的。傳統(tǒng)算法通常采用四方向搜索,如圖5所示,機器人可采取的動作有4個,分別是上、下、左、右,記為a1~a4。

為提高算法的探索效率,增加了對角線方向的探索,以該機器人為中心,定義其可執(zhí)行的8個方向的動作,即上、下、左、右、左上、左下、右上、右下,如圖6所示。

移動機器人可采取的動作記為ai(i=1~8)。機器人選擇并執(zhí)行動作后,狀態(tài)會發(fā)生變換,對應(yīng)關(guān)系見表1。其中,st表示移動機器人當(dāng)前的狀態(tài)。

3 實驗分析

本文將分別在隨機分布型障礙物、直線型障礙物、U型障礙物和復(fù)雜障礙物環(huán)境下,對改進(jìn)Q-Learning算法的規(guī)劃路徑進(jìn)行仿真,以測試算法的可行性。在4張不同的柵格地圖中設(shè)置移動機器人的起點、終點和障礙物。設(shè)置最大訓(xùn)練輪次為500次,對比在同一環(huán)境下采用Q-Learning算法和改進(jìn)的Q-Learning算法訓(xùn)練得到的結(jié)果。

3.1 隨機分布型障礙物環(huán)境下的路徑規(guī)劃仿真

環(huán)境設(shè)置為20×20的柵格地圖,障礙物為隨機分布的方塊,邊長為1,數(shù)量為15個。設(shè)定起點坐標(biāo)為(2, 2),終點坐標(biāo)為(18, 18),分別用原始算法和改進(jìn)后的算法進(jìn)行路徑規(guī)劃。圖7(a)所示為Q-Learning算法規(guī)劃的路徑,圖7(b)所示為改進(jìn)的Q-Learning算法規(guī)劃的路徑。

Q-Learning算法規(guī)劃的路徑長度為30,拐點為19個,訓(xùn)練輪次為392次;而改進(jìn)的Q-Learning算法規(guī)劃的路徑長度為23.8,拐點為7個,訓(xùn)練輪次為279次。可以看出,在隨機分布型障礙物環(huán)境下,Q-Learning算法規(guī)劃路徑時,為了躲避離散的障礙物進(jìn)行了多次轉(zhuǎn)折,浪費了步數(shù)。改進(jìn)的Q-Learning算法則因為其八方向搜索的優(yōu)勢,能更精細(xì)地進(jìn)行轉(zhuǎn)折,節(jié)約了步數(shù)。改進(jìn)后的Q-Learning算法的路徑長度縮短了20.67%,拐點減少了63.16%,訓(xùn)練輪次減少了28.83%。

3.2 直線型障礙物環(huán)境下的路徑規(guī)劃仿真

仿真環(huán)境為20×20的柵格地圖,障礙為長條形,數(shù)量為4個。設(shè)定起點坐標(biāo)為(2, 2),終點坐標(biāo)為(18, 18),分別用原始算法和改進(jìn)算法進(jìn)行路徑規(guī)劃。圖8(a)所示為Q-Learning算法規(guī)劃的路徑,圖8(b)所示為改進(jìn)的Q-Learning算法規(guī)劃的路徑。

Q-Learning算法規(guī)劃的路徑長度為32,拐點為15個,訓(xùn)練輪次為366次;而改進(jìn)的Q-Learning算法規(guī)劃的路徑長度為23.2,拐點為4個,訓(xùn)練輪次為228次。可以看出,長條形的障礙物對Q-Learning算法的影響很大,在規(guī)劃路線時,機器人需要不斷改變方向來避免撞到障礙物,導(dǎo)致拐點多、路徑長。而改進(jìn)后的Q-Learning算法注重探索與利用的平衡,前期得到的先驗知識可以幫助機器人更高效率地規(guī)劃路線,結(jié)合八方向探索,能夠在較少的訓(xùn)練輪次中規(guī)劃最佳的路線。改進(jìn)算法規(guī)劃的路徑長度縮短了27.50%,拐點減少了73.33%,訓(xùn)練輪次減少了37.70%。

3.3 U型障礙物環(huán)境下的路徑規(guī)劃仿真

仿真環(huán)境為20×20的柵格地圖,障礙為倒U型,起點位置位于障礙物內(nèi)部的中心點。設(shè)定起點坐標(biāo)為(4, 4),終點坐標(biāo)為(18, 18),分別用原始算法、改進(jìn)后的Q-Learning算法進(jìn)行路徑規(guī)劃。圖9(a)所示為Q-Learning算法規(guī)劃的路徑,圖9(b)所示為改進(jìn)的Q-Learning算法規(guī)劃的路徑。

Q-Learning算法在U型障礙物環(huán)境下進(jìn)行路徑規(guī)劃時,由于起點位于障礙物內(nèi)部的中心點,此時需要先規(guī)劃一條路徑從障礙區(qū)域出來,會耗費較多的訓(xùn)練輪次。而改進(jìn)后的Q-Learning算法使用了RBF網(wǎng)絡(luò)逼近Q值,結(jié)合八方向探索,可以很快貼近障礙物邊緣,找到一條離開障礙區(qū)域的捷徑。數(shù)據(jù)表明,Q-Learning算法規(guī)劃路徑的長度、拐點和訓(xùn)練輪次分別為32、11個、390次。改進(jìn)的Q-Learning算法規(guī)劃路徑的長度、拐點、輪次分別為24.4、4個、291次。改進(jìn)后的算法的路徑長度縮短了23.75%,拐點減少了63.64%,訓(xùn)練輪次減少了25.38%。

3.4 復(fù)雜障礙物環(huán)境下的路徑規(guī)劃仿真

仿真環(huán)境為20×20的柵格地圖,障礙物類型有矩形、工字型、拐角型、長條形、U字型等。設(shè)定起點坐標(biāo)為(2, 2),終點坐標(biāo)為(18, 18),分別用原始算法和改進(jìn)算法進(jìn)行路徑規(guī)劃。圖10(a)所示為Q-Learning算法規(guī)劃的路徑,圖10(b)為改進(jìn)的Q-Learning算法規(guī)劃的路徑。

數(shù)據(jù)表明,Q-Learning算法規(guī)劃路徑的長度、拐點和訓(xùn)練輪次分別為32、14個、271次。改進(jìn)的Q-Learning算法規(guī)劃路徑的長度、拐點、輪次分別為25.2、6個、178次。改進(jìn)后的算法的路徑長度縮短了21.25%、拐點減少了57.14%、訓(xùn)練輪次減少了34.32%。

4 結(jié) 語

本文基于柵格地圖環(huán)境對Q-Learning算法進(jìn)行改進(jìn)。首先,為解決算法收斂速度緩慢的問題,利用了RBF神經(jīng)網(wǎng)絡(luò)的局部逼近能力來逼近算法中的Q值函數(shù)。其次,為了平衡算法中探索與利用的比例,采用動態(tài)調(diào)整貪婪因子的方法。智能體在初始階段會注重探索,獲得先驗知識,在后續(xù)階段則利用先驗知識獲取更高的獎勵。最后,為提高算法探索效率,增加了智能體探索的方向,從原本的四方向增加到八方向,提高了探索的靈活性。對比改進(jìn)后的Q-Learning算法和Q-Learning算法在同一障礙物環(huán)境和同樣訓(xùn)練次數(shù)下的仿真實驗結(jié)果,結(jié)果表明:改進(jìn)的Q-Learning算法訓(xùn)練得到的路徑長度更短,其收斂速度也有所提高,驗證了改進(jìn)的Q-Learning算法的可行性。綜合來看,改進(jìn)后的Q-Learning算法相比原始的Q-Learning算法規(guī)劃路徑長度縮短了23.33%, 拐點個數(shù)減少了64.41%, 訓(xùn)練輪次減少了31.22%。

參考文獻(xiàn)

[1]遠(yuǎn)子涵,張皓,左晉,等.基于12方向24鄰域的A*算法路徑規(guī)劃研究[J].北京印刷學(xué)院學(xué)報,2023,31(9):38-43.

[2]黃蓮花,李光明.基于Voronoi圖和快速行進(jìn)的移動機器人導(dǎo)航路徑規(guī)劃[J].機械設(shè)計與制造,2023(11):87-92.

[3]于振中,李強,樊啟高.智能仿生算法在移動機器人路徑規(guī)劃優(yōu)化中的應(yīng)用綜述[J].計算機應(yīng)用研究,2019,36(11):3210-3219.

[4]崔煒,朱發(fā)證.機器人導(dǎo)航的路徑規(guī)劃算法研究綜述[J].計算機工程與應(yīng)用,2023,59(19):10-20.

[5] SOONG E L, PAULINE O, YEE C L . A modified Q-Learning path planning approach using distortion concept and optimization in dynamic environment for autonomous mobile robot [J]. Computers amp; industrial engineering, 2023, 181.

[6] MENG Z, HUI L, SIYI Y, et al. The experience-memory Q-Learning algorithm for robot path planning in unknown environment[J]. IEEE access, 2020, 8.

[7] XU S H, GU Y, LI X Y, et al. Indoor emergency path planning based on the Q-Learning optimization algorithm [J]. ISPRS international journal of geo-information, 2022, 11(1).

[8]田曉航,霍鑫,周典樂,等.基于蟻群信息素輔助的Q學(xué)習(xí)路徑規(guī)劃算法[J].控制與決策,2023,38(12):3345-3353.

[9]楊秀霞,高恒杰,劉偉,等.基于階段Q學(xué)習(xí)算法的機器人路徑規(guī)劃[J].兵器裝備工程學(xué)報,2022,43(5):197-203.

[10] YUTO T, MASAHIRO U. A usage aware dynamic spectrum access scheme for interweave cognitive radio network by exploiting deep reinforcement learning [J]. Sensors, 2022, 22(18).

[11] SHOTA O, EIJI U, YOTARO Y, et al. Constrained deep Q-Learning gradually approaching ordinary Q-Learning [J]. Frontiers in neurorobotics, 2019, 13.

[12] ANYA S, TIBOR K. Neuronal implementation of the temporal difference learning algorithm in the midbrain dopaminergic system [J]. Proceedings of the national academy of sciences of the United States of America, 2023, 120(45).

[13] MAHDI M, MASOUD M. A deep Q-Learning based algorithmic trading system for commodity futures markets [J]. Expert systems with applications, 2024, 237(PC).

[14]孟建軍,蔣小一,陳曉強,等.基于Sarsa算法的城軌列車節(jié)能控制策略研究[J].鐵道標(biāo)準(zhǔn)設(shè)計,2024,68(8):8-14.

[15]張文龍,張潔.基于A3C的有序充電算法[J].計算機技術(shù)與發(fā)展, 2023,33(1):173-177.

[16]鄢霞,何勇,張慶銘,等.基于SAC的永磁同步電機智能控制算法[J].組合機床與自動化加工技術(shù),2023(9):86-91.

[17] SUN Y X, YUAN B, ZHANG T, et al. Research and implementation of intelligent decision based on a Priori knowledge and DQN algorithms in wargame environment [J]. Electronics, 2020, 9(10): 1668.

主站蜘蛛池模板: 国产成人综合日韩精品无码首页 | 狠狠色成人综合首页| 亚洲开心婷婷中文字幕| 欧美一区国产| 毛片视频网址| 国产9191精品免费观看| 无遮挡国产高潮视频免费观看| 人妻无码一区二区视频| 日韩成人在线网站| 欧美精品伊人久久| 亚洲天堂网在线观看视频| 欧美一级高清免费a| 日韩毛片在线播放| 人妻丰满熟妇αv无码| 在线国产毛片| 丰满的熟女一区二区三区l| 婷婷五月在线| 天堂在线www网亚洲| 麻豆精品在线视频| 青青青伊人色综合久久| 亚洲人成人无码www| 国产sm重味一区二区三区| 亚洲福利片无码最新在线播放 | 久久香蕉国产线看观看式| 欧美视频在线观看第一页| 55夜色66夜色国产精品视频| 亚洲国产成人久久77| 久久天天躁狠狠躁夜夜躁| 国产精品亚欧美一区二区三区| 亚洲成a人片在线观看88| 国产精品毛片一区| 色噜噜久久| 亚洲成a人在线观看| 又黄又湿又爽的视频| 四虎精品黑人视频| 国产日韩欧美一区二区三区在线| 国产91特黄特色A级毛片| 幺女国产一级毛片| 久久99精品久久久久纯品| 国产成人一区| 狠狠v日韩v欧美v| 亚洲午夜综合网| 亚洲高清免费在线观看| 中美日韩在线网免费毛片视频| 亚洲人成人伊人成综合网无码| 亚洲精品无码抽插日韩| 久久亚洲国产最新网站| a毛片免费观看| 亚洲另类第一页| 日韩精品无码不卡无码| 国产精鲁鲁网在线视频| 日韩欧美国产另类| 日韩高清欧美| 国产精品无码在线看| 午夜视频免费试看| 日韩国产另类| 精品自窥自偷在线看| 亚洲h视频在线| 在线国产综合一区二区三区| 91久久偷偷做嫩草影院精品| 国产亚洲现在一区二区中文| 无码在线激情片| 精品国产一二三区| 日本一区高清| 免费人成又黄又爽的视频网站| 亚洲码一区二区三区| 日本午夜精品一本在线观看| 性喷潮久久久久久久久| 狠狠亚洲五月天| a毛片在线免费观看| 日韩精品视频久久| 免费全部高H视频无码无遮掩| 婷婷综合缴情亚洲五月伊| 天天色天天操综合网| 99re在线视频观看| 国产福利微拍精品一区二区| 精品91在线| 国产精品国产三级国产专业不| 老司机精品久久| 亚洲大尺码专区影院| 久久精品无码一区二区国产区| 伊人天堂网|