999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度強化學習的無人播種機自動路徑規劃研究

2023-10-17 07:03:42
農機化研究 2023年12期
關鍵詞:規劃動作環境

程 力

(鶴壁職業技術學院,河南 鶴壁 458030)

0 引言

近年來,我國農業生產還是采用傳統的經驗實現田間作業,需要大量的勞動力,而無人駕駛農機一直是科研人員研究的熱門領域之一。隨著硬件技術發展的突飛猛進,深度學習和強化學習都有較大的進展。為此,結合深度Q-learning和強化兩種學習算法的基礎理論,對無人播種機在未知環境下的自動路徑規劃進行了分析,旨在實現無人化的播種作業。

1 深度強化學習算法原理

1.1 強化學習算法

強化學習是一種將環境狀態變化反映到實際行為上的學習,可以通過持續的反饋讓后續的動作朝著獎勵最大化靠近,在智能控制系統中應用非常廣泛。強化學習與監督學習存在一定的差異,其不是采用正、反比例控制系統確定采取何種控制策略,而是將智能體Agent與環境(environment)聯系起來,通過迭代的嘗試獲取獎勵最大的工作。正常來說,執行的動作對當前獎勵值、下一次獎勵值以及整個過程的獎勵值都會有影響。

1)Markov決策。按照一定順序執行的強化學習策略,在處理過程中采用Markov決策建立強化學習模型。Markov決策包括環境狀態集合(S)、動作集合(A)、狀態轉移函數(T)和回報函數(R)等4個方面。

在Markov決策中,智能體Agent與環境二者在進行交互中,先對環境進行實時判斷st∈S;然后,根據策略執行當前動作at∈A;最后,根據此次動作的狀態轉移函數T:S×A→S及環境狀態st+1,獲得的當前動作獎勵值r。Markov決策的原理是將當前環境狀態和執行動作后獲得的獎勵值和此次環境狀態和執行動作聯系到一起比較,不去關心歷史狀態及動作引入的獎勵值參數。

狀態轉移函數值V(s)是指利用特定的控制系統,對某一中間狀態向目標狀態轉移過程中強化信號累積加權和的數學期望,其表達式為

(1)

其中,t為時間常量;γ∈[0,1]為折扣比例值域。Markov決策是指在眾多策略中選擇一個最優的策略,可讓強化信號累積值最大化。在時間節點t環境狀態s的函數表達式為

(2)

Markov決策算法中,其目的是找到最優解π*,得到過程中智能體Agent學習目標是找到最優策略解π*及最優的狀態轉移函數,即

(3)

2)強化學習模型。強化學習模型由Agent和環境兩部分組成,結構如圖1所示。

圖1 強化學習模型的結構示意圖Fig.1 The structure diagram of reinforcement learning model

為了對強化學習系統進行分析,采用三元組描述,其表達式為

(4)

其中,S和A分別為環境狀態和動作集合;P為環境狀態轉移集合;t為時間。

在t和t+1兩個時間節點,Agent通過與S的交互,分別獲得狀態函數變量st∈S和st+1∈S,執行動作為at∈A,獲得的反饋獎勵值為rt+1。強化系統的最優目標是找到略π*:S×A→S,從而獲得最大的獎勵值之和。獎勵值之和的表達式為

(5)

其中,γ∈[0,1],表示在未來時間節點中獎勵值較小的權值。

1.2 深度Q-learning算法

強化學習系統的決策能力有限,故在強化學習系統基礎上引入深度Q-learning算法,將二者結合起來,提供無人播種機的感知能力和特征提取能力,從而提高路徑規劃精度。

深度Q-learning算法是一種在強化學習系統的基礎上,引入基于Value-Based的深度學習方法,其通過學習研究對象狀態s經過執行動作a后的價值,再根據不同動作的價值使得價值之和最大化,從而得到最優策略。

在無人播種機自動路徑規劃問題中,可將其周邊環境變化看成Markov決策過程,采用五元組(S,A,P,γ,C)對其進行表示。其中,γ和C分別為折扣因子和獎賞值。為了求解最優策略,用值函數V代表策略動作帶來的獎賞期望值,即

(6)

其中,E和ct分別為期望值和獎賞值。

采用遞歸方法對上式進行簡化可得

(7)

其中,C(s,a)=E[C(s,a)]為c的平均值;Pss′(a)是狀態s到s′之間轉移的概率,則

(8)

基于最優策略π,可以得到Q-learning算法的表達式,即

(9)

其中,Qπ(s,a)為基于策略π情形下s到a的期望獎賞值。假設

Q*(s,a)=Qπ*(s)=C(s,a)+

(10)

若設定Q初始值為0,則可以得到Q-learning算法的準則為

(11)

其中,γ∈[0,1)為折扣因子;α為算法的學習效率,即

(12)

將Q-learning算法和無人播種機最優路徑求解結合起來,設每組(s,a)值都可以隨意變化得到多組獎賞值;若將α慢慢降成0,則Q也會逐漸向1收斂。那么,在無人播種機最優路徑求解過程中,只需要不斷跟新Q表,便能求得無人播種機路徑規劃最優解。

2 無人播種機自主路徑規劃設計

2.1 無人播種機運動模型

以無人播種機為研究對象,為了方便建立運動學模型,假設其由兩個后輪和一個具有轉向能力的前輪組成,屬于具有兩輪差分的運動模型。無人播種機實物如圖2所示,運動學模型如圖3所示。

圖2 無人播種機實物圖Fig.2 The physical drawing of unmanned planter

圖3 無人播種機運動學模型Fig.3 The kinematic model of unmanned planter

(13)

(14)

將式(13)和式(14)聯立起來求解,可得無人播種機的轉動半徑為

(15)

根據幾何關系,可以得到無人播種機的運動學模型為

(16)

2.2 基于RRT算法的自主路徑規劃

為了實現無人播種機的自主路徑規劃,選擇了強化學習中的快速遍歷隨機樹算法(RRT),對自主路徑規劃進行改進。RRT算法是一種采用樹形數據存儲結構,可以在狀態空間中建立模型,具有高效的搜索能力,適用于復雜情況下的路徑規劃。

因此,主要從以下幾個變量討論無人播種機的自主路徑規劃問題:

1)無人播種機的起始點xinit;

2)無人播種機的目標地點xgoal;

3)狀態空間隨機采樣點的節點xrand;

4)搜索過程中離隨機采樣點最近的點xnearest;

5)選擇隨機樹新節點xnew;

6)選擇新節點的搜索步長ρ;

7)選擇隨機采樣點的判定概率ρsearch。

RRT算法是從起始點開始,按照一定概率在作業周邊環境中隨機選擇采樣子節點,從而不斷擴大搜索樹的規模;當隨機樹中有子節點已經接近或到達目標點時,停止擴展隨機樹,此時依次從起始點連接父節點,便能夠達到目標地點或者附近,從而獲得一條可能的路徑。

RRT算法從路徑規劃任務的起始點開始,以固定概率在環境空間中隨機采樣子節點,以此來不斷擴大隨機搜索樹的規模;當隨機樹中的子節點到達了目標點或目標點附近時停止拓展隨機樹,此時從起始點開始依次連接父節點便可直接到達目標點或其附近,得到一條可行的規劃路徑。RRT算法結構示意如圖4所示。

圖4 RRT算法結構示意圖Fig.4 The structure diagram of RRT algorithm

RRT算法的偽代碼如下:

輸入:子節點數M,路徑規劃任務的起點xinit和xgoal

輸出:從xinit到xgoal的路徑

初始化xinit、xgoal和環境障礙物

for I = 1 to n do

xrand<—Sample(M);

xnear<—Near(xrand,T);

xnear<—steer(xrand,xnear,StepSize);

Ei<—Edge(xnear,xnear);

If CollisionFree(M,Ei) then

T.addNode(xnew);

T.addEdge(Ei);

If xnew=xgoalthen

Success();

3 仿真研究分析

無人播種機的作業環境是固定的,在分析過程中為了便于建立模型和數據處理,將主要環境和無人播種機進行識別建模,對無人播種機作業環境建立柵格進行平面分析與研究。RRT算法的路徑規劃流程如圖5所示。

圖6和圖7為10×10柵格環境下采用RRT算法對無人播種機的路徑規劃。在仿真過程中,黑色區域為障礙區域,RRT算法的迭代次數設置為100次。

圖6 無人播種機的路徑規劃圖Fig.6 The path planning diagram of unmanned planter

圖7 無人播種機路徑規劃算法收斂圖Fig.7 The convergence diagram of path planning algorithm for unmanned planter

由圖6可以看出:無人播種機可以順利避開障礙物從起點行駛到終點,且路徑規劃合理;由圖7可以看出:RRT算法經過50次的測試后,逐漸趨于收斂,穩定性較好。綜上所述,提出的RRT深度強化學習算法具有較快的路徑規劃速度,路徑規劃效果較優。

4 結論

結合無人播種機路徑規劃問題,介紹了強化學習和深度Q-Learning算法,并采用RRT深度強化學習算法,對無人播種機自動路徑規劃進行了研究。RRT深度強化學習算法的仿真試驗結果表明:在復雜作業環境中,無人播種機能夠在較小的迭代次數下完成最優作業路徑的規劃,表明算法具有可行性和可靠性。

猜你喜歡
規劃動作環境
長期鍛煉創造體內抑癌環境
一種用于自主學習的虛擬仿真環境
孕期遠離容易致畸的環境
環境
動作描寫要具體
規劃引領把握未來
快遞業十三五規劃發布
商周刊(2017年5期)2017-08-22 03:35:26
畫動作
動作描寫不可少
多管齊下落實規劃
中國衛生(2016年2期)2016-11-12 13:22:16
主站蜘蛛池模板: 四虎影视库国产精品一区| 91蜜芽尤物福利在线观看| 国产主播在线观看| 国产欧美视频综合二区| 国产自视频| 国产精品极品美女自在线| 欧美19综合中文字幕| 国产伦精品一区二区三区视频优播 | 成年av福利永久免费观看| 国产对白刺激真实精品91| 日韩欧美色综合| 亚洲视频二| 国产香蕉在线| 制服丝袜一区二区三区在线| 欧美激情视频二区| 国产精品不卡永久免费| 亚洲永久色| 亚洲人成人无码www| 永久免费av网站可以直接看的| 国产精品久久久久久久久| 国产国语一级毛片| 国产sm重味一区二区三区| 精品国产香蕉在线播出| 色综合婷婷| 亚洲国产中文综合专区在| 久久久91人妻无码精品蜜桃HD| 欧美国产在线看| 精品国产一区二区三区在线观看| 狠狠干综合| 蜜臀av性久久久久蜜臀aⅴ麻豆 | 99精品在线视频观看| 欧美成人影院亚洲综合图| 在线a网站| 国产农村妇女精品一二区| 亚洲中文字幕23页在线| 欧美成人A视频| 高清免费毛片| 国产精品性| 中国一级特黄视频| 亚洲h视频在线| 亚洲男人天堂久久| 亚洲精品在线影院| 狂欢视频在线观看不卡| 在线人成精品免费视频| 99热这里都是国产精品| 国产精品无码AV中文| 青青草欧美| 亚洲AV电影不卡在线观看| 黄色网在线| 国产嫖妓91东北老熟女久久一| 国产99久久亚洲综合精品西瓜tv| 国产精品hd在线播放| 欧美视频在线不卡| 久久免费精品琪琪| 国产成人盗摄精品| 91小视频版在线观看www| 青青国产成人免费精品视频| 99热亚洲精品6码| 99久久精品免费看国产电影| 激情国产精品一区| 一级高清毛片免费a级高清毛片| 日本免费一级视频| 免费女人18毛片a级毛片视频| 无码一区中文字幕| 免费jizz在线播放| 国产激情无码一区二区免费| 亚洲有无码中文网| 欧美亚洲欧美| 国产黄色免费看| 国产精品亚欧美一区二区| 国产白丝av| 成人福利在线视频免费观看| 美女无遮挡拍拍拍免费视频| 99在线视频精品| 怡春院欧美一区二区三区免费| 视频一本大道香蕉久在线播放| 777午夜精品电影免费看| 91毛片网| 日韩精品一区二区三区免费在线观看| 成人一区在线| 日韩欧美一区在线观看| 日本伊人色综合网|