999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于分步遷移策略的蘋果采摘機械臂軌跡規劃方法

2020-02-02 04:07:28鄭嫦娥GANHao趙燕東
農業機械學報 2020年12期
關鍵詞:機械規劃策略

鄭嫦娥 高 坡 GAN Hao 田 野 趙燕東

(1.北京林業大學工學院, 北京 100083; 2.田納西大學生物系統工程及土壤科學系, 諾克斯維爾 TN37996)

0 引言

在果園果實采摘中,以多自由度機械臂作為采摘裝置、通過果實識別與軌跡規劃進行的果實自動采摘是農業現代化的需求。不同于工業機械臂的結構化工作環境,果實采摘是在非結構化的自然環境中進行,自然生長的枝干以及未成熟果實等障礙物都給機械臂的采摘帶來了困難。因此,非結構化自然環境下的采摘軌跡動態規劃是果實采摘機械臂的重要研究內容[1-3]。

多自由度機械臂采摘軌跡規劃在多維狀態空間中進行,以采摘果實為目標,在避障的前提下規劃出一條最佳的采摘軌跡。關于軌跡規劃研究人員已經提出了多種規劃算法,如A*算法[4-5]、蟻群算法[6-8]、柵格法[9]、人工勢場法[10-11]等。這些算法大多依賴于機械臂和環境的實時建模,其計算復雜度隨機械臂自由度的增加呈指數增加,由于采摘環境多變,很難對環境進行精確建模。深度強化學習是在與環境發生交互的過程中通過獎懲函數進行自我學習推理、最終在自我探索的過程中解決問題的一種方法[12]。由于深度強化學習不需要進行環境建模,因此在復雜的采摘環境中,利用深度強化學習求解多自由度采摘機械臂的軌跡具有更好的魯棒性[13-15]。

在采摘過程中,采摘機械臂的運動可以描述為高維空間中連續的狀態-動作模型,而深度強化學習中的深度確定性策略梯度算法(Deep deterministic policy gradient,DDPG)可以用于連續行為的控制。但是,非結構化自然環境中采摘目標位置的復雜性和無序性使得DDPG算法在訓練過程中網絡收斂難度大,存在較多無效搜索,樣本采樣效率低,有效獎勵稀疏,使得訓練時間過長。為了提高基于深度強化學習(Deep reinforcement learning,DRL)的機器人軌跡規劃方法在有障礙物的非結構化工作環境中的網絡訓練效率,XIE等[16]基于獎勵塑形的思想,提出了一種新的密集獎勵函數,該函數包括方位獎勵函數和子任務級的獎勵函數,方位獎勵函數提高了局部軌跡規劃效率,子任務級的獎勵函數減少了全局上的無效搜索。

DDPG算法在訓練時,算法初始參數是隨機的,且智能體的行為沒有先驗知識的指導,非結構化自然環境中障礙的復雜性使得隨機初始化參數帶來的訓練速度低、收斂難的問題更為突出。針對此問題,遷移學習顯示出巨大的優勢,該方法可以從過去學習的相關任務中獲得知識,從而加速訓練過程[17]。胡曉東等[18]在利用深度強化學習算法求解動態環境下空間機器人的路徑規劃問題時,設計了一種適應動態環境的快速路徑規劃器,首先在靜態環境下對網絡模型進行預訓練,然后將靜態模型的網絡參數遷移到動態模型中,再經過動態環境下的訓練進行參數微調,實驗表明,該方法在保證規劃路徑準確率的前提下顯著提高了訓練速度。為了解決DDPG算法在訓練機器人任務規劃中存在時間長、收斂慢的問題,陳建華[19]基于遷移學習思想將NAO機器人右臂位姿規劃策略在實際NAO機器人上進行了不同目標物體在不同位姿下的規劃抓取實驗。

本文以果園喬砧大冠稀植蘋果為研究對象,基于深度強化學習方法進行多自由度采摘機械臂的軌跡規劃研究。針對深度強化學習在非結構化自然環境中訓練效率低的問題,提出兩種解決方法:針對采摘目標位置無序性引起收斂困難的問題,提出一種漸進空間約束的分步訓練策略;針對果實障礙和枝干障礙的復雜性引起收斂困難的問題,提出基于遷移學習的DDPG算法(TL+DDPG)。通過仿真實驗驗證兩種方法的有效性。

1 原理

1.1 采摘軌跡規劃

1.1.1DDPG算法

DDPG算法是基于AC策略梯度架構的深度強化學習算法,既有策略網絡也有價值網絡[20]。圖1為DDPG算法的網絡結構圖,它借鑒了Double DQN的思想,包含4個神經網絡,分別為:actor網絡、actor target網絡、critic網絡和critic target網絡。

圖1 DDPG算法網絡結構圖Fig.1 Network diagram of DDPG algorithm

網絡以采摘機械臂的當前狀態si為輸入,其中si包括機械臂各關節角度、角速度等信息,以采摘機械臂關節動作值ai為輸出,環境根據機械臂末端當前位置e與目標位置y的相對距離反饋即時獎勵ri。機械臂通過不斷地與環境進行交互,執行相應動作,從而完成對采摘機械臂的軌跡規劃。當前動作在以下情況會終止:①采摘機械臂末端到達目標點。②機械臂碰到障礙或者與環境交互的步數到達上限。

采摘機械臂的軌跡規劃算法如下:

(1)初始化機械臂姿態、記憶庫R、仿真環境。

(2)初始化critic和actor網絡參數θQ、θμ。

(3)循環執行以下步驟:

①獲取采摘機械臂的當前狀態si。

②網絡輸入當前狀態si,輸出機械臂的關節動作值ai=μ(si|θμ)。

③機械臂執行動作ai,返回獎勵ri,并獲取采摘機械臂的新狀態si+1。

④將樣本(si,ai,ri,si+1)存入記憶庫R中。

⑤從記憶庫R中隨機采樣64個訓練樣本(si,ai,ri,si+1),分別更新actor、critic網絡參數θμ和θQ。

⑥每隔100步,更新actor target、critic target網絡參數

θ′μ′←τθμ+(1-τ)θ′μ′
θ′Q′←τθQ+(1-τ)θ′Q′

τ為更新系數。

⑦如果si+1為終止狀態,則當前迭代結束,否則轉到步驟②,結束循環。

1.1.2基于DDPG算法的漸進空間約束分步訓練策略

基于DDPG算法的果實采摘軌跡規劃中存在的主要問題是,采摘目標位置的復雜性和無序性,使得訓練過程中網絡收斂難度大,導致訓練效率低。通過引入平面約束,降低環境復雜度,可以有效減小網絡維度,加快模型學習速度。引入平面約束前后,DDPG算法的網絡模型結構保持一致,使得基于平面約束的模型訓練參數可以為不引入平面約束的采摘軌跡規劃模型提供有效的初始化參數,在縮短訓練時間的同時增加模型的有效性。因此,為了加速訓練過程,提高訓練效率,本文提出一種基于DDPG算法的漸進空間約束分步訓練策略。

分步訓練策略是:與直接求解軌跡規劃不同,該方法通過引入空間約束,如圖2a所示,簡化求解過程,漸進獲得最終規劃軌跡,其實現過程如圖3所示。首先通過施加平面約束,將軌跡規劃限定在采摘平面上[21],通過對網絡進行訓練,得到該平面約束下的最優模型參數。圖2a中的紅色平面設定為目標果實所在的采摘平面;其次,在實際采摘環境中,進一步對平面約束下獲得的網絡進行訓練,對網絡參數進行微調,從而加速實際采摘場景的訓練速度。圖2b中綠框為采摘機械臂的實際采摘空間,目標果實可以出現在綠框中的任意位置。

圖2 漸進空間約束分步訓練場景Fig.2 Progressive spatially constrained stepwise training scene

圖3 漸進空間約束分步訓練策略流程圖Fig.3 Flow chart of progressive spatially constrained stepwise training strategy

1.1.3基于遷移學習的DDPG算法

在采摘環境有障礙場景中,不僅需要考慮目標的位置,還要避開障礙,以保護果實和機械臂的安全[11]。因此,本節針對非結構化自然環境中的復雜障礙所帶來的訓練時間長的問題,利用遷移學習思想將無障礙場景下學習到的最優策略向單一障礙場景進行遷移,并將單一障礙場景學習到的策略遷移用于指導混雜障礙場景下的軌跡規劃任務,流程圖如圖4所示。在本文所研究的采摘場景下,以無障礙和單一障礙場景下采摘機械臂的軌跡規劃為源域,將它的軌跡規劃策略遷移到目標域,目標域分別為單一和混雜障礙場景下采摘機械臂的軌跡規劃。

圖4 策略遷移流程圖Fig.4 Flow chart of strategy migration

進行策略遷移首先需要完成狀態和動作信息從源域到目標域的映射,即完成ssource=η(starget)和atarget=φ(asource)的過程,其中η和φ分別為狀態和動作信息的映射函數,ssource表示源域中的狀態信息,asource表示源域中的動作信息,starget表示目標域中的狀態信息,atarget表示目標域中的動作信息。具體狀態和動作信息如表1所示。

目標域中的狀態信息與源域中的狀態信息的映射關系為

(1)

式中wij——狀態與動作轉換系數

J——目標域中狀態信息的個數

其中,當目標域中的狀態信息與源域中的狀態信息相互對應時,wij取1;當目標域中的狀態信息與源域中的狀態信息不一致時,則wij取0。源域中的動作向目標域中的動作映射時同理。這樣就解決了源域中的狀態和動作到目標域中的狀態和動作的映射問題。

在完成狀態和動作信息之間的映射后,還需要解決狀態值函數的遷移,因為狀態值函數在網絡參數更新中起到決定誤差的作用。策略遷移后的整體狀態值函數為

Q(s,a)=Qsource(η(starget),asource)+

Qtarget(starget,φ(asource))

(2)

式中Q(s,a)——整體狀態值函數

Qsource——源域的狀態值函數

Qtarget——目標域的狀態值函數

模型網絡參數更新時,對于源域的狀態值函數Qsource(η(starget),asource)的神經網絡參數不需要更新,需要更新的是目標域中的狀態值函數Qtarget(starget,φ(asource))的神經網絡參數。圖5為基于遷移學習的DDPG算法的參數更新示意圖。

圖5 基于遷移學習的DDPG算法參數更新示意圖Fig.5 Parameter update diagram of DDPG algorithm based on transfer learning

2 實驗與分析

利用Cinema 4D和CoppeliaSim軟件搭建仿真采摘環境,進行多自由度采摘機械臂的運動仿真測試,如圖6所示。本實驗在Ubuntu16.04操作系統平臺上完成,其硬件配置為Intel Core i7處理器、NVidia GTX 1060顯卡、16 GB內存。編程語言為Python、Matlab。

圖6 采摘環景仿真圖Fig.6 Picking scene simulation diagram

2.1 機械臂運動學模型與障礙模型

2.1.1機械臂運動學模型

仿真實驗使用的是Franka 7-DOF機械臂,圖7為機械臂的整體結構示意圖。所有關節都是轉動關節,關節7連接末端執行手爪以抓取目標。機械臂關節角信息如表2所示。

圖7 采摘機械臂整體結構示意圖Fig.7 Schematic of picking manipulator structure

2.1.2障礙模型簡化

在蘋果采摘過程中,不同栽培方式下所遇到的障礙主要是枝干、樹葉以及非目標果實,由于樹葉柔曲,對機械臂采摘作業的影響很小,可以忽略不計,所以主要考慮枝干障礙和非目標果實障礙。

針對本文障礙的外形特點,使用包絡法對障礙進行近似描述[22-24]。如圖8所示,用球體表示非目標果實障礙,圓柱體表示枝干障礙。

圖8 障礙模型Fig.8 Obstacle models

由圖可得,使用包絡法進行建模雖然擴大了障礙區域,但簡化了計算,提高了可靠性,有效地提高了軌跡規劃效率,同時也保證了機械臂和果樹的安全性。

2.2 分步訓練策略實驗與分析

DDPG算法的網絡參數如表3所示。

表3 DDPG算法的網絡參數Tab.3 Parameters for DDPG algorithm

圖10 獎勵值變化曲線Fig.10 Reward value change curves

仿真環境中設定的采摘空間以(0.25 m,0 m, 1.002 m)為中心,尺寸為0.5 m×0.8 m×0.5 m,如圖9所示。蘋果生長期間果農通常以間距0.2、0.25、0.3 m進行疏花疏果操作[25],以保證蘋果品質與產量??紤]到蘋果結果間距以及采摘空間,本文以0.2 m為間距沿y方向在0~0.4 m范圍內均勻引入3個約束平面(平面1、平面2、平面3)作為采摘平面進行對照實驗,以觀察不同約束平面對空間范圍內軌跡規劃的影響。3個平面具體位置為:平面1(藍色)方程為y=0(0≤x≤0.5 m,0.752 m≤z≤1.252 m),平面2(綠色)方程為y=0.2 m(0≤x≤0.5 m,0.752 m≤z≤1.252 m),平面3(紅色)方程為y=0.4 m(0≤x≤0.5 m,0.752 m≤z≤1.252 m)。

圖9 采摘空間示意圖Fig.9 Simulation scene

按照漸進空間約束分步訓練策略,分別在3個采摘平面上進行訓練,得到3組網絡模型,并在這3組網絡模型的基礎上,進一步在實際采摘環境下進行軌跡規劃網絡的訓練,觀察不同位置的采摘平面對實際環境的泛化性。共進行5 000次迭代訓練,圖10為訓練期間獎勵值的變化情況。

由圖10a可知,隨著迭代次數的增加,采摘機械臂所獲獎勵逐漸變大,最終達到收斂狀態。由圖10b可知,隨著迭代次數的增加,采摘機械臂所獲獎勵逐漸變大,最終達到收斂狀態。訓練開始時基準模型的曲線獎勵值起點在-1.30附近,而經過預訓練的獎勵曲線起點在-1.00附近,這表明經過預訓練,采摘機械臂的動作策略獲得了一些先驗知識,具有較好的初始假設,減少了無效探索,相對于隨機初始化性能有較為明顯的提升。表4統計了迭代中4 000~5 000次的獎勵值均值以及訓練期間收斂所用迭代次數,其中基準模型為直接在三維空間中訓練所得模型。

表4 訓練結果對比Tab.4 Comparison of training results

由表4可知,在收斂速度方面,基于約束平面的模型收斂所需迭代次數分別為1 100、1 800、2 000,而基準模型經過3 000次迭代達到收斂,基于約束平面1、2、3的分步訓練網絡收斂速度分別比基準模型提升了63.33%、40%和33.33%。這表明引入約束平面后,由于網絡初始參數是通過預訓練得到,訓練初期策略的盲目性大大減少,使基于約束平面的模型減少了學習時間,在三維采摘空間上訓練的收斂速度明顯加快。

同時,由表4可知,基于約束平面1的分步訓練策略在提升模型性能方面最為顯著:獎勵值初值為-0.70,收斂后其獎勵值均值穩定在-0.25,相比于基準模型,獎勵值初值和均值分別提升了46.15%和45.65%,表明基于約束平面1的訓練策略在網絡性能上提升效果明顯。由于約束平面1位于采摘空間的中心位置,因此,基于約束平面1得到的模型相比于其他約束平面得到的模型,在后續訓練上其動作策略的空間泛化性和空間適應性更強。

為了測試模型的效果,本文分別統計得出基準模型和基于約束平面1的訓練模型成功采摘100次所需時間為320、260 s。

由以上實驗結果可知,基于分步訓練策略模型在收斂速度和性能上都得到了大幅度提升,說明采摘機械臂利用漸進空間約束分步訓練策略進行軌跡規劃能顯著加速訓練過程和提升模型性能。

2.3 基于遷移學習的DDPG算法實驗與分析

根據真實的采摘場景,本文設計了3種有障礙場景,如圖11所示,分別是模擬非目標果實障礙場景 (場景A)、枝干障礙場景 (場景B)、混雜障礙場景 (場景C)。場景中紅色蘋果為目標果實,綠色蘋果為非目標果實障礙,藍色枝干為障礙。場景A和場景B分別針對的是單一障礙場景,場景C為混雜障礙場景。圖12為不同場景下訓練時的獎勵值變化曲線。

圖11 3種場景示意圖Fig.11 Simulation scenes

圖12 不同場景下訓練時的獎勵值變化曲線Fig.12 Reward value changing curves of training in different scenarios

實驗共執行了10 000次迭代訓練,由圖12可以看出,隨著迭代次數的增加,在各場景下采摘機械臂所獲獎勵逐漸變大,并最終達到收斂狀態。

表5為場景A和場景B訓練迭代8 000~10 000次的獎勵值均值以及訓練期間收斂所用迭代次數。

表5 實驗結果對比Tab.5 Comparison of experimental results

由圖12和表5可以看出,與DDPG算法訓練相比,在場景A和場景B中基于遷移學習的DDPG算法訓練收斂所需迭代次數從3 500和3 900分別縮短到2 000和2 600,收斂速度分別提升了42.86%和33.33%。說明機械臂在無障礙場景下的軌跡規劃策略能夠為單一障礙場景的軌跡規劃提供指導,可以有效縮短訓練時間。

同時,由表5可知,在場景A和場景B中基于遷移學習的DDPG算法在開始階段獎勵值初值分別為-0.62和-1.35,比DDPG算法訓練分別提升了32.61%和15.63%。并且,在場景A中該方法收斂后獎勵值均值穩定在-0.15,相較于直接訓練提升了44.44%。而在場景B中兩種方法的獎勵值均值相差不大,TL+DDPG算法的獎勵值均值略低于DDPG算法,說明從無障礙場景向單一障礙場景進行遷移時,源任務策略在訓練前期能夠指導機械臂快速接近目標,該策略向較為簡單的場景A進行避障遷移適應性強于較為復雜的場景B。

實際采摘環境通常存在多種障礙,為了觀察采摘機械臂在面對混雜障礙時,單一障礙場景下獲得的策略能否為采摘任務提供合適的指導,將場景C設計成混雜障礙場景,并分別遷移場景A和場景B的策略來指導采摘機械臂在場景C下進行軌跡規劃任務。表6為場景C下應用不同策略訓練迭代8 000~10 000次的獎勵值均值以及訓練期間收斂所用迭代次數。圖13為混雜障礙場景下的收斂所需迭代次數。

由表6可知,遷移場景A和場景B的策略來指導采摘機械臂在場景C下進行軌跡規劃任務,其收斂所需迭代次數分別為3 600和2 200,相比較DDPG算法訓練,收斂速度分別提升了43.75%和65.63%。以上結果表明基于單一障礙場景下的遷移訓練相較于基于DDPG算法的直接訓練,任務收斂速度有大幅度提升。如圖13所示,當考慮源策略訓練次數時,遷移場景A和場景B策略的總收斂迭代次數分別為7 100和6 100,表明在混雜障礙場景中遷移場景B的策略更有助于提升訓練速度。

表6 混雜場景下不同策略訓練結果對比Tab.6 Comparison of training results in complex scenarios

圖13 混雜障礙場景下收斂所需迭代次數Fig.13 Number of converging rounds

同時,由表6可知,遷移場景A策略和遷移場景B策略模型的獎勵值初值分別為-1.00和-1.30,比DDPG算法分別提升了34.21%和14.47%;其在模型收斂后獎勵值均值分別穩定在-0.45和-0.35,與DDPG算法相比,遷移場景B策略的獎勵值均值略大。這表明在蘋果采摘中,從場景A和場景B向混雜障礙場景遷移時,均可以提供較好的模型初始化參數;同時,在面對混雜障礙場景時,源任務中障礙環境較為復雜,更利于提高混雜障礙場景下的模型性能。

圖14是在不同場景下采摘機械臂的避障軌跡。紅色蘋果為目標位置,藍色樹枝為障礙,綠色未成熟蘋果為果實障礙。黃線為DDPG算法為采摘機械臂規劃出的軌跡,紅線為基于遷移學習的DDPG算法為采摘機械臂規劃出的軌跡??梢钥吹?,DDPG算法在進行避障軌跡規劃時得到的軌跡比基于遷移學習的DDPG算法得到的軌跡更長一些。

3 結束語

基于深度強化學習方法進行了采摘機械臂軌跡規劃,為提高無障礙環境下模型的網絡收斂速度和性能,提出了漸進空間約束的分步訓練策略。對分步訓練策略進行了仿真實驗驗證,與直接訓練相比,利用漸進空間約束的分步訓練策略對獎勵值初值最大提升幅度為46.15%,對網絡收斂速度最大提升幅度為63.33%。針對復雜障礙環境,提出了基于遷移學習的DDPG算法,將軌跡規劃的最優策略由無障礙場景遷移到單一障礙場景、由單一障礙場景遷移到混雜障礙場景中。仿真實驗表明,將無障礙場景策略遷移到單一障礙場景中時,獎勵值初值提升幅度為32.61%,網絡收斂速度最大提升幅度為42.86%;將單一障礙場景策略遷移到混雜障礙場景中時,獎勵值初值最大提升幅度為34.21%,網絡收斂速度最大提升幅度為65.63%。

猜你喜歡
機械規劃策略
調試機械臂
當代工人(2020年8期)2020-05-25 09:07:38
例談未知角三角函數值的求解策略
我說你做講策略
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
規劃引領把握未來
簡單機械
快遞業十三五規劃發布
商周刊(2017年5期)2017-08-22 03:35:26
多管齊下落實規劃
中國衛生(2016年2期)2016-11-12 13:22:16
機械班長
迎接“十三五”規劃
主站蜘蛛池模板: 欧美色图第一页| 久久香蕉国产线看精品| 丁香五月激情图片| 免费中文字幕在在线不卡| 视频一本大道香蕉久在线播放 | 国产综合欧美| 日韩一级二级三级| 国产精品手机在线播放| 美女内射视频WWW网站午夜 | 国产无码网站在线观看| 亚洲国产成人超福利久久精品| 国产精品真实对白精彩久久| 91色综合综合热五月激情| 狠狠色狠狠色综合久久第一次| 日韩人妻少妇一区二区| 97色婷婷成人综合在线观看| 国产毛片不卡| 国产成人亚洲精品无码电影| 动漫精品中文字幕无码| 中文字幕丝袜一区二区| 伊人国产无码高清视频| 久久99国产精品成人欧美| 成色7777精品在线| 欧美精品在线免费| 在线播放精品一区二区啪视频| 欧美全免费aaaaaa特黄在线| 制服丝袜国产精品| 精品一区二区三区无码视频无码| 一区二区自拍| 小说 亚洲 无码 精品| 色综合a怡红院怡红院首页| 日本精品中文字幕在线不卡| 蜜桃臀无码内射一区二区三区| 日韩精品一区二区三区中文无码| 成人av专区精品无码国产| 91精品最新国内在线播放| 精品福利视频网| 国产精品一老牛影视频| 99久久精品久久久久久婷婷| 特级毛片免费视频| 69国产精品视频免费| 一级福利视频| 91探花国产综合在线精品| 精品视频免费在线| 国产亚洲精品在天天在线麻豆 | 波多野结衣一区二区三视频| 有专无码视频| 欧美日韩北条麻妃一区二区| 亚洲精品大秀视频| 日韩第九页| 制服无码网站| 奇米精品一区二区三区在线观看| 99激情网| 久久亚洲天堂| 久久青草精品一区二区三区 | 在线视频一区二区三区不卡| 爱色欧美亚洲综合图区| 久久99国产精品成人欧美| 亚洲男人的天堂视频| 91香蕉视频下载网站| 最新国产成人剧情在线播放| 永久免费av网站可以直接看的| 欧美日本激情| 天天摸天天操免费播放小视频| 亚洲欧美国产五月天综合| 拍国产真实乱人偷精品| 午夜精品福利影院| 丝袜亚洲综合| 亚洲国产无码有码| 黄色免费在线网址| 亚洲va视频| 激情五月婷婷综合网| 免费无码网站| 日韩福利视频导航| 国产精品丝袜视频| 欧美a在线看| 国内自拍久第一页| 色婷婷狠狠干| 欧美精品在线视频观看| 永久免费AⅤ无码网站在线观看| 欧美日韩免费观看| 亚洲专区一区二区在线观看|