申玉鑫,劉曉明,肖逸,余德平
基于PPO算法的機器人軸孔裝配控制與仿真
申玉鑫,劉曉明,肖逸,余德平*
(四川大學(xué) 機械工程學(xué)院,四川 成都 610065)
針對在管道運輸和航空航天領(lǐng)域常見的大口徑軸孔裝配任務(wù),設(shè)計一種基于PPO算法的裝配控制方法。首先,建立強化學(xué)習(xí)算法與裝配環(huán)境交互訓(xùn)練框架,設(shè)計兩個網(wǎng)絡(luò)用于擬合裝配策略和評估值函數(shù);其次,設(shè)計機器人輸出的動作空間與裝配環(huán)境輸出的狀態(tài)空間,保證學(xué)習(xí)過程中的有效探索;然后,設(shè)計非線性獎勵函數(shù)以確保訓(xùn)練過程的快速收斂;最后,搭建基于MuJoCo物理引擎的機器人大口徑軸孔裝配仿真平臺,并在仿真平臺上對設(shè)計算法進行訓(xùn)練和實驗。結(jié)果表明:基于PPO算法的訓(xùn)練框架能保證訓(xùn)練過程的快速收斂,改進后的優(yōu)勢函數(shù)估計方法提升了訓(xùn)練過程的穩(wěn)定性,訓(xùn)練模型不僅能保證軸插入孔和法蘭面貼合,還能保證裝配過程的安全性。
裝配;PPO算法;MuJoCo仿真
在航空航天領(lǐng)域存在著大量軸孔部件裝配任務(wù),這類任務(wù)不僅要求將裝配軸插入孔中,還要求實現(xiàn)裝配部件上法蘭面之間的完全貼合以實現(xiàn)機械聯(lián)接[1]。然而,裝配部件質(zhì)量重、口徑大等特點大大影響了生產(chǎn)效率,增加了生產(chǎn)安全風(fēng)險。隨著自動化技術(shù)的不斷發(fā)展,在工業(yè)生產(chǎn)中的搬運、涂裝、焊接等危險繁重環(huán)節(jié)機器人被大量應(yīng)用[2-3]。因此,機器人可以代替人工執(zhí)行這類裝配任務(wù)。
機器人軸孔裝配技術(shù)需要克服操作環(huán)境中不可避免的定位誤差和夾持誤差等,只采用位置控制無法保證裝配的成功率和安全性[4]。因此,機器人必須借助外部感知手段監(jiān)測裝配過程[5],并設(shè)計裝配控制算法以應(yīng)對不同的裝配任務(wù)和接觸狀態(tài)。視覺信息能映射環(huán)境中的位置和姿態(tài)誤差,設(shè)計相應(yīng)的視覺伺服算法可用于實現(xiàn)軸孔裝配[6-7]。然而,視覺傳感器的應(yīng)用受到光線和視野條件的限制。力傳感器可以被安裝在機器人末端執(zhí)行器上,在應(yīng)用上不受環(huán)境條件影響。通過構(gòu)建準靜態(tài)軸孔裝配模型來解釋接觸力與幾何約束之間的關(guān)系,設(shè)計運動控制算法可以保證裝配成功和安全[8-9]。然而,對于復(fù)雜精密的裝配任務(wù),接觸模型存在精度不足、建模困難等問題,運動控制算法也難以保證任務(wù)實施。
深度強化學(xué)習(xí)是一種結(jié)合強化學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)的算法設(shè)計方式,使機器人能夠在與環(huán)境的交互過程中學(xué)習(xí)運動控制技能,而不依賴于精確的接觸模型[10]。它利用神經(jīng)網(wǎng)絡(luò)擬合需要學(xué)習(xí)的控制算法,并利用機器人與環(huán)境交互的訓(xùn)練數(shù)據(jù)更新網(wǎng)絡(luò)參數(shù),獲得需要的裝配控制算法。深度強化學(xué)習(xí)可以被用于訓(xùn)練基于位置的力控制器,用于保證裝配過程中的柔順性和安全性[11-12]。同時,深度強化學(xué)習(xí)也能用于彌補傳統(tǒng)控制算法的不足,使傳統(tǒng)控制算法得到進一步訓(xùn)練以加強算法魯棒性[13]。然而,其當前應(yīng)用依然需要借助傳統(tǒng)力控算法提供先驗知識,且缺乏對實際裝配任務(wù)特性的深入研究。
針對上述問題,本文提出一種基于PPO(Proximal Policy Optimization,近端策略優(yōu)化)算法的機器人軸孔裝配控制算法。該算法不僅能夠完全通過環(huán)境交互學(xué)習(xí)裝配技能,還能保證裝配的效率和成功率。首先,利用PPO的重要性采樣方法實現(xiàn)對交互數(shù)據(jù)的高效利用,并對優(yōu)勢函數(shù)的估計方法進行改進。其次,根據(jù)大口徑軸孔裝配任務(wù)的插孔和法蘭貼合需求設(shè)計動作與狀態(tài)空間,并設(shè)計獎勵函數(shù)保證訓(xùn)練過程的快速穩(wěn)定收斂。最后,在基于MuJoCo(Multi-Joint Dynamics with Contact,接觸型多關(guān)節(jié)動力學(xué))物理引擎的軸孔裝配仿真平臺上進行訓(xùn)練和實驗。實驗結(jié)果表明:該算法能夠在1500回合以內(nèi)學(xué)習(xí)到所需要的裝配技能,滿足插孔和法蘭面貼合的工藝需求。
PPO算法利用Actor-Critic網(wǎng)絡(luò)結(jié)構(gòu)在連續(xù)空間中輸出動作,且利用歷史訓(xùn)練數(shù)據(jù)更新參數(shù)。該算法利用Actor網(wǎng)絡(luò)擬合行為策略,利用Critic網(wǎng)絡(luò)擬合值函數(shù)。裝配過程被視為馬爾可夫決策過程,Actor根據(jù)當前狀態(tài)輸出動作,環(huán)境在動作作用下轉(zhuǎn)換為下一狀態(tài),并輸出相關(guān)獎勵。Actor和Critic擬合的行為策略和值函數(shù)分別為[11]:


為了實現(xiàn)兩個網(wǎng)絡(luò)的梯度更新,需要估計優(yōu)勢函數(shù),為[11]:

PPO算法利用重要性采樣方法來提高數(shù)據(jù)利用效率。因此,舊策略與環(huán)境交互產(chǎn)生的歷史數(shù)據(jù)可用于更新新策略。在完成更新后,新策略的參數(shù)被復(fù)制到舊策略中。
Actor網(wǎng)絡(luò)的更新公式為[11]:


Critic網(wǎng)絡(luò)的更新公式為[11]:

式中:為Critic網(wǎng)絡(luò)的損失函數(shù);為歷史交互數(shù)據(jù)集樣本量。
常規(guī)PPO算法利用蒙特卡羅法估計優(yōu)勢函數(shù),該方法引入了后續(xù)時間步獎勵,使得估計值方差較大。這會導(dǎo)致訓(xùn)練曲線出現(xiàn)較大波動,影響收斂穩(wěn)定性。
為了實現(xiàn)參數(shù)穩(wěn)定更新,使用具有泛化能力的優(yōu)勢函數(shù)估計方法,為:


該方法的估計值雖然有一定偏差,但方差減小使得更新過程更加穩(wěn)定。
Critic網(wǎng)絡(luò)的更新公式改進為:

本文設(shè)計針對大口徑軸孔裝配任務(wù)的PPO網(wǎng)絡(luò)及訓(xùn)練框架。如圖1所示,Old Actor和New Actor分別用于數(shù)據(jù)交互和參數(shù)更新,Critic網(wǎng)絡(luò)用于估計當前策略的優(yōu)異性。所有網(wǎng)絡(luò)層使用Linear全連接層以及Tanh激活函數(shù)構(gòu)建,其中Critic網(wǎng)絡(luò)最后一層直接由Linear全連接層輸出,以保證訓(xùn)練前期值函數(shù)的快速擬合。Actor輸出的動作用于調(diào)整位姿,隨后機器人沿軸位移使軸與孔主動接觸。裝配環(huán)境監(jiān)測接觸力并計算相應(yīng)的獎勵值,所有數(shù)據(jù)被輸入到存儲緩沖區(qū)中。當緩沖區(qū)數(shù)據(jù)足夠時,對New Actor和Critic網(wǎng)絡(luò)梯度更新,清空存儲緩沖區(qū),將New Actor的網(wǎng)絡(luò)參數(shù)復(fù)制到Old Actor中。
機器人可在6個自由度移動或旋轉(zhuǎn)軸部件以降低位姿誤差。為提高裝配安全性,插入動作由機器人直接執(zhí)行,算法生成的裝配策略只用作位姿調(diào)整。由于軸孔部件具有軸對稱特性,繞軸旋轉(zhuǎn)的動作不能改變軸孔接觸關(guān)系。因此,動作可以表示為一個4維向量,且動作輸出被限制在一定范圍內(nèi)以避免過度探索,為:


圖1 訓(xùn)練網(wǎng)絡(luò)框架
力傳感器監(jiān)測到的接觸力由3個力和3個力矩分量組成,它們反映裝配部件之間的接觸關(guān)系。同樣的,由于軸孔部件的軸對稱特性,繞軸力矩分量不能映射軸孔位姿關(guān)系。因此,狀態(tài)可以表示為一個5維向量:
式中:為力分量;為力矩分量。
獎勵函數(shù)用于人為直觀評價當前狀態(tài)在裝配過程中的優(yōu)勢。為保證訓(xùn)練過程的穩(wěn)定性和高效性,在權(quán)衡整體進度和當前進度后設(shè)計了一種非線性獎勵函數(shù)。獎勵函數(shù)包括三種類型,即常規(guī)獎勵、懲罰獎勵和終止獎勵。所有獎勵都為負值,以激勵策略減少裝配步數(shù)。常規(guī)獎勵綜合考慮了裝配深度和深度增量以保證訓(xùn)練穩(wěn)定性。當接觸力過大時,環(huán)境直接輸出懲罰獎勵。當回合完成且步數(shù)不超過允許最大值時,環(huán)境輸出終止獎勵。
獎勵函數(shù)具體為:



其中:


本文研究對象為大口徑軸孔裝配任務(wù),其中軸孔部件上都帶有法蘭,且孔有倒角,如圖2所示。裝配任務(wù)的目標是消除位姿誤差以使軸插入孔中,且裝配軸孔的法蘭面完全貼合以
便于后續(xù)工藝實施。如表1所示,裝配軸直徑為206 mm,裝配間隙為0.1 mm。零部件的直徑大、長度短,裝配過程容易受到法蘭干擾。

圖2 大口徑軸孔零件實物圖

表1 軸孔部件尺寸參數(shù)
MuJoCo物理仿真引擎可以構(gòu)建高精度的接觸力學(xué)模型,可直接導(dǎo)入需要仿真的零件模型,并根據(jù)零件相對位姿計算接觸力。該仿真引擎可直接在Python環(huán)境下開發(fā),大幅提高強化學(xué)習(xí)的訓(xùn)練與部署效率。
本文基于MuJoCo物理引擎構(gòu)建了大口徑軸孔裝配仿真環(huán)境,并在仿真環(huán)境下開展了算法訓(xùn)練和仿真實驗。如圖3所示,從機器人末端執(zhí)行器到軸部件之間形成一條剛性聯(lián)接鏈,聯(lián)接順序為Mocap(末端執(zhí)行器)-傳感器-夾具-軸。孔被固定在平臺表面。仿真平臺支持直接利用歐拉角形式(如式10)控制Mocap在空間中的位姿,等價于機器人操縱裝配軸運動。同時,仿真平臺可以基于軸孔相對位姿計算接觸力(如式11)。仿真平臺中不包含任何特定的機器人,使訓(xùn)練的模型能夠適應(yīng)不同的機器人實體。所有接觸都是由Mocap沿軸位移產(chǎn)生,這保證了接觸過程的準靜態(tài)特性,降低仿真與現(xiàn)實之間的差距。
每回合訓(xùn)練開始時,軸的位姿在一定誤差范圍內(nèi)被隨機初始化,以確保算法對位姿誤差具有魯棒性。設(shè)置位置誤差在1.5 mm以內(nèi)、角度誤差在1°以內(nèi),Actor輸出的動作在0.15 mm和0.02°以內(nèi),最大允許力和力矩分別為10 N和1.5 N·m,訓(xùn)練回合為1500回合,每回合允許步數(shù)為800步。其他超參數(shù)設(shè)置如表2所示。

圖3 基于MuJoCo的大口徑軸孔裝配仿真

表2 訓(xùn)練超參數(shù)設(shè)置
訓(xùn)練結(jié)果如圖4所示,其中曲線steps和rewards分別代表每10回合的平均步數(shù)和平均獎勵,陰影代表相應(yīng)數(shù)據(jù)的標準差??梢钥闯觯睾喜綌?shù)隨著訓(xùn)練進行不斷降低,在第1500回合達到90步左右。而回合獎勵隨著訓(xùn)練不斷升高,在第1500回合達到-40左右。訓(xùn)練曲線的波動在訓(xùn)練過程中不斷減小。

圖4 訓(xùn)練曲線
訓(xùn)練過程中網(wǎng)絡(luò)更新的損失函數(shù)變化趨勢如圖5所示。訓(xùn)練開始時,損失在16左右,這是因為具有泛化性的優(yōu)勢函數(shù)估計具有一定的偏差。隨著訓(xùn)練進行,損失在300回合下降到2以下,最終下降到1以下,這說明Critic網(wǎng)絡(luò)很快調(diào)整參數(shù)以適應(yīng)優(yōu)勢函數(shù)估計的偏差。

圖5 損失函數(shù)變化趨勢
本文針對基于PPO的裝配控制算法的工作能力進行了仿真實驗。裝配開始時,裝配軸沿軸偏移約1 mm,沿軸偏移約0.5 mm,繞軸旋轉(zhuǎn)約0.5°。
如圖6所示,error_和error_分別表示軸部件的橫向位置誤差在軸和軸上的分量,depth表示軸在孔內(nèi)的深度,由于軸與實際方向相反,depth為負值時表示軸部件在孔內(nèi)。可以看出,軸部件在軸和軸上的位置誤差不斷減小,在第16步時,橫向位置誤差減小到裝配間隙以內(nèi),因此裝配軸直接下降到孔內(nèi)3 mm以下。
如圖7所示,error_和error_分別表示軸部件的角度誤差在軸和軸上的分量。在第16~52步,軸部件在的角度誤差不斷減小,這導(dǎo)致裝配深度進一步增加,直至達到要求裝配深度。
如圖8所示,force_,force_,force_分別表示軸孔相對接觸力在三個軸上的分量。各接觸力分量始終在10 N以內(nèi)。裝配完成時,沿軸和軸的接觸力接近0,而沿軸接觸力達到-8 N,這說明軸部件已完全插入孔內(nèi),且實現(xiàn)了法蘭面貼合。
如圖9所示,torque_和torque_表示軸孔相對接觸力矩在和軸上的分量。各力矩分量始終低于1.5 N·m,滿足裝配安全需求。

圖6 橫向位移誤差變化趨勢

圖7 角度誤差變化趨勢

圖8 接觸力變化趨勢

圖9 接觸力矩變化趨勢
本文設(shè)計了一個基于PPO的機器人軸孔裝配控制算法,并在基于MuJoCo物理引擎的裝配仿真平臺上對大口徑軸孔裝配任務(wù)進行了訓(xùn)練與仿真實驗。利用馬爾可夫決策性質(zhì)描述了機器人軸孔裝配任務(wù)的特點;對PPO算法的優(yōu)勢函數(shù)估計進行了改進,使之能適用于長行程步數(shù)的裝配任務(wù);基于Actor-Critic原理搭建了算法網(wǎng)絡(luò)結(jié)構(gòu)及訓(xùn)練框架,設(shè)置了裝配任務(wù)的動作與狀態(tài)空間,并設(shè)計了非線性獎勵函數(shù)。仿真實驗結(jié)果表明:本文提出的基于PPO的軸孔裝配控制算法可學(xué)習(xí)到機器人裝配策略,訓(xùn)練曲線收斂快速且穩(wěn)定,可快速有效地完成大口徑軸孔裝配任務(wù),克服位姿誤差,實現(xiàn)法蘭面貼合。未來可增加視覺感知手段,從而克服更大程度的位姿誤差并規(guī)劃機器人移動路徑。
[1]Xiaolin Zhang,Wang Zanqin,Yu Hang,et al. Research on Visual Inspection Technology in Automatic Assembly for Manhole Cover of Rocket Fuel Tank[C]. 2022 4th International Conference on Advances in Computer Technology, Information Science and Communications (CTISC),2022:1-5.
[2]未來10年工業(yè)機器人與協(xié)作機器人市場發(fā)展預(yù)測[J]. 機械,2017,44(10):54.
[3]計時鳴,黃希歡. 工業(yè)機器人技術(shù)的發(fā)展與應(yīng)用綜述[J]. 機電工程,2015,32(1):1-13.
[4]Rui Li,Qiao Hong. A Survey of Methods and Strategies for High-Precision Robotic Grasping and Assembly Tasks-Some New Trends[J]. IEEE-ASME Transactions on Mechatronics,2019,24(6):2718-2732.
[5]張松松. 多維感知融合驅(qū)動的機器人裝配行為研究[D]. 貴陽:貴州大學(xué),2023.
[6]Sainbuyan Natsagdorj,Chiang John-Y,Su Che-Han,et al. Vision-based Assembly and Inspection System for Golf Club Heads[J]. Robotics and Computer-Integrated Manufacturing,2015,32(4):83-92.
[7]R-J Chang,Lin C-Y,Lin P-S. Visual-Based Automation of Peg-in-Hole Microassembly Process[J]. Journal of Manufacturing Science and Engineering- Transactions of the Asme,2011,133(4):41015-41027.
[8]A-De-Sam Lazaro,G Rocak H. Precision assembly using force sensing[J]. International Journal of Advanced Manufacturing Technology,1996,11(2):77-82.
[9]D-E Whitney. Quasi-Static Assembly of Compliantly Supported Rigid Parts[J]. Journal of Dynamic Systems Measurement and Control-Transactions of the Asme,1982,104(1):65-77.
[10]陳佳盼,鄭敏華. 基于深度強化學(xué)習(xí)的機器人操作行為研究綜述[J]. 機器人,2022,44(2):236-256.
[11]Tadanobu Inoue,De Magistris Giovanni,Munawar Asim,et al. Deep reinforcement learning for high precision assembly tasks[C]. 2017 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS),2017:819-825.
[12]Tianyu Ren,Dong Yunfei,Wu Dan,et al. Learning-Based Variable Compliance Control for Robotic Assembly[J]. Journal of Mechanisms and Robotics-Transactions of The Asme,2018,10(6):61008.
[13]Jing Xu,Hou Zhimin,Wang Wei,et al. Feedback Deep Deterministic Policy Gradient With Fuzzy Reward for Robotic Multiple Peg-in-Hole Assembly Tasks[J]. IEEE Transactions on Industrial Informatics,2019,15(3):1658-1667.
Robotic Peg-in-Hole Assembly Control and Simulation Based on PPO Algorithm
SHEN Yuxin,LIU Xiaoming,XIAO Yi,YU Deping
(School of Mechanical Engineering, Sichuan University, Chengdu 610065, China )
A PPO algorithm-based assembly control method is proposed for the large-diameter peg-in-hole assembly which is common in pipeline transportation and aerospace fields. Firstly, the interactive training framework between the reinforcement learning algorithm and assembly environment is established, and two networks are designed to fit the assembly strategy and the evaluation value function respectively. Secondly, the action space of robot output and the state space of assembly environment output are designed to ensure the effective exploration in the learning process. Then, a nonlinear reward function is designed to ensure the fast and stable convergence of the training process. Finally, a simulation platform for robot assembly of large-diameter peg-in-hole assembly based on MuJoCo physics engine is built, and the designed algorithm is trained and tested on the simulation platform. The results show that the training framework based on PPO algorithm can ensure the fast convergence of the training process, and the improved dominance function estimation method can improve the stability of the training process. The training model can not only ensure the fit of the shaft insertion hole and the flange surface, but also ensure the safety of the assembly process.
assembly;PPO algorithm;MuJoCo simulation
TP249
A
10.3969/j.issn.1006-0316.2023.12.012
1006-0316 (2023) 12-0074-07
2023-07-16
申玉鑫(1998-),男,四川遂寧人,碩士研究生,主要研究方向為機器人自動化,E-mail:shenyuxin2021@163.com。
通訊作者:余德平(1984-),男,江西撫州人,博士,教授,主要研究方向為智能與自動化裝備,E-mail:williamydp@scu.edu.cn。