基于圖像的強(qiáng)化學(xué)習(xí)機(jī)械臂無(wú)標(biāo)定視覺(jué)伺服系統(tǒng)

2024-07-07 21:22:23陳砆興朱亞軍

大眾科學(xué) 2024年4期

陳砆興朱亞軍

摘要：為了解決傳統(tǒng)機(jī)械臂視覺(jué)伺服受外界環(huán)境影響較大的問(wèn)題，提出一種基于圖像的無(wú)標(biāo)定視覺(jué)伺服控制方法。該方法對(duì)采集的每一幀圖像參數(shù)進(jìn)行處理，無(wú)需繁瑣的攝像頭校準(zhǔn)定位等操作，從而在復(fù)雜環(huán)境下獲得了較高的抗干擾工作性能。通過(guò)動(dòng)態(tài)的迭代學(xué)習(xí)過(guò)程實(shí)現(xiàn)機(jī)械臂的最優(yōu)軌跡控制。在自由度機(jī)器臂測(cè)試平臺(tái)上的實(shí)驗(yàn)結(jié)果表明：所提方法既可以減少模型參數(shù)，提高計(jì)算速度，又可以有效地對(duì)機(jī)械臂進(jìn)行控制，可以對(duì)位置信息實(shí)施精確調(diào)整。

關(guān)鍵詞：機(jī)械臂無(wú)標(biāo)定視覺(jué) 非線性矩陣軌跡控制

中圖分類號(hào)： TP24文獻(xiàn)標(biāo)識(shí)碼： A文章編號(hào)： 1679-3567（2024）04-0001-04

基金項(xiàng)目：甘肅省教育廳2022年度高等學(xué)校創(chuàng)新基金項(xiàng)目“蘋(píng)果采摘機(jī)器人視覺(jué)定位與檢測(cè)系統(tǒng)研究”（項(xiàng)目編號(hào)：2022A-225）。

The Uncalibrated Visual Servo System for Manipulators Based on the Reinforcement Learning of Images

CHEN Fuxing ZHU Yajun

Lanzhou Petrochemical University of Vocational Technology， Lanzhou， Gansu Province， 730060 China

Abstract： In order to solve the problem that the traditional visual servo of manipulators is greatly affected by the external environment， this paper proposes an image-based uncalibrated visual servo control method. This method processes the parameters of each frame of captured image without complicated camera calibration and positioning and other operations， so as to obtain high anti-interference performance in the complex environment， and realizes the optimal trajectory control of the manipulator through a dynamic iterative learning process. Experimental results on the freedom testing platform of the manipulator show that the proposed method can not only reduce model parameters and increase the calculation speed， but also effectively control the manipulator and accurately adjust its position information.

Key Words： Mechanical arm； Uncalibrated vision； Nonlinear matrix； Trajectory control

機(jī)械臂無(wú)標(biāo)定視覺(jué)伺服是通過(guò)分析攝像機(jī)采集到每一幀的圖像對(duì)機(jī)械臂進(jìn)行控制。此領(lǐng)域涵蓋的技術(shù)有機(jī)器人技術(shù)、計(jì)算機(jī)圖像處理、控制等內(nèi)容。傳統(tǒng)的視覺(jué)伺服是基于無(wú)標(biāo)定的需要大量的預(yù)處理和設(shè)置參數(shù)等操作。自20世紀(jì)90年代，無(wú)標(biāo)定的視覺(jué)伺服系統(tǒng)應(yīng)運(yùn)而生，成為研究熱點(diǎn)。

隨著人工智能和機(jī)器人技術(shù)的發(fā)展，將強(qiáng)化學(xué)習(xí)應(yīng)用于機(jī)械臂控制系統(tǒng)變成近年來(lái)機(jī)器人控制技術(shù)發(fā)展熱點(diǎn)[1]。李靜提出了基于模糊的強(qiáng)化學(xué)習(xí)方法來(lái)實(shí)現(xiàn)自動(dòng)化路徑規(guī)劃的控制[2]。朱光耀利用強(qiáng)化學(xué)習(xí)解決了多關(guān)節(jié)機(jī)械臂軌跡跟蹤等問(wèn)題，該方法的模型分別為評(píng)價(jià)網(wǎng)絡(luò)和動(dòng)作網(wǎng)絡(luò)，評(píng)價(jià)網(wǎng)絡(luò)可以無(wú)限逼近長(zhǎng)期的代價(jià)函數(shù)，動(dòng)作網(wǎng)絡(luò)被用于系統(tǒng)輸入[3]。楊加超提出將非同步迭代規(guī)則用于強(qiáng)化學(xué)習(xí)中，可使機(jī)械臂在較強(qiáng)干擾條件下進(jìn)行指定的動(dòng)作，該方法在多機(jī)器人系統(tǒng)上加入了并行計(jì)算，節(jié)省了訓(xùn)練時(shí)間[4]。但是上述基于強(qiáng)化學(xué)習(xí)的方法均沒(méi)有有效利用圖像屬性參數(shù)，因此本文嘗試在強(qiáng)化學(xué)習(xí)中合理結(jié)合圖像屬性參數(shù)，來(lái)提高抗干擾能力，實(shí)現(xiàn)快速精確的機(jī)械臂控制。

1 強(qiáng)化學(xué)習(xí)的機(jī)械臂無(wú)標(biāo)定視覺(jué)伺服控制方法

本文采取強(qiáng)化學(xué)習(xí)的機(jī)械臂無(wú)標(biāo)定視覺(jué)伺服控制方法，首先，利用機(jī)械臂無(wú)標(biāo)定視覺(jué)伺服控制進(jìn)行每一幀的特征提取；其次，利用TD算法遞推估計(jì)機(jī)械臂關(guān)節(jié)空間與圖像屬性參數(shù)空間之間的非線性矩陣。展示了基于強(qiáng)化學(xué)習(xí)的無(wú)標(biāo)定視覺(jué)伺服控制平臺(tái)。Cam1和Cam2為兩個(gè)采集動(dòng)態(tài)圖像的攝像機(jī)。為了便于圖像進(jìn)行屬性參數(shù)提取，為位姿定位提供有利條件。

1.1 基于強(qiáng)化學(xué)習(xí)的控制方法

基于強(qiáng)化學(xué)習(xí)的無(wú)標(biāo)定視覺(jué)伺服總體控制結(jié)構(gòu)和詳細(xì)設(shè)計(jì)方案如圖1所示。當(dāng)機(jī)械臂在目標(biāo)空間運(yùn)動(dòng)時(shí)，通過(guò)雙目攝像頭Cam1、Cam2來(lái)采集每一幀的圖像信息，通過(guò)采集可以收集到4個(gè)圖像屬性參數(shù)點(diǎn)來(lái)反映機(jī)械臂末端位姿狀態(tài)，其中，Cam1產(chǎn)生點(diǎn)P11、P12；Cam2產(chǎn)生點(diǎn)P21、P22；θ1是點(diǎn)P11、P12和Cam1采集的u軸之間夾角；θ2是點(diǎn)P21、P22和Cam2采集的u軸之間夾角。機(jī)械臂無(wú)標(biāo)定視覺(jué)伺服控制利用當(dāng)前fc與期望圖像屬性參數(shù)fd進(jìn)行偏差運(yùn)算，然后將關(guān)節(jié)控制器操控機(jī)械臂達(dá)到目標(biāo)關(guān)節(jié)位置q，得出機(jī)械臂空間位姿信息T，最后使用雙目攝像頭Cam1、Cam2進(jìn)行每一幀的圖信息采集，并得到控制偏差的信息。迭代此過(guò)程，即可得到機(jī)械臂到期望位姿。

本文提出一種基于強(qiáng)化學(xué)習(xí)的視覺(jué)伺服控制方法，為特征偏差加權(quán)一個(gè)學(xué)習(xí)而得到的系數(shù)，通過(guò)使用Kalman在線濾波，可以令采集的圖像信息特征和機(jī)械臂關(guān)節(jié)運(yùn)動(dòng)變化之間達(dá)到較優(yōu)的逼近效果，以產(chǎn)生相對(duì)較優(yōu)的空間運(yùn)動(dòng)軌跡。本文采用基于無(wú)模型強(qiáng)化學(xué)習(xí)算法中的幀間差分學(xué)習(xí)算法，學(xué)習(xí)訓(xùn)練無(wú)標(biāo)定視覺(jué)伺服控制器，圖1中Δf表示圖像屬性參數(shù)偏差值，S表示Agent狀態(tài)，k表示圖像屬性參數(shù)偏差的運(yùn)算系數(shù)[5]。

1.2 圖像屬性參數(shù)提取方法

無(wú)標(biāo)定視覺(jué)伺服控制方法的優(yōu)劣性，關(guān)鍵的一步在于對(duì)每一幀圖像提取特征的效率和質(zhì)量。為解決機(jī)械臂的軌跡控制問(wèn)題，就必須在三維笛卡爾空間中對(duì)圖像屬性參數(shù)進(jìn)行有效表示。因此，本文對(duì)圖像屬性參數(shù)提取的方法如圖2所示。

如圖2所示，為機(jī)械臂末端染上紅黃顏料作為標(biāo)記，可以使攝像頭在提取圖像信息時(shí)更高效，更有區(qū)別度，為后面圖像處理時(shí)創(chuàng)造便捷條件。通過(guò)視覺(jué)傳感器以及圖像處理后，機(jī)械臂末端上分別投影到采集的圖像1上的二維坐標(biāo)為P11（u11，v11）和P12（u12，v12），采集的圖像2上的二維坐標(biāo)為P21（u21，v21）和P22（u22，v22）。當(dāng)機(jī)械臂末端達(dá)到期望位姿，圖像平面1的點(diǎn)P11（u11，v11）和P12（） u12，v12與采集的圖像2的點(diǎn)P21（u21，v21）和P22（u22，v22）分別為P1和P2在圖像1和2上的期望投影點(diǎn)。

2 實(shí)驗(yàn)結(jié)果與分析

2.1 環(huán)境建模

利用自由度機(jī)器臂測(cè)試平臺(tái)搭建實(shí)驗(yàn)環(huán)境，選取MT-ARM機(jī)械臂作為控制對(duì)象。首先要獲悉機(jī)械臂的D-H參數(shù)。實(shí)驗(yàn)所用機(jī)械臂各連桿D-H參數(shù)如表1所示。

2.2 控制性能

為了將機(jī)械臂移動(dòng)范圍限制在測(cè)試攝像機(jī)的工作區(qū)域內(nèi)，訓(xùn)練開(kāi)始前需要調(diào)節(jié)機(jī)械臂初始關(guān)節(jié)角。機(jī)械臂的兩攝像機(jī)圖像平面的圖像屬性參數(shù)如圖3所示。

如圖3所示，下方直線連接的2個(gè)坐標(biāo)視為采集到的圖片參數(shù)信息，上方2個(gè)坐標(biāo)視為所需的圖片參數(shù)信息。通過(guò)強(qiáng)化學(xué)習(xí)后，控制機(jī)械臂移動(dòng)到當(dāng)前迭代期望的目標(biāo)位姿，其對(duì)應(yīng)圖像屬性參數(shù)如圖4所示。

在運(yùn)行每一次強(qiáng)化學(xué)習(xí)任務(wù)后，對(duì)機(jī)械臂的圖像屬性參數(shù)偏差進(jìn)行判斷，如果Δf小于s16，則表示該強(qiáng)化學(xué)習(xí)任務(wù)結(jié)束。最終結(jié)合望位姿對(duì)應(yīng)圖像屬性參數(shù)，利用所得的參數(shù)對(duì)機(jī)械臂進(jìn)行訓(xùn)練。

在相同的實(shí)驗(yàn)條件下，將常規(guī)PID控制和本文強(qiáng)化學(xué)習(xí)控制進(jìn)行了對(duì)比，機(jī)械臂控制和期望圖像屬性參數(shù)信息分別如表2和表3所示。

從表4可以看出，強(qiáng)化學(xué)習(xí)訓(xùn)練機(jī)械臂運(yùn)動(dòng)的前后過(guò)程，機(jī)械臂的開(kāi)始位姿和采集的圖像信息特征與期望位姿相同，但終止位姿和圖像采集信息的特征上存有偏差。利用強(qiáng)化學(xué)習(xí)訓(xùn)練后，訓(xùn)練后期望圖像屬性參數(shù)與結(jié)束時(shí)圖像屬性參數(shù)偏差見(jiàn)表4。訓(xùn)練前后機(jī)械臂的控制軌跡見(jiàn)圖5。

從表3和圖5可以看出，機(jī)械臂經(jīng)過(guò)訓(xùn)練后機(jī)械臂最終獲得的圖像屬性參數(shù)偏差大大小于一個(gè)像素rad，也就是說(shuō)位置準(zhǔn)確度可以保持小于0.001 m范圍。圖5中，訓(xùn)練前后機(jī)械臂的控制軌跡通過(guò)迭代次數(shù)的增加與預(yù)測(cè)軌跡誤差不斷減少，當(dāng)執(zhí)行到100次迭代時(shí)趨于穩(wěn)定，由此可見(jiàn)本文方法的魯棒性較高。

3 結(jié)語(yǔ)

本文通過(guò)引入強(qiáng)化學(xué)習(xí)來(lái)對(duì)機(jī)械臂進(jìn)行控制，提出一種無(wú)標(biāo)定視覺(jué)伺服的方法，對(duì)采集的每一幀圖像參數(shù)進(jìn)行處理，利用強(qiáng)化學(xué)習(xí)中的TD算法遞推估計(jì)機(jī)械臂關(guān)節(jié)空間與圖像屬性參數(shù)空間之間的非線性矩陣。實(shí)驗(yàn)結(jié)果表明：本文方法對(duì)于無(wú)標(biāo)定的伺服系統(tǒng)控制起到了有效的作用，具有良好的性能。但是，TD算法僅能夠處理離散函數(shù)問(wèn)題，這對(duì)機(jī)械臂的控制精度有不利影響，因此后續(xù)將嘗試采用能夠處理連續(xù)函數(shù)問(wèn)題的強(qiáng)化學(xué)習(xí)技術(shù)來(lái)進(jìn)一步改進(jìn)控制性能。

參考文獻(xiàn)

[1]李濤.機(jī)械臂無(wú)標(biāo)定視覺(jué)伺服及其網(wǎng)絡(luò)化控制技術(shù)研究[D].天津：天津大學(xué)，2020.

[2]李靜.機(jī)械臂視覺(jué)伺服控制研究[D].淮南：安徽理工大學(xué)，2022.

[3]朱光耀.全向移動(dòng)機(jī)械臂的無(wú)標(biāo)定視覺(jué)拾取控制系統(tǒng)設(shè)計(jì)[D].青島：青島科技大學(xué)，2021.

[4]楊加超.無(wú)標(biāo)定視覺(jué)伺服中圖像雅可比矩陣在線估計(jì)方法的研究[D].株洲：湖南工業(yè)大學(xué)，2021.

[5]程亮瑋.工業(yè)機(jī)械臂的無(wú)標(biāo)定視覺(jué)伺服系統(tǒng)研究[D].綿陽(yáng)：西南科技大學(xué)，2021.