基于深度強化學習算法的機器人浮動打磨執行裝置研究

2023-11-15 08:08:56張一然李長耿

制造技術與機床 2023年11期

關鍵詞：深度

張一然楊龍袁博李長耿

（中車青島四方機車車輛股份有限公司，山東青島 266111）

近年來，隨著機械加工產品精度質量要求的提高和國內制造業的發展，機器人打磨拋光技術成為我國重要的發展方向之一[1-3]。傳統的打磨拋光主要以手工操作為主，不僅會使工人面對打磨拋光產生的噪音和粉塵污染，而且難以保證打磨質量的一致性。使用工業機器人打磨可以保證打磨過程的可重復性，代替工人參與打磨的惡劣環境，并且可以消除人為誤差，保證打磨精度和一致性[4-5]。然而，由于機器人打磨執行器與打磨工件為剛性接觸，在打磨過程中容易造成打磨接觸力的不穩定，甚至損壞工件。因此，打磨力的柔順穩定控制是影響機器人打磨質量優劣的關鍵因素[6-7]。

針對機器人打磨的柔順力控問題，國內外學者開展了相關研究[8-11]。目前，柔順力控方法主要包括主動柔順控制和被動柔順控制。被動柔順方法往往采用簡單的彈簧機構進行柔順，對簡單零件的平面打磨有一定適用性。但被動柔順方法不能精確地控制打磨接觸力，在對復雜曲面零件進行打磨時，打磨效果不佳。因此，Nagata F[12]提出了基于力位混合控制的機器人主動柔順力控打磨方法，實現了高精度的機器人曲面零件拋光。許家忠等[13]提出了一種基于自適應阻抗控制的機器人柔順力控方法，并將其應用于復合材料工件打磨，獲得了較好的打磨效果。然而，采用機器人主動柔順力控算法進行打磨力控制，往往因難以獲得機器人的精確模型而實現高實時性和魯棒性的控制，導致力控精度和響應速度不佳[14]。

針對工業機器人存在的接觸力難以恒定控制問題，為了實現打磨接觸力的恒定，本文提出一種用于機器人末端的浮動打磨執行器。對浮動打磨執行器進行了結構設計，并進行了力控系統建模分析和控制算法設計；最后進行了恒力跟蹤試驗，驗證了裝置的恒力控制精度。

1 浮動打磨執行器工作原理與結構設計

1.1 浮動打磨執行器工作原理

浮動打磨執行器的工作原理如圖1 所示。浮動打磨執行器作為一種主動柔順力控裝置，需要額外的驅動裝置提供動力輸出。氣壓驅動相比于液壓和電磁驅動，具有結構緊湊、氣源易獲得、壓縮性大等優點，因此選用以氣缸為主要動力元件的氣壓驅動方式實現力的主動控制。氣源提供氣體，經由比例閥實現氣體流量的控制，進而實現氣缸內部壓力和打磨頭接觸力的控制。力傳感器實時測量打磨頭接觸力，控制系統根據反饋的打磨頭接觸力，調整比例閥開口大小，實現打磨力的閉環控制。

圖1 浮動打磨執行器的原理

1.2 浮動打磨執行器結構設計

圖2 所示為機器人浮動打磨末端執行器的結構示意圖?？紤]到運動的一致性，選用兩個相同規格、內部帶有磁環的氣缸作為驅動結構，以實現氣缸活塞位置的實時檢測。通過調節比例閥控制進入氣缸兩腔的氣體體積進而控制氣缸內部壓力，從而控制輸出打磨力。直線導軌和滑塊提供浮動自由度，與兩個氣缸對稱放置，以減小偏載力矩對控制性能的影響。浮動打磨執行器裝置通過機器人連接法蘭與機器人連接，通過打磨頭連接法蘭與力傳感器和打磨頭連接。力傳感器通過將實際打磨力實時反饋至控制系統，實現打磨力的閉環控制。

圖2 浮動打磨執行器內部結構

2 浮動打磨執行器力控系統建模分析

2.1 受力分析

將浮動打磨裝置分為浮動部分和固定部分，進行受力分析，如圖3 所示。假設此時重力方向與打磨法向的夾角為θ，裝置浮動部分的總質量為m。單個氣缸的無桿腔面積為A1，壓力為P1；有桿腔面積為A2，壓力為P2。浮動打磨裝置與打磨工件之間的接觸力為Fn，摩擦力為Ff，打磨頭的位移為x。

圖3 浮動打磨裝置受力分析

根據牛頓第二定律，可以得到浮動打磨裝置的力平衡方程為

式中：Gθ=mgcosθ，為裝置浮動部分的重力在打磨表面法向上的分量。

2.2 力控系統建模分析

由比例閥進行氣體壓力的調節。比例閥的輸出壓力P和輸入電壓U的關系可以表示為

式中：K1和k兩個參數與氣缸的特性有關。

對浮動裝置受力分析得到的式（1）進行拉普拉斯變換可以得到：

力控系統的控制框圖如圖4 所示。

圖4 力控系統控制框圖

力控系統的開環傳遞函數可以表示為

式中：Gc為控制器的傳遞函數；Gd為D/A 轉換器傳遞函數；Gh為零階保持器；Gp為力控系統傳遞函數；Gpr為打磨過程的傳遞函數。

當浮動打磨裝置與打磨工件接觸時，打磨輸出力Fn可以使打磨頭產生位移x，其關系可以表示為

式中：Km、ωn、ζ分別為剛度、自然頻率和阻尼比。

將摩擦力Ff視為擾動，可得系統整體的傳遞函數為

至此，完成浮動打磨力控系統建模。由式（6）可知，力控系統可以視為三階系統，系統存在慣性環節，需要設計控制算法以提高力控系統的控制性能。

3 基于深度強化學習算法參數整定的PID控制

3.1 傳統PID 控制

PID 控制算法是工業中技術成熟、應用廣泛的一種控制算法[15-16]，結合比例、積分和微分3 個環節于一體，以實現閉環系統的控制，其控制算法框圖如圖5 所示。

圖5 PID 控制算法圖

PID 控制算法基于誤差信號e(t)（即期望值r(t)與實際值y(t)之間的差異），向誤差信號減小的方向調整控制信號u(t)，基于控制信號u(t)實現執行機構控制，進而控制系統的實際輸出值y(t)，使其盡可能接近期望輸出值。在浮動打磨執行器的浮動打磨控制過程中，期望輸出值為用戶設定的期望打磨力，實際輸出值為打磨執行器作用在工件上的實際打磨力，從而實現打磨力的控制。

PID 調節器的微分方程可表示為

式中：e(t)=r(t)-y(t)。

PID 調節的傳遞函數可表示為

PID 控制參數對系統性能影響較大[17-18]，需要對比例環節、積分環節和微分環節進行分析。

（1）比例環節：通過比例參數與誤差信號的乘積產生控制信號，按比例調節使誤差信號減小。選擇較大的比例系數往往會減小系統的穩態誤差和上升時間，提升系統的控制精度和反應時間。但過大的比例系數，也會相應地提高系統的超調量，產生系統震蕩。

（2）積分環節：僅調節比例系數，無法消除系統的穩態誤差，因此需要引入積分環節。增大積分系數，往往會降低系統的上升時間，改善提高系統的穩態性能。但過大的積分系數，容易使系統產生震蕩，影響系統的穩定性。

（3）微分環節：通過預測偏差的變化趨勢對系統調整，從而達到超前的控制效果。

3.2 DDPG 深度強化學習算法

深度強化學習算法是將深度學習和強化學習結合起來的算法[19-22]。深度學習在感知問題上具有強大的理解能力，而強化學習具有強大的決策能力。深度強化學習融合了兩者的優點，具有強大的感知和決策能力，在研究中廣泛得到應用[23]。深度強化學習算法框架如圖6 所示。智能體作為一個可以獲取環境狀態作的實體，首先觀察環境狀態，并根據經驗策略進行下一步的動作。智能的動作可以對環境狀態產生改變，環境狀態發生改變后會反饋智能體獎勵值，智能體根據獎勵值對經驗策略進行優化，以在之后獲取更高的獎勵值。如此反復進行迭代學習，最終獲得滿足要求的智能體和策略。

圖6 深度強化學習算法框架圖

DDPG 算法是將Actor-Critic 算法和DQN 算法結合起來、應用于連續控制領域的一種深度強化學習算法[21-24]，適用于狀態空間連續和動作空間連續的問題，其算法原理圖如圖7 所示。

圖7 DDPG 算法原理圖

DDPG 深度強化學習算法首先初始化Actor 網絡和Critic 網絡，并生成一組同樣參數的目標網絡。Actor 網絡在與環境交互后，將其狀態、動作、獎勵和下一時刻的狀態記錄在經驗緩沖區內，然后從經驗緩沖區中生成新的狀態、動作、獎勵和下一時刻的狀態信息，并在Critic 網絡中計算Q值，并按照Q值最大的方向進行Actor 網絡參數的修正。最后將目標網絡與主網絡參數同步，進行下一輪的迭代處理。

相比于其他參數優選算法，DDPG 算法能在連續的動作空間確定地選擇唯一的動作。而參數調整是基于高維狀態空間以及連續動做決策的，因此采用DDPG 算法可以很好地完成參數優選問題，進而更適用于浮動打磨執行器的柔順控制。

3.3 基于DDPG 算法的PID 控制參數整定

PID 參數對控制系統的控制性能影響很大，因此選取合適的PID 控制參數是影響控制效果優劣的關鍵。在大多數工業場合，PID 控制參數的選取依靠經驗進行試選，從中選取一個合適的值。然而本文設計的浮動打磨裝置，具有強耦合和非線性的特性，僅依靠經驗進行PID 控制參數整定，往往難以取得較好的控制效果且效率低下。DDPG 深度強化學習算法適用于在連續狀態空間和動作空間中尋找最優解，可用于PID 控制參數整定，其原理框圖如圖8 所示。

圖8 基于DDPG 算法的PID 參數整定原理框圖

采用DDPG 深度強化學習算法進行PID 控制參數整定步驟如下。

步驟1：首先進行DDPG 的網絡初始化，設置網絡相關參數和PID 參數初值，并且設置輸出的PID 參數范圍，以避免不合理的PID 控制參數可能引起的較差的控制效果。

步驟2：Actor 網絡將打磨過程中的性能指標作為獎勵信息，與新的狀態信息放入經驗緩沖區中，并在Critic 網絡中計算Q值，并按照Q值最大的方向更新Actor 網絡和Critic 網絡，完成此次DDPG算法的迭代學習。

步驟3：DDPG 算法輸出PID 控制參數值到PID 控制器中，進行一次打磨過程。計算此次打磨過程的性能指標，包括力偏差均值、力偏差均方差值和上升時間，并將性能指標以狀態向量的形式輸入到DDPG 算法。

步驟4：判斷此次打磨過程的性能指標能否滿足控制性能要求，若滿足要求則輸出此次PID 控制參數，結束迭代學習；若不滿足要求，則重復步驟2 和步驟3，進行下一次迭代學習。

4 浮動打磨執行器恒力性能驗證

搭建圖9 所示的xPC Target 浮動打磨執行器實驗平臺，對本文設計的浮動打磨執行器進行恒力控制性能驗證。實驗平臺主要由浮動打磨執行器、高速數據采集卡、PC 上位機和xPC 目標下位機組成。實驗平臺中，上位機軟件進行控制參數的設定，并進行打磨輸出力的實時曲線顯示；下位機采集浮動打磨過程中的傳感器信號發送給上位機，并依據上位機控制參數設定進行打磨力的控制。實驗過程中，保持打磨頭為開啟狀態，通過給定階躍信號的打磨期望力，測量實際打磨力的跟隨情況，以測試打磨執行器的恒力控制性能。

圖9 xPC Target 實驗平臺

經過多次手動整定PID 參數，設置比例參數為0.3、積分參數為0.05、微分參數為0.1，測試結果如圖10 所示。

圖10 PID 控制實驗曲線

試驗結果表明，由于打磨頭的開啟，實際打磨力會產生一定程度的抖動，實際輸出力能較穩定地跟隨期望輸出力。

基于DDPG 深度強化學習算法進行PID 參數整定，進行了打磨實驗測試，測試過程開啟打磨頭，測試結果如圖11 所示。

圖11 DDPG 參數整定后的PID 控制實驗曲線

分別計算兩組實驗輸出力數據的性能指標，包括實際輸出力與期望輸出力的偏差的均值、均方差以及實際輸出力的上升時間，結果見表1。

表1 輸出力性能指標比較

由表1 中數據可知，采用DDPG 深度強化學習算法進行PID 參數整定，獲得了更小的力偏差均值和均方差值以及更快的上升時間，從而具有更高的力控精度和響應速度。

5 結語

本文面向機器人自動化打磨拋光需求，進行了浮動打磨執行器的結構設計和力控系統建模分析，并開展浮動打磨執行器的控制方法設計。在傳統PID 控制算法的基礎上，采用DDPG 深度強化學習算法進行PID 控制參數的整定，進行了浮動打磨執行器恒力打磨實驗驗證。實驗結果表明，本文設計的浮動打磨執行器，在采用DDPG 算法進行PID 控制參數整定后，獲得了較好的恒力控制性能，具有較強的力控精度和魯棒性，可以實現接觸力的實時監測與恒力控制，可應用于各種機器人自動化打磨拋光領域。