董 潔,顧雅珍
(赤峰學院數學與計算機科學學院,赤峰 024000)
隨著時代的發展,航天航空以及各種高危行業均使用機械臂進行作業[1],以此降低工作人員的人身安全威脅。但由于機械臂所處的環境均是核環境或者航空環境等十分復雜的環境[2],導致機械臂出現故障后無法依靠人員進行維修,這種情況下機械臂仍需帶故障進行作業,針對這種情況國內外專家提出容錯控制問題。自1980年開始國內外針對航天事業中機械臂的容錯問題進行研究[3],根據機械臂的靈活等特性快速發展機械臂的容錯問題。隨著機械臂的應用范圍擴大,如何保證在出現故障時機械臂仍可穩定運行是刻不容緩需要解決的問題,為進一步深入研究機械臂的容錯問題,現利用深度學習算法對機械臂的容錯問題展開研究。
王立敏[4]等人首先構建機器臂狀態模型,并根據時滯情況進行轉換,其次將狀態模型轉換成帶有狀態以及輸出誤差的空間模型,最后利用切換系統模型進行描述,并在其中添加二次目標函數,在最優控制理論的基礎上完成機械臂的容錯控制。趙劍飛[5]等人首先構建出機械臂的同步電機數學模型,并根據電力模型得出機械臂的控制方案,進而分析出機械臂的整體容錯控制方法,針對效率問題利用模糊控制算法完成轉矩實現容錯控制的優化。
以上兩種方法在對機械臂進行容錯控制前沒有獲取機械臂的參數矢量,導致在實際控制過程中未知數據過多,無法保證機械臂的容錯控制效率和精度,存在容錯控制整體性能差、平均獎勵值低和抗干擾能力差的問題。為了解決上述方法中存在的問題,提出基于改進深度學習的多自由度機械臂容錯控制研究方法。
機械臂容錯控制的主要意義就是保證機械臂出現故障時仍可以穩定地執行工作任務,為提高容錯控制可靠性,需提前對機械臂的故障進行檢測,以此實現機械臂的容錯控制。
針對機械臂的故障檢測和容錯控制均需要自適應濾波器的幫助,在選取濾波器的過程中發現基于LMS算法的自適應濾波器不僅有計算量小和結構簡單等優點,還有抗敏感性的特點,十分適合機械臂容錯控制,因此選取自適應濾波器對機械臂進行處理。
根據機械臂傳感器以及推進器以往的故障狀態得出機械臂的狀態方程式為:

其中,C代表機械臂的實時狀態矩陣,D代表機械臂的控制矩陣,DF代表機械臂中推進器故障的控制矩陣,A代表機械臂傳感器的故障矩陣,Z代表機械臂的整體狀態變量,S代表機械臂中傳感器的輸出,u代表機械臂的控制信號,fa代表非線性項。
將其進行離散化處理后即可得出機械臂的狀態方程,其表達式為:

式中,Zk-1和Sk均代表離散化處理后的狀態變量以及輸出,φ代表控制變量系數,Γ代表離散化處理后的參數,Rk代表離散化處理后的非線性項,βk代表離散化處理后的故障控制矩陣,L和Tk均代表矩陣系數。
根據機械臂的狀態方程,構建出機械臂的等效模型,不斷訓練濾波器模型,得到機械臂模型的參數矢量,首先計算出機械臂的輸出信號,其表達式為:

式中,g(k)代表機械臂中自適用濾波器的輸出,N代表濾波器的階數。
進而得出差值信號的計算公式為:

式中,q(k)代表自適應濾波器在對故障進行跟蹤控制過程中的狀態誤差,p(k)代表機械臂傳感器的狀態。則模型中的參數經過不斷訓練后得出參數矢量為:

式中,Hk+1代表等效模型的參數矢量,o(k)代表時間序列。
在機械臂系統中,當濾波器的階數越大其跟蹤精度也就越高,但也會增加相應計算量,與此同時機械臂運行的實時性也會下降,為保證機械臂容錯控制效率,在選取階數N時必須考慮機械臂整體的運行精度以及實時性。
將機械臂容錯控制中的控制信號以及傳感器輸出結果利用自適應濾波器進行訓練,不斷更新出控制系統的參數數量,進而不斷更新控制數據,保證容錯控制的實時性,提高機械臂容錯控制性能。
在對機械臂進行容錯控制過程中需要利用大量數據支撐,通過上述操作計算出大量原本不確定的參數矢量。
機器學習中的深度學習是一種具有統計學意義的算法,通過深度學習完成容錯控制可輕易獲取大量相關數據,且數據均是可利用且完全不重復的數據,所以在對多自由度機械臂進行容錯控制前可構建神經網絡模型加強整體可靠性。
BP神經網絡是現如今應用范圍最廣,也是最完善的一種深度學習算法,其核心是將機器設備的信號進行正向傳播的同時將誤差進行反向逆傳播,機械臂信號分別經過神經網絡的輸入層和隱含層進行傳播,其中神經網絡模型的結構圖如圖1所示。

圖1 基于深度學習的神經網絡模型
根據神經網絡模型將機械臂運動信號從輸入層輸入,在隱含層中對數據進行權重計算以及激活函數等處理后得出輸出結果。
假設機械臂目前的狀態為xi,根據神經網絡得出改進深度學習的目標函數表達式為:

式中,ai代表機械臂在訓練過程中的行為,代表機械臂運行軌跡的回報。
深度學習的目的就是在全局中提取出最優參數,將目標函數最大化,將目標函數添加到神經網絡中即可得出最優參數。
根據自適應濾波器得出機械臂出現故障后的實際狀態空間模型,其表達式為:

式中,a表示機械臂的狀態向量,b表示機械臂子系統的輸出,fx表示機械臂故障的函數項,f(a)和h(a)均代表Lipschitz的連續函數,其表達式分別為:

式中,β(t-Tf)代表機械臂發生故障時的開關函數,ψ(p,·p,u)代表機械臂的故障函數,p代表機械臂的理想關節角,·p 代表機械臂的理想關節角速度。
根據以上參數和公式得出機器臂控制目標的性能指標函數公式,其表達式為:

式中,r(τ)代表機械臂運動軌跡的跟蹤誤差,e(r,u)代表效應函數,x代表機械臂執行器的故障預測值,ρ和δ均代表常數項。
假設機器臂的理想運行軌跡為:

式中,ui代表機械臂的理性控制。
將機械臂的運行估計跟蹤誤差進行求導后得出下列公式:

式中,u代表機械臂的整體容錯控制器。
由于控制器u是由ui以及最優反饋控制器組成,進而得出控制器的計算公式為:

式中,ue代表機械臂的最優反饋控制器。
將ue添加到式(11)后即可保證機械臂容錯控制收斂到最穩定的狀態
此時系統性能子函數就得到了優化,同時生成了一組容許控制序列φ(Ω)。
根據優化性能指標可將容錯控制問題轉換成提取最優反饋控制ue問題,進而保證跟蹤誤差以及性能指標函數的代價最小。
假設機械臂整體性能指標是連續可微的,此時性能指標函數的最小形式就是非線性李雅普諾夫,從而得出哈密頓函數表達式為:

式中,ΔV(e)代表性能指標關于最優控制的偏導數。
則最優性能指標函數表達式為:

在實際容錯控制過程中L*(e)需要滿足下列要求:

當最優性能指標函數滿足上式即可生成最優反饋容錯控制公式,其表達式為:

式中,R代表機械臂所有故障項的集合。
為了驗證基于改進深度學習的多自由度機械臂容錯控制研究方法的整體有效性,現對所提方法、文獻[4]方法和文獻[5]方法進行容錯控制整體性能、平均獎勵值和抗干擾能力的測試。測試用機械臂為S6H6多自由度機械臂,其結構如圖2所示。

圖2 多自由度機械臂結構
機械臂參數如表1所示。

表1 機械臂參數
由于機械臂的使用環境不利于機械臂的維修,且針對機械臂的維修目前很難實現,為將機械臂的應用壽命延長,只能在其中添加容錯控制,機械臂容錯控制的性能直接決定機械臂的使用效率。
為比較三種方法的性能優劣,隨機選取一多自由度機械臂,利用三種方法對該機械臂進行容錯控制,判斷每種方法下實際運行角度與理想運行角度之間的差異,結果如圖3所示,根據結果可知,所提方法的運行角度與期望角度完全相同,說明該方法的容錯控制性能強,其余兩種方法與理想角度之間均存在不同程度的差異。

圖3 三種方法的機械臂運動位置
在太空環境下,機械臂的速度也會影響機械臂的運行能力,為保證所提方法的可信度,在同一環境下比較三種方法與期望速度之間的差異,結果如圖4所示。根據結果可知,與期望速度最接近的仍是所提方法,因為所提方法在對多自由度機械臂進行容錯控制前構建自適應度模型,得出機械臂系統中的參數矢量,保證容錯控制的可靠性,以此加強容錯控制的整體性能。

圖4 三種方法的實際運行速度
多自由度機械臂在進行容錯控制過程中可將容錯控制的訓練結果視為輸出獎勵值,獎勵值越高說明機械臂的容錯控制精度越高,將所有獎勵值進行綜合計算后得出每種方法的平均獎勵值,平均降低值越高說明方法的控制精度越高。
在同一環境下通過三種方法分別對某一多自由度機械臂進行容錯控制,得出每種方法下的平均獎勵值,其結果如下所示。
根據圖5可知,隨著訓練次數的增多,容錯控制的平均獎勵值也隨之增高,其精度也逐漸升高,在剛開始訓練時,三種方法的平均獎勵值均為負值,通過不斷的訓練,所提方法的平均獎勵值上升的最快也是最多的,與文獻[4]方法和文獻[5]方法比較后發現,所提方法在訓練過程中其平均獎勵值最高,說明該方法的容錯控制精度最優。

圖5 三種方法的平均獎勵值
機器臂所處的環境中干擾因素較多,十分影響機械臂容錯控制性能,當在容錯控制過程中出現干擾因素后不可避免出現容錯控制誤差,為比較三種容錯控制的好壞,比較三種方法在同一個帶有干擾因素的機械臂進行容錯控制,判斷每種方法的控制誤差,當控制誤差最小,說明該方法的容錯控制最有效,三種方法的控制誤差如下所示。

圖6 三種方法的抗干擾能力對比結果
根據實驗結果可知,控制誤差最小的是所提方法,其次是文獻[4]方法,控制誤差最大的文獻[5]方法,由此驗證了所提方法是最優機械臂容錯控制方法。
為了保證航天事業的快速發展,加強國家建設,提出基于改進深度學習的多自由度機械臂容錯控制研究方法,該方法首先完成機械臂的自適應建模,其次基于深度學習完成機械臂的容錯控制,實現多自由度機械臂容錯控制,解決了容錯控制整體性能差、平均獎勵值低和抗干擾能力差的問題,保障航天事業的進一步加強。