王 敏 黃龍旺 楊辰光
隨著現(xiàn)代工業(yè)的快速發(fā)展,無(wú)線通信技術(shù)被廣 泛用于各類(lèi)控制系統(tǒng)中,以解決工業(yè)過(guò)程的遠(yuǎn)程控制問(wèn)題,同時(shí)提高設(shè)備安裝和配置的靈活性.例如,地面站對(duì)高空無(wú)人機(jī)的控制,以及控制臺(tái)對(duì)作業(yè)車(chē)間中工業(yè)機(jī)器人的遠(yuǎn)程控制等都是借助無(wú)線通信技術(shù)來(lái)實(shí)現(xiàn)的[1?2].然而,在網(wǎng)絡(luò)資源受限的情況下,傳統(tǒng)的周期性數(shù)據(jù)傳輸和執(zhí)行的控制方式很容易引發(fā)網(wǎng)絡(luò)擁塞.針對(duì)該問(wèn)題,文獻(xiàn)[3]提出了事件觸發(fā)的控制策略.該策略通過(guò)僅在滿足觸發(fā)機(jī)制要求時(shí)進(jìn)行數(shù)據(jù)傳輸,從而有效地減少了控制系統(tǒng)中網(wǎng)絡(luò)資源的占用.結(jié)合事件觸發(fā)策略,自適應(yīng)控制和萬(wàn)能逼近器等技術(shù),大量針對(duì)不確定非線性系統(tǒng)的事件觸發(fā)控制方案相繼被提出[4?6].需要指出的是,上述方案極少考慮系統(tǒng)存在非匹配的不確定非線性動(dòng)態(tài)情況,即不確定非線性動(dòng)態(tài)出現(xiàn)在非控制輸入通道.事實(shí)上,非匹配的非線性動(dòng)態(tài)普遍存在于各種實(shí)際系統(tǒng),如無(wú)人車(chē),機(jī)械臂和飛行器等[7?12].針對(duì)嵌入了 “控制器?執(zhí)行器網(wǎng)絡(luò)”的非匹配非線性系統(tǒng),國(guó)內(nèi)外學(xué)者們提出了大量具有相對(duì)或絕對(duì)事件觸發(fā)條件的控制方案[13?15].由于事件觸發(fā)條件設(shè)計(jì)與系統(tǒng)穩(wěn)定性的強(qiáng)耦合特性,導(dǎo)致上述方案很難拓展到嵌入 “傳感器?控制器網(wǎng)絡(luò)”的不確定非匹配非線性系統(tǒng).為了解決該難題,文獻(xiàn)[16]結(jié)合脈沖動(dòng)力系統(tǒng)和死區(qū)算子等技術(shù),提出了具有自適應(yīng)事件觸發(fā)條件的控制方案.需要說(shuō)明的是,上述方案僅適合于連續(xù)系統(tǒng).
相比于連續(xù)系統(tǒng),離散系統(tǒng)更適用于描述數(shù)字化系統(tǒng)的控制過(guò)程.然而,離散系統(tǒng)事件觸發(fā)控制方面的研究成果寥寥無(wú)幾.造成這一現(xiàn)象的主要原因是直接利用反步法對(duì)離散非匹配系統(tǒng)進(jìn)行控制器設(shè)計(jì)時(shí),通常會(huì)產(chǎn)生非因果問(wèn)題[17],故而難以將連續(xù)系統(tǒng)的研究成果直接推廣到對(duì)應(yīng)的離散系統(tǒng)上.為了克服該問(wèn)題,文獻(xiàn)[18]先將原系統(tǒng)轉(zhuǎn)化成一個(gè)n步向前預(yù)測(cè)模型,并在該模型上進(jìn)行反步控制設(shè)計(jì).在假設(shè)網(wǎng)絡(luò)資源充足的前提下,大量基于n步預(yù)測(cè)器的離散非匹配非線性系統(tǒng)的控制方案相繼被提出[19?22].考慮到遠(yuǎn)程控制中網(wǎng)絡(luò)資源受限問(wèn)題,文獻(xiàn)[23]嘗試提出了基于n步預(yù)測(cè)模型的事件觸發(fā)自適應(yīng)神經(jīng)網(wǎng)絡(luò)控制方案.然而,文獻(xiàn)[23]設(shè)計(jì)的控制器存在n步滯后現(xiàn)象,且觸發(fā)條件復(fù)雜不便于實(shí)施.在此基礎(chǔ)上,文獻(xiàn)[24?25]探討了隨機(jī)噪聲情況下離散非匹配非線性系統(tǒng)的事件觸發(fā)控制問(wèn)題.值得注意的是,上述的方案都沒(méi)有考慮事件觸發(fā)下系統(tǒng)的最優(yōu)控制問(wèn)題和可能出現(xiàn)的執(zhí)行器故障現(xiàn)象.
眾所周知,在資源受限的情況下考慮如何利用有限的資源來(lái)優(yōu)化系統(tǒng)性能以及減少資源浪費(fèi)是非常有必要的.動(dòng)態(tài)規(guī)劃是常用的解決最優(yōu)化問(wèn)題的有效方法之一,但是控制動(dòng)態(tài)規(guī)劃后向?qū)?yōu)的求解過(guò)程的矛盾以及系統(tǒng)維數(shù)較高時(shí)所導(dǎo)致的 “維數(shù)災(zāi)”問(wèn)題,使得動(dòng)態(tài)規(guī)劃難以在系統(tǒng)的最優(yōu)化控制中得到大規(guī)模的應(yīng)用[26].為了解決此問(wèn)題,文獻(xiàn)[27]通過(guò)采用 “執(zhí)行?評(píng)價(jià)”結(jié)構(gòu),提出了自適應(yīng)評(píng)判設(shè)計(jì)方法.該方法使得執(zhí)行網(wǎng)絡(luò)能夠根據(jù)評(píng)價(jià)結(jié)果適時(shí)調(diào)整控制策略,從而達(dá)到實(shí)時(shí)尋優(yōu)的目的.目前,自適應(yīng)評(píng)判設(shè)計(jì)被廣泛應(yīng)用于解決離散和連續(xù)系統(tǒng)的最優(yōu)控制問(wèn)題[21?22,28?30].如何將該方法推廣到具有網(wǎng)絡(luò)資源受限的離散非匹配非線性系統(tǒng)控制中是亟待解決的問(wèn)題.此外,執(zhí)行器故障廣泛存在于工業(yè)生產(chǎn)過(guò)程中.執(zhí)行器故障會(huì)導(dǎo)致系統(tǒng)性能下降,甚至導(dǎo)致系統(tǒng)不穩(wěn)定[31?34].因此,在執(zhí)行器故障下,研究離散非匹配非線性系統(tǒng)的事件觸發(fā)自適應(yīng)評(píng)判容錯(cuò)控制具有重要意義.
基于上述分析,本文著重研究具有非匹配結(jié)構(gòu)的離散多輸入多輸出(Multi-input multi-output,MIMO)非線性系統(tǒng)的事件觸發(fā)自適應(yīng)評(píng)判容錯(cuò)控制問(wèn)題.與現(xiàn)有的結(jié)果相比,本文的貢獻(xiàn)可歸納如下:1)構(gòu)造光滑的效用函數(shù)來(lái)構(gòu)建系統(tǒng)的長(zhǎng)期性能指標(biāo)函數(shù),從而避免了現(xiàn)有的非光滑二值效用函數(shù)切換過(guò)程中可能引起的評(píng)價(jià)網(wǎng)絡(luò)和執(zhí)行網(wǎng)絡(luò)跳變現(xiàn)象;2)采用變量替換法將系統(tǒng)的將來(lái)信息表示成關(guān)于系統(tǒng)當(dāng)前狀態(tài)的函數(shù),從而避免了控制設(shè)計(jì)過(guò)程中的非因果問(wèn)題和控制信號(hào)的n步時(shí)延問(wèn)題;3)通過(guò)在控制器中引入動(dòng)態(tài)補(bǔ)償項(xiàng),并結(jié)合自適應(yīng)評(píng)判設(shè)計(jì)方法,從而改善了系統(tǒng)控制性能和進(jìn)一步降低了事件觸發(fā)次數(shù).
本文所考慮的網(wǎng)絡(luò)控制系統(tǒng)模型如下


本文采用高階神經(jīng)網(wǎng)絡(luò)(High-order neural network,HONN)來(lái)逼近未知的非線性動(dòng)態(tài),HONN 的結(jié)構(gòu)能夠用如下方程來(lái)描述:

如圖1 所示,本文主要考慮系統(tǒng)的傳感器和控制器通訊時(shí)采用事件觸發(fā)機(jī)制進(jìn)行數(shù)據(jù)傳輸.當(dāng)觸發(fā)條件滿足時(shí),傳感器將采集到的系統(tǒng)狀態(tài)數(shù)據(jù)通過(guò)網(wǎng)絡(luò)傳輸給控制器.為了便于事件觸發(fā)條件的設(shè)計(jì),本文定義如下的傳輸誤差

圖1 網(wǎng)絡(luò)控制系統(tǒng)框圖Fig.1 Schematic diagram of networked control systems

其中,kt表示上一個(gè)事件觸發(fā)時(shí)刻,X(k) 為系統(tǒng)(1)的當(dāng)前狀態(tài),X(kt) 為上一次傳輸?shù)南到y(tǒng)狀態(tài).
在這一節(jié)中,針對(duì)所考慮的系統(tǒng)(1),本文提出了一種基于事件觸發(fā)的自適應(yīng)評(píng)判容錯(cuò)控制方案.
為了便于控制器設(shè)計(jì),定義如下的誤差變量

基于以上定義的誤差變量(7)和中間函數(shù)(8),評(píng)價(jià)網(wǎng)絡(luò)和執(zhí)行網(wǎng)絡(luò)的具體設(shè)計(jì)過(guò)程給出如下.
首先,定義效用函數(shù)

其中,ηj >0 是一個(gè)可調(diào)參數(shù).根據(jù)式(9)可知,當(dāng)跟蹤誤差zj,1(k)=0 時(shí),qj(k)=0;當(dāng)跟蹤誤差zj,1(k)→±∞時(shí),qj(k)→1. 因此,qj(k) 可視作系統(tǒng)當(dāng)前性能的評(píng)價(jià).基于效用函數(shù)qj(k),定義系統(tǒng)長(zhǎng)期性能指標(biāo)函數(shù)

其中,0<ζj <1.根據(jù)定義(10)可得

式(11)也被稱(chēng)為Bellman 等式.采用評(píng)價(jià)網(wǎng)絡(luò)對(duì)Qj(k) 進(jìn)行逼近,則有

注 1.在評(píng)價(jià)網(wǎng)絡(luò)的設(shè)計(jì)中,文獻(xiàn)[22,31]都采用二值效用函數(shù)來(lái)構(gòu)建長(zhǎng)期的性能函數(shù).由于評(píng)價(jià)網(wǎng)絡(luò)與執(zhí)行網(wǎng)絡(luò)相關(guān)聯(lián),二值效用函數(shù)值的突變會(huì)對(duì)執(zhí)行網(wǎng)絡(luò)造成沖擊,從而加速執(zhí)行部件的老化和磨損.為了避免該問(wèn)題,本文利用指數(shù)函數(shù)和跟蹤誤差zj,1(k) 定義了一個(gè)光滑的效用函數(shù)(9).從式(9)可知,qj(k) 的值在 [ 0,1) 之間連續(xù)變化,從而能夠避免由于效用函數(shù)值的突變?cè)斐蓤?zhí)行網(wǎng)絡(luò)的沖擊.
這部分主要進(jìn)行執(zhí)行網(wǎng)絡(luò)的設(shè)計(jì).首先,利用反步法設(shè)計(jì)出理想的控制律,并用執(zhí)行網(wǎng)絡(luò)來(lái)對(duì)其進(jìn)行逼近.具體設(shè)計(jì)過(guò)程如下.

根據(jù)式(19),式(21) 中的αj,1(k+1) 中包含系統(tǒng)的將來(lái)信息x1(k+1).若不加以處理,接下來(lái)設(shè)計(jì)出的虛擬控制律和實(shí)際控制律中都將包含系統(tǒng)的將來(lái)信息,導(dǎo)致所得出的控制律不可實(shí)現(xiàn).為了解決該問(wèn)題,本文利用變量替換的方法將αj,1(k+1)表示成關(guān)于系統(tǒng)當(dāng)前狀態(tài)的函數(shù):

根據(jù)式(19)、(23)和中間函數(shù)(8),可推知



注 2.在控制器的設(shè)計(jì)中,不同于文獻(xiàn)[18?22]所采用的n步向前預(yù)測(cè)模型方法,本文利用以當(dāng)前時(shí)刻系統(tǒng)狀態(tài)為變量的函數(shù)來(lái)刻畫(huà)虛擬控制律的將來(lái)信息(26),從而成功避免了在離散系統(tǒng)控制設(shè)計(jì)過(guò)程中可能出現(xiàn)的非因果問(wèn)題以及基于n步預(yù)測(cè)模型所導(dǎo)致的控制信號(hào)滯后n步的問(wèn)題.
注 3.從式(26) 可知,虛擬控制律的將來(lái)信息(k+1)已經(jīng)被表示為系統(tǒng)狀態(tài)當(dāng)前信息和參考信號(hào)將來(lái)信息的函數(shù).類(lèi)似于現(xiàn)有文獻(xiàn)[18?22],本文假定參考信號(hào)是人為給定的,能夠事先獲得將來(lái)信息.此外,如果實(shí)際系統(tǒng)中參考信號(hào)的將來(lái)信息無(wú)法預(yù)先獲得,那么可以構(gòu)造ij步參考信號(hào)預(yù)測(cè)器,從而可以解決該問(wèn)題.
注 4.注意到本文所考慮的系統(tǒng)(1) 是全狀態(tài)可測(cè)的.然而,通過(guò)構(gòu)造狀態(tài)觀測(cè)器[35]和引入控制增益函數(shù)(·)(j=1,2,···,N)是已知的約束,本文所提出的狀態(tài)反饋控制方案很容易推廣到系統(tǒng)狀態(tài)不完全可測(cè)的情況.需要指出的是,在狀態(tài)不完全可測(cè)的情況下,對(duì)于未知函數(shù)增益(·) 的處理目前仍是一個(gè)開(kāi)放性和具有挑戰(zhàn)性的問(wèn)題.
注意到事件觸發(fā)機(jī)制設(shè)計(jì)的主要目的在于節(jié)省網(wǎng)絡(luò)資源,該機(jī)制決定了是否將傳感器采集到的當(dāng)前時(shí)刻的系統(tǒng)數(shù)據(jù)發(fā)送給控制器.為了能夠在節(jié)省網(wǎng)絡(luò)帶寬情況下仍然保證系統(tǒng)的控制性能,本文首先設(shè)計(jì)了如下的靜態(tài)事件觸發(fā)條件:

那么閉環(huán)系統(tǒng)中的所有信號(hào)都是最終一致有界的.



基于定理1 的研究結(jié)果,本文借鑒動(dòng)態(tài)事件觸發(fā)機(jī)制設(shè)計(jì)思想[36?37],進(jìn)一步對(duì)定理1 的研究結(jié)果進(jìn)行了推廣.
定理 2.考慮離散多輸入多輸出系統(tǒng)(1),控制器(33)、(40),評(píng)價(jià)網(wǎng)絡(luò)和執(zhí)行網(wǎng)絡(luò)的權(quán)值更新律(15) 和(37),以及設(shè)計(jì)如下的動(dòng)態(tài)事件觸發(fā)條件:

若設(shè)計(jì)參數(shù)laj,lcj,σaj,σcj,?j,rj,ij(ij=1,2,···,nj),0<ζj <1,0<βj <1,0<γaj <1/laj,0<γcj <1/lcj滿足條件(43),且 0
定理2 的證明與定理1 類(lèi)似,讀者可自行證明.
注 5.定理2 通過(guò)在定理1 的靜態(tài)事件觸發(fā)條件(42)中引入額外的動(dòng)態(tài)變量hj(k),構(gòu)造出了典型的動(dòng)態(tài)事件觸發(fā)條件(57).隨后,可以通過(guò)修改Lyapunov 函數(shù)為并采用類(lèi)似定理1 的證明過(guò)程,很容易證明在動(dòng)態(tài)事件觸發(fā)條件(57)下閉環(huán)系統(tǒng)的所有信號(hào)也是最終一致有界的.此外,通過(guò)簡(jiǎn)單地分析可以得出,相比于靜態(tài)事件觸發(fā)條件(42),動(dòng)態(tài)事件觸發(fā)條件(57)能夠進(jìn)一步降低事件觸發(fā)的次數(shù).但需要指出的是,額外動(dòng)態(tài)變量hj(k) 的引入,將導(dǎo)致動(dòng)態(tài)事件觸發(fā)條件(57) 的計(jì)算量有所增加.因此,在實(shí)際應(yīng)用中,用戶(hù)可以結(jié)合自身的網(wǎng)絡(luò)帶寬和處理器的情況選擇適當(dāng)?shù)氖录|發(fā)條件.
本章分別選取了數(shù)值算例和雙連桿機(jī)械臂系統(tǒng)的仿真實(shí)例,來(lái)驗(yàn)證本文所提出的方案的有效性.
首先,考慮參考文獻(xiàn)[19]中的數(shù)值模型:


仿真步長(zhǎng)T=0.01 s,仿真步數(shù)N=2 000.仿真結(jié)果如圖2~圖7 所示.圖2 和圖3 表明了系統(tǒng)的輸出能夠很好地跟蹤上給定的參考信號(hào).圖4 指示了事件觸發(fā)間隔.從圖5 可以看出,評(píng)價(jià)網(wǎng)絡(luò)的輸出始終在零附近,進(jìn)一步說(shuō)明系統(tǒng)取得了令人滿意的控制性能.圖6 和圖7 表明了執(zhí)行網(wǎng)絡(luò)和評(píng)價(jià)網(wǎng)絡(luò)的權(quán)值的有界性.在2 000 步仿真中,總的數(shù)據(jù)傳輸次數(shù)為843 次,較時(shí)間觸發(fā)的控制方案減少了約60% 的網(wǎng)絡(luò)資源占用.

圖2 子系統(tǒng)1 輸出跟蹤效果Fig.2 Output tracking performance of subsystem 1

圖3 子系統(tǒng)2 輸出跟蹤效果Fig.3 Output tracking performance of subsystem 2

圖4 事件觸發(fā)間隔Fig.4 Event triggering interval

圖5 長(zhǎng)期性能函數(shù)Fig.5 Long-term performance function

圖6 執(zhí)行網(wǎng)絡(luò)的權(quán)值范數(shù)Fig.6 Norm of action NN weights

圖7 評(píng)價(jià)網(wǎng)絡(luò)的權(quán)值范數(shù)Fig.7 Norm of critic NN weights
此外,本文進(jìn)行了兩組對(duì)比仿真實(shí)驗(yàn),并采用平均絕對(duì)誤差(Mean absolute error,MAE) 和平均帶寬占用(Average bandwidth occupation,ABO)來(lái)對(duì)系統(tǒng)的性能進(jìn)行定量刻畫(huà):

其中,ne表示總的數(shù)據(jù)傳輸次數(shù),pL表示一次發(fā)送的數(shù)據(jù)包長(zhǎng)度,bL表示數(shù)據(jù)類(lèi)型的比特長(zhǎng)度,T ×N表示時(shí)間長(zhǎng)度.在仿真中,傳輸?shù)南蛄縓(k) 中包含4個(gè)元素,數(shù)據(jù)類(lèi)型為float.由此可計(jì)算pL=4,bL=32bit.
第1 組對(duì)比實(shí)驗(yàn)的結(jié)果見(jiàn)表1.通過(guò)對(duì)比表格1 中的數(shù)據(jù),可以看出執(zhí)行器故障補(bǔ)償機(jī)制和光滑的效用函數(shù)在改善系統(tǒng)性能方面的有效性.第2 組對(duì)比實(shí)驗(yàn)的結(jié)果見(jiàn)表2.為了便于表示,表2 中“SETC” (Static event-triggered condition)代表靜態(tài)事件觸發(fā)條件;“DETC” (Dynamical eventtriggered condition) 代表動(dòng)態(tài)事件觸發(fā)條件,“CPU”(Central processing unit)代表電腦中央處理器.對(duì)比表2 中的數(shù)據(jù)可知,DETC (57) (pj1=0.01,pj2=101) 相比于SETC (42)而言,能夠進(jìn)一步減少事件觸發(fā)次數(shù),同時(shí)也因?yàn)閯?dòng)態(tài)變量hj(k) 的引入導(dǎo)致了算法計(jì)算量的增加.

表1 仿真實(shí)驗(yàn)對(duì)比1Table 1 Comparison of simulation results

表2 仿真實(shí)驗(yàn)對(duì)比2Table 2 Comparison of simulation results
為了進(jìn)一步說(shuō)明本文方案的有效性,本文對(duì)雙連桿機(jī)械臂模型進(jìn)行了仿真實(shí)驗(yàn).已知雙連桿機(jī)械臂的歐拉?拉格朗日動(dòng)力學(xué)模型[29]為:



圖8 例2 關(guān)節(jié)1 的輸出跟蹤效果Fig.8 Tracking performance of joint 1 of Example 2

圖9 例2 關(guān)節(jié)2 的輸出跟蹤效果Fig.9 Tracking performance of joint 2 of Example 2

圖10 例2 的事件觸發(fā)間隔Fig.10 Event triggering interval of Example 2

圖11 例2 的長(zhǎng)期性能指標(biāo)函數(shù)Fig.11 Long-term performance function of Example 2

圖12 例2 的執(zhí)行網(wǎng)絡(luò)權(quán)值范數(shù)Fig.12 Norm of action NN weights of Example 2

圖13 例2 的評(píng)價(jià)網(wǎng)絡(luò)權(quán)值范數(shù)Fig.13 Norm of critic NN weights of Example 2
本文針對(duì)存在執(zhí)行器故障的離散MIMO 嚴(yán)格反饋非線性系統(tǒng)的最優(yōu)跟蹤控制問(wèn)題,提出了一種基于事件觸發(fā)的自適應(yīng)評(píng)判控制設(shè)計(jì)方案.相比于現(xiàn)有的基于n步預(yù)測(cè)模型的控制方案,本文所提出的基于變量替換控制方案避免了控制信號(hào)的n步時(shí)延問(wèn)題.此外,通過(guò)設(shè)計(jì)執(zhí)行器故障補(bǔ)償機(jī)制,事件觸發(fā)機(jī)制與自適應(yīng)評(píng)判機(jī)制,本文所提出的控制方案不僅節(jié)省了網(wǎng)絡(luò)資源占用,而且改善了系統(tǒng)的控制性能.最后仿真結(jié)果驗(yàn)證了本文所提出的方案的有效性.注意到在離散系統(tǒng)的網(wǎng)絡(luò)控制方面仍然有諸多待解決的問(wèn)題,例如數(shù)據(jù)丟包[38],網(wǎng)絡(luò)攻擊[39],執(zhí)行器故障估計(jì)[40?41]等,這些問(wèn)題將是我們未來(lái)的工作方向.