何之煜,徐 寧
(中國鐵道科學研究院集團有限公司 通信信號研究所,北京 100081)
列車自動駕駛(Automatic Train Operation, ATO)技術因其能夠實現精準控車、節能運行、提高旅客舒適度和提升路網運輸效率等優勢,已成為未來智能高速鐵路的重要組成部分[1],但由于高速列車實際運行環境復雜多變,不易建模,對自動駕駛控制算法的研究帶來了困難。
針對列車自動駕駛控制問題,國內外的專家學者展開了大量的研究工作,主要是從模型構建、誤差處理和容錯控制這三方面展開研究。在模型構建方面,PID控制模型是最早應用于列車自動駕駛系統中的,利用比例、積分、微分三項線性組合輸出控制量[2],但是存在列車運行狀態出現暫態和舒適度不足等問題。誤差處理是對列車跟蹤誤差進行非線性變換,從而輸出指導列車運行的控制信息,模糊控制利用優秀司機駕駛經驗設計模糊規則和隸屬度函數,對系統跟蹤誤差進行模糊推理,從而實現列車的跟蹤控制[3],但是存在模糊規則多、模糊推理過程復雜等問題。滑模變結構控制通過設計控制律,使系統跟蹤誤差在滑模面上下不斷抖振,雖然滑模控制具有魯棒性的優勢,但是跟蹤誤差卻無法收斂到零。隨著智能控制技術的發展,預測控制[4]、神經網絡控制[5]、H2/H∞控制[6]、小波濾波[7]等方法也被引入ATO控制算法的研究中。文獻[8-9]等綜合考慮列車阻力模型參數時變、傳感器故障等情況,設計基于多目標控制的魯棒容錯控制器,從而保證列車在故障狀態下仍能跟蹤軌跡運行。
上述列車自動駕駛控制算法的研究都是基于跟蹤誤差反饋的思想來設計的,而高速列車每天同一時間,從同一站點出發,經過相同的距離和運行環境,準點到達目標站點,本質上具有高度重復性的特征。迭代學習控制(Iterative Learning Control, ILC)是針對受控系統運行具有高度重復性特征提出的,它的核心思想是根據上一次迭代的跟蹤誤差來修正受控系統當前的輸入量,從而逐漸逼近期望曲線。目前,ILC已廣泛應用于現代工業控制領域,例如工業機器人、注塑機、感應電動機、數控機床等[10-12],而在列車自動駕駛控制方面,文獻[13]首次關注到列車運行高度重復的特點,在列車自動駕駛控制的研究中引入迭代學習控制的思想,但是沒有對時域上的阻力進行建模,忽略了時變外部擾動對列車控制的影響。文獻[14]設計了前饋-反饋控制器,同時利用列車自動駕駛系統的重復性特征,通過處理外部時變擾動影響,實現對期望軌跡的精確跟蹤,但是由于其迭代域和時域的PID型線性組合的控制律,不符合列車自動駕駛系統非線性、快時變的特點。文獻[15]將列車運行過程中的等效阻力近似為線性函數,但是存在模型失配的問題。文獻[16]以列車運行阻力模型為研究對象,基于遞推最小二乘法對其經驗模型系數進行在線辨識,但是由于列車運行環境的多變性和復雜性,無法建立精確的阻力模型。
本文針對高速列車自動駕駛系統快時變、非線性的特點,以及列車在實際運行過程中難以建模的問題,提出了基于徑向基(Radial Basis Function, RBF)的模糊神經網絡算法(Fuzzy Neural Network Algorithm, FNNA),將阻力參數視作未知模型參數,利用神經網絡算法對非線性映射良好的逼近能力和模糊推理過程對跟蹤誤差良好的自適應處理能力,實現對運行阻力的漸進逼近。考慮時域和迭代域上二維的跟蹤誤差,設計基于迭代學習控制的差分-微分型參數更新律,通過計算機仿真驗證列車自動駕駛控制算法的跟蹤性能。
為方便描述,建立列車非參數化動力學模型為
( 1 )
式中:i為迭代次數;s(t)和v(t)分別為列車運行的距離和速度,km和km/h;f(xi,t)為未知非線性函數,表示列車遇到的阻力等效模型,N/kg;xi為列車的狀態向量,xi=[sivi]T;b(t)為系統輸入的增益;u(t)為系統的控制輸入,kN;d(t)為列車運行中的外部隨機擾動,N/kg。
為了逼近列車實際運行中的阻力參數,對式( 1 )中的等效模型f(xi,t),構建基于徑向基的模糊神經網絡算法來實現。算法原理見圖1,將RBF模糊神經網絡算法設計為包括輸入層、隱層和輸出層的三層前向網絡,其中,隱層是用模糊推理過程來實現對系統狀態信息的自適應處理。

圖1 RBF模糊神經網絡算法原理
整個算法實現的基本流程如下:
Step1輸入層節點輸入系統的狀態信息,也作為模糊推理過程的輸入參數。
Step2利用基函數對系統狀態信息進行處理,并進行模糊化。
Step3通過預先設定好模糊規則對系統狀態信息進行模糊推理。
Step4通過線性加權的計算方式,將算法結果輸出到輸出層節點。
( 2 )

利用高斯基函數對系統狀態進行模糊化處理,定義第j條規則的參數為
( 3 )

上述的算法中的模糊處理過程主要在模糊神經網絡模型的隱層中進行,其中,模糊規則可以表述為
rulej: ifx1,iisG1,jandx2,iisG2,j, thenyiisPj
x1,i和x2,i分別為受控系統的狀態量;yi為系統的控制輸出;G1,j、G2,j和Pj分別為模糊算法中的輸入輸出模糊規則。
( 4 )
式中:εi(t)為模糊神經網絡的逼近誤差,|εi(t)|≤ε*。
因此,非參數化列車動力學模型式( 1 )可以改寫為
( 5 )
為便于對所設計的控制器的收斂性證明,對受控系統作出如下假設。
假設1:受控系統在每次運行過程時,具有相同的初始狀態,即
xi(0)=xd(0) ?i∈Z+
( 6 )
式中:xd為列車期望運行軌跡的狀態。
假設2:對于列車動力學模型式( 5 ),列車在有限時間t∈[0,T]內,存在一個最優的輸入序列,可以控制列車完全跟蹤期望軌跡,即系統控制具有可達性,其中,T為列車區間運行時間。
假設3:列車在運行過程中受到的外部隨機擾動d(t)是有界的。
定義系統的跟蹤誤差為ei(t)=vd(t)-vi(t),則系統在第i次迭代的誤差動態可以描述為
f[xi(t),t]+di(t)+ε(t)}
( 7 )
根據確定性等價原則,可以設計如下控制律為
( 8 )

基于迭代學習控制理論,同時考慮迭代域和時域的跟蹤誤差,設計差分-微分型參數更新律為
Ψ-1=[0 … 0]T?t∈[0,T]
( 9 )
κ-1=0 ?t∈[0,T]
(10)
式中:γ1和γ2分別為參數更新的權重系數,γ1,γ2∈[0,1];β1和β2分別表示參數學習增益,β1,β2>0。
在式(8)中可以看出,控制律包括三個部分:①在采樣點上計算得到的系統等效牽引控制輸入;②利用RBF模糊神經網絡算法得到的非線性阻力函數f(xi,t);③由于外部隨機擾動和模型估計誤差等因素產生的反饋控制項。
定理1是收斂性證明的主要結果。
定理1:當受控系統式( 5 )在同一區間重復運行時,根據系統控制律式( 8 )和系統參數更新律式( 9 )、式(10),在第i次迭代時,跟蹤誤差隨迭代域逐漸收斂到零。
證明:構造如下復合能量函數
(11)
式中:δΨi(t)為權重估計的差分;δκi(t)為擾動項估計的差分。
下面將證明過程分成兩部分,第一部分是證明Ei(t)的差分負定性,第二部分是證明Ei(t)的有界性。
第一部分:復合能量函數Ei(t)的差分負定性
(12)

然后,在迭代域上對能量函數進行差分,可得
ΔEi=Ei-Ei-1=
[δκi-1(t)]2}-Vi-1=
ΔVi+ΔWi+ΔNi+ΔQi+ΔPi
(13)
對上式第四項進行求解,可以得到
(14)
將參數更新律式( 9 )代入式(14)第一項中
(15)
同理,對式(13)的第5項進行求解,可以得到
(16)
根據式(15),將參數更新律式(10)代入上式第一項中,得到


(17)
在復合能量函數表達式(13)中代入式(14)~式(17),可得
ΔEi=ΔVi+ΔWi+ΔNi+ΔQi+ΔPi=
δΨi-1(τ)]T[δΨi(τ)-δΨi-1(τ)]dτ-

(18)
將Lyapunov函數求導結果式(12)代入式(19)中
[δΨi(τ)-δΨi-1(τ)]T[δΨi(τ)-δΨi-1(τ)]}dτ-

[δΨi(τ)-δΨi-1(τ)]dτ-
(19)
由于Lyapunov函數Vi-1具有正定性,因此可以得到
[δΨi(τ)-δΨi-1(τ)]dτ-
(20)
第二部分:復合能量函數Ei(t)的有界性
由上式得到的ΔEi≤0,可以證明在迭代域上,Ei(t)具有差分負定性,那么需要證明其具有有界性,只要證明初始態E0(t)是有界的。令i=0,并對E0(t)在時域上進行求導,可以得到
(21)
將式(15)和式(17)分別代入式(21)中,可得
(22)
由于Ψ*和κ*都是已知區間內的有界連續函數,因此,一定存在已知上邊界U*,得到

(23)
那么,可以將E0(t)表述為

(24)
根據Ei(t)的差分負定性,可以將系統在第i次迭代的復合能量函數表示為
(25)
對式(25)兩端取極限
(26)
由于能量函數Ei(t)正定的,且E0(t)有界,根據級數收斂條件,可以得知當i趨于無窮大時,有
(27)
即系統跟蹤誤差隨迭代域逐漸收斂到零。
本節內容將對非參數化模型的列車自動駕駛控制算法的性能進行仿真驗證。仿真基于CRH-3型車進行,仿真線路長度為69.4 km,運行時間為1 200 s,系統采樣時間為1 s,最大制動力為0.8 N/kg,時變外部擾動在[0, 0.01]N/kg中隨機產生,系統狀態量測誤差服從ηc∈N(0,0.002 )。圖2給出了列車運行期望軌跡曲線。

圖2 列車期望軌跡
為了方便比較算法的性能,將PID反饋控制和P型迭代學習控制算法與非參數化迭代學習控制算法在收斂性和跟蹤精度上進行比較。
方案一:PID反饋控制器
PID控制律設計為
(28)
式中:PID控制算法增益選擇經優化后分別為kp=40,ki=6,kd=15。
方案二:P型迭代學習控制器
控制律設計為

(29)
式中:G為算法的學習增益,G=[g1g2]T,取g1=4,g2=0.8。
方案三:非參數化的迭代學習控制器
根據式( 8 )~式(10)所設計的控制律和參數更新律,給出算法的詳細參數:系統模糊規則數設置為5,表示為{負大(NB),負小(NS),零值(ZO),正小(PS),正大(PB)},如表1所示,給出了關于列車運行狀態信息的模糊規則表,權值向量初始值設置為Ψ0=[0 0 … 0]T∈R1×25,基函數中心向量選取為[-1 -0.5 0 0.5 1],方差選取為0.05,選取γ1,γ2=0.99為參數更新律式( 9 )~式(10)的權重系數,學習增益β1=16,β2=0.4。

表1 模糊規則表
圖3分別給出了方案一~方案三中控制算法對于期望軌跡的跟蹤曲線對比。可以得出以下結論:在圖3(a)的PID反饋控制跟蹤曲線中,當列車由牽引或制動工況變為巡航工況時,列車運行曲線上會表現出較大的暫態,導致列車在一定時間內偏離期望軌跡運行;在圖3(b)的P型迭代學習控制跟蹤曲線中,其算法的收斂速度較慢,運行曲線偏離軌跡較多;而本文提出的非參數化迭代學習控制算法,通過基于RBF的模糊神經網路算法對阻力模型的逼近,使運行曲線能夠快速收斂到期望軌跡附近,從而實現高精度的跟蹤。

圖3 不同算法對列車期望軌跡的跟蹤曲線

表2 三種算法跟蹤距離和速度對比

圖4 三種算法的跟蹤性能對比
圖4和表2給出了PID反饋控制、P型迭代學習控制和非參數化迭代學習控制三種算法對跟蹤距離和跟蹤速度誤差在迭代域上的對比,性能對比采用均方根誤差來表述。可以看出,PID控制由于只有根據跟蹤誤差的反饋控制,而沒有學習機制,因此跟蹤誤差無法隨迭代域減小;P型迭代學習控制由于存在非重復的時域擾動,因此收斂速度較慢且跟蹤精度較低;而非參數化迭代學習算法則對于列車期望軌跡具有較好的跟蹤性能,表現為算法具有較快的收斂速度和較高的跟蹤精度,當列車運行迭代次數為18次時,距離跟蹤誤差達到1 m,速度跟蹤誤差達到0.002 m/s,證明算法能夠實現對期望軌跡的精確跟蹤。
本文深入分析了高速列車區間運行的動力學模型,為了解決列車運行阻力模型建模困難的問題,提出基于徑向基的模糊神經網絡算法。根據列車運行高度重復性的特點,并針對現有算法無法學習系統運行的重復性信息的缺陷,將前饋控制的思想引入到現有反饋控制算法中,提出非參數化迭代學習控制算法,并對算法的收斂性進行嚴格的數學證明。
通過設置相應的仿真條件,對所提出算法的跟蹤性能進行仿真驗證,結果表明,所提出的算法能夠實現對列車運行阻力模型的漸進逼近,通過列車在區間內重復運行,驗證了算法具有較快的收斂速度和較高的跟蹤精度,在有限的迭代次數內,能夠控制列車精確跟蹤期望軌跡,證明了算法的有效性。