趙文佳,石小偉,趙 茜,楊 璐,張艷麗,張亦敏
(中鐵工程裝備集團(tuán)(天津)有限公司,天津 300450)
盾構(gòu)是用于隧道掘進(jìn)和地下空間開發(fā)的專用設(shè)備,廣泛應(yīng)用于地鐵和公路隧道施工[1-2]。為了防止掘進(jìn)路線發(fā)生偏差,掘進(jìn)過程中需不斷通過推進(jìn)系統(tǒng)來(lái)調(diào)節(jié)盾構(gòu)的姿態(tài)。盾構(gòu)的糾偏控制是以隧道設(shè)計(jì)軸線為目標(biāo),結(jié)合盾構(gòu)糾偏設(shè)定值和測(cè)量反饋值,通過調(diào)整盾構(gòu)掘進(jìn)各分區(qū)的輸出值,使盾構(gòu)軌跡朝設(shè)定方向變化[3]。在實(shí)際施工中,盾構(gòu)糾偏控制目前仍以人工控制為主。根據(jù)盾構(gòu)的實(shí)時(shí)狀態(tài)和工作人員經(jīng)驗(yàn)人為控制推進(jìn)系統(tǒng)。然而,人工手動(dòng)糾偏容易導(dǎo)致實(shí)際軌跡偏離設(shè)計(jì)軌跡,偏差過大可能會(huì)發(fā)生沉降、坍塌等事故,故研究盾構(gòu)的糾偏控制意義重大。
在復(fù)雜地質(zhì)影響下,盾構(gòu)負(fù)載多變、干擾源多,極大地影響盾構(gòu)的糾偏控制,且傳統(tǒng)的控制方式無(wú)法對(duì)盾構(gòu)進(jìn)行自適應(yīng)的改變。為了解決盾構(gòu)糾偏問題,學(xué)者們進(jìn)行了相關(guān)的理論研究。Hu等[4]采用了一種數(shù)據(jù)驅(qū)動(dòng)的盾構(gòu)偏差預(yù)測(cè)方法,便于盾構(gòu)駕駛員識(shí)別。Wang等[5]提出了一種基于盾構(gòu)挖掘過程中數(shù)據(jù)驅(qū)動(dòng)的軸線偏差預(yù)測(cè)和修正方法。Lyu等[6]提出將自適應(yīng)魯棒控制方法應(yīng)用于閥門和泵的連鎖液壓控制系統(tǒng),該方法提高了控制的魯棒性,且使其具備出色的跟蹤性能。對(duì)于盾構(gòu)的軌跡糾偏控制,目前的主流控制方法為PID控制和模糊控制。Xie等[7]采用PID控制對(duì)盾構(gòu)液壓推進(jìn)系統(tǒng)進(jìn)行糾偏控制。Wu等[8]將自適應(yīng)整定的模糊PID控制應(yīng)用于推力液壓控制系統(tǒng),結(jié)果表明所提方法有較小的穩(wěn)態(tài)位移誤差。劉肖楠等[9]采用粒子群算法優(yōu)化PID控制器參數(shù),實(shí)現(xiàn)盾構(gòu)糾偏控制,但是當(dāng)系統(tǒng)出現(xiàn)較大擾動(dòng)時(shí),PID控制會(huì)出現(xiàn)較大波動(dòng),從而影響控制精度。
以上研究在糾偏方面取得了一定的成果,但是在解決實(shí)時(shí)的補(bǔ)償擾動(dòng)來(lái)提高盾構(gòu)控制精度方面存在不足。自抗擾控制不依賴于被控對(duì)象的數(shù)學(xué)模型,通過擴(kuò)張狀態(tài)觀測(cè)器,能對(duì)系統(tǒng)不確定性和未知擾動(dòng)進(jìn)行估計(jì)[10-12]。針對(duì)優(yōu)化算法,模糊控制需要離線設(shè)計(jì)出模糊規(guī)則,設(shè)計(jì)較為復(fù)雜,而粒子群優(yōu)化算法則缺乏對(duì)未知擾動(dòng)的適應(yīng)能力,因而需要一個(gè)優(yōu)化算法,不僅能避免繁瑣的模糊規(guī)則設(shè)計(jì),而且能自適應(yīng)地應(yīng)對(duì)未知擾動(dòng)。近年來(lái),強(qiáng)化學(xué)習(xí)算法受到更多學(xué)者的關(guān)注[13-14]。強(qiáng)化學(xué)習(xí)不依賴于數(shù)學(xué)模型,通過與環(huán)境交互使累計(jì)獎(jiǎng)勵(lì)達(dá)到最大,將其應(yīng)用于控制參數(shù)優(yōu)化可提高控制器的自適應(yīng)能力。
基于上述分析,針對(duì)盾構(gòu)糾偏控制研究,考慮盾體姿態(tài)的擾動(dòng)因素較多,且擾動(dòng)因子的占比具有不確定性,故無(wú)法將擾動(dòng)因子進(jìn)行具體數(shù)字化。本文將傳統(tǒng)的PID控制模型優(yōu)化為自抗擾控制模型,結(jié)合強(qiáng)化學(xué)習(xí)中的Q學(xué)習(xí)算法實(shí)現(xiàn)自抗擾控制器參數(shù)的自適應(yīng)整定。利用對(duì)推進(jìn)系統(tǒng)的控制實(shí)現(xiàn)對(duì)盾構(gòu)設(shè)定軌跡的跟蹤,從而實(shí)現(xiàn)盾構(gòu)姿態(tài)糾偏控制。具體的算法以盾構(gòu)液壓缸為控制對(duì)象,采用線性自抗擾控制(linear active disturbance rejection controller,LADRC)方法來(lái)解決模型的耦合和非線性問題,采用強(qiáng)化學(xué)習(xí)中的Q學(xué)習(xí)算法優(yōu)化控制器參數(shù)。該方法簡(jiǎn)化了人工參數(shù)整定過程,增加了控制器的自適應(yīng)能力,在實(shí)際掘進(jìn)中更容易通過液壓缸推力實(shí)現(xiàn)姿態(tài)糾偏控制。
由于盾構(gòu)驅(qū)動(dòng)、出渣、推進(jìn)等系統(tǒng)之間存在強(qiáng)耦合和非線性等問題,無(wú)法對(duì)盾構(gòu)進(jìn)行精確地系統(tǒng)建模,具體系統(tǒng)結(jié)構(gòu)見圖1。

圖1 盾構(gòu)各系統(tǒng)結(jié)構(gòu)圖
常規(guī)盾構(gòu)的推進(jìn)系統(tǒng)主要有4個(gè)分區(qū),推進(jìn)系統(tǒng)分區(qū)示意見圖2。

圖2 推進(jìn)系統(tǒng)分區(qū)
在掘進(jìn)糾偏系統(tǒng)中實(shí)際使用為左、右分區(qū),將左右分區(qū)的液壓推進(jìn)系統(tǒng)簡(jiǎn)化為數(shù)學(xué)模型[9]如下。
(1)
式中:F1和F2分別為左液壓缸和右液壓缸的反作用力;f為阻力;m為盾構(gòu)的質(zhì)量;y為盾構(gòu)的軌跡;l1和l2分別為質(zhì)心到接觸點(diǎn)F1和F2的力臂;τ為阻力距;J為盾構(gòu)旋轉(zhuǎn)軸的轉(zhuǎn)動(dòng)慣量;θ為盾構(gòu)的旋轉(zhuǎn)角度。
考慮到實(shí)際施工要求,對(duì)y和θ進(jìn)行近似化處理。
(2)
式中:l為2個(gè)推進(jìn)液壓缸之間的距離;y1和y2分別為左液壓缸和右液壓缸的軌跡。盾構(gòu)液壓缸的輸出力與負(fù)載力平衡方程可表示為:
(3)
式中:i=1,2;A1i和A2i分別為液壓缸無(wú)桿腔和有桿腔活塞面積;p1i和p2i分別為液壓缸無(wú)桿腔和有桿腔壓力;mi為活塞總質(zhì)量;Bp為活塞的黏性阻尼系數(shù);Kp為負(fù)載彈簧剛度;ωi為液壓缸的輸出力。
綜上,可以得到盾構(gòu)糾偏系統(tǒng)的動(dòng)力學(xué)模型如下:
(4)
自抗擾控制器的設(shè)計(jì)原理可參見文獻(xiàn)[15]。針對(duì)盾構(gòu)的糾偏控制,左液壓缸和右液壓缸的活塞桿位移的微分動(dòng)態(tài)可以表示為:
(5)
(6)
(7)
(8)

(9)
(10)
式(9)—(10)中h1和h2均為對(duì)應(yīng)總擾動(dòng)的微分。針對(duì)式(9)和式(10)設(shè)計(jì)對(duì)應(yīng)的擴(kuò)張狀態(tài)觀測(cè)器:
(11)
(12)

(13)

Q學(xué)習(xí)[16]是強(qiáng)化學(xué)習(xí)的一個(gè)基礎(chǔ)算法,Q學(xué)習(xí)基本框架如圖3所示。在t時(shí)刻,智能體位于狀態(tài)St,根據(jù)貪婪策略大概率選取Q表中Q值最高的動(dòng)作at;通過和環(huán)境交互,智能體更新狀態(tài)St+1并得到獎(jiǎng)勵(lì)值rt,進(jìn)而更新Q表中的Q值;通過智能體和環(huán)境的不斷交互,Q表得到充分更新;最后,智能體根據(jù)Q表實(shí)現(xiàn)當(dāng)前狀態(tài)下的最優(yōu)控制。

圖3 Q學(xué)習(xí)基本框架
考慮到Q學(xué)習(xí)只能處理離散的數(shù)據(jù),因此需要對(duì)控制過程中的部分變量進(jìn)行離散化處理。
將姿態(tài)角的跟蹤誤差與誤差變化率定義為強(qiáng)化學(xué)習(xí)的狀態(tài)。定義狀態(tài)集如下:
(14)

對(duì)誤差和誤差變化率進(jìn)行離散化處理,分別將其劃分為7個(gè)論域,其對(duì)應(yīng)的語(yǔ)言變量為{NB,NM,NL,Z,PL,PM,PB}。則每個(gè)姿態(tài)通道有49個(gè)狀態(tài)。狀態(tài)劃分如圖4所示。

圖4 狀態(tài)劃分
將線性自抗擾控制的控制參數(shù)定義為強(qiáng)化學(xué)習(xí)的動(dòng)作。定義動(dòng)作集如下:
(15)
(16)
算法可以通過狀態(tài)轉(zhuǎn)移概率選取動(dòng)作集中的動(dòng)作值。狀態(tài)轉(zhuǎn)移概率選用的貪婪策略如下:
(17)
為了使動(dòng)作集中的參數(shù)被充分訓(xùn)練,采用該策略可以在訓(xùn)練前期加大對(duì)非最優(yōu)參數(shù)的探索能力。
為了使Q表訓(xùn)練得更加合理,性能函數(shù)被用來(lái)估計(jì)系統(tǒng)性能。設(shè)計(jì)性能函數(shù):
(18)
根據(jù)性能函數(shù),設(shè)計(jì)Q學(xué)習(xí)獎(jiǎng)勵(lì)模型:
(19)
Q表中存儲(chǔ)著每個(gè)狀態(tài)下執(zhí)行對(duì)應(yīng)動(dòng)作對(duì)系統(tǒng)影響的值,即Q值。通過狀態(tài)模型的不斷訓(xùn)練,Q表被不斷更新。迭代的Q(St,at)值表達(dá)式如下:
(20)
式中α和γ分別為學(xué)習(xí)率和折扣因子。
概述Q學(xué)習(xí)優(yōu)化的訓(xùn)練過程為:
1)Q學(xué)習(xí)根據(jù)當(dāng)前控制偏差,按照貪婪策略從Q表中選取控制參數(shù),并將其作用于設(shè)計(jì)模型,盾構(gòu)會(huì)根據(jù)左右液壓機(jī)狀態(tài)反饋這一時(shí)刻的控制誤差。
2)模型根據(jù)反饋的控制誤差對(duì)算法進(jìn)行獎(jiǎng)勵(lì)或者懲罰,進(jìn)而更新Q值,并對(duì)控制器參數(shù)進(jìn)行再次優(yōu)化。
3)通過不斷迭代訓(xùn)練,Q表中會(huì)存儲(chǔ)著當(dāng)前控制誤差下應(yīng)采取的最優(yōu)控制器參數(shù)。當(dāng)訓(xùn)練完畢時(shí),可以將訓(xùn)練后的Q表用于盾構(gòu)的糾偏控制過程。
在訓(xùn)練過程中,為了防止系統(tǒng)狀態(tài)發(fā)散,當(dāng)誤差或誤差導(dǎo)數(shù)超過一定閾值時(shí)(即圖4區(qū)域以外的值),本次訓(xùn)練會(huì)提前終止。
本次設(shè)計(jì)的盾構(gòu)糾偏控制框架如圖5所示。采用2個(gè)獨(dú)立的Q學(xué)習(xí)模型來(lái)分別整定2個(gè)線性自抗擾控制器參數(shù)。在控制過程中,當(dāng)盾構(gòu)的軌跡發(fā)生偏移時(shí),模型會(huì)根據(jù)偏差,控制液壓缸的推力,對(duì)控制軌跡進(jìn)行糾偏,從而達(dá)到盾構(gòu)姿態(tài)控制的效果。Q學(xué)習(xí)作為強(qiáng)化學(xué)習(xí)的算法,會(huì)根據(jù)當(dāng)前的偏差從訓(xùn)練后的Q表中選擇合適的控制參數(shù),實(shí)現(xiàn)對(duì)控制器參數(shù)的自適應(yīng)整定。

圖5 基于Q學(xué)習(xí)的盾構(gòu)糾偏控制
對(duì)盾構(gòu)糾偏模型進(jìn)行仿真測(cè)試,通過Q學(xué)習(xí)算法分別對(duì)2個(gè)控制器參數(shù)進(jìn)行整定。為更好地驗(yàn)證所提方法的有效性,對(duì)比傳統(tǒng)PID和線性自抗擾控制,仿真結(jié)果驗(yàn)證了所提控制方法的有效性。
在仿真模型中對(duì)盾構(gòu)糾偏模型參數(shù)進(jìn)行設(shè)置,具體參數(shù)如表1所示。

表1 盾構(gòu)糾偏模型參數(shù)

表2 狀態(tài)論域劃分
盾構(gòu)的左、右液壓缸軌跡跟蹤分別如圖6和圖7所示。由圖可以看出:由于存在較大的阻力和阻力矩,傳統(tǒng)的PID控制響應(yīng)速度很慢,左右液壓缸的跟蹤軌跡約在10 s后進(jìn)入穩(wěn)態(tài),且存在較大的穩(wěn)態(tài)跟蹤誤差。對(duì)于Q學(xué)習(xí)盾構(gòu)糾偏模型,由于擴(kuò)張狀態(tài)觀測(cè)器的存在,其能更好地處理盾構(gòu)運(yùn)行過程中的擾動(dòng)。

圖6 左液壓缸軌跡跟蹤曲線

圖7 右液壓缸軌跡跟蹤曲線
仿真整體盾構(gòu)主機(jī)段的近似軌跡如圖8所示。由圖可以看出:左右液壓缸的跟蹤軌跡約在1.5 s后進(jìn)入穩(wěn)態(tài)。與LADRC相比,本文所提的控制方法Q-LADRC能夠減少軌跡跟蹤的超調(diào)量,誤差跟蹤變化幅度更小,證明了模型的有效性。

圖8 盾構(gòu)軌跡跟蹤曲線
對(duì)不同模型的軌跡跟蹤的誤差跟蹤性能指標(biāo)進(jìn)行統(tǒng)計(jì),得到數(shù)據(jù)如表3和表4所示。分析得到,本文所提方法Q-LADRC各個(gè)誤差指標(biāo)均為最小,說明其能更好地控制精度和響應(yīng)速度。

表3 y1誤差性能指標(biāo)

表4 y2誤差性能指標(biāo)
分析不同模型軌跡跟蹤過程中的左、右液壓缸控制參數(shù)變化情況,分別如圖9和圖10所示。由圖可以看出:Q學(xué)習(xí)會(huì)根據(jù)控制過程中的誤差,自適應(yīng)地調(diào)整控制器參數(shù)。該方法能夠較好地減少繁瑣的人工調(diào)參頻次,同時(shí)增強(qiáng)傳統(tǒng)控制的自適應(yīng)能力。

圖9 左液壓缸控制參數(shù)變化

圖10 右液壓缸控制參數(shù)變化
利用仿真模型的驗(yàn)證和對(duì)比,得到結(jié)論如下:
1)相比傳統(tǒng)的PID控制,本文提到的方法響應(yīng)速度較快,左右液壓缸的跟蹤軌跡穩(wěn)態(tài)跟蹤誤差值也較小,體現(xiàn)出較高的控制精度,證明該模型在盾構(gòu)糾偏姿態(tài)跟蹤中的有效性。
2)相比于LADRC相比,本文所提的控制方法能夠減少軌跡跟蹤的超調(diào)量,誤差跟蹤變化幅度更小,有效減少了人工參數(shù)整定過程,同時(shí)提高了控制的精度和收斂速度,說明該模型在非耦合性和不確定性干擾源的情況下,對(duì)盾構(gòu)姿態(tài)具備更好的糾偏效果。
本方法在理論上證明了對(duì)盾構(gòu)糾偏功能的有效性,后期可在實(shí)際應(yīng)用中展開深入研究,搭建獨(dú)立運(yùn)行的算法軟件包,與設(shè)備PLC及導(dǎo)向系統(tǒng)進(jìn)行數(shù)據(jù)交互運(yùn)算,處理推進(jìn)系統(tǒng)實(shí)時(shí)數(shù)據(jù)并輸出決策參數(shù),應(yīng)用于自動(dòng)軸線糾偏系統(tǒng)的液壓控制系統(tǒng),實(shí)現(xiàn)理論到實(shí)踐的轉(zhuǎn)化。