(湖南鐵路科技職業技術學院,湖南株洲市,412006) 龔事引
(湖南鐵道職業技術學院,湖南株洲市,412006) 李 丹
磁懸浮系統是利用磁場力與物體重力保持平衡原理,而使物體懸浮在某一固定位置。隨著智能控制技術的發展,為磁懸浮技術提供了良好的發展前景[1]。
磁懸浮控制系統是非線性遲滯系統,難以建立精確的數學模型。該系統實時性要求很高,傳統的PID控制效果并不理想,而模糊控制是不需要掌握受控對象的精確數學模型,魯棒性較強[2-4]。模糊控制器中量化因子的整定通常難以實現參數最優。強化學習作為一類求解序列決策問題的機器學習方法,是一種求解復雜決策問題的有效手段[5]。粒子群優化可以有效求解大量非線性、不可微和多峰值等復雜問題,被廣泛應用到工程技術領域[6]。
本文針對磁懸浮求系統傳統PID控制,動態性能較差,控制效果不理想等問題。結合模糊控制、強化學習和粒子群優化算法的優點,提出了一種基于粒子群優化的磁懸浮球系統模糊強化學習控制方法。仿真和實驗結果證明,該控制方法的有效性和優越性。
磁懸浮球系統包含光源、電磁鐵、傳感器、功放模塊、控制模塊和小球等元件,系統結構如圖1所示:

圖1 磁懸浮球系統基本結構圖
忽略外界環境的影響,根據動力學原理、電磁理論以及基爾霍夫電壓定律,對小球列如下方程:

假設小球在平衡時的位移大小為x0,電流大小為i0,則

對系統用線性化理論將式(2)進行展開,并將展開式中的高次項舍去,可以表示為:

由式(1)和式(4)可得:

本文通過分析磁懸浮球系統的原理和結構,提出一種模糊強化學習控制算法,該算法需要用粒子群算法進行優化,它的結構如圖2所示,優點是對系統的參數沒有依賴性,一旦選用合適的模糊控制表,系統會呈現較強的魯棒性。粒子群算法動態優化量化因子ka、kb和比例因子ku可以獲得很好的控制效果。

圖2 基于粒子群優化的模糊強化學習控制結構
粒子群優化算法源于對鳥類捕食行為的模擬,是一種新的針對系統全局進行優化的算法,并已在許多領域得到應用。粒子群優化算法一開始需要對一群粒子完成初始化,且這群粒子具有隨機性,在不斷迭代的過程中找到最優解。在每一次迭代中,粒子通過跟蹤個體極值Pbest和全局極值gbest來更新自己。一個是粒子本身所找到的最優解,即個體極值Pbest。當粒子找到個體極值Pbest和全局極值gbest后,就可通過下面2個公式來重新確定自己的速度與位置參數

其中:V表示粒子的當前速度;Pr表示粒子的當前位置;rand()表示隨機數,范圍可在(0,1)之間;c1和c2表示學習因子,w表示加權系數,范圍在0.1~0.9之間。
粒子在不斷學習更新的過程中確定最優解的位置,一旦搜索完成,輸出的gbest即為全局最優解。在更新過程中,粒子每一維的最大速率為Vmax,粒子的活動范圍被限制在允許區域之內。當粒子在全局最優解附近出現“振蕩”時,可將最大加權因子wmax減小到最小加權因子wmin。即

其中:k表示當前疊代數;kmax表示迭代總次數。
粒子群可以用很短的時間和簡短的程序來對量化因子ka、kb和比例因子ku三個參數進行優化。具體步驟如下:
(1)首先將所有解分成3個區域,對各個區域的速度和位置qi=[ka,kb,ku]T賦初值,該初值隨機產生,此時個體極值pbestt即為初始位置的值;而全局極值gbestt即為各個區域里實現e最小的個體極值,并記錄該個體極值的區域號。
(2)將初始位置的值代入公式(8)、(9)中可以求出新的位置和速度,找到新的個體極值,并和全局極值進行比較,若找到的個體極值優于上一次的全局極值,則用找到的個體極值對新的全局極值進行替換。
(3)以此類推,一旦該粒子滿足e≤0.001,程序中止,此時粒子所在的位置就是模糊控制器的最優參數(ka、kb和ku)。否則,繼續尋找。
根據以上分析,本文基于Matlab中的Simulink環境下建立基于粒子群優化的磁懸浮球系統模糊控制的仿真如圖3所示。

圖3 基于粒子群優化的磁懸浮球系統模糊強化學習控制仿真
磁懸浮控制系統的仿真研究采用一組實際工程數據:小球質量m=460g,線圈等效電阻R=9.6 Ω,線圈等效電感L=109mH,x為氣隙間距,F為電磁力,A為鐵芯面積,空氣磁導率u0=4×10-7H/m。

圖4 基于粒子群優化的模糊強化學習控制仿真波形
從圖4可知,與傳統的模糊控制相比基于粒子群優化的模糊強化學習控制器的磁懸浮求系統的響應速度快,穩態誤差小,系統跟隨性較好,證明了該控制算法的有效性和優越性。
本文在搭建狀態空間模型后,采用粒子群優化算法對模糊強化學習控制器的參數進行了優化,并在MATLAB中進行了仿真。通過仿真對比試驗,結果表明,用粒子群算法優化后的模糊強化學習控制器能使系統快速穩定達到預期,并能有效抑制磁懸浮球系統抖動。