二自由度飛行姿態模擬器的模糊強化學習控制

2019-01-22 04:39:46任立偉班曉軍吳奮黃顯林

電機與控制學報 2019年11期

任立偉班曉軍吳奮黃顯林

摘?要：針對二自由度飛行姿態模擬器的姿態穩定問題，依據強化學習中的策略迭代算法設計姿態穩定控制器。將策略迭代學習算法與多項式TS模糊系統相結合，對控制器參數進行學習調整，實現對二自由度飛行姿態模擬器姿態穩定控制性能的優化。通過多項式TS模糊模型對執行器的策略函數以及評價器的值函數進行逼近，建立基于多項式TS模糊模型的執行器-評價器結構，經過策略迭代過程，學習得到最優控制器參數，使得值函數最小。通過仿真驗證，證明了基于多項式TS模糊模型的執行器—評價器結構的策略迭代算法在飛行器姿態穩定控制方面的有效性。

關鍵詞：飛行器控制;姿態穩定;強化學習;策略迭代算法;多項式TS模糊系統

DOI：10.15938/j.emc.2019.11.016

中圖分類號：TP?273

文獻標志碼：A

文章編號：1007-449X（2019）11-0127-08

收稿日期：?2019-03-15

基金項目：國家自然科學基金（61304006，61273095）

作者簡介：任立偉（1989—），女，博士研究生，研究方向為模糊系統理論;

班曉軍（1978—），男，博士，教授，博士生導師，研究方向為模糊控制理論、魯棒增益調度控制理論、機電伺服控制系統等;

吳?奮（1964—），男，博士，教授，研究方向為魯棒變參數控制、切換和混雜控制、非線性控制、先進控制技術的工程應用;

黃顯林（1956—），男，博士，教授，博士生導師，研究方向為研究方向為飛行器制導、導航與控制、復雜系統非線性魯棒與自適應控制等。

通信作者：班曉軍

Fuzzy?learning?controller?design?of?2DOF?flight?attitude?simulator

REN?Liwei1，?BAN?Xiaojun1，?WU?Fen2，?HUANG?Xianlin1

（1.?Center?for?Control?Theory?and?Guidance?Technology，?Harbin?Institute?of?Technology，?Harbin?150001，?China;

2.Department?of?Mechanical?and?Aerospace?Engineering，?North?Carolina?State?University，Raleigh?27695-7910，USA）

Abstract：

Aiming?at?the?attitude?stabilization?problem?of?twodegreesoffreedom?flight?attitude?simulator，?an?attitude?stabilization?controller?was?designed?based?on?the?policy?iteration?algorithm?in?the?reinforcement?learning.The?policyiteration?learning?algorithm?and?the?polynomial?TS?fuzzy?systems?were?combined?together，?conducting?parameters′?adjustment?of?the?controller，?and?achievingthe?optimization?of?the?attitude?stability?control?performance?of?the?twodegreesoffreedom?flight?attitude?simulator.By?approximating?the?policy?function?of?the?actor?and?the?value?function?of?the?critic?with?the?polynomial?TS?fuzzy?models，?the?actorcritic?structure?based?on?the?polynomial?TS?fuzzy?models?was?established.?Through?the?policy?iteration?process，?the?optimal?parameters?of?the?controller?were?learned?to?minimize?the?value?function.The?simulation?results?show?that?the?policy?iteration?algorithm?based?on?polynomial?TS?fuzzy?models?is?effective?in?controlling?aircraft?attitude?stabilization.

Keywords：aircraft?control;?attitude?stabilization;?reinforcement?learning;?policy?iteration?algorithm;?polynomial?TS?fuzzy?system

0?引?言

旋翼式飛行器因其結構簡單、成本低廉、使用便利等特點，被廣泛應用于諸多領域，因此對其姿態控制方法的研究是很有必要的。為了有效提高旋翼式飛行器姿態控制系統的研發效率并降低研發成本，旋翼式飛行姿態模擬器應運而生。

文獻[1-2]提出了一種適合在實驗室環境下研究旋翼式微小型飛行器姿態控制的小型二自由度飛行姿態模擬器。此套設備可以方便地改變整個系統的質心位置，從而改變被控對象動力學方程中的參數，為研究強魯棒性、自適應姿態穩定以及大角度姿態調整控制問題提供了一個良好的實驗平臺。該二自由度飛行姿態模擬器具有自身不穩定性、非線性等特性，采用可行又有效的控制策略才能保證其運行的穩定性。

強化學習（reinforcement?learning，RL）是計算智能領域發展起來的一種機器學習方法[3-4]，它通過智能體與環境的交互進行探索，在采取動作和環境的評價信息中獲得所需知識，進一步指導后續動作，最終得到最優的動作策略，以適應環境達到預期目的。強化學習與最優控制和自適應控制有著密切的聯系，Frank?L.?Lewis及其團隊在把RL應用到控制領域的過程中做出了大量重要的工作，得到了很多有價值的理論成果[5-8]。強化學習具有對環境先驗知識要求低的優點，其主要學習任務是獲得“狀態—動作”之間的映射關系。函數逼近的本質就是利用某一函數來逼近這一映射關系。對于控制領域，即強化學習不需要對象模型信息，主要目的是獲取控制策略，上述函數實際上就是控制器，對于參數化控制器而言，就是在交互過程中通過環境的評價信息對這個控制器的參數進行優化，從而達到改善控制效果的目的。強化學習控制方法目前作為一種基于人工智能的優化控制方法，在求解復雜控制決策問題過程中，極具潛力和優勢[9-13]。

一般所研究的強化學習系統，其狀態和動作空間都是離散且有限的，值函數可以用表格表示。而對于大的狀態、動作空間甚至連續狀態、動作空間，值函數的存儲將面臨“維數災難”問題。為了解決這個問題，值函數逼近方法被引入到強化學習中，已經成為一種有效方法。模糊邏輯推理作為控制理論中的一種重要方法，由于其具有萬能逼近的特點而被用于強化學習中，用于逼近狀態值函數或狀態動作值函數，其中包括因逼近能力以及簡單結構而被廣泛研究的TakagiSugeno（TS）模糊模型[14-15]。

近些年來，多項式TS模糊模型受到越來越多的關注。實質上，多項式TS模糊模型可看作是TS模糊模型的一種推廣。這兩種模型主要區別在于模糊規則的后件部分：TS模糊模型后件部分是線性模型，而多項式TS模糊模型后件部分是多項式模型。因此，相比于傳統的TS模糊模型，多項式TS模糊模型可以更好地描述非線性系統。具體來說，針對同一非線性動態系統進行描述，前件變量相同的前提下，多項式TS模糊模型能夠顯著減少模糊規則條數，并且隨著模型前件變量的增加，優勢會更為突出;或是在相同模糊規則條數下，多項式TS模糊模型可以更多地表征非線性系統工作點附近的信息。目前，已有一系列研究針對多項式TS模糊系統的系統分析與控制展開[16-24]，取得了很多研究成果。

本文嘗試將強化學習中的策略迭代算法與一類多項式TS模糊系統[24]相結合，利用多項式TS模糊模型分別對執行器的策略函數以及評價器的值函數進行逼近，建立基于多項式TS模糊模型的執行器-評價器結構，對控制器參數進行迭代優化。此外，本文將所設計的強化學習控制方法應用于二自由度飛行模擬器的控制系統設計，優化其控制器參數，成功實現對二自由度飛行模擬器俯仰角姿態穩定控制性能的優化。

1?飛行姿態模擬器動力學模型

1.1?非線性系統模型

二自由度飛行姿態模擬器[1-2]的機械結構主要有基座、U型架、擺動臂和螺旋槳等部分，其簡化結構示意如圖1所示。擺動臂兩端各有一個電機，2個電機方向垂直，各裝有一個螺旋槳，用于驅動擺動臂，使其可以繞著基座進行俯仰和偏航運動。F1為俯仰方向螺旋槳升力，垂直擺桿向上;F2為偏航方向螺旋槳升力，垂直指向紙面外。若只考慮俯仰方向運動，則需保持偏航方向靜止。選豎直桿與擺動臂的重合位置為運動坐標系原點O，x軸方向為水平，z軸方向為豎直，y軸方向通過右手定則來確定，并且將y軸方向定為俯仰方向的零位，俯仰角φ逆時針旋轉（圖中向上）為正方向。

依據機械結構圖上的受力分析，可以建立飛行姿態模擬器俯仰方向動力學模型如下：

Jφ··=-kφ·-Mglcosφ+F1L，（1）

式中各變量的物理意義及其具體參數值如表1所示。

選擇狀態變量x1=φ，x2=φ·及控制輸入變量u=F1L，即可得到飛行模擬器的仿射非線性模型如下：

x·=f（x）+g（x）u，（2）

其中：x=[x1，x2]T，f（x）=x21J（-kx2-Mglcos（x1）），

g（x）=01J。

1.2?連續系統的離散化

針對非線性系統（2），時間軸上連續取相同時間間隔T=tk+1-tk>0，[tk，tk+1）=[kT，（k+1）T）稱為采樣間隔，T為采樣周期。本文中每個采樣間隔內，輸入信號被零階保持，即

u（t）≡u（kT）=u（k），kT≤t<（k+1）T。（3）

采用四階龍格-庫塔法對系統（2）進行近似離散化，其遞推方程如下（步長h=T）：

x（k+1）=x（k）+h6（K1+2K2+2K3+K4），（4）

其中，

K1=f（x（k））+g（x（k））u（k），

K2=fx（k）+h2K1+gx（k）+h2K1u（k），

K3=fx（k）+h2K2+gx（k）+h2K2u（k），

K4=f（x（k）+hK3）+g（x（k）+hK3）u（k）。

2?強化學習策略迭代算法

考慮如下單輸入離散時間非線性動態系統[7]：

x（k+1）=F（x（k））+G（x（k））u（k），（5）

其中x（k）∈瘙綆

n表示系統k時刻的狀態，u（k）∈瘙綆

表示系統k時刻的控制輸入。F（x（k））和G（x（k））均為光滑的非線性函數。

定義回報函數r（x（k），u（k））如下：

r（x（k），u（k））=Q（x（k））+uT（k）Ru（k），（6）

其中Q（x（k））和R是正定的。特別地，二次型回報函數為

r（x（k），u（k））=xT（k）Qx（k）+uT（k）Ru（k）。（7）

控制目標是尋求一個狀態空間到控制輸入空間的映射關系h（·）∶瘙綆

n→瘙綆

，即策略

u（k）=h（x（k））。（8）

使得未來的累積回報最小，有

Vh（x（k））=∑SymboleB@

i=kγi-kr（x（i），u（i））。（9）

其中，Vh（x（k））表示評價策略u（k）=h（x（k））的值函數;x（i）（k≤i≤∞）表示滿足式（5）和式（8）的狀態;γ∈[0，1]表示折扣因子，如果為0，則價值只由當前回報決定;如果是1，則所有的后續回報和當前回報一視同仁;如果是0到1之間的數字，即當前回報的權重比后續回報的權重大。

本文研究的前提在于系統是可鎮定的[7]，且存在一個可行的控制策略u（k）=h（x（k））使得閉環系統是漸近穩定的。此處，可行的控制策略是指該策略可以使系統鎮定并且產生有界代價函數的策略。只有對于可行的控制策略，值函數Vh（x（k））的值才有意義。

最優策略u（k）=h*（x（k））使得值函數（9）最小化，得到最優價值

V*（x（k））=minh（·）（∑SymboleB@

i=kγi-kr（x（i），h（x（i）））），（10）

然而這一優化問題很難求解。Bellman最優原理，作為最優控制的一個奠基石，由其可以得到如下離散時間HamiltonJacobiBellman（HJB）方程：

V*（x（k））=minh（·）（r（x（k），h（x（k）））+

γV*（x（k+1））），（11）

進一步，可得到最優策略：

h*（x（k））=argminh（·）（r（x（k），h（x（k）））+

γV*（x（k+1）））。（12）

上述連續狀態、動作空間下的離散時間非線性動態系統最優控制問題可以用強化學習方法求解，基本思路分為兩步：首先根據當前的策略u（k）=h（x（k））估計值函數Vh（x（k））;然后根據當前估計的值函數改進策略。基于上述機制，研究者們提出了很多強化學習算法，本文主要基于比較經典的策略迭代算法展開研究，其具體步驟如下：

1）初始化：選擇任意容許控制策略h0（x（k））;

2）策略評估：利用Bellman方程確定當前策略的價值，即

Vj+1（x（k））=r（x（k），hj（x（k）））+

γVj+1（x（k+1））。（13）

3）策略更新：通過下式對策略進行更新

hj+1（x（k））=argminh（·）（r（x（k），h（x（k）））+

γVj+1（x（k+1）））。（14）

實現上述策略迭代算法的經典強化學習結構為執行器-評價器結構[7]，如圖2所示。其中，評價器的任務是采用Bellman方程（13）對值函數進行更新，執行器的任務是采用式（14）對策略進行更新。

針對有限狀態和動作空間，策略迭代可通過存儲和更新查找表實現。然而對于非線性系統（5），狀態空間和控制輸入空間是連續及無限的，此時使用Bellman方程（13）對當前策略的價值評估意味著需要對所有狀態x（k）計算策略hj（x（k））的價值，即求解該Bellman方程是很困難的。解決該問題的關鍵是通過函數逼近器對值函數進行近似。

3?基于多項式TS模糊模型的執行器-評價器結構

本節將通過多項式TS模糊模型[24]對執行器的策略函數以及評價器的值函數進行逼近，建立基于多項式TS模糊模型的執行器—評價器結構。

3.1?評價器實現—多項式TS模糊模型近似值函數

由第2節可知道，實現具有無限狀態空間動態系統的策略迭代的關鍵是近似值函數。本節將通過如下式所示的多項式TS模糊模型對值函數進行近似，其第條規則如下：

R：?IF?x1（k）?is?M1?AND?x2（k）?is?M2?AND?…?AND?xn（k）?is?Mn，THEN

Vh（x（k））=∑ni=1alixi（k）+∑ni=1∑nj=ibli，jxi（k）xj（k）。（15）

其中：xi（k），i=1，2，…，n為系統在k時刻的狀態;n為輸入變量的個數;Mi是前件變量xi（k）的模糊集，μMi（xi（k））表示其隸屬函數;Vh（x（k））為第條模糊規則輸出;ali和bli，j分別表示后件參數，經強化學習可得到。此外，

x（k）=[x1（k），x2（k），…，xn（k）]T。

模糊規則中邏輯“與”運算符選擇常用的“代數乘積”，得到第條規則的激活度為

μ（x（k））=∏ni=1μMi（xi（k））。（16）

采用一般化的解模糊方法得到解模糊化后的模型輸出，如下：

Vh（x（k））=∑Ωl=1ξ（x（k））Vh（x（k）），（17）

其中：Ω為模糊規則數量;ξ（x（k））為模糊權函數;Vh（x（k））由第條模糊規則的后件方程式（15）計算，且

ξ（x（k））=μ（x（k））∑Ωl=1μ（x（k））≥0，（18）

以及

∑Ωl=1ξ（x（k））=1。（19）

此外，在執行器—評價器結構中，評價器接收系統的狀態變量和式（6）定義的回報函數，對強化學習的每次學習產生評判，產生如下時序差分誤差（Temporal?Difference?（TD）?Error）：

e（k）=r（x（k），h（x（k）））+

γVh（x（k+1））-Vh（x（k））（20）

以及值函數估計。因此，針對值函數近似方法，一般可將式（20）作為近似性能指標。

3.2?執行器實現—多項式TS模糊控制器

本節將通過如下式所示的多項式TS模糊模型[24]對執行器的策略函數進行近似，其第w條規則如下：

Rw：IF?x1（k）?is?Nw1?AND?x2（k）?is?Nw2?AND?…?AND?xn（k）?is?Nwn，?THEN

uw（x（k））=cw+∑ni=1qwixi（k）+

∑ni=1∑nj=iswi，jxi（k）xj（k），（21）

其中：Nwi是前件變量xi（k）的模糊集;ηNwi（xi（k））表示其隸屬函數;uw（x（k））為第w條模糊規則輸出;cw、qwi和swi，j分別表示后件參數，經強化學習可得到。

模糊規則中邏輯“與”運算符選擇常用的“代數乘積”，得到第w條規則的激活度為

ηw（x（k））=∏ni=1ηNwi（xi（k））。（22）

采用一般化的解模糊方法得到解模糊化后的模型輸出，如下：

u（x（k））=∑ψw=1ζw（x（k））uw（x（k）），（23）

其中，ψ為模糊規則數量，ζw（x（k））為模糊權函數，uw（x（k））由第w條模糊規則的后件方程式（21）計算，且

ζw（x（k））=ηw（x（k））∑ψw=1ηw（x（k））≥0，（24）

以及

∑ψw=1ζw（x（k））=1。（25）

4?仿真研究

利用第3節中所提出的基于多項式TS模糊模型的執行器-評價器結構的策略迭代算法，?針對第1節中的飛行姿態模擬器俯仰方向動力學模型進行數值仿真研究。本文的強化學習控制算法并不需要對象模型，仿真中的模型只是用來模擬學習過程中與智能體進行交互的外部環境，而不直接向智能體提供任何信息。控制目標為設計多項式TS模糊控制器（23），使得給定系統一個初始角度，在控制器作用下最終可穩定到0度，同時實現策略最優化及值函數最優化。具體為經過策略迭代過程，學習得到最優控制器參數，使得值函數最小。

針對飛行姿態模擬器俯仰方向連續狀態空間模型（2），選擇離散采樣時間T=0.005?s，經四階龍格-庫塔法離散化得到其離散狀態空間模型。

由式（1）和式（2）知，系統穩定到0度時，有

u（k）=Mgl，（26）

所以選擇回報函數如下：

r（x（k），u（k））=xT（k）Qx（k）+

（u（k）-Mgl）TR（u（k）-Mgl）。（27）

其中，Q=1001，R=1。

選定多項式TS模糊模型（17）對值函數進行近似，模糊規則數為Ω=2，前件變量為x1（k），其第條規則如下：

R：?IF?x1（k）?is?M1，THEN

Vlh（x（k））=bl1，1x21（k）+bl1，2x1（k）x2（k）+

bl2，2x22（k）。（28）

模糊權函數分別選為如下式所示的高斯型（其形狀見圖3）。

ξ1（x1（k））=e-x21（k）0.5，

ξ2（x1（k））=1-ξ1（x1（k））。（29）

選定多項式TS模糊控制器（23）模糊規則數ψ=2，前件變量為x1（k），其第w條規則如下：

Rw：IF?x1（k）?is?Nw1，THEN

uw（x（k））=cw+qw1x1（k）+qw2x2（k）+

sw1，1x21（k）+sw1，2x1（k）x2（k）+

sw2，2x22（k）。（30）

模糊權函數分別選為如下高斯型（其形狀同圖3）：

ζ1（x1（k））=e-x21（k）0.360?7，

ζ2（x1（k））=1-ζ1（x1（k））。（31）

策略迭代算法中評價器和執行器的參數初始值分別如表2和3所示。

初始狀態為x（0）=[-0.990?20]T，折扣因子γ=1。經過15步迭代得到的收斂策略迭代結果（即評價器和執行器參數收斂值）分別如表4和表5所示。

最優策略（其參數如表5所示）下，系統在初始值為x（0）=[-0.990?20]T時的狀態響應以及控制輸入分別如圖4和圖5所示。

由式（26）可知，當系統穩定在0度時，經計算可得控制量u（k）=0.149?9，圖5所得控制量終值結果與該理論計算結果一致。

進一步，依據所得最優策略（其參數如表5所示），改變系統初值為x（0）=[0.710?70]T，可得到該初始狀態下系統的狀態響應以及控制輸入分別如圖6和圖7所示。

評價器參數收斂過程以及多項式TS模糊模型近似值函數所得到的最優策略對應的TD誤差分別如下圖8和圖9所示。

從圖4～圖7中可看出，經過迭代學習過程，得到的具有最優控制策略參數的控制器，能夠使得二自由度飛行模擬器的俯仰角和角速度均穩定在0度。從圖8和圖9中，可以看到評價器參數收速度較快，且所得到的TD誤差為零，即實現了值函數最小化的性能指標。該仿真結果不僅說明多項式TS模糊模型近似值函數是可行的，此外，基于多項式T-S模糊模型的執行器-評價器結構的強化學習策略迭代算法在二自由度飛行模擬器上的應用是成功且有效的。

5?結?論

本文基于強化學習中的策略迭代算法對一個自主研制的二自由度飛行姿態模擬器的姿態穩定問題進行研究，該模擬器為實驗室環境下研究旋翼式微小型飛行器姿態控制提供了一個很好的平臺。首次將策略迭代學習算法與多項式TS模糊系統相結合，建立基于多項式TS模糊模型的執行器-評價器結構，對控制器參數進行學習調整，實現對二自由度飛行姿態模擬器姿態穩定控制性能的優化，具有一定的應用價值。實際上，該算法并不局限于某一策略形式，能夠參數化表達的控制策略形式都可以通過該算法進行策略參數優化，實際應用中，可以根據需要進行策略形式選擇。

參?考?文?獻：

[1]?趙巖.?二自由度直升機模擬器控制系統設計[D].?哈爾濱：哈爾濱工業大學，?2013.

[2]?尹航，?楊燁峰，?趙巖，等.?二自由度飛行姿態模擬器自整定控制器設計[J].電機與控制學報，2018，22（4）：109-116.

YIN?Hang，?YANG?Yefeng，?ZHAO?Yan，?et?al.?Selftuning?controller?design?for?a?2DOF?flight?attitude?simulator?[J].?Electric?Machines?and?Control，?2018，?22（4）：109-116.

[3]?SUTTON?R?S，?BARTO?A?G.?Reinforcement?LearningAn?Introduction[M].?Cambridge，?MT：?MIT?Press，?1998.

[4]?Jerry?M.MENDEL.?Adaptive?learning?and?pattern?recognition?systems：?theory?and?applications[M].?Academic?Press，?1970.

[5]?WEI?Q，?LEWIS?F?L，?LIU?D，?et?al.?Discretetime?local?value?iteration?adaptive?dynamic?programming：?Convergence?analysis[J].?IEEE?Transactions?on?Systems?Man?and?Cybernetics：?Systems，?2018，?48（6）：?875-891.

[6]?KIUMARSI?B，?LEWIS?F?L，?JIANG?Z?P.?H∞?control?of?linear?discretetime?systems：?Offpolicy?reinforcement?learning[J].?Automatica，?2017，?78（1）：?144-152.

[7]?LEWIS?F?L，?VRABIE?D.?Reinforcement?learning?and?adaptive?dynamic?programming?for?feedback?control[J].?IEEE?Circuits?and?Systems?Magazine，?2009，?9（3）：?32-50.

[8]?ZHAO?D，?LIU?D，?LEWIS?F?L，?et?al.?Special?issue?on?deep?reinforcement?learning?and?adaptive?dynamic?programming[J].?IEEE?Transactions?on?Neural?Networks?and?Learning?Systems，?2018，?29（6）：?2038-2041.

[9]?KHATERAA，?ELNAGAR?A?M，?ELBARDINIM，?et?al.?Adaptive?T–S?fuzzy?controller?using?reinforcement?learning?based?on?Lyapunov?stability[J].?Journal?of?the?Franklin?Institute，?2018，?355（14）：?6390-6415.

[10]?XIONG?Y，?HAIBO?H，?QINGLAI?W，?et?al.?Reinforcement?learning?for?robust?adaptive?control?of?partially?unknown?nonlinear?systems?subject?to?unmatched?uncertainties[J].?Information?Sciences，?2018，?463（1）：307-322.

[11]?ZHANG?C，?ZOU?W，?CHENG?N，?et?al.?Trajectory?tracking?control?for?rotary?steerable?systems?using?interval?type2?fuzzy?logic?and?reinforcement?learning[J].?Journal?of?the?Franklin?Institute，?2018，?355（2）：?803-826.

[12]?ZHU?Y，?ZHAO?D，?YANG?X，et?al.?Policy?iteration?for?H∞?optimal?control?of?polynomial?nonlinear?systems?via?sum?of?squares?programming[J].?IEEE?Transactions?on?Cybernetics，?2018，?48（2）：?500-509.

[13]?趙冬斌，?邵坤，?朱圓恒，等.深度強化學習綜述：兼論計算機圍棋的發展[J].?控制理論與應用，?2016，?33（6）：701-717.

ZHAO?Dongbin，?SHAO?Kun，?ZHU?Yuanheng，?et?al.?Review?of?deep?reinforcement?learning?and?discussions?on?the?development?of?computer?go[J].?Control?Theory?&?Applications，?2016，?33（6）：701-717.

電機與控制學報2019年11期

電機與控制學報的其它文章: 永磁同步電機位置伺服系統改進自抗擾控制; 一種串聯超級電容器均壓電路; 無軛分塊電樞軸向磁場永磁電機的尺寸方程與磁網絡模型; 線性壓電馬達驅動系統的摩擦補償控制研究; 差分進化改進微電網負荷頻率混合H₂/H_∞魯棒控制; 基于全周期電流包絡線開關磁阻電機無位置傳感器技術