基于改進ELM的遞歸最小二乘時序差分強化學習算法及其應用

2017-10-14 07:01:57徐圓黃兵明賀彥林

化工學報 2017年3期

關鍵詞：實驗

徐圓，黃兵明，賀彥林

徐圓，黃兵明，賀彥林

（北京化工大學信息科學與技術學院，北京 100029）

針對值函數逼近算法對精度及計算時間等要求，提出了一種基于改進極限學習機的遞歸最小二乘時序差分強化學習算法。首先，將遞推方法引入到最小二乘時序差分強化學習算法中消去最小二乘中的矩陣求逆過程，形成遞推最小二乘時序差分強化學習算法，減少算法的復雜度及其計算量。其次，考慮到LSTD(0)算法收斂速度慢，加入資格跡增加樣本利用率提高收斂速度的算法，形成LSTD()算法，以保證在經歷過相同數量的軌跡后能收斂于真實值。同時，考慮到大部分強化學習問題的值函數是單調的，而傳統ELM方法通常運用具有雙側抑制特性的Sigmoid激活函數，增大了計算成本，提出采用具有單側抑制特性的Softplus激活函數代替傳統Sigmoid函數，以減少計算量提高運算速度，使得該算法在提高精度的同時提高了計算速度。通過與傳統基于徑向基函數的最小二乘強化學習算法和基于極限學習機的最小二乘TD算法在廣義Hop-world問題的對比實驗，比較結果證明了所提出算法在滿足精度的條件下有效提高了計算速度，甚至某些條件下精度比其他兩種算法更高。

強化學習；激活函數；遞歸最小二乘算法；函數逼近；廣義Hop-world問題

引言

強化學習是由Watkins等[1-3]提出的基于心理學的一種全新的機器學習算法，其主要思想是通過智能體與環境的交互與試錯，以環境的反饋信號作為輸入實現策略的優化。實現策略優化需要正確的策略評價和策略迭代技術，而如何正確地估計函數值是策略評價的一個中心問題。強化學習通常采用狀態空間和動作空間離散的馬爾可夫決策過程（Markov decision process，MDPs）[4-7]描述，類似于動態規劃中的策略評價方法，可采用表格的形式存儲各個狀態的值函數。由于實際工程中狀態空間是連續且規模較大的，采用表格形式會造成類似動態規劃的維數災難。因此為了解決這個問題，必須加強值函數逼近算法的研究[8-12]。

值函數逼近方法可實現在正確估計值函數的同時避免狀態空間復雜所引起的維數災難問題。Sutton[2]首次給出了時序差分強化學習算法(temporal difference，TD)，并通過實驗證明了收斂性，已成為其他強化學習算法的基礎。隨著人工智能技術的發展，近年來越來越傾向于將神經網絡的函數逼近能力應用于強化學習值函數逼近中[13-17]，Bradtke等提出了最小二乘時序差分強化學習算法（least-squares temporal difference learning，LSTD）[18-19]，提高TD算法數據利用率的同時解決了TD算法過程中步長設計困難的問題[20]，該算法已成為目前廣泛應用的值函數逼近算法，其中LSTD中采用徑向基函數（radial basis functions，RBF）作為逼近模型或者其他狀態回歸方法。但是這類方法大部分都屬于局部逼近，而局部逼近最主要的潛在限制就是隨著輸入空間維度的增加所需要的特征單元是以指數形式增加的。

基于以上問題，本文提出了一種基于改進ELM的遞歸最小二乘差分算法（RLSTD（）-IELM）用于函數值逼近。一方面，將遞推方法引入到最小二乘算法中，形成遞推最小二乘算法（recursive least-squares temporal difference learning，RLSTD），減少算法的復雜度及其計算量。同時，考慮到LSTD(0)算法收斂速度慢，本文加入資格跡增加樣本利用率提高收斂速度的算法，形成LSTD()算法，以保證在經歷過相同數量的軌跡后能收斂于真實值。另一方面，由于大部分強化學習問題的值函數是單調的，在ELM模型結構中，本文采用具有單側抑制特性的Softplus激活函數代替傳統Sigmoid函數以減少計算量提高運算速度，實現計算時間的降低。最后，本文運用廣義Hop-world實驗證明了該算法保證精度的情況下降低了計算時間，即提高了資源有效率以及計算的有效率。

1 基于改進ELM的RLSTD（λ）算法

1.1 基于Softplus激活函數的ELM

極限學習機(ELM)是一種簡單易用、有效的單隱層前饋神經網絡(single-hidden layer feedforward neural networks，SLFNs)學習算法[21]。假設隱含層含有個單元，則第個輸出可表示為

其中1≤≤，w為隱含層第個單元的參數(權值和閾值)，h是第個單元和輸出層連接的權值，是隱含層激活函數。

通常，極限學習機隱含層激活函數采用傳統的Sigmoid函數，Sigmoid系統在做值判別時采用雙側抑制。而大多數強化學習問題中為了更容易得到狀態集合中每個狀態的值函數通常設定在未到達目標點之前，根據策略每采取一個動作，環境反饋的賞金為負(正)，而到達目標時為0，因此值函數的值通常都為負或都為正。例如，廣義Hop-world問題的值函數逼近值是單調的，若采用雙側抑制將會增加廢運算，由此只需要單邊抑制就足夠了。因此，本文提出采用Softplus函數替換Sigmod函數，該激活函數模型對比Sigmoid模型主要變化有3點：單側抑制，相對寬闊的興奮邊界以及稀疏激活性。Softplus函數[22]是ReLu函數的改進，因此它一方面有ReLu函數運算速度快，泛化性能好的特點，另一方面它比傳統的Sigmoid函數更加接近生物學激活模型，從而使整個網絡模型的平均性能更好。這兩點對算法的兩個評估標準都有所增益，可增加計算效率，減少計算時間。

Softplus函數定義為

=ln(1+e) (2)

1.2 遞歸LSTD()-IELM強化學習算法

傳統值函數逼近算法中，例如LSTD-RBF強化學習算法，雖然提高了值函數逼近的精度但是同時也增加了計算復雜度降低了計算速率，本文結合1.1節提出的基于Softplus激活函數的ELM模型，提出一種帶有資格跡的遞推最小二乘強化學習算法(RLSTD())。

強化學習問題通常可以表達成馬可爾夫決策過程(MDP)[23]。MDP模型可以定義為集合{,,,,}，是狀態集合，為動作集合，為賞金函數即在狀態s時執行動作轉移到狀態s+1得到的反饋信號，為狀態轉移概率函數即在狀態s時執行動作轉移到狀態s+1，為值函數。MDP的策略定義為從狀態空間到動作空間的映射：，當確定時，且定義轉移函數為1時，值函數()就是在狀態下執行動作且以后遵循策略的累積期望折扣回報，可由式（3）表達

設定′為狀態下執行動作轉移的下一個狀態，那么式（4）同樣可以定義為

V()=+V(′) (4)

其中為折扣因子，當狀態空間很小時，采用表格的形式存儲各個狀態的值函數。但是當狀態空間連續或者維度很大時想要得到每個狀態確切的值函數的值很困難，這種情況下就要采用函數值逼近算法來估計值函數的值[8,24]。

假設有一個被維的向量參數化的值函數逼近模型，那么這個逼近模型與式(3)相結合，可以表達為

=() (5)

()=[()]() (6)

由于線性的參數逼近模型有一定的理論基礎，所以文中采用線性參數逼近模型。模型采用個特征單元或者基本函數1,…,:和一個維參數向量，狀態的值可計算為

其中，()=[1(),…,()]，即為特征單元向量。

根據傳統時序差分法(TD(0))迭代公式可表示為

式中，表示執行策略的第步，r+1是觀測到的賞金值，為折扣因子，為學習速率。

TD(0)算法必然收斂但是存在收斂速度慢的問題，最主要原因是它只修改相鄰狀態的值函數估計值，這就減少了樣本利用率。本文引入資格跡以提高收斂速度和樣本利用率，即為TD()算法，迭代公式為

其中，(s)被稱為資格跡，可由式（10）計算得到

(10)

因此算法的更新原則為

在經歷過軌跡(0,1,…,s)，根據式(11)可以觀察到總的變化，可表達為

=+(++) (12)

式中，為平均噪聲。因此收斂于滿足式+TD=0的TD。

最小二乘時序差分法(LSTD)同樣收斂于滿足上面條件的TD，LSTD中構造的矩陣(×維)和向量(維)可表示為

經歷過個獨立軌跡之后，矩陣和向量為和-的無偏差估計，因此TD可由-1計算得到。

結合1.1節提出的基于Softplus激活函數的ELM，定義特征單元空間為

()=[(1,),(2,),…,(,)] (14)

因此結合式(11)～式(13)得到LSTD()-ELM算法的迭代公式

←(s)+(15)

←+((s)-(s+1))T(16)

=-1(17)

一般情況下LSTD算法求解過程采用的是高斯消除法或者奇異值分解來求-1，但是這兩種方法的復雜度為0(3)。當數據維度增大或者特征單元增多時，計算量和計算時間也會以指數形式上升。所以本文引入了遞歸最小二乘的概念，來提高計算速度以及實時處理能力。

根據矩陣求逆定理，當∈×n,∈×1,∈1×n且可逆時，有

(+)-1=-1--1(+-1)-1(18)

則根據文中狀態變化可以推導得到遞歸最小二乘更新原則

(20)

此方法消除了矩陣的求逆過程，因此復雜度相比LSTD-ELM算法，由0(3)降為0(2)，有效提高了計算速度。

2 實驗與結果分析

本文采用廣義Hop-world問題驗證RLSTD()- IELM算法的有效性，并與LSTD-ELM算法、LSTD-RBF算法進行比較。由于廣義Hop-world的狀態空間維度是可以隨意選擇的，所以該實驗很適合評估當狀態變量增加時各算法的表現。實驗中采用平均絕對誤差和計算時間作為算法比較的指標。

2.1 廣義Hop-world問題

Hop-world問題最初提出[25]是為了進行說明性實驗，后來被應用于其他強化學習實驗中。圖1為該問題的最初模型，狀態空間是一維且離散的。如圖1所示，此模型由個離散狀態和一個結束狀態構成，狀態空間表示為={0,1,2,…,}。對于每個軌跡而言，初始狀態為狀態0，結束狀態為狀態。當前狀態不為目標狀態時可以采取兩個動作={0,1}，每一個動作都朝著目標狀態前進。狀態-1到狀態產生的賞金值為-2/3，其他狀態轉移產生的賞金值為-1。實驗中agent選擇兩個動作的概率是相同的。

而廣義Hop-world問題，其狀態空間維度是可變的，即為狀態數可變的Hop-world問題。參數表示狀態空間維度，圖2為狀態空間維度為2時的Hop-world問題模型。狀態個數由||=m得到，可選動作個數由||=2得到。賞金函數與一維Hop-world問題模型相同。

多維廣義Hop-world問題的狀態由最初的離散狀態轉移為位于范圍[0,1]的連續狀態，但對于每一維它們依舊有2種動作可以選擇，使得當前狀態向目標狀態轉移，只是此時動作選擇為1倍步長和2倍步長。二維Hop-world問題將起始點和目標點設置在狀態空間的兩端，即圖3中的0=[0,0]，END=[1,1]，而圖中帶有箭頭的折線就是二維廣義Hop-world問題中的一條典型的軌跡，其中短箭頭代表一倍步長，長箭頭代表兩倍步長。

本文實驗中廣義Hop-world的維度從1變化到3，為了保證每條軌跡的步數是合理的，其中步長參數根據維度的變化而改變，表1列出了3種不同維度對應的步長并且本文設定每種動作帶有0.2倍步長的高斯噪聲以增加系統的隨機性。而智能體與環境交互的質量是由經過的軌跡數控制的。為了得到更精準的值函數逼近值，隨著維度的增加軌跡的數量也必須增加，表1列出了3種不同維度的Hop-world問題所需要的軌跡數，文中RLSTD- IELM、LSTD-ELM以及LSTD-RBF算法采用相同的軌跡數。

2.2 Monte Carlo仿真

Monte Carlo實驗中，在待仿真的狀態集合中任意取一個狀態作為初始狀態，觀測經歷不同軌跡后的反饋值，將所有反饋值取平均值即得到該狀態值函數的仿真值。文中采用Monte Carlo仿真實驗的仿真值作為“真實值”，值函數逼近值與其作比較得到絕對誤差。Monte Carlo仿真實驗仿真結果如圖4。

表1 不同維度Hop-world實驗中LSTD算法的各個參數

圖4給出了1維Hop-world問題中=0.30，=0.57和=0.90時Monte Carlo仿真的情況，縱坐標表示值函數仿真值，橫坐標表示軌跡數量。圖中描繪了隨著仿真過程中軌跡數量的增加得到的估計值以及95%的置信空間。由圖4可以看到在經歷過16000個軌跡之后，()的估計值基本保持穩定，后面就是重復相同的步驟達到固定的軌跡數。除了定義保證仿真精度軌跡數之外，必須定義需要仿真的狀態集合。一方面狀態集合足夠大，可以表達所有值函數；另一方面，狀態集合要足夠小，可以控制計算量。3種不同維度的Monte Carlo仿真的軌跡數量和狀態集合參數列于表2。

表2 不同維度廣義Hop-world實驗中Monte Carlo仿真的各個參數

2.3 結果與分析

首先，采用一維Hop-world問題驗證基于Softplus激活函數的ELM相比于基于傳統激活函數的ELM算法可增加計算效率，減少計算時間。結合LSTD計算一條有效軌跡時間，對比結果如圖5。

從圖5可看出，基于Softplus激活函數的LSTD-IELM算法其時間效率明顯比傳統LSTD-ELM算法高，達到了減少計算時間的目的。

同時，本文將所提算法與LSTD-RBF算法、LSTD-ELM結果進行對比，驗證所提方法的可行性與優越性。由于文中LSTD-RBF算法基函數采用高斯函數，因此高斯函數中心點位置()以及寬度()兩個參數對算法的結果有很大的影響。文中采用k-means算法[26]來確定參數，為了確定參數，根據文獻[27]，可以將寬度定義為

是中心點個數，max是任意兩個中心點之間最大的距離。根據文獻[28-29]，當寬度設置為0.5max和0.33max能得到較好的效果。為了將最好的結果與本文中所提出算法進行比較，將這3種寬度設置為一個集合set={Hay,Alp1,Alp2}，并將set，2set，4set一共9種情況都進行測試找出效果最好的一個。

通過一維Hop-world實驗和對比，當=4Alp1時表現出來的效果最好。因此，在下面的比較實驗中，定義=4Alp1。一維Hop-world實驗中，LSTD-RBF、LSTD-ELM以及RLSTD()-IELM算法比較結果如圖6、圖7所示。

圖6表示一維Hop-world問題中當寬度為=4Alp1的LSTD-RBF算法，LSTD-ELM算法，RLSTD()-IELM算法在單元個數從5變化到45時的估計值平均絕對誤差曲線，圖7表示3種算法分別在一維實驗中單元個數增加時每步算法完成需要的時間曲線。可以看出LSTD-ELM算法與RLSTD()-IELM算法估計值的平均誤差曲線幾乎重疊，而很明顯都小于LSTD-RBF算法，所以在精度上本文所提出的算法是滿足要求的。而從時間曲線上可以看出RLSTD()-IELM算法比LSTD-RBF高，比LSTD-ELM低。因此可以看出本文所提算法在計算速度和計算精度上都有優異的表現。

二維Hop-world問題實驗結果對比如圖8、圖9所示。

從平均絕對誤差上來看，在單元個數增加到50之前，本文所提算法精度高于其他兩種算法，單元個數增加到50之后估計值平均絕對誤差雖然略高于LSTD-ELM算法但仍明顯低于LSTD-RBF算法。而從計算時間上來看，在單元個數增加為80之后低于其他兩種算法，所以該算法在某種特定條件下可以做到精度高于LSTD-ELM算法，計算速度高于LSTD-RBF算法。從一維和二維實驗已經證明該算法的優勢，為了證明其可解決高維問題作了三維廣義Hop-world實驗，即定義=3。

圖10、圖11為三維Hop-world問題實驗比較結果。

圖10 三維Hop-world問題中RLSTD(λ)-IELM、LSTD-ELM以及LSTD-RBF 3種算法隨單元個數增加時的估計值平均絕對誤差曲線對比(d=3, l =0.85)

結合上述一維、二維、三維Hop-world問題上的對比實驗，3種算法在不同單元個數對應的估計精度及計算時間如表3所示。

表3 不同維度廣義Hop-world實驗中RLSTD(λ)-IELM、LSTD-ELM以及LSTD-RBF 3種算法對比

當維度增加為3時本文所提算法的優勢也越來越明顯，無論在精度和計算速度上都有優異的表現。表3表示一維廣義Hop-world實驗中取特征單元個數為10、15、20、25，二維廣義Hop-world實驗中取特征單元個數為60、70、80、90，以及三維廣義Hop-world實驗中取特征單元個數為300、350、400、450時L(LSTD)，RL-IE（RLSTD()-IELM）以及L-E（LSTD-ELM）3種算法分別在平均絕對誤差以及計算時間兩個指標上表現結果的對比。通過結果的對比可以看出，RLSTD()-IELM算法在達到相同精度時所需要的資源少于LSTD-RBF算法，而在時間上來說隨著維度和單元個數的增加，本文所提算法顯示出的優勢越來越明顯，計算速度高于其他兩種算法，證明了該算法的可行性和優越性。

3 結論

本文針對值函數逼近算法對精度和計算時間等要求，提出了一種基于改進極限學習機的遞歸最小二乘時序差分強化學習算法(RLSTD()-IELM)。在廣義Hop-wprld實驗中與傳統LSTD-RBF算法和LSTD-ELM算法進行比較，隨著單元個數的增加，本文所提算法在提高樣本利用率的同時減少了算法復雜度，減少了計算量從而提高了計算速度。在低維廣義Hop-world問題實驗中，本文算法在精度上高于傳統LSTD-RBF算法甚至在某種條件下高于LSTD-ELM算法，在計算速度上高于LSTD-ELM。在高維廣義Hop-world問題實驗中，結果表明在解決高維度問題上文中所提算法表現更優于其他算法，有效證明了本文算法的可行性和優越性。

References

[1] WATKINS J C H, DAYAN P. Q-learning[J]. Machine Learning, 1992, 8(1): 279-292.

[2] SUTTON R S. Learning to predict by the methods of temporal differences[J]. Machine Learning, 1998, 3: 10-43.

[3] SUTTON R S, BARTO A G. Reinforcement learning: an introduction[J]. IEEE Transactions on Neural Networks, 1998, 9(5): 1054.

[4] ETESSAMI K, YANNAKAKIS M. Recursive Markovdecision processes and recursive stochastic games[J]. Journal of the Acm, 2005, 62(2): 100.

[5] DUFOUR F. Impulsive control for continuous-time Markov decision processes[J]. Advances in Applied Probability, 2014, 47(1): 129-161.

[6] HALLAK A, CASTRO D D. Contextual Markov decision processes [J]. Computer Science, 2015, 5(4): 220-229.

[7] BEATRIC B, KRISHNENDU C. Probabilistic opacity for Markov decision processes[J]. Information Processing Letters, 2015, 115(1): 52-59.

[8] 劉全, 肖飛. 基于自適應歸一化RBF網絡的Q-V值函數協同逼近模型[J]. 計算機學報, 2015, 38(7): 1386-1396. LIU Q, XIAO F. Collaborative Q-V value function approximation model based on adaptive normalized radial basis function network[J]. Chinese Journal of Computers, 2015, 38(7): 1386-1396.

[9] HACHIYA H, AKIYAMA T, SUGIAYMA M,. Adaptive importance sampling for value function approximation in off-policy reinforcement learning[J]. Neural Networks the Official Journal of the International Neural Network Society, 2009, 22(10): 1399-1410.

[10] AKIYAMA T, HACHIYA H M. Efficient exploration through active learning for value function approximation in reinforcement learning[J]. Neural Networks the Official Journal of the International Neural Network Society, 2010, 23(5): 639-648.

[11] XU X, HUANG Z. A clustering-based graph Laplacian framework for value function approximation in reinforcement learning[J]. Cybernetics, 2014, 44(12): 2613-2625.

[12] ELFWING S, UCHIBE E. From free energy to expected energy: improving energy-based value function approximation in reinforcement learning[J]. Neural Networks, 2016, 84: 17-27.

[13] WANG X S, CHENG Y H, YI J Q. A fuzzy actor-critic reinforcement learning network[J]. Information Sciences, 2007, 177(18): 3764-3781.

[14] YAVUZ E, MAUL P, NOWOTNY T. Spiking neural network model of reinforcement learning in the honeybee implemented on the GPU[J]. Bmc Neuroscience, 2015, 16(S1): 1-2.

[15] FAU?ER S, SCHWENKER F. Selective neural network ensembles in reinforcement learning: taking the advantage of many agents[J]. Neurocomputing, 2015, 169: 350-357.

[16] TANG L, LIU Y J. Adaptive neural network control of robot manipulator using reinforcement learning[J]. Journal of Vibration & Control, 2013, 20(14): 2162-2171.

[17] 蓋俊峰, 趙國榮. 基于線性近似和神經網絡逼近的模型預測控制[J]. 系統工程與電子技術, 2015, 37(2): 394-399. GAI J F, ZHAO G R. Model predictive control based on linearization and neural network approach[J]. Systems Engineering and Electronics, 2015, 37(2): 394-399.

[18] BRADTKE S J, BARTO A G. Linear least-squares algorithms for temporal difference learning[J]. Machine Learning, 1996, 22(1/2/3): 33-57.

[19] BOYAN J A. Technical update: least-squares temporal difference learning[J]. Machine Learning, 2002, 49(2/3): 233-246.

[20] 王國芳, 方舟. 基于批量遞歸最小二乘的自然Actor-Critic算法[J]. 浙江大學學報, 2015, 49(7): 1335-1341. WANG G F, FANG Z. Natural Actor-Critic based on batch recursive least-squares[J]. Journal of Zhejiang University (Engineering Science), 2015, 49(7): 1335-1341.

[21] HUANG G, ZHU Q. Extreme learning machine: theory and applications[J]. Neurocomputing, 2006, 70: 489-501.

[22] 孫艷豐, 楊新東. 基于Softplus激活函數和改進Fisher判別的ELM算法[J]. 北京工業大學學報, 2015, 41(9): 1341-1347.SUN Y F, YANG X D. ELM algorithm based on Softplus activation function and improved Fisher discrimination[J]. Journal of Beijing University of Technology, 2015, 41(9): 1341-1347.

[23] 高陽, 陳世福, 陸鑫. 強化學習研究綜述[J]. 自動化學報, 2004, 30(1): 86-100.GAO Y, CHEN S F, LU X. Research on reinforcement learning technology: a review[J]. Acta Automatica Sinica, 2004, 30(1): 86-100.

[24] PABLO E M, JOSE M M. Least-squares temporal difference learning based on an extreme learning machine[J]. Neurocomputing, 2014, 14: 37-45.

[25] BOYAN J A. Least-squares temporal difference learning in proceedings of the sixteenth international conference[J]. Machine Learning, 1999, 49(2/3): 49-56.

[26] WANG J F, WANG J D, SONG J K. Optimized Cartesian k-means[J]. IEEE Transactions on Knowledge & Data Engineering, 2015, 27(1): 180-192.

[27] HAYKIN S. Neural Networks and Learning Machines: A Comprehensive Foundation[M]. London: Pearson Education, 2010: 800-815.

[28] ALPAYDIN E. Introduction to machine learning[J]. Machine Learning, 2004, 5(8): 28.

[29] ZHAO J, WEI H. Natural gradient learning algorithms for RBF networks[J]. Neural Computation, 2015, 27(2): 481-505.

Recursive least-squares TD () learning algorithm based on improved extreme learning machine

XU Yuan, HUANG Bingming, HE Yanlin

(School of Information Science & Technology, Beijing University of Chemical Technology, Beijing 100029, China)

To meet the requirements on accuracy and computational time of value approximation algorithms, a recursive least-squares temporal difference reinforcement learning algorithm with eligibility traces based on improved extreme learning machine (RLSTD()-IELM) was proposed. First, a recursive least-squares temporal difference reinforcement learning (RLSTD) was created by introducing recursive method into least-squares temporal difference reinforcement learning algorithm (LSTD), in order to eliminate matrix inversion process in least-squares algorithm and to reduce complexity and computation of the proposed algorithm. Then, eligibility trace was introduced into RLSTD algorithm to form the recursive least-squares temporal difference reinforcement learning algorithm with eligibility trace (RLSTD()), in order to solve issues of slow convergence speed of LSTD(0) and low efficiency of experience exploitation. Furthermore, since value function in most reinforcement learning problem was monotonic, a single suppressed approximation Softplus function was used to replace sigmoid activation function in the extreme learning machine network in order to reduce computation load and improve computing speed. The experiment result on generalized Hop-world problem demonstrated that the proposed algorithm RLSTD()-IELM had faster computing speed than the least-squares temporal difference learning algorithm based on extreme learning machine (LSTD-ELM), and better accuracy than the least-squares temporal difference learning algorithm based on radial basis functions (LSTD-RBF).

reinforcement learning; activation function; recursive least-squares methods; function approximation; generalized Hop-world problem

10.11949/j.issn.0438-1157.20161555

TP 29

0438—1157（2017）03—0916—09

國家自然科學基金項目(61573051，61472021)；軟件開發環境國家重點實驗室開放課題(SKLSDE-2015KF-01)；中央高校基本科研業務費專項資金項目(PT1613-05)。

2016-11-03收到初稿，2016-11-08收到修改稿。

聯系人：賀彥林。第一作者：徐圓（1983—），女，博士，副教授。

2016-11-03.

HE Yanlin, associate professor, xyfancy@ 163. com

supported by the National Natural Science Foundation of China (61573051, 61472021), the Open Fund of the State Key Laboratory of Software Development Environment (SKLSDE-2015KF-01) and the Fundamental Research Funds for Central Universities of China (PT1613-05).

基于改進ELM的遞歸最小二乘時序差分強化學習算法及其應用

引 言

1 基于改進ELM的RLSTD（λ）算法

2 實驗與結果分析

3 結 論

References

引言

3 結論