增強學習基本模型及其分析

2018-04-03 07:11:13北京市延慶區第一中學李子韓

電子世界 2018年5期

北京市延慶區第一中學　李子韓

1.概述

總所周知的，機器學習主要有監督學習、非監督學習、半監督學習以及增強學習四類。一般具有規則性的行為，我們可以通過監督學習和非監督學習，使智能體習得并掌握這些行為。然而對于一些序列決策或者控制問題，就需要用到增強學。增強學習，主要關注的是智能體和環境之間的交互問題，智能體通過增強學習，可以在當前的狀態下挑選出一個當前回報最高的決策，通過執行當前挑選的最優決策，達到下一個狀態，如此往復，通過執行一系列的決策，從而獲得最終最優的累積回報。

例如，為了指導小狗學會一項新技能這一任務，我們不能告訴小狗它應該去做什么，但是我們可以在小狗做出動作后，判讀動作是否正確，如果動作正確，則給予獎勵；如果動作錯誤，則給予懲罰。經過一系列類似的訓練之后，小狗就可以學習到它做出哪些動作后會得到獎勵，做出哪些動作后會得到懲罰。類似地，我們同樣可以在控制問題中，使用相同的方法訓練智能體學習如何做出決策，獲得最大的累積回報，從而達到決策優化的目的。再以曾經風靡全球的游戲《神廟逃亡》為例。我們的目的是讓智能體學會這款游戲的玩法，但因為游戲的路線是隨機的，所以如果我們直接給其輸入某一固定的路線，是達不到令其學會的這一效果的。此時應用到增強學習，訓練智能體學習如何作出決策，獲得最大的累計回報，即檢測到某一的障礙，智能體會作出選擇，如果在操作后游戲人物死亡，則否定上一步操作；如果游戲繼續，則記錄此操作，并于下次檢測到同樣障礙時作出相同的操作。經過多次否定和記錄，最終智能體可以學會這款游戲的玩法。

圖1　《神廟逃亡》游戲操作界面

2.增強學習的發展與應用

近些年來，增強學習的研究取得了豐碩的成果，對增強學習的研究主要集中在增強學習的理論、增強學習的算法以及增強學習的應用這三個方面[1]。具體的介紹如下：（1）增強學習理論：時序差分學習的收斂性、表格型強化學習的收斂性、強化學習的泛化方法。研究的主要內容是算法的收斂性等基礎理論，比如：時序差分學習的收斂性，表格型增強學習的收斂性等等。（2）增強學習算法：增強學習可以分為非聯想增強學習和聯想增強學習。比較經典的算法有：折扣型回報指標強化學習算法、Q-學習算法、Sarsa學習算法等等。（3）增強學習應用：增強學習是一種不依賴于環境模型和先驗知識的機器學習方法，通過試錯和延時回報機制，結合自適應動態規劃方法，能夠不斷優化控制策略，為系統自適應外界環境變化提供了可行方案。通過將系統建模成馬氏決策過程，在自動控制領域，增強學習方法已成功地實現了單個機器人的優化控制[2]、多機器人系統并行控制等等[3]；如在博弈決策領域，人們利用增強學習方法，已經成功了開發出阿爾法狗——人工智能圍棋程序以及星際爭霸計算機模擬程序等等，此外增強學習方法在比如自動直升機、手機網絡路由、市場決策、工業控制、高效網頁索引、優化和調度等領域都取得了巨大的成功。

3.增強學習的數學模型

首先，基于增強學習問題建立如下模型（為了便于問題的簡化，我們這里建立的環境和智能體的模型都是具有隨機、有限狀態性質的模型）。如圖2所示。

圖2　簡單的增強學習模型

馬爾可夫動態過程可以進一步表示如下：

上述流程圖表示智能體在狀態s0下選擇執行某個動作a0，智能體按照概率Ps0a0隨機轉移到下一個s1狀態，然后再執行一個動作a1，智能體按照概率值Ps1a1轉移到下一個s2狀態，如此往復地進行動作執行和狀態轉移這兩個過程，直達到達最終的終止狀態或者到達最大的狀態轉移步數。

智能體的目標是學習找到一個馬爾可夫策略，即一個從狀態空間到動作空間的映射關系（，表示在當前狀態s下，智能體會根據策略π選擇執行動作a），從而最大化折扣回報加權和的期望。在馬爾科夫決策過程中，如果智能體的起始狀態記為s0，此時智能體根據策略π選擇執行下一個動作a0，執行后智能體的狀態轉移到s1，然后智能體繼續根據策略π選擇執行下一個動作a1，執行后智能體的狀態轉移到s2，按照這種方式執行下去，我們可以得到從起始狀態s開始，所有過程中回報函數的期望和：

我們把（1）式中定義的期望函數Vπ(s)，稱為在起始狀態s下，在給定的策略π下的價值函數（value function）。與價值函數非常類似的另外一個函數便是Q函數（Q-function），給定策略π，它的Q函數定義為：從一個給定的起始狀態s開始，首先采取一個指定的動作a，然后根據策略π采取后續動作得到的所有回報函數的期望和：

從遞推的角度來看，我們可以進一步把上述（1）式子寫成：

因此，上述找最優馬爾可夫策略π的問題可以形式化為求解下述問題——求解最大化V*(s)：

同樣地，我們可以把Q函數寫成上面的表達形式：

同樣，我們定義最優的Q函數如下：

通過求解上述式子（6），我們可以得到最優的決策策略π*和最大的累積回報值。

4.全文總結

通過本文的介紹，我們大致了解了增強學習的基本概念、增強學習適用于解決哪些問題，增強學習的研究領域及主要的應用領域，最后我們通過建立并且簡單地推導增強學習中最簡單的數學模型——隱馬爾科夫模型，加深了對增強學習模型的理解，即增強學習是通過不斷地試錯，學習到一組最優的決策策略，從而獲得最終最大的累積回報的學習過程。

增強學習在許多應用領域都取得了巨大的進展，我們有理由相信，增強學習在今后的發展中，將會進一步推動人工智能領域的發展，給我們的生產生活帶來極大的便利。

[1]陳學松,楊宜民. 強化學習研究綜述[J].計算機應用研究,2010,27(8):2834-2838.

[2]吳軍,徐昕,王健等.面向多機器人系統的增強學習研究進展綜述[J].控制與決策,2011,26(11):1601-1610.

[3]秦志斌,錢徽,朱淼良.自主移動機器人混合式體系結構的一種Multi-agent實現方法[J].機器人,2006,28(5):478-482.