吳英萍 耿江濤 熊曉波 余雪蓮


【摘? 要】深度強化學習引發了人工智能領域的革命性突破,成為問題解決的通用框架。該學習模式將深層神經網絡融入強化學習,不但在圖像識別和自然語言處理等領域取得突破性的進展,更在圍棋等復雜棋類游戲中具有超人的表現。總結歸納深度強化學習模式的優勢在于其具有的6項重要學習機制。然而,這種模式也存在樣本數據有效性低的痛點問題。為此提出情景元深度強化學習的改進技術,力圖解決困擾深度強化學習的慢速和收斂穩定問題。這對深度強化學習技術的實際應用起到有效的推動作用。
【關鍵詞】深度強化學習;學習機制;情景深度強化學習;元學習;人工智能
引言
近幾年人工智能(Artificial Intelligence, AI)的研究取得了革命性的進展。神經網絡(Neural Network)或深度學習(Deep Learning,DL)方法的復興推動了人工智能在圖像識別、自然語言處理和許多其他領域的技術突破。
強化學習(Reinforcement learning,RL)與深度學習相結合,產生的深度強化學習(Deep Reinforcement Learning,DRL)近年也取得了令人驚嘆的成就。特別是在圍棋和象棋等復雜棋類游戲中的超人表現,使其迅速成為人工智能領域的研究熱點。
1.深度強化學習的痛點問題及原因
深度強化學習不是從更明確的教學中學習,而是一套學習獎懲的方法,如圖所示。表面看來,深度強化學習系統的學習方式與人類截然不同。然而深入探究深度強化學習機制的產生背景,則發現深度強化學習系統的學習機制最初來自動物條件的作用研究,并與以多巴胺為中心的基于獎勵學習的神經機制密切相關。特別是深度強化學習系統利用神經網絡學習支持環境的泛化和強大的遷移學習能力,這正是生物大腦的關鍵能力。
1.1深度強化學習存在的痛點問題
然而,由于現實存在的深度強化學習系統的樣本數據有效性低這一痛點問題,使得大多數深度強化學習系統運行太慢。典型的實例是,為了在國際象棋及圍棋之類的任務上,深度強化學習系統獲得人類專家級的水平,DRL系統需要比人類專家本身多許多數量級的訓練數據。若將樣本效率定義為一個學習系統達到任何選定的目標性能水平所需的數據量,則在樣本效率方面,人類學習與深度強化學習存在顯著的差異。換言之,深度強化學習的樣本效率極低,無法為人類的學習提供一個合理的模型。
1.2深度強化學習痛點問題的原因
深度強化學習中系統收斂速度慢、樣本效率低是其痛點問題,歸結其原因是:
首要原因是參數增量小步長調整的要求。在人工智能研究中廣泛使用的深度強化學習系統都使用神經網絡來連通從感知輸入到動作輸出,采用梯度下降法對參數進行迭代更新直到收斂。正如不僅在人工智能領域,而且在心理學領域廣泛討論的那樣,在這種學習形式中所做的參數增量調整必須很小,以便最大限度地收斂和泛化。如果參數增量過大,導致覆蓋早期學習的效果,出現災難性干擾會導致神經網絡無法收斂不穩定的情況。深度強化學習中對參數增量小步長調整的需求是DRL系統緩慢的原因。
第二個原因是弱偏置假設。學習理論闡明,任何學習過程都必然面臨偏置假設與方差的權衡。學習過程中需要學習的模式的初始偏置假設越強,即模型的假設空間越小且與實際數據中的內容匹配,學習過程的初始模型正確度越高,完成學習所需的數據就越少。反之,如果學習過程中需要學習的模式的初始偏置假設較弱,即模型的假設空間越大,就能夠適合更廣泛的模式且允許更大的方差,但通常導致樣本效率較低。重要的是,深度強化學習使用的泛型神經網絡是一種極弱偏置假設的學習系統,即模型的假設空間極大,模型有許多表征連接權重的參數,且使用這些參數來擬合廣泛的數據。正如偏置假設與方差權衡所決定的,這表明普通的深度強化學習模型中采用的一般形式的神經網絡往往樣本效率低下,需要大量的數據來學習。
2.深度強化學習重要機制
深度強化學習能夠解決諸多人工智能領域的現實問題,成為通用的問題解決框架,是因為存在以下發揮重要作用的機制,包括注意和記憶、無監督學習、轉移學習、多智能體強化學習、分層強化學習和習得學習等機制。
2.1注意力和存儲機制
這是一種專注于突出部分的機制。存儲器提供長時間的數據存儲,而注意力聚焦則是存儲器尋址的一種方法。
可微神經計算機(Differentiable Neural Computer, DNC)中的神經網絡可以對外部存儲器進行讀寫,因此DNC就可以解決復雜的結構化問題,而沒有讀寫存儲器的神經網絡無法解決這些問題。DNC將內存分配干擾降至最低,并支持長期存儲。與傳統計算機類似,在DNC中,神經網絡是控制器,外部存儲器是隨機存取存儲器;DNC用存儲器來表示和操作復雜的數據結構。不同的是,DNC以一種目標導向的方式,通過梯度下降從數據端到端地學習這種表示和操作。在有監督學習的訓練下,DNC可以解決自然語言推理和推理中的綜合問答問題;它可以解決交通網絡中兩站之間的最短路徑發現問題和家譜中的關系推理問題。當使用強化學習訓練時,DNC可以解決由符號序列指定的目標變化的移動塊難題。在進行的小規模實驗中,DNC的表現優于正常的神經網絡,如長短時記憶網絡(Long Short Term Memory networks, LSTM)或DNC的前體神經圖靈機。可以預期DNC能得到進一步的改進和應用。
2.2無監督學習機制
無監督學習是一種利用海量數據的方法,是實現通用人工智能的關鍵機制。無監督學習分為非概率模型,如稀疏編碼、自動編碼器、k-Means等,以及概率(生成)模型,其中涉及密度函數(顯式還是隱式)。在具有顯式密度函數的概率(生成)模型中,有些具有可跟蹤模型,如完全可觀測的信念網和神經自回歸分布估計器等;有些具有不可跟蹤模型,如Botlzmann機、變分自編碼器、Helmhotz機,對于具有隱式密度函數的概率(生成)模型,則有生成對抗網絡(Generative Adversarial Networks, GANs)、矩匹配網絡等。
Horde值函數:采用一般價值函數表示知識,其中策略、終止函數、獎勵函數和終端獎勵函數是參數。這是一種可擴展的實時體系結構,用于從無監督的感覺運動交互作用(即無向信號和觀察)中學習獨立智能體的一般值函數。Horde值函數可以學習預測許多傳感器的值,并使用一般的值函數來最大化這些傳感器值的策略,來回答預測性或目標導向的問題。Horde值函數是非策略的,即在遵循其他行為策略的同時進行實時學習,并采用基于梯度的時差學習方法進行學習,每一時間步的時間和內存復雜度都是恒定的。
輔助學習:環境可能包含豐富的可能訓練信號,有助于加速實現累積獎勵最大化的主要目標,例如像素變化可能暗示重要事件,輔助獎勵任務有助于實現獎勵狀態的良好表示。當外在的獎勵信號很少被觀察到時,這有很大的幫助。無監督強化學習和輔助學習(UNsupervised REinforcement and Auxiliary Learning, UNREAL)可以提高學習效率,除了通常的累積獎勵外,還通過最大化偽獎勵函數來提高學習效率,同時共享一個共同的表征。UNREAL由RNN-LSTM基代理、像素控制、獎勵預測和值函數反饋組成。基本智能體通過異步動作者-評判者算法 (Asynchronous Actor Critic, A3C) 策略訓練,觀察、獎勵和行動的經驗被儲存在應答緩沖區中,供輔助任務使用。輔助策略使用基本的卷積神經網絡(Convolutional Neural Network, CNN)和LSTM,加上一個反卷積網絡,使輸入圖像不同區域的像素強度變化最大化。獎勵預測模塊通過觀察后三幀預測下一幀的短期外部獎勵,以解決獎勵稀疏的問題。值函數反饋進一步訓練了值函數。
生成對抗網絡:同時訓練兩個模型,通過對抗過程估計生成模型,生成模型G用于捕獲數據分布,判別模型D用于估計來自訓練數據而非生成模型G的樣本的概率。通過用多層感知器對G和D進行建模,當G和D的訓練數據集有足夠的容量時,生成對抗網可以恢復數據生成分布,并通過小批量隨機梯度下降提供了一種帶反向傳播的G和D訓練算法。
2.3遷移學習機制
傳統的機器學習特別是深度學習只有在特定領域的訓練集數據和測試集數據都來自同一個特征空間和統一分布的時候,學習和應用的效果比較好。因此當應用領域變化和數據集發生變化時,都要重新訓練模型。
遷移學習是指將從不同領域學到的知識進行遷移,新的應用領域可能具有與原來學習和訓練的數據集不同的特征空間和/或不同的數據分布。遷移學習包括歸納遷移學習、轉化遷移學習及無監督遷移學習。歸納遷移學習包括自學學習和多任務學習;而轉化遷移學習包括領域適應和樣本選擇偏置假設/協方差偏移。
目前提出的兩個智能體學習多種技能的多技能問題,定義了用于映射狀態和投射技能執行的公共表示,并設計了兩個智能體最大限度地轉移信息特征空間以轉移新技能的算法,該算法采用相似性損失度量法,自動編碼,強化學習。通過用兩個模擬機器人操作任務已經驗證了這種方法。
2.4多智能體強化學習機制
多智能體強化學習是多智能體系統(Multi-Agent)與強化學習系統的集成,因此處于博弈論與強化學習/人工智能社區的交叉點。除了強化學習中的收斂性和維數爆炸等問題外,還有諸如多重均衡的新問題,甚至還有諸如多智能體學習的問題是什么,收斂到均衡點是否是一個合適的目標等基本問題。因此,多智能體學習在技術和概念上都是一個挑戰,需要清楚地理解待解決的問題、評估標準和連貫的研究過程。
2.5分層強化學習機制
分層強化學習是一種在多個層次上通過時空抽象來學習、規劃和表示知識的方法。分層強化學習也是一種解決稀疏報酬和長期視野問題的方法。專注寫入策略架構 (STRategic Attentive Writer, STRAW)是一種深度遞歸神經網絡架構,用于根據環境觀察結果,以端到端的方式學習高層時間抽象宏觀行為。宏動作是指發生的一系列動作。STRAW建立了一個多步驟的動作計劃,根據觀察到的獎勵定期更新,并通過遵循計劃而無需重新計劃來學習執行計劃的時間。STRAW學會了從數據中自動發現宏動作,這與以前工作中的手動方法不同。
分層DQN(hierarchical-DQN, h-DQN),通過分層組織目標驅動的內在激勵深度強化學習模塊在不同的時間尺度上工作。h-DQN集成了一個頂層的動作值函數和一個較低層次的動作值函數;前者學習一個超過內在子目標或選項的策略;后者學習一個超過原始動作的策略來滿足給定的子目標。
使用帶有信息論正則化器的隨機神經網絡對大跨度的技能進行預訓練,然后在這些技能的基礎上,為下階段任務訓練高級策略。預訓練基于智能體的獎勵信號,這是一種探索智能體自身能力的內在動機,其設計要求對下階段任務領域知識最少。這種方法將層次分析法與內在動機相結合,并且預訓練遵循無監督的方式。此外,還可以采用終身學習的分層深層RL網絡架構,進行學習可重用的技能或子目標,將學習的知識遷移到新的任務中。
2.6習得學習機制
習得學習也被稱為元學習,是學習如何快速適應新的任務。它涉及遷移學習、多任務學習、表征學習和一次/少量/零次(映射)學習。也可以將超參數學習和神經結構設計看作是習得學習,它是實現強人工智能的核心,也是深度強化學習的發展方向。
一次/少量/零次(映射)學習是指在深度學習的訓練集中,每個類別都只有一個或幾個的少量樣本、或者沒有某個類別的樣本,但仍然可以通過習得學習及遷移學習等得到一個映射學習模型,實現對各個類別都有較好的泛化效果。
3.深度強化學習的改進技術
針對第一代深度強化學習模型收斂緩慢的痛點問題及歸因,可以采用以下兩種具體技術,即情景深度強化學習及元學習技術,更進一步,可以將這兩種技術有機融合,構成情景元深度強化學習技術。
3.1情景深度強化學習
考慮到參數增量調整是深度強化學習中收斂速度慢的重要原因,那么一個更快學習的方法則是避免這種增量更新。根據以上的分析,如果單純地提高梯度下降優化的參數增量會導致災難性干擾致使神經網絡無法收斂不穩定的問題。然而,實現此目標可以采用另一種方法,即明確記錄過去的事件,并直接將其作為制定新決策的參考依據。這一概念被稱為情景深度強化學習,與機器學習中的“非參數”方法相似,類似于心理學中的“實例學習”或“范例學習”理論,通過情景記憶快速學習。當遇到新情況時,必須決定采取什么行動,程序是將當前情況的內部表示與過去情況的存儲表示進行比較。然后基于與現在最相似的過去情況的結果,選擇與最大值函數相關聯的行動。當用多層神經網絡計算內部狀態表示時,這種算法稱為“情景深度強化學習”。
在情景深度強化學習中,與標準的增量方法不同,通過每個經驗事件獲得的信息可以立即用于指導行為。然而,盡管早期的深度強化學習方法顯得很“慢”,但是情景性的深度強化學習能夠“快”起來,但是這有一個轉折點:情節性深度強化學習的快速學習嚴重依賴于緩慢的增量學習。這是對連接權重的逐漸學習,允許系統形成有用的內部表示或每個新觀察的嵌入。這些表示的格式本身是通過經驗學習的,使用與標準深度強化學習的主干相同的增量參數更新。最終,情景深度強化學習的速度還是由這種較慢的學習形式實現的。即情景深度強化學習的快速學習是通過緩慢的深度強化學習來實現的。
這種“快速學習對慢學習的依賴”并不是巧合。正如將在下面討論的情況,這是一個基本原則,不但適用于心理學和神經科學,同樣也適用人工智能領域。
3.2元學習:通過學習來加速深度強化學習
如前所述,除了增量更新之外,標準深度強化學習過程收斂緩慢的第二個主要原因是弱偏置假設。正如偏置假設與方差權衡的概念所規定的那樣,快速學習要求學習者對其將要面對的模式結構提出一套合理規模的假設。偏置假設越強,學習的速度就越快。然而,正如前面所預示的問題:一個較強的假設集只有在包含正確假設的情況下才能加快學習速度。雖然強烈的歸納偏置假設可以加速學習,但只有當學習者采用的特定偏置假設恰好與要學習的材料相匹配時,才可以實現這種效果。因此,一個新的學習問題又出現了:學習者如何知道應該采用什么樣的偏置假設呢?
對這個問題的很自然的回答就是借鑒過去的經驗。誠然,在日常生活中也經常發生這種情形。例如,考慮學習使用新智能手機的日常任務。在這種情況下,人們過去使用智能手機和其他相關設備的經驗將告訴他們關于新手機應該如何工作的假設,并將指導其對手機操作的探索。這些最初的假設與偏置假設-方差權衡中的“偏置假設”相對應,這有助于快速學習如何使用新手機。如果沒有這些假設,就必須考慮更大范圍的學習偏置假設。
利用過去的經驗加速新的學習在機器學習中被稱為習得學習。其實這一理念源于心理學,在心理學中它被稱為“元學習”。元學習可以在深度強化學習中加速學習的過程。此時,用一系列相關的強化學習任務對一個遞歸神經網絡RNN進行訓練,RNN網絡中的權重調整得非常慢,因此RNN網絡可以吸收任務之間的共同點,但無法快速更改以支持任何單個任務的解決方案。RNN遞歸神經網絡實現了各自獨立的強化學習算法,該算法基于過去任務積累的知識,能夠快速解決每個新任務。
與情景深度強化學習一樣,元學習又涉及到快速和緩慢學習之間的密切聯系。遞歸網絡中的連接在任務間緩慢更新,允許跨任務的一般原則“嵌入”遞歸網絡的動態。由此產生的RNN神經網絡實現了一種新的學習算法,可以快速解決新問題,因為慢學習的潛在過程賦予了其有用的歸納偏置假設。這里再次看到,快速學習源于慢學習,并由緩慢學習促成。
3.3情景元深度強化學習
以上實現的兩種技術并不相互排斥,這非常重要。事實上,可以整合元學習和情景控制的方法,充分利用它們的互補優勢。在情景元深度強化學習模式中,在遞歸神經網絡RNN中進行元學習。同時,在RNN之上疊加一個情景記憶系統,其作用是恢復重復網絡中的活動模式。與在情景深度強化學習中一樣,情景記憶對一組過去的事件進行編目,這些事件可以基于當前上下文進行查詢。然而,不是將上下文與行動值估計聯系起來,而是將上下文與遞歸網絡內部或隱藏單元中存儲的活動模式聯系起來。這些模式很重要,因為通過元深度強化學習,總結了智能體從與單個任務的交互中學到的模式。在情景元深度強化學習中,當智能體遇到與過去遇到的情況相似的情況時,它將恢復先前遇到的內部設置,允許先前獲得的信息立即影響當前策略。實際上,場景內存允許系統識別以前遇到的任務,檢索存儲的解決方案加以應用。
通過模擬工作和導航任務,顯示出情景元深度強化學習,學會了強烈的歸納偏置假設,使其能夠快速解決新任務。更重要的是,當遇到一個以前遇到的任務時,情景元深度強化學習會立即檢索并重新測試以前發現的解決方案。當遇到新任務時,情景元深度強化學習系統受益于元深度強化學習的快速性;而在第二次及以后的遭遇中,系統又得益于情景控制所賦予的一次性學習能力。
4.結語
深度強化學習(DRL)方法的突破推動了人工智能領域令人可喜的進步。深度強化學習的6種重要的學習機制以及2項改進技術,克服了模型收斂速度慢和樣本效率低下的痛點問題,使深度強化學習模式在眾多的領域能夠卓有成效的應用。在教育領域,深度強化學習在基于教育大數據的教學自動評估中發揮重要和不可替代的作用。
參考文獻
[1] BOTVINICK M, RITTER S, WANG J X, et al. Reinforcement Learning, Fast and Slow [J]. Trends in Cognitive Sciences,?2019, 23(5): 408-22.
[2]萬里鵬, 蘭旭光, 張翰博, et al. 深度強化學習理論及其應用綜述 [J]. 模式識別與人工智能, 2019, 32(01): 67-81.
[3] SILVER D, SCHRITTWIESER J, SIMONYAN K, et al. Mastering the game of Go without human knowledge [J]. Nature,?2017, 550(7676): 354-+.
[4] SILVER D, HUBERT T, SCHRITTWIESER J, et al. A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play [J]. Science, 2018, 362(6419): 1140-+.
[5] ARULKUMARAN K, DEISENROTH M P, BRUNDAGE M, et al. Deep Reinforcement Learning A brief survey [J]. IEEE Signal Processing Magazine, 2017, 34(6): 26-38.
[6] 汪晨,曾凡玉,郭九霞.記憶增強型深度強化學習研究綜述[J].小型微型計算機系統, 2021, 42(03):454-461.
[7] 趙星宇,丁世飛. 深度強化學習研究綜述 [J]. 計算機科學, 2018, 45(07): 1-6.
[8] 秦智慧,李寧,劉曉彤等.無模型強化學習研究綜述[J].計算機科學, 2021, 48(03):180-187.
[9] 孫路明,張少敏,姬濤等. 人工智能賦能的數據管理技術研究 [J]. 軟件學報, 2020, 31(03): 600-19.
[10] 唐浪,李慧霞,顏晨倩,鄭俠武,紀榮嶸.深度神經網絡結構搜索綜述[J].中國圖象圖形學報, 2021, 26(02):245-264.
基金項目:①廣東省教育廳2019年度普通高校特色創新類項目(2019GKTSCX152); ②廣東省教育廳2018年度重點平臺及科研項目特色創新項目(2018GWTSCX030);③廣東省教育廳2018年度省高等職業教育教學質量與教學改革工程教育教學改革研究與實踐項目(GDJG2019309);④廣州涉外經濟職業技術學院2020科研項目重點項目(2020KY02);5.廣州涉外經濟職業技術學院2020年校級質量工程重點項目(SWZL202001)。
作者簡介:吳英萍(1982.10-),講師,學士,廣州涉外經濟職業技術學院計算機應用與軟件技術教研室專任教師。研究方向為軟件技術,人工智能;
*通訊作者:耿江濤(1965.12-),教授,高級工程師,華南師范大學博士生,廣州涉外經濟職業技術學院教育研究院教授。研究方向為大數據應用技術,人工智能,高職教育管理與國際化。
熊曉波(1970.06-),教授,碩士,廣州涉外經濟職業技術學院副校長兼信息工程學院院長。研究方向為計算機科學與技術,高職教育管理。
余雪蓮(1993.06-),助教,學士,廣州涉外經濟職業技術學院計算機應用與軟件技術教研室專任教師。研究方向為軟件技術,人工智能。
1.廣州涉外經濟職業技術學院? ? 廣東廣州? ? 510540
2. 華南師范大學? ? 廣東廣州? ? ?510631