什么是深度強化學習：人工智能和深度學習的下一步

2018-03-30 11:28:22JamesKobielus楊勇

計算機世界 2018年10期

James Kobielus 楊勇

強化學習非常適合于監督學習或者無監督學習技術不能勝任的自主決策環境。

在人工智能領域，強化學習一直處于小眾地位。但是，強化學習過去幾年中已經開始在很多人工智能項目中發揮出了很大的作用。其最佳應用點是在環境情境化決策場景中計算出代理應采取的最優措施。

強化學習使用試錯方法來最大限度地實現算法獎勵函數，因此，非常適合IT運營管理、能源、醫療、商業、金融、交通運輸和金融等領域的很多自適應控制和多代理自動化應用。它被用來在機器人、游戲和仿真等傳統關注的領域中訓練人工智能，也用于邊緣分析、自然語言處理、機器翻譯、計算機視覺和數字助理等新一代人工智能解決方案。

強化學習也是物聯網自主邊緣應用開發的基礎。對于工業、交通運輸、醫療和消費類應用，大部分邊緣應用開發都涉及到在動態環境下，開發出能夠在不同程度自治情形下運行的人工智能機器人。

強化學習是怎樣工作的

在這樣的應用領域，由于缺少預先存在的“完全真實”的訓練數據集，邊緣設備的人工智能大腦必須依靠強化學習，目的是最大限度地實現累積獎勵函數，例如，根據規范中包含的一組標準來裝配制造組件。這與其他類型的人工智能學習方式形成了對比，其他類型的人工智能通過（例如有監督學習）最小化基于完全真實數據的算法損失函數，或者（例如無監督學習）最小化數據點之間的距離函數來進行學習。

然而，這些人工智能學習方法并不一定是相互孤立的。最有趣的人工智能發展趨勢之一是強化學習與有監督和無監督學習在更高級應用中的融合。人工智能開發人員在應用中混合了這些方法，因為沒有一種單一的學習方法能滿足需求。

例如，如果沒有帶標簽的訓練數據，監督學習本身是無用的，自動駕駛等應用中經常沒有帶標簽的數據，每一次環境的瞬間變化基本上都是沒有標簽的，也是唯一的。同樣的，無監督學習——使用了聚類分析來檢測傳感器饋入數據和其他復雜的無標簽數據中的模式，并不適合用于確定智能端點在實際決策場景中應采取的最佳措施。

什么是深度強化學習

還有深度強化學習，在這種前沿的技術中，自治代理使用強化學習的試錯算法和累積獎勵函數來加速神經網絡設計。這些設計對依賴于有監督和/或無監督學習的人工智能應用有著強大的推動作用。

深度強化學習是人工智能開發和訓練流水線自動化的核心研究領域。深度學習、機器學習和其他人工智能模型的設計人員在確定各種架構、節點類型、連接、超參數設置，以及其他選項時，使用深度強化學習驅動的代理能夠幫助他們迅速弄清楚這些設置的優缺點。

例如，研究人員使用深度強化學習，快速確定哪一種深度學習卷積神經網絡（CNN）架構最適合解決特征工程、計算機視覺和圖像分類等應用中的各種難題。人工智能工具使用通過深度強化學習得出的結果，自動生成最優CNN，針對具體任務，可以使用TensorFlow、MXNet和PyTorch等深度學習開發工具。

在這方面，令人鼓舞的是出現了強化學習開發和培訓的開放框架。當你研究深度強化學習時，表中列出的強化學習框架可以供你參考，這些框架與TensorFlow以及其他深度學習和機器學習建模工具有接口，利用并擴展了這些得到廣泛應用的工具。

人工智能開發人員需要的強化學習技能

展望未來，人工智能開發人員自己也應該沉浸在這些以及其他框架中實現的各種強化學習算法中。還需要加深對多代理強化學習架構的理解，其中很多架構充分利用了已經建立起來的博弈論研究成果。還應該熟悉深度強化學習，將其作為一種工具來識別計算機視覺應用中與“模糊”這種攻擊方法相關的安全漏洞。