999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度強化學習的固高直線一級倒立擺控制實驗設計

2023-04-29 00:00:00馮肖雪謝天溫岳李位星
科技資訊 2023年23期

作者簡介:馮肖雪(1988-),女,博士,副教授,主要研究方向為自適應控制與人工智能。

摘要:為適應各高校人工智能專業學生對于機器學習領域的學習需求,同時兼顧固高科技直線一級倒立擺控制系統可操作性、實時性和安全性,本論文設計了一套基于深度強化學習的固高直線一級倒立擺控制實驗方案。首先采用深度強化學習算法的無模型控制結構搭建控制器并進行虛擬仿真實驗??紤]倒立擺電機驅動刷新頻率的限制以及提高樣本處理速度,進一步設計了基于離線Q學習算法的平衡控制器實現倒立擺實物穩定控制。該實驗方案既加深了學生對人工智能領域知識的理解,也適應了固高科技直線一級倒立擺的應用場景。

關鍵詞:直線一級倒立擺" "深度強化學習" "DQN算法" "Q學習算法

中圖分類號:TP319" " " " "文獻標識碼:A

Abstract: In order to meet the learning needs of students majoring in artificial intelligence in colleges and universities in the field of machine learning, and take into account the operability, instantaneity and safety of the linear single inverted pendulum control system of Googol Tech, this paper designs an experimental plan for Googol’s linear single inverted pendulum control based on deep reinforcement learning. Firstly, this paper uses a model-free control structure of the deep reinforcement learning algorithm to construct a controller and conduct virtual simulation experiments. Considering the limitation of the refresh frequency driven by the inverted pendulum motor and the improvement of sample processing speed, it further designs a balance controller based on the offline Q-Learning algorithm to achieve the physical stability control of the inverted pendulum. This experimental plan not only enhances studnets’ understanding of the knowledge in the field of artificial intelligence, but also adapts to the application scenario of the linear single inverted pendulum of Googol Tech.

Key Words: Linear single inverted pendulum; Deep reinforcement learning; DQN algorithm; Q-Learning algorithm

倒立擺控制系統是一種典型的高階次、非線性、多變量、強耦合的自不穩定系統。對倒立擺系統的研究能有效地反映控制中的許多典型問題, 如非線性問題、穩定性問題、魯棒性問題、隨動問題、鎮定問題和跟蹤問題等,其控制方法在一般工業領域應用廣泛,因此對其進行研究具有一定的理論和實際意義。

常見的控制方法主要有根軌跡、頻率響應、PID、模糊控制或BP神經網絡等控制器[1-4]。PID 控制需要借助控制經驗來調整參數,對設計人員的理論和應用能力要求較高;模糊控制中的模糊控制器需要人為建立模糊表,對于連續動作控制具有局限性;BP神經網絡中網絡參數的學習和更新需要借助完整的控制模型生成訓練數據。近年來,強化學習作為機器學習研究領域的一個熱門方向,吸引了眾多研究學者的關注,高校學生也對以強化學習為代表的機器學習方法表現出濃厚的興趣。強化學習通過智能體與環境的交互作用,從中汲取經驗以自學習的方式不斷更新改進控制策略,逐步達到最優或近優控制效果[5]。由于強化學習具有優秀的學習、尋優、決策能力,因而在人工智能領域收獲了大量關注,并因此被廣泛應用于模擬仿真、機器人行走控制、圖像控制游戲等領域。

目前大多數高??蒲性核少彽膶嶒炘O備為固高科技有限公司生產的倒立擺,由于固高直線一級倒立擺硬件驅動板卡以及電機驅動刷新頻率等諸多限制,尚無法直接實現深度強化學習算法的倒立擺平衡控制。為了滿足人工智能專業學生了解機器學習方法的期望,同時適應現有實驗設備的應用需求,本論文設計了一套基于深度強化學習的直線一級倒立擺實驗方案。方案首先采用深度Q網絡(Deep Q Network, DQN) 深度強化學習算法的無模型控制結構搭建控制器并進行虛擬仿真實驗??紤]到虛擬仿真環境和實際系統執行效果的差異性,進一步設計了基于離線Q學習算法的平衡控制器實現倒立擺實物穩定控制。通過該實驗方案的設計,既滿足了學生學習人工智能領域知識的需求,也適應了固高科技直線一級倒立擺的應用場景。

1" 倒立擺系統數學建模

本文采用固高科技有限公司的直線一級倒立擺為研究對象,其結構主要由一根導軌、一個小車和一個擺桿組成,通過轉軸進行連接。該裝置中有兩個光電編碼器,分別用來測量小車位移和擺桿角度。小車能夠在電機、皮帶輪、傳動帶作用下在水平導軌上來回運動,擺桿能夠在鉛垂面內自由轉動。忽略空氣阻力和各種摩擦,可將直線一級倒立擺系統抽象成小車和勻質桿組成的系統,如圖1所示。根據圖中所示,為小車位移;為擺桿與鉛垂方向的夾角;為小車的質量;為擺桿的質量;為擺桿繞質心的轉動慣量;為擺桿小車鏈接點到擺桿質心的距離,為擺桿的長度;為小車與導軌間的滑動摩擦系數,為加在小車上的外力。

倒立擺機械部分遵守牛頓運動定律,因此可以應用牛頓力學來建立系統的動力學方程。分析小車水平方向所受的合力,可以得到以下方程:

2 強化學習-Q學習算法原理和實現

Q學習于1989年由Watkins提出。這一方法不需要得到環境的具體情況,也就是不需要對環境進行詳細建模,只考慮狀態和獎勵值,是無模型(model-free)的方法。它將lt;狀態,動作gt;對映射為期望返回值的動作的價值函數,是求解信息不完整馬爾科夫決策問題的一種方式。Q學習根據值迭代思想,提出了一種更新Q值的辦法:

雖然式(14)由值迭代計算出目標Q值,但是并不將這個Q值(估計值)直接賦給Q,而是采用漸進的類似梯度下降的方式,逐步接近目標;漸進的速度取決于取值的大小。這種類似梯度下降的方式能夠減少估計誤差對學習效果產生的影響。

Q學習生成動作的策略有兩種類型,隨機策略和貪婪策略(greedy policy),前者將會生成新的未知回報的動作,后者根據當前Q值選擇已知動作集合中的最優動作。下式所示為貪婪策略。

探索未知的動作空間,即使擴大搜索試圖找到更優的動作即為探索(exploration),這種策略有利于更新Q值以獲得更好的策略;而使用貪婪策略則是利用(exploitation)已有的經驗選擇獎勵值最大的動作[6]。相較于隨機策略,貪婪策略因為無法探索而不能得到更優解,但可以得到更好的測試效果,適合用于判斷算法是否有效。綜合以上兩種策略的優點,可以得到策略。一般取一個較小的值,作為選取隨機動作的概率值,即:每一步以的概率選擇隨機動作,以的概率利用貪婪策略選擇當前狀態下的最大Q值。因此,通過更改的值,算法能夠實現不同的探索和利用的比例。這種方法相較于直接使用貪婪策略而言具有更好的探索性,能夠在一定程度上避免算法陷入局部最優解。Q學習算法的一般流程如下所示:

(1)初始化,即為分配一個初始值,產生這個值的策略可以是任意的。

(2)重復執行以下操作,直至滿足任務結束條件:①設當前環境狀態為;②在Q表格中選擇一個動作,使得對應的有最大值;③執行動作;④將在狀態下執行動作后獲得的獎勵值設為結果;⑤根據式(14)更新的值,同時進入下一個狀態。

通過上述Q學習算法基本步驟,可以得到獎勵值的最優值。Watkins和Dayan先前已經證明:只要所有的動作在所有的狀態下被重復抽樣,并且以離散形式表示動作值,那么Q學習就會以概率1收斂到最優動作值。

3" 深度強化學習-DQN算法原理和實現

深度強化學習將深度神經網絡引入傳統強化學習中,期望實現從感知(perception)到動作的端對端學習[7]。深度強化學習可以直觀理解為對人類學習活動的模擬,來自環境的感知信息(如視覺等)被深度神經網絡(Deep Neural Network, DNN)處理后,直接輸出為動作[8]。深度強化學習的出現使得機器人具備完全自主的學習的潛力。傳統強化學習受到對動作空間和樣本空間維度的限制,一般更適用于離散化的場景;然而,現實世界中的工程情況往往更為復雜,有巨大的狀態空間和連續的動作空間。當有高維數據輸入時,傳統強化學習難以處理。相比之下,深度強化學習則把深度學習處理高維數據的能力與強化學習的決策能力結合起來,可以解決傳統強化學習難以解決的問題。深度學習能實現對環境信息的直接感知,將觀察到的信息處理后傳遞給智能體,供其決策并執行動作,再從環境中接收反饋的獎勵值以修正并更新更新其現有策略,最終找到最優策略并實現目標。深度強化學習的理論模型圖如圖2所示。

深度Q網絡(Deep Q Network, DQN)模型是深度強化學習算法中的典型代表,其將卷積神經網絡(Convolutional Neural Network, CNN)與傳統強化學習相結合。DQN算法偽代碼如圖3所示。

相較于Q學習算法,DQN算法做了如下一些改進。(1)引入了經驗回放機制。每次訓練中,從經驗池中隨機選擇小批樣本,并使用隨機梯度下降算法更新網絡參數。這一方法通過隨機采樣降低了樣本間的相關性,提高了算法穩定性。(2)利用深度卷積網絡作為函數近似器,表示當前的值函數,使用一個單獨的網絡生成目標Q值。(3)將獎勵值和誤差限制在有限的區間內,以此來保證Q值和梯度值都在合理范圍內,提高算法的穩定性。

4 實驗結果和分析

本文以固高科技公司生產的直線一級倒立擺為控制對象,倒立擺的實際系統參數如表1所示。仿真實驗部分采用Matlab實現,Matlab實驗參數設置如表2所示。

4.1" 直線一級倒立擺平衡控制仿真實驗

首先參考硬件系統的數學模型,結合實際物理系統的給定參數,對一級直線倒立擺系統進行數值仿真建模,并使用四階龍格庫塔法(Runge-Kutta)求解常微分方程,實現倒立擺的Matlab仿真。此外,需要自行設定平衡控制過程中小車位移和擺桿角度的閾值,編寫倒立擺系統狀態初始化函數、訓練終止函數、獎勵值生成函數。

4.1.1神經網絡結構搭建

使用trainlm訓練函數,其基于Levenberg-Marquardt優化方法更新權重和偏置的值,這是一種最小二乘法,能實現網絡的能量函數(誤差函數)最小化。所設計的神經網絡的輸入層神經元數量為4,對應狀態變量的4個維度;設計兩層隱含層,每層分別包含10和20個神經元;輸出層對應智能體的行為空間,因此神經元數量即行為數量,為2個。該神經網絡模型訓練后,能夠實現輸出的預測。在模型上調用函數時,模型將根據訓練的數據預測當前狀態的獎勵值。

4.1.2 DQN算法設計

首先編寫神經網絡訓練函數,從隨機產生的倒立擺系統的lt;狀態,動作gt;對訓練神經網絡:在每個情節中,先使用構成4×64的隨機矩陣作為神經網絡的輸入,并將其隨機分為train、validation、test三部分以訓練合適的神經網絡,并把相應的數據保存至經驗池(buffer)中;然后編寫經驗回放函數,對經驗池中的數據進行隨機采樣,構成小批量(minibatch),將倒立擺系統的狀態作為神經網絡的輸入,并利用minibatch中的數據測試訓練好的神經網絡的預測輸出是否準確,即是否能夠實現倒立擺系統的平衡控制。

實驗過程中首先初始化神經網絡參數,然后每次實驗中將得到的樣本(s,a,r,s')全部存入經驗池中,以便神經網絡模型進行隨機采樣訓練。倒立擺平衡控制實驗與神經網絡模型的訓練同步進行,每個情節中先利用隨機產生的數據對神經網絡進行訓練,再測試訓練好的網絡是否能預測倒立擺系統的輸出。圖4所示是可視化的仿真倒立擺系統平衡控制結果示意圖,圖5所示是100個情節中的部分倒立擺控制測試結果。可以發現學習率0.1較為理想,僅經過約2epoch訓練即達到收斂。

4.2 固高直線一級倒立擺實物控制實驗

考慮到固高直線一級倒立擺電機驅動刷新頻率的限制,而DQN無法滿足控制系統實時性的需求,同時考慮到硬件系統手動起擺的過程遠不如仿真時可靠,對倒立擺進行實物控制實驗采用Q學習算法進行控制。實驗流程為:首先根據實物倒立擺系統的參數建立仿真模型,為了便于收斂,將連續的狀態和動作空間離散化,Q表格的規模即為狀態數×動作數;接下來使用強化學習方法訓練Q表格,直到在很長的周期內倒立擺都保持穩定。在實物系統中先手動起擺,再使用LQR方法使倒立擺系統初始狀態為擺桿向上的狀態,然后切換為強化學習控制器,使用離線訓練好的Q表格進行控制。算法核心的獎勵函數設定為倒立擺保持穩定的時間周期數,即這個周期數的大小可以用于評價訓練結果的好壞。圖6和圖7分別展示了離線訓練中的部分樣本結果。實驗結果證明,通過調整系統離線訓練的參數改善訓練效果,能夠實現一級直線倒立擺硬件系統的平衡控制,即該方案可行。

圖8和圖9分別為使用離線訓練得到的Q表格實現硬件系統平衡控制過程中擺桿角度和小車位移的變化。

進一步分析系統抗干擾性能,給倒立擺系統施加小擾動觀察其是否能快速穩定。圖10所示為系統受到(約0.2弧度)左右小角度擾動時的擺桿角度輸出。從圖中可以看出,施加干擾后,系統能在1s內迅速穩定。圖11為倒立擺系統穩定的實物圖。

5 結語

本文基于固高公司直線一級倒立擺搭建了基于深度強化學習的倒立擺控制實驗方案。該實驗方案采用DQN實現仿真實驗,考慮倒立擺電機驅動刷新頻率高的限制以及實物控制安全性,為提高樣本處理速度同時減少樣本的復雜性,設計了基于離線Q學習算法的平衡控制器實現倒立擺實物控制。該實驗方案設計既加深了學生對于人工智能領域深度強化學習算法的了解,也兼顧了實物控制系統可操作性、實時性和安全性的考慮。

參考文獻

[1] 王曉光.倒立擺系統的建模及魯棒控制研究[D].青島:青島科技大學,2022.

[2] 蔣凌云,徐炳吉,張峰華,等.直線二級倒立擺的一種穩定控制算法研究[J].計算機仿真,2023,40(2):314-320.

[3] 虞俊豪.一階并聯旋轉雙倒立擺系統的EFC/LQR雙模態控制[D].大連:大連理工大學,2022.

[4] 紀勝昊.兩足輪腿機器人系統研制及模型預測控制方法研究[D].哈爾濱:哈爾濱工業大學,2021.

[5] 劉全,翟建偉,章宗長,等.深度強化學習綜述[J].計算機學報,2018,41(1):1-27.

[6] 何衛東,劉小臣,張迎輝,等.深度強化學習TD3算法在倒立擺系統中的應用[J].大連交通大學學報,2023,44(1):38-44.

[7] 孫彧,曹雷,陳希亮,等.多智能體深度強化學習研究綜述[J].計算機工程與應用,2020,56(5):13-24.

[8] HESSEL M, MODAYIL J, VAN HASSELT H, et al. Rainbow: Combining improvements in deep reinforcement learning[C]//Thirty-second AAAI conference on artificial intelligence, 2018.

主站蜘蛛池模板: 亚洲综合国产一区二区三区| 无码精品国产VA在线观看DVD| 99久久性生片| 久久久久国色AV免费观看性色| 欧美不卡视频一区发布| 日韩精品成人在线| 国产色爱av资源综合区| AⅤ色综合久久天堂AV色综合| 成人第一页| 无码人中文字幕| 久久精品国产在热久久2019| 欧洲免费精品视频在线| 精品一区二区三区无码视频无码| 凹凸国产分类在线观看| 国产精品高清国产三级囯产AV| 黄色在线网| 国产91在线|日本| 五月天在线网站| 色综合五月婷婷| 亚洲天堂日韩在线| 午夜免费视频网站| 色综合成人| 91久久青青草原精品国产| 免费国产不卡午夜福在线观看| 久久精品最新免费国产成人| 亚洲中文字幕无码mv| 青青操国产| 久操线在视频在线观看| 成人在线观看一区| 999国产精品| h视频在线观看网站| jizz国产在线| 亚洲精品无码抽插日韩| 国产啪在线91| 在线亚洲精品福利网址导航| 国产一区二区三区精品欧美日韩| 在线亚洲小视频| 久久伊人久久亚洲综合| 18禁高潮出水呻吟娇喘蜜芽| 国产成人无码Av在线播放无广告| 无码国内精品人妻少妇蜜桃视频| 亚洲国产精品成人久久综合影院| 国产精品网址在线观看你懂的| 国产一级毛片在线| 无码日韩精品91超碰| 五月婷婷亚洲综合| 99re在线视频观看| 国产福利大秀91| 国内黄色精品| 国产乱视频网站| 国产99欧美精品久久精品久久| 亚洲九九视频| 色综合综合网| 亚洲无码高清免费视频亚洲| 日韩欧美国产三级| 丁香综合在线| 中日韩一区二区三区中文免费视频| 亚洲黄色高清| 激情乱人伦| 精品一区二区无码av| 一区二区三区毛片无码| 在线va视频| 精品国产成人国产在线| 中文字幕2区| 伊人成人在线视频| 思思99思思久久最新精品| 国产福利观看| 国产激情无码一区二区三区免费| 中文字幕伦视频| 色老头综合网| 亚洲日本中文字幕天堂网| 国产本道久久一区二区三区| 秋霞午夜国产精品成人片| 国产尤物在线播放| 大乳丰满人妻中文字幕日本| 欧美爱爱网| 手机在线免费毛片| 欧美激情视频一区| 欧美不卡视频在线| 国内a级毛片| 久久国产V一级毛多内射| 国内丰满少妇猛烈精品播|