999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

探究磁導航AGV深度強化學習路徑跟蹤控制方法

2020-12-07 08:46:44楊雯
魅力中國 2020年3期
關鍵詞:動作策略

楊雯

(山東愛普電氣設備有限公司,山東 濟南 250101)

引言

自動引導小車AGV(automatedguidedvehicle),是現代物流系統中的重要成員,它具有自動化集成度高、柔性好、可靠性高、自動導航運行、安裝便利及使用方便等特點。AGV的導航方式眾多,包括視覺導航、GPS導航、激光導航、磁帶導引。其中磁帶導引由于實現簡單,造價便宜,抗干擾能力強在工程領域應用最廣。

一、AGV總體結構和控制系統組成

本文設計的磁導航AGV由本體結構、電氣控制單元和傳感器檢測單元三部分組成。AGV本體結構為六輪式結構,由位于車體中部驅動單元的兩驅動輪和前后四個萬向輪組成。兩驅動輪由兩個步進電機通過差速驅動實現AGV直行、轉向、避障等運動。

電控單元中采用西門子S7-200系列PLCCPU224XP作為主控制器,用PTO脈沖輸出方式完成AGV加速啟動和減速停止時的步進電機控制,PWM脈沖輸出方式完成軌跡跟蹤時的電機控制。傳感器檢測單元由用于磁條路徑檢測的磁傳感器和用于避障的超聲波傳感器和接觸式防撞傳感器組成,其中磁傳感器為AGV的“眼睛”,通過讀取磁條獲取小車位置和偏移狀態信息,主控制單元通過對其所得到的信息進行分析,得到不同偏移狀態時的電機控制量,從而達到對AGV準確控制的目的。

二、路徑跟蹤深度強化學習控制策略

路徑跟蹤問題馬爾科夫建模強化學習是一類用于解決馬爾可夫決策過程MDP)問題的算法集合,需將目標任務轉化為MDP問題才能應用強化學習算法。包括4個部分的設計,分別為智能體、狀態空間、動作空間與獎勵函數,智能體在本文中即為第一章所描述的AGV模型。

(一)智能體狀態空間設計

考慮到磁導航AGV通常只能得到磁感應器中心點與磁條中心點的偏差距離這一外界信息。所以在感應信息缺乏的情況下,若只利用傳感器當前的觀測信號作為狀態表示,其狀態表示只能反映AGV車身一點與磁條的距離,并不能體現AGV車身方向與磁條路徑方向之間的夾角。上述問題也被稱為混淆狀態問題,該狀態表示不滿足馬爾科夫特性。于是考慮加入最近N步的歷史狀態共同構建狀態表示。

(二)智能體動作空間設計

由于AGV由轉向驅動輪驅動,因此對AGV的控制輸出為驅動輪轉動力矩與驅動輪轉向力矩,兩個力矩分別控制主動輪的轉速與方向。伺服電機可輸出的力矩范圍是比較大的,若直接使用輸出力矩大小作為智能體的動作輸出空間可能導致兩個問題,其一是由于連續的動作行為是被獨立隨機選擇的所以在訓練的過程中智能體可能會連續輸出兩個差距較大的力矩值,這種情況可能會對電機的使用壽命造成影響,其二是智能體的動作空間越大其訓練的時間也會越長,原因是導致探索的狀態空間變大了。

(三)策略函數參數更新方法

策略函數的更新使用了確定性策略梯度算法。確定性策略的梯度的存在,確定性策略梯度的提出避免了算法在動作空間上的積分計算,使得策略梯度的估計效率大大的超過了隨機策略梯度算法。與隨機策略不同的是確定性策略的動作輸出不存在隨機性,無法對狀態空間進行探索,所以在使用確定性策略算法時需要在輸出動作時加入隨機的探索噪音以實現對狀態空間的探索。

三、算法執行流程

算法在應用前需要進行一段時間的訓練,并在算法收斂后結束該階段。最終得到的策略函數即為將當前AGV的狀態輸入映射為動作輸出的路徑跟蹤控制器。訓練階段結束后只保留策略函數部分作為AGV的路徑跟蹤控制器。基本步驟如下:(1)獲取AGV狀態信號st輸入到策略函數網絡中;(2)策略函數接收輸入狀態信號st后生成動作at作為輸出,在加入探索噪音后返回給AGV執行;(3)AGV執行動作at后得到獎勵rt與下一個狀態st+1,組合前一時刻狀態信號st并加入歷史信號后組成經驗樣本e(St,at,rt,St+1)存儲到大小為1×10 4的經驗緩存池中;(4)從經驗緩存池中隨機采樣一個batch的經驗樣本用于訓練;(5)使用采樣的經驗樣本,用式(12)計算損失函數;(6)通過隨機梯度下降的優化方法最小化損失函數來更新值函數逼近網絡QSt,at|()ω的參數ω;(7)通過確定性策略梯度算法式來更新策略函數網絡μst|()θ的參數θ。

結語

仿真結果及分析路徑跟蹤仿真中使用了兩個半徑分別為6m與4m的圓弧連接3段直線作為跟蹤路徑。首先在訓練階段中,考慮到磁條傳感器的寬度通常為20cm,其最大測量誤差為±10cm。所以將誤差允許范圍限定為±10cm,當AGV的跟蹤誤差大于±10cm時則判定出軌并結束本次跟蹤任務,將AGV重置為誤差在±10cm范圍內的隨機初始狀態,進入下次迭代。AGV每次出軌或是行駛完跟蹤路徑的全程則為一次完整的。在模型性能驗證中,AGV的起點坐標為(9.9.0),初始誤差設置為0.1m,去除探索噪音只保留策略函數部分作為控制輸出。

猜你喜歡
動作策略
基于“選—練—評”一體化的二輪復習策略
下一個動作
求初相φ的常見策略
例談未知角三角函數值的求解策略
我說你做講策略
動作描寫要具體
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
畫動作
讓動作“活”起來
動作描寫不可少
主站蜘蛛池模板: 日韩高清成人| 996免费视频国产在线播放| 露脸一二三区国语对白| 曰韩人妻一区二区三区| 亚洲av无码牛牛影视在线二区| 国产中文一区二区苍井空| 亚洲天堂网在线视频| 天天综合网站| 亚洲欧美日韩动漫| 中国国产高清免费AV片| 国产精品熟女亚洲AV麻豆| 亚洲日韩精品伊甸| 九九九久久国产精品| 国产毛片片精品天天看视频| 尤物亚洲最大AV无码网站| 欧洲熟妇精品视频| 国产午夜一级毛片| 欧美视频二区| 国产精品美女免费视频大全| 成人福利在线视频| 精品福利视频网| 亚洲欧洲日韩综合色天使| 国产天天色| 秋霞午夜国产精品成人片| 欧美69视频在线| 亚洲精品福利视频| 19国产精品麻豆免费观看| 中文字幕乱码二三区免费| 国产午夜福利亚洲第一| 丝袜高跟美脚国产1区| 国产手机在线ΑⅤ片无码观看| 这里只有精品国产| 尤物精品国产福利网站| 久久久久国产一级毛片高清板| 夜夜操国产| 91久久性奴调教国产免费| 亚洲欧洲日本在线| 中国丰满人妻无码束缚啪啪| 亚洲黄网视频| 国产麻豆精品手机在线观看| 无码国内精品人妻少妇蜜桃视频| 中文字幕首页系列人妻| 欧美成人区| 亚洲VA中文字幕| 精品国产免费观看一区| 欧美日本在线| 中国一级毛片免费观看| 91探花国产综合在线精品| AV无码无在线观看免费| 久草青青在线视频| 被公侵犯人妻少妇一区二区三区| 欧美精品H在线播放| 国产成人AV男人的天堂| 日韩欧美综合在线制服| AV不卡国产在线观看| 欧美国产综合色视频| 国产成人91精品免费网址在线| 亚洲第一国产综合| 91精品国产麻豆国产自产在线| 一级不卡毛片| 日韩毛片基地| 国产视频自拍一区| 亚洲国产成人精品无码区性色| 色网站在线免费观看| 天天色综合4| 亚洲h视频在线| 国产一级在线观看www色 | 亚洲精品欧美重口| 欧美国产综合视频| 黄网站欧美内射| 精品国产一区二区三区在线观看| 免费又黄又爽又猛大片午夜| 国产精品手机在线播放| 免费在线国产一区二区三区精品 | 精品一區二區久久久久久久網站 | 亚洲人成人伊人成综合网无码| 久草视频福利在线观看| 91成人在线免费视频| 国产精品一区在线观看你懂的| 亚洲第一在线播放| 熟妇丰满人妻| 久久久久青草大香线综合精品|