999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

仿蝠鲼航行器游動規律智能控制與優化方法

2022-01-19 05:18:10魏旭飛劉洲陽魏先利
數字海洋與水下攻防 2021年6期
關鍵詞:控制策略模型

魏旭飛,劉洲陽,魏先利

(航天科工集團第三研究院水下裝備總體部,北京 100074)

0 引言

海洋中的魚類等生物經歷了億萬年的演化,在水下運動和環境適應能力上展現出優越特性,研究人員“道法自然”,開展了大量仿生水下航行器的研究[1-3]。然而,受限于傳感器、材料、結構和控制等技術,仿生水下航行器相較于真實魚類在許多指標上還有較大差距。以推進效率為例,依靠尾和鰭的協調運動,普通魚類的推進效率可達80%,鲹科魚類則超過90%,而普通螺旋槳推進器的平均效率僅為 40%~50%[4]。因此,如何提高游動性能已經成為仿生水下航行器領域一個重要的科學問題。

游動性能的提升涉及水動力構形、結構機構、驅動方式、運動控制等多學科的優化,是個非常復雜的耦合問題。Anderson設計了升沉和俯仰2個自由度的二維平板擺動實驗,通過測量尾鰭輸入和輸出的功率來計算推進效率,證明了仿生機器魚推進效率優于傳統機械方式[5]。哈工程的蘇玉民團隊從水動力性能出發,通過計算流體力學仿真發現調整弦向變形相位角可以使尾鰭節省能量[6]。中科院自動化所喻俊志團隊從驅動裝置優化的角度出發,設計曲柄滑塊裝置,避免了電機因不斷加速和減速而造成的能量損失,從而提升了性能[7]。北航梁建宏團隊通過水動力學定性觀察和定量測量實驗發現游動能耗會隨著擺動頻率和相對波長的增大而增大[8]。國防科大王光明團隊通過樣機試驗研究了波動鰭條結構、鰭面材料、擺動頻率和波形數目對波動鰭推進效果的影響,發現擺動頻率和幅值對推進性能影響最大[9]。

可以發現,目前仿生游動性能的研究主要采用計算流體力學和樣機試驗方法,通過人為控制各運動參數來探究游動性能的影響因素,獲得的往往是一套固化的游動參數。然而,真實魚類的游動規律會隨著水下環境的變化而變化,若采用固化的游動規律,仿生航行器的表現顯然是差強人意的。為了解決這一問題,本文將采用深度強化學習(deep reinforcement learning,DRL)方法,在初始游動規律的基礎上進一步挖掘仿生航行器游動性能的提升空間,通過仿生航行器的自我試錯,在游動參數空間中學習高效的游動策略。

1 深度強化學習訓練環境

訓練環境主要包括航行器運動特性的模擬,狀態空間、動作空間與回報函數的設計,并承擔著數據歸一化、游動性能評價、回報函數計算等作用。

1.1 仿蝠鲼運動模型

仿蝠鲼航行器通過柔性胸鰭擺動提供矢量推力實現機動航行。胸鰭運動可簡化為沿展向的周期性擺動運動和沿弦向的周期性扭轉運動,其數學描述如下:

式中:下標flap代表擺動;θflap(t)為t時刻的擺動角;Aflap為胸鰭最大擺幅;fflap為胸鰭擺動頻率;φ0flap為胸鰭擺動初始時刻相位,Bflap為胸鰭擺動角偏置;下標twist代表扭轉;θtwist(t)為t時刻的扭轉角;Atwist為胸鰭最大扭幅;ftwist為胸鰭扭轉頻率;φ0twist為胸鰭扭轉初始時刻相位;Btwist為胸鰭扭轉角偏置;Δφ是胸鰭扭轉角初始相位與擺動角初始相位的差值,簡稱扭擺相位差。

1.2 狀態量和動作量設計

仿蝠鲼航行器的游動過程可用馬爾科夫決策過程建模描述。考慮仿蝠鲼航行器智能體與環境的交互軌跡:

式中:st表示t時刻智能體的狀態;at表示t時刻智能體執行的動作。對于深度強化學習而言,選取何種狀態量作為智能體的觀測進行訓練直接影響算法的收斂能力,需要精心設計。為充分描述航行器前向游動狀態,本文選取5維向量st=[dvx,vx,vy,?,wz]作為狀態量,包括期望前向速度與當前前向速度的差dvx、前向速度vx、航行器y軸速度vy、俯仰角?和俯仰角速度wz。其中各參數的取值范圍及含義詳見表1所示。

表1 智能體觀測狀態量Tab.1 Observation variables of the agent

考慮到設計目標是提升航行器直航過程中的游動性能,為了降低問題的維度,減少不必要的試錯成本,本文選用左右胸鰭對稱運動的方式。此外,為降低仿蝠鲼航行器往復的俯仰運動對游動平穩性的影響,設計PD控制器以期望俯仰角為零進行俯仰控制。綜上,本文選取at=[Aflap,Atwist,Δφ]作為智能體的動作量,包括胸鰭擺幅Aflap,胸鰭扭幅Atwist和扭擺相位差Δφ,各動作量的取值范圍和含義如表2所示。

表2 環境模型動作量Tab.2 Action variables of environment model

此外,胸鰭的運動頻率設置為fflap=ftwist=0.5 Hz,擺動角偏置Bflap和扭轉角偏置Btwist設置為 0°。為降低數據的方差,提高深度神經網絡收斂速度,狀態量和動作量在送入深度神經網絡前進行歸一化處理,將其取值歸一化到[-1,1]范圍內。

1.3 回報函數設計

回報函數設計是深度強化學習研究中的重要環節,需要根據任務進行人工設計和調優。本文選用如下的直航游動性能評價方式:

基于上述評價方式,回報函數設計如下:

式中:W為航行器在一個周期內航行所耗費的功;reward0為回報函數基準;0.35是期望速度,m/s。

2 基于DDPG的仿蝠鲼航行器游動性能優化控制

DDPG算法非常適合解決連續動作空間問題[10],在此基礎上,本文利用經驗回放池(replay experience buffer)和預熱輪(warm up)方式提高樣本利用率,改善DDPG的學習能力。

2.1 算法結構

DDPG由4個網絡組成,分別是:Actor當前網絡、Actor目標網絡、Critic當前網絡、Critic目標網絡。為了穩定學習過程,采用軟更新機制更新網絡參數,即

為了增加算法的探索性,DDPG的動作A會增加噪聲N:

Critic當前網絡的損失函數是:

Actor當前網絡的損失函數是:

2.2 訓練樣本

經驗回放池replay buffer的總存儲量1 000 000,在warm up至其中有256個樣本后開始訓練。每批次在 replay buffer中隨機選取 128個樣本進行學習,取訓練總步數為500 000。

2.3 控制模型設計

控制算法模型為多層感知機。Actor網絡采用節點數分別為64和32的兩層全連接隱層,激活函數使用Relu。輸出層選用全連接層,維度為3,激活函數選用 tanh,保證 Actor網絡的輸出在-1~1之間。Actor網絡使用Adam優化器進行參數優化,學習率0.001。

Critic網絡采用節點數分別為64和32的兩層全連接隱層,激活函數使用Relu。輸出層為狀態-動作值Q,維度為1。Critic網絡使用Adam優化器進行參數優化,學習率0.001。

同經典 DDPG算法一致,本文使用目標網絡增強神經網絡收斂的穩定性,取更新系數τ= 0.001。在控制策略探索方面,為保證算法具有一定的探索性,在歸一化的動作量上添加期望為 0,方差為ε= 0.1的高斯噪聲。

2.4 訓練周期

仿蝠鲼航行器選取 0.5 Hz的胸鰭運動頻率,胸鰭控制信號 1 s更新一次,尾鰭控制信號 0.1 s更新一次。為了更加準確地評估胸鰭運動方式對游動性能的影響,強化學習的步長與胸鰭運動周期保持一致。航行器運動5個周期構成一次訓練輪次。

2.5 終止條件設計

每輪訓練的終止條件是完成全程航行或失穩。

完成全程航行主要根據該輪次的終止時間判斷,若終止時間等于該輪次的設計航行總時間則判定航行器成功完成全程航行。

失穩判定主要依據姿態角和速度,標準為

當一輪訓練終止而當前訓練總步數未達設計訓練總步數時,重置環境,開始新一輪訓練。

3 訓練及仿真試驗結果

3.1 訓練結果分析

訓練持續2 000步左右時模型收斂,繼續訓練到45 000步提前終止訓練,圖1為訓練過程中回報函數值隨訓練步數變化曲線。

圖1 訓練過程中回報函數值變化情況Fig.1 Variation of train reward during training

圖2為訓練過程中每隔100步進行測試的回報函數曲線,可以看出神經網絡模型的收斂較為穩定,即使因為隨機樣本導致學習偶爾進入局部最優也能很快恢復到較好的水平。

圖2 訓練過程中測試時的回報函數值變化情況Fig.2 Variation of evaluate reward during training

3.2 控制結果分析

為評估神經網絡控制模型的控制效果,首先考察基準控制策略的控制效果。以擺幅30°,扭幅30°,相位差90°這一固化游動控制策略作為基準進行控制仿真。仿真中取初速度0.35 m/s,仿真40 s,過程中狀態量變化情況如圖3所示。從圖中可以看出,航行器平均速度約為0.32 m/s,俯仰角在±30°以內。

圖3 基準控制策略下系統狀態變化情況Fig.3 System state variation during baseline swimming strategy

圖4展示了胸鰭擺動和扭轉運動的實際變化情況,其中上方為實時控制指令,下方為經過舵機模型后的實際執行指令,相比實時控制指令存在一個較小的延遲。可以看出,航行器胸鰭擺動和扭轉均以正弦形式運動,運動曲線平滑連續。

圖4 基準控制策略控制擺幅和扭幅實際值Fig.4 Variation of the amplitude of flap and the amplitude of twist during baseline swimming strategy

經統計,在基準游動控制策略下,航行器平均速度0.325 7 m/s,游動能效為0.052 7 m/J。

接下來驗證基于DRL的控制模型。令航行器以初速度0.35 m/s開始航行40 s,完成任務后查看航行狀態,統計平均游速和游動能效值。

圖5展示了收斂后的神經網絡模型控制狀態變化。從圖中可以看出,航行器平均速度在0.4 m/s附近,俯仰角保持在±40°以內。3個執行機構的可控維度均參與了控制,擺幅在12°~30°之間變化,扭幅變化不大,基本維持在 30°附近,相位差在125°~180°之間變化。

圖5 神經網絡模型系統狀態變化情況及動作量)Fig.5 The variation of system state and action during NN-based swimming strategy

圖6展示了胸鰭擺動和扭轉運動的實際變化情況,其中上方為實時控制指令,下方為經過舵機模型后的實際執行指令。可以看出,航行器胸鰭擺動和扭轉均以正弦形式運動,運動曲線在指令切換時存在較小的抖動但仍處于可用狀態。

圖6 神經網絡模型控制擺幅和扭幅實際值Fig.6 The variation of flap amplitude(left)and twist amplitude(right)during NN-based swimming strategy

經統計,在基于DDPG的游動控制策略下,航行器平均速度0.372 8 m/s,游動能效為0.065 6 m/J。相比基準游動控制策略,航行速度提升0.047 1 m/s(14.46%),游動能效提升0.012 9 m/J(24.48%)。

4 結束語

本文從控制策略優化的角度出發,以仿蝠鲼航行器為研究對象,使用基于DDPG的DRL方法對直航游動規律進行優化。訓練完成后與固化的游動策略進行了比較,在 40 s的游動時間內,優化后的游動策略在航行速度上相比基準游動控制策略提升了14.46%,在游動能效上降低了24.48%,在降低能量消耗的同時獲取了更快的前向游速,從而實現了游動性能的提升。該方法同樣適用于其他仿生推進方式的水下航行器游動規律優化設計。

猜你喜歡
控制策略模型
一半模型
考慮虛擬慣性的VSC-MTDC改進下垂控制策略
能源工程(2020年6期)2021-01-26 00:55:22
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
工程造價控制策略
山東冶金(2019年3期)2019-07-10 00:54:04
現代企業會計的內部控制策略探討
消費導刊(2018年10期)2018-08-20 02:57:02
3D打印中的模型分割與打包
容錯逆變器直接轉矩控制策略
基于Z源逆變器的STATCOM/BESS控制策略研究
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 亚洲天堂.com| 波多野结衣中文字幕久久| 国产精品男人的天堂| 尤物亚洲最大AV无码网站| 国产麻豆91网在线看| 无码内射中文字幕岛国片 | 亚洲色无码专线精品观看| 成人国产免费| 免费无码在线观看| 国产高潮流白浆视频| 色综合成人| 色婷婷在线影院| 久久久久亚洲AV成人网站软件| 狠狠色综合久久狠狠色综合| 四虎成人在线视频| 高清色本在线www| 日本五区在线不卡精品| 日韩欧美国产另类| 国产综合网站| 欧美一区二区啪啪| 日韩国产亚洲一区二区在线观看| 精品免费在线视频| 伊人色在线视频| 亚洲成人精品在线| 亚洲最猛黑人xxxx黑人猛交 | 精品久久久久成人码免费动漫 | 人与鲁专区| 永久免费AⅤ无码网站在线观看| 全午夜免费一级毛片| 国产xxxxx免费视频| 99国产精品免费观看视频| 国产第一福利影院| 国产福利拍拍拍| 国产又黄又硬又粗| 国产粉嫩粉嫩的18在线播放91| 在线精品亚洲一区二区古装| 国产视频欧美| 欧美日韩专区| 丁香婷婷综合激情| 日韩A∨精品日韩精品无码| 久久精品视频一| 国产精品伦视频观看免费| 久久综合九色综合97网| 亚洲国产精品成人久久综合影院| 亚洲日本一本dvd高清| 日韩中文精品亚洲第三区| 国产精品所毛片视频| 99国产精品国产| 无码精品一区二区久久久| 伊人大杳蕉中文无码| 无码内射在线| 少妇人妻无码首页| 欧美自慰一级看片免费| 中文无码伦av中文字幕| 一区二区影院| 狠狠躁天天躁夜夜躁婷婷| 亚洲综合一区国产精品| 91原创视频在线| 亚洲欧洲日韩综合| 好吊日免费视频| 91精品小视频| 成人午夜网址| 亚洲午夜国产精品无卡| 亚洲永久色| 国产超碰在线观看| 亚洲精品国产日韩无码AV永久免费网 | 国产在线小视频| 亚洲日韩在线满18点击进入| 色悠久久久| 无码区日韩专区免费系列| 国产成人综合网| 国产h视频免费观看| 久久国产精品无码hdav| 黄色网页在线播放| 国内丰满少妇猛烈精品播| 国产免费好大好硬视频| 精品福利视频导航| 极品私人尤物在线精品首页| 在线观看国产精品日本不卡网| 999国内精品久久免费视频| 久久精品亚洲中文字幕乱码| 一级一级一片免费|