999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

強化學習方法在翼型拍動實驗中的應用

2023-11-02 08:55:20曹博超
空氣動力學學報 2023年9期
關鍵詞:動作效率智能

張 進,周 雷,曹博超

(復旦大學 航天航空系,上海 200433)

0 引言

在傳統的流動控制策略設計方法中,人們通常采用一種知識驅動的邏輯:首先,建立一個數學模型,描述所關注的流體系統;然后,在給定的約束條件下,將優化算法作用于該數學模型,來尋找最優的流動控制策略。然而,這種自上而下的邏輯在面對過于復雜的流動問題或問題的參數空間過大時,會失效或使計算代價變得無法承受[1]。而自然界中的生物,在沒有任何物理和數學知識的情況下,便可以本能地通過在環境中的不斷試錯來改進自己的動作策略。這種自下而上的經驗驅動的策略優化方法,為解決復雜流動控制問題提供了新的思路。近年來,機器學習技術的迅速發展為流動控制領域帶來了許多新的技術,尤其是其中的強化學習技術可以很好地復制生物體這種經驗驅動的學習過程。在強化學習的優化框架下,不再要求對流體系統進行精確建模,智能體可以僅靠與環境交互的經驗來提升自己的表現[2]。正是由于這樣的特點,強化學習方法逐漸成為解決流動控制問題的新范式[3-5]。

在實際應用中,強化學習方法通常被用來尋找最優的流動控制策略,以達到某些預設的目標,例如減少阻力、提高升力、增加效率等。近年來,已經有許多工作開始使用強化學習方法來優化流動控制策略。Reddy 等[6]利用強化學習方法訓練了模擬環境下的固定翼滑翔機,通過控制滾轉角,使其能夠利用模擬環境中的上升熱氣流進行爬升。在該工作基礎上,Reddy 等[7]訓練了在真實世界中的固定翼滑翔機,在訓練過程中,滑翔機與氣流環境進行交互,通過執行不同的動作來實現飛行控制,經過訓練和優化,滑翔機可以利用真實對流環境中的上升熱氣流進行爬升,實現了更長時間和更高效的滑翔飛行,這提供了一種全新的飛行器自動飛行的導航策略。Rabault 等[8]訓練智能體控制圓柱兩個側向射流的質量流率,穩定了圓柱的尾跡渦結構,降低了圓柱的升力和阻力。Fan 等[9]在實驗和仿真中,訓練了湍流中智能體適當選擇位于主圓柱下游的兩個小圓柱的轉速,讓整個系統減阻或效率最大化。Li 等[10]用穩定性分析加速了強化學習訓練過程,并指出智能體感知到足夠的物理信息對強化學習成功訓練至關重要。姚張奕等[11]研究了強化學習在翼型分離流動控制中的應用,發現將動作歷史加入狀態量可以加速強化學習訓練。

特別的,仿生力學因其與強化學習模仿生物學習過程的特點相似,近年來成為強化學習與流動控制結合的前沿領域。Gazzola 等[12]用強化學習方法訓練了數值模擬環境中的二維魚模型按照既定軌跡游動。Zhu 等[13]用強化學習模擬魚類的捕食過程,訓練了魚模型通過運動在圓柱尾跡中進行姿態保持,其穩定的位置與Liao[14]對真實魚類觀察的位置一致。Gazzola等[15]利用強化學習算法訓練集群中的個體保持穩定的相對位置,最后通過進化算法找到了最小個體耗能和最小集群耗能的集群模式。Novati 等[16]和Verma等[17]分別研究了二維和三維模型的集群效應,研究中上游魚的運動方式固定,通過強化學習算法,將相對位置、歷史動作信息作為狀態,下游魚模型可以利用上游魚產生的尾跡結構,使自身速度最大化或者效率最大化,這為研究自然界中魚類的集群行為提供了參考。

雖然強化學習方法目前已經有了許多數值模擬環境中的應用,但是在實驗室的真實流體環境中的應用還較少。本文擬選擇拍動推進的效率優化問題來驗證強化學習方法在真實流體環境中的有效性。拍動推進是流動控制中一個經典問題,研究拍動推進有助于設計更高效的水下推進器和擴展流體力學理論體系[18-19]。在現有的翼型拍動相關研究中,因為正弦運動產生的推力呈周期性且相對穩定,便于建模和控制,研究人員通常在正弦運動的假設下,來討論不同參數對模型的游動性能的影響。Senturk 等[20-21]利用直接數值模擬方法研究了翼型純俯仰和浮沉運動,討論了斯特勞哈爾數(St)和雷諾數(Re)對性能的影響,研究表明,推力和效率具有很強的雷諾數依賴性,越大的雷諾數對應著越高的最優效率。Floryan 等[22]和Lagopoulos 等[23]分別提出有關推力系數和效率的相似律和下游尾跡結構轉變的相似律,借助這些相似律可以預測和描述正弦運動族的游動性能。然而,自然界中的生物在狩獵、躲避捕食者、追求配偶或饑餓時采用了更多樣化的運動形式[24]。因此,了解非正弦的運動對游動性能的影響也非常重要。

目前,學者對于非正弦運動的研究主要涉及間歇性游動和非正弦的周期性步態。Floryan 等[25]對做間歇性拍動的翼型進行了實驗,研究表明,間歇性運動通常對能量是有利的,運動相同的距離,間歇性運動比連續運動更節省能量,同時,如果將真實魚類的代謝耗能納入考慮范圍,連續游泳可能在能量上更占優勢。Akoz 等[26]計算了間歇運動的平均游動速度和運輸成本后,發現了最優推進效率的運動占空比。類似于間歇性拍動,非正弦的步態也可能會帶來效率的增益。Chao 等[27]對做雅可比橢圓函數運動(包含三角波運動、正弦運動、方波運動)的二維翼型進行了數值模擬,發現正弦運動具有最高的推進效率。van Buren 等[28]的研究支持了這一觀點,并進一步指出,如果運動的波形是方波,會比正弦運動表現出更大的推力,相應地也需要消耗更多的能量,且從尾跡的角度來看,方波運動的快速啟動和停止會產生雙射流尾跡而不是典型的渦街,三角波和正弦運動則在下游形成相似的反卡門渦街和單一的射流尾跡。

除了間歇性游動和非正弦的周期性步態外,更一般的運動可以是任意一種不規則、非周期性的運動,這會導致流場的變化更為復雜,對推進的影響也更加難以預測和控制。由于傳統方法的限制,有關非周期、不規律的運動對游動性能的影響還沒有被充分地討論。本研究擬將拍動翼型的效率優化問題轉化為一個序列決策問題,建立對應的馬爾可夫決策過程,并引入強化學習框架來求解。在這個框架下,模型可以實現更一般的運動,并自動地通過與水洞環境的交互來提高自身的運動效率。本研究的目的是驗證強化學習方法在流體力學實驗環境中優化流動控制策略的可行性,以期為未來的相關研究提供參考。

1 實驗設備與裝置

實驗在復旦大學航空航天系的循環式水洞中進行,實驗裝置如圖1 所示。實驗段尺寸為0.5 m(高)×0.5 m(寬)× 6 m(長),水速范圍為0~5 m/s 連續可調。實驗模型為NACA0012 翼型,弦長c=200 mm,展長s=220 mm。實驗中水速U=0.077 m/s,對應的基于弦長的雷諾數為Re=1.3×104。轉動軸位于距離模型前緣25%弦長處,模型上下兩端裝有單分量的力傳感器測量來流方向的力,模型上方還搭載一個扭矩傳感器測量模型受到的扭矩,模型的轉動由一個舵機驅動(STS3046)。力和力矩傳感器的時序信號由數據采集卡(JY USB-62401)采集,并與舵機的動作反饋信號進行同步,所有信號的采樣頻率設置為80 Hz。在數據采集裝置搭建中,對信號線以及接頭處進行了屏蔽處理以消除環境噪聲對信號的影響。另外,在進行平均推力系數及推進效率測量時,采取5 次重復性實驗取平均值的方式來消除實驗中的隨機誤差。

圖1 實驗裝置Fig.1 Experimental setup

在拍動推進系統中,推力系數和弗勞德推進效率是最重要的游動性能指標。推力系數和效率的時平均量定義如下:

其中:Fx為運動誘導的力在流向的分量;ρ為水的密度;U為來流速度;s為翼型的展長;c為弦長;為平均有用功率;為平均需用功率;M為轉動扭矩;ω為轉動角速度;T為計算平均值的時間區間長度。本實驗中,在評價翼型拍動動作的平均效率和平均推力系數時,取T=120s。

對于周期性拍動推進系統,其運動的頻率通常用無量綱參數斯特勞哈爾數(St)描述:

式中:f為周期性運動的頻率;A為尾緣的擺幅。

2 基于強化學習的流動控制

2.1 強化學習算法

強化學習是求解馬爾可夫決策過程上的數學框架。一個典型的馬爾可夫決策過程由M={S,A,R,P,γ}表示。在t時刻的狀態st∈S下,智能體可以根據策略函數選擇動作at~π(st;x)。策略函數可以將狀態空間和動作空間映射到實數域,S×A→[-1,1],參數由x表示。智能體做出一個動作后,狀態會更新為st+1,并且智能體會得到來自于環境的獎勵信號rt+1~R(st,at)。強化學習的目標就是更新策略函數的參數x,從而最大化累計回報獎勵其中 γ ∈[0,1)代表了折扣因子,其值越大代表智能體越重視未來的獎勵。

本文采用PPG(phasic policy gradient)算 法[29]。PPG 算法是一種基于策略梯度的強化學習算法,是PPO(proximal policy optimization)算法[30]的一種變體。PPG 算法和PPO 算法均包含兩個網絡:一個是策略網絡,實現狀態到動作的映射at~π(st;x),參數用x表示;另一個是價值網絡,提供對狀態價值函數V(st;w)=Eπ[Gt|st]的判斷,輔助策略網絡進行更新,參數用w表示。

網絡參數的更新是通過最小化損失函數實現的。PPG 算法的訓練分為兩個交替進行的階段。第一個策略訓練階段用來訓練策略網絡和價值網絡,對應的損失函數為:

其中:LPG和 LVF分別為策略網絡和價值網絡的損失函數;ρt為重要性抽樣比,代表了新舊策略選擇相同動作的概率比值,用于調整樣本的權重以準確估計新策略的價值;clip 為裁剪函數,將 ρt裁剪到(1-ε,1+ε)區間中;ε為控制裁剪程度的超參數,可以控制策略更新的程度;為廣義優勢函數,衡量了智能體在給定狀態下采取某個動作相對于平均預期回報的優勢程度,用于指導策略更新;t為基于廣義優勢函數構建的對真實狀態價值函數值的估計;wold為價值網絡舊參數。通過對 LPG的訓練,可以讓策略網絡最小化廣義優勢函數。通過對 LVF的訓練,可以讓價值網絡通過自舉法接近真實的價值函數。更多相關細節可參考文獻[29-30]。

第二個輔助訓練階段,損失函數為:

其中:LJT和 LVF分別為策略網絡和價值網絡的損失函數;DKL(π(st;xold)||π(st;x))為更新前后新舊策略的K-L(Kullback-Leibler divergence)散度;β為控制新舊策略差異的超參數。LJT由 兩項組成,最小化 Laux項,能讓策略網絡的底層參數從對價值函數的擬合中獲益,優化 β項可以限制網絡更新的幅度,從而保障訓練的穩定性。在輔助訓練階段,還會對價值網絡的損失函數LVF進行額外的訓練。

從訓練流程來看,PPO 算法相當于只有第一個策略訓練階段的PPG 算法。在網絡結構上,兩者的價值網絡結構相同。而PPG 算法的策略網絡在輸出層有兩個輸出,一個輸出策略 π(st;x),另一個輸出策略網絡對價值的判斷,即V(st;x)。但PPO 算法的策略網絡只有一個策略輸出 π(st;x)。

2.2 動作、狀態設計

強化學習中的動作、狀態和獎勵設計非常關鍵,其直接影響著強化學習算法的學習效果和性能。在流動控制的強化學習實驗中,動作、狀態和獎勵的設計需要配合流動物理情況進行調整。實驗中,拍尾定義為模型的尾緣從一端移動到另一端的過程,模型的動作設計為下一個正弦拍尾動作的幅度和頻率,表示為at={At,ft}。研究中,模型會在一側擺動到最大幅度后開始執行下一個動作,并且為了避免模型出現一直在一側擺動的情況,模型每次的拍尾動作被強制要求經過流向的對稱面。出于效率與推力間的平衡,單側的擺動角度被限制在7°~20°之間。因為角度過低時,雖然會得到較高的效率,但推力較小,沒有實際的意義;另一方面,角度過大時,效率又會迅速降低,均不利于搜索在較大推力下的高效率游動行為。同時,設定頻率范圍使得單次拍尾的瞬時St能夠處于0.2~0.8 區間。智能體可以任意選擇動作空間中的拍動動作組合,達到優化效率的目的。

為了在給定的均勻來流條件下建立馬爾可夫過程,將強化學習智能體的狀態定義為模型的運動歷史。智能體觀察到的狀態是前n個拍尾動作的歷史,表示為st={at-n+1,···,at},本實驗取n=12。在該設置下,可以使得智能體的狀態時間窗口長度足夠來流流過4c~5c的距離,從而保證更早的拍動動作對當前翼型的水動力學狀態的影響可以忽略不計,進而保證該問題的馬爾可夫性,即狀態可以唯一確定當前模型周圍的流場。

2.3 獎勵函數設計

在使用強化學習算法優化一個長期高效的智能體時,最直接的方法是將長期效率作為獎勵函數。但是這樣會使樣本量減少且訓練難度增加。因為強化學習算法的更新需要 (st,at,rt+1,st+1)的軌跡歷史,如果rt+1是 長時間尺度的獎勵,則st、at也需要是長時間尺度的,以滿足馬爾科夫性。而當st、at是長時間尺度的狀態和動作時,會出現兩個問題:第一個是樣本量變少,在相同時間內,軌跡中收集到的(st,at,rt+1,st+1)數量減少,網絡參數更新的次數降低;第二是搜索難度變大,長時間尺度的狀態空間更復雜,智能體需要更長時間的探索才能學習到優化策略。有一種簡單的做法是,將當前動作的短期效率作為獎勵函數。但這使得優化的目標變成了累計短期效率之和,而非長期效率,因此智能體有可能會過擬合短期效率,導致陷入局部最優解。同時,短期效率與模型的當前狀態強相關,使得訓練過程很容易受到實驗噪聲的影響,造成短期效率的波動,這樣的噪聲可能使得模型無法學習到長期推進效率最優的策略。在本研究中發現,當計算平均效率的窗口長度接近水流通過3c長度的時間,需要的訓練時間較少并能得到很高的長期效率表現,這個效率評價時間窗口大概對應8 次拍尾動作所需的時間。

2.4 網絡結構和超參數設計

數據采集卡用C#語言控制,強化學習代碼基于Python 語言的Tensorflow 庫構建。

策略網絡和價值網絡的隱藏層均由兩層LSTM(long short-term memory)網絡和一層全連接層組成。價值網絡的兩層LSTM 的節點數分別為64 和128。策略網絡的兩層LSTM 的節點數分別為32 和64。全連接層的節點數分別為32 和64。網絡結構使用LSTM 是為了更好地捕捉時序信息。策略網絡比價值網絡的節點數更少是因為策略函數一般有更低的復雜度。策略網絡和價值網絡的學習率均設置為0.004,折扣因子 γ設置為0.999,控制策略訓練損失函數的裁剪系數 ε為0.2,策略網絡的探索噪聲為0.1,每次更新的批量大小為64。

2.5 強化學習訓練流程

圖2 展示了本研究中強化學習的訓練流程,并著重說明了單個回合內的交互過程。每個回合分為兩個階段,即編譯階段和交互階段。

圖2 強化學習訓練流程圖Fig.2 Flowchart of the reinforcement learning procedure

在編譯階段開始時,上一個回合的結束狀態被作為當前回合的初始狀態(除了第一個回合是進行隨機初始化)。策略網絡會根據初始狀態生成下一個時刻的動作a0,因為在本研究的設置中,狀態僅僅是動作的堆疊,所以可以直接推斷出下一個時刻的狀態。由此,智能體可以提前生成回合中所要執行的所有動作。編譯階段完成后,訓練進入交互階段,每個回合的交互階段持續60 s。在交互階段開始前,模型會重復兩次初始狀態的動作來初始化流場。初始化完成后,智能體會根據預先編譯好的動作開始運動,并且記錄下交互的軌跡{s0,a0,r0,s1,···,sT,aT,rT}。

在單個回合交互階段結束后,設定一分鐘的間歇,再開始下個回合的編譯階段,以避免回合與回合間的流場交叉干擾。智能體在回合間歇內按照強化學習算法進行網絡參數更新。單個回合的最后一個狀態sT被記錄用于初始化下一個回合,通過這樣的方式,可以還原連續學習的過程。實驗的最大回合數設為400,整個迭代學習過程都是在水洞實驗室中自動進行的,無需人為干預,持續時間大概為12 h。

3 結果與討論

3.1 算法比較

為了驗證強化學習算法的有效性,對兩種不同的強化學習算法(PPO 和PPG 算法)獲得的訓練結果進行了對比。兩組強化學習實驗的所有參數設置均相同,并計算了每個回合(60 s)的平均效率,畫出了兩種算法的學習曲線。為了更好地觀察學習曲線的變化趨勢,對效率進行了窗口長度為5 的滑動平均處理。從圖3 中可以看出,PPG 算法能夠更快地收斂到一個較高的推進效率水平,且最終表現也優于PPO算法。PPG 算法下的智能體可以在150 回合左右將效率穩定維持在14%左右,而PPO 算法訓練的智能體在250 回合左右才將效率提高到10%左右的水平。

圖3 不同強化學習算法的學習曲線Fig.3 Learning curves for different reinforcement learning algorithms

PPG 算法比PPO 算法訓練速度更快的原因是PPG實現了策略網絡和價值網絡之間的特征共享,同時將它們的訓練解耦,從而有更高的樣本利用率。PPG算法在策略訓練階段后還引入了輔助訓練階段,通過對 Laux的訓練,使得策略網絡的底層參數能從擬合價值函數的過程中獲益。輔助訓練階段還對價值網絡進行額外的訓練,加快了狀態價值函數的收斂速度,并且價值網絡并沒有直接地與策略網絡共享參數,因此額外訓練不會導致策略網絡受到價值網絡訓練的干擾,在更短的回合數內學習到了更高效率的運動策略。

3.2 訓練過程分析

為了更好地展示出強化學習的訓練過程,將PPG 算法下不同回合的智能體表現繪制成推力系數-效率曲線,如圖4 所示。初始的模型推進效率大約在4%左右,推力系數大約為0.2。隨著訓練的進行,模型的效率不斷提高,最終達到了14%左右。

圖4 PPG 算法學習路徑Fig.4 Learning path for the PPG algorithm

同時給出了相應回合下的運動波形、有用功率(FxU)、需用功率(Mω)時間歷史,如圖5 所示。從圖5中可以看到智能體的動作調整過程。由圖5(a)對應的第1 回合運動歷史可以看出,智能體在訓練開始時,做的是雜亂無章的隨機拍動動作。在大約5~10 s及25~30 s 區間,模型采取了接近最大擺幅的拍動,提高了瞬時有用功率,瞬時有用功率峰值約為0.05 W,但是這樣的運動消耗了更大的需用功率,需用功率的峰值約到達0.8 W。大幅度的擺動動作雖然能夠提高有用功率,但也需付出更大的需用功率,總體上會導致效率的降低。由圖5(b)可以看出,在第100 回合時,智能體不再輕易嘗試大幅度的擺動動作,從而將需用功率控制在較低的范圍中以獲得更高的效率。由圖5(c)可以看出,在大約第200 回合時,智能體運動的幅度已經處于一個比較穩定的范圍,有用功率和需用功率都不再出現類似早期的瞬時較大變化。但此時的頻率還偏高,因此在第200 回合后,智能體主要專注于頻率的微調。如圖5(d)所示,在大約第400 回合時,運動的幅度和頻率都在一個更小的范圍內波動,同時瞬時需用功率也得到了進一步的控制,最終獲得了效率的進一步提升。

圖5 不同回合下的運動波形、有用功率和需用功率時間歷程Fig.5 Time history of the motion waveform,useful power and required power after different iterations

智能體在400 回合的訓練過程中,學會了控制每一次拍動動作的角度和頻率,在提高有用功率的同時避免大幅運動帶來的需用功率增加,以獲得持續提升長期推進效率的效果,最終智能體收斂到了一種合適的幅度和頻率下的近似正弦運動。

3.3 推力約束下的效率優化

強化學習算法的一大優勢是,僅通過修改獎勵函數即可實現在約束條件下的訓練。本實驗通過修改獎勵函數,實現了在給定推力條件下的高效運動策略搜尋。

為了訓練出能夠實現高推力運動的智能體,將獎勵函數設計為:當推力系數大于給定閾值時,獎勵等同于效率;當推力系數小于給定閾值時,獎勵為0。對推力系數閾值分別為0.6 和0.9 的兩種情況進行了訓練,學習曲線和學習路徑如圖6 所示。在圖6(a)中,綠色和紫色曲線分別代表推力系數閾值0.6 和0.9 的學習曲線。在圖6(b,c)中,顏色由淺至深的圓點分別對應了第1、100、200、400 回合,陰影區域對應推力系數大于0.6(綠色)和0.9(紫色)的區域。

圖6 推力約束條件下的學習曲線和學習路徑Fig.6 Learning curves and learning paths under the thrust constraint

從圖6(a)可以看出,在添加了對推力的額外要求后,學習過程比沒有推力要求時更慢,并且最終得到的運動效率更低。在推力系數閾值為0.6 時,在第200 回合左右,智能體的效率達到了11%左右。在推力系數閾值為0.9 時,在第300 回合左右,智能體的效率才穩定到了10%左右。由圖6(b,c)可知,最終得到的運動策略對應的平均推力系數分別為0.76 和1.02,均高于推力要求閾值。

學習過程變慢的原因是高推力的運動空間是整體運動空間的一個子空間,沒有約束條件時,智能體可以學習到任意一個局部最優的運動策略,但是增加約束條件后,智能體必須要在給定的更狹窄的運動空間中進行探索優化,這增加了智能體的探索難度,從而降低了學習速度。

在推力施加約束后,智能體學習到的運動策略效率會降低。這是因為在高推力的運動空間中,最優運動效率比起沒有推力約束的最優效率要低。比如正弦運動族的推力達到某種程度后,效率就會顯著降低[18-19]。

3.4 頻率分析及與正弦運動的比較

對加與不加推力約束的最終運動策略進行統計分析,繪制了運動策略瞬時拍動頻率和幅度的箱線圖,如圖7 所示。結果表明,較大的推力系數閾值可以使得智能體在更高幅度、更高頻率的運動空間中進行探索。不加約束的強化學習收斂到的運動策略的平均幅度為12.5°左右。施加推力約束條件后得到的運動策略的平均幅度分別約為15°、17°。

圖7 不同推力約束下的運動策略頻率和幅度箱線圖Fig.7 Boxplot of the frequency and amplitude for motions under different thrust constraints

為更好地評價智能體學習到的運動策略的表現,將其與模型在正弦運動下的表現進行對比。測量了不同頻率下擺動幅度為±12.5°、±15°、±17°的正弦運動的性能,每次測量時間長度為120 s,進行五組重復實驗取平均值。同時利用智能體最終運動策略網絡生成運動時間序列,并將其表現與正弦運動的表現在推力-效率圖上進行對比(圖8)。結果表明,強化學習智能體的推進效率均達到了相似正弦運動下的效率的上邊界。此外,根據智能體最終運動形式的所有拍動動作的平均幅度和平均頻率,計算出平均St,其數值范圍約為 0.4~0.55,與正弦運動下的最優St范圍一致。

圖8 強化學習運動與正弦運動的比較Fig.8 Comparison between the reinforcement learning motion and the sinusoidal motion

4 結論與展望

本文基于實驗測量和強化學習算法研究了拍動翼型的非定常推進問題。通過強化學習方法,對拍動翼型的非周期動作進行了優化,得到了高效推進的非周期運動策略。并通過改變獎勵函數,實現了智能體在高推力要求下的效率優化。研究得出以下主要結論:

1)強化學習可以作為工程中探索復雜流動問題和高維參數空間的研究手段。但是使用不同的強化學習算法和不同的超參數,會對訓練表現產生很大影響。本文中,PPG 算法能夠比PPO 算法更快地收斂到更高效率的運動策略。在真實的流體環境中進行算法或者超參數的對比非常消耗資源,未來可以通過設計更加適合流體環境的算法或在數值模擬環境中初步確定超參數等方式解決該問題。

2)改變獎勵函數可以訓練智能體完成不同的任務。例如在本實驗中增加了推力的限制,智能體依然能在約束條件下找到優化的運動策略。在實際工程應用中,可以通過修改獎勵函數或調整強化學習框架中的約束條件,來訓練適合不同工況的智能體,從而滿足工程中多樣的流動控制需求。

3)研究發現,強化學習方法獲得的最終運動策略與正弦運動下的最優表現相當。這也從側面說明了,在單自由度拍動動作下,適當的振幅和頻率下的正弦運動基本是高效率推進的最優選擇。該結論與前人對非正弦拍動運動的研究結論吻合[27-28]。

在后續研究中,擬進一步增加模型的自由度,例如加入俯仰運動-浮沉運動的組合、擴大模型的動作空間等。亦可將流體環境反饋添加到智能體的狀態量中,讓智能體能夠根據反饋實時地調整自身動作,從而實現智能體在復雜來流條件下的動作策略優化。

猜你喜歡
動作效率智能
提升朗讀教學效率的幾點思考
甘肅教育(2020年14期)2020-09-11 07:57:42
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
動作描寫要具體
畫動作
動作描寫不可少
非同一般的吃飯動作
跟蹤導練(一)2
主站蜘蛛池模板: 欧美国产综合色视频| 中文字幕丝袜一区二区| 国产一在线| 国产高清自拍视频| 四虎永久在线精品国产免费| 1769国产精品免费视频| 无码中文字幕乱码免费2| 日本欧美一二三区色视频| 亚洲品质国产精品无码| 久久国产精品影院| 色视频久久| 亚洲v日韩v欧美在线观看| 亚洲第一av网站| 欧美精品啪啪一区二区三区| 区国产精品搜索视频| 国产午夜无码片在线观看网站 | 白丝美女办公室高潮喷水视频| AV老司机AV天堂| 在线播放国产一区| 国产第一页免费浮力影院| 亚洲欧州色色免费AV| 国产成人a在线观看视频| 久久综合伊人 六十路| 亚洲av成人无码网站在线观看| 一区二区在线视频免费观看| 亚洲一级毛片在线播放| 亚洲成人黄色在线| 免费久久一级欧美特大黄| 国产成人调教在线视频| 免费A级毛片无码免费视频| 日韩精品无码免费一区二区三区 | 毛片免费视频| 国产激情无码一区二区免费| 18禁影院亚洲专区| 国产免费自拍视频| 亚洲区第一页| 在线免费无码视频| 亚洲bt欧美bt精品| 亚洲aaa视频| 麻豆精品国产自产在线| 伊人久久精品无码麻豆精品| 国产喷水视频| 色哟哟精品无码网站在线播放视频| 国产sm重味一区二区三区| 亚洲欧美综合在线观看| 成人久久18免费网站| 97国产成人无码精品久久久| 精品99在线观看| 日本一区高清| 亚洲码在线中文在线观看| 亚洲日韩高清在线亚洲专区| 日本尹人综合香蕉在线观看| 青青热久免费精品视频6| 亚洲中文精品人人永久免费| 成人免费视频一区| 91在线丝袜| 亚洲无码91视频| 欧美日韩精品在线播放| 秘书高跟黑色丝袜国产91在线| 天天激情综合| 国产拍揄自揄精品视频网站| 亚洲成AV人手机在线观看网站| 999国产精品永久免费视频精品久久| 欧美国产视频| 黄色在线不卡| 露脸一二三区国语对白| 国产日韩欧美中文| 亚洲国产在一区二区三区| 高清欧美性猛交XXXX黑人猛交| 日韩av在线直播| 欧美一区中文字幕| 亚洲精品成人福利在线电影| 久久96热在精品国产高清| 国产区人妖精品人妖精品视频| 狠狠躁天天躁夜夜躁婷婷| 国产一在线| 亚洲高清无码久久久| 精品视频在线观看你懂的一区| 爱色欧美亚洲综合图区| 亚洲国产精品日韩av专区| 亚洲欧洲日韩久久狠狠爱| 久久久久青草大香线综合精品|