999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度強化學習的股市操盤手模型研究

2020-11-10 07:10:36韓道岐張鈞垚周玉航
計算機工程與應用 2020年21期
關鍵詞:動作策略模型

韓道岐,張鈞垚,周玉航,劉 青

中國人民大學 信息學院,北京 100872

1 引言

深度學習技術已廣泛應用于各領域,實現了類似人腦的分類、推理、預測功能。深度強化學習模型進一步解決了過程決策問題,在生物仿真、機器翻譯、工業制造、自動駕駛控制、優化和調度、視頻游戲和圍棋等領域取得了顯著成果[1],對股票交易領域也將起重要作用。在金融市場中,已有股票預測和操作策略方面的研究[2-4],在估值、風險評估方面文獻不多,與經典量化投資理論相結合的強化學習模型并可實戰的成果更少。

在金融市場量化操作時,研究人員是針對產品價值、眾多指標和周邊環境影響因素進行綜合評估,形成當前的操作策略。但是往往受限于以下三個方面:

(1)產品信息量不足,不能準確估值。

(2)片面地依據一個指標,效果很差。

(3)依據已總結的指標和固定操作策略不能動態適應環境變化,抗風險能力弱,策略易失效。

采用基于深度強化學習技術的機器人自動進行股票交易操作,也必然面臨以上問題,因此擴展DQN算法[5-6],實現智能股票操盤手模型ISTG(Intelligent Stock Trader and Gym),它能更高頻和準確地發現投資機會;可端到端學習和優化操作策略,自動適應環境變化。模型在完成高收益、低風險關鍵目標的同時,還能輔助判斷市場形勢、投資決策、預測股市未來發展狀況。

2 相關工作

人工智能發展經過了幾次重大突破[7],形成了較完備的理論體系,并在2006 年進入深度學習階段[8],學術界把大規模訓練數據和大規模可迭代的網絡結構作為人工智能的發展方向。LeCun等[9]提出了類似與人類觀察世界結構方式的自學習,是未來研究重點。強化學習可無監督的觀察環境,主動探索和試錯,能自我總結出優秀經驗。目前深度學習和強化學習相結合的主動學習系統雖然處于初級階段,但在學習各種視頻游戲方面已經取得出色的成果。

2016 年 3 月 9 日,AlphaGo 戰勝李世石[10],之后深度強化學習DRL(Deep Reinforcement Learning)[11-12]技術發展迅速。DRL實現了類生物智能體,不受體力和情緒限制,能通過網絡獲得幾乎無限的存儲和計算能力,并結合了深度學習的高維數據感知能力、數據統計分析的預測能力、強化學習的搜索最優操作策略能力,使得智能體[13]能快速成為某個領域的強手。在DRL基礎上,樹搜索、層次化、多任務遷移學習、多agent合作和競爭學習[14]等方法均有很好的應用前景。周文吉等[15]提出端到端的、自動總結抽象的分層強化學習,能夠適應復雜環境。李晨溪等[16]提出應用知識圖譜和自然語言處理、遷移學習、模仿學習等方法,利用知識更好地指導深度強化學習。

金融市場由于大量復雜因素的相互影響,其數據具有不確定性和時序特征,數據分析是復雜的非線性和非穩態問題,傳統的統計學模型和海量數據挖掘模型在金融預測和序列決策中效果欠佳。量化投資[17]強調建立嚴謹的分析模型、高效捕獲機會并自動執行,如果自動決策不能針對當前實際情況自適應調整,則風險巨大,因此研究適合的智能決策模型有著迫切的需求。

DeepMind[5]的DQN(深度Q網絡)首次將CNN深度學習模型和Q-learning 相結合,解決了傳統Q-learning難以處理高維數據的問題。Double DQN[18]提出使用兩個Q網絡,一個負責選擇動作,另一個負責計算,定期更新計算網絡,克服了Q-learning 過優化現象。針對隨機抽取經驗導致忽略了經驗之間的不同重要程度這個缺陷,文獻[19]采取按優先級抽取經驗池中過往經驗樣本。Dueling DQN[20]提出了一種新的網絡架構,在評估Q(S,A)的時候,同時評估了動作無關的狀態的價值函數V(S)和在狀態下各個動作的相對價值函數A(S,A)的值,Dueling DQN是一個端到端的訓練網絡。多步合并收益[21-22]可更快地將新觀察到的獎勵傳播到之前觀察到的狀態,減少了學習樣本。價值分布網絡[23]學習獲得的隨機回報的多個分類分布而非狀態值函數,損失函數變成兩個概率分布的距離,在有相同均值情況下,可以選擇方差(風險)最小的動作。噪聲網絡[24]在參數上增加噪聲和學習噪聲參數,并可取消隨機探索,能控制不同場景下的探索隨機性。彩虹網絡[25]實現上述機制的同時有更快的訓練速度和更高的得分。針對需要連續動作的場景,策略梯度類算法(Policy Gradient)[26]可以直接學習動作,解決無法直接學習值函數的問題。A3C(Asynchronous Advantage Actor Critic)[22]和 OpenAI 的同步式變體A2C是actor-critic方法上的最優實現,actorcritic 方法將策略梯度方法與價值函數結合,拆分兩個網絡學習兩個不同的函數:策略和價值。策略函數基于采取該動作的當前估計優勢來調整動作概率,而價值函數則基于經歷和后續策略收集到的獎勵來更新該優勢。分層式強化學習(HRL)則嘗試使用更高層面的抽象策略,形成組合邏輯,Nachum等[27]設計了通過上級控制器自動學習和提出目標來監控下級控制器,可用更少樣本和更快速度的交互,學習模擬機器人的復雜行為。總的來看,深度強化學習發展歷程如圖1所示。

圖1 深度強化學習發展歷程

深度強化學習目前已應用于金融配對交易、高頻交易和投資組合等領域。Moody等[28]提出的遞歸強化學習(Recurrent Reinforcement Learning,RRL)和Q-learning組合的學習算法,訓練交易系統,通過返回的差分夏普比率做風險調整,實驗結果顯示RRL 系統明顯優于監督學習系統,同時發現了Q-learning可能遭受維數災難,該研究的訓練數據使用單一指數產品、較長周期和月線行情,適用面較窄。Deng等[29]構建了DRL模型,在參數初始化、特征學習、去噪等過程采用機器學習技術,以提高隨機序列的預測準確率,對股票和商品期貨市場進行交易決策和驗證。該研究的期貨類產品數量單一,針對期貨類高頻交易使用分鐘周期,依據收盤價單一指標,不適合其他周期類型。齊岳等[4]首次把深度確定性策略梯度方法DDPG應用到投資組合管理,動態調整投資組合中資產的權重到最優。投資組合是隨機選取的16只股票,輸入的收盤價數據信息量少,沒有提出合理選擇投資組合的方法,缺乏較大規模的組合對照實驗。胡文偉等[30]將強化學習算法和協整配對交易策略相結合,解決投資組合的選擇問題,使用索提諾比率作為回報指標,實現了模型參數的自適應動態調整,收益率和索提諾比率大幅提高,最大回撤明顯下降,交易次數明顯減少。但債券品種較少,數據集規模小,狀態指標較少。

針對當前研究普遍存在的股票交易品種少、輸入狀態少、測試周期短等問題,本文基于深度強化學習的最新成果,與傳統量化理論結合,提取更豐富的股票交易特征,采用更全面的市場數據、更準確評估模型性能的指標,端到端訓練模型,以適應不同類型金融產品的投資操作并獲得更大收益。

已有文獻在訓練CNN 和LSTM 模型時,把數據加工成圖片模式輸入,本質上增加了無關的背景噪聲,有效信息稀疏,導致只能提取特定的圖片形狀特征。本文直接使用數據和指標構建多日滑動窗口,可更靈活地添加特征和擴展歷史天數,噪聲少、收斂快。針對股票行情,取消DDQN模型訓練時的價值網絡預測輸出各個動作回報、目標網絡預測輸出最大Q值,而直接使用模型的收盤價準確計算回報,加快模型訓練速度。

3 ISTG模型

3.1 目標

ISTG 智能操盤手模型主要目標是在某個市場中,根據歷史(多日)行情,進行當日的買賣操作,找到最優的行動策略,使指定周期范圍的最終收益最大化。

為增強操盤手對市場的把握能力,理論上應利用市場所有股票的全部歷史數據。

本文基于經典的DQN方法,利用CNN網絡學習和輸出動作價值,Q-learning方法與環境不斷交互,獲得有回報標簽的訓練數據,建立存儲上百萬幀的記憶隊列,隨機采樣小批量數據進行模型訓練。ISTG的總體架構如圖2所示。

圖2 ISTG的總體架構

3.2 設計

強化學習的理論基礎是馬爾科夫決策過程MDP。MDP 的模型為一個五元組 <S,P,A,R,γ> ,其中包括:有限狀態集S,狀態轉移概率P,有限行動集A,回報函數R,計算未來回報折現后的折扣因子γ。強化學習的目標是找到最優策略π使得累積回報的期望最大。積累回報Gt定義為:

本文定義股市操作的優化目標為最大化一個周期的總收益TR,控制單個動作的幅度風險SR,控制操作次數風險TO。從量化投資分析角度,可對應到年化收益率、最大回撤率和夏普比率三個量化指標,評估一個階段的操作效果。可直接利用行情數據,計算指標折算后的回報值。

策略π是給定狀態s的情況下行動a的分布:

一個策略π定義了智能體的行為,因此:

操盤手的操作策略有:控制單次買賣數量、控制風險倉位、控制漲跌成交的幅度、控制止損止盈,可以根據經驗設置智能代理的這些控制參數。智能代理應能夠全面分析和選擇優質股票,在合適時機買入賣出,使投資組合獲得最大上漲可能的同時,盡可能減少操作次數。

MDP 過程可以采用Bellman 方程(Bellman Expectation Equation)計算策略π獲得的兩個價值函數,狀態值函數vπ和狀態動作值函數qπ:

兩個價值目標的最優函數為:

通過找最大化q?(s,a)對應的行動,并迭代,可以找到最優策略,得到可存儲值函數、迭代的Bellman最優方程(Bellman Optimality Equation):

Bellman 最優方程實現了迭代的分解,價值函數v存儲和再利用。按照動態規劃原理,如果已知子問題的最優解v?(s′),那么對于后繼狀態是s′的狀態s,均可找到最優解:

本文設計了圖3 所示系統工作流程實現上述求最優解原理。在圖3中的原始數據整理模塊,預先收集加工相關數據,形成以下輸入信息:智能代理狀態、環境狀態、序列狀態,形成多日的時間窗口矩陣。通過DQN網絡模型,迭代計算策略的最優解。由于股市具有不同周期特點,數據加工模塊可針對各種典型周期數據,加工后進行學習和分析結果。AGENT模塊每天優選回報最優的產品,按大概率獲利策略操作,形成實際的最優投資組合。

圖3 系統工作流程

具體迭代過程為:已知下一步的信息v?(s′),遞推當前的信息v?(s),從后往前計算,形成最優動作,構成整個策略。如果采用貪心算法,每次策略π都選到該狀態下qπ(s,a)值最大時所對應的行動a,當Q值不能再改進時,模型收斂:

此時滿足bellman最優方程:

對于所有的s∈S,都滿足vπ(s)=v?(s),此時π為模型學會的最優策略。設計了一個復盤環境SGYM,即ISTG 中的Stock GYM 模塊。它回放過程,形成充足的狀態s,準確計算狀態s的回報,訓練智能代理搜索和存儲策略π。智能代理不斷主動行動和存儲經驗,學習一個行動生成模型,不斷減少當前策略和最優策略的回報差距,最終每次都能選擇類似狀態下的一個最優行動A,其回報qπ(s,a)最大(公式(15))。

SGYM 的回報設計,體現總收益TR目標的最大化,單步收益SR目標的時機、價格幅度、買賣數量三者最優化,操作次數TO目標的上漲概率、交易成本、波動風險三者最優化,針對不能成交操作、反向的錯誤判斷成交增加額外懲罰。實現多目標最優方程如下:

目前在AGENT模塊中的狀態加工和量化策略控制基于規則實現,這一方面能直接利用現有的優秀量化控制策略,減少失誤,另一方面便于發現優秀策略的操作特征,總結經驗。其中經驗參數優化問題,后續可通過強化學習解決。

3.3 實現

為了建立SGYM,本文把股票信息分為四個部分:智能代理發出操作前的狀態、對應股票的行情狀態、指標狀態、宏觀經濟狀態,共37個特征,如表1~4所示。

表2 股票行情狀態的特征描述

表3 行情分析指標狀態的特征描述

表4 宏觀經濟指標狀態的特征描述

AGENT 針對一個股票執行買賣操作后,SGYM 根據操作計算返回表1 中6 個狀態字段,直接使用第二天的行情、行情的分析指標、宏觀經濟的分析指標,返回表2~4的相關特征。

在加工好上述數據后,SGYM可指定一個目錄下的股票數據,創建環境對象。每個回合初始化時,使用隨機策略選擇一個股票,初始化AGENT 該股票賬戶的總價值和指定比率的股票,返回初始狀態。有0至20共21個行動標簽,分別為賣出10手到買入10手。AGENT發出行動,SGYM 執行一步操作,調整智能代理狀態和輸出下一日狀態,計算回報值。回報可以是下一日的總價值的增減,或是收益率增減,或是本次操作股票成交后的價值增減。針對成交情況,扣減千分之一手續費,針對不能成交情況做千分之三的懲罰,針對反向操作(買入第二天下跌,賣出第二天上漲)追加百分之一的懲罰。AGENT 使用百萬幀空間存儲<s,a,r,s′>的每次經驗數據,異步隨機采樣訓練模型,打破樣本相似性,減少模型不穩定對行動預測的影響。ISTG的經驗回放策略采用了一些優化技巧:開始時隨機執行空操作(NO_OP),等待狀態窗口中有效歷史數據的積累;間隔5 步行動、累積較充分經驗后,訓練模型一次;存儲到5 萬個隨機策略后,再開始訓練;超過10%損失掉命重新開始回合,這樣經驗池可保存更多的優秀策略。這種離策略模型可以發現利用優先級高的經驗、發現利用高分的回合、注入人類加工的優秀策略,總結經驗、加快智能代理的學習。

DQN模型的網絡結構如圖4所示,由3個卷積層和2個全連接層構成,網絡參數與經典的DQN一致。使用連續滑動4 日的窗口作為輸入的4 個通道,每個窗口幀為20 天的37 個特征組成的矩陣。輸出為21 個動作的Q值。本文建立了模型保存和恢復機制,可以階段性保存成果,重入后使用新的匹配參數繼續訓練網絡。

DQN 模型的關鍵是針對Q值函數學習,最終能夠收斂、準確預測各種狀態下每個動作的Q值。根據Bellman期望方程可計算Q值:

圖4 網絡結構

其中,r為回報,Q*為下一步的最大Q值,γ為折現因子,γ設為0時,模型只關心當前收益,γ設為1時,模型均衡考慮當前收益和下一步的最大Q值,初始值設為0.95。模型預測能力越強,γ越應趨向1。AGENT決策行動時,使用模型預測各步的Q值,每次都按最大Q值的動作行動。AGENT 離策略訓練模型,隨機提取經驗池中小批量數據,根據經驗記憶中的狀態預測各動作Q值,根據下一個狀態,預測獲得下一步最大Q值并折扣累加到當前動作的Q值上,即r+γmaxQ(s′,a′)作為期望的Q值。根據方程(17)使用 (r+γmaxQ(s′,a′)-Q(s,a))2作為損失,梯度下降訓練模型,預測結果更接近綜合了下一個狀態情況的Q值。

探索和開發過程是強化學習不斷試錯,獲得環境回報標簽和利用經驗數據學習的交替過程。模型初期預測Q值不準確,與隨機動作效果類似,隨著各種狀態的學習,Q值越來越準確后,預測結果變平穩,從而會減少探索到新的有效策略的能力。DQN采用了e貪心選擇,有e概率選擇隨機動作,否則按預測的最大Q值選擇動作,初始e為1,最終穩定到0.1,差值0.9 按照百萬幀平均到每個幀上,隨著訓練過程線性衰減e。記錄初始的5萬個隨機動作過程時,無需訓練。

算法1智能代理探索和開發過程

輸入:環境env,代理agent

輸出:模型結果model,訓練過程的reward、maxq、return rate

1.for 在指定回合內

2.環境env.reset獲得當前股票和初始狀態state

3.組織初始窗口,state重復20次形成20*37矩陣states

4.while當前股票周期未完成

5.代理ε貪心選擇動作agent.ac(tstates)

6.環境執行動作env.step(action)

7.states窗口滑入一天數據作為下一天狀態

8.代理記憶經驗數據 <s,a,r,s′>

9.價值損失超過10%結束當前回合

10.agent 記憶內存超過 5 萬幀并每隔 5 幀,replay 訓練模型一次

11.end

12.end

由于股票具有可復盤歷史數據和直接計算第二天收益的特點,原DDQN方法訓練模型時需要使用目標網絡T預測最大Q值的處理,ISTG 模型改成直接使用SGYM 計算出準確的動作回報和動作的最大Q值,使得每步都可以獲得確定性的動作值,加快模型的收斂速度。

4 實驗和性能

4.1 環境

實驗的硬件環境為Intel i7-6700HQ 4C/8T,主頻2.6 GHz(MAX 3.5),16 GB內存,顯卡NVIDIA GeForce GTX 960M,2 GB GPU內存。軟件環境為Windows 10操作系統,Python 3.6開發平臺,keras和tensorflow深度學習框架。

4.2 數據準備

收集的數據有中國2007 年至2018 年的1 479 只股票的行情數據,上證綜指和宏觀經濟數據。經過加工后,形成了37個特征。

數據預處理模塊對缺失字段,進行填充零值處理。針對宏觀經濟數據按日重新采樣插入每日記錄,貨幣供應量增長率M1和M2后取值、插值到下一個月末,其他諸如利率和匯率前取值、插值到下一個變更點。由于相關字段數據范圍穩定,本文統一歸一化到0~1 之間,對日期和股票代碼字段進行0~n個類標簽的整數編碼。最終按時間拆分數據成2007—2014 年的訓練數據集TN1,2015—2017年測試數據集TS1,還提取了2015年大幅波動趨勢RG2015和2018年總體下降趨勢RB2018的兩個典型數據集,用于對比不同周期情況下的模型效果。

4.3 實驗結果

為了評估本文提出的智能股票交易手的性能,設計了四種實驗方案:買入持有策略ev_hold,使用每日資產收益回報和目標網絡計算Q值ev_tq,初始時股票占一半的ev_tqh,使用 SGYM行情數據計算Q值ev_mq。

第1 種ev_hold 方案,所有股票初始化同樣的資金后,每次1手買入直到使用完資金。各數據集復盤后平均收益率如表5所示。

表5 ev_hold方案數據集的復盤結果

第2 種是ev_tq 方案,所有股票初始化同樣的充足資金。訓練階段分別運行1 000、2 000、5 000、10 000 個回合,使用TN1 數據集進行四次訓練,獲得四個不同能力的模型和訓練過程數據。可靈活根據上次訓練情況,動態調整超參數,裝載上次訓練的結果模型后進入下一次訓練。多輪訓練的資產收益率、平均最大Q值、回報的學習情況趨勢如圖5所示。經過一千多回合后,平均最大Q值開始穩定下降,趨向17 000。可以看出增加回合數,回報值逐步穩定,5 000 回合后資產收益率變平穩,學習階段收益率可達最大5 000%,最小值-24%,均值22%。

在TS1 測試集上,ev_tq 方案使用訓練獲得的四個DQN,分別測試1 479只股票的分布情況見圖6,可以看出2 000回合后模型收益率差異不大。

圖5 ev_tq訓練的資產收益率、平均最大Q 值、回報趨勢

圖6 ev_tq測試的各股票資產收益率、平均最大Q 值、回報情況

ev_tq 方案測試的關鍵評估指標情況見表6,對比ev_hold方案,其收益率和夏普比率的均值高。

表6 ev_tq和ev_hold方案測試集上關鍵指標對比%

分析ev_tq 方案最終的資產總收益率情況,發現測試集TS1 中的股票,如亨通光電、貝瑞基因、分眾傳媒、水井坊、南京新百等,收益可達4~5倍,比買入持有的收益更高。控制最大回撤在20%~30%區間時,恒瑞醫藥、五糧液、貴州茅臺、南極電商等保存了2~3 倍的高收益率,同時回撤風險也較小。

實驗驗證了ISTG 在資產收益率和夏普比率方面結果較好。為進一步對比時序上的總體操作效果,本文分析了ev_hold 和ev_tq 方案在測試集上的總收益率變化過程。通過計算1 479個股票的每日資產均值和標準差,顯示總收益率在3 年中的變化趨勢,如圖7 所示,可以看出ev_tq在各時間段都超過ev_hold,兩個方案均在2015 年5 月達到最大收益水平。而陰影表示的標準差,隨時間推移逐步擴大,顯示了模型的穩定性在逐步下降。

圖7 資本總收益率對照

由于ev_tq 方案的全部初始化持有資金處理,導致模型學習的動作偏向買入,圖7 顯示資金用完后,方案效果與買入持有的完全一樣。本文設計了第3種ev_tqh方案,嘗試初始化一半股票,初始時買入和賣出動作都可以獲利。同樣進行四輪訓練后,發現模型能夠學會減少頻繁操作,買賣操作也更均衡。在訓練集上的收益率達到最大7 000%,遠超全部初始化成資金的效果。在測試集上進行驗證,ev_tqh 與買入持有ev_hold 的對照效果如圖8所示。

圖8 初始化一半股票情況下資本總收益率對照

再對比分析兩種不同初始化效果的圖8 和圖7,在2016年至2018年之間,ev_tqh方案的資產收益很穩定,陰影表示的標準差區間更小、也更穩定。最終的總體平均收益率為24.43%,超過全部初始化成資金的13.73%。

在觀察到ev_tq 模型的loss 值較大后,實驗第4 種ev_mq 方案,采用單個動作操作計算回報,實現SGYM直接計算Q值、取消目標網絡的策略,使用logcosh做損失函數,減少異常樣本的影響。

4.4 性能分析

最終針對四種實驗測試方案:ev_hold、ev_tq、ev_tqh和ev_mq,統計分析總收益率趨勢capital rate、最大回撤率withdraw rate 指標,結果如圖9 所示。總收益率、最大回撤率兩個指標都是ev_tqh效果最好,而ev_mq的效果不佳,還需要研究更好的回報計算方法。

圖9 四種方案總收益率和回撤率對照

為對比模型的泛化能力,使用2015 牛市和2018 熊市進行實驗收益情況對比。發現ev_tq 的2015 年平均收益率49.60%遠高于買入持有ev_hold的15.42%,2018年的平均收益率-30.27%,低于ev_hold的-18.07%。分析原因為:訓練數據集TN1 為中國經濟快速增長的周期,模型習得策略更適合諸如數據集RG2015 的趨勢增長年份,而且數據集RB2018 離訓練數據集TN1 較遠,模型表現更不穩定,影響測試效果。

4.5 問題分析

本文在實驗過程中發現了三個問題:

(1)使用累計收益作為回報而不是當前操作股票的回報,會使模型缺乏短期操作策略。

(2)DQN模型輸出較多不能成交操作,比如不能發現資金不足和股票不足的狀態。操作也比較頻繁。

(3)ev_tq 方案的 loss 值遠超過模型的輸出Q值,波動大,狀態的影響遠超過單個動作的回報。而ev_mq方案只有單個動作回報,又缺失了狀態價值影響。

針對上述問題,后續可進一步優化模型。隨機初始化資金和股票占比,可進一步提高操作靈活性。要提高模型的泛化能力,可在隨機初始化狀態、更長周期數據、更多不同周期特征數據集的加工等方面開展研究。

5 結束語

本文提出的智能股票操盤手ISTG 模型采用DQN深度強化學習技術,選擇中國股市的12 年有效行情數據,8年數據進行訓練學習,3年數據測試模型的整體操作策略效果,1年典型周期數據進行對比。該模型可觀察到股票市場大量產品的價格變化,隨機操作,發現規律,形成操作策略,較好地適應這個市場環境。

ISTG 模型學習-10 至10 手的較大范圍操作動作,考慮了不能成交操作和交易手續費的懲罰,使用CNN深度網絡學習20 天37 個特征的滑動窗口數據,輸出最大Q值動作,比繪制圖片方式做輸入數據的效率更高。

針對股市操作有延遲獎賞和部分狀態可觀測問題,利用智能代理本身的收益增長情況累計回報,學習較長期的有效策略。在三年較長測試數據集上收益率實現了超越買入持有模型。

后續研究將逐步增加深度強化學習的最新技術,不斷增強模型學習策略能力。尋找高層抽象邏輯記憶和控制住智能代理的方法。

猜你喜歡
動作策略模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
例談未知角三角函數值的求解策略
我說你做講策略
動作描寫要具體
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
畫動作
動作描寫不可少
3D打印中的模型分割與打包
主站蜘蛛池模板: 亚洲人成影院午夜网站| 国产av无码日韩av无码网站| 99久久精品国产精品亚洲| 精品国产香蕉在线播出| 国产主播在线一区| 亚洲天堂日本| 一级全黄毛片| 久久国产精品娇妻素人| 91精品福利自产拍在线观看| 婷婷亚洲最大| 国产乱人伦AV在线A| 国产精品成人观看视频国产 | 欧美激情第一欧美在线| 99久久精品免费看国产电影| 国产综合亚洲欧洲区精品无码| 精品久久综合1区2区3区激情| 国产欧美日韩另类| 成人综合网址| 国产精品人人做人人爽人人添| 五月综合色婷婷| 99久久亚洲精品影院| 国产成年女人特黄特色毛片免| 最新日韩AV网址在线观看| 在线播放精品一区二区啪视频| 国产手机在线小视频免费观看| 中文字幕欧美成人免费| 91综合色区亚洲熟妇p| 麻豆国产在线观看一区二区 | 3344在线观看无码| 色综合中文| 韩日午夜在线资源一区二区| 亚洲人成成无码网WWW| 精品一区二区久久久久网站| 亚洲综合九九| 国产精品国产三级国产专业不| 久久久久免费看成人影片| 国产一级一级毛片永久| 九色在线视频导航91| 日韩欧美国产三级| 在线看片中文字幕| 色婷婷电影网| 欧美午夜在线播放| 免费看黄片一区二区三区| 亚洲AV无码乱码在线观看裸奔| 在线看片国产| 丰满的熟女一区二区三区l| 啊嗯不日本网站| 国产日产欧美精品| 国产在线观看99| 国产午夜无码片在线观看网站 | 国产Av无码精品色午夜| 911亚洲精品| 男女男精品视频| 国产高清在线精品一区二区三区 | 日韩精品专区免费无码aⅴ| 女人av社区男人的天堂| 欧美中文字幕一区| 成人国产免费| 免费观看国产小粉嫩喷水| 欧美性精品不卡在线观看| 一级在线毛片| 国产一级一级毛片永久| 亚洲一区二区黄色| 中文精品久久久久国产网址| 欧美日韩另类在线| 久久精品无码国产一区二区三区| 欧美黄色网站在线看| 日韩欧美国产另类| 亚洲天堂啪啪| 亚洲bt欧美bt精品| 国产精品熟女亚洲AV麻豆| 欧美中文字幕在线视频| 国产导航在线| 日韩无码黄色网站| 日韩欧美在线观看| 日韩精品免费一线在线观看| 青草91视频免费观看| 国产噜噜噜视频在线观看| 99这里只有精品6| 国产精品女主播| 欧美国产综合视频| 国产亚洲视频中文字幕视频|