999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于強化學習DQN算法的智能決策模型研究

2023-09-25 17:13:18韓中華
現代計算機 2023年14期
關鍵詞:優化模型

韓中華

(北方工業大學理學院,北京 100144)

0 引言

眾所周知,作為毫無規律可循的時間序列數據,提升股票數據的預測精度一直備受金融領域的關注。然而,隨著大數據與人工智能領域的不斷發展,利用計算機實現自我學習以及大批量計算,對預測準度的提升不容小覷。其中,強化學習作為一種倍受矚目的機器學習方法,它利用與環境交互過程中的獎勵函數激勵計算機學習,模擬人腦在學習過程當中的特點。自Alpha Go以4∶1擊敗著名圍棋選手李世石后,強化學習瞬間掀起了人工智能領域的研究浪潮,這一技術特點被應用在包括金融在內的不同領域,進而凸顯其強大的學習能力。因此,強化學習將在未來廣泛應用于金融領域。

目前,強化學習在金融股票投資組合這一領域應用十分廣泛。例如,為了驗證DDPG算法的有效性,齊岳等[1]以我國股市為例,發現利用強化學習方法構建的投資組合,在實驗期間的價值增幅遠大于對照組,進而得以驗證。焦禹銘[2]通過對比A2C、PPO與SAC三個模型,發現SAC模型無論是在獲取收益還是在風險控制方面的優勢最為顯著。考慮到股票價格變化受到多種因素影響,陳詩樂等[3]將遺傳算法(GA)與Transformer模型結合,提出GA-Transformer 這一組合模型,該組合模型要優于傳統單模型的效果。

本文將DQN(Deep Q Network)算法作為基線,將三個不同優化層面(Double-Q、Prioritized-replay以及Dueling)隨機組合成七個優化模型對HDFC銀行(HDB)歷史交易數據進行預測,主要貢獻在于:①找出三種優化方案分別對DQN 算法預測的影響作用;②對比三個優化層面之間的聯系以及影響程度;③對短期股票收益預測產生的隨機性進行多次實驗取平均值,與基線模型進行預期收益平均水平與波動情況的對比分析。

1 模型構建

1.1 DQN算法思想及其優勢

相較于傳統的Q-learning 算法,DQN 算法解決了其Q-table 無法使用在狀態與動作為連續的高維空間中。通過將Q-table 更新替換為一個函數擬合的問題,以此來獲得處于相近狀態的輸出動作。這樣,將Deep Learning(DL)與Reinforcement Learning(RL)兩者相結合,便可獲得DQN。

在DQN 算法中,存在下列問題:首先,由于DL 中存在噪聲與延遲性,導致許多狀態與獎勵的值普遍為0;其次,盡管DL 當中每個樣本之間相互獨立,但是RL 當前狀態的返回值則依賴后續狀態的返回值;最后,當使用非線性表達式表示值函數時,可能會出現不穩定的情況。

針對上述問題,DQN 通過以下方面進行優化:首先,Q-learning 中使用獎勵來構造標簽;其次,采用經驗池(Prioritized-replay)來解決相關性以及非靜態分布的問題;最后,采用主網絡(Main Net)產生當前狀態的Q值,使用另一個目標網絡(Target Net)產生相應的目標Q值。

1.2 DQN神經網絡的構建

由圖1 可得,在使用Tensorflow 來實現DQN的過程中,一般選用兩個神經網絡進行搭建。其中target_net 用于預測Q_target 的值,但它并不會及時更新其中的參數;eval_net 用于預測Q_eval,該神經網絡擁有最新的神經網絡參數。這兩個神經網絡的結構是完全一致,只是其中的參數并不一樣。

圖1 DQN網絡

除了傳統的DQN 方法之外,可以通過對其進行優化,得到下列三個DQN 的優化算法:①Double DQN:解決了原本DQN 算法中Qmax導致Qreality當中的過估計問題;②Prioritized-replay DQN:在訓練過程中對獎勵較高或者較低的值加以重視;③Dueling DQN:將每個狀態的Q值分解成每個狀態的Value加上每個動作的advantage。

本文將DQN 算法作為基準,與七個組合模型的交易策略進行比較。表1 為DQN 算法與三個優化因子之間的組合情況。

表1 三個優化因子與DQN算法的任意組合

2 數據來源及樣本選擇

本文選取的股票數據取自雅虎金融(yahoo finance)網站,選取的對象為HDFC Bank(HDB)。本文設定的時間區間為2020 年9 月2 日至2022年9 月2 日這兩年期間所有交易日的歷史價格與成交量數據,包含最高價(high)、最低價(low)、開盤價(open)、收盤價(close)、成交量(volume)以及調整后的收盤價(adj close)共計505條。圖2是歷史數據集的總體趨勢圖。

圖2 HDB股票2020年9月2日到2022年9月2日歷史收盤價軌跡

從圖2 中,大致可以看出HDB 股票收盤價的歷史變化趨勢。從2020 年10 月到2021 年4 月保持上升趨勢,但2021 年4 月到2022 年7 月之后整體呈下降趨勢,2022 年7 月到2022 年9 月有所回暖。

3 實證研究

將原始數據分為以下兩個部分。其中,訓練集選取數據集中的前15~450 條數據,從第450~505條數據則作為測試集來評估模型。

為了控制其他變量的影響,將固定移動預測步長(window_size)為15 天,即預測下一天股票短期收益情況取決于前15 天的歷史數據;將總時間步數(total_timesteps= 150000),即循環訓練的總時間步長為150000次。

本文展開分析的角度共有兩個。首先,通過七種組合方法與單模型DQN 這一基線方法的對比,尋找出哪一個組合模型對短期股票預測效果較為貼切實際;其次,通過最終預測的短期股票收益情況,以此來確定這三種優化方面之間的相互促進或抑制作用。

3.1 七個組合模型以及基線模型的預測情況

在原始DQN 算法的基礎之上,可以優化的方面為以下三個,分別是:Double-Q,Prioritizedreplay 以及Dueling。通過這三個優化因子的任意隨機組合,將產生七個組合模型以及一個基線模型。將Double DQN、Prioritized-replay DQN、Dueling DQN、Prioritized-replayDoubleDQN、Dueling Double DQN、Prioritized-replay Dueling DQN、Full DQN 以及DQN(baseline)模型分別標記為1~8。考慮到每一次評估模型的預期漲跌情況為一隨機數,選取20 次實驗的結果以避免偶然性發生。表2 為這七個組合模型(序號1~7)以及基線模型(序號8)在測試集上最終持有資產相較于原始投入資產所占比重。

表2 七個組合模型以及基線模型在測試集上最終持有資產占原始投入資產比重

對表2 中的七個組合模型與基線模型DQN算法的20 次結果計算對應的平均資產變動情況(即平均值)與波動幅度(即標準差)。表3為這七個組合模型與DQN 這一單模型的股票預期平均資產變動與波動情況。

表3 DQN算法及其組合模型的股票測試集上預期資產變動與波動情況

通過表3,可以發現在前三種加入單一優化方面組合算法當中,只有Dueling DQN 這一組合算法的現有資產較原始投入資產上漲幅度最大,為2.00%。因此,說明Dueling DQN 這一方法在預測股票短期收益方面較為貼合實際情況,其精度較高。其次則為Dueling Double DQN 模型,其現持有資產相較于原始投入資產上漲1.96%,說明在原本的Dueling DQN 模型中加入Double-Q后未對原始模型起到顯著性的抑制作用,基本保持了原有的收益水平。最后則為Prioritizedreplay Dueling DQN 這一組合算法,相較于原始投入資產,其現有資產上漲了0.97%,說明在原本的Dueling DQN 模型中加入Prioritized-replay后,未對原本的Dueling DQN 算法起到任何促進作用,僅僅保持了微弱的收益幅度。由此說明,在這三個優化因子中,Dueling 這一優化因子的促進作用最強,其次是Double-Q,最后則為Prioritized-replay。

從最后一列的標準差,可以看出,相較于原本的DQN 模型,只有加入Prioritized-replay 這一優化因子后,標準差由原本的0.0488 降低至0.0474,由此可見波動幅度有小幅度的降低。說明Prioritized-replay 這一優化因子對DQN 模型的穩定性具有促進作用。而Dueling DQN 模型相較于原本的DQN 模型,其標準差上漲了0.0304。而該上漲幅度小于Double DQN 模型相較于原本的DQN 模型的0.0323。由此可見,在這三個優化因子中,對DQN 模型穩定性起到促進作用的為Prioritized-replay,對模型穩定性起到抑制作用的為Dueling以及Double-Q。

3.2 三個優化因子之間的關系

表4匯總了本文七個組合模型在測試集上的各項性能的表現,包括年華化收益率與夏普比率。

表4 七個組合算法的回測結果(測試集)

本文計算年化收益率的計算公式為:

其中:“現持有資產/原有資產”選取表3 中七個組合模型的結果,測試集天數為55(即505-450=55)。最終結果如表4所示。

對于夏普比率的計算,本文基于原本的公式進行了調整與改動。由于原始公式中包含無風險利率,本文將無風險利率替換為表3 中DQN 模型的現持有資產占原有資產的平均比重,為93.44%;而原始公式中的投資組合預期報酬率與其標準差也相應地替換為表3中七個組合模型的現持有資產占原有資產的平均比重以及標準差。本文計算夏普比率的公式為:

在年化收益率方面,基于Dueling DQN 模型在測試集上達到了13.27%,基于Dueling Double DQN 模型在測試集上達到了13.01%,基于Prioritized-replay Dueling DQN 算法在測試集上達到了6.44%。這三個模型均為在回測中有所盈利的,剩下的模型則均有所虧損。從整體上看,在原本的Double DQN 與Prioritized-replay DQN 模型中分別加入Dueling 這一優化因子后,其年化收益率均有顯著性提升;在原本的Double DQN模型與Dueling DQN 模型中加入Prioritized-replay這一優化因子后,年化收益率有明顯的負增長;在原本的Prioritized-replay DQN 模型與Dueling DQN 模型中加入Double-Q 這一優化因子后,年化收益率未起到了顯著性改變。

在夏普比率方面,基于Dueling DQN 算法在測試集上達到了1.0808,基于Dueling Double DQN 算法達到了1.0545,剩下的組合模型均小于1。由此可見,Dueling 與Double-Q 這兩個優化因子對DQN 模型均起到了促進作用,并且將二者同時加入模型中不會對模型起到顯著性的抑制作用。

4 結論及建議

本文通過將DQN 算法結合三個不同優化方面的七個相互組合模型,與單一模型DQN 算法進行對比,得出以下結論:①這七個組合模型中,只有Dueling DQN 算法的盈利率達到了最高,為2.00%,說明該模型對股票短期收益預測結果最為貼合實際;②這三個優化方面之間,Dueling 對Double-Q 與Prioritized-replay 均起到了顯著性促進作用,而Prioritized-replay對Double-Q與Dueling 均起到了顯著性抑制作用,Double-Q則對Prioritized-replay 與Dueling 未起到顯著性改變;③將三個優化方面對DQN 算法共同優化,相較于單一模型DQN 算法而言,盈虧率有所上升,由此可以得出三個優化方面之間存在相互獨立的作用。

本文在股票短期收益預測方面利用深度學習當中的DQN 算法進行探索,針對不同三個優化方面進行對比驗證,為后續將深度學習應用于金融領域奠定了基礎。鑒于短期預測的不穩定性,在未來后續研究中仍有可以優化提升的方面。個人認為后續研究還可以在兩大主題上進行展開:①引入較為穩定的預測方案及優化技巧的前沿方案,以此來抑制隨機性帶來的影響;②可將該DQN 算法應用在金融其他領域,例如投資領域,以此來促進我國金融領域智能化大力發展。

猜你喜歡
優化模型
一半模型
超限高層建筑結構設計與優化思考
房地產導刊(2022年5期)2022-06-01 06:20:14
民用建筑防煙排煙設計優化探討
關于優化消防安全告知承諾的一些思考
一道優化題的幾何解法
由“形”啟“數”優化運算——以2021年解析幾何高考題為例
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 乱色熟女综合一区二区| 澳门av无码| 久久精品亚洲专区| 91精品国产一区自在线拍| 成人在线不卡视频| 中文字幕在线日韩91| 99久久国产综合精品2020| 一区二区三区四区精品视频| 欧美国产中文| 国产视频只有无码精品| 久久www视频| 2021国产乱人伦在线播放| 国产精品 欧美激情 在线播放| 欧美日一级片| 亚洲国产成人在线| 色欲色欲久久综合网| 亚洲欧美日韩中文字幕一区二区三区| 国产精品无码制服丝袜| 大陆精大陆国产国语精品1024| 日韩a在线观看免费观看| 无码中文字幕加勒比高清| 国产麻豆aⅴ精品无码| 国产浮力第一页永久地址| 一级香蕉人体视频| 国产成人高清在线精品| 深夜福利视频一区二区| 丁香五月婷婷激情基地| av尤物免费在线观看| 亚洲免费三区| 国产粉嫩粉嫩的18在线播放91 | 热久久综合这里只有精品电影| 国产本道久久一区二区三区| 毛片网站观看| 精品第一国产综合精品Aⅴ| 人人91人人澡人人妻人人爽| 好紧太爽了视频免费无码| 91久久夜色精品国产网站 | 成人午夜福利视频| 香蕉国产精品视频| 毛片网站在线看| 亚洲国产日韩在线成人蜜芽| www亚洲精品| 啪啪国产视频| 久久综合九色综合97婷婷| 一区二区日韩国产精久久| 久青草网站| 国产清纯在线一区二区WWW| 亚洲精品午夜无码电影网| 成人午夜网址| 国产精品女熟高潮视频| 精品一区二区三区无码视频无码| 国产网站一区二区三区| 永久免费av网站可以直接看的 | 国产午夜一级淫片| 国产精品专区第1页| 日韩一二三区视频精品| 亚洲Aⅴ无码专区在线观看q| 国产精品亚欧美一区二区三区| 久久国产精品电影| 成人av专区精品无码国产| 伊人久热这里只有精品视频99| 99久久精品美女高潮喷水| 黄色国产在线| 尤物特级无码毛片免费| 欧美无遮挡国产欧美另类| 亚洲高清在线天堂精品| 亚洲高清资源| 日韩人妻少妇一区二区| 久久免费视频播放| 中国一级特黄视频| 亚洲欧美成aⅴ人在线观看| 亚洲欧美日韩另类| 成人免费一级片| 欧美在线天堂| www.亚洲一区| 日韩麻豆小视频| 毛片手机在线看| 无码精油按摩潮喷在线播放 | 五月婷婷中文字幕| 青青青视频91在线 | 无码日韩精品91超碰| 日韩欧美中文|