999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于強化學習的資產(chǎn)組合配置優(yōu)化

2021-07-17 16:13:06羅曉牧
錦繡·中旬刊 2021年7期
關(guān)鍵詞:智能環(huán)境實驗

本文主要使用強化學習對三支股票進行資產(chǎn)組合,并與傳統(tǒng)的投資組合理論進行比較。實驗結(jié)果表明,基于強化學習的方法,可以對資產(chǎn)進行有效的配置,在特定的情況下優(yōu)于傳統(tǒng)的投資組合理論。

1.背景

強化學習是人工智能中最有趣的分支之一,在眾多的問題中已經(jīng)顯示出其力量,震驚世界,包括擊敗世界象棋冠軍,圍棋冠軍,甚至在游戲 DotA 2中勝出 [1]。使用強化學習進行股票交易,一直被數(shù)據(jù)科學家認為是一個“圣杯”。

使用機器學習進行股票交易有多種方式。一種方法是使用預(yù)測模型對股價的波動進行建模,然后使用基于啟發(fā)式的機器人根據(jù)預(yù)測值進行操作。另外一種方法是建造一個機器人,這個機器人可以直接根據(jù)股票的波動進行操作,包括買、賣、不操作。這是一種十分適合強化學習的環(huán)境,因為我們只有當交易結(jié)束的時候才知道我們操作的累積結(jié)果。

2.問題描述

我們可以將問題描述為:給定三支不同的股票的歷史數(shù)據(jù),我們應(yīng)該如何將固定總量的資金分配到這些股票上,使得最終收益最大。隨著時間的改變,策略需要根據(jù)最新的信息重新構(gòu)建投資組合,做出最優(yōu)的分配。

我們的解決方案就是構(gòu)造出一個強化學習模型,然后智能體在每一個時刻根據(jù)每個股票的指標值進行資金分配。我們將基于強化學習的策略與馬科維茨 (Markowitz) 的有效邊界理論作對比——對于大部分的基金經(jīng)理都是使用馬科維茨的理論以及各種直覺做出資產(chǎn)配置的 [2]。

3.強化學習

強化學習的主要任務(wù)是設(shè)計出一個“智能體”,然后這個“智能體”不斷地與“環(huán)境”交互,通過系統(tǒng)性地試錯,得出最終的“行動方案”。“環(huán)境”可以是游戲,如象棋或者圍棋,也可以是更加具體的任務(wù),如走出迷宮,或者拿到一個物品。“智能體”就是執(zhí)行動作的機器人。

通過與環(huán)境交互,“智能體”將得到“獎勵”。智能體不斷學習各種“行動”,期望能從環(huán)境中得到更多的“獎勵”。如果智能體得到的累積獎勵超過一定的閾值,則我們認為它已經(jīng)很好地適應(yīng)了環(huán)境。

我們將設(shè)計出一個智能體,使用某種策略與交易環(huán)境進行交互,以達到最大的投資組合收益。對于我們的問題,就是要決定投資組合的維持比例,如:30%股票A,40%股票B,20%股票C,10%現(xiàn)金,然后智能體就會得到一個正的或者負的反饋。通過反復(fù)的嘗試,智能體將不斷迭代策略,直到得出在給定的環(huán)境狀態(tài)下的最佳行動方案。

4.環(huán)境設(shè)置

為了模擬真實的交易環(huán)境,智能體可以與環(huán)境進行以下的交互:

步驟 1:環(huán)境提供三支股票的當前狀態(tài)的指標;

步驟 2: 智能體對環(huán)境做出一個動作。這個動作就是資產(chǎn)組合的分配。例如:10%現(xiàn)金,40%股票 1,35%股票 2,15%股票

步驟 3:環(huán)境狀態(tài)更改,前進一個時刻點,返回新的狀態(tài),并且得到之前資產(chǎn)組合的獎勵。

步驟 1 到步驟 3 不斷重復(fù)直到一次實驗的結(jié)束。每一步驟得到的獎勵累積起來就是總的獎勵。我們的目標就是要最大化每次實驗的總的獎勵。

每次環(huán)境重置都會從全體數(shù)據(jù)庫中抽取出不同的片段。每次的環(huán)境都不相同,這能夠避免智能體記住了環(huán)境。更進一步,智能體的訓練和評價,都是在不同的環(huán)境下進行的。因此,智能體從數(shù)據(jù)中的一部分中學習策略,從另一部分數(shù)據(jù)中進行評估。我們評價強化學習模型和馬科維茨模型都是使用相同的步驟。

5.馬科維茨有效邊界模型

馬科維茨的有效邊界模型是評價資產(chǎn)組合的風險與收益的框架模型。投資組合的收益是投資組合每一個時間點的收益的均值。風險是每日收益的標準差,用于評價股票的波動率。基金經(jīng)理根據(jù)每一種投資組合的風險與收益,畫出有效邊界然后做出決策。有效邊界上的每一個點都顯示了在給定風險組合的情況下得到的最高收益。在我們的實驗中,我們設(shè)計了一種智能體,能根據(jù)之前 30 個時刻的投資組合表現(xiàn),構(gòu)造出一個中等風險高收益的組合。

6.實驗結(jié)果比較

對于強化學習,我們使用了未經(jīng)調(diào)優(yōu)的 Actor Critic 模型,運行了 100 次的環(huán)境實驗,平均收益為 +20%。對于馬科維茨模型,其實驗結(jié)果為-1%。有效邊界模型的表現(xiàn)并不好,也許是因為我們所挑選股票的高波動性。當所有的股票價格下降時,基于強化學習的模型會賣出股票增加手里的現(xiàn)金。并且,強化學習模型可以捉住每一次價格的波動并利用起來。因此,基于強化學習的資產(chǎn)組合配置,其表現(xiàn)優(yōu)于傳統(tǒng)的馬科維茨模型。

參考文獻

[1] https://www.geeksforgeeks.org/what-is-reinforcement-learning/

[2] https://zhuanlan.zhihu.com/p/166163706

作者簡介:羅曉牧(出生年月1980-),性別:男,廣東省廣州市(籍貫),現(xiàn)職稱:副教授,學歷:工科博士研究生畢業(yè),研究方向:機器學習,無線傳感器網(wǎng)絡(luò),生物信息獲取.廣州中醫(yī)藥大學醫(yī)學信息工程學院.

猜你喜歡
智能環(huán)境實驗
記一次有趣的實驗
長期鍛煉創(chuàng)造體內(nèi)抑癌環(huán)境
一種用于自主學習的虛擬仿真環(huán)境
孕期遠離容易致畸的環(huán)境
做個怪怪長實驗
環(huán)境
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
主站蜘蛛池模板: 狠狠操夜夜爽| 毛片大全免费观看| 乱系列中文字幕在线视频| 波多野结衣一区二区三区四区视频 | 99视频只有精品| 97视频在线精品国自产拍| 久久这里只有精品66| 日韩精品一区二区深田咏美| 日本人妻丰满熟妇区| 91精品国产福利| 中文字幕在线观看日本| 日韩小视频在线观看| 免费又爽又刺激高潮网址| 成年人国产视频| 在线免费观看a视频| 欧美综合区自拍亚洲综合天堂| 国产欧美又粗又猛又爽老| 在线看国产精品| 噜噜噜久久| 91国内外精品自在线播放| 成人在线观看不卡| 国产噜噜噜| 在线观看亚洲人成网站| 国产乱子精品一区二区在线观看| 2020国产精品视频| 日韩高清欧美| 欧洲免费精品视频在线| 青草视频网站在线观看| 亚洲国语自产一区第二页| 欧美日韩国产在线观看一区二区三区| 日本国产精品一区久久久| 韩国自拍偷自拍亚洲精品| 亚洲最黄视频| 久久精品91麻豆| 国产成人无码Av在线播放无广告| 亚洲一区二区精品无码久久久| 日韩福利视频导航| 依依成人精品无v国产| 中文字幕1区2区| 国产精品所毛片视频| 人妻少妇久久久久久97人妻| 真实国产精品vr专区| 免费全部高H视频无码无遮掩| 午夜福利网址| 亚洲成人播放| 中文字幕一区二区人妻电影| 女人18一级毛片免费观看| 国产成人精品18| 理论片一区| 欧美日韩午夜| 毛片卡一卡二| 亚洲IV视频免费在线光看| 狠狠色综合久久狠狠色综合| 久操中文在线| 亚洲美女视频一区| 一本大道香蕉久中文在线播放| 自拍偷拍欧美日韩| 老色鬼久久亚洲AV综合| 久久国产av麻豆| 亚洲国产精品一区二区第一页免| 国产自无码视频在线观看| 日韩在线播放中文字幕| 国产综合另类小说色区色噜噜 | 亚洲美女一级毛片| 天天爽免费视频| 久久不卡精品| 日韩最新中文字幕| 亚洲伊人电影| 亚洲男人天堂2020| 免费中文字幕一级毛片| 国产成人高清精品免费5388| 亚洲欧美一区在线| 3344在线观看无码| 久久这里只精品热免费99| 亚洲第一香蕉视频| 久久这里只精品国产99热8| 国产精品自拍合集| 女人av社区男人的天堂| 成人中文在线| 亚洲天堂日韩在线| 国产亚洲视频在线观看| 国产一级毛片在线|