999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于強化學(xué)習(xí)的動態(tài)定價策略研究綜述

2019-12-12 07:27:58
計算機應(yīng)用與軟件 2019年12期
關(guān)鍵詞:動作策略研究

王 欣 王 芳

(上海外國語大學(xué)國際工商管理學(xué)院 上海 200083)

0 引 言

隨著互聯(lián)網(wǎng)的發(fā)展及電子商務(wù)的普及,人們獲取商品和服務(wù)信息變得越來越容易而且全面。商品或服務(wù)價格的變動也會在最短時間內(nèi)對消費者的購物行為產(chǎn)生影響,從而直接影響企業(yè)效益。為了最大化效益,企業(yè)經(jīng)常會基于某些因素定期或不定期調(diào)整商品或服務(wù)價格,這也與人工智能領(lǐng)域強化學(xué)習(xí)的目標一致。強化學(xué)習(xí)的目標是最大化長期收益,因此,通過強化學(xué)習(xí)的技術(shù)手段可以實現(xiàn)商品或服務(wù)的智能定價。

動態(tài)定價是企業(yè)根據(jù)顧客需求和自身供應(yīng)能力等信息動態(tài)調(diào)整商品價格,以實現(xiàn)收益最大化的策略[1],有些學(xué)者也將其稱為個性化定價[2]。隨著人工智能技術(shù)的不斷發(fā)展,越來越多的學(xué)者嘗試采用智能方法來解決動態(tài)定價問題,強化學(xué)習(xí)(Reinforcement Learning,RL)便是最廣泛使用的技術(shù)之一。它受到自然界人和動物能夠有效適應(yīng)環(huán)境的啟發(fā),通過不斷試錯的方式從環(huán)境中進行學(xué)習(xí),是機器學(xué)習(xí)的一個重要分支。它在人工智能問題求解、多智能體控制、機器人控制與運動規(guī)劃、決策控制等領(lǐng)域有著十分廣泛的應(yīng)用[3-5],是智能系統(tǒng)設(shè)計與決策的核心技術(shù)之一,也是進行智能動態(tài)定價策略研究的關(guān)鍵問題。

因此,深入研究強化學(xué)習(xí)方法在動態(tài)定價領(lǐng)域的應(yīng)用,對于推動人工智能、強化學(xué)習(xí)方法的發(fā)展及其在動態(tài)定價等領(lǐng)域的應(yīng)用都有非常重要的意義。本文將從強化學(xué)習(xí)的技術(shù)和其在動態(tài)定價領(lǐng)域的具體應(yīng)用兩方面展開綜述。首先,基于現(xiàn)有動態(tài)定價用到相關(guān)強化學(xué)習(xí)關(guān)鍵技術(shù)進行介紹;然后分別從不同角度綜述強化學(xué)習(xí)在動態(tài)定價中的應(yīng)用,分析其優(yōu)缺點;最后分析強化學(xué)習(xí)在動態(tài)定價領(lǐng)域的應(yīng)用前景。

1 強化學(xué)習(xí)

根據(jù)反饋的差異,機器學(xué)習(xí)技術(shù)可以分為監(jiān)督學(xué)習(xí)(Supervised Learning,SL)、無監(jiān)督學(xué)習(xí)(Unsupervised Learning,UL)和強化學(xué)習(xí)三大類,其中:監(jiān)督學(xué)習(xí)完成的是與環(huán)境沒有交互的記憶和知識重組,要求給出學(xué)習(xí)系統(tǒng)在各種輸入信號下的期望輸出;無監(jiān)督學(xué)習(xí)主要是聚類等自組織學(xué)習(xí)方式;強化學(xué)習(xí)是通過“試錯”的方式與環(huán)境進行交互,通過最大化累積獎賞的方式來學(xué)習(xí)到最優(yōu)策略[6-7],它通過與環(huán)境的交互,并根據(jù)交互過程中所獲得的立即獎賞信號進行學(xué)習(xí),以求極大化期望累積獎賞,是機器學(xué)習(xí)的一個重要分支。

強化學(xué)習(xí)的工作原理和人類的學(xué)習(xí)模式類似。如果Agent的某個動作得到了環(huán)境的正獎賞,那么Agent以后的動作就會增強;如果得到了負獎賞,那么以后的動作就會減弱[8]。強化學(xué)習(xí)的目標是學(xué)習(xí)到一個動作策略,使得系統(tǒng)獲得最大的累積獎賞。在強化學(xué)習(xí)中,Agent在環(huán)境s下選擇并執(zhí)行一個動作a,環(huán)境接受動作后變?yōu)閟′,并把一個獎賞信號r反饋給Agent,Agent根據(jù)獎賞信號選擇后續(xù)動作[9]。在動態(tài)定價相關(guān)研究中,強化學(xué)習(xí)系統(tǒng)的目標是使廠商能夠最大化總體收益,而忽略單筆交易的短期利益。強化學(xué)習(xí)架構(gòu)一般包括四個要素:策略(Policy)、獎懲反饋(Reward)、值函數(shù)(Value Function)、環(huán)境模型(Environment)。動態(tài)定價的環(huán)境相關(guān)因素繁多且復(fù)雜,以往強化學(xué)習(xí)的動態(tài)定價研究主要基于以下幾種環(huán)境框架。

1.1 馬爾可夫決策過程(MDP)

馬爾可夫決策過程一般用來解決順序型強化學(xué)習(xí)問題。它是一個五元組:(S,A,P,R,γ),其中:

(1)S是一組有限的狀態(tài)s∈S。

(2)A是一組有限的行為(S,A,P,R,γ)。

(5)γ∈[0,1]是折現(xiàn)系數(shù),代表未來獎勵與現(xiàn)在獎勵之間的重要差異[7,10]。馬爾可夫決策過程的本質(zhì)是:當(dāng)前狀態(tài)向下一狀態(tài)轉(zhuǎn)移的概率和獎賞值只取決于當(dāng)前狀態(tài)和選擇的動作,而與歷史狀態(tài)和歷史動作無關(guān)。在馬爾可夫動態(tài)模型在策略π下的值函數(shù)由貝爾曼方程(Bellman equation)定義[7]。強化學(xué)習(xí)方法是通過最大化值函數(shù)來改進策略,并最終得到最優(yōu)策略π*。Vπ(s)表示從狀態(tài)s開始,執(zhí)行當(dāng)前策略所得到的狀態(tài)值函數(shù)。狀態(tài)值函數(shù)的貝爾曼最優(yōu)方程表示為[7,11-12]:

(1)

狀態(tài)動作值函數(shù)Q*(s,a)定義為從狀態(tài)s開始,執(zhí)行動作a所得到的期望回報值。因此,在最優(yōu)策略π*下狀態(tài)動作值函數(shù)Q*(s,a)的貝爾曼最優(yōu)方程表示為:

(2)

1.2 半馬爾可夫決策過程(SMDP)

針對從狀態(tài)st開始、在st+1結(jié)束的動作a,期間執(zhí)行的步長為τ,它的狀態(tài)轉(zhuǎn)移概率為:P(τ,st+τ=s|st=s,at=a)[13]。τ可以是連續(xù)時間離散系統(tǒng)的實數(shù),也可以是離散系統(tǒng)的整數(shù)。SMDPs的狀態(tài)值函數(shù)貝爾曼最優(yōu)方程表示為[13]:

a)V*(s′)}

(3)

SMDP最優(yōu)狀態(tài)動作值函數(shù)Q*(s,a)表示為:

(4)

1.3 部分可觀測馬爾可夫決策過程(POMDP)

POMDP是一種通用化的馬爾可夫決策過程。POMDP模擬代理人決策程序是假設(shè)系統(tǒng)動態(tài)由MDP決定,但是代理人無法直接觀察目前的狀態(tài)。相反地,它必須要根據(jù)模型的全域與部分區(qū)域觀察結(jié)果來推斷狀態(tài)的分布[14-19]。與MDP不同的是,POMDP模型中不再直接觀察狀態(tài)s′,而是去感知一個觀測(或采樣)o∈Ω。離散觀察集合Ω={o1,o2,…,oM}代表所有可能的Agent能夠接收到的感知器讀數(shù)。Agent接收到的觀測值取決于下一個環(huán)境狀態(tài)s′以及在一定條件下可能也取決于Agent采取的動作a[20]。

正如完全可觀察MDP問題一樣,Agent的目標是選擇動作使得任務(wù)盡可能完美的完成,即讓Agent學(xué)習(xí)一個最優(yōu)策略。在POMDP問題中,一個最優(yōu)策略π*(b)將信度映射到動作上。但是和MDP問題相反,

策略π描述成一個價值函數(shù)V:Δ(S)→R,定義為Agent在遵循策略π的條件下從信度分布b開始收集到的期望未來減量回報V(b),具體表示為:

V(b)=E{∑γtR(bt,π(bt))|b0=b}

(5)

式中:R(bt,π(bt))=∑R(s,π(bt))bt(s)。最大化V的策略π稱為最優(yōu)策略π*,它為每個信度b在當(dāng)前步長內(nèi)執(zhí)行一個最優(yōu)行為a,并假設(shè)Agent會在后續(xù)時間步長內(nèi)執(zhí)行最優(yōu)行為a。最優(yōu)策略π*的值是通過最優(yōu)價值函數(shù)V*定義的。該價值函數(shù)滿足貝爾曼最優(yōu)方程,表示為:

V*=HPOMDPV*

(6)

(7)

式中:HPOMDP是POMDP的貝爾曼備份算子[21-29]。

2 強化學(xué)習(xí)算法

強化學(xué)習(xí)可以分為基于值函數(shù)的強化學(xué)習(xí)和基于策略的強化學(xué)習(xí)。在基于值函數(shù)的強化學(xué)習(xí)中,常用的學(xué)習(xí)算法包括Q-Learning算法、SARSA算法和蒙特卡羅算法。在基于強化學(xué)習(xí)的動態(tài)定價研究中,這三種算法也是經(jīng)常采用的算法。

2.1 Q-Learning算法

Q-Learning算法是無模型算法,其迭代公式表示為[30-36]:

(8)

式中:Q(st,at)為t時刻的狀態(tài)動作值;r為獎賞值;γ為折扣因子;αt是學(xué)習(xí)率;δt表示時間差分(temporal difference,TD)誤差;a′是狀態(tài)st+1能夠執(zhí)行的動作。

2.2 SARSA算法

作為SARSA算法的名字本身而言,它實際上是由S、A、R、S、A幾個字母組成的。而S、A、R分別代表狀態(tài)(State)、動作(Action)和獎勵(Reward)。SARSA是一種策略算法,能夠在獎賞函數(shù)和狀態(tài)轉(zhuǎn)移概率未知的情況下,通過狀態(tài)動作值函數(shù)迭代找到最優(yōu)策略。當(dāng)狀態(tài)動作對被無限次訪問時,該算法會以概率1收斂到最優(yōu)策略及狀態(tài)動作值函數(shù)。SARSA算法在學(xué)習(xí)中采用相對安全的動作,因此該算法的收斂速度較慢。迭代公式表示為[6,37-41]:

Q(s,a)=Q(s,a)+α{r+γQ(s′,a′)-Q(s,a)}

(9)

2.3 蒙特卡羅算法

蒙特卡羅算法不需要對環(huán)境的完整知識,僅僅需要經(jīng)驗就可以求解最優(yōu)策略,這些經(jīng)驗可以在線獲得或者根據(jù)某種模擬機制獲得。蒙特卡羅方法保持對狀態(tài)動作和未來獎賞的頻率計數(shù),并根據(jù)估計建立它們的值。蒙特卡羅技術(shù)基于樣本來估計平均樣本的回報。對于每個狀態(tài)s∈S,保留所有從s獲得的狀態(tài),一個狀態(tài)s∈S的值是它們的平均值。特別對于周期性任務(wù),蒙特卡羅技術(shù)是非常有用的。由于采樣依賴于當(dāng)前策略π,策略π只評估建議動作的回報[42-46]。值函數(shù)更新規(guī)則表示為:

V(st)→V(st+1)+α(rt-V(st))

(10)

式中:rt為t時刻的獎賞值;α為步長參數(shù)。

3 基于強化學(xué)習(xí)的動態(tài)定價策略

強化學(xué)習(xí)方法用于解決動態(tài)定價問題時,主要從供應(yīng)商數(shù)目(單供應(yīng)商、多供應(yīng)商)、所處環(huán)境模型(MDP、POMDP、Semi-MDP)、選用算法(Q-Learning,SARSA,Monte-Carlo)等方面進行假設(shè)和研究。

無論是傳統(tǒng)還是基于強化學(xué)習(xí)的多供應(yīng)商動態(tài)定價研究通常對市場中供應(yīng)商數(shù)量進行假設(shè),一般分為單供應(yīng)商和多供應(yīng)商。而對于多供應(yīng)商的研究,大多假設(shè)市場存在兩個供應(yīng)商,且兩個供應(yīng)商之間存在某種競爭關(guān)系。在基于強化學(xué)習(xí)的研究中表示為兩個Agent,且在它們之間存在相互影響和競爭。文獻[4]研究了網(wǎng)格服務(wù)供應(yīng)商(Grid Service Provider)在市場上存在兩家供應(yīng)商時如何進行動態(tài)定價。文獻[48-49]對于航空公司定價策略的研究中,將市場上存在的航空公司數(shù)量假定為兩家。文獻[50]研究了電子商務(wù)市場多家供應(yīng)商競爭的情況,但在供應(yīng)商的數(shù)量上依然延續(xù)了兩家供應(yīng)商的假設(shè)。文獻[51]在研究中,假設(shè)市場由一個供應(yīng)商分別供貨給兩個零售商,從而研究如何定價能使零售商的利益最大化,因此也是將研究對象定位在了兩個零售商上。文獻[52]針對兩銷售商間沒有信息交互的異步動態(tài)定價問題進行了研究。文獻[53]基于多Agent強化學(xué)習(xí)算法對季節(jié)性商品動態(tài)定價策略進行研究,并在研究中將Agent數(shù)目確定為兩個。與此同時,也有文獻對壟斷供應(yīng)商動態(tài)定價策略進行了相關(guān)研究。文獻[54]研究了處于壟斷地位的公司如何進行動態(tài)定價以實現(xiàn)利潤最大化。文獻[55]研究了只有一家供應(yīng)商的情況下,基于強化學(xué)習(xí)的動態(tài)定價專家系統(tǒng)的設(shè)計方法。文獻[56]研究了動態(tài)環(huán)境中,航空、酒店和時尚等行業(yè)只有一家供應(yīng)商的情況下,如何進行動態(tài)定價,以實現(xiàn)最佳的收益管理(revenue management)。文獻[57]研究了在壟斷能源行業(yè)如何通過強化學(xué)習(xí)技術(shù)實現(xiàn)動態(tài)定價和收益最大化。

在環(huán)境模型的選擇方面,之前的研究也根據(jù)不同情況做了界定。文獻[48-49]對于航空企業(yè)票價動態(tài)定價的研究全部基于MDP模型。文獻[50]在環(huán)境模型為MDP的前提下對兩個Agent的系統(tǒng)進行了研究,從而提出了一種競爭定價策略。文獻[51]通過使用SARSA算法提出了一種解決動態(tài)定價問題的方法,該研究的前提也是決策過程符合MDP。文獻[52]在MDP環(huán)境模型下對于異步動態(tài)定價進行了相關(guān)研究。文獻[53]結(jié)合強化學(xué)習(xí)和性能勢,在MDP環(huán)境下,對動態(tài)定價進行了研究。文獻[54]在MDP下對有交互作用的商品的動態(tài)定價進行研究。文獻[56]根據(jù)不同客戶類型劃分,研究了電子商務(wù)市場的動態(tài)定價策略。文獻[57]研究了壟斷能源行業(yè)如何在MDP環(huán)境下建立智能動態(tài)定價策略。文獻[58]在MDP下研究了動態(tài)環(huán)境下實時動態(tài)定價策略。文獻[59]基于Q-learning算法對能源行業(yè)白天零售市場的定價策略研究。文獻[47]將基于POMDP梯度的函數(shù)逼近應(yīng)用于產(chǎn)品或服務(wù)定價。文獻[60]基于POMDP,研究了電子商務(wù)市場的動態(tài)定價策略。文獻[61]基于SMDP研究了動態(tài)定價的最優(yōu)策略。此外,文獻[62]基于SMDP研究了壟斷企業(yè)的動態(tài)定價策略。

在算法方面,國內(nèi)外學(xué)者也根據(jù)研究內(nèi)容的差異進行了差別選擇。在動態(tài)定價方相關(guān)研究中,應(yīng)用最廣泛的是Q-learning及其改進算法。在網(wǎng)格計算市場上,文獻[47]基于Q-learning算法提出了在部分可觀測環(huán)境中的動態(tài)決策模型,并通過調(diào)節(jié)參數(shù)來調(diào)節(jié)梯度方向,從而使算法收斂到最優(yōu)值函數(shù)。在航空業(yè)動態(tài)定價的中,文獻[48]在2012年對Q-learning、SARSA和蒙特卡羅算法進行了對比研究。在電子商務(wù)領(lǐng)域,文獻[50]基于Q-learning算法,對多Agent的環(huán)境定價策略進行了研究。文獻[52]對于兩銷售商間沒有信息交互的異步動態(tài)定價問題的研究也是基于Q-learning和WoLF-PHC算法。文獻[55]基于帶資格跡(eligibility traces)的Q-learning算法研究了相互影響的商品和服務(wù)應(yīng)該如何動態(tài)定價。文獻[56]通過Q-learning對電子商務(wù)市場的動態(tài)定價策略進行了研究。文獻[59]使用Q-learning實現(xiàn)了多Agent系統(tǒng),完成零售市場的動態(tài)定價。文獻[60]利用改進Q-Learning對電子商務(wù)中不同產(chǎn)品線的動態(tài)定價策略。

同時,也有很多研究采用了SARSA和蒙特卡羅算法。文獻[49]在不同客戶模型下,通過SARSA算法實現(xiàn)了對航空業(yè)的動態(tài)定價。在競爭性訂單的動態(tài)定價策略中,文獻[51]也使用了SARSA算法。在競爭背景下壟斷企業(yè)的動態(tài)定價策略采用了蒙特卡羅算法[54]。文獻[58]也采用無模型的蒙特卡羅算法實現(xiàn)了非靜態(tài)環(huán)境的動態(tài)定價。文獻整體情況如表1所示。

表1 文獻總結(jié)表

4 結(jié) 語

在前人關(guān)于動態(tài)定價的研究中,學(xué)者們分別基于單Agent和多Agent進行了相關(guān)研究。在解決現(xiàn)實問題中,對于模型的選擇要根據(jù)實際需求,以最簡單有效的方式解決問題為原則。在今后的研究中,需要結(jié)合不同實際應(yīng)用場景和領(lǐng)域?qū)gent的數(shù)量進行界定。從目前強化學(xué)習(xí)技術(shù)的發(fā)展來看,對于單Agent和雙Agent的研究比較系統(tǒng)和完善,因此對于Agent的不同數(shù)量及Agent之間的相互作用需要進一步加強和完善。多Agent之間的信息交換是應(yīng)用強化學(xué)習(xí)技術(shù)解決動態(tài)定價問題時需要進一步考慮的因素。

決策過程框架是強化學(xué)習(xí)實現(xiàn)的前提,不同的問題需要在不同環(huán)境框架下解決。從以往的研究來看,學(xué)者們的研究多基于馬爾可夫決策過程(MDP),MDP是強化學(xué)習(xí)中最簡單的一類過程,半馬爾可夫決策過程(SMDP)和POMDP因為考慮了學(xué)習(xí)過程中其他的因素,是更復(fù)雜的決策過程。近幾年,基于SMDP和POMDP的動態(tài)定價研究也逐漸展開。由于SMDP可以在隨機個時間步上完成,因此動態(tài)定價可以應(yīng)用于連續(xù)系統(tǒng),更接近真實的定價環(huán)境。POMDP是一種更通用化的馬爾可夫決策過程,對于Agent來說,因為部分狀態(tài)不可知,所以也更符合動態(tài)定價的實際情況。

目前對于動態(tài)定價研究的算法主要基于Q-learning、SARSA和蒙特卡羅及其改進算法,尤其是Q-learning算法應(yīng)用最為廣泛。但Q-learning算法屬于表格型算法,對于小規(guī)模和離散系統(tǒng)有比較好的學(xué)習(xí)效果,但對于連續(xù)的大規(guī)模系統(tǒng),則會有收斂速度慢或無法收斂的情況。而深度強化學(xué)習(xí)(Deep Reinforcement Learning,DRL)正能彌補這一不足。它將深度學(xué)習(xí)的感知能力與強化學(xué)習(xí)的決策能力相結(jié)合,并因為AlphaGo的成功而成為人工智能發(fā)展的一個里程碑。它是一種通用性很強的端到端的感知和控制系統(tǒng)。目前,其在機器人控制、機器視覺、自然語言處理、智能醫(yī)療等領(lǐng)域獲得了廣泛的推廣。雖然目前鮮有基于深度強化學(xué)習(xí)進行動態(tài)定價研究,但這是一個值得學(xué)者們努力實踐的方向。

猜你喜歡
動作策略研究
FMS與YBT相關(guān)性的實證研究
遼代千人邑研究述論
例談未知角三角函數(shù)值的求解策略
視錯覺在平面設(shè)計中的應(yīng)用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
我說你做講策略
EMA伺服控制系統(tǒng)研究
動作描寫要具體
高中數(shù)學(xué)復(fù)習(xí)的具體策略
畫動作
動作描寫不可少
主站蜘蛛池模板: 国产成人毛片| 人妻丰满熟妇av五码区| 亚洲精品福利视频| 久久不卡国产精品无码| 亚洲AⅤ波多系列中文字幕| 亚洲男人天堂网址| 日韩欧美网址| 亚洲无码高清免费视频亚洲 | 综合久久五月天| 国内毛片视频| 国产在线91在线电影| 国产精品熟女亚洲AV麻豆| 国产麻豆精品在线观看| 欧美区一区二区三| 欧洲免费精品视频在线| 青青草国产精品久久久久| 九九久久精品免费观看| 无码国产伊人| 国产精品成人啪精品视频| 国产精品视屏| 成人亚洲视频| 国产精品原创不卡在线| 亚洲色图欧美一区| 成人韩免费网站| 国产精品第页| 精品无码一区二区三区在线视频| 久久黄色小视频| 久久人搡人人玩人妻精品一| 欧美午夜在线观看| 在线观看无码av免费不卡网站| 91福利一区二区三区| 国产乱视频网站| 欧美精品亚洲精品日韩专区va| 香蕉综合在线视频91| 国产精品刺激对白在线| 国产欧美又粗又猛又爽老| 刘亦菲一区二区在线观看| 久久频这里精品99香蕉久网址| 久久男人资源站| 一本大道AV人久久综合| 国产aⅴ无码专区亚洲av综合网| 欧美日韩精品一区二区在线线 | 欧美日韩一区二区三区四区在线观看| 亚洲人成影院午夜网站| 久久久久人妻一区精品| 欧美中文字幕在线视频| 国产精品冒白浆免费视频| 久久久久青草大香线综合精品 | 国产在线八区| 99人体免费视频| 欧美国产中文| 激情五月婷婷综合网| 露脸真实国语乱在线观看| 最新无码专区超级碰碰碰| 亚洲欧美日韩成人在线| 色婷婷成人| 日韩高清成人| 亚洲成av人无码综合在线观看| 美女被操黄色视频网站| 精品一区二区久久久久网站| 99视频在线精品免费观看6| A级毛片高清免费视频就| 色妞www精品视频一级下载| 亚洲黄色成人| 亚洲系列中文字幕一区二区| 欧亚日韩Av| 日本三级精品| 巨熟乳波霸若妻中文观看免费| 91精品综合| 一级毛片无毒不卡直接观看| 欧美三级日韩三级| 天堂成人av| 亚洲大学生视频在线播放| 精品国产自| 色哟哟国产精品一区二区| 国产美女无遮挡免费视频| 色爽网免费视频| 国产免费a级片| 国产欧美日韩另类| 亚洲国产天堂久久综合226114| 久久国产高清视频| 免费高清自慰一区二区三区|