基于強化學(xué)習(xí)的動態(tài)定價策略研究綜述

2019-12-12 07:27:58王欣王芳

計算機應(yīng)用與軟件 2019年12期

王欣王芳

(上海外國語大學(xué)國際工商管理學(xué)院上海 200083)

0 引言

隨著互聯(lián)網(wǎng)的發(fā)展及電子商務(wù)的普及，人們獲取商品和服務(wù)信息變得越來越容易而且全面。商品或服務(wù)價格的變動也會在最短時間內(nèi)對消費者的購物行為產(chǎn)生影響，從而直接影響企業(yè)效益。為了最大化效益，企業(yè)經(jīng)常會基于某些因素定期或不定期調(diào)整商品或服務(wù)價格，這也與人工智能領(lǐng)域強化學(xué)習(xí)的目標一致。強化學(xué)習(xí)的目標是最大化長期收益，因此，通過強化學(xué)習(xí)的技術(shù)手段可以實現(xiàn)商品或服務(wù)的智能定價。

動態(tài)定價是企業(yè)根據(jù)顧客需求和自身供應(yīng)能力等信息動態(tài)調(diào)整商品價格，以實現(xiàn)收益最大化的策略[1]，有些學(xué)者也將其稱為個性化定價[2]。隨著人工智能技術(shù)的不斷發(fā)展，越來越多的學(xué)者嘗試采用智能方法來解決動態(tài)定價問題，強化學(xué)習(xí)(Reinforcement Learning，RL)便是最廣泛使用的技術(shù)之一。它受到自然界人和動物能夠有效適應(yīng)環(huán)境的啟發(fā)，通過不斷試錯的方式從環(huán)境中進行學(xué)習(xí)，是機器學(xué)習(xí)的一個重要分支。它在人工智能問題求解、多智能體控制、機器人控制與運動規(guī)劃、決策控制等領(lǐng)域有著十分廣泛的應(yīng)用[3-5]，是智能系統(tǒng)設(shè)計與決策的核心技術(shù)之一，也是進行智能動態(tài)定價策略研究的關(guān)鍵問題。

因此，深入研究強化學(xué)習(xí)方法在動態(tài)定價領(lǐng)域的應(yīng)用，對于推動人工智能、強化學(xué)習(xí)方法的發(fā)展及其在動態(tài)定價等領(lǐng)域的應(yīng)用都有非常重要的意義。本文將從強化學(xué)習(xí)的技術(shù)和其在動態(tài)定價領(lǐng)域的具體應(yīng)用兩方面展開綜述。首先，基于現(xiàn)有動態(tài)定價用到相關(guān)強化學(xué)習(xí)關(guān)鍵技術(shù)進行介紹；然后分別從不同角度綜述強化學(xué)習(xí)在動態(tài)定價中的應(yīng)用，分析其優(yōu)缺點；最后分析強化學(xué)習(xí)在動態(tài)定價領(lǐng)域的應(yīng)用前景。

1 強化學(xué)習(xí)

根據(jù)反饋的差異，機器學(xué)習(xí)技術(shù)可以分為監(jiān)督學(xué)習(xí)(Supervised Learning,SL)、無監(jiān)督學(xué)習(xí)(Unsupervised Learning，UL)和強化學(xué)習(xí)三大類，其中：監(jiān)督學(xué)習(xí)完成的是與環(huán)境沒有交互的記憶和知識重組，要求給出學(xué)習(xí)系統(tǒng)在各種輸入信號下的期望輸出；無監(jiān)督學(xué)習(xí)主要是聚類等自組織學(xué)習(xí)方式；強化學(xué)習(xí)是通過“試錯”的方式與環(huán)境進行交互，通過最大化累積獎賞的方式來學(xué)習(xí)到最優(yōu)策略[6-7]，它通過與環(huán)境的交互，并根據(jù)交互過程中所獲得的立即獎賞信號進行學(xué)習(xí)，以求極大化期望累積獎賞，是機器學(xué)習(xí)的一個重要分支。

強化學(xué)習(xí)的工作原理和人類的學(xué)習(xí)模式類似。如果Agent的某個動作得到了環(huán)境的正獎賞，那么Agent以后的動作就會增強；如果得到了負獎賞，那么以后的動作就會減弱[8]。強化學(xué)習(xí)的目標是學(xué)習(xí)到一個動作策略，使得系統(tǒng)獲得最大的累積獎賞。在強化學(xué)習(xí)中，Agent在環(huán)境s下選擇并執(zhí)行一個動作a，環(huán)境接受動作后變?yōu)閟′，并把一個獎賞信號r反饋給Agent,Agent根據(jù)獎賞信號選擇后續(xù)動作[9]。在動態(tài)定價相關(guān)研究中，強化學(xué)習(xí)系統(tǒng)的目標是使廠商能夠最大化總體收益，而忽略單筆交易的短期利益。強化學(xué)習(xí)架構(gòu)一般包括四個要素：策略(Policy)、獎懲反饋(Reward)、值函數(shù)(Value Function)、環(huán)境模型(Environment)。動態(tài)定價的環(huán)境相關(guān)因素繁多且復(fù)雜，以往強化學(xué)習(xí)的動態(tài)定價研究主要基于以下幾種環(huán)境框架。

1.1 馬爾可夫決策過程(MDP)

馬爾可夫決策過程一般用來解決順序型強化學(xué)習(xí)問題。它是一個五元組：(S,A,P,R,γ)，其中：

(1)S是一組有限的狀態(tài)s∈S。

(2)A是一組有限的行為(S,A,P,R,γ)。

(5)γ∈[0,1]是折現(xiàn)系數(shù)，代表未來獎勵與現(xiàn)在獎勵之間的重要差異[7,10]。馬爾可夫決策過程的本質(zhì)是：當(dāng)前狀態(tài)向下一狀態(tài)轉(zhuǎn)移的概率和獎賞值只取決于當(dāng)前狀態(tài)和選擇的動作,而與歷史狀態(tài)和歷史動作無關(guān)。在馬爾可夫動態(tài)模型在策略π下的值函數(shù)由貝爾曼方程(Bellman equation)定義[7]。強化學(xué)習(xí)方法是通過最大化值函數(shù)來改進策略，并最終得到最優(yōu)策略π*。Vπ(s)表示從狀態(tài)s開始，執(zhí)行當(dāng)前策略所得到的狀態(tài)值函數(shù)。狀態(tài)值函數(shù)的貝爾曼最優(yōu)方程表示為[7,11-12]：

(1)

狀態(tài)動作值函數(shù)Q*(s,a)定義為從狀態(tài)s開始，執(zhí)行動作a所得到的期望回報值。因此，在最優(yōu)策略π*下狀態(tài)動作值函數(shù)Q*(s,a)的貝爾曼最優(yōu)方程表示為：

(2)

1.2 半馬爾可夫決策過程(SMDP)

針對從狀態(tài)st開始、在st+1結(jié)束的動作a，期間執(zhí)行的步長為τ，它的狀態(tài)轉(zhuǎn)移概率為:P(τ,st+τ=s|st=s,at=a)[13]。τ可以是連續(xù)時間離散系統(tǒng)的實數(shù)，也可以是離散系統(tǒng)的整數(shù)。SMDPs的狀態(tài)值函數(shù)貝爾曼最優(yōu)方程表示為[13]:

a)V*(s′)}

(3)

SMDP最優(yōu)狀態(tài)動作值函數(shù)Q*(s,a)表示為：

(4)

1.3 部分可觀測馬爾可夫決策過程(POMDP)

POMDP是一種通用化的馬爾可夫決策過程。POMDP模擬代理人決策程序是假設(shè)系統(tǒng)動態(tài)由MDP決定，但是代理人無法直接觀察目前的狀態(tài)。相反地，它必須要根據(jù)模型的全域與部分區(qū)域觀察結(jié)果來推斷狀態(tài)的分布[14-19]。與MDP不同的是，POMDP模型中不再直接觀察狀態(tài)s′，而是去感知一個觀測(或采樣)o∈Ω。離散觀察集合Ω={o1,o2，…,oM}代表所有可能的Agent能夠接收到的感知器讀數(shù)。Agent接收到的觀測值取決于下一個環(huán)境狀態(tài)s′以及在一定條件下可能也取決于Agent采取的動作a[20]。

正如完全可觀察MDP問題一樣，Agent的目標是選擇動作使得任務(wù)盡可能完美的完成，即讓Agent學(xué)習(xí)一個最優(yōu)策略。在POMDP問題中，一個最優(yōu)策略π*(b)將信度映射到動作上。但是和MDP問題相反，

策略π描述成一個價值函數(shù)V:Δ(S)→R，定義為Agent在遵循策略π的條件下從信度分布b開始收集到的期望未來減量回報V(b)，具體表示為：

V(b)=E{∑γtR(bt,π(bt))|b0=b}

(5)

式中：R(bt,π(bt))=∑R(s,π(bt))bt(s)。最大化V的策略π稱為最優(yōu)策略π*，它為每個信度b在當(dāng)前步長內(nèi)執(zhí)行一個最優(yōu)行為a，并假設(shè)Agent會在后續(xù)時間步長內(nèi)執(zhí)行最優(yōu)行為a。最優(yōu)策略π*的值是通過最優(yōu)價值函數(shù)V*定義的。該價值函數(shù)滿足貝爾曼最優(yōu)方程，表示為:

V*=HPOMDPV*

(6)

(7)

式中：HPOMDP是POMDP的貝爾曼備份算子[21-29]。

2 強化學(xué)習(xí)算法

強化學(xué)習(xí)可以分為基于值函數(shù)的強化學(xué)習(xí)和基于策略的強化學(xué)習(xí)。在基于值函數(shù)的強化學(xué)習(xí)中，常用的學(xué)習(xí)算法包括Q-Learning算法、SARSA算法和蒙特卡羅算法。在基于強化學(xué)習(xí)的動態(tài)定價研究中，這三種算法也是經(jīng)常采用的算法。

2.1 Q-Learning算法

Q-Learning算法是無模型算法，其迭代公式表示為[30-36]:

(8)

式中：Q(st,at)為t時刻的狀態(tài)動作值；r為獎賞值;γ為折扣因子；αt是學(xué)習(xí)率；δt表示時間差分(temporal difference,TD)誤差；a′是狀態(tài)st+1能夠執(zhí)行的動作。

2.2 SARSA算法

作為SARSA算法的名字本身而言，它實際上是由S、A、R、S、A幾個字母組成的。而S、A、R分別代表狀態(tài)(State)、動作(Action)和獎勵(Reward)。SARSA是一種策略算法，能夠在獎賞函數(shù)和狀態(tài)轉(zhuǎn)移概率未知的情況下，通過狀態(tài)動作值函數(shù)迭代找到最優(yōu)策略。當(dāng)狀態(tài)動作對被無限次訪問時，該算法會以概率1收斂到最優(yōu)策略及狀態(tài)動作值函數(shù)。SARSA算法在學(xué)習(xí)中采用相對安全的動作，因此該算法的收斂速度較慢。迭代公式表示為[6,37-41]：

Q(s,a)=Q(s,a)+α{r+γQ(s′,a′)-Q(s,a)}

(9)

2.3 蒙特卡羅算法

蒙特卡羅算法不需要對環(huán)境的完整知識，僅僅需要經(jīng)驗就可以求解最優(yōu)策略，這些經(jīng)驗可以在線獲得或者根據(jù)某種模擬機制獲得。蒙特卡羅方法保持對狀態(tài)動作和未來獎賞的頻率計數(shù)，并根據(jù)估計建立它們的值。蒙特卡羅技術(shù)基于樣本來估計平均樣本的回報。對于每個狀態(tài)s∈S，保留所有從s獲得的狀態(tài)，一個狀態(tài)s∈S的值是它們的平均值。特別對于周期性任務(wù)，蒙特卡羅技術(shù)是非常有用的。由于采樣依賴于當(dāng)前策略π，策略π只評估建議動作的回報[42-46]。值函數(shù)更新規(guī)則表示為：

V(st)→V(st+1)+α(rt-V(st))

(10)

式中：rt為t時刻的獎賞值；α為步長參數(shù)。

3 基于強化學(xué)習(xí)的動態(tài)定價策略

強化學(xué)習(xí)方法用于解決動態(tài)定價問題時，主要從供應(yīng)商數(shù)目(單供應(yīng)商、多供應(yīng)商)、所處環(huán)境模型(MDP、POMDP、Semi-MDP)、選用算法(Q-Learning,SARSA,Monte-Carlo)等方面進行假設(shè)和研究。

無論是傳統(tǒng)還是基于強化學(xué)習(xí)的多供應(yīng)商動態(tài)定價研究通常對市場中供應(yīng)商數(shù)量進行假設(shè)，一般分為單供應(yīng)商和多供應(yīng)商。而對于多供應(yīng)商的研究，大多假設(shè)市場存在兩個供應(yīng)商，且兩個供應(yīng)商之間存在某種競爭關(guān)系。在基于強化學(xué)習(xí)的研究中表示為兩個Agent，且在它們之間存在相互影響和競爭。文獻[4]研究了網(wǎng)格服務(wù)供應(yīng)商(Grid Service Provider)在市場上存在兩家供應(yīng)商時如何進行動態(tài)定價。文獻[48-49]對于航空公司定價策略的研究中，將市場上存在的航空公司數(shù)量假定為兩家。文獻[50]研究了電子商務(wù)市場多家供應(yīng)商競爭的情況，但在供應(yīng)商的數(shù)量上依然延續(xù)了兩家供應(yīng)商的假設(shè)。文獻[51]在研究中，假設(shè)市場由一個供應(yīng)商分別供貨給兩個零售商，從而研究如何定價能使零售商的利益最大化，因此也是將研究對象定位在了兩個零售商上。文獻[52]針對兩銷售商間沒有信息交互的異步動態(tài)定價問題進行了研究。文獻[53]基于多Agent強化學(xué)習(xí)算法對季節(jié)性商品動態(tài)定價策略進行研究，并在研究中將Agent數(shù)目確定為兩個。與此同時，也有文獻對壟斷供應(yīng)商動態(tài)定價策略進行了相關(guān)研究。文獻[54]研究了處于壟斷地位的公司如何進行動態(tài)定價以實現(xiàn)利潤最大化。文獻[55]研究了只有一家供應(yīng)商的情況下，基于強化學(xué)習(xí)的動態(tài)定價專家系統(tǒng)的設(shè)計方法。文獻[56]研究了動態(tài)環(huán)境中，航空、酒店和時尚等行業(yè)只有一家供應(yīng)商的情況下，如何進行動態(tài)定價，以實現(xiàn)最佳的收益管理(revenue management)。文獻[57]研究了在壟斷能源行業(yè)如何通過強化學(xué)習(xí)技術(shù)實現(xiàn)動態(tài)定價和收益最大化。

在環(huán)境模型的選擇方面，之前的研究也根據(jù)不同情況做了界定。文獻[48-49]對于航空企業(yè)票價動態(tài)定價的研究全部基于MDP模型。文獻[50]在環(huán)境模型為MDP的前提下對兩個Agent的系統(tǒng)進行了研究，從而提出了一種競爭定價策略。文獻[51]通過使用SARSA算法提出了一種解決動態(tài)定價問題的方法，該研究的前提也是決策過程符合MDP。文獻[52]在MDP環(huán)境模型下對于異步動態(tài)定價進行了相關(guān)研究。文獻[53]結(jié)合強化學(xué)習(xí)和性能勢，在MDP環(huán)境下，對動態(tài)定價進行了研究。文獻[54]在MDP下對有交互作用的商品的動態(tài)定價進行研究。文獻[56]根據(jù)不同客戶類型劃分，研究了電子商務(wù)市場的動態(tài)定價策略。文獻[57]研究了壟斷能源行業(yè)如何在MDP環(huán)境下建立智能動態(tài)定價策略。文獻[58]在MDP下研究了動態(tài)環(huán)境下實時動態(tài)定價策略。文獻[59]基于Q-learning算法對能源行業(yè)白天零售市場的定價策略研究。文獻[47]將基于POMDP梯度的函數(shù)逼近應(yīng)用于產(chǎn)品或服務(wù)定價。文獻[60]基于POMDP，研究了電子商務(wù)市場的動態(tài)定價策略。文獻[61]基于SMDP研究了動態(tài)定價的最優(yōu)策略。此外，文獻[62]基于SMDP研究了壟斷企業(yè)的動態(tài)定價策略。

在算法方面，國內(nèi)外學(xué)者也根據(jù)研究內(nèi)容的差異進行了差別選擇。在動態(tài)定價方相關(guān)研究中，應(yīng)用最廣泛的是Q-learning及其改進算法。在網(wǎng)格計算市場上，文獻[47]基于Q-learning算法提出了在部分可觀測環(huán)境中的動態(tài)決策模型，并通過調(diào)節(jié)參數(shù)來調(diào)節(jié)梯度方向，從而使算法收斂到最優(yōu)值函數(shù)。在航空業(yè)動態(tài)定價的中，文獻[48]在2012年對Q-learning、SARSA和蒙特卡羅算法進行了對比研究。在電子商務(wù)領(lǐng)域，文獻[50]基于Q-learning算法，對多Agent的環(huán)境定價策略進行了研究。文獻[52]對于兩銷售商間沒有信息交互的異步動態(tài)定價問題的研究也是基于Q-learning和WoLF-PHC算法。文獻[55]基于帶資格跡(eligibility traces)的Q-learning算法研究了相互影響的商品和服務(wù)應(yīng)該如何動態(tài)定價。文獻[56]通過Q-learning對電子商務(wù)市場的動態(tài)定價策略進行了研究。文獻[59]使用Q-learning實現(xiàn)了多Agent系統(tǒng)，完成零售市場的動態(tài)定價。文獻[60]利用改進Q-Learning對電子商務(wù)中不同產(chǎn)品線的動態(tài)定價策略。

同時，也有很多研究采用了SARSA和蒙特卡羅算法。文獻[49]在不同客戶模型下，通過SARSA算法實現(xiàn)了對航空業(yè)的動態(tài)定價。在競爭性訂單的動態(tài)定價策略中，文獻[51]也使用了SARSA算法。在競爭背景下壟斷企業(yè)的動態(tài)定價策略采用了蒙特卡羅算法[54]。文獻[58]也采用無模型的蒙特卡羅算法實現(xiàn)了非靜態(tài)環(huán)境的動態(tài)定價。文獻整體情況如表1所示。

表1 文獻總結(jié)表

4 結(jié) 語

在前人關(guān)于動態(tài)定價的研究中，學(xué)者們分別基于單Agent和多Agent進行了相關(guān)研究。在解決現(xiàn)實問題中，對于模型的選擇要根據(jù)實際需求，以最簡單有效的方式解決問題為原則。在今后的研究中，需要結(jié)合不同實際應(yīng)用場景和領(lǐng)域?qū)gent的數(shù)量進行界定。從目前強化學(xué)習(xí)技術(shù)的發(fā)展來看，對于單Agent和雙Agent的研究比較系統(tǒng)和完善，因此對于Agent的不同數(shù)量及Agent之間的相互作用需要進一步加強和完善。多Agent之間的信息交換是應(yīng)用強化學(xué)習(xí)技術(shù)解決動態(tài)定價問題時需要進一步考慮的因素。

決策過程框架是強化學(xué)習(xí)實現(xiàn)的前提，不同的問題需要在不同環(huán)境框架下解決。從以往的研究來看，學(xué)者們的研究多基于馬爾可夫決策過程(MDP)，MDP是強化學(xué)習(xí)中最簡單的一類過程，半馬爾可夫決策過程(SMDP)和POMDP因為考慮了學(xué)習(xí)過程中其他的因素，是更復(fù)雜的決策過程。近幾年，基于SMDP和POMDP的動態(tài)定價研究也逐漸展開。由于SMDP可以在隨機個時間步上完成，因此動態(tài)定價可以應(yīng)用于連續(xù)系統(tǒng)，更接近真實的定價環(huán)境。POMDP是一種更通用化的馬爾可夫決策過程，對于Agent來說，因為部分狀態(tài)不可知，所以也更符合動態(tài)定價的實際情況。

目前對于動態(tài)定價研究的算法主要基于Q-learning、SARSA和蒙特卡羅及其改進算法，尤其是Q-learning算法應(yīng)用最為廣泛。但Q-learning算法屬于表格型算法，對于小規(guī)模和離散系統(tǒng)有比較好的學(xué)習(xí)效果，但對于連續(xù)的大規(guī)模系統(tǒng)，則會有收斂速度慢或無法收斂的情況。而深度強化學(xué)習(xí)(Deep Reinforcement Learning，DRL)正能彌補這一不足。它將深度學(xué)習(xí)的感知能力與強化學(xué)習(xí)的決策能力相結(jié)合，并因為AlphaGo的成功而成為人工智能發(fā)展的一個里程碑。它是一種通用性很強的端到端的感知和控制系統(tǒng)。目前，其在機器人控制、機器視覺、自然語言處理、智能醫(yī)療等領(lǐng)域獲得了廣泛的推廣。雖然目前鮮有基于深度強化學(xué)習(xí)進行動態(tài)定價研究，但這是一個值得學(xué)者們努力實踐的方向。