高秋爽,黃帝媛,楊超林
(上海財經大學 信息管理與工程學院 交叉科學研究院,上海 200433)
數字技術的加速迭代和消費力崛起催生出大量新品牌、新消費領域和新消費模式,新產品的打造成為平臺和企業增長的重要動因。以天貓為代表的電商平臺大力助推新品孵化與流通,新產品數量連年翻番,2020年天貓超三成交易由新品驅動[1],2021年天貓將打造1萬款千萬級新品,助力2 000個品牌實現新品銷售額過億[2]。作為數字經濟時代的新型生產要素,數據正驅動著營銷模式從粗放型向精細化轉變。如何高效利用有限營銷資源觸達消費者、洞察消費者是企業能否制造 “爆款” 的關鍵。廣告宣傳能夠廣泛地向潛在客戶提供產品信息。合理分配廣告投入,利用有限預算最大化收益,是新產品推廣期間最為關鍵的營銷策略之一。
廣告預算分配是營銷研究中的經典問題,通常從消費者對廣告的反饋入手,建立廣告投入和產品銷量之間的參數模型,其中最為經典的是Nerlove-Arrow 模型[3]和Vidale-Wolfe模型[4]。前者提出了“商譽”這一概念,商譽表征了企業累計廣告投入對產品銷量的影響,隨著時間而衰減和廣告支出會增加企業的商譽。后者建立了銷售速率關于廣告投入的模型,該模型包括廣告效應、銷售衰減和市場飽和水平3個參數。通過最大化無限期累積的貼現利潤,兩種模型都可以用來確定廣告投入策略。Sethi[5]給出了兩種模型的對比。后續一些學者在兩種模型的基礎上進行拓展。Naik等[6]將過度曝光導致廣告效果下降的因素加入商譽模型。Feinberg[7]在Vidale-Wolfe模型的基礎上研究了S型廣告反饋模型的性質等。另一些研究利用參數模型將廣告預算分配問題拓展到更多應用場景。Fischer等[8]考慮了具有多區域市場、多產品的動態預算分配問題。Güler[9]將預算分配問題與報童模型相結合,分析了最優策略的性質。
近年來,越來越多企業選擇以在線廣告的方式向消費者展示產品,數字營銷時代的來臨帶給企業海量數據輔助決策。經典的參數模型通常假定廣告投入與銷量之間的關系服從某一特定函數形式,由固定的參數影響,欠缺利用數據更好地了解消費者的能力。Besbes等[10]說明了應用參數模型時,錯誤的函數形式會導致策略收益偏離最佳收益。一些學者嘗試利用人工智能技術解決這個問題。Zhao等[11]建立了一個基于數據的預算分配框架,利用神經網絡技術,使用歷史數據預測每個細分市場的銷量與廣告投入之間的關系,建立優化模型求解分配策略。此外,經典模型一般認為消費者對廣告的反饋時間較長,廣告產生的影響將逐步作用于品牌,欠缺對消費者的即時反饋快速響應的能力。Luzon等[12]假設廣告投入將立即影響顧客到達人數,建立了多種顧客到達人數關于廣告投入的參數模型。另一些研究利用多臂賭博機等強化學習技術為不同場景下的預算分配問題提供了交互式的解決方案。Xiao等[13]考慮針對單個用戶的持續性廣告投放問題,將持續投放廣告的過程建模為帶預算約束的馬爾可夫決策過程。Avadhanula等[14]使用UCB 算法解決了不同廣告競價平臺分配預算問題。Han等[15]將多智能體技術與湯普森采樣相結合,學習廣告投入與用戶反饋之間的關系。Zhao等[16]和Wu等[17]給出了使用深度強化學習解決競價搜索廣告投放的方案。上述研究與本文提出的算法都具有學習能力,但這些文章在設計賭博機的反饋時僅考慮了最終的購買行為,忽略了從顧客到達至達成購買的階段信息。此外,本文提出的方法適用于有總庫存約束的場景。
非參數學習算法也可以用于求解廣告預算分配問題,這種算法常被應用于動態定價問題。動態定價問題中通常銷量由價格決定,在給定總庫存的情況下最大化企業利潤。Besbes等[10]假設銷量關于價格函數形式未知,給出了使用非參數方法學習最優定價策略的算法。在銷量函數具有Lipschitz連續性的情況下,當市場規模為n時,該算法的遺憾值上界為O(n-1/4(logn)1/2)。Wang等[18]提出了邊學邊做的動態定價算法,在Besbes等的基礎上增加銷量函數是光滑的假設后,證明了策略的遺憾值上界為O(n-1/2(logn)4.5)。Avramidis[19]調整了問題建模,假設銷量由固定顧客到達率和與價格相關的購買概率的乘積決定,通過觀察不同價格下的顧客到達人數和銷量,估計到達率與購買概率。在假設顧客到達函數性質與文獻[10]中銷量函數的性質一致的情況下,將遺憾值上界調整為O(n-1/4(logn)1/4)。Yang等[20]在Wang等算法的基礎上,同時考慮總預算約束和總庫存約束,提出了一種邊做邊學的非參數算法來學習廣告投入與銷量的關系。該策略的遺憾值上界為O(n-1/2(logn)5?+2)。
企業在互聯網上銷售產品的過程可劃分為“獲客”和“轉化”兩個階段。在獲客階段,企業通過投入廣告將潛在消費者引流到消費媒介上;在轉化階段,消費者以一定概率達成購買行為。對于成熟產品,企業可以利用歷史數據建立廣告投入與顧客到達人數的關系以及計算廣告的轉化率,聯合兩個過程的數據求解最優廣告預算分配策略。對于處在導入期的新品,企業需要測試市場對廣告投入的反饋及評估產品本身對消費者的吸引力。依托于數字營銷技術的發展,企業可以直接通過在線廣告點擊率、產品瀏覽量、直播間觀看人數或應用下載量等數據實時監測廣告投放的效果,也可以通過實現的轉化率數據對產品的吸引力做出評估,確定最優的廣告投放策略。針對這類新品推廣期內廣告投入分配的場景,本文將Yang等[20]的模型進行了拓展,假設銷量由與廣告投入相關的顧客到達率和與產品屬性有關的購買概率決定,設計了一種在給定總預算約束和總庫存約束的情況下,同時學習顧客到達人數與廣告投入的關系以及顧客購買概率(轉化率)的非參數學習算法,并從理論上證明了策略的漸進最優性,算法的遺憾值上界為O(n-1/4(logn)1/4)。與Yang等的研究不同,本文提出的學習算法需要同時估計顧客的到達率函數及其轉化率,最終得出對需求率函數的估計,Yang等則是直接對需求率函數進行估計。對于遺憾值上界的分析,本文需要同時刻畫到達率函數和轉化率兩個估計量的誤差以及它們乘積的誤差,進而刻畫出學習算法的遺憾值上界。數值實驗表明,相較于直接估計需求率函數的方法,本文提出的算法具有更好的性能。對于遺憾值下界的分析,本文給出了比Yang等更一般的包含轉化率參數的到達率函數族,當轉化率取值為1時,本文的到達率函數族將退化為Yang 等給出的需求率函數族。Avramidis[19]通過估計顧客的到達率和轉化率來估計需求率函數。該文研究的是動態定價問題,其模型中顧客到達率是固定值,而轉化率是依賴于價格的函數。本文模型中顧客到達率是廣告投入的函數,轉化率則是固定值。文獻[19]中對于遺憾值上界的分析無法直接運用到本文模型的分析中。首先,廣告預算分配問題與動態定價問題的收益率函數具有不同的結構;其次,定價問題中只需要考慮庫存約束,而本文的廣告預算分配問題需要同時考慮廣告預算和庫存約束的影響。
考慮一個推廣期為T>0,廣告總預算為B>0,可用于銷售的產品庫存總量為x∈Z+的新產品,產品的邊際收益為w。企業需要在有限的推廣期內,在給定廣告預算和庫存總量約束的情況下為該產品確定廣告預算的分配策略??紤]的銷售場景為:推廣期內顧客到達人數由每個時刻的廣告投入決定,到達的顧客中有一定比例的顧客會選擇購買產品,即存在固定的購買概率,每個顧客只會購買一件產品,企業可以通過調整廣告投入來影響顧客到達人數,從而影響產品的銷量。假設顧客的到達過程服從速率為λt的泊松過程,λt為t時刻的顧客到達率,λt由t時刻的廣告投入率即單位時間的廣告投入A t決定,λt=λ(A t)。定義廣告投入過程為:{A s:0≤s≤T},到達顧客的購買概率為固定的常數q∈[0,1],則產品的實際需求過程服從速率為Λ(A t)的泊松分布,需求率Λ(A t)=qλ(A t)。在T時刻推廣期結束時銷售終止,剩余未被賣掉的產品沒有任何價值。
假設廣告投入A t的取值集合為?,其中,?為產品全部銷售完且庫存為0時應用的廣告投入率,當產品庫存為0時銷量一定為0,因此,有λ(?)=0。營銷學文獻[21-22]中通常假設廣告反饋函數是關于廣告投入的凹函數[23-24]或S 型曲線[7,25],而大多數實踐經驗更傾向于認為廣告反饋函數是凹函數[26]。Zhang等[27]也指出廣告競價中的中標率函數始終具有(近似)凹形。因此,本文假設顧客到達率函數λ(A)是隨著A單調遞增的凹函數,其反函數為:A=a(λ)。收益率函數可以表示為:r(λ(A))=wqλ(A)-A,也是A的凹函數。在本文模型中,假設企業事先無法得知到達率函數λ(A)的具體形式以及購買概率常數q的真實取值,只知方程λ(A)是屬于函數族的非負遞增的凹函數,滿足以下條件:

本文需要制定一個合理的廣告預算分配策略,即決定廣告投入過程使整個推廣期的收益盡可能大。如果一個廣告投入過程{A t}在任意時刻t的取值只取決于過去的廣告投入{A u:u∈[0,t)}、過去的顧客到達人數{N u:u∈[0,t)}和過去的需求數{D u:u∈[0,t)},該過程{A t}被稱為非預期的,即{A t}是關于域流


由于無法得知到達率函數的形式和購買概率的真實取值,決策時已知的信息只有歷史上觀察到的顧客到達人數、實際購買量以及到達率函數的函數族,無法直接對上述優化問題進行求解。最優策略為與已知完整信息,即λ的分布和q值的原問題收益差距最小的策略。但在已知λ分布的情況下,計算原問題的期望收益也十分復雜,需要求解一個動態規劃問題,故將策略與已知完整信息下的確定性松弛問題進行比較。文獻[20]中引理2證明了該確定性松弛問題為所有可行策略的績效提供了一致的上界。因此,一個可行策略的績效與確定性松弛問題的最優收益的差距越小,其績效也越接近于原隨機問題最優策略的績效。
考慮上述決策問題在已知完整信息時的確定性松弛問題,假設到達率函數和購買概率已知,且到達過程是確定性的,將上述問題中的隨機變量用它們的均值來替代,即廣告投入為A時單位時間顧客到達人數均為λ(A)。確定性問題J D(x,T,B|λ,q)的目標為給定庫存總量x和廣告預算B時最大化推廣期[0,T]內產生的總收益,可表述為:

上述確定性問題具有兩個重要的性質:

其次,定義

定義策略π的遺憾值:

遺憾值衡量了策略π下的期望收益相對于確定性問題最優值J D(x,T,B|λ,q)的績效損失比重,由于J D(x,T,B|λ,q)為所有可行策略π下的期望收益提供了上界,故遺憾值總是大于0。遺憾值越小,策略π的性能越好,越接近最優策略。
由于企業無法得知真實的到達率函數和購買概率,故需尋求一種魯棒的分配策略,使得在所有到達率函數中都能實現較小的遺憾值,因此,決策目標可以認為是選擇分配策略使得最壞情況下的遺憾值最小,即最小化但這個值很難估計,故采用一種廣泛使用的漸進性能分析技術??紤]一種初始庫存量、廣告預算和潛在需求量,按照市場規模成比例增長的機制,即對于規模為n∈?+的市場,初始庫存、廣告預算和到達率函數分別為:

購買概率q和推廣期長度T對于所有n的取值保持不變。規模為n的市場可以被看成包含n個獨立的原始市場的大市場,企業可以同時在n個子市場中進行廣告分配和銷售。用表示規模為n的市場中確定性問題的最優收益,顯然,

其中:

為廣告投入A D下的收益率。因此,有

符號及定義:
T——推廣期時長
x——產品初始庫存量
B——計劃投入的廣告預算
w——產品邊際收益
n——市場規模
A t——t時刻的廣告投入率
λ(A)——顧客到達率函數
q——轉化率
a(λ)——λ(A)的反函數
r(A)——收益率函數
A u——r(A)的全局最優解
A c——,到達率為即需求率為時對應的廣告投入
A D——確定性松弛問題的最優解
π——廣告預算分配策略
τn——規模為n的市場中,算法學習階段的長度
κn——規模為n的市場中,算法學習階段測試的廣告投入率個數
νn——在n個子市場中進行測試的總時間段長度νn=
Jπ——策略π下的期望收益
J D——確定性問題的最優收益
Y n——整個推廣期中的最大銷量
本文將推廣期劃分為學習和廣告投入兩個階段。在學習階段,首先分配一部分預算來測試不同廣告投入下顧客到達人數和實際購買人數,從而對到達率函數和購買概率進行估計,得到確定性問題下的最優解A D的估計值。在廣告投入階段,將按照學習到的最優解進行廣告投入并獲得收益。
設定學習階段的時間段為[0,τ],在學習階段測試κ個不同的廣告投入率取值,用A1,A2,…,Aκ表示廣告投入率區間[0,]內的κ個不同取值,每個廣告投入率的測試時長為:Δ=τ/κ。對于i=1,2,…,κ,在時間段[(i-1)Δ,iΔ]內應用廣告投入率A i,這段時間對應的顧客到達人數為N i,實際購買人數即實際銷量為S i。λ(A i)和q的估計量分別為:

當學習階段的顧客到達總人數大于產品初始庫存量時,產品庫存可能無法完全滿足顧客需求而發生缺貨,此時觀察到的實際銷量可能小于顧客對產品的真實需求,對購買概率的估計會產生偏差,產品庫存消耗完畢時也無法對顧客到達率進行準確估計。定義學習階段的到達總人數為時,上述估計方式將不再適用,此時選擇合適的隨機變量Z進行估計,因此,估計量可以表示為:

其中,I是示性函數。需要說明的是,盡管這里分為兩種情況對λ(A i)和q進行估計,但本文將證明在后續給出的策略下,估計量Z1和Z2對應事件發生的概率是“可忽略”的,故在學習算法中,它們的選擇并不影響算法的績效。例如,Z1可以選取為Z2可以選取為事實上,當Z1和Z2對應的事件發生時,對λ(A i)和q的估計本身已經沒有意義。此時,要么意味著可用庫存已經完全被消耗,要么意味著完全沒有顧客到達。
策略描述
(1) 初始化。
①設置學習階段時長為τ,測試的廣告投入率個數為κ,每個廣告投入率的測試時長Δ=τ/κ;
②將廣告投入率區間[0,]劃分κ個等距區間,取{A i:i=1,2,…,κ}為區間的左端點。
(2) 學習階段。
①當i=1,2,…,κ時,t i=iΔ,當產品庫存大于0時,在時間段[t i-1,t i]內應用廣告投入率A i;當產品庫存等于0時,應用廣告投入率?直到時刻T并停止;
②時間段[t i-1,t i]內到達的總人數為N i,實際銷量為S i,計算估計量為:

(4)廣告投入。在時間段(τ,T]中,只要剩余庫存和剩余預算大于0就應用廣告投入率,當庫存等于0時,則應用?直到T并停止;當剩余廣告預算等于0時,則不再投入廣告直到T并停止。
首先構造策略遺憾值的上界,證明策略具有漸進最優性,而后給出一個例子來構造遺憾值下界,得到該場景下能實現的最優漸進性能。
對于規模為n的市場,{A i,n:i=1,2,…,κn}為廣告預算分配算法π(τn,κn)學習階段在每個子市場內待測試的κn個廣告投入率。令A=A i,n表示測試的第i個廣告投入率,在測試該廣告投入率的時間段Δn=τn/κn中,N i,n為n個子市場到達的顧客人數總和,服從均值為λ(A)nτn/κn的泊松分布。令νn=nτn/κn表示廣告投入率A在n個子市場中進行測試的總時間段長度,則應用廣告投入率A時到達的人數為:N i,n~Poisson(λ(A)νn)。到達顧客中購買產品的人數S i,n服從概率為q的二項分布,即S i,n|N i,n~Binomial(N i,n,q)。算法整個學習階段到達的顧客總人數為

當學習階段到達人數超過庫存限制時將無法對λ和q進行有效估計,此時選擇合適的隨機變量Z作為估計量。
對策略遺憾值的上界進行構造和分析,得到的主要結論如下:

定理1的證明依賴于3個關鍵引理。引理1限制了算法對λ和q的估計偏差較大的概率,將在后續引理的證明中重復使用。引理2限制了估計值和確定性問題最優解A D下的策略收益的差距。引理3保證了超過初始庫存的期望銷量不會太高。定義


表示當庫存充足時學習階段能實現的最大銷量,其中:

表示庫存充足時廣告投入階段的最大銷量;

為整個推廣期中的最大銷量。下面分別給出3 個引理。

證明見附錄A。
引理2定義:


證明見附錄B。
引理3對于某個常數K E>0,存在有限的都有E[(Y n -nx)+]≤K Enu n。
證明見附錄C。
定理1的證明
步驟1推導出策略πn下期望收益的下界。

使得對于所有的n≥
因為算法中A i取[0,]區間κn個等分區間的左端點,所以有

步驟2根據引理2中對估計值和確定性問題最優解A D下的策略收益差距的分析,

以及引理3 中對銷量的分析,E[(Y n -nx)+]≤K Enu n,進一步推導期望收益下界,

其中,K1為某個常數。假設確定性問題的最大收益存在正的下界:J D≥m D>0,則有

定理2證明了存在一類滿足假設的到達率函數,在該類函數下沒有一種廣告投入策略能夠達到O(n-1/2)的漸進遺憾值,即證明了該場景下遺憾值的下界。
定理2定義到達率函數

其中,z是屬于集合Z=[3/4,1]內的參數,q=1,w=1,1/2,T=1,B=1,K2是與問題規模n無關的常數,則對于任何可行策略π和n≥1,有

證明見附錄D。
這類函數的主要特點是存在一個無信息點[18]。當A=1/2時,λ(A;z)=2/q,無論參數z取何值,到達率函數取值均為固定常數。在該廣告投入率下進行實驗將無法獲得關于到達率函數的任何信息。在這類到達率函數下,為了有效地學習參數z,策略需要盡量在遠離無信息點的廣告投入率上進行實驗。然而,當最優廣告投入率恰好是在無信息點上取值時,策略遺憾值會很大。另一方面,如果策略不能有效地區分到達率函數,則策略也會導致較大的收益損失。在這類函數下的任意策略下最壞情況的遺憾值為O(n-1/2)。
設置推廣期長T=10,產品邊際收益w=2,真實購買概率q=0.5,每個原始市場內產品庫存總量為:x=20,推廣期內廣告總預算為:B=20,每期廣告投入的上下限為。考慮3種單調遞增且為凹函數的到達率函數:①平方根函數λ(A)=;②對數函數λ(A)=2log(A+1);③分數函數λ(A)=9A/(A+5)。其中,函數平方根函數和對數函數為兩種常用的凹函數,函數③是一個分數函數,文獻[27]中用它來描述和展示廣告競價的中標率函數。本文在市場規模取值為n=[102,103,104,105,106]時分別進行實驗,設置學習階段時長為,實驗次數為
數值實驗包括如下步驟:①參數初始化;②計算確定性問題的最優收益;③執行廣告預算分配算法;④計算遺憾值。在算法實現過程中,首先根據實驗次數κn將廣告投入區間進行拆分,得到κn個進行實驗的廣告投入率A i,每個廣告投入率的實驗時長為:Δ=τn/κn,將A i分別代入上述3種到達率函數即可得到真實的到達率λi。由于到達過程是泊松過程,Δ時間段內的到達人數可以由泊松分布隨機生成,實際購買人數也可以由速率為λiq的泊松分布隨機生成,因而能夠收集到廣告投入率A i對應的到達人數N i以及購買人數Si,可分別對到達率函數和購買概率進行估計。在學習階段,算法得到了對最優廣告投入的估計,同時也消耗了一部分庫存和廣告預算,在后續的廣告投入階段,應用學習到的最優廣告投入并獲得收益,直到庫存或廣告預算消耗完為止,或整個推廣期結束。通過對推廣期內每一期的收益進行累加,可以得到整個策略對應的總收益。
根據最優解形式可以求解出確定性問題理論上的最優收益,將策略收益與其比較可以得到策略的遺憾值。實驗中以重復實驗103次的遺憾值的均值來衡量算法的性能,降低隨機誤差。圖1展示了市場規模n在102~106之間時,3種不同形式的到達率函數得到的和log(n)之間的關系。由圖1可以看出,隨著市場規模n的增長,策略遺憾值總體上持續下降,逐漸收斂于0,且圖中曲線的斜率接近于-1/4。實驗結果表明,算法在3 類到達率函數下的漸進性能都接近O(n-1/4(logn)1/4)的遺憾值。

圖1 廣告分配策略遺憾值隨市場規模變化情況
本文的創新點之一在于將Yang等[20]的模型進行了拓展,假設銷量由與廣告投入相關的顧客到達率和與產品屬性有關的購買概率決定,同時學習顧客到達人數與廣告投入的關系以及顧客購買概率。Yang等的模型沒有對到達率和轉化率進行區分,僅利用銷售數據學習廣告投入與購買速率之間的關系。為了驗證本文提出的分開估計的算法的合理性與有效性,設計實驗對比了本文中算法與僅利用銷量數據學習廣告投入與購買速率的算法的效果。兩種算法的主要區別在于,在僅利用銷售數據的算法中,只利用實際銷量數據對參數λ(A)q整體進行估計,得到而本文算法中收集顧客到達人數和實際銷量兩部分數據,分別對參數λ(A)和q進行估計,使用兩個估計量的乘積作為λ(A)q的估計量。實驗驗證了相較于前者,本文的估計方法更加有效。在具體實驗流程上,僅使用銷量數據的算法在學習階段收集廣告費用A i對應的購買人數S i除以測試時間段長度,得到對購買速率的估計值;使用購買速率估計值計算對最優廣告投入的估計,在廣告投入階段應用最優廣告投入估計值,計算學習階段的收益與廣告投入階段的收益總和,即為該算法下最優策略對應的收益,從而可以計算出該算法策略下的遺憾值。
圖2展示了市場規模n處于102~105之間時,兩種算法下遺憾值結果隨市場規模變化的情況。其中,本文算法表示為Advertising algorithm,僅利用銷售數據算法表示為Only sale algorithm。本文算法的遺憾值始終小于僅利用銷售數據的算法。圖3展示了市場規模為104,轉化率在0.3~0.8之間時,兩種算法下遺憾值結果隨市場規模變化的情況。由圖3可以看出,隨著轉化率的變動,本文算法的遺憾值始終小于僅利用銷售數據的算法。由兩個實驗可以看出,在市場規模和實際轉化率發生變化時,本文提出的算法始終具有更好的性能。

圖2 不同市場規模下廣告分配策略與僅利用銷售數據算法遺憾值對比

圖3 不同轉化率下廣告分配策略與僅利用銷售數據算法遺憾值對比
為了驗證本文算法在不同應用場景的效果,證明算法的魯棒性,對比了多組參數取值下策略的遺憾值。平方根函數中a分別取1、2和3,對數函數λ(A)=alog(A+b)中a、b分別取(3,1)、(4,1.1)和(5.5,1.3),分數函數λ(A)=a A/(A+b)中a、b分別取(9,5)、(10,6)和(11,7)。實驗結果如圖4所示,策略在不同參數下的表現較為穩定,基本保持在O(K0(logn/n)1/4)的遺憾值,說明策略在到達率形式和參數取不同值的場景中都能實現較好的效果,具有一定魯棒性,可以在各種業務場景中提供實際指導。

圖4 不同參數的到達率函數下廣告分配策略遺憾值隨市場規模變化情況
本文研究了具有總預算約束和總庫存約束,且到達率函數和購買概率未知情況下的廣告預算分配問題。提出了一種非參數學習算法,首先在學習階段分配一部分預算來測試不同廣告投入下顧客到達人數和實際購買人數,從而對到達率函數和購買概率進行估計,進而得到最優廣告投入的估計。首先證明了策略遺憾值的上界為O((log(n)/n)1/4),而后給出了一個例子來構造遺憾值下界,得到該場景下能實現的最優漸進性能。針對多種類型的到達率函數和不同參數設計了多組數值實驗對理論結果進行驗證,實驗結果表明,本文提出的學習策略相較于僅利用銷量數據學習廣告投入與銷量關系的算法具有更好的性能。
在本文所作分析的基礎上,還有一系列的問題值得深入研究。例如,可以考慮廣告與定價的聯合決策問題,廣告影響顧客到達率,而價格影響轉化率。此時,如何設計高效的廣告預算分配與動態定價聯合學習策略是很有意義的問題。另外,本文只考慮了單商品、單一促銷渠道的問題,如何將策略及其最優性分析拓展到多商品、多促銷渠道問題也是很有意義的研究方向。
附錄A
引理1的證明
步驟1給出輔助引理A.1及其證明。

對于該引理的證明過程,將引用文獻[19]中引理2的證明。
步驟2證明引理1。

(1) 構造n1和n2,使得l n>0,?n≥n1,f n (2) 證明存在有限的n0,使得對于所有的n≥n0都有: 根據三角不等式的性質,有 附錄B 引理2的證明 步驟1給出輔助引理B.1、B.2及其證明。 步驟2證明引理2。 情況2A c≤min{A u,B/T},則A D=A c。 情況3B/T 附錄C 步驟2對整個推廣期內的總銷量進行分析。 情況1Λ()≤x/T。 情況2Λ()>x/T。 對第2項進行分析: 附錄D 定理2的證明 步驟1列出定理2中到達率函數滿足的一些性質,便于后續分析。 步驟2給出了任意可行策略對應的與KL散度相關的遺憾值下界,說明能夠更好地區分不同參數的廣告分配策略投入的成本更高。 第2個不等式是由于第1個不等式中分母大于等于1/2。 步驟3證明策略區分兩個距離較近參數的能力越差,收益損失越大。 根據雙假設檢驗中關于最小誤差的標準結論,對于所有的s,有 根據KL散度的定義,有 步驟4證明定理2。
























