莫曉云+周杰明+金芳



摘 要 歷史相依決策模型(HDDM)及歷史相依決策過程(HDDP)是決策模型及相應的決策過程的一般情形. 馬氏決策模型(MDM)及馬氏決策過程(MDP)是HDDM及HDDP的特殊情形.本文嚴格地建立了歷史相依決策模型,并證明了相應的歷史相依決策過程的存在性,證明是構造性的. 作為HDDM及HDDP的特殊情形,建立了馬氏決策模型(MDM), 并構造了相應的馬氏決策過程(MDP).
關鍵詞 歷史相依決策模型的建立; 歷史相依決策過程的存在性和構造; 馬氏決策模型及馬氏決策過程; 馬氏過程
中圖分類號 O212.5 文獻標識碼 A 文章編號 1000-2537(2017)05-0088-07
Establishment of History Dependent Decision Models and Construction of Corresponding Processes
MO Xiao-yun1,2, ZHOU Jie-ming2, JIN Fang3*
(1. College of Mathematics and Statistics, Hunan University of Finance and Economics, Changsha 410205, China;
2. College of Mathematics and Computer Science, Key Laboratory of High Performance Computing and Stochastic
Information Processing, Ministry of Education of China, Hunan Normal University, Changsha, 410081, China;
3.College of Mathematics and Computing Science, Hunan City University, Yiyang, 413000, China)
Abstract History Dependent Decision Model (HDDM) and History Dependent Decision Process (HDDP) are the most general cases of the decision model and their corresponding processes. The Markov Decision Model (MDM) and Markov Decision Process (MDP) are special cases of HDDM and HDDP. In this work, the history dependent decision model has been established, and the existence of corresponding history dependent decision process has been proved. The proof is constructive. As special cases of HDDM and HDDP, the Markov decision model has been established and the Markov decision process has been constructed.
Key words history dependent decision model; Markov decision model; Markov decision process; Markov process
在描述馬氏決策模型(MDM)及相應的馬氏決策過程(MDP)的決策控制系統中,系統將來的狀態只依賴于系統現在的狀態和現在采取的決策行動.如果系統將來的狀態依賴于系統的歷史狀態和歷史決策行動,這就是歷史相依決策模型(HDDM)及相應的歷史相依決策過程(HDDP).由于HDDM和HDDP過于一般,較難深入研究.但對馬氏決策模型及相應過程,已經有深刻的研究,有豐富的成果[ 1-5 ].關于馬氏決策模型及相應過程的諸多專著和論文中,總是簡單地提及歷史相依決策模型及相應過程,然而卻沒有詳細和準確地給出歷史相依決策模型的建立以及相應過程的構造. 因此,完成這個建立和構造很有必要.我們對于諸多相類似的模型及其過程的構造,已經有很好的研究[6-10],本文將利用文獻[6-11]中的思想和方法.
1 歷史相依決策模型
設有某個受決策者控制的系統,該系統的狀態依賴于時間、系統的歷史狀態和決策者的歷史決策行動. 時間可以是連續的,但離散時間更接近于實際的操作. 假定時間為n=0,1,2,…,N. N是正整數,也稱期末時. 設在某個時刻,系統處于某個狀態x,在該時刻決策者可以作出某個決策行動a,下一時刻,系統的狀態將從x轉移到某個狀態y. 如果在每個時刻n∈{0,1,2,…,N-1},決策者都做出一個決策行動,這N個行動全體就構成一個決策策略. 策略和行動不同. 研究決策模型的目標之一是選擇最好的策略,使得系統的某個指標達到最優.例如,考慮某個投資者,他是決策者,系統的狀態就是他的財富,如果他希望期末時財富最多,如何投資就是他的策略.
定理6說明,對于歷史相依決策過程,如果僅僅只研究其值函數,則只要研究馬氏決策過程.
致謝 感謝“風險理論與隨機控制”討論班的老師們提出的研究問題和寶貴建議.
參考文獻:
[1] BAUERLE N, RIEDER U. Markov decision processes with applications to finance [M]. Berlin: Springer-Verlag, 2011.endprint
[2] GUO X P, HEMANDEZ-LEMA O. Continuous-time Markov decision processes [M]. Berlin: Springer-Verlag, 2009.
[3] GUO X P, HEMANDEZ-LEMA O, PRIETO-RUMEAU T. A survey of recent results on continuous-time Markov decision processes [J]. Top, 2006,14(2):177-246.
[4] HINDERER K. Foundations of non-stationary dynamic programming with discrete time parameter [M]. Berlin: Springer-Verlag, 1970.
[5] 嚴加安. 測度論講義(第二版)[M]. 北京:科學出版社,2004.
[6] 莫曉云. 用獨立乘積空間構造相依隨機變量的組裝法 [J]. 湖南師范大學自然科學學報, 2010,33(2):3-6.
[7] 莫曉云,歐 輝,周杰明. Markov相依風險模型的等價定理及概率構造 [J]. 經濟數學, 2012,29(1):61-64.
[8] MO X Y,YANG X Q. Criterion of semi-Markov dependent risk model [J]. Acta Math Sin, 2014,30B(7):1237-1280.
[9] MO X Y,ZHOU J M, OU H, et al. Double Markov risk model [J]. Acta Math Sci, 2013,33B(2):330-340.
[10] 莫曉云,楊向群. Markov調制風險模型的軌道刻劃和概率構造[J]. 應用數學學報, 2012,35(3):385-394.
[11] ZHOU J M, MO X Y, OU H, et al. Expected present value of total dividends in the compound binomial model with delayed claims and random income[J]. Acta Math Sci, 2013,33B(6):1639-1651.endprint