選擇決策游戲與貝葉斯公式

2021-11-03 03:44:48李增滬

數學通報 2021年9期

關鍵詞：游戲

李增滬

(北京師范大學數學科學學院 100875)

1 選擇決策游戲

有個請嘉賓選擇獎品的游戲，主辦方在編號為1,2,3的三個門中等可能地隨機選擇一個，放入一輛跑車，另兩個門里各放一只山羊．節目的嘉賓不知道哪個門里是跑車．主持人請嘉賓選擇一個門，門后的獎品由他獲得．嘉賓希望選中跑車.

假設你是嘉賓，選擇了1號門，在此門打開之前，主持人打開了余下的門中的一個，顯示里面是山羊，不妨假設他打開的是3號門．現在主持人給了你重新選擇的機會，你是堅持選1號門？還是改選2號門？

這個游戲來源于一個著名的電視節目，曾經引起廣泛關注和討論．下面針對兩種不同的游戲規則，在高中數學知識水平上，分別給出上面問題的分析．

規則1主持人知道跑車在哪個門里．在嘉賓初次選擇后，他只打開余下的門中有山羊的門．

規則2主持人不知道跑車在哪個門里．在嘉賓初次選擇后，他在余下的兩個門中等可能地隨機打開一個．

同理有

根據條件概率的定義得

對于上面討論的選擇游戲的各種推廣及有關該問題的細致討論，可以參閱[3,4,5]以及那里所列舉的參考文獻．

2 基于貝葉斯公式的分析

貝葉斯公式的思想最早出現于貝葉斯的論文[1]，發表于他去世后的1763年．后來拉普拉斯[2]獨立地發現了這個公式，此后其意義逐漸被人們理解和重視．統計學家經過長期的努力，發展出了以貝葉斯公式為基礎的系統的推理和決策方法，稱為貝葉斯方法．該方法的基本程序是首先根據實際情況確定先驗概率，然后利用貝葉斯公式計算得到后驗概率，對先驗概率進行修正和校對，再根據后驗概率做出推理和決策．

貝葉斯公式(Bayes formula)：設A1,A2,…,An是兩兩相斥的事件組，滿足P(Ai)>0,i=1,2,…,n且A1∪A2∪…∪An=Ω．對任意事件B?Ω,P(B)>0，有

考慮按照規則1設計的選擇決策游戲．為了簡單起見，下面假定當主持人有兩個有山羊的門可以打開時，他等可能地隨機選擇其中一個打開．在這種情況下，應用貝葉斯公式，可以從條件概率的角度，給出上述決策問題的另外一個分析和解答．

(2)跑車在2號門里，主持人只有3號一個門可以打開，故P(B3|A2)=1；

(3)跑車在3號門里，主持人只有2號一個門可以打開，故P(B3|A3)=0．

利用全概率公式，主持人打開3號門的概率為

再根據貝葉斯公式，在3號門打開的條件下，1號和2號門里有跑車的概率分別為

這兩個條件概率是后驗概率，它們利用主持人打開有山羊的3號門這個信息，修正了前面的先驗概率．通過比較后驗概率發現，在規則1之下，改選2號門是正確的決策．

3 多次選擇游戲

考慮多個門的選擇決策游戲．假設主持人事先在編號為1,…,n的n(n≥3)個門中選擇了一個，里面放入一輛跑車，而其他每個門里各放一只山羊．嘉賓不知道哪個門里是跑車．游戲規則是嘉賓選擇一個門，這個門里的獎品由他獲得，嘉賓希望選中跑車．假定嘉賓選擇了k號門，在此門打開之前，主持人在余下的有羊的門中等可能地隨機選擇了一個并打開，不妨設打開的為m(m≠k)號門．接著主持人給了嘉賓一次重新選擇的機會．試問嘉賓能否通過改變選擇，提高成功獲得跑車的概率？

命題1用Ai表示i號門里是車，Bi表示主持人打開i號門．假設i號門里是車的概率為P(Ai)=pi(1≤i≤n)．那么在m號門打開的條件下，k和i(i≠k,m)號門里有車的概率分別為

證明考慮到嘉賓已經選k號門這個事實，根據游戲規則，在k號門里是車的條件下有

而在i(i≠k)號門里是車的條件下有

P(Bi|Ai)=P(Bk|Ai)=0,

利用全概率公式，主持人打開m(m≠k)號門的概率為

根據貝葉斯公式，在m號門被打開的條件下，k和i(i≠m,k)號門里有車的概率分別為

和

令c=(n-2)P(Bm)即得命題的結論．

其中為公共常數．這是嘉賓和主持人第1次互動的后驗概率，也是他們第2次互動的先驗概率．再次應用命題1我們發現，去掉打開的m1,m2號門，有車的概率在剩下的n-2個門里分別為

和

其中c1和c2均為公共常數．這是嘉賓和主持人第2次互動的后驗概率．不難發現

P(Ak2|Bm2)

所以嘉賓應該改變自己的選擇，在k1和k2號之外另選一個門以獲得最大的成功概率．

繼續上面的游戲，假設在嘉賓每次選擇一個門之后，主持人總是隨機打開余下的一個有羊的門，并給嘉賓一次重新選擇的機會，直到剩下最后兩個門為止．試問嘉賓應該怎樣決策，才能保證每一步都以最大的概率選中跑車？

分析5根據前面的討論，可以歸納出嘉賓應該遵循的原則：(1) 每次得到重新選擇的機會時，都改變自己的選擇；(2) 重新選擇的時候，首先選擇此前沒有被選過或者被選中次數最少的門；(3) 在此前被選次數相同的門中，選擇之前被選中最早的門．

在關于多次選擇游戲的討論中，反復應用了貝葉斯公式，而且這種方法具有一般性．在游戲中，主持人每打開一個門都提供了有用的信息，嘉賓需要不斷根據這些信息，利用貝葉斯公式計算出剩余的門里有跑車的后驗(新的)概率分布，并據此修正自己的選擇以增加獲得跑車的概率．這種不斷改進和校正決策的過程非常近似于人類的學習和思維模式，也是貝葉斯方法許多應用的關鍵.例如著名的圍棋人工智能系統阿爾法狗(AlphaGo)系統就使用了這樣的想法.現在正是由于這個特點，貝葉斯方法在人工智能領域發揮了非常重要的作用，已經成為學習型人工智能的理論基礎．

注：本文可作為現行普通高中數學教材中貝葉斯公式部分的擴展閱讀材料.