楊 懋 祁守成
中圖分類號:F224.32 文獻標識碼:A
內容摘要:本文從博弈論中的經典案例“囚徒困境”入手,闡述了單次博弈與重復博弈中的囚徒困境現象。隨后論證了囚徒困境在單次博弈與重復博弈中的均衡區別,說明了在重復博弈條件下合作產生的可能性。
關鍵詞:囚徒困境 單次博弈 重復博弈 合作
囚徒困境是博弈論中非零和博弈的代表性的例子,反映個人最佳選擇并非團體最佳選擇。雖然困境本身只屬模型性質,但現實中囚徒困境的例子屢見不鮮。
“囚徒困境”博弈是博弈論中的經典案例。這個故事講的是兩個嫌疑犯A和B,作案后被警察抓住,被分別關在不同的審訊室。警察為了得到所需的口供,告訴每個人:如果兩人都不坦白,每人以妨礙公務罪各被判刑三年;如果兩人都坦白,各判刑十年;如果兩人中一人坦白、另一人不坦白,則坦白的人判刑兩年、不坦白的人判刑十二年。在這個博弈中,每個嫌疑犯都有兩種可選擇的戰略:坦白或不坦白。顯然每個囚徒的最優戰略都是坦白。這是因為假定A選擇坦白的話、B最好也選擇坦白,因B坦白判刑十年,而不坦白卻要判刑十二年;假定A選擇不坦白的話,B最好還是選擇坦白,因為B坦白的話就判刑二年,而不坦白卻要被判刑三年。即是說,不管A坦白或不坦白,B的最優選擇都是坦白。反過來,同樣地,不管B是坦白還是不坦白,A的最優選擇也是坦白。結果,兩個人都選擇了坦白,各判刑十年。
單次博弈中的“囚徒困境”
經典的“囚徒困境”博弈單次博弈,反映了集體理性和個人理性的矛盾。假定每個參與者(即“囚徒”)都是利己的,即都尋求最大自身利益,而不關心另一參與者的利益。參與者某一策略所得利益,如果在任何情況下都比其他策略要低的話,此策略稱為“嚴格劣勢”,理性的參與者絕不會選擇。另外,沒有任何其他力量干預個人決策,參與者可完全按照自己意愿選擇策略。
假設二人均為理性的個人,且只追求自己個人利益,二人到底應該選擇哪一項策略,才能將自己個人的刑期縮至最短?由于隔絕監禁,信息不明,二人并不知道對方選擇;而即使他們能交談,還是未必能夠盡信對方不會反口。就個人的理性選擇而言,檢舉背叛對方所得刑期,總比不坦白要來得低。試設想困境中兩名理性囚徒會如何作出選擇:
若對方不坦白、不背叛會讓我獲釋,所以會選擇背叛;若對方背叛指控我,我也要指控對方才能得到較低的刑期,所以也是會選擇背叛。二人面對的情況一樣,所以二人的理性思考都會得出相同的結論-選擇背叛。背叛是兩種策略之中的支配性策略。因此,這場博弈中唯一可能達到的納什均衡就是(坦白,坦白)。
這場博弈的納什均衡,顯然不是顧及團體利益的帕累托最優解決方案。以全體利益而言,如果兩個參與者都合作保持不坦白,兩人都只會被判刑3年,總體利益更高,結果也比兩人背叛對方、判刑2年的情況較佳。
假設一方是非理性的,另一方是理性的,即博弈雙方均不知道對方是不是理性的,非理性一方(理解為講義氣重信譽的人或擔心坦白會受到出獄后的報復),假設他只有一種策略,如果博弈是重復的,在第一階段,他必然選擇不坦白,在以后階段他將選擇同伙前一階段的選擇,即你不坦白我就不坦白,你坦白我就坦白。而另一方是理性的,他不管對方是否理性的,他都將選擇坦白。所以這次博弈的均衡是(不坦白,坦白)。
假設雙方均為非理性的,那么他們不管同伙如何選擇,他們都將選擇不坦白,則博弈的均衡是(不坦白,不坦白)。
重復博弈中的“囚徒困境”
重復博弈中的“囚徒困境”,是指相同的博弈者會不斷重逢,即不斷重復面對相似的囚徒困境的選擇條件。重復為博弈產生了新的動力結構。在重復性囚徒困境下,理性博弈者將考慮,如果我拒絕合作,不斷背叛,為了減少你的損失你也背叛。通過重復,博弈者可按對手以往選擇而決定當前選擇。背叛有可能遭到懲罰,合作有可能獲得收益。
(一)重復性囚徒困境博弈的理論研究
在“重復性囚徒困境”研究方面,最有成就者當推羅伯特?艾克斯羅德、泰勒、哈丁等人。在其《合作的進化》一書中,艾克斯羅德用實驗證明,在重復博弈條件下,一次性囚徒困境下背叛的占優策略將會為有條件合作的占優策略所取代,換言之,在一次性囚徒困境中,選擇不合作策略的博弈者,在“重復性囚徒困境”中,將會采取合作策略以最大化個人利益、即“有條件合作”策略將是重復性囚徒困境下博弈者的占優策略。

艾克斯羅德的結論,肯定了純由利己主義者組成的世界中,建立互惠合作關系的可能性。這一結論對于人類社會的意義在于,即使在缺少政府權威的人群中,人們合作或建立社會秩序也是可能的,因為合作本身符合當事人長遠的、根本的利益。合作產生的條件就是:“人們重新相遇的機會足夠大”,即“合作是基于互利互惠的基礎;而且未來的影響十分重要,它足以保證目前的互利互惠關系的穩定”。
謝林仔細考察了博弈者相互之間的信息溝通程度與博弈結果的相應關系,探討“協同博弈”(co-ordination games)形成的條件。謝林對非零和模型的研究,表明最大化個人功利的企圖并不像在零和博弈中那樣等于最小化人的功利。
(二)重復性囚徒困境模型研究
如果重復囚徒困境將被精確地重復N次,已知N是一個常數,那么會產生另一個事實:納什均衡就是每次都背叛。用歸納法證明:你也可以在最后的回合背叛,既然你的對手將沒有機會懲罰你。因此,你們都將在最后的回合背叛。這時,你可以在倒數第二回合中背叛,既然最后一回無論你做什么,你的對手都將背叛。依此類推。為了達到合作的目的,對兩個參與者來說未來必須是不確定的。給出一個數據模型。假設囚徒困境的策略矩陣如表1。
我們假設囚徒的支付是階段博弈支付貼現之和,并假定貼現因子等于1。若雙方均為非理性的,那么他們每階段都會選擇不坦白。在不完全信息情況下,假設囚徒1有兩種類型,理性的和非理性的,概率分別為1-p和p,假設囚徒2也有兩種類型,理性的或非理性的,概率分別為1-q和q,為了敘述方便,用C代表“坦白(背叛)”(Confess),D代表“不坦白(合作)”(Deny)。
首先討論博弈只重復兩次的情況:在t=1階段,非理性一方會選擇D。在t=2階段,理性囚徒選擇C,而理性囚徒在t=1階段的選擇將是非理性囚徒在t=2階段的選擇,如表2。
如果選擇X=D,Y=D,
理性囚徒1的期望支付是:-3+[q*(-2)+(1-q)*(-10)]=8q-13;
理性囚徒2的期望支付是:-3+[p*(-2)+(1-p)*(-10)]=8p-13 ......
所以囚徒1和囚徒2對應于X,Y的選擇期望支付矩陣為
8q-20≥17q-22且-12≥8q-13由此得出:p≤1/8且q≤2/9再推得:
當q≤1/8時,X=C;當q≥2/9時,X=C。
同理可得:當p≤1/8時,Y=C;當p≥2/9時,Y=C,如表3。
就是說如果理性囚徒1(2)認為囚徒2(1)屬于非理性的概率不大于1/8,他將在第一階段選擇坦白,如果不小于2/9,則選擇不坦白。
其次討論理性囚徒認為他的同伙屬于非理性的概率在1/8和2/9之間時,他將如何選擇。
假設囚徒1和囚徒2都是風險中性者。
當理性囚徒一方認為另一方屬于非理性的概率p(q)≥a時,他將在第一階段選擇不坦白。在每個囚徒都沒有暴露自己是理性的還是非理性的之前,理性囚徒選擇不坦白的概率為1-a,選擇坦白的概率為a。若滿足:
a*(8q-20)+(1-a)*(-12)≥a*(17q-22)+(1-a)*(8q-13)則 q≤(a+1)/(8+a)。
令a=(a+1)/(8+a),則a=0.14。
所以,當一名理性囚徒認為同伙屬于非理性的概率q≥0.14時,他將在第一階段選擇不坦白,在第二階段選擇坦白。重復三次的博弈均衡如表4。
當博弈重復4次的情況如下:
在t=1階段,類似于前面的討論,囚徒1和囚徒2都將選擇D,那么他們都沒有暴露自己是理性的還是非理性的,那么在t=2,3,4階段的博弈和前面討論的3次重復博弈的情況是一致的。
∴p, q≥0.14時,重復4次的博弈的均衡,如表5。
當博弈重復n(T=n)次的情況:
類似的,如果p、q≥0.14,理性囚徒將t=1到T-1階段選擇D,在t=T時階段選擇C,非理性囚徒將自始至終選擇D。
如果這個博弈是無限期的,那么兩個囚徒都將永遠選擇D,當然對于囚徒博弈來說不可能無限期的進行。
結論
在現實生活中也存在有多種沖突問題的模擬,如核裁軍、工資談判、傳染病預防、企業廣告投入等,特別是經濟活動中,參加對策的各方利益并不是完全截然相反,而是由某種共同的利益聯結在一起,形成既有對抗又有合作的復雜局面。比如兩家公司組成的卡特爾,在短期內,他們就不會采取欺詐行為,而會共同規定一個價格,為爭奪市場的份額此時博弈的雙方只要他們相信今后還需要合作就一定會在第一次博弈的基礎上達成新的協議,結成行業聯盟。但它們就有可能定高價,使整個行業利潤最大,此時由于行業的高利潤和高發展前景,必然會不斷出現新產品,必然會有新的生產者進入市場。由于聯盟內部成員之間總是互不信任,暗中互相欺騙,就導致聯盟的短命使得該博弈過程不可能無限期的重復進行下去。由于政府的介入,如反不正當競爭和欺詐行為等,使得博弈的雙方又重新開始下一輪的博弈。
對一次性囚徒困境博弈來說,無論對手的行動可能是什么,最佳策略是簡單地背叛;但是在重復的囚徒困境博弈中,博弈被反復地進行,參與者最佳策略依賴于對手可能的策略,和他們怎樣對背叛和合作作出反應。因而每個參與者都有機會去“懲罰”另一個參與者前一回合的不合作行為。這時,合作可能會作為均衡的結果出現。欺騙的動機這時可能被受到懲罰的威脅所克服,從而可能導向一個較好的、合作的結果。作為反復接近無限的數量,納什均衡趨向于帕累托最優。
參考文獻:
1.張維迎.博弈論與信息經濟學[M].上海人民出版社,1996
2.高鴻楨.管理運籌學[M].江西人民出版社,1997
3.胡運權,郭耀煌.運籌學教程[M].清華大學出版社,1998