摘 要: 囚徒困境作為博弈論的經典案例,說明了個人理性與集體理性之間的沖突。文 章將心理過程應用于博弈分析,得出了不同于傳統囚徒困境的結論。在此基礎上提出博弈分 析中應考慮心理、文化、制度的影響。這一研究對于博弈理論在社會科學中的應用及實驗經 濟學的理論發展具有一定的啟示。
關鍵詞:博弈論 囚徒困境 心理過程
中圖分類號:C912 文獻標識碼:A
文章編號:1004-4914(2008)02-261-02
一、引言
囚徒困境可謂是博弈論的典型案例,幾乎每一本博弈論教材都用此案例說明個人理性與 集體理性之間的沖突。其模型如圖1所示,b>d>a>c,2d>b+c,即存在合作剩余。為便于分析 ,我們取a=-8,b=0,c=-10,d=-1,將數字代入得到博弈矩陣如圖2所示,博弈的均衡解為 (背叛,背叛),即雙方都將面臨能否得到合作利益的囚徒困境。

囚徒是否總是處于困境之中?基于多重博弈條件下的囚徒決策機制的報復模型(Taylor ,1987)和聲譽模型(Kreps,1990)的研究認為存在促進合作的激勵,即通過報復、聲譽等 機制,能形成合作的均衡。然而,對于一次性博弈(這也許是最可能的情形),囚徒能否走 出困境?博弈論給出了否定的答復。而這一明確的結論似乎與審訊實踐的復雜性有一定出入 。要弄清楚這個問題,必須理解囚徒的決策機制。
在面臨圖2所示的決策時,有兩種極端的決策方案,其一是兩人都只關心自己的支付, 因(背叛,背叛)是均衡策略。另一極端則是根據演化穩定策略即制度決定。如果合作是演 化穩定策略,即選擇合作,否則,選擇背叛。
實際的囚徒決策過程可能較以上兩種方式更為復雜。一般而言,人在博弈中采取策略是 一個心理過程。囚徒在面臨審訊中不可能采用演化穩定策略,因為對大多數囚徒而言,這是 一個一次性博弈,本次博弈對自己的影響重大。而囚徒只關心支付結構而簡單選擇背叛也不 大可能,因為作為同案犯,他們會存在友情、共同利益等,也會存在對對方選擇的猜測,其 決策會是一個對于情感評價以及對對方決策的猜測的心理過程,因而進入決策的不僅是支付 ,也存在對于支付結構的評價,這一決策的復雜性也得到了審訊實踐的檢驗。
二、影響囚徒決策的因素分析
本文從囚徒對本人支付、對方支付以及對于可能出現的均衡結果的主觀評價等因素分析 囚徒的決策。
(一)囚徒對于本人支付的主觀評價
囚徒對于處罰值的主觀評價即將外在的支付內化為個人損益值的過程。對同一支付值 ,不同的人會有不同的主觀評價。比如1年的監禁,對于有些人來說是很重的處罰,因為他 們在獄中會感到度日如年,而對于多次入獄的累犯形成的心理壓力要小得多。法律上有關累 犯從重處理便是這一問題的印證。
現在,我們將圖1所示博弈一般化為圖3,并對囚徒1,2對于支付的主觀評價分別賦予 權重α1,α2,(α1,α2>0),這個賦值過程將外在博弈內化為內在博弈,得到 圖4所示博弈支付結構 。顯然,博弈的均衡策略沒有改變,因為博弈雙方對于自己在各種情況下的處罰值的評價為 同一系數。但由于博弈雙方心理特征的差異,使得博弈由對稱博弈轉化為非對稱博弈。

(二)囚徒對于對方支付的主觀評價
在絕大多數情況下,囚徒雙方都會對于對方支付賦予一定權重,內化到本人的支付函數 中,這一心理現象可以理解為雙方的感情因素所致。一個極端的例子是父子同案,父親可能 會對兒子的支付賦予高于本人支付的權重,即自己即使受到處罰,也只是認為罪有應得,而 兒子受到處罰,則會痛心不已。這里,假設囚徒1,2對于對方支付賦予權重β1,β2( β1,β2≥0),此時,支付矩陣如圖5所示。
為了便于分析,我們將外在博弈的支付代入得支付矩陣如圖6所示。

根據圖6,可以得出如下結論:
對于囚徒1,當β1<1/9α1,無論對方作何選擇,都選擇背叛,這種情況可理解 為囚徒1雖然也同情和關心囚徒2,但更關心本人,因此,不會因為憐憫對方而改變自利的信 念;
當1/4α1>β1>1/9α1時,對方合作就選擇合作,對方背叛選擇背叛。即具有互惠利 他的動機,但在對方不合作的情況下是利己的;當β1>1/4α1時選擇合作,無論對方作 何選擇,都選擇合作。即具有純粹利他動機,即 使犧牲本人,也不會背叛。
同樣,對于囚徒2,當β2<1/9α2,無論對方作何選擇,都選擇背叛;當1/4α2> β2>1/9α2時;對方合 作就選擇合作,對方背叛選擇背叛;當β1>1/4α2,無論對方作何選擇,都選擇合作。 圖7給出了在各種情況下的均衡。可以看出,由于對他人支付的關切,使囚徒已部分走出了 困境。

(三)對于可能均衡結果的主觀評價
以上分析了囚徒對于本人支付及對方支付的主觀評價對于博弈的影響,這種評價只是對 于外在博弈的一種自然反應,即對于處罰值本身的敏感性,尚未涉及對于博弈結果的主觀評 價,即用道德和價值觀念對可能出現的均衡結果的評價。
囚徒在(背叛,背叛),(合作,合作)的均衡中不會有道德與正義的反差,而在兩人 做出不同的選擇時,這種社會道德價值會發揮評判作用。在自己選擇合作,對方選擇背叛時 , 會忌恨對方而后悔自己的選擇,后悔值與自己的損失成正比。而在他人選擇合作,自己選擇 背叛時會產生內疚,內疚值與對方的損失成正比。而后悔權重和內疚權重受個體所處的制度 文化背景影響。這里,分別對囚徒1,2賦予后悔權重γ1,γ2,內疚權重δ1,δ2 ,則對于囚徒1,其后 悔值為γ1(A11-A21),內疚值為δ1(B22-B12)。同理得 囚徒2的后悔值γ2(B11-B12),內疚 值為δ2(A22-A21)。由此得出博弈矩陣如圖8所示,將圖2所示外在博弈確 定的支付代入得博弈矩陣如圖9所示。

與圖6比較,圖9中的策略(背叛,背叛)與(合作,合作)的支付并沒有發生變化,策 略(背叛,合作),(合作,背叛)的支付變小,由此可以得出如下結論:由于對公平偏好 的影響,(背叛,背叛)與(合作,合作)的均衡概率增加。
三、結論與啟示
外在博弈確定的支付結構不同于參與人面臨的博弈,參與人的內在博弈是對外在博弈的 支付進行評價后形成的博弈。因此,對外在博弈求納什均衡解并無意義,因為對于同一外在 博弈,不同的決策者,其面臨的內在博弈并不相同,因此,均衡解可能是多樣的。
從決策者的認知模式及情境出發求得特定的均衡解是博弈分析的關鍵,求解博弈的均衡 解需要了解人的心理過程。由于進入囚徒決策的不僅是支付,也包含他對于支付的主觀評價 ,所以決策過程是反復評價支付以確定其權重的過程,囚徒面臨的困境是權重的確定。一旦 各種權重確定,均衡隨之確定。
應用博弈論分析社會現象要充分考慮社會現象的復雜性。一個博弈中支付的主觀評價的 權重往往外生于本博弈,它可能是由制度文化確定,或者說由其它相關博弈(特別是發生頻 率較高的博弈)的均衡策略確定,即流行規范內部化為個人的偏好。因此,博弈之間具有關 聯性,非均衡結果在其它博弈的影響下可能成為均衡結果。本文仍以完全信息為前提,不完 全信息條件下的囚徒決策更為復雜。
[本文為中國制度經濟學會2007年年會暨海峽兩岸經濟發展學術研討會入選論文]
參考文獻:
1.薩繆#8226;鮑爾斯.微觀經濟學:行為,制度和演化.北京:中國人民大學出版社,2006
2.張維迎.博弈論與信息經濟學.上海:上海三聯書店,上海人民出版社,1996
3.青木昌彥.比較制度分析.上海:上海遠東出版社,2001
4.Kreps, David M. 1990.” Corporate Culture and Economic Theory.” pp.90-14 3 in Perspectives on Positive Political Economy. James Alt and Kenneth Shepsle,eds. Cambridge : Cambridge University Press
(作者單位:華中農業大學經濟管理學院湖北武漢430070)
(責編:紀毅)