[德]沃爾夫岡·施波恩/文
陳偉/譯
博弈論和決策論具有同質性。或者從它們具有相似的主題內容、基本概念和方法來說,人們至少可以有這樣的期待。并且,通過首先考察這些理論的標準解釋能證明這個期待是合理的:決策論研究的是孤立的單獨個體的理性行為;博弈論關涉的是多人相互依賴性決策的理性問題。因此,博弈論是一種更具有包容性的理論;而決策論是特殊情形,是一個人的博弈,或者用一種不太恰當的說法,是對自然的博弈。
然而,經過更仔細的考察,博弈論的標準解釋及其與決策論的關系就顯得不盡如人意。當然,決策論也被各種問題所籠罩;但相較而言,我認為博弈論又被三個相互關聯的問題弄得大傷元氣:說嚴重點,它混淆了適用于它的理性概念,對其主體(局中人)的假定非常不清楚,并因此導致它所使用的決策規則含混不清。或者,用有些自相矛盾的話來說:(從博弈論來看)決策論是博弈論的特殊化;但是,(從決策論來看)如今表達的博弈論不再是決策論的一般化。不如說,由此可預料的是,博弈論應被視作決策論的特殊化。
這就是我的不滿。我將在接下來的各節中具體闡述這一點,并解釋我認為應該采納的補救辦法。
讀者也許會懷疑這些異議將會使博弈論導向更為高深莫測的領域,諸如三人或更多人的博弈或具有特征函數形式的博弈,于是可能會自動地放棄這些異議。但是,相反的是,這些異議處理的是那些看似清晰并且基礎穩定的兩人零和博弈。為求簡明,我將只處理標準形式的博弈。①澤爾騰所展示的標準形式問題與我的考慮無關,因而這也適用于他改進過的觀念。參見R.Selten,“Reexamination of the Perfectness Concept for Equilibrium Points in Extensive Games”, International Journal of Game Theory, Vol. 4, No.1, 1975, pp.25—55。
讀者也許還會懷疑這是為貝葉斯式博弈論所作的一個辯護,并且我也確實是從一個純粹的貝葉斯式立場進行的論證。然而,“貝葉斯式博弈論”的標簽已經和約翰·C.海薩尼(John C.Harsanyi)的工作有極為顯著的聯系。在我看來,后者在精神上依然是博弈論的而非決策論的,因此,基于類似的理由,它和標準解釋一樣是可批評的。這樣一來,這里就存在一種區別,我們不得不在最后一節來討論這一點。
總之,我不是宣稱這里提出的立場及其論證將會是全新的(盡管有些手法會是全新的)。只是那些在同樣精神指導下的對博弈論的早期攻擊,顯然不能使已被接受的理論不再成立,并使博弈論走上一條根基更為穩固的道路。正是這種情況,導致我作出另外的一種嘗試。
在證實這種不滿之前,不妨先勾勒一下這種不滿所依據的基本確信(basic conviction)。這個基本確信是一種正統的貝葉斯式確信。
根據這種確信,人們有目標和愿望,他們希望這個世界如此這般;他們有信念(belief),相信這個世界會如此這般;并且,如果合理的話,他們會根據自己的信念來行動,以便最大程度地促進他們的愿望的實現。為追求確定性,決策論用量化決策模型來使之公式化。在這樣一種模型中,一個人的決策情境被公式化,這個人被假定為具有數字上的主觀效用和概率;于是,理性行動(rational action)就被定義為一種最大預期效用的行動。并且,作為一種規范性理論,決策論建議理性行動。而作為一種經驗理論,決策論假定了理性行動;眾所周知,這就具有強烈的理想化色彩,最多只有近似的有效性。不過,這種模型宣稱在原則上適用于一切的人類行動。[這個宣稱并不像它看起來的那樣有力,因為它沒有擴展到所有的人類行為。我們必須看到,行動(action)是一個比行為(behaviour)更加狹窄的概念;并且,即使撇開其中的循環味道,我們也不能合理地說,行動只是決策論可適用的行為。①關于這個行動理論的主題,舉例來說,可參見P. M. Churchland, “The Logical Character of Action-Explanations”,Philosophical Review, Vol. 79, No. 2, 1970, pp.214—236。]
在這里,并非真的有必要走進決策論公式化的具體細節。但是,讓我們假設,為求精確,公式化運用了眾所周知的薩維奇(L. J. Savage)方式。在這種方式中,概率是對一組可能世界狀態的定義,效用是指可能的結果,每一個結果僅僅由一個世界狀態和一個行動來決定,然后標準形式的兩人博弈中所出現的常見效用矩陣就隨之產生。對我們的討論而言,這是最合適的公式化。②盡管它不是唯一的,甚至在我看來不是最好的。參見W. Spohn, Grundlagen der Entscheidungstheorie,Kronberg/ Ts.: Scriptor, 1978, Ch. 2。
順便說一句,努力使量化模型成為某種派生物,是更為審慎的情況,不太是常見的情況。薩維奇方式將理性行動定義為根據理性偏好選擇最優先之物的行動。如果偏好能滿足一些相當明顯的條件,諸如傳遞性等等,那么它就是理性的;然后,令人驚奇的是,這可以證明似乎是理性行動最大化了預期效用。但是,這個“似乎”如同說物體穿越空間是似乎它們有體積、似乎它們遵從牛頓第二定律等等一樣,是不合適的。不,根據牛頓力學,物體那樣移動的方式是因為它們有如此這般的體積,有如此這般的外力加諸其上,等等。并且,根據決策論,人們之所以那樣行動,是因為他們有如此這般強烈的愿望,他們有如此這般堅定的信念,等等。可以肯定的是,這個問題后面潛藏著大量的微妙之處,科學哲學家對此依然有分歧。但是,毫無疑問的是,如同在物理學和其他任何領域中表達的“似乎”一樣,科學哲學家眼中的操作主義已經過時了。③例如,參見 W. Stegmüller, Probleme und Resultate der Wissenschaftstheorie und Analytischen Philosophie, Band Ⅱ,Theorie und Erfahrung, Halbband, Heidelberg: Springer, 1970, Ch.Ⅲ -Ⅴ, 以 及 W. Stegmüller, Probleme und Resultate der Wissenschaftstheorie und Analytischen Philosophie, Band Ⅱ, Theorie und Erfahrung, Halbband, Berlin,Heidelberg: Springer, 1973, Ch. Ⅷ;或者 H. Putnam, Mind, Language, and Reality, Philosophical Papers, Vol. 2,Cambridge: University Press, 1975, Ch. 11, 12 and 22。因此,人們應把量化決策模型作為基礎。(這也許會改變所有支持“似乎”理論的、具有獨創性的可度量化定理的地位,但絲毫沒有降低它們的價 值。)
現在來看相互依賴性決策的博弈式情景,那么,上述決策情景的任何一般刻畫有什么被撤銷嗎?不,沒有任何東西。對我們而言,其他人及其行為僅僅與其他事物一樣都是外部世界的組成部分,盡管他們肯定相當復雜,也常常非常珍貴。從形式上講,這意味著在任何局中人的決策模型中,其他局中人的可能行動僅僅是可能世界狀態的組成部分。我們可以進一步將這些可能行動(在薩維奇的技術意義上①參見 L. J. Savage, The Foundations of Statistics, New York: Wiley ﹠ Sons, 1954, sect. 5.5。)看作一個微觀世界的組成部分,并使這一模型縮小到這一微觀世界——實際上,這同將一個擴展形式的博弈歸約到其標準形式一樣。因而,簡化模型包含有這種標準形式的效用矩陣。并且,完善它的唯一正確的方式是為其可能世界狀態,即為其他局中人的行動,增加局中人的主觀概率。畢竟,要做的理性事情總是要使預期效用最大化;這才是理性行動。
事實上,更為常見的情況是,基本上不存在博弈式情景。在我們的眾多日常事務中,我們對待他人就像他們都是有規律的并且可靠的行為自動機一樣,對于他們,我們有著非常明確的預期而不用多想;他們就像是交通或天氣狀況那樣被包括在我們的決策問題之內。(這個有點兒冷酷無情的說辭不過是無害的“專業性畸變”;幸運的是,我們確實能夠對一些人有更多的興趣。)
但是,如果這一點被接受,那么還剩下什么是博弈論的獨特領域?當我們將外部世界的其他人嚴肅地當作個人來對待時,當我們放棄僅僅觀察他們的行為并著手將他們理論化時,并且尤其當我們發現決策論大約是關于他們的正確理論時,當我們努力計算出他們可能的目標和信念是什么時,假定他們理性地行動,那么博弈論就開始了。然而,需要注意的是,在這一論述中,博弈論并不包含決策論,而只不過是決策論的一種具體化。博弈論是關于具體決策者的決策論,也就是說,那些決策者把其他人算入他們的決策情景,并根據決策理論對之進行理論化。②同樣,對一個在策略上思考和行動的人而言,一種恰當而統一的觀點是把關于他或她自己未來行動的理論決策進行理論化。參見 W. Spohn, Grundlagen der Entscheidungstheorie, Kronberg/ Ts.: Scriptor, 1978, Ch. 4。
所有這些可能聽起來都非常熟悉。這正是正統的貝葉斯定理關于博弈論的主張,基本上就是海薩尼在20多年前反復告訴我們的東西。但奇怪的是,所有人——那些標準的博弈理論家和像海薩尼這樣的貝葉斯主義者(參見最后一節)——似乎都違背了那個純粹的原理,都在把博弈論推向它的結果的過程中退縮了。
然而,這種過失是有其原因的。因為如果并非不可能的話,要在純粹的貝葉斯定理內證明每個人所持有觀念的正當性,即證明均衡點是兩人零和博弈或通常的非合作博弈的解決方法(參見第四節),看起來是困難的。這樣一來,我們必須仔細看一下在不背叛這個迄今為止的概略性原理的條件下用它能具體做些什么。但是,讓我先從這個貝葉斯主義視角來審視標準博弈論對兩人零和博弈的理論推理。
有鑒于此,我們應該簡要概括一下現有的推理。我希望每個人都同意盧斯、雷法①R. D. Luce ﹠ H. Raiffa, Games and Decisions, New York: Wiley ﹠ Sons, 1957, Ch.4.和馮·諾依曼、摩根斯坦②J. von Neumann ﹠ O. Morgenstern, Theory of Games and Economic Behavior, Princeton: University Press, 1944,Ch. Ⅲ.不僅是代表人物,而且還對這個推理提供了最徹底、最令人信服的敘述,以便于我可以在他們的基礎上進行概述。這個概述包含四個部分。
第一部分(與所有標準形式的博弈相關):賦予博弈以標準形式。非常含糊地說,博弈論的基本問題就是以某種方式為每個局中人找到對他而言哪個選擇是一個好選擇。然而,這是一個過于模糊的問題,它需要具體說明。因此,讓我們先假定,每個局中人是理性的,要么在寬泛的意義上(根據他的效用函數)盡可能地努力擺脫博弈,要么在更為嚴格的意義上,“在既有兩種選擇的情況下,他將總是選擇他所偏好的,也就是那個效用更大的選項”③R. D. Luce ﹠ H. Raiffa, Games and Decisions, New York: Wiley ﹠ Sons, 1957, p.55.。并且,讓我們接下來假定,每個局中人對標準形式的博弈都了如指掌,也就是說,他知道每個局中人的可能選擇(策略),也知道每個局中人所有可能策略組合結果的效用(通常而言,關于博弈的機會步驟,這些就是已經預期到的效用)。
如果沒有第一個假定,博弈論就根本不可能運作。一般理論怎么可能是關于非理性行動的呢?并且,第二種假定也是必要的;否則博弈理論家所處理的問題就可能是錯誤的,也就是說,那個問題不同于博弈理論家在主觀上所認識到的局中人的問題。然而,如果有這些假設,我們就有希望使我們的問題具體到足以是可解決的。因此,讓我們試著來解決它。
第二部分(與所有標準形式的非合作博弈相關):一個首要的考慮可使我們有比較大的進展。這個考慮是,如果博弈論應當具有至少潛在的公共性——正如它無疑應該是這樣的——那么它就能夠區分僅僅作為局中人理性選擇的均衡策略。(可以肯定的是,到目前為止,我只是在討論純粹策略;混合策略要到第四部分才會提出。)或者,更確切地說:博弈論是要為每個局中人找到哪個選擇對他而言是更為理性的選擇。如果能做到這點,那么每個局中人也能像博弈理論家一樣,知道哪些選擇對其他局中人而言是理性的選擇(因為根據上面的第二個假定,每個局中人是使用和博弈理論家一樣的方式看待博弈情景的);并且,因為每個局中人被假定為是理性地行動,這個假定對任何局中人而言就一定不能成為一個理由,讓他背離對他而言依據這個理論是理性的東西;于是,只有均衡點才是理性的策略組合,并且,只有均衡策略即導向某個這樣點的策略才是理性的選擇。
眾所周知,這個考量能發生變化。有些博弈在純粹策略中沒有均衡點,而有些有很多,在這些情形中其成功依然是不完備的。但是,對于純粹策略中具有均衡點的兩人零和博弈來說,這是關鍵所在,因為在這種博弈中的均衡點被證明在本質上是獨一無二的。①參見 R. D. Luce ﹠ H. Raiffa, Games and Decisions, New York: Wiley ﹠ Sons, 1957, sect. 4.5。這樣一來,在這個具體情形中,我們就已解決基本的博弈理論問題。
第三部分(僅與純粹策略中具有均衡點的兩人零和博弈相關):在這種具體情形中,還存在另一個有說服力的考量,它具有相同的影響。可稱這兩個局中人為查理和露西。查理也許會根據直覺作如下推理:“露西這個理性的家伙,想盡可能地努力擺脫博弈。這與我的利益相抵觸。所以,我最好看看從我的每個選項中我最少能得到多少,然后努力使這個數量盡可能地大,也就是,正如我聽到有人表述的那樣,我最好最大化我的安全等級。如果這是合理的,那么理性的露西將做相同的事情,也就是說,最大化她的安全等級。哦,但是我的安全等級最大值是對她的安全等級最大值的最大抵觸,因此,我應該更加堅持我的選擇 。”
或者,用馮·諾依曼的話來說:考慮查理的弱函數博弈和強函數博弈。在弱函數博弈中,查理必須首先做出選擇,然后露西在已知他作了什么的情況下,再進行選擇。在強函數博弈中,正好倒過來。顯然,在弱函數博弈中,查理最多和在實際博弈中的處境一樣好;而在強函數博弈中,他至少和在實際博弈中的處境一樣好。并且,同樣顯然的是,在弱函數博弈中,對他而言唯一可做的理性事情就是最大化他的安全等級;而在強函數博弈中,唯一可做的理性事情就是選擇那個最能抗衡露西的安全等級最大值(假使她已經很理性地作出這一選擇)的選項。但是,這兩種情形得出相同的策略組合,并且對查理而言是相同的效用。這樣一來,對于處在弱函數與強函數博弈“之間的”實際博弈而言,恰恰只有這一點是理性的。
總結一下:從第一部分中的假定開始,我們已經給出了兩個完全獨立的推理。每個推理都單獨地在所考慮到的具體情形中展開,并且兩者被證實可以得到相同的結果。還會有什么更好的理由呢?
第四部分(與所有的兩人零和博弈相關):現在,馮·諾依曼告訴我們,如果我們愿意允許一些小把戲,即允許每個局中人把他的純粹策略混合起來,那么我們就能夠把整個理論推廣到所有的兩人零和博弈。進一步的論證被虛構出來,用來給那些對這種小把戲感到不自在的人以最后的推力,比如說,秘密論證、對重復博弈的考慮或者大量反復的論證。②參見 Ibid., p.75。但是,我們不需要在這里對這個附加的支持作詳細的闡述,因為如果沒有主要的推理這就都是無用的。并且,這個可以獨自成立。事實上,任何局中人都能自由地選擇一種混合策略;這樣一來,混合策略就在各種被考慮的選項之中,關于它們的上述推理和關于純粹策略的推理一樣有力。因此,這就是混合策略、最大最小值和均衡點是如何發現彼此并能一直愉快相處的原因。
不幸的是,這一理論并不像它聽起來的那樣好。有必要作一番評論,批判的不是這個理論的結論,而是得到那些結論的方法。
對第一部分的評論:人們可能會認為,第一部分的理性和知識假設過于限制博弈論的運用。但是,實際上,它們不過是要么不太有力要么不夠清楚。假設局中人是理性的真的就足夠了嗎?看起來,當然還要假設每個局中人都相信其他局中人是理性的。這在這個理論的第二部分中尤為清楚,在那里,我們非常松散地區分了博弈理論家假設一個局中人對其他局中人作出的假設和博弈理論家本人對其他局中人作出的假設。但是,這樣一來,大概還應該假定每個局中人都相信其他局中人也認為他們的同伴是理性的。在這一點上,有人可能會傾向于一個激進的步驟,也就是,爬上迭代的相互理性假設的無窮階梯,就像有些人在意義理論中在一個類似情形下所做的那樣。①例如,參見 D. K. Lewi, Convention. A Philosophical Study, Cambridge, Mass.: University Press, 1969;以及S. R. Schiffer, Meaning, Oxford: University Press, 1972。也就是說,(在西菲爾的技術意義上②S. R. Schiffer, Meaning, p. 30f, or D. K. Lewi, Convention. A Philosophical Study, p. 56; 也參見本文第四節。)博弈理論家可能會假設,在局中人之間,局中人的理性是相互的或者是常識。當然,所有這些都同樣適用于第二個假設,即該理論第一部分中的知識假設。因此,博弈理論家應該假設什么呢?人們覺得,關于局中人作多少假設確實是有不同影響的;但是,很難看出來這在被接受的理論中有怎樣的體現。
還存在另一個模糊性。在理性假設中所使用的“理性的”確切含義是什么?從盧斯和雷法援引而來的解釋沒有多大幫助,因為偏好或效用僅僅指的是策略組合;在標準博弈論中,不存在僅僅針對單個局中人的選擇的偏好次序甚或效用函數。因此,在“理性的”更有效用的意義上,一方會愿意截然地規定另一方。然而,按此推斷,這一問題是錯誤的。按此推斷,標準博弈論認為,在保證后面會精確起來的前提下,在初始的假設和解釋中它更偏好或不能避免“理性的”含混。但在當下,這只是說“理性的”是有意的模糊,這就沒有什么實質進展。
這個問題的難點在于:標準博弈論確實在任何地方都沒有以一種嚴格的方式從初始假設開始推理;它們被排他性地使用在看似成立的論證之中。這里的態度似乎已經是,最初直觀的根據被用來為一系列嚴格的理論化作準備,人們就不需要掂量這個準備中的每個詞。這樣一來,在直觀階段一些細微的區別就已經模糊不清,沒有給艱難的理論化任何機會來消除這種不嚴謹。從貝葉斯定理的角度來看,這是邁向不可靠根基的第一個決定性滑坡。
對第二部分的評論:我們已經提到過,為使局中人具有與博弈理論家一樣的方式來看待博弈情境,比第一部分中更強的關于局中人的假設就是必要的,于是第二部分有這一假設也是必要的。但是,還有另一個不足之處,這在純粹策略中具有一個均衡點的兩人零和博弈的情形中尤為明顯。在這種情形中,第二部分得出的結論是,每個局中人只能理性地選擇他的均衡策略。但是,這個結論下得太早;能夠得出的只是:如果博弈理論家成功地區分出一個理性的選擇,那么這一定是均衡策略。然而,并不保證以上的“如果”句是真的。也許博弈理論家的問題是他能夠僅僅部分地縮小理性選擇的范圍,而不是將其縮小到一個。更一般地說:第二部分所表明的是,博弈理論家并不能在均衡策略之外建立某個理性的選擇集合;但是,根據其他的理由仍然表明,一個選擇只有在均衡策略之中才能肯定地被確立是理性的。第三部分也許準備了這樣的理由,因此,讓我們轉向第三部 分。
對第三部分的評論:人們對最大最小化決策規則已經有很多論述,并且我們知道了所有實質上贊成或反對的觀點。我覺得,目前的討論狀態有一點兒順利。似乎通常可接受的是,最大最小化不能作為一個基本的決策規則被普遍應用;它在許多情景中造成了荒謬的結果。不過,在某些類型的情景,尤其在兩人零和博弈中,而且對不確定性條件下的決策而言,在統計學的決策理論中,以及新近在羅爾斯的初始狀態①參見 J. Rawls, A Theory of Justice, Cambridge, Mass.: Harvard University Press, 1971, sect. 26。中,最大最小化都被認為是一個可討論的、還不錯的甚至是可信的決策規則。
然而,從理論的角度來看,這種事態是完全不能讓人滿意的。從這個角度來看,沒有辦法很簡單地做到,為不同類型的情景找到直觀上可信的決策規則,以通過某種系統的論證來支持直觀判斷,并且就此終止。不,如果不同的決策規則確實被不同類型的情景所接受,那么人們就想知道一些主導的或統一的原則,以解釋或至少準確地描述在哪些條件下哪些決策規則在哪些情景中是適當的;或者,更好的是,人們愿意有一些基本的決策規則,其他的規則可以從它們推導出來。但是,在試圖回答關于博弈論的這一要求時,我們很明顯直接陷入了在第一部分就發現的那種晦澀之中。
誠然,我在這里所做的一切是訴諸理論意識。但是,我想通過接下來的論證使這個訴諸更為迫切。
這需要利用薩維奇的微觀世界理論。關于這個主題的理論重要性,我認為沒有被充分認識到。這個主題與對世界的描述相關,相似的決策情景可能是基于不同的世界。在這里,一個世界——寬泛講而不需要真的深入技術細節——是所有項目(item)的集合,這些項目應當在決策情景的描述中被明確地考慮到。薩維奇的評論是,現在似乎沒有一種好的方式來指明哪個是正確世界,并以之作為給定決策情景描述的基礎。從表面來看,將每個實際相關的項目放入一個世界之中,似乎是合情合理的,但通常這會產生很多難以處理的宏觀世界。因此,不是要尋找正確的世界,而是我們應該努力發現何時兩個依據不同世界的描述可以被說成是相同的。為此,薩維奇找到一個方法,可以將依據宏觀世界的描述還原為依據微觀世界的描述,并且可以保證這兩個世界相等。還原方法的實質特征是,它如何能將效用歸因于包含在微觀世界描述中的可能結果。薩維奇采取以下方式:從宏觀世界描述的觀點來看,如果有確定概率pi,通過它,一個不甚詳細的微觀世界的結果,比如c,塑造出千變萬化的、更為詳細的宏觀世界結果ci,它具有確定效用ui;那么,微觀世界描述中的效用c應當是期望值∑piui。①關于所有的詳細說明,參見 L. J. Savage, The Foundations of Statistics, New York: Wiley ﹠ Sons, 1954, sect.5.5;以及 W. Spohn, Grundlagen der Entscheidungstheorie, Kronberg/ Ts.: Scriptor, 1978, sect. 2.3 and 3.6。
有人也許會想出另外一些還原方法(盡管我認為這沒有必要);但目前對我們重要的是,不管選擇什么樣的還原方法,一定要與所采用的決策規則相容。這意味著,當決策規則被應用于宏觀世界描述時,必須導致和決策規則被應用于還原的微觀世界描述時相同的決策(實際上,是可選項中相同的偏好次序)。②由于薩維奇的決策規則是使預期效用最大化,他的還原方法和預期效用同樣起作用也就無足為奇了。參見 L. J. Savage, The Foundations of Statistics, 1954。事實上,單說還原方法與決策規則相容是有一點兒誤導的。不如說,還原方法是被選定的基本東西,然后決策規則作為純粹的特例隨之而來。決策規則除了影響將最大描述還原為最小描述之外沒有其他作用,最小描述明確考慮的僅僅是決策者的可選項,而不涉及其他任何東西。
接下來要考察的是,作為最大最小化決策規則的自然推廣,還原方法事實上是一種不切實際的方法。根據這種方法,微觀世界結果的效用會是它所形成的宏觀世界結果效用的最小值;并且,不需要證明這將導致各種荒謬的和直觀上不可接受的結果。實際上,沒有人甚至是最大最小化策略的追隨者都不曾嚴肅地考慮過這種還原方法。也就是說,最大最小化被認為只對決策情景的微觀世界描述可合理應用,這是已經由形成預期效用的薩維奇的還原方法得到的結論。或更簡潔地說,最大最小化的東西總是(關于某個宏觀世界描述的)預期效用。這在博弈論中尤其明顯,其標準形式的效用就是派生自擴展形式的預期效用。
因此,最大最小化決策規則所出現的理論混亂要比它看起來的意義更為深遠。首先,這種混亂表現在各種決策規則似乎適合于不存在任何統一原則的各種決策情景。但現在,當決策規則被看作還原方法的特例時,我們在單獨決策情景中就有了混亂,因為對最大最小化預期效用實際上在一個決策情景中應用了兩個不同的還原方法。于是,就有一個迫切的問題:哪種還原方法精確適合于決策情景中的哪些項目?又是為什么?為什么首先采用預期效用還原然后再考慮最小效用還原?為什么不是反過來?等等。(這有不同影響,這兩種方法不是可交換的。)所有這些都非常難辦,我們應盡最大努力避免這種混亂。
結語:馮·諾依曼的第三種說法,即“中間性”論證,比查理的直觀推理更具有嚴格性。但并非如此。在弱函數博弈中,查理知道露西將知道他要做的,在強函數博弈中他將知道露西要做的并且也知道露西知道這些,等等。在真實的博弈情境中他并不知道這些,也就是說,他比在弱函數博弈和強函數博弈中的處境都更不利(然而,這也意味著按照預期效用他也許會比在其他兩種博弈中的處境更有利)。在這方面,真實的博弈并非處于弱函數博弈和強函數博弈之間,并且似乎沒機會導致“中間性”論證的正確性(正如麥克倫南也論證的那樣①E. F. McClennen, “Some Formal Problems with the von Neumann and Morgenstern Theory of Two-Person Zero-Sum Games, Ⅰ: The Direct Proof”, Theory and Decision, Vol. 7, No.1—2, 1976, pp.1—28.)。
對第四部分的評論:這部分公認的理論在我看來依然有最清晰的癥狀,有些地方一定有問題。莫名其妙的是,這些小小的錯誤都會使我們徹底迷失方向。混合策略不可能簡單地就是那個理性的或最佳的選擇。我認為,這無須再爭論;像切諾夫②H. Chernoff, “Rational Selection of Decision Functions”, Econometrica, Vol. 22, No. 4, 1954, pp.422—443.的那種牽強推理的無效性,只能由標準理論(的其他部分)已深深占據人心這一事實來解釋。讓我來只是重復一下那個推理的簡版:它從以下假設開始,局中人在他們的可選項中有某種偏好排序。盡管博弈論并沒有建立這種排序,正如上面所提到的那樣,但否定其可能性或者只在博弈情景中才講得通確實會是一個奇怪的斷言。現在,兩個可比較選項的混合明顯不比它們兩個好。并且,如果排序不應該是完全的或相關的,如果應該有兩個不可比選項,那么它們的混合就與它們兩個中的每一個都不具有可比性。因此,一種混合在任何情況下都不比組成混合的成分更有效,也就沒有必要考慮把混合策略作為局中人的選項。
實際上,是否任何人都已經真的主張把混合均衡策略作為那個理性選擇,這是不清楚的,因為存在下面這個固有的相反論證,這個論證是眾所周知的。如果一個局中人堅信他的對手使用他的混合均衡策略,那么所有的混合在他自己的均衡策略中的純粹策略(以及所有的它們的其他混合)就會有相同的最大預期效用。也就是說,如果其中一個局中人相信博弈論,另一個人就不需要這樣并被證明忽視混合策略;如果其中一個局中人不相信博弈論,那么無論如何博弈論馬上就會中止。海薩尼在他的文章③J. C. Harsanyi, “Games with Randomly Disturbed Payoffs: A New Rationale for Mixed-Strategy Equilibrium Points”, International Journal of Game Theory, Vol.2, No.1, 1973, pp.1—23.中也擔心混合策略中均衡點的這種不穩定性(它表明,即使第二部分無可爭議,也不可能順利延續到第四部分),我們稍后回到那里。
在這里,通常附加的論證毫無用處。秘密論證,即隨機化有利于對付聰明的對手①例如,參見 R. D. Luce ﹠ H. Raiffa, Games and Decisions, New York: Wiley ﹠ Sons, 1957, p.75。,是不切實際的。因為正如(標準形式)博弈情景所通常描述的那樣,局中人在他們作出選擇之前不可能知道或發現其他對手的做法,除非他們有通心術或相似的特異功能。他們也許多少對其他人有明顯的信念,但根據通常的描述,在目前情況下未發現的選擇過程不可能成為證據的一部分。多少帶有爭論性地講:博弈論中的有趣之處并不是害怕知識的出現,而是害怕知識所缺乏的確定性。
無論是出于解釋性理由還是證明性理由,在教科書中常常可以找到另一條線索。這條線索是,想象一個被玩了很多次或無數次的博弈。可是,如果它被當成人們在玩構建自原初博弈的超級博弈,這條線索就無任何進步,只是因為我們在原初博弈中所有的理論麻煩會再次出現在超級博弈中。但即使我們假定在統計上無法使用的(在適當之處中顯示的)原初博弈純粹策略的隨機序列在超級博弈中是(當然是)一個合理的選擇,并且會有一個理論上無可爭議的正當理由,我們仍沒有獲得成功。當原初博弈只使用一次時,從那里到理性的東西之間并沒有嚴格的推理。②在這里,也許值得注意的是,根據長期考慮來解釋個案概率的嘗試也被證明是得不到結果的;參見I. Hacking, Logic of Statistical Inference, Cambridge: University Press, 1965, Ch.4。
秘密論證在這種反復博弈的語境中更能講得通,因為早期博弈中的隨機化可能在后期博弈中變得無法計算。但所有這些都忽視了這一點。這些考慮的可信性和實際價值是無可爭辯的。然而這一點就其本身而言,并沒有使它有助于基礎導向的理論化。并且,作為局中人可能選擇的混合策略就因上述理由而被放心地忽略 掉。
我們可以通過嚴格堅守決策論的立場來避開所有這些麻煩。那我們將不得不為局中人詳細地說明完全決策模型,這就促使我們要清晰地陳述所有我們關于局中人的假設,尤其是認知假設,并從它們出發,依據最大預期效用規則而不是貌似可信的推理來嚴格地得出理性的選擇。因此,理論的第一部分應盡可能地精確。第二部分盡管以其弱化的方式在評論中提到,但它依然有效。第三部分的混亂將會立即澄清。并且,我們將不會有采用混合策略的任何想法。
那非常好,但積極的貝葉斯理論看起來又怎樣呢?它沒有陷入新的麻煩嗎?讓我們看看。我們首先應該介紹一些術語。在這一節中,理性的(rational)就是恰恰指最大預期效用而不是其他任何東西;這很重要。一個人堅信p,就意味著其關于p的主觀概率是1。關于兩個人1和2,我們用遞歸方式定義:如果人i(i=1,2)堅信p,那么其對p有一階信念;如果人i堅信人j(j≠i)對p有n階信念,那么其對p有n+l階信念;當且僅當p為真并且兩個人對p的信念一直到n階,p是這兩個人之間的n階共同知識(盡管嚴格來講,需要的不是他們所具有的知識,而只是真的信念)。
現在讓我們轉向最簡單的情形,看看純粹策略中只有一個均衡點的標準形式的兩人零和博弈,在那里查理(橫向選擇者)和露西(縱向選擇者)是我們的兩個對手。公認理論的第一部分和對它的評論都建議通過假設以下一點開始分析:查理和露西的理性和他們由博弈矩陣得來的效用都是還須在它們之間詳加說明的某階共同知識。如果是n階,我們可稱這個假設為RUMn。RUM是不是已經解決了這些博弈?不幸的是,沒有。RUM所做的是,排除那些從一開始或以這種方式消除一些可選項后仍占嚴格支配地位的可選項。例如,下面的博弈是通過RUM5來解決(當然,它應用 RUM4,…,RUM1):
因為RUM1,露西堅信查理永遠不會做a4;因為RUM2,查理堅信露西堅信這些并因此永遠不會做b4;同樣,a3被RUM3排除,b3被RUM4排除(這解決了查理的問題),最后a2被RUM5排除(這也解決了露西的問題)。
一般化:如果RUMs能有效排除局中人的一個選項之外的所有其他可選項,那么剩下的那個選項只能是他的均衡策略。不幸的是,RUM在其中有效的博弈是有具體特征的。例如,所有的RUM在以下類型的博弈中無能為力:
在這里,RUM1沒有排除任何東西,因此沒有RUM能解決問題。
貝葉斯立場存在潛在困難。根據標準理論,第一部分的有點兒模糊的假設似乎以非常可信的方式證明了對所有兩人零和博弈的均衡或極大極小策略的正當性。現在,在一種決策理論的精確化(exactification)之下,這些假設濃縮為RUMs;但RUMs不夠有力,只能否定極為特殊的個例。對非貝葉斯主義者而言這也解決了問題,即使貝葉斯主義者在這一點上有所動搖。但在我看來,由于上面提到的理由,任何對決策理論道路的背離都會成為理論上的災難。因此,正如均衡策略看來并且廣泛被認為合理的那樣,這個工作只能是通過一些似乎合理的假設加強RUM,均衡策略也許可從這些假設來證明是理性的。我認為,我打算陳述的假設是與標準博弈論的精神最為接近的假設;事實上,它將是微不足道的改寫以至于你會失望:
根據RUM,我們的第二個事例的麻煩是,查理和露西關于他人行動的認知狀態根本不受限制,他或她的每一個可選項相對于認知狀態都是最優的。因此,我們應當引進一些關于這些認知狀態的限制。做到這一點的一個方法是,加強從RUMn到RUEn,即以下假設是他們之間的n階共同知識:不僅是查理和露西的理性及其效用,而且包括他們關于他人行動的認知狀態。
更正式一些來講,這實際上是下面的定理,它們實際上適用于所有標準形式的兩人博弈。用A1表示查理的一組可選項,用A2表示露西的一組可選項,我們來考慮以下命題:
(1) 查理是有理性的 。
(1′) 露西是有理性的。
(2) 他的 A1×A2的效用函數是 U1。
(2′) 她的 A1×A2的效用函數是 U2(不必然是 U1)。
(3) 他的A2的主觀概率函數是P1。
(3′) 她的 A1的主觀概率函數是 P2。
(4′)—(9′)是把(4)—(9)中查理和露西的角色互換。
(10) 查理的混合策略s1=P2和露西的混合策略s2=P1都是均衡的。
(11) 他選擇最反對s2=P1的純粹策略。
(11′) 她選擇最反對 s1=P2的純粹策略。
那么,(從只是論及一個人的意義上講)我們有以下“個人內心的”定理:(1)—(9)蘊涵(10)和(11);以及“人際的”定理:(1)—(6)和(1′)—(6′)蘊涵(10)( 11)和(11′)。
這個證明幾乎不應該表述如下:讓BiA(ii=1,2)是所有純粹策略的集合,根據Ui,這些純粹策略最反對S(jj≠i)的。用M(Bi)表示Bi中所有策略混合的集合。那么當然,M(Bi)中的每一個混合策略都最反對Sj。現在,(3)—(6)蘊涵s2M(B2)。同理,從(6)—(9)或(3′)—(6′)得出 s1M(B1)。因此,s1和 s2是均衡的;最后,(1)和(1′)分別蘊含(11)和(11′)。
我得趕緊補充的是,我們剛剛把混合策略僅僅作為一種形式手段來使用(當然,它們還是非常有用的);在這里,P1僅僅被認為是查理所具有的東西,S2不是露西所具有的,盡管它們可能在形式上等同。讓我也補充一下,這些“定理”也許可非常容易地推廣到所有標準形式的n人博弈。①實際上,我對我們的瑣碎“定理”有點兒慚愧。我希望提出一些更為有益的東西;而事實上,有很多也許更弱也許更貌似真實的假設試圖取代RUE。然而,我沒有發現和RUE同樣有效的假設。但畢竟,數學上的新奇不是我這里的目標。
對于陳述這些定理,我的理由是,我認為它們的形式應當是博弈論定理的范式。它們通過完全決策模型刻畫局中人,在完全決策模型中,他的愿望和信念都是按需要的詳細程度來刻畫;并且,他們堅持把最大預期效用作為唯一的決策規則。因此,它們是嚴格的貝葉斯定理,并且正因如此,它們符合由先前部分中的批判產生的全部要求。
我認為,它們不應該為它們的結論(11)和(11′)而受責備,盡管這個結論對純粹策略中沒有均衡點的博弈而言是不完全確定的。標準博弈論對于純粹策略同樣沒有詳細說明,并且已經清楚的是,在貝葉斯式解釋之內我們無法根據混合策略得出更具體的結果。因此,這么多非確定性是不可避免的,并且在這方面沒有理由失 望。
但是,可能你會因它們的前提而責備它們,盡管你肯定認為前提符合標準博弈論的精神。提及“個人內心的”定理,前提(1) (2) (4) (5) (7)和(8)都是RUM2的部分,不管如何這是博弈論中所承認的;(3) (6)和(9)也與假設其假設的公共性這個一般趨勢相一致,尤其,博弈論歸咎于局中人的是,它們說明了擔心對方太透 明。
然而,有人反駁說,把(3) (6) 和(9)作為前提——盡管理性的局中人是真的——根本不符合博弈論的精神,而不如說是博弈論的一種諷刺,因為通過表明S1和S2分別是查理和露西要做的理性事情,從而斷然假定博弈論所要建立或努力建立的東西(由于所假設的理性共同知識,從而蘊含(3) (6)和(9))。現在我要重申的是,像(3) (6)和(9)這樣的事物在標準博弈論中根本不是嚴格地建立的,而我們再一次來到這里。這里的障礙在哪里?我認為,即使人們同意到目前為止我所說的,依然肯定存在這樣一種感覺,即我沒有完全公正地對待標準博弈論。事實是,當對標準理論的顯明目標即建立理性行動進行表面判斷時,就清楚地表明標準理論意在更多我們還未把握到的東西,貝葉斯式重述就會導致一種淺薄。但讓我們目前遵從這一殘酷的事實;當我們隨后從一個更抽象的水平來理解它時,我們就會看得更加清楚。
另一種指責可能是,(3)( 6)和(9)是比其他假設更加難以置信的假設(盡管這與先前的指責即(3)( 6)和(9)是假定而非證明的相反)。下面是三個相關的評論 :
第一,所有(1)到(9)當然都是理想化的。但是,根本沒有理由解釋為什么(3)( 6)和(9)應該是比其他假設都更加嚴重的理想化。因此,這不可能是這個指責所指向的觀點(一般而言的懸而未決的理想化本質不是我們需要討論的主題)。
第二,通常很難說(5)還是(6),或(8)還是(9)是我們定理的更加關鍵的假設,因為在關于他人的信念或愿望是否更容易可知這個問題上,似乎不可能有任何一般的、實質的斷言;我認為,這個問題不需要爭論。
第三個要提的事情是,說與RUM相對立的RUE的盈余包含在局中人的認知狀態的共同知識中是欠妥當的,因為一些這樣的東西常常已經包含在RUM中。也就是說,如果博弈有機會變化,那么局中人關于這些變化的認知狀態就通過RUM而眾所周知,因為那時RUM需要預期效用被眾所周知。
盡管有這些辯護性評論,(6)和(9)依然看起來比(5)和(8)更有問題——至少在兩人博弈的通常例子中(這不可能通過說這些例子有偏見就可以不管)。這會被下面的考慮所支持。
首先,假設局中人相互知道關于機會變化的認知狀況,這似乎在許多(盡管不是在所有)情景中都是無傷大雅的——例如像擲骰子的機會變化,而且,當關于機會變化的主觀概率不是很容易被當作反映那種機會變化的客觀概率的知識時,即使當問題中的機會變化沒有客觀概率時,也是如此。例如,機會變化也許是史努比是否正在找紅男爵,然后我們可以想象查理作如下推理:“史努比昨天就開始尋找了,通常這要花費他幾天時間。因此,非常可能,比如說90%的可能性,他仍然在尋找。現在,因為露西和我一起發現他昨天登上了他的雙翼飛機,我知道她知道史努比是從昨天開始的,她也知道我知道史努比是從昨天開始的。更重要的是,她對他的了解和我對他的了解幾乎一樣多,并且她知道我有多了解他;因此,她會準確地猜到我關于史努比的概率,并且她本人會有相同的概率。”每當這樣的考慮適宜時,就可以貌似合理地假定至少局中人關于機會變化的信念這樣的二階共同知識。①讓我順便指出,(1) (2) (4) (5) (7)和(8)是不如RUM2有力的查理RUM的一半,(1)到(9)是不如RUE2有力的查理RUE的一半。我認為,這是可以令人滿意的,因為似乎我們攀登的RUM或RUE的等級越高,我們就更加奇怪地喪失自我。
同樣地,共同的效用知識常常看起來沒問題。因此,想象一下查理和露西在玩相匹配的賭注;那么就有了查理為這個博弈建立(2) (5)和(8)的另外一個簡單的推理:“我下了不到四分之一,我想贏。所以,我的效用堅守不變。現在,露西非常了解人性,特別是我的人性。人人都追逐金錢,畢竟我也不例外。所以,她將知道我的偏好。但是,她也沒什么不同,她已經充分證明了這一點。所以,她的效用應該與我的相對立。”
與這兩個推理相反,讓我們看看對于(3) (6)和(9)是否存在相似的推理。查理也許會作如下闡述:“露西的各種可選項的概率是怎樣的?為了找到答案,我應該審查我關于她的證據。”——暫停一下——“好吧,不管我的證據是什么,我已把它與她知道的收集在一起;沒什么特殊的或神秘的東西。因此,(a)她大概知道我有關于她的哪些證據。但是,(b)她也因此將正確地猜到我的概率;畢竟,我們思考的方式并無不同。同樣,她將可能想到我正確地猜到她對我的概率。”——暫停一下——“看看,按照RUM(確切地說是RUM3)發展下去,(c)我的概率一定是Pl,她的是P2(假設這是唯一的均衡點)。因此,(d)她也認為我會有P1。那不是很聰明嗎?”
不,和先前兩個推理相比,它有點兒可疑。與史努比的情形相反,關于露西的證據依然不清楚。然而,真正糟糕的事情是,到(d)的推理有些弄巧成拙。因為,(a)是(b)的根據,但(b)導向(c)然后到(d)卻沒有提及任何證據;因此,(a)變得根本不具有操作性,而這就使(b)喪失了它的根據。
使查理的第三個推理站得住腳的明顯方式似乎是,明確陳述一些查理貌似具有的證據和直接引起他擁有愿望P1的證據;他到(d)的推理就行得通了。(需要注意的是,正如他的推理所表明的那樣,查理擁有P1不是因為P1是可與露西所知道的他的概率相一致的唯一概率函數。相反,他有P1是由于他擁有的證據,然后P1被附加——盡管不是偶然——證明是非常一致的。)
然而,就像第六節中的討論使我們恰好得出相同的結論一樣,我會稍后更詳細地解釋。因此,目前我們不得不承認,我們對(3) (6)和(9)依然缺乏根據,這就像對(2) (5)和(8)那樣自然,并因此對允許(3) (6)和(9)作為額外前提的兩個指責仍然沒有得到充分的回答。
迄今為止,我們已經介紹并比較了標準理論和決策理論,我希望我已經解釋清楚在我看來的貝葉斯理論的確切優點之所在,以及為什么它們在那里存在。但是,我也正好發現貝葉斯理論的一些尚待處理的問題,為了使它們牢靠,似乎看起來我們不得不返回到公認的理論。因此,讓我從一個更深一點兒的層次上再次闡釋整個理論,即通過考察作為不同觀點的基礎的理性觀念。首先讓我從標準理論入手。
事實上,在標準博弈論背后似乎并沒有一個非常明確的理性觀念。至少在20世紀五六十年代,另一個發展理性概念的方式在決策論和博弈論及相關領域中非常受歡迎。第一條規則,源自對任何宏偉畫卷的敏感式懷疑,是不以任何綜合性、而是以不考慮后果的理性觀念來對主題作出的預先判斷。更精確地說,正如羅爾斯稱作的那樣①J. Rawls, A Theory of Justice, Cambridge, Mass.: Harvard University Press, 1971, pp.48ff.,一種審慎的步進式推理(step-by-step reasoning)應該導向一種直觀而系統的論證的反思性均衡。因此,有人從一些直觀上非常令人信服的假設出發,展示他們的演繹結果,詳細檢查這些結果是否在直觀上不合理,最終拋棄最弱的假設,努力增添新的假設,以相同的方式核實他們,區分基本的和派生的假設,等等。通過這種方式,諸如偏好傳遞性原則和確鑿性原則等大量的基本原則(以及一些次基本原則,像那些作出修改以適應更具體情景的極大極小變化)就出現了,然后它們會非常自信地聲稱能刻畫理性。雖然這些原則從沒有認為應該詳細討論理性概念,但它們被證明是十分有力的。的確,對處于確定性和風險性之下的決策而言,這種方式取得了完全成功;對處于不確定性之下的決策而言,盡管不是全體同意,但結果是可闡明的;并且,至少較為簡單的博弈情景得到了滿意的解決。
我希望這不是一個對實際過程過于扭曲的描述,在我看來,它的唯一缺點是看起來有點缺乏概念的清晰性;到底是什么推向一種反思性均衡,這并不完全透明。這在博弈論中尤感壓力,但至少我嘗試在后續中進行論證。
為了更清楚些,我認為,我們必須對關于理性的兩三個相當明顯的事實進行考察。首先,我們必須嚴格區分行動理性、信念理性以及可能的愿望理性,并分別討論它 們。
讓我們首先考慮行動理性,它是決策論和博弈論的公開主題。這里重要的事情是,無論一個人的行動是不是理性的,它只能由那個人相關的主觀愿望和信念決定。這從日常經驗看是顯而易見的;無論何時我們偶然遇到看起來不理性的行動,當這個行動者或其他很熟悉他的人,向我們解釋他這樣行動的原因時,我們可能就會放棄我們的判斷。并且,這從反復指出這一事實的哲學作品看也是顯而易見的。②例如,參見C. G. Hempel, “Rational Action”, Proceedings and Addresses of the American Philosophical Association,Vol.35, Yellow Springs, Ohio: The Antioch Press, 1962, pp.5—23,或者P. M. Churchland, “The Logical Character of Action-Explanations”, Philosophical Review, Vol.79, No.2, 1970, pp.214—236,以及其他關于理性解釋和行動解釋的文獻。現在,只有當一個行動與本身就理性的信念和愿望理性地關聯起來時,我們才能稱這個行動是理性的。但是,這只不過是個術語問題。在兩個方面之間存在一定的關系,一方面是行動,另一方面是信念和愿望,而無論信念和愿望可能是什么。無論何時一個行動把這種關系帶給既定的信念和愿望,更可取的做法并且也是我的做法,就是把這個行動稱作是理性的。哪個行動在這個意義上恰好是理性的,通常是權衡每一給定的信念和愿望在原則上相關的結果。當然,這很模糊;但把它弄清楚卻是一個明確的任務,并且,考察信念理性和愿望的理性是一項與眾不同的工作(這還不是我們的主題)。
對我們而言,這個考察有兩個結果。一個是,當處理行動理性時,我們確實應該考慮概率的主觀主義解釋。因為獨立于一個人的主觀信念時,對行動理性就沒有多少可以說的。從這個觀點看,不確定性條件下的決策和標準理論中所描述的博弈情境一樣,只不過似乎是證據不足的問題。但是,如果一個人的信念被明確地考慮,那我們就不得不使這些信念概念化;并且,微弱地說,概率衡量是一個這樣概念化的好方式。我認為,這在哲學中并未提及,但奇怪的是,它似乎依然需要在博弈理論家和經濟學家中強調。
事實上,在所有標準博弈論中都闡述過對主觀概率的反感。在機會變化的觀念和處理中這是顯而易見的,它說明一個事實,其他人的行動并不是作為局中人的概率來考慮的,在對待局中人的整個認知構成時就像對待非親生子女一樣可以找到一般表述。毫無疑問,標準博弈論通過精彩的替代克服缺少不受歡迎的主觀概率,但我認為同樣清楚的是,這種轉變是標準理論中不連貫闡述的主要原因。并且,它使前面勾勒的達至理性的“反思性均衡”方法變得更為含 混。
第二個結果是,如果我們愿意在數學模型中捕捉行動理性,我們就幾乎自動地導向決策論。因為反映衡量主觀信念和愿望的最自然的方法是以某種量化的方式將它們概念化;當然,對這樣一種量化的概念化而言,實踐上無可匹敵的候選項就是概率測度和效用函數;因此,最大預期效用的貝葉斯規則是衡量過程及其產出的最為貌似合理并在數學上最為簡單的模型。當然,這個考量獨自不可能建立起決策論;但是,由于堅實的“反思性均衡”基礎已經盡一切力量支持這個數學模型,這就可能使之簡單 些。
現在重要的是,這個模型給了我們一個關于行動的完全解釋,這個行動相對于給定的信念和愿望而言是理性的。這就是說,任何在可比較的概念化范圍之內起作用的其他解釋,要么是由決策論的解釋引起,要么是與決策論的解釋相抵觸。(嚴格來講,這不是很對;根據決策論,也許存在紐帶;而在這些情形中,也僅僅在這些情形中,可能有另外的解釋不是由決策論引起但可與決策論相比較。)
所有這些的結果是:我們也許是在為公認的主觀信念和愿望的概念化而爭吵。但是,如果我們不爭吵,那么當運用小于完全的決策模型時,我們就無法完全公正地對待行動理性;當運用完全決策模型時,我們就有了完整刻畫行動理性所需要的一切。因此,也從總的角度來看,像理性行動處于爭論之中的其他每個地方一樣,在博弈論中我們沒有好的選擇,只有保持一個嚴格的決策論過程。
現在最后一次提出這個猜測,博弈論對剛才討論到的弱意義上的行動理性不太感興趣,它感興趣的是建立在理性信念以及可能理性愿望基礎之上的強意義上的行動理性。然而,愿望理性是一個非常模糊的主題。根據理性愿望是否可能通過理性信念從其他愿望推斷出來,存在一個并非完全不清楚的愿望觀念,它相對于其他給定的愿望是理性的愿望。但是,是否也存在一些絕對地判斷愿望理性的方法——這是一個開放式問題,使人想起沉重的道德問題,是否有客觀價值這樣的東西。在這種情景下,聰明的話就不要去假定絕對的理性愿望,當然這也是所有決策理論家和博弈理論家通過把偏好和效用函數作為主觀上的既定項所做的事情。因此,我們只討論認知理性,這也是最終我們要談的。
首先,我應該簡要提及一個熟悉的觀點(為了接下來別再想它),即行動理性的決策論解釋已經假定一個形式的認知理性最小值,也就是說,主觀概率像數學概率那樣運作。但這總是被認為是理所應當的;當然,我們現在要考慮一個超越這點的實質屬 性。
實際上,標準博弈論確實和認知理性相關而不僅僅和行動理性相關,這一說法并不非常清楚。至少,在標準參考資料(像馮·諾依曼、摩根斯坦①J. von Neumann ﹠ O. Morgenstern, Theory of Games and Economic Behavior.或盧斯、雷法②R. D. Luce ﹠ H. Raiffa, Games and Decisions.)中我無法為此找到好的證據;也許還要不得不處理用以解釋理性的有點兒統一的“反思性均衡”方法。但是,來自第四節末尾的印象,即我們的貝葉斯理論并未完全公正地對待標準理論,也指出了這一憂慮。當我們看到海薩尼所寫的從他的貝葉斯式方法到博弈論的東西時,議題就變得更加清楚。例如,他說:
在博弈情景中定義理性行為的基本困難是這樣一個事實:通常每個局中人的策略都將依賴于他對其他局中人的策略的預期。如果我們能假定他的預期是給定的,那么他的策略選擇問題就會變成一個普通的最大值問題:基于其他局中人將會根據他的既定預期來行動的假設,他可以簡單地選擇一個收益最大化的策略。但關鍵是,博弈論不可能把局中人關于彼此行為的預期看作是給定的;不如說,對博弈論而言,最重要的一個問題恰恰是決定哪些預期是聰明的局中人對于其他聰明局中人的行為能理性地存有的。這可以被稱作相互“理性預期”問題。③J. C. Harsanyi, “Bargaining and Conflict Situations in the Light of a New Approach to Game Theory”, The American Economic Review, Vol. 55, No. 1/2, 1965, pp.447—457.
為解決這一問題,海薩尼不僅提出“狹義上的理性行為假設”,而且提出“理性預期假設”④J. C. Harsanyi, “A General Theory of Rational Behavior in Game Situations”, Econometrica, Vol.34, No.3,1966, pp.613—634.;然后他非常明確地表明這些假設意味著:
影響局中人的交易行為的僅有變量是:
(1) 與每個局中人的選擇結果相關的回報;以及
(2) 每個局中人分派給被其他局中人接受或拒絕的不同結果的主觀概率。
在這些變量中,只有那些在(1)中被提及的是獨立的變量,而(2)中的變量本身都是由(1)中的變量來決定。①J. C. Harsanyi, “A General Theory of Rational Behavior in Game Situations”, Econometrica, Vol.34, No.3,1966, p.621.
這上一個斷言對海薩尼的方法以及對標準博弈論都是至關重要的。但是,我認為它基本上就是錯的。(事實上,如果我不這么認為,我可能就容忍了這篇文章。)然而,我不可能嚴格地論證這個問題,因為為此我必須表明,對認知理性的每個原則而言,人們也許可以貌似有理地心存想法,認為它不是從(1)導向(2),還因為,考慮到一些基本原則的例外情況,人們并不一致同意這些理應心存的原則。認知理性的闡釋比行動理性少得多。不用奇怪,它是在其完整的哲學概論中由來已久但仍然尖銳的歸納問題。但是,我將努力講通為什么我認為海薩尼的斷言是錯的。讓我們從回顧一些關于認知理性的事實開始。
首先,很明顯人們無法完全說信念是理性的或不是理性的。只有與一個人擁有的證據相關時,這個人的信念才能被說成是理性的。這種關系的一部分在演繹邏輯中被詳加闡明;無論從證據演繹地推出什么東西,它在理性上都應當是可信的。歸納邏輯和統計學也(兩者都是較有爭議的)試圖澄清這種關系。這里已經變得明顯的是,某些認知狀態的理性也依賴于先驗的認知狀態,也就是說,應從先驗認知狀態理性的評價問題中區分出理性信念變化問題——先驗認知狀態是如何理性地根據新證據改變的?——這是更加困難的問題。實際上,認知理性依然非常復雜;比如,它肯定還依賴于表達信念的語言。但是,如此深奧復雜的問題對我們的討論而言是無關的。②我認為,這暗示一個瑣細但相關的評論,即必須嚴格區分理性信念和真實信念。盡管可能大多數理性信念是真實的,但現今大多數真理不能只是被非理性地相信(因為我們的證據是如此不足),并且許多理性信念是錯誤的(因為我們的證據經常具有誤導性)。這不是說理性信念和真實信念不會相互關聯,而是說這種關聯的本質是一個深入而開放的哲學問題。參見C. S. Peirce, Collected Papers, Vol.Ⅰ — Ⅳ, edited by C.Hartshorne ﹠ P. Weiss, Cambridge, Mass.: Harvard University Press, 1960, Vol. Ⅴ, §§ 384—385 ﹠ 405—408,或者H. Putnam, Meaning and the Moral Sciences, London: Routledge ﹠ Kegan Paul, 1978, pp.121—140。現在,博弈理論家假設他的局中人具有許多真實信念,例如,如果他認為局中人知道機會變動的客觀概率,或者如果他假設一定的RUM(根據RUMn,所有通過RUMn輸入到露西的二階信念都為真);關鍵在于,只要他這樣做,他就引入一個真正的全新假設,這個假設無法單靠局中人的認知假設來解釋。似乎對我而言,標準理論在這一點上并不總是非常清晰;例如,當僅僅假設關于理性的一階信念時(參見我們的標準理論第一部分),(錯誤的)觀念也許就會是,更高階的信念通過所假設的理性以某種方式塌陷。
現在回到海薩尼的斷言,讓我們再設想一下查理和露西已投入到某個標準形式的零和博弈之中,并假定某個RUM(這里的“R”依然只是代表行動理性)。讓我們假設這仍然解決不了博弈問題(也就是說,這個博弈像我們在第四節中的第二個例子)。現在,我們附加假設查理在認知上是理性的。這有什么幫助呢?我認為,毫無幫助。我們在第四部分中已經看到,通過演繹邏輯RUM并沒有蘊涵任何東西能夠縮小查理對露西的可能概率范圍。并且我知道,沒有貌似可信的歸納原則能在這方面做得更好。當我們假設露西在認知上是理性的時候,這同樣成立。但因此,它對查理相信露西在認知上是理性的也沒有任何幫助。還有很多諸如此類的東西。這樣一來,即使我們附加假設認知理性是查理和露西之間的某階共同知識,我們也不能由此得出他們具有博弈論使他們具有的主觀概率。并且,這與海薩尼的主張相抵觸:他以為我們能得出這一結論。也就是說,我們希望的效用和所有理性(以及所有這些的共同知識)將共同決定主觀概率。當然,當查理和露西承認其他或更多的證據而不僅僅是RUM時,這個推理根本沒有排除認知理性的假設可能非常有效。
但是,我們不是批評海薩尼的斷言,而是應該最好看看他是如何支持它的。然而,在他的文章中①J. C. Harsanyi, “A General Theory of Rational Behavior in Game Situations”, pp.613—634.,從我所引用的他的斷言來看,我沒有發現這樣的支持。在文章中,他的理性假設的確非常明顯地蘊涵局中人的行動只依賴(1)和(2);但他對他的更強的論斷沒有作出進一步的論述。不幸的是,用來解釋其所勾勒的計劃②Ibid.的其他文章同樣如此。③關于這些文章,參見下面兩篇文章的參考文獻:J. C. Harsanyi, “Bargaining and Conflict Situations in the Light of a New Approach to Game Theory”, The American Economic Review, Vol.55, No.1/2, 1965, pp.447—457; J. C. Harsanyi, “A General Theory of Rational Behavior in Game Situations”。
也許我們的興趣可以由他最近和萊因哈德·澤爾騰(Reinhard Selten)共同發展的理論來回答,這個理論對解決n人非合作博弈提出了一個全新的兩階段程序④參見J. C. Harsanyi, “The Tracing Procedure: A Bayesian Approach to Defining a Solution for n-Persons Noncooperative Games”, International Journal of Game Theory, Vol.4, No.2, 1975, pp.61—94,以及J. C. Harsanyi, “A Solution Concept for n-Persons Noncooperative Games”, International Journal of Game Theory, Vol. 5, No.4, 1976, pp.211—225.:
首先,一個先驗主觀概率分布pi被分派給每個局中人i的純粹策略,這意味著代表其他局中人對局中人i的可能策略選擇的最初預期。那么,被稱作追蹤程序的數學程序就被用來定義這些基于先驗分布pi之上的解決辦法。追蹤程序意味著為求解過程提供一種數學表達,通過理性局中人設法協調他們的策略計劃和他們的預期,并使他們趨于一個作為博弈解決方法的特定均衡點。⑤J. C. Harsanyi, “A Solution Concept for n-Persons Noncooperative Games”, International Journal of Game Theory, Vol.5, No.4, 1976, p.211.
這種——在它的具體細節上相當復雜的——方法本該有一個較長的討論。但是,指出為什么它似乎也沒有減少我們的麻煩就足夠了。如果我們把這種方法應用到兩人零和博弈中,那么只有它的第二步即追蹤程序是相關的(因為它促使每個先驗概率分布連到相同的均衡點,即到唯一存在的均衡點)。現在,我們考慮只有一個局中人的情形;假設查理對露西的選擇集合擁有先驗分布,但不是一個均衡分布。為什么查理應該改變這些先驗概率?根據一些新證據和幾乎不與理性信念變化的任何一般原則相關的追蹤程序,這種改變似乎并無必要。為什么不堅持也許更為熟悉的先驗概率呢?(盡管它們會表明查理不認為露西知道它們——但他為什么應該這樣想呢?)海薩尼對沉溺于追蹤程序給出的唯一理由就是這種先驗分布不是均衡分布,而根據我們的標準理論第二部分中重述的理由,只有均衡點才能是非合作博弈的理性解決方案。①參見J. C. Harsanyi, “The Tracing Procedure: A Bayesian Approach to Defining a Solution for n-Persons Noncooperative Games”, pp.61—94。因此,他認為理所應當的東西,對我們而言依然是需要澄清的東 西。
讓我們依然來看看海薩尼②J. C. Harsanyi, “Games with Randomly Disturbed Payoffs: A New Rationale for Mixed-Strategy Equilibrium Points”, International Journal of Game Theory, Vol.2, No.1, 1973, pp.1—23.,在那里他非常接近我們的想法,即努力克服混合策略中均衡點的明顯不穩定性,這種不穩定性在我們對標準理論第四部分的評論中曾批判性地提到過。為此,他提出下面的模型:給出標準形式中的一個非合作n人博弈,即“原初博弈”,A1,…,An是n人的選擇集合,Vl,…,Vn是他們對A1×…×An的效用函數。海薩尼現在認為,某個稍微不同的博弈即“干擾性博弈”可能更真實地描述了真正的博弈情景,在那里每個局中人i的真正效用并非固定地由Vi給出,而是圍繞Vi給出的值有一個小范圍的波動,這是由于“在其主觀和客觀條件中(例如在其情緒、品位、資源、社會情境等等之中)有微小的隨機波動”③Ibid.。支配這些波動的概率法則可能對不同的局中人是不同的,但每個局中人都被假定知道所有這些分布。然而,每個局中人在進行選擇時僅僅知道他自己的波動效用具體是怎樣的。因此,在標準形式的干擾性博弈中,局中人i的一個可能的純粹策略是一個函數,它能告訴他,對真正效用函數的每一個可能版本而言,從Ai中選擇哪一個行動。于是,局中人關于標準形式干擾性博弈的效用函數立即可從以上描述推斷出 來。
現在,海薩尼能夠基本證明:干擾性博弈有至少一個均衡點;干擾性博弈的每個均衡點都在純粹策略中;如果局中人在干擾性博弈的均衡中選擇純粹策略,那么根據效用性的概率法則,這些選擇會降到近似處于均衡的原初博弈中的混合策略;并且,這個近似值越接近,圍繞Vi的波動幅度就越小。這就解決了穩定性問題,因為在干擾性博弈中均衡因在純粹策略中而穩定;并且因為在干擾性博弈中選擇一個純粹策略就意味著在原初博弈中選擇了一個隨機策略;更重要的是,這里出現的隨機性是因為效用的波動,不必由局中人有意執行。
看起來,似乎這個模型能夠為我們的“定理”中的認知假設(3) (6)和(9)提供長期尋找的正當性證明。但是,它這樣做要以什么為代價呢?它有其他強的假設來替代。波動效用的觀念使人想起瑟斯頓(L. L. Thurstone)把心理學變量看作隨機變量的方法。①參見L. L. Thurstone, “The Prediction of Choice”, Psychometrika, Vol. 10, No. 4, 1945, pp.237—253。這種方法是對數學心理學的一個重大貢獻,但大體上,這種方法的一個公認的嚴重困難是確定這些隨機變量的分布。②參見 D. Laming, Mathematical Psychology, London: Academic Press, 1973, Ch. 2。因此,在一定意義上,海薩尼要求我們的局中人最好成為瑟斯頓式的心理學家,而不是能干的科學家。但是,人們并不需要把效用的波動解釋為效用的客觀概率不確定性;人們可以把這些波動的概率法則解釋為表達局中人對彼此的主觀不確定性。然而,接下來非常神秘的是,為什么關于局中人i的效用的不確定性對所有其他局中人而言有著完全相同的形式。現在,上面的異議并不適用于兩人博弈(因為只有一個其他局中人)。但是,即使再解釋也無濟于事,因為干擾性博弈的效用函數被假定為那里的每個局中人都知道;這就要求對原初博弈中其他局中人的效用而言,每個局中人都知道每個人的概率分布。因此,不管如何解釋,人們很難對海薩尼的模型③J. C. Harsanyi, “Games with Randomly Disturbed Payoffs: A New Rationale for Mixed-Strategy Equilibrium Points”, pp.1—23.的假設感到滿意。除此之外,我們還理所當然地認為,只有在純粹策略下具有均衡點的博弈中,均衡行為才是理性的。
我們不得不絕望于為(3) (6)和(9)尋找某種正當性證明嗎?如果我們在我所稱的海薩尼斷言界定的領域內尋找,即只是在即將到來的博弈情景中尋找,那我認為我們確實不得不絕望。事實上,這一部分現在恰恰使我們導向第四節末尾的困境之中。并且,出口就隱藏在那里:我們沒必要將局中人的認知理性起作用的證據限制在即將到來的博弈情境。畢竟,我們也要為假設(4) (5) (7)和(8)尋找某些支持或證據,它們也是認知假設(通過假設查理相信某些東西)。這里非常清楚的是,一個局中人對于他的同伴是理性的并且具有如此這般的效用的信念無法在給定的博弈情境中獨自得到證明;不如說它只能通過長期而豐富的人類經驗來獲得(細節并不清楚)。因此,這也許是對(3) (6)和(9)而言合適的證據領域;特別是一個局中人可能已經處在博弈情境中很多很多次了,他由此可能已經形成我們期望他所擁有的信念。實際上,布朗已經通過虛構的博弈提出這個想法④G. W. Brown, “Iterative Solution of Games by Fictitious Play”, in Activity Analysis of Production and Allocation,edited by T. C. Koopmans, New York: Wiley ﹠ Sons, 1951, pp.374—376.,它與接近兩人零和博弈的均衡點的迭代過程有關,這也被稱作布朗—羅賓遜過程。⑤因為羅賓遜已經證明布朗的想法是可行的。參見J. Robinson, “An Iterative Method of Solving a Game”,Annals of Mathematics, Second Series, Vol.54, No.2, 1951, pp.296—301;亦 參 見 R. D. Luce ﹠ H. Raiffa,Games and Decisions, New York: Wiley ﹠ Sons, 1957, pp.422ff。讓我們把這個過程修改成一個關于查理和露西的簡單理論。
假設查理和露西開展某個標準形式零和博弈,他們的選擇集合和效用函數分別由A1和A2、U1=U和U2=—U給定。他們博弈不是一次,而是很多次,甚至可能是無限多次。但是,他們頭腦簡單,并不認為這種情景是一個超級博弈,甚至想不到其他人是理性的并且有如此這般的效用。在每一次博弈中,他們僅僅使他們的預期效用最大化,而預期效用是由他們對他人行動的效用函數和當下的主觀概率決定的。盡管如此,他們仍在依據過去的經驗調整他們的概率,他們在認知上是理性的。
然而,我們不想如此嚴格以至于假設雙方都符合所謂的直接規則①例如,參見 R. Carnap, The Continuum of Inductive Methods, Chicago: University Press, 1952, § 14。,即在n次博弈后他們在n+1次博弈中對其他人行動的概率與在前n次博弈中他人行動的相對頻率是相同的;通過假設這一點,我們恰恰能復制原初的布朗—羅賓遜過程。為把正在討論的過程和建立認知理性原則聯系起來,我們想要更自由些。
首先,我們假設他們遵循條件化規則,就是說某人對事件C在某一時間點t′的概率Pt′(c)應等于他在某一更早時間點t對C的條件概率Pt(C/E),其中E是他在t和t′之間收集到的經驗。這是理性信念變化的最基本規則。②直接規則和條件化規則不相容,也就是說,通常沒有優先概率來衡量是哪個條件化產生了直接規則所決定的后驗概率。實際上,這是拒斥直接規則最強有力的理論根據。參見R. Carnap, The Continuum of Inductive Methods, § 14。舉例來說,對查理而言,這意味著經過n次博弈之后,在第n+1次博弈中他對露西的行動的概率是他關于這些被她在前n次中所作所為條件化的行動的先驗概率。
其次,為保留直接規則的優點,我們假設他們滿足所謂的收斂公理或賴欣巴哈公理。舉例來說,這就是說對查理而言,他在第n+1次博弈中對露西的行動的概率和前n次博弈中這些行動的相對頻率之間的不同之處,無論它們是什么,都收斂到零(對于n→∞)。這樣一來,有人可能會說賴欣巴哈公理保證了最后經驗會比先驗觀念更占優勢;它因此通常被看作認知理性的一個最低要求。③參見 W. Stegmüller, Probleme und Resultate der Wissenschaftstheorie und Analytischen Philosophie, Band Ⅳ, Personelle und Statistische Wahrscheinlichkeit, Berlin, Heidelberg: Springer, 1973, pp.502ff。有人可能發現這會引起異議:賴欣巴哈公理表達了主觀概率的極限性質但沒有依此說出關于它們的實際形式。然而,這里有概率的“實際”性質,眾所周知,最為著名的對稱性就隱含賴欣巴哈公理。參見R. Carnap ﹠ R. C. Jeffrey, (eds), Studies in Inductive Logic and Probability, Vol.Ⅰ, Berkeley: University of California Press, 1971, parts 4 and 5。
現在,如果查理和露西有這么多認知理性和行動理性,如果原初博弈恰好有一個均衡點包括查理的(混合的或純粹的)策略S1和露西的策略S2,那么我們有:對每個a∈A1,查理在所描述的博弈過程中選擇a的相對頻率收斂于a在S1中出現的概率。這同樣適用于露西。由此,查理也傾向于發展關于露西的適當信念(3),反之對露西也是同樣。④所有這些都容易被證明;羅賓遜關于布朗—羅賓遜過程的證明只不過拓展了我們稍微自由化的版本。如果應該有超過一個的均衡點,那么一個更加復雜但相當令人滿意的命題就是真的。參見J. Robinson, “An Iterative Method of Solving a Game”, pp.296—301。然而,與布朗—羅賓遜過程相反的是,這里關于收斂比率沒什么可說,因為賴欣巴哈公理關于收斂比率沒有假設任何東西。因此,在給定的具體情形中,這個理論滿足了我們在前面討論中產生的所有要求。
再重復一遍,我關于這個(數學上簡單明了的)布朗—羅賓遜過程的自由化版本中的觀點,不是要提醒我們像布朗—羅賓遜觀點的直觀吸引力這樣的東西;那是多余的。相反,如果我們想要為(3)( 6)和(9)這樣的認知前提找到合理的理論根據,就必須要講一些這樣的理論;而如果這些前提是無懈可擊的,反過來,它們就必定包含在博弈論的理論化之中。之所以是這樣,因為只有這些關于博弈學習過程的理論才能夠提供一種把認知上理性的局中人導向(3)( 6)和(9)等信念證據的理論解釋——正如我論證過的那樣,這種證據不可能在給定的博弈情境中獨自發現。
有人可能反對說,有很多方式可以達到信念(3)( 6)和(9)——最簡單的方式是一個顧問式博弈理論家(也許通過敘述第三節的標準理論)告訴局中人要做什么和信什么,并且局中人也相信他。當然,這是可能并且經常走的一條路。但這對博弈理論家沒有絲毫幫助:首先,他不想要將他的理論限制在受他啟發的人們上;其次,它肯定根本沒有任何關于他和局中人之間交際的交流理論,即沒有關于這種達到信念(3)( 6)和(9)的方法的理論。
另一方面,必須承認的是,博弈學習過程理論的前景還未成形。布朗—羅賓遜過程及其自由化是良好的典范,但它幾乎沒有擴展到兩人零和博弈之外的范圍。①參見J. Rosenmüller, “über Periodizit?tseigenschaften spieltheoretischer Lernprozesse”, Zeitschrift für Wahrscheinlichkeitstheorie, Vol.17, No.4, 1971, pp.259—308。不過,布朗—羅賓遜過程的假設卻相當差;在那里我們的查理和露西甚至沒有被當作真正的博弈論主體來看待,因為根據這些假設,他們每個人都必須把他人看作某種不規則的骰子,它以這面或那面朝上落地的傾向必須被發現。因此,自然的觀點是通過把查理和露西看作博弈論主體,即通過讓他們知道其他人的效用并讓他們對其他人的認知狀態進行理論化,來豐富博弈學習過程的假設。無論這樣的假設是否會在更一般的博弈而非僅僅兩人零和博弈中使博弈學習過程得到想要的結果,這都是一個非常開放的問 題。
總而言之,沒有更為具體的結果,但至少一般的寓意可從前面的討論中得出。嚴格區分行動理性和認知理性。如果你關心的是行動理性,那么就為你的對象設計完全決策模型,并通過預期效用最大化規則來確定理性行動;如果僅僅這些不能使你滿意,如果你要尋找一些對寫入決策模型的認知假設的解釋,那就盡可能根本地并且盡可能廣泛可接受地嚴格堅持認知理性的一些規則。否則,就會有理論上和根基上混亂的危險。②衷心感謝萊因哈德·澤爾騰教授的鼓勵和合理的懷疑態度,感謝烏爾里克·哈斯和安德雷斯·科莫林的促成和安排,感謝克拉拉·塞內卡對我的英文的核對,感謝《理論與決策》的全體成員,因為它向我表明這篇文章對一些人而言可能是值得一讀的。