□ 陳建先
非合作博弈均衡與合作博弈均衡之研究
——博弈均衡的裂變分析
□ 陳建先
傳統均衡和博弈均衡是均衡理論發展中的不同階段,也是均衡由靜態轉變為動態的一個過程。傳統均衡概念是以靜態的理論來分析社會狀況,而現代社會是動態的和發展的,因此需要運用博弈均衡來思考、探討社會均衡問題。
博弈論中小約翰·福布斯·納什 (JohnForbes NashJr)首先提出對博弈進行分類,即非合作博弈均衡和合作博弈均衡,而非合作均衡博弈理論的核心是“納什均衡”。因為納什提出的均衡理論對學界影響極大,由此獲得1994年諾貝爾經濟學獎。納什均衡是經濟學的一個重要概念,也是博弈論的一個重要概念,同時也是均衡理論的一個重要概念。諾貝爾經濟學獎獲得者薩繆爾森曾說過:你可以將一只鸚鵡訓練成經濟學家,因為它所需要學習的只有兩個詞:供給與需求。博弈論家坎多瑞引申說:要成為現代經濟學家,這只鸚鵡必須再多學一個詞“納什均衡”[1]。所謂納什均衡是指博弈行動的穩定狀態,在此狀態下,每一個參與人都擁有對其他參與人行動的正確預期,并且能理性行動。這是博弈論中最基礎、最基本的均衡。也就是說,在給定別人戰略不變的情況下,沒有任何人可以通過選擇其他戰略獲得更多支付,從而沒有任何人有積極性打破這種均衡?!敖o定你的策略,我的策略是我最好的策略;給定我的策略,你的策略也是你最好的策略”,這正是 “納什均衡 ”概念在兩人博弈情況下最通俗直觀的表達方式[2]。納什均衡認為,因為每一方選擇戰略時都沒有共謀,他們只是選擇對自身最有利的戰略,而不考慮社會福利或任何其他群體的利益。納什均衡就是博弈中每個博弈方的策略構成的一個策略組合。其中每個博弈方的策略,都是根據針對所有其他博弈方的策略構成的,并且是最佳反映。過去,“囚犯困境”是一個難題,但用納什均衡理論就迎刃而解了。
在納什均衡概念提出之前,美國經濟學家霍特林 (HaroldHotelling)探討兩個商鋪如何定位的問題,后稱為霍特林模型[3]。即在一個1000米的沙灘上,兩個小商販,賣的商品和服務質量都是一樣的。按照一般概念設想,商販A應該將其位置安置在250米的這個點上,可以方便0~500米的消費者;商販B應該將其位置安置在750米的這個點上,可以方便500~1000米的消費者(見圖1)。

這樣的位置安置,商販A和商販B的收益都是均等的。人是“經濟人”,要追求個體利益最大化。假設商販A將其位置由250米處往前移動100米(即350米處),那么,就意味著500~600米的消費者有一半屬于他的,也就是說,他的收益是0~500米,加上500~600米的一半消費者,其收益高于商販B;商販A這么做,商販B也可以這樣做,將其位置向前移動100米(即650米處),此時,商販A和商販B的收益又均等了;假設商販A又將其位置移動到500米處,那么,他的收益又比商販B的大了。商販A怎么做,商販B也可以這樣做(將其位置移動到500米處),此時商販A和商販B的收益又均等了。他倆不斷的移動位置,最后在500米處,找到了倆人的均衡點(見圖2)。霍特林模型是典型的非合作均衡博弈,模型表明:雖然人們都在追求個體利益最大化,但最終還是會形成均衡。

博弈視角背景下的社會均衡,最重要的是要實現從理性到有限理性的轉變,從零和博弈到變和博弈的轉變,從非合作博弈到合作博弈的轉變。這種轉變是基于有限理性理念、變和博弈理念和合作博弈理念的重塑。
有限理性理念。1978年諾貝爾經濟學獎獲得者西蒙認為,人的理性能力是有限的,不可能對所有的可能選擇作出精確的利益計算。人在作決策時,采用的是由局部到整體的實驗方法,這時要求集體選擇達到個體都無法到達的理性是不可能。原因是人的理性能力是有限的:信息是不完備的,個人不知道全部備選方案;環境存在不確定性,外生事件隨時可能發生;人的認識能力和計算能力是有限的。而且,人的理性在政治領域表現得更加弱化,其一是與經濟活動相比,政治活動有更大的不確定性,人的政治行為難以理性化;其二是與經濟活動相比,人們在政治活動中對自己行為結果所承擔的責任并不總是直接的,而且往往不是很確定的,這也淡化了人們進行理性計算的動力[4]。博弈界中有一個著名的“最后通牒”實驗[5],在經過長達十年時間,選擇15個不同文化背景的民族而進行的。實驗規則:如兩人分一筆財產(1000元),由第一個人對第二個人提出自己的分配方案(如“我得995元,你得5元”)。若第二個人同意,就按此方案實施;如拒絕則1000元全收回,兩人均分文沒有。實驗結果表明:其一,在現實社會中,人們并非都是在個體追求利益最大化,與囚徒困境中的納什均衡并不相吻合。實驗中按照“經濟人”假設理論判斷,第二個人的理性選擇是:只要有1元就應該選擇同意,而不是選擇拒絕。但是實驗結果:大部分的實驗里,第一個人提出的方按是“5∶5”和“6∶4”分?!叭耸抢硇缘摹边@個基本假設在理論上是成立的,但在現實社會中,人們不可能這樣追求利益最大化,即有限理性;其二,盡管民族、地域、國家和文化等存在諸多差異,但是卻存在相對一致的“公平”理念。
變和博弈理念。相對變和博弈而言,零和博弈(博弈方各自收益之和為零)在分析問題上進行了簡化,這對于理性的分析問題帶來一些便捷途徑(尤其二人零和博弈,是博弈理論中研究最早的、最多的博弈),也成為研究其它博弈的基礎,為復雜的博弈研究提供了基石。但零和博弈的基本出發點是理性的追求利益最大化,而這種理性在現實社會中是難以到達的,所以往往可能會出現偏離現實社會中人們的真實活動。美國《時代周刊》著名撰稿人羅伯·賴特在其名著 《非零和年代——人類命運的邏輯》中談到:人類命運的昌盛必然要懂得從零和年代走向非零和年代[6](所謂非零和博弈,如一個博弈的博弈各方之得益總和不總是保持為零的博弈)。零和博弈觀念正逐漸被變和博弈(博弈方有各自的收益值)理念所取代。因為,人們認識到“利己”不一定要建立在“損人”的基礎上,通過有效合作仍然可能出現“雙贏”的局面。在一個“非零和”博弈中,贏得良好的結果往往不是靠戰勝對方,而是靠引導對方做出對雙方都有利的行為[7]。行為科學研究表明,對未來的預期是影響人們行為的重要因素:一種是預期收益:這樣做將會有什么好處;一種預期風險:這樣做將會面臨什么問題,這樣會影響人們的現實選擇。納什認為:“在這個理論中,‘預期’的概念是重要的?!盵8]對未來沒有明確的預期,是引發機會主義的關鍵要素。而只有在穩定性機制作用下的未來,才會有較為明確的未來,才會有相對確定的預期。因而,人們應塑造博弈的新理念——由單向的零和博弈轉變為互動的變和博弈,追求均衡合作、雙方共贏的新范式。
合作博弈理念。合作博弈與非合作博弈之間的區別在于,博弈方的行為相互作用時,博弈方能否達成一個具有約束力的協議,如果能就是合作博弈,否則就是非合作博弈。非合作博弈強調的是個體理性、個體最優策略,其結果往往是低效率的甚至是無效率的;而合作博弈強調的是團體理性、效率、公正、公平,合作博弈實際上就是一種“雙贏”或“多贏”的策略,它通常能獲得較高的效率。其實,博弈是一種“理念”,而非合作與合作方法是其兩個“影子”[9]。當代社會正進入利益共享的競爭-合作時代,單純強調競爭或合作都是不妥的:與對手“你輸我贏”的競爭只會破壞社會的發展,最終自己也將是一無所獲;合作也不是不考慮自身利益,而去創造一個自己不能把握的社會,也是不明智的。合作過程中不是沒有競爭,而是合作中的競爭,既積極合作,又要爭取自身的最大合作利益。合作競爭戰略強調競爭與合作的并重,強調合作不是不考慮自己利益,其最終的目標仍然是使自己能夠在社會競爭中獲益。對于游戲參與者來說,最大的機會和最豐厚的利潤并非來自于參與游戲,而是來自于改變游戲本身,使游戲向有利于自己的方向發展,這是合作競爭戰略的核心?!妒ソ洝分杏小疤焯门c地獄”的故事:在地獄,桌上擺滿了美味的食品,但他們總是吃不到,因為上帝給他們的是長長的勺子,始終無法喂進自己的嘴里,所以在地獄的人都是黃皮刮瘦;在天堂,桌上擺滿了美味的食品,他們用長勺將食物送進對方的嘴里,所以在天堂的人都紅頭花色。這個故事給人們得出一個道理:合作就是“天堂”,不合作就是“地獄”。在合作博弈中,贏得一個好的結果,往往不是如何去戰勝對手,而是設法引導對手做出對雙方都有利的行為,而到達博弈均衡的狀態。同時,應該明確的是劃分非合作博弈和合作博弈不是從參與人的態度來考慮的,并不是非合作博弈中的參與人就不合作。恰恰相反,非合作博弈要回答的是當無法達成有約束力的合作協議時,參與人之間如何通過理性行為的相互作用達成合作的目的。并且,合作博弈還需運用非合作博弈方法(無限重復博弈、談判博弈等)來到達合作之目的。
2005年諾貝爾經濟學獎之所以授予兩位博弈論專家羅伯特·奧曼(RobertJ.Aumann)和托馬斯·謝林(ThomasC.Schelling),是因為他們在博弈均衡理論中提出了合作均衡理論——“相關均衡”和“聚點均衡”。
“相關均衡”是羅伯特·奧曼的核心理論之一,即人們根據博弈策略以外的特定相關信號機制進行決策選擇實現的均衡。相關均衡在某種意義上是納什均衡之后的又一個重要的均衡概念,是以博弈策略中統計意義上存在相關性為前提。要達到相關均衡,最為重要的是在信念和信息方面能夠有共同接受的東西,才能達成合作聯盟。如A、B二人各自獨立地將“法國、中國、德國、印度”等四個國家進行兩兩組合,然后將A、B二人的選擇放在一起,看是否是相同的。如相同則說明他們的想法是一樣的,反之則然。如何才能尋求到策略的均衡點?可以看到,A、B二人各自的選擇方式有三種,如果兩者要選擇正確,其概率只有11%左右。筆者曾經在多次的培訓中做過實驗,只要把思維方式、理念確立好了,往往只作一次就能獲得成功。即需要著重思考兩點:一是對方怎么做,我就怎么做;二是根據屬性作策略。對方會怎么做,從理性的角度思考,是因為這樣做屬性多,對方就會這樣思考。整個選擇共有三種,如果將“法國——中國,德國——印度”或“法國——印度,中國——德國”組合在一起,其屬性只有“一東一西”。而如果將“中國——印度,法國——德國”放在一起,其屬性有“一東一西”、相鄰國家、發展國家與發展國家。很顯然,后者選擇的屬性要多一些,而這就是此策略的均衡點。而之所以這樣選擇,是因為他們選擇的共同依據——地理常識。而這就是此博弈的一個相關均衡點。在博弈存在多重均衡時,也就是人們有多重選擇,但需要協調時,相關均衡理論就是解決策略選擇方面協調困難和避免沖突的重要機制之一。
聚點均衡是托馬斯·謝林的核心理論之一,即在效率曲線中,博弈者的利益是對立的,沒有帕累托改進 (如何一個人的趨利變動都會損害另一個人的利益),這種對立只是一種邏輯上的可能性,在效率曲線中必然存在一點,使得博弈者的利益是一致的[10]。由于導致聚點產生的因素無法用數理模型來表達,所以數理模型分析方法往往忽視“聚點”的分析,而聚點的分析方法是博弈中的精髓之一。聚點均衡強調協調,而協調需要彼此之間的交流,如果交流是認同的,就會產生合作。如兩個人在1到100這100個整數中進行選擇,A選一個數,B選一個數,如A和B所選的數相同,二者將獲得獎勵,否則一無所獲。在這個策略選擇中,均衡點有100個,那么實際會出現哪一個均衡點呢?初看這個選擇難度非常之大,用數理進行分析,選中的概率只有萬分之一。筆者在做這方面的培訓時,引導學員的思路,他們很快會思考到,策略選擇會集中在:“1”、“50”、“100”,這三個數。最終,大多數人選擇1,因為1是最小數、人位數、起始數和奇數。而學員們能在很短是時間里尋求到均衡點,其最關鍵的是要有均衡的理念及其方法。在博弈中,博弈各方同時選擇一個聚點所構成的納什均衡就是聚點均衡。聚點對各博弈方都有吸引力,它是由歷史、文化、道德、習慣或純偶然的因素產生。聚點均衡是建立在雙方都滿意的“聚點”上的均衡,是納什均衡而且是多重納什均衡中比較容易被選擇的納什均衡,這種均衡在現實社會中比較普遍。
(本文為2009年度國家社會科學基金項目 “我國政府公共決策利益博弈的路徑和機制研究”的階段性成果,項目號:.09XZZ011;論文作者為項目負責人)
[1]白波.圖說博弈論pM].哈爾濱:哈爾濱出版社,2009.6.36.
[2]喬林碧.政府經濟學[M].北京:中國國際廣播出版社,2002.3.275.
[3]王則柯,李杰.博弈論教程[M].北京:中國人民大學出版社,2010.4.254.
[4]臧傳琴.從”經濟人”假設到”政府失靈”[J].江漢論壇,2007.2.50.
[5]丁社教.法治博弈分析導論[M].西安:西北工業大學出版社,2007.4.169.
[6]孫恩棣.生活中的博弈[M].北京:京華出版社,2008.1.35.
[7]白波.圖說博弈論[M].哈爾濱:哈爾濱出版社,2009.6.15.
[8]何勤華.法治的追求[M].北京:北京大學出版社,2005.5.
[9]董保民等.合作博弈 [M].北京:中國市場出版社,2008.4.6.
[10]趙英軍,陳宇峰[M].沖突與合作世界中的博弈新視界.浙江:商業經濟與管理,2005.11.11.
作者:重慶行政學院公共管理教研部教授
責任編輯:馬 健