
摘要:逆推歸納法是博弈論中的一種重要的推理方法。但是,它的運用有時會背離了人們的直覺,造成了博弈理論推理與實際中人們的真實行動的不一致。這就是所謂的逆向歸納悖論,蜈蚣博弈悖論則是它的一個典型。本文揭示了逆推歸納悖論產生的根源是只重視眼前(短期)利益,而忽略了長遠利益。即在眼前利益和長遠利益的分析下,逆推歸納論是不存在的。
關鍵詞:逆推歸納法 蜈蚣博弈 逆向歸納悖論
一、蜈蚣博弈悖論
博弈(game playing)的詞語解釋是游戲、圍棋、賭博。博弈是指在多決策主體之間的行為具有相互作用時,各主體根據所掌握信息及對自身能力的認知,做出有利于自己的決策的一種行為。雖然,博弈的思想自古以來就存在,比如我國古代有名的田忌賽馬的故事就是一個典型的博弈問題。但是,早期對博弈思想的認識僅僅停留在經驗方面,并沒有形成專門的理論體系。一直到20世紀以后,博弈才形成了自己的理論體系,正式發展成為一門學科,即博弈論(game theory)。博弈論是根據信息分析及能力判斷,研究多決策主體之間的行為相互作用及其相互平衡,以使收益或效用最大化的一種對策理論。博弈論的研究方法是從復雜的現象中抽象出基本的元素(或概念),并對這些由基本元素構成的模型進行詳盡分析,隨后逐步引入對其形式產生影響的其他因素,從而分析出可能的結果。也可以說博弈論作為一種分析工具,為研究人類理性行為提供了一種可行、通用的方法。目前,博弈論在生物學、經濟學、國際關系、計算機科學、政治學、軍事戰略和其他一些學科中都有著廣泛的應用。
悖論(paradox),也稱逆論、反論,是指在邏輯上可以推導出互相矛盾的結論,但表面上卻能自圓其說的命題或理論體系。悖論形成的原因極其復雜和深刻, 因此,對悖論的深入研究能夠為數學、邏輯學、語義學等相關理論學科的進步和發展做出貢獻。所以,悖論有十分重要的研究必要和研究價值。其中經典的悖論有羅素悖論、說謊者悖論、康托悖論等等。
逆向歸納法(backward induction),又稱之為逆推歸納法,顧名思義,就是在序列中從最后往前端進行一種遞歸推理,是博弈論中的一種重要的推理方法。這種方法主要作用于對完全信息動態博弈的求解。它的運用雖然可以在眾多的納什均衡中確定唯一的均衡解,但是,有些時候通過逆向歸納推理所得到的關于博弈局中人的理論預測卻出乎意料地背離了人們的直覺,造成了博弈理論推理和實際中人們的真實行動的不一致,這也就是所謂的逆向歸納悖論(backward induction paradox)。
蜈蚣博弈悖論(centipede game),簡稱蜈蚣博弈,就是逆推歸納法悖論中的一個典型。它是在博弈論及博弈邏輯的研究中發現的悖論,是由羅森塞爾(Rosenthal)在1981年提出的一個完全信息動態博弈問題,一種合理行為選擇的悖論。由于這個博弈的擴展形態很像一條蜈蚣,因而被稱為“蜈蚣博弈”。它是指這樣的一個博弈:有兩個局中人A和B,他們輪流進行決策的選擇:可供選擇的策略有‘合作’和‘不合作’兩種。假定A先進行策略的選擇,然后是B選擇策略,這樣交替的進行策略的選擇。假定A、B之間的博弈次數是有限的,比如198次。假定這個博弈的各自支付給定如下圖:
如圖所示,只要A、B雙方有一方選擇‘不合作’策略,該博弈就結束。A、B雙方在結束博弈后的得益為得益數組中的數字。所有得益數組里的第一個數字是局中人A的得益,第二個數字則是局中人B的得益。當A、B選擇了198次‘合作’策略后的得益各為100。
但是,根據逆推歸納法分析這個博弈,在最后一步即第198步時,B在‘合作’和‘不合作’的策略中做出選擇,根據理性人的假定,B會選擇帶來收益101的‘不合作’策略,以此往前一一遞推。最后得出的結論卻是:在第一步時A就會選擇‘不合作’的策略來結束這個博弈。此時,A、B各自的收益都僅為1,這與正向推理時A、B各自的收益為100的結果完全相反,出現悖論。從邏輯推理來看,逆推歸納法是嚴密的,但結論卻違反了人們的直覺。而且,在針對蜈蚣博弈進行的實驗結果也表明,在絕大多數的博弈中,一般都不會出現由逆推歸納法所預測的局內人A在一開始就選擇‘不合作’的策略結束博弈的情況。因而,人們在博弈中的真實行動偏離了運用逆推歸納法得出的預測,造成兩者之間的矛盾和不一致,這也就是蜈蚣博弈產生的悖論。
二、對蜈蚣悖論的追問
究其原因,就引出了一系列的問題:為什么會出現蜈蚣悖論?產生蜈蚣悖論的原因是什么?是逆推歸納法出錯了?是這個博弈本身有問題?是人們的直覺錯誤了?究竟哪個環節出錯了?這些問題都成為人們不得不思考的問題。
當然,有很多的學者對此進行了分析和研究,試圖來回答著一系列的問題。但是,由于每個學者研究的角度、方法不同,他們也得出了不同的結論:有的學者認為是逆推歸納法導致了這個悖論的產生,而且深入的分析了逆推歸納法的缺陷和適用范圍;有的學者則認為是最初的“理性人”和“公共知識理性”的假定造成了這樣的結果,并探討了局內人的“理性”和“非理性”對決策過程和決策結果的影響;還有的學者認為是“信息”的不對稱從而產生了這樣的偏差,并闡述了信息的完整性對于局內人做出決策的重要作用;有的學者認為這個博弈反映的就不是悖論,所謂的蜈蚣悖論是不存在的。這些結論為我們進一步研究蜈蚣悖論提供了依據。
但是,如果從短期利益和長期利益的角度來分析蜈蚣悖論,就會發現所謂的悖論是不存在的,只是對短期利益和長期利益的不同考慮造成的結果不同而已。
三、眼前利益、長期利益的不同
根據逆推歸納法進行反向推理時,B選擇‘不合作’的主要理由就是在第198步時,B選擇‘合作’的收益低于選擇‘不合作’的收益,即B只看到了眼前利益而忽視了長期利益。按照局內人對眼前利益的選擇,并且假定局內人A、B都是‘理性人’,而且也知道對方是‘理性人’的情況下,我們從正向來推理這個博弈。
當A在做出第一步選擇的時候就要考慮到自己的收益。那么,如果A選擇‘不合作’得到收益為1,選擇‘合作’后的收益就得由B下一步的選擇決定。如果B選擇‘不合作’,A的收益就為3,明顯高于B選擇‘合作’后的收益,那么作為‘理性人’的B肯定會選擇‘不合作’,經過分析后,A不得不選擇‘不合作’來保證自己的收益為1而不是0,博弈就會在第一步結束。那么,這個推理結果就會與逆推歸納法得到的結果一致,也就是局內人A、B只考慮眼前利益而且把眼前利益最大化的結果。
而且,整個博弈的過程來看,每次A選擇‘不合作’時,A、B的收益是一樣的,但是B選擇‘不合作’時,收益就會比A多3,那么基于‘理性人’的考慮,B選擇‘不合作’的概率就遠遠大于A選擇‘不合作’的概率。但是B要得到選擇‘不合作’的權利,卻必須通過A選擇‘合作’后才行,換句話說要得到多于A的收益必須建立在A選擇‘合作’的基礎上。可是,如果A仔細觀察就會發現如果第一次選擇‘不合作’時收益為1,如果選擇‘合作’就等于把自己收益是1還是0的選擇權交給了B。但是,B選擇‘不合作’概率遠遠大于‘合作’,那么,最后A都會不得不選擇‘不合作’來結束博弈,從而確保自己的收益與B的相同。即使在第一步就結束,各自的利益為1,也不給予B得到遠遠高于自己利益的選擇機會。
再者,從上面的分析也可以進一步看到,局內人A看起來是擁有優先的選擇權,但是從收益來看B的優勢明顯大于A。那么,作為‘理性人’的A為何要選擇‘合作’來發起一個收益不如局內人B的行為呢?
但是,如果從長遠利益的角度來分析的話,局內人A、B會盡可能的多選擇‘合作’來增加各自的收益,因為他們看到當進行到第198步時,各自的收益均為100,這肯定是A、B都滿意的結果。所以,在進行博弈的時候,A和B都會為了100的收益選擇‘合作’,因為一旦選擇‘不合作’博弈就終止了。每多選擇一次‘合作’,他們各自的收益就會增加1,因此A和B都愿意‘合作’,而且是長期的‘合作’,直到各自得到最大的收益。這也正是這個博弈得以進行下去的主要原因,即A和B都基于對長期利益的考慮而展開‘合作’從而得到收益。但是,根據逆推歸納法分析這個博弈時,卻只看到眼前利益的多少,沒有考慮到這個博弈得以展開的深層次原因,所以得到的結果與現實情況和人們的直覺不同。
四、結論
因而,根本不是逆推歸納法出了問題,而是在進行反向推理時考慮的條件出了問題。也就是說這個博弈之所以能進行到最后一步A和B都是基于長期利益最大化進行的。如果局內人A、B都用每一步選擇‘合作’或‘不合作’的收益多少作為考慮的話,這個博弈就注定只能是A在第一步時選擇‘不合作’來得到各自相同且為1的收益來終止。
所以,這個悖論根本不能稱之為悖論,僅僅是由于在反向逆推時以進行了錯誤的考慮,忽視了整個博弈得以進行的原因,從而得到與事實不符的結果。所謂悖論只是注重眼前利益還是注重長期利益的不同選擇造成的不同結果而已,所以這個悖論是不存在的。
參考文獻:
[1]張峰.逆推歸納法悖論探析[J].福建論壇(人文社會科學版),2004,12:78—81.
[2]張峰.蜈蚣博弈悖論引發的思考[J].湖南科技大學學報(社會科學版),2005,8(1):30—33.
[3].潘天群.博弈論中理性人假設的困境[J].經濟學家,2003,(4)
[4]蔣正峰 逆向歸納悖論研究[D].華南師范大學 2003