方錦清
在自然界和人類社會中廣泛存在合作與競爭,而能夠反映這種既激烈競爭又需要合作的一門學科就是博弈論(Game Theory),也稱對策論。它是模擬和分析理性的個體在利益沖突環境下相互作用的形式、決策及其均衡理論,研究個體之間行為的相互影響和相互作用規律,它可以描述現實生活中參與者面對有限資源的合作與競爭行為。令人驚奇的是,有三次諾貝爾獎獲得者是博弈論研究方面的杰出科學家,他們是1985年獲得諾貝爾經濟學獎的公共選擇學派的領導者布坎南,1994年獲獎的美國普林斯頓大學的納什、塞爾屯、哈桑尼3位博弈論專家以及1995年獲獎的理性主義學派的領袖盧卡斯。博弈論在經濟學、政治學、管理學、社會學、軍事學、生物學等諸多學科領域具有廣泛的實際背景和應用價值。進入20世紀末,隨著復雜網絡科學的一些新的發現,博弈論也成為網絡時代人們的一種思維、競爭與合作的模式。
博弈論對人有一個最基本假定:人是理性的,人在具體策略選擇的目的全是使自己的利益最大化。博弈論就是研究理性的人之間如何進行策略選擇的,因此博弈論也稱為對策論。博弈論就憑這么一條最簡單的假定可以展開廣泛的研究,并獲得了豐富多彩的結果,利用博弈論可以解讀人類的社會行動或集體行動,更易理解人類社會的復雜性和特殊性。為了刻畫個體間利益的沖突對整個系統的影響,人們已經提出和發展了許多博弈模型,比較著名的有三個模型:囚徒困境、“雪堆”博弈和“少數者”博弈模型,下面筆者通過對這三個模型進行簡單而通俗的介紹,讓大家來了解博弈論及其應用概況。
“囚徒困境”模型
囚徒困境作為一個經典的博弈模型受到廣泛關注。這個博弈模型假設兩個小偷合伙作案時被捕,分別被關在不同的屋子里,如果雙方都拒絕承認同伴的罪行,則由于證據不足兩人都會被輕判(收益為R);為此,警方設計了一個機制:如果一方出賣同伴,而另一方保持忠誠,則背叛者將無罪釋放(收益為T);堅持忠誠的一方將被重判(收益為S);如果雙方都背叛了對方,則雙方都會被判刑(收益為P)。這里假設上述收益參數滿足下面的條件:T>R>P>S。對每個參與者來說,如果對手堅持忠誠,則他也選擇忠誠得到的收益R小于他選擇背叛得到的收益T;如果對手選擇背叛,則他選擇忠誠得到的收益S仍小于他選擇背叛得到的收益P。
可見,無論對手采取哪種策略,自己的最佳策略就是背叛,雙方都選擇背叛稱為囚徒困境的唯一“納什均衡”(納什因其提出的“非合作完全信息博弈的納什均衡”概念而榮獲了1994年的諾貝爾經濟學獎);但是同時選擇背叛所取得的平均收益要低于兩個人同時保持忠誠取得的平均收益。在這種情況下,理性參與者面臨著兩難的困境。
自然界中廣泛存在的合作現象——從單細胞生物的協同工作到人類的無私奉獻的行為說明,還有其他的動力學機制激勵一般所認為的自私的個體認識到合作的重要性。為了揭示這種潛在的演化機制,有人提出了“針鋒相對”演化規則,采用“去輸存贏”策略,改進囚徒困境中的兩難結局。
“營堆”博弈模型
“雪堆”博弈又稱為“鷹鴿”博弈或者“小雞”博弈(chicken Game),是另一類兩人對稱博弈模型,描述了兩個人相遇時是彼此合作共同受益,還是彼此欺騙來相互報復。它揭示了個體理性和群體理性的矛盾對立??梢赃@樣來描述雪堆博弈:在一個風雪交加的夜晚,兩人相向而來,被一個雪堆所阻,假設鏟除這個雪堆使道路通暢需要的代價為c,如果道路通暢則帶給每個人的好處量化為b。如果兩人一齊動手鏟雪,則他們的收益為R=(b-c)/2;如果只有一人鏟雪,雖然兩個人都可以回家,但是背叛者逃避了勞動,它的收益為T=b,而合作者的收益為S=b-c;如果兩人都選擇不合作,兩人都被雪堆擋住而無法回家,他們的收益都為P=0。這里假設收益參數滿足下面的條件:T>R>S>P。雪堆模型與囚徒困境不同的是,遇到背叛者時合作者的收益高于雙方相互背叛的收益。因此,一個人的最佳策略取決于對手的策略:如果對手選擇合作,他的最佳策略是背叛;反過來,如果對手選擇背叛,那么他的最佳策略是合作。這樣合作在系統中不會消亡,而與囚徒困境相比,合作更容易在雪堆博弈中涌現。
“爭當少數者”博弈模型
該模型由兩位數學家查勒特和張翼成于1997年提出,他們假設在一個系統中有多(奇數)個參與者,在某一時刻各自獨立地在兩個策略中做出選擇,參與人數少的策略獲勝。該模型的核心思想是少數者獲勝,這是從實際中提煉出來的一個好模型,股票交易就是一個典型例子。需要指出,“少數者”博弈模型是對著名“酒吧問題”的一種抽象和簡化。
“酒吧問題”研究的是一群生活在美國圣塔菲的人們在周四晚上是否去該地區的一個著名酒吧的決策問題:每周四晚上這個酒吧都會有優雅的愛爾蘭音樂演奏,然而如果去的人數過多,超過了酒吧所能容納的人數,酒吧就會變得嘈雜擁擠,人們也無法悠閑地欣,賞音樂。因此人們需要根據過去的公共信息來對當晚去酒吧的人數做預測,以決定自己究竟是去酒吧還是留在家里?!熬瓢蓡栴}”和“少數者”博弈模型都反映了社會經濟活動中眾多千差萬別的參與者對有限資源競爭的基本特征,其思想是金融市場中的普遍原則——少數人獲勝。
爭當少數者博弈模型原則上與前面兩個模型不同,雙方并非完全自私、完全理性且具有相當完整信息,并按照嚴格的收益計算而決策,以便達到某種博弈的均衡。人們看到該模型中的雙方基本上是根據“成功的經驗”或“模仿成功者”進行決策,并非理性,信息也非完整,因此它不存在爭當少數者博弈模型的均衡,似乎可以說,非理性和非完整信息的博弈更為重要。確實,現實生活中究竟有哪些面臨的抉擇是“完全理性”地根據完整信息嚴格計算而進行決策的博弈?
在“少數者”博弈模型的基礎上,科學家還提出了“演化少數者博弈”(EMG)模型,將進化論與少數者博弈結合在一起,發現通過學習過去的公共歷史信息,可以提高參與者的平均收益。在EMG模型中,對于某一輪博弈,參與者根據他記憶中保存的公共歷史信息來獨立地決策本輪自己是加入“1”組還是“0”組;當所有人都做出選擇后,加入人數少的一組為獲勝者,加入人數多的一組為失敗者。人們通過對EMG模型的研究發現一個有趣的結論:一個相互間競爭的人群最終總是趨向于分離成為具有兩種相反的極端行為的人群。這意味著為了在競爭社會中生存,參與者的行為最終會走向極端:要么始終遵循基本策略,要么始終反其道而行之。
本文以囚徒困境、雪堆博弈和少數者博弈三個典型模型為例,簡單介紹了近年來博弈論研究概況。在現實生活和許多領域中,博弈行為對網絡結構演化的作用是令人關注的課題。隨著對演化博弈動力學行為與復雜網絡之間關系深入研究,博弈必定會推動復雜網絡的發展,乃至社會的進步,其應用前景十分美好。
責任編輯龐云