崔鵬

我一個同學最近遇到一個問題。他的小孩在幼兒園被同學搶走了奧特曼。本來那個小孩說玩一下就還給他,但是后來,他不還了。孩子回家問,“我該怎么辦,那是我最喜歡的奧特曼。”
這就是那種雖然小,但是很不好回答的問題。
我的同學回答這個問題時之所以小心謹慎,還因為這是他給小孩上的人生第一堂社會關系課。為了解讀它是值得下點功夫的。
解答:首先來簡化一下這個兩個小孩和一個奧特曼的故事。
假設我同學的小孩是A,另一個想要玩奧特曼的小孩是B,當他們只有一個奧特曼,可能有四種情況出現。A和B談判,他們承諾輪流不受打擾地和奧特曼玩。如果他們都遵守承諾,這樣他們可以分別和奧特曼快樂地度過半小時時光,那么他們的快樂得分分別是3分。但如果其中一人不遵守承諾,那么不遵守承諾的人可以獨占奧特曼一個小時,他的快樂得分就是5允而另一個苦等對方放手的老實孩子得分是0。還有一種可能,兩個人都想獨占奧特曼,他們在一個小時的自由游戲時間里不斷爭搶,只是偶爾得到片刻和奧特曼獨處的時間,這樣他們兩人的快樂得分都是1分。
如果這種假設還算合理,那么我們就把兩個小孩和奧特曼的問題簡化成了一個著名的“囚徒困境”問題。
當然了,即使奧特曼再也要不回來了,我同學的小孩也不會因此轉到另外一個幼兒園,他還要繼續和“騙走”奧特曼的小家伙相處。所以這種相處將成為一個重復的囚徒困境問題——所謂重復囚徒困境,就是你和對手隨著時間的推移,要一次次地約定和博弈。對于幼兒園小朋友來說,基本上要持續到上學年齡吧——他現在才3歲半。
我們要解答的問題就是,我同學的小孩在這個有30多人的班級的一次次囚徒困境的博弈中(和不同的小朋友的若干次博弈),如何才能使自己的快樂得分最高——這種方法也就是他和身邊人相處的最佳原則。
美國密歇根大學的羅伯特·阿克塞爾洛德教授做過解決類似問題的試驗。他召集他所知道的對囚徒困境問題有研究的人展開兩次比賽。比賽方式是,參賽者提出自己應付重復囚徒困境的辦法,并把它寫成程序。然后,讓這些程序單循環對抗,統計整個循環賽結束后各種解決辦法程序的得分。
這個比賽第一屆參賽選手是15個,第二屆參賽選手是63個。而兩次的冠軍都由同一種辦法獲得。那其實是一種非常簡單的辦法,我們通常把它稱作“一報還一報”。
所謂“一報還一報”的方式就是,在重復的囚徒困境博弈里,你重復對手在上一輪博弈中對你的態度。如果他上一輪采取獨占的態度,那么在下一次你也采取獨占的態度實施報復;如果他上一輪采取合作的態度與你共享奧特曼,那么在下一次,你也采取共享的態度。當然,“一報還一報”的辦法在第一次和對方接觸時是采取合作態度的,也就是先假設對方是講道理守承諾的。
善良、樂觀、懂得報復、學會寬容和原諒、待人邏輯簡單清晰、不嫉妒、不愛占別人的小便宜——這是博弈論對人生的總結。
仁者無敵在阿克塞爾洛德教授組織的比賽中,名列前茅的都是一些被稱為“善良”的辦法。什么是“善良”,就是不首先對博弈的對手采取獨占好處的行為。

不首先采取自私行為的方法之所以能夠名列前茅,是因為這些善良的辦法一旦相遇,都不首先自私和背叛,所以得分都會很高。假如博弈有30輪,兩個“善良”的程序相遇時,它們的得分都會是90分。
樂觀的人過得更好“一報還一報”的方法能取勝,另一個原因是,它是樂觀的,也就是它在和對手第一次接觸時假設對方是善意守承諾的。這其實很重要,因為很多解決重復囚徒困境的辦法雖然善良,但是都會對背叛和獨占行為展開報復。所以一個好的開始很可能是兩個善良的人和諧相處的全部。
迅速的報復性對背叛和對方自私的行為一定要有反射很快的報復行為——這好像和傳統的道德判斷相違背,不過從博弈的結果來看,有報復性地和人相處的方式更健康,在增加自己的快樂得分方面也更有效。
在阿克塞爾洛德教授組織的比賽中,也有人采取更加寬容的處事方法,比如,連續兩次或三次被背叛才報復。也正是因此,就會有一些聰明的小人利用這個機會來占便宜,他們從不連續背叛對手,只是在對方放松警惕時偶爾獨占奧特曼。用更寬容的辦法和這些小人相處就像冤大頭,損失慘重。
懂得寬容和原諒“一報還一報”只是報復對方一次,在之后和對方博弈中就會重新開始,接受對方的善意和合作。這種寬容性讓它比那些更嚴厲的報復者的快樂得分高很多。
在比賽中曾有一個被命名為“永遠報復者”的程序,它的方案是善良樂觀的,但是如果遭遇到一次對方的背叛和自私行為,在之后的博弈中它都會用背叛和自私展開報復。這么做看似很解恨,但是總體上,這種方式的得分并不高。因為兇狠的報復會招至別人同樣兇狠的報復。它做得太過分了。
簡單清晰“一報還一報”的邏輯簡單明了,這也是它得分高的一個原因。
在參加比賽的專家中,有的人編寫了非常復雜的解決方案程序。他們試圖根據對手的決策猜測下一次對手所采取的策略。無疑,在這個問題上,他們想歪了。之所以這么說是因為,類似于重復囚徒困境的和人相處的問題不是零和博弈。如果雙方合作,從長遠來看,大家都會贏得更多。
在和人相處的時候,想得過多,因而對別人行為的反饋看上去有點莫名其妙,這在人際交往中其實得分并不占優勢。把自己裝扮得高深莫測,是種費力不討好的愚蠢行為。
不要嫉妒,眼界放遠一點最佳策略,“一報還一報”的方式執行起來會有個有趣的特點。采取“一報還一報”策略的人,在任何單一的一次重復博弈中,得分都是小于或等于對手的。
假如對方采取善良的策略,那么兩個博弈的人應該同獲滿分;假如對方采取自私或者悲觀的策略,“一報還一報”的得分就會比對方少3到5分——如果博弈的次數夠多,這點分差根本算不了什么。
等到將和所有人博弈的得分相加,“一報還一報”策略的得分卻是最高的。
這說明了個小問題,不要嫉妒你的博弈對手相比你暫時賺了點小便宜,要從整體看問題,畢竟“一報還一報”的得分是最高的。
不要試圖占別人的小便宜無論是在上述的比賽里,還是在現實生活中,總有人會想盡辦法占別人的便宜,并以此得意。這種占便宜的解決方案即使非常聰明,總體得分也不算高,在阿克塞爾洛德教授組織的比賽中,這種占便宜程序的最佳表現是在第二屆比賽中獲得第七。
為什么“聰明人”很難在長期的博弈中占到別人的便宜?
這是因為博弈的另一方同樣是人,你努力占他的便宜,他也會想辦法這么做。這有點像你把球踢向一面墻,你用的力氣越大,它反彈回來的力量也越大。挖空心思在別人不注意的時候占便宜的思路是把別人物化了,忽視了對手在重復博弈中的報復和反饋。
總結一下,如果你在和別人相處時(或者也這么教導你的子女)采取“一報還一報”策略,那么你需要具備我上邊說的7種特質:善良、樂觀、懂得報復、學會寬容和原諒、待人邏輯簡單清晰、不嫉妒、不愛占別人的小便宜。
這有點像上帝說的,但其實是行為經濟學的總結——很可能它們有相通之處。