黃梓佳 張豪
一、博弈論概述
最早開始了解到博弈論是從電影《美麗心靈》里,納什與他的四位同學在酒吧遇見了一位美麗的金發女郎,大家紛紛表示自己很有欲望和她談戀愛,可惜科學家似乎都有色心沒色膽,他們互相推諉,卻沒有人敢于實踐。如果所有的人都去追求金發美女,那么他們都會失敗,當他們再轉而追求她的女伴們時,就會慘遭拒絕,因為沒有誰會愿意屈居第二;但如果他一開始就去追求她的女伴們,那么就會成功,而金發美女則會遭到冷落,納什便能乘虛而入,這樣所有人就都得到了和金發女郎談戀愛的機會。博弈論已成為當今分析經濟問題的兩種最有力的方法之一,必將使問題的分析以更加符合現實的方式揭示經濟活動的內在規律。
什么是博弈論,博弈論的教材中的定義是“研究決策主體的行為在直接相互作用時,人們如何進行決策,以及這種決策如何達到均衡的問題”。博弈論分析的關鍵步驟是找出在別人選擇既定策略的情況下找到自已的最優反應策略,也就是給自已帶來最大收益的策略。博弈論在當今社會已經成為經濟學的標準分析工具之一。
二、博弈論的劃分
博弈論的劃分可以從兩個角度進行。第一個角度是參與人行動的先后順序。從這個角度,博弈可以劃分為靜態博弈和動態博弈。第二個角度是參與人對有關其他參與人的特征以及策略空間的認識。從這個角度,博弈可以劃分為完全信息博弈和不完全信息博弈。將上述兩個角度的劃分結合起來,就可以將博弈論劃分為四種不同的類型:完全信息靜態博弈,完全信息動態博弈,不完全信息靜態博弈,不完全信息動態博弈。
三、完全信息靜態博弈
關于納什均衡最經典的例子就是囚徒困境的例子。我們先通過分析囚徒困境從而對后面的五星級酒店在節假日如何定價等內容做一些鋪墊。通過下圖我們可以看到,兩個嫌疑犯作案后被警察抓住,分別關在不同的屋子里接受審訊。警察知道兩人有罪,但缺乏足夠的證據。警察告訴每個人:如果兩人都抵賴,各判刑一年;如果兩人都坦白,各判八年;如果兩人中一個坦白而另一個抵賴,坦白的放出去,抵賴的判十年。于是,每個囚徒都面臨兩種選擇:坦白或抵賴。然而,不管同伙選擇什么,每個囚徒的最優選擇是坦白:如果同伙抵賴、自己坦白的話放出去,抵賴的話判十年,坦白比不坦白好;如果同伙坦白、自己坦白的話判八年,比起抵賴的判十年,坦白還是比抵賴的好。結果,兩個嫌疑犯都選擇坦白,各判刑八年。如果兩人都抵賴,各判一年,顯然這個結果好。囚徒困境所反映出的深刻問題是,人類的個人理性有時能導致集體的非理性聰明的人類會因自己的聰明而作繭自縛,或者損害集體的利益。
從上面的內容看出,首先,囚徒A和囚徒B都是具有完全信息的,每個囚徒對另外一個囚徒的特征(包括可選擇的策略、可能的結果)有完全的了解。其次,無論是囚徒A還是囚徒B,“坦白”總是最好的策略,即個人的占優策略。最后,當兩方都選擇了“坦白”策略時,即為“均衡”。
但在重復的囚徒困境中,博弈被反復地進行。因而每個參與者都有機會去“懲罰”另一個參與者前一回合的不合作行為。這時,合作可能會作為平衡的結果出現。欺騙的動機這時可能被懲罰的威脅所克服,從而可能導向一個較好的、合作的結果。反復的、接近無限的重復次數時,納什均衡趨向于帕累托最優,從互相背叛趨向于互相忠誠,這在之后的現實應用中也一樣會出現。
四、完全信息動態博弈
上文的內容主要介紹的是完全信息下的靜態博弈,但現實生活不僅僅只有這一種情況,如果再加入動態博弈的話可能會更符合現實生活中的應用。而兩者的區別之處在于,靜態博弈是所有參與人同時行動(或許有先動,但沒有人在所有行動之前能觀測到別人的行動)。而動態博弈則是參與人的行動有先后順序,且后行動者在自己的行動之前能觀測到先行動者的行動。
中國的很多節假日 (如十一國慶節)是酒店(尤其是五星級酒店)生意最好的時候(而酒店工作日的生意比較冷清),在節假日之前就會開始預訂房間,此時假設在一個景點附近只有二家五星級酒店A和B(事實上一般不止二家),A與B這兩家酒店在節假日會出現二種不同的定價可能,即一種是提價,但可能影響的客房量,另一種是少提價(提價比例不那么高),雖很可能滿房但賺到超的額利潤不多。我們從靜態博弈的視角來分析,產生了四種不同的組合。第一種情況是A和B兩家酒店都少提價(提價比例不那么高),所以兩家酒店賺超額利潤都較少,即兩家酒店超額利潤都是2。第二種情況是兩家酒店都提價了,即兩家酒店超額利潤都是8。還有二種情況都是一家酒店提價了而另一家酒店少提價,結果是提價的酒店超額利潤是-10(可能游客不訂,但節假日酒店成本會更高些),而另一家酒店生意火爆,并賺到了超額利潤10。
假設A和B兩家酒店經營者都是理性的,從表中可以看到,顯然選擇少提價的方案對自身更有利,即不論對方如何選擇,“不提價”總是最好的策略,即占優策略。從上面的例子可以看出,兩家酒店都提價并不是納什均衡,因為只要另一家酒店選擇少提價就可以得到更多的超額利潤。所以,這個狀態不是一個納什均衡——因為有一方可以通過改進策略多贏錢。最后雙方非合作博弈的納什均衡狀態一定是兩家酒店都無奈選擇了“少提價”的方案。
我們再從動態博弈(即是參與人的行動有先后順序,且后行動者在自己的行動之前能觀測到先行動者的行支動)的視角來分析,上表中假設B酒店在第1次選擇了“提價”,而A酒店選擇“少提價”,那么A酒店的超額利潤應該是10+2(T-1)(這里的T代表時期)。如果當B酒店是非理性的(選擇“提價”),而A酒店也選擇“提價”,那么A酒店的超額利潤應該是8T。還有另外一種可能就是,B酒店是理性的(選擇“少提價”),則此時A酒店正常情況下也會選擇“少提價”的方案,此時A和B酒店的超額利潤都是2T。
但在重復的每年的酒店節假日定價過程中,博弈被反復地進行。盡管節假日酒店在選擇合作時都可能冒著被其他酒店搶生意的風險,但如果他們不選擇合作,就會暴露了自己是非合作型,從而很有可能失去了長期合作收益的可能性。因為國內節假日酒店在定價上博弈幾乎一直在發生,即博弈次數足夠多,未來收益的損失就會遠遠超過短期的損失。因此,五星級酒店之間的節假日定價策略仍可能會出現合作博弈的結果。(作者單位為1 The University of Nottingham NG7 2RD;2 電子科技大學)
第一作者:黃梓佳(1993.09--);女,湖北人,碩士,畢業于The University of Nottingham ;研究方向:會計與金融;