[摘要] 博弈論是運籌學的一個重要分支。其中,非合作博弈是現代博弈理論中的核心內容和重要基礎。本文重點介紹了非合作博弈中最核心的部分即Nash均衡。給出了純戰略納什均衡的相關定義,并同時得到了在經濟決策中行為人的最優決策。在此基礎上,以納什均衡作為理論支撐點,結合得益矩陣分析解決了經濟生活中的一些實際問題。例如:針對偷水問題。
[關鍵詞] 均衡點 得益矩陣 Nash均衡
博弈論是運籌學的一個重要分支,是研究決策主體的行為發生直接相互作用時的決策,以及這種決策的均衡問題。一個完整的博弈一般由以下幾個要素組成:博弈的參加者、各博弈方各自選擇的全部策略或行為的集合、博弈方的得益、結果、均衡等。
非合作博弈是現代博弈理論中的核心內容和重要基礎,而Nash均衡則是非合作博弈的核心部分。用博弈論解決現實納什均衡是現代博弈論中的核心內容和重要基礎。要用博弈論解決現實經濟生活中的決策問題,對現實經濟生活中的發展變化趨勢進行預測,其關鍵在于如何根據行為中的支付矩陣得出納什平衡點,通過分析決策者的心理活動來得到相關模型,從而依據模型來針對生活中的實際問題制定相關的政策以預防不良現象的發生。
一、非合作博弈
一般地,將不允許存在有約束力協議的博弈稱為“非合作博弈”。在該博弈中,每個博弈方的策略都是針對其他博弈方策略或策略組合的最佳對策。事實上,具有這種性質的策略組合,正是非合作博弈理論中最重要的一個解概念“納什均衡”。
在博弈論里,有各種各樣的均衡概念,上述定義是所有均衡概念的共同特征。而在一個博弈中,可能有多個均衡存在。純戰略納什均衡在非合作博弈分析中具有十分關鍵的作用和地位,因此將著重介紹純戰略納什均衡的定義。
1.純戰略納什均衡
一般常用G表示一個博弈;如G有n個博弈方,每個博弈方的全部可選策略的集合稱為“策略空間”,分別用表示;表示博弈方i的第j個策略,其中j可取有限個值(有限策略博弈),也可取無限個值(無限策略博弈);博弈方i的得益則用表示,是各博弈方策略的多元函數。n個博弈方的博弈G常寫成。
有了博弈、博弈方的策略空間和得益的表示法,可以給出純戰略納什均衡的定義如下:
定義1: 在博弈中,如果由各個博弈方的每一個策略組成的某個策略組合中,任一博弈方i的策略,都是對其余博弈方策略組合的最佳對策,即
對任意都成立,則稱為G的一個“純戰略納什均衡”。純戰略納什均衡的求解,通常可以采用得益矩陣表示出在不同策略下各博弈方的效益,下面通過囚徒困境問題可進一步加深對純戰略納什均衡概念的理解。
該博弈問題是1950年圖克提出的,它雖然非常簡單,但卻很好地反映了非合作博弈的根本特征,并且該博弈模型是解釋眾多經濟現象,研究經濟效率問題的非常有效的基本模型和范式。其故事如下:
警方抓到兩個盜竊犯,惜證據尚不足,遂寄希望于嫌犯自己招供。警方把兩個犯人隔離起來,分別審問,交代政策如下:坦白從寬,抗拒從嚴!如果你招了,另一個人沒招,那么就將你釋放,另一人判10年;同樣如果你不招,另一個人招了,那么你得被判10年,另一個人被釋放。如果兩個人都招,警方證據就足了,兩人都判8年。至於兩個人都不招的情況,不用警方交代,兩個人都得判,但因證據不力,判得都要輕許多,比如1年。警方最后說,那邊還有個警察,對你的同伙交代一模一樣的政策呢。
對于囚徒A和囚徒B來說,其雙方想法如下:
(1)如果對方招了,我招是8年,不招是10年,還是招劃算。
(2)如果對方不招,我招是無罪釋放,不招是1年,還是招劃算。
(3)如果對方不招,我招是無罪釋放,不招是1年,還是招劃算。
下面可將雙方整個博弈過程的結果用一矩陣形式表示出來。這種矩陣稱為博弈的“得益矩陣(支付矩陣)”。
表1A與B的得益矩陣
由于法庭對罪犯分別審訊,因而該問題還可以歸結為非合作博奕模型。
其中,局中人集合,1代表囚徒A,2代表囚徒B。兩個人具有相同的策略集合:,其中C代表坦白,D代表抗拒的策略。對于策略組合兩個局中人的支付函數如下:
由支付函數可以看出,囚徒A的策略是坦白,囚徒B的最佳策略也是坦白,故納什均衡點為(坦白,坦白)。
在囚徒困境中,每個參與人都能猜出對方的策略,故稱這種納什均衡為純戰略納什均衡。
囚徒困境反映了一個很深的問題,這就是個人理性與集體理性的矛盾。即使兩個囚徒在被警察抓住之前建立一個攻守同盟(死不坦白),這個攻守同盟也沒有用,因為它不構成納什均衡,沒有個人要積極性遵守協定。
囚徒困境問題在經濟學上也有著廣泛的應用,例如:兩個寡頭企業選擇產量的博弈。如果兩企業聯合起來形成卡特爾,選擇壟斷利潤最大化的產量,每個企業都可以得到更多的利潤。但卡特爾協定并不是一個納什均衡,因為給定對方遵守協議的情況下,每個企業都想增加生產,結果是,每個都只能得到納什均衡產量的利潤,它嚴格小于卡特爾產量下的利潤。
二、純戰略納什均衡在經濟生活中的具體運用
1.偷水問題
針對盜水現象,供水部門常采用罰款的手段處理那些被發現的盜水用戶,但隨著居民的科技文化水平的提高,盜水手段越來越高明,因此被發現的概率越來越小,那么采用通常的罰款手段對防止用戶盜水的作用越來越微弱,看來利用新的經濟原理、采取新的制裁措施顯得尤為必要了。
假定用戶每家都有一個水表,而且每家實際用水沒有通過此水表。假定水表測量準確無誤。
(1)設N家總水表測出的實際用水量為A。
(2)第i家水表所示用水量為,B為N家盜水總和。
不妨設每度水的單價為1元,則供水局對第i家征收水費為即可防止用戶盜水,理由如下:
為說明方便,不防簡化為兩家用戶甲和乙,甲和乙都有兩種策略選擇:偷水和不偷水,在甲和乙之間就形成了一場博弈。
設甲和乙的實際用水量分別為和,偷水量分別為和,相應的得出甲和乙的得益矩陣:
表2 甲和乙的得益矩陣
可見:(1)對甲來說,在不做損人而不利己的事的前提下,他會選擇不偷水,因為甲若選擇偷水,則他期望乙不要偷水,此時他的最大利益為0,既然利益為0,他選擇不偷水也可以達到,又何必勞神又費事。甲若選擇不偷水,乙必定也會選擇不偷水,因為此時乙無論偷水還是不偷水,利益都為0,在不做損人而不利己的事的前提下乙必定會選擇不偷水。
(2)對乙來說,由于同樣的道理,他也會選擇不偷水這一策略。這樣,(不偷水,不偷水)就成了一個純戰納什均衡點。甲和乙誰改變策略都得不到好處,當然就會維持均衡點,那么這個均衡就是相當穩定的,這樣供水部門也達到了防止用戶偷水的目的。
另外,即使有人做損人而不利己的事,供水局也有辦法對付,那就是對第i家征收水費為,其中.即可達到目的。同樣,以兩家用戶為例,此時用戶i所收水費,同樣地可得出甲和乙的得益矩陣。
表3 甲和乙的得益矩陣
顯然,對甲和乙來說為了使自己得益最大,都會不約而同的選擇不偷水.對于多個用戶同樣可以進行分析,最后所有的用戶都會選擇不偷水的策略。因此供水部門只需任意選擇一個大于1的a,宣布對用戶i征收的水費即是防止用戶偷水的有效措施。
接下來,談談對偷水用戶進行一次性罰款和對偷水量由N家共同分攤做法的無效性.
供水局若發現偷水戶i則往往采取一次性罰款M,對用戶i來說:
(1)不偷水,得益為0;
(2)偷水,若被發現,得益為;
(3)偷水,若被發現,得益為.但是用戶偷水被發現的概率往往是很小的。
假設被發現的概率為P,則用戶i偷水損益的期望值為:
因此只有,即時才能使用戶不偷水。
假設偷水被發現的概率為1%,用戶偷水=100,則罰款M>1000元才可能使用戶不偷水。因此一般性的罰款并沒有達到應有的目的。
由上可知,利用純戰略納什均衡理論對日常生活中的一些實際現象確實可以進行一定的定量分析,以此做出更好的決策安排。但是本文探討的只是博弈論的一個很小的方面,對于均衡問題中的子博弈精煉納什均衡等問題本文沒有討論。對于納什均衡還可以進一步進行推廣。如日常生活中,小到下棋打牌,大到企業之間的競爭與合作,國家之間的傾銷與反傾銷、制裁和報復等,都可以歸結為博弈問題。
參考文獻:
[1]謝識予:納什均衡論[M].上海:上海財經大學出版社,1999
[2]張維迎:博弈論與信息經濟學[M].上海:上海人民出版社,1996
[3]全賢唐張健:經濟博弈分析[M].北京:機械工業出版社,2003
[4]李本慶丁越蘭:環境污染與規制的博弈論分析[J].海南大學學報,人文社會科學版.2006,4:541~544
[5]潘天群:社會現象的博弈論解讀[M].中央編譯出版社.1998
[6]黃濤:博弈論教程[M].首都經濟貿易大學出版社.1996
[7]陳芝蘭:博弈論及其在經濟生活中的應用[J].經濟新論,23-24
[8]RobertGibbons,APrimer in Game Theory,Harvester Wheatsheaf,1992
注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。