李曉博,馬劍虹
(1.浙江大學城市學院,浙江 杭州 310015 2.浙江大學 心理與行為科學系,浙江 杭州 310007)
公共物品兩難中懲罰對合作的影響:偏好異質的視角
李曉博1,2,馬劍虹2
(1.浙江大學城市學院,浙江 杭州 310015 2.浙江大學 心理與行為科學系,浙江 杭州 310007)
懲罰對公共物品博弈中合作水平的影響及其機制并沒有得到很好的理解。通過觀察具有不同合作偏好個體在博弈中的行為可以更深入地對懲罰機制進行探究。文章采用FGF的方法對被試進行分類,然后進行有無懲罰各六輪的公共物品博弈實驗。研究發現懲罰對合作的正效應明顯,懲罰的威脅與實際的懲罰共同影響合作,懲罰的效應可以分為避免貢獻下降的穩定效應與推動貢獻上升的提升效應。穩定效應主要通過對搭便車者的震懾作用得以實現,懲罰提升效應受到懲罰類型與強度的影響,反社會懲罰的存在及懲罰條件下不同偏好個體的行為因回避懲罰而趨于一致是懲罰提升效應有限的原因。
公共物品兩難;懲罰;合作;偏好
大規模人群的合作及其進化機制是長期困擾各個學科眾多研究者的一個謎。由于搭便車行為的存在,在公共物品的兩難困境,雖然合作可以給對群體帶來有利的結果,但卻讓合作者在與搭便車者的競爭中處于劣勢,自然選擇偏愛背叛(搭便車),合作是次于背叛的選擇。Bohm于1972年開始使用實驗的方法來研究公共物品博弈中的搭便車現象,實驗使用VCM(VoluntaryContributionMechanisms)機制來模擬公共物品情境[1]。此后大量的研究使用這種范式來研究公共物品兩難中的合作問題。根據Ledyard[2]的綜述,大量公共物品博弈實驗發現了兩個明顯的事實,一是單輪博弈或多輪博弈的首輪,參與者的平均貢獻量在40%-60%之間,而且參與者貢獻比例的分布非常分散,從0到100%;二是在多輪博弈中,貢獻存在逐漸下降的趨勢,但不會下降到全部是零,平均值會保持在一個非零的正數。這兩個事實都與經典博弈論的推測不符,根據理性自利(經濟人)假設,在單輪博弈中參與者的納什均衡貢獻是0;而有限重復的博弈中,根據理性共識與序貫理性的假設(逆向歸納),每一輪的均衡貢獻也都是0。
那么為什么人們仍常常愿意參與到有成本的合作中而不是搭便車呢?大量理論與實驗研究試圖對這兩個現象做出解釋。研究路徑主要有兩條,其中一條是社會偏好(social preference)或者他顧性偏好(other-regardingpreference),即認為個體具有某種將他人收益考慮進自己收益函數的偏好,如公平,互惠等,因而會做出相應的合作行為。另一條主線是confusion,認為是被試的理解不清或計算錯誤(errors)導致了不應該出現的合作行為[3],可將這條主線稱為博弈中的有限理性。
社會偏好視角能較好地解釋貢獻非零的事實,但對多輪博弈中貢獻逐漸下降現象的解釋則需要承認個體間偏好存在異質性。大量研究發現,人們根據他人的貢獻向公共物品貢獻的意愿是不同的,異質的,而且是穩定的。[4]-[6]其中大多數是條件合作者(即其他人貢獻越多則愿意貢獻越多的人)與搭便車者。不同偏好個體的互動導致了貢獻逐漸下降的情形。而且進一步的研究發現,條件合作者具有自我服務偏見(即不是完全匹配其他人的貢獻而是稍低于其他人的平均貢獻),即使群體中全部是條件合作者,多輪博弈中仍會出現貢獻水平的衰減現象。由此得出一個相對悲觀的推論,公共物品的自愿提供機制存在內在的脆弱性。但是現實中也存在大量的群體解決公共物品困境的成功事例,許多學者如Fehr、Ostrom等認為其他的一些內生或外生機制,如獎懲[7]-[8],溝通與機制設計[7]等對于維持合作是非常必要的。近年來,內生的懲罰機制(成員之間的懲罰)是研究的熱點與重點,成果豐富。Fehr等人將其稱為利他懲罰,提出如果利他懲罰存在,合作就會繁盛,如果不存在,合作就會被打破。[8]之后,大量研究發現人類具有懲罰的意愿且懲罰對合作具有提升作用,并有研究進一步探索了懲罰的生理基礎與進化機制,也支持了Fehr等的利他懲罰理論,但也有許多研究者對其方法與結論提出了挑戰。[9]-[10]綜合來看,關于懲罰與合作的研究主要集中在兩個主題,一個是懲罰的提供問題(因為懲罰要付出成本,博弈論預測不會出現懲罰行為,懲罰存在二階搭便車問題),另一個是懲罰對合作的影響效應。現有研究對懲罰提供問題研究較多,基本上同意懲罰行為大量存在,其中存在一定量的反社會懲罰(即人們制裁那些表現出親社會行為的人)。對于懲罰對合作的作用機制研究相對較少,往往理所當然地解釋為懲罰改變了搭便車者的效用函數而改變了他的行為。
本研究擬從偏好異質的視角來更深入地研究懲罰對合作的影響,將兩種在多輪博弈中起重要作用的機制相結合,有利于加深對懲罰與偏好異質兩種機制的理解,并找到更好的公共物品困境治理對策。
基本的決策情境采用VCM機制的標準線性公共物品博弈。被試隨機分配為4人一組,每位成員都擁有20個代幣(MUs)的初始資金。被試的任務就是決定20個代幣的分配——投到一個公共賬戶或保留在自己的私人賬戶中。投給公共賬戶的代幣,記為gi(實驗中稱為貢獻)。對于投入到公共賬戶中的每1個代幣,群體中的每位成員都可以獲得0.4個代幣的收益,而保留在私人賬戶中的代幣,被試個人獲得1個代幣的收益。成員的收益函數是:

因為向公共賬戶投資1個代幣的成本是1個代幣,而個人的回報只有0.4個代幣,標準理論預測個人的占優策略是向公共賬戶貢獻0。然而,當所有群體成員都保留所有代幣,每個被試只能賺20個代幣,而如果所有的人都投資20個代幣,則每個被試將獲得0.4*80=32代幣。這一決策情境構成了公共物品兩難。
在基本的決策框架下,本實驗設計了三種情境。第一種情境(CC實驗)是使用FGF的方式誘發個體合作偏好[4];第二種情境(N實驗)是進行六輪隨機匹配的重復公共物品博弈;第三種情境(P實驗)分為兩個階段,第一階段同N實驗,第二階段為懲罰階段:被試在知道其他組員的貢獻后可以懲罰其中的任何成員。具體的懲罰決定是分配0到10個點給受懲罰的對象,每個點意味著懲罰者支出1個代幣,而受懲罰的成員減少3個代幣,所有的懲罰決定同時做出。決策情境為被試內設計,所有被試都參加以上三種條件的實驗,且第一個實驗都是CC實驗,而后為了控制順序效應,一半被試先參加N實驗,另一半被試先參加P實驗。
實驗程序使用Z-tree[11]編寫,實驗中的所有互動以計算機為中介匿名進行。為了確保被試理解此公共物品博弈的規則與激勵方式,每一輪都制定了詳細的實驗指導書,實驗開始前向被試發放紙質版,并由主試在實驗室大聲宣讀。在介紹基本決策與有懲罰的P實驗的實驗指導書中,分別設計了十道與五道控制問題來讓被試意識到自利的激勵和兩難的情境,只有當所有被試全部回答對這些題之后,才會開始正式的實驗。
實驗結束后,被試填寫問卷與兩份人格問卷。實驗時間約80分鐘,平均收入45元,實驗收入用實際貨幣支付,單獨發放。實驗共設4個實驗局,其中兩個實驗局采取N-P的順序,另兩個采取P-N的順序,每個實驗局20人,共有80名學生參與了實驗。被試通過網絡招募,來自大一到大四四個年級,19個專業。其中男生30人,女生50人,平均年齡20.125歲。
1.懲罰對合作的影響
根據陌生人局的實驗設計,每輪實驗結束后,全體成員都會重新分組,小組成員再也不會相遇,那么,懲罰他人既要付出成本,又不能在現在和將來給自己帶來任何收益,因此理論預測不會有人會做出懲罰行為,而根據理性共識與逆向歸納,既然沒有人會懲罰,那么理性個體的貢獻也將是0。因此,有無懲罰條件下,個體的貢獻沒有差別,懲罰機會對合作沒有影響。
研究中發現懲罰行為很普遍。被試共懲罰其他組員653次,87.5%(70人)的被試至少有過一次懲罰,43.8%(35人)的被試懲罰10次以上。而貢獻的平均值也不為零,在有懲罰條件下,六輪的平均貢獻依次為5.9,5.9,6.7,6.9,6.8,7.2;無懲罰條件下,六輪平均貢獻依次為4.8,3.6,2.8,1.9,1.5,1.0。
對于懲罰對合作的影響,首先可以明確,懲罰的正效應明顯。經檢驗,被試在懲罰條件下的合作水平顯著高于無懲罰條件(Wilcoxon秩檢驗,Z=-2.201,p=0.028)。對個體的分析發現,在無懲罰條件下,最后一輪貢獻0的占72.5%,貢獻10以上的只有2人,占2.6%,而在懲罰條件下,最后一輪貢獻為0的只占6.3%,有7.5%的個體貢獻在10以上,也存在明顯的差異。
第二,進一步分析正效應的構成。對兩種條件下合作水平差異進行比較,來發現差異的來源。無懲罰條件下,貢獻持續下降,而有懲罰條件下貢獻逐步上升。無懲罰條件下,貢獻從平均4.8下降到1,降幅達到79.2%,輪次之間貢獻水平差異顯著(F=51.278,p=.000)。而在懲罰條件下,貢獻保持穩定且有提升,從5.9上升到7.2,增幅22%,輪次間的貢獻水平也有顯著差異(F=6.82,p=0.011)。但這一升一降正是兩種實驗條件下貢獻水平具有顯著差異的兩個來源。本研究認為,有必要將懲罰對合作的效應分為兩類,一類是避免合作水平下降的穩定效應,一類是對合作的提升效應。
第三,對不同懲罰效應的機制進行解釋。前者可能的作用機制是懲罰威脅的震懾作用,被試因為擔心受罰而策略性地選擇提升貢獻;而后者來自于受到實際懲罰后做出的應對。懲罰威脅的震懾作用可以從兩種實驗條件下首輪貢獻的比較來進行驗證。有無懲罰條件下首輪的貢獻值分別是5.9和4.8,經檢驗具有顯著差異(t=2.045,p=0.044),說明懲罰威脅作用明顯,如果從N-P順序的實驗看,從無懲罰條件的第六輪到有懲罰條件的第一輪的貢獻比較看,這一效應更為明顯。實際懲罰的作用可以受罰后的反應來進行檢驗,對個體下一輪的貢獻增長與本輪實際受罰量進行統計分析發現:在受到懲罰后,下一輪平均增長0.57代幣,而未受到懲罰,平均貢獻增長為-0.39即下降0.39代幣,經統計檢驗兩者存在顯著差異(t=2.094,p=0.037);另外,個人下一輪的貢獻增長與本輪個人被罰顯著正相關(r=.220**,p=.000),即本輪受到懲罰越大,下一輪貢獻增長越多。這說明懲罰有助于提升合作水平。但是懲罰條件下,平均貢獻增幅有限,只有22%,第一輪與第二輪之間,以及三四五六輪相互之間的貢獻水平差異都不顯著,并沒有出現懲罰對合作的持續提升效應。
第四,繼續對懲罰提升合作作用有限的情況進行解釋。可能的原因是個體在受到不同類型與強度的懲罰時會做出不同的反應。研究發現懲罰遵循一定的規律,個人貢獻值相對于小組平均值越低,其他三位成員懲罰該個體的支出就越多。但在個體貢獻高于平均水平時也受到了懲罰,這種懲罰可以稱為“反社會懲罰”。在不同情況下受到懲罰時,個體的反應是不一樣的。當個體貢獻低于小組平均貢獻而受罰時,個體的貢獻增長與個人被罰顯著正相關(r=.152*,p=.044<0.05);受到懲罰后,55.4%增加了貢獻,37.3%保持不變,只有7.3%降低了貢獻;受到懲罰的個體貢獻增長顯著高于未受到懲罰的個體。而當個人的貢獻大于等于小組平均值而受罰時(類似反社會懲罰),貢獻增長與個人被罰相關不顯著;受到懲罰后只有11.5%的被試增加了貢獻,57.3%保持不變,31.2%降低了貢獻;受罰與未受罰的被試貢獻沒有顯著差異。不同的反應方式說明個體會評價懲罰的合理性,并做出相應的反應,合理時會選擇增加個人的貢獻,反之會降低下一輪貢獻。在反社會懲罰副作用存在的情況下,懲罰條件下貢獻能保持一定程度增長的原因是在低于平均貢獻受到的懲罰比高于平均時受到的懲罰更多、強度更大;而個體在受到反社會懲罰時更多選擇降低貢獻的反應應該是貢獻水平沒有持續上升的一個原因。
2.懲罰對異質偏好個體合作的影響
個體之間偏好存在異質性是公共物品博弈中貢獻水平下降的主流解釋,當然這是在沒有懲罰的實驗中出現的情況。對于懲罰條件下,異質偏好個體的合作情況并沒有得到研究,從偏好異質的視角可以對懲罰的效應進行更細致、精確的分析。
在偏好誘發實驗(CC實驗)中,個體填寫的貢獻表提供了每位被試在其他人平均貢獻的21(0-20)種情況下分別準備做出多少貢獻的完整信息。參照FGF的分類方法,被試可以分為搭便車者(FR)、條件合作者(CC)、駝峰貢獻者(TR)和其他(Others)等四類。其中條件合作者最多,占46%,搭便車者為20%,駝峰貢獻者為15%,其他為19%,偏好分布與國內外研究沒有差異。條件合作者的平均貢獻低于相應的他人平均貢獻,說明條件合作者具有自我服務偏見。
首先,進行懲罰對異質偏好個體影響的比較分析。四種偏好被試在兩種條件下每輪的平均貢獻見表1。經檢驗(Wilcoxon秩檢驗)每種偏好在懲罰條件下的貢獻都顯著高于無懲罰條件。說明懲罰對每一種偏好被試的貢獻水平都具有顯著影響。但是,懲罰對不同偏好個體合作水平的影響程度并不一樣。從表中也可看到,在懲罰條件下,搭便車者平均貢獻增長了396%,而條件合作者的增長只有117%。進入懲罰階段,首輪貢獻相對于無懲罰條件下的首輪,搭便車者的平均貢獻從2.25增長到5,增長率為122%,駝峰合作者增長27.8%,“其他”增長48.9%,條件合作者還略有下降。貢獻值馬上跳到一個高的起點,說明是懲罰的威脅在起作用,特別是搭便車者,他們一下將自己的貢獻提升了一倍以上。

表1 不同偏好個體在兩種實驗條件下每輪的貢獻
其次,對不同偏好個體在同一條件下的貢獻水平之間的差異進行比較分析。經檢驗,在沒有懲罰實驗中不同偏好類型平均貢獻差異顯著(方差分析F=6.441,p=.000)。在有懲罰的實驗中不同偏好類型的貢獻值不存在顯著差異(方差分析F=.304,p=.822),而且每一輪的貢獻都沒有顯著差異。在無懲罰時,條件合作者的平均貢獻是搭便車者的一倍以上,而在有懲罰階段兩者貢獻沒有顯著差別,搭便車者還稍高于條件合作者,原因主要是搭便車者顯著提高了其貢獻水平。說明搭便車者對懲罰威脅的反應最為強烈,懲罰威脅的震懾效應對搭便車者最為明顯。
從偏好異質的視角,可以對懲罰對合作的效應進行更好地解釋。無懲罰條件下,貢獻水平的下降主要是搭便車者的搭便車行為與條件合作者的自利偏見共同作用的結果。而懲罰威脅使得搭便車者顯著提升了貢獻,消除了貢獻水平下降的主要動因,這是合作水平得以穩定的主要原因。另外,在懲罰條件下,不同偏好個體間的貢獻之間沒有顯著差別,可以認為,懲罰讓不同偏好個體的行為趨于一致,大家都去匹配他人的貢獻,表現地像條件合作者。但這種匹配顯然不同于在無懲罰條件下條件合作行為,一個可能的解釋是存在“回避懲罰”的動機。在反社會懲罰存在的情況下,大家會做出一個比較可信的推測:最小成本地回避懲罰的方法是向平均值靠攏。
研究發現懲罰對合作的正效應明顯,懲罰局中個體的貢獻顯著高于無懲罰局,懲罰顯著提升了不同偏好個體的貢獻水平。懲罰對合作的影響可以分為避免貢獻下降的穩定效應與推動貢獻上升的提升效應。懲罰的威脅與實際的懲罰共同影響合作,懲罰威脅的震懾作用表現在懲罰首輪的貢獻較無懲罰局的顯著提升,實際懲罰會提升受罰者下一輪的貢獻增長水平。但懲罰的提升效應受到懲罰類型與強度的影響,反社會懲罰的存在限制了合作的提升水平。懲罰對不同偏好個體的影響不一樣,懲罰威脅的震懾作用對具有搭便車偏好的個體效應特別明顯,搭便車者在懲罰條件下首輪顯著提升了貢獻水平,加上不同偏好個體為了避免懲罰而選擇向平均值靠攏,不同偏好的個體之間合作水平在懲罰條件下沒有顯著差異。
是誰在主導著公共物品中合作博弈?可能是人數占少數的搭便車者。在沒有懲罰的多輪博弈中,搭便車者不貢獻或少貢獻,拉低了平均貢獻,繼而引起其他人貢獻水平的下降。而在有懲罰的階段,他們隱藏了自己的偏好,顯著提高自己的貢獻,從而整體提升了群體的貢獻。而處于人數優勢的條件合作者只是相對被動地反應,表現出隨大流的行為。從偏好異質的視角看,懲罰對合作影響的邏輯是,懲罰引起搭便車者回避懲罰的動機,從而增加貢獻值,貢獻值的增加,會引起條件合作者貢獻的增加,從而提升整體的貢獻水平。因此,從實踐上看,為了提升公共物品兩難中的合作,首先要充分重視對搭便車行為的控制,基于理性自利進行激勵制度的設計,以抓住關鍵的小數;其次,使用懲罰機制時要充分利用懲罰的威懾作用,尋找提升懲罰威懾作用的路徑;第三,要設計出抑制反社會懲罰的有效機制,如二階懲罰或元規范等。
從理論上看,個體異質偏好及其對合作的影響機制,個體異質偏好與懲罰兩種機制的相互作用等問題還需要在將來進行更多的研究。搭便車者在懲罰條件下表現出的行為,對FGF的偏好異質分類提出了挑戰。雖然搭便車者在無懲罰條件下,符合其理論預期,無論是首輪,最后一輪,還是平均貢獻都是最低的。但是在懲罰條件下,其貢獻大幅提高,甚至還高于條件合作者。可能的原因是,多輪博弈所需的假設更難成立。在無懲罰條件下,理性個體比較容易得到貢獻0的占優策略,即不管其他人貢獻多少,個人貢獻0都是利益最大化的選擇。但是在懲罰條件下,除了個人的理性自利外,還需要理性共識假設與序貫理性的假設,即要假設其他人也是理性的,都不會做出懲罰,并通過逆向歸納得到貢獻0的策略。
[1]BOHM,P.Estimating demand for public goods:An experiment[J].European Economic Review,1972(3):111-130.
[2]LEDYARD,J.Public goods:A survey of experimental research[M].in:J.Kagel&A.Roth(eds.),The Handbook of Experimental Economics,Princeton University Press,1995.
[3]MAXWELL N.BurtonChellew,Claire El Mouden,Stuart A.Westa.Conditional cooperation and confusion in public-goods experiments[J].PNAS,2016.113,no.5:1291–1296.
[4]URS FISCHBACHER,SIMON GACHTER,ERNST FEHR.Are people conditionally cooperative?Evidence from a public goods experiment[J].Economics Letters,2001(71):397–404.
[5]BURLANDO.BURLANDO,FRANCESCO.GUALA.Heterogeneous Agents in Public Goods Experiments[J].Experimental Economics,2005(8):35–54.
[6]HERRMANN,TH?NI.Measuring conditional cooperation:A replication study in Russia[J].Experimental Economics,2009(12):87–92.
[7]OSTROM,WALKER,GARDNER,Covenants with and without a sword:selfgovernance is possible[J].American Political Science Review,1992(86):404-417.
[8]ERNST FEHR,SIMON G?CHTER.Altruistic punishment in humans[J].nature,2002,VOL 415:137-140.
[9]BENEDIKT HERRMANN,CHRISTIAN TH?NI,SIMON G?CHTER.Antisocial Punishment Across Societies[J].science 2008,vol 319:1362-1367.
[10]MATTHIAS CINYABUGUMA,TALBOT PAGE,LOUIS PUTTERMAN.Can second-order punishment deter perverse punishment?[J].Experimental Economics,2006(9):265–279.
[11]URS FISCHBACHER,U.Z-Tree:Zurich toolbox for readymade economic experiments[J].Experimental Economics,2007(10):171–178.
[責任編校:唐 鑫]
D0
A
1002-3240(2017)06-0067-05
2017-03-20
國家自然科學基金面上項目“社會合作的雙重約束模型及其情緒心理機制研究(NO.71371166)”
李曉博(1975-),湖南東安人,浙江大學城市學院講師,浙江大學博士研究生,研究方向:集群治理,社會兩難問題;馬劍虹(1962-),浙江杭州人,浙江大學心理與行為科學系教授,博士生導師,研究方向:管理心理學,經濟心理學,人類決策(通訊作者)。