獎懲機制下規范建筑垃圾清運行為的演化博弈＊

2021-03-17 02:29:18郭曉劍胡歡

科技促進發展 2021年1期

■ 郭曉劍胡歡

江西理工大學經濟管理學院贛州 341000

0 引言

建筑垃圾占世界生產所有垃圾的很大比重，大量的產生量和具體的資源使這條廢物流成為當前全球政策的一個重要焦點，例如歐盟委員會已在循環經濟一攬子計劃中提出了這一廢物流的新目標和策略[1]。我國在“十三五”中就提出了對于創新環境治理理念和方式，要實行最嚴格的環境保護制度，加快城鎮垃圾處理設施建設，完善收運系統，形成政府、企業、公眾共治的環境治理體系，實現環境質量總體改善，這是我國推進現代化社會、建設美麗中國的必然道路。在建筑垃圾清運方面，雖然國家頒布了《建筑垃圾管理規定》等規則，各地也出臺了相應的懲罰管控措施，然而，建筑垃圾清運過程當中的運輸超載，車容車貌不整、未封閉、跑冒滴漏，偷倒亂倒，闖禁等不良行為屢禁不止，對社會生活和社會安全造成了極大的危害。相對的是，環保部門督促整改下需要的成本必定不低，各建筑垃圾清運承包商也需要犧牲一些自身利益來進行相應的整改。在此背景之下，若能使得建筑垃圾清運承包商意識到這些不良行為的收益遠小于整改之后的收益并對現有狀況自覺整改，與此同時，相關的環保部門就能減少監管機制下的投入成本，形成一個良性循環。但是，就目前形勢來看，要想達成這一良性循環還有一定難度，各建筑垃圾清運承包商對于眼前利益的追求遠大于社會環境的要求，政府的環境部門的監管實施和成本難度也較大。

目前，國內外關于垃圾清運的研究層出不窮，Silva等研究了近年來建筑垃圾再生在新建筑材料中的應用和開發的新進展[2]。Wai 等發現建筑垃圾的可回收性和運輸垃圾所需的能源受區域變量的影響[3]。葉曉甦等以區分建筑垃圾資源化利益相關者為基礎,運用成本效益分析法核算建筑垃圾處置方式不同而產生的成本與效益,并給出三種相關對策[4]。賀娟等運用物質流分析法和全過程管理理論定量分析了中國建筑垃圾資源化利用率低的現狀，并基于此提出了中國建筑垃圾資源化率的提升建議路徑[5]。但是，這些研究僅僅停留在建筑垃圾的回收處理和再利用上，對于建筑垃圾清運的行為過程卻鮮有人研究。演化博弈把群體的行為調整看做一個整體的系統[6]，以使得個人行為到群體行為的形成機理以及涉及到的各種因素都歸入到演化博弈模型中，具有實際意義，該理論在生物學、經濟學、金融學和管理學等學科領域均有很大用場。王洪利等從演化博弈視角分析共享經濟將有助于深入理解其中參與主體行為演化過程和趨勢[7]。Hasan 等從電網的防御者和網絡攻擊者博弈出發建立了一種新的可以減少損失的電力防御模型[8]。傅沂等采用演化博弈分析出養老地產發展模式不完全契約性的成因是開發運營周期長、有限理性的參與主體和復雜的開發運營契約[9]。劉旭旺等對評標過程中技術專家與商務專家之間的對立與合作關系進行博弈演化，并提出要適時改變對策以提高評標的公平性[10]。當然，有很多選擇博弈一方為政府的研究，例如朱立龍[11]，Sun[12]，陳真玲[13]等以分析政府與相關社會問題的關系。本文以演化非對稱博弈為基礎，對環保部門和建筑垃圾清運承包單位的投入成本和風險的收益研究，分析現實中雙方的行為策略選擇。

1 模型的假設和構建

1.1 模型假設

在本文所構建的演化博弈模型當中的兩個參與群體分別為政府環保部門和建筑垃圾清運承包單位，對博弈雙方提出以下假設：

假設1：對于該模型中的參與人1（政府環保部門）和參與人2（建筑垃圾清運承包單位），假設參與雙方都是有限理性的。

假設2：政府環保部門的策略選擇方式有兩種，選擇進行嚴格監管，概率為x（0＜x＜1）;選擇寬松監管，概率為（1-x）。同樣，建筑垃圾清運承包單位也有兩種策略選擇方式，選擇對現有情況整改，概率為y（0＜y＜1）;選擇維持現狀，即不整改，概率為（1-y）。

假設3：環保部門進行嚴格監管時的成本為Cs，寬松監管時的成本為Cp，明顯可知Cs＞Cp＞0；建筑垃圾清運承包單位進行整改的成本為Cr，不整改的成本為Cq,明顯可知Cr＞Cq＞0,且每一建筑垃圾清運承包的承包價格為G(包含成本)，即整改和不整改兩種情況下的最終收益分別為G-Cr和G-Cq。

假設4：當建筑垃圾清運承包單位不進行整改時，周圍生活居民在受到建筑垃圾清運承包單位運輸建筑垃圾時的交通安全風險、生活環境質量變差等影響時會有θ（0＜θ＜1）的概率向環保部門舉報，或當環保部門進行嚴格監管時發現違規情況，環保部門將對相關企業進行罰款，為f。同時，若建筑垃圾清運承包單位進行整改，該單位將會受到環保部門贊揚并提高單位知名度并獲得更多的承包項目，收益為Pc，且環保部門也會因為環境質量變好而受到上級的鼓勵和嘉獎，收益為Ph。

1.2 模型構建

基于以上假設，構建出環保部門與建筑垃圾清運承包單位之間的演化博弈收益矩陣，如表1所示。

表1 演化博弈的收益矩陣

通過表1的演化博弈收益矩陣，設環保部門選擇嚴格監管時的期望收益、選擇寬松監管時的期望收益和政府的平均收益分別為M1,M2和Mˉ:

同理，設建筑垃圾清運承包單位進行整改使得期望收益、不整改時的期望收益和平均收益分別為N1,N2和:

根據Malthusian 動態方程[14-18],由（1），（2），（3）可得環保部門嚴格監管比例下的復制動態方程為：

令R(x) = 0,可得x1= 0,x2= 1,y3=

同理，由（4），（5），（6）可得建筑垃圾清運承包單位整改比例下的復制動態方程為：

表2 系統局部均衡點具體取值

令T(y) = 0,可得y1=0,y2=1,x3=

由此可得上述博弈的系統均衡點為：（0，0），（1，0），

2 演化博弈模型分析

根據由復制動態方程（7），（8）可得：

根據Friedman[19-20]的研究，系統的雅克比矩陣為：

當滿足以下兩個條件，這時演化穩定策略（ESS）為復制動態方程的均衡點。

（1）trJ=a11+a22＜0(跡條件) （2） detJ==a11a22-a12a21＞0(雅各比行列式條件)

系統局部均衡點的取值如表2所示：

由于在（x3，y3）處a11+a22=0 不滿足trJ=a11+a22＜0 這一跡條件，所以（x3，y3）肯定不是演化的穩定均衡點，所以γ1，γ2的值就不再計算。

推論1：當Cs-Cp-Ph＞(1-θ)f且Cr-Cq＞f+Pc時，系統相位演化圖如圖1。此時的系統演化穩定策略為（0，0），策略組合為（寬松管理，不整改）。

圖1 推論1下的演化相位圖

證明1：根據系統動態方程及其判斷條件求出各均衡點的跡和雅各比行列式的值，并判斷相應穩定性。當Cs-Cp-Ph＞(1-θ)f且Cr-Cq＞f+Pc時，系統均衡點的穩定性分析如表3。

表3 系統均衡點的穩定性分析

根據表3可以判定推論1推論正確。由推論1可知，當嚴格監管的投入收益比寬松監管的投入收益小且建筑垃圾清運單位的整改投入收益比不整改投入收益小時，建筑垃圾清運單位處于自身利益最大化會選擇不整改，而此時政府環保部門得到的罰款和上級嘉獎并不足以支持環保部門進行嚴格監管，于是環保部門選擇寬松監管。

推論2：當Cs-Cp-Ph＜(1-θ)f且Cr-Cq＞f+Pc時，系統相位演化圖如圖2。此時的系統演化穩定策略為（1，0），策略組合為（嚴格管理，不整改）。

圖2 推論2下的演化相位圖

證明2：根據系統動態方程及其判斷條件求出各均衡點的跡和雅各比行列式的值，并判斷相應穩定性。當Cs-Cp-Ph＜(1-θ)f 且Cr-Cq＞f+Pc時，系統均衡點的穩定性分析如表4。

表4 系統均衡點的穩定性分析

根據表4可以判定推論2推論正確。由推論2可知，建筑垃圾清運單位的整改投入收益比不整改投入收益小，但是政府環保部門的嚴格監管的投入收益比寬松監管的投入收益大，此時雖然建筑垃圾清運單位處于自身利益最大化會選擇不整改，但是環保部門得到的罰款和上級嘉獎比嚴格監管投入的成本大，因此選擇進行嚴格監管。

推論3：當Cs-Cp-Ph＜0 且Cr-Cq＜θf+Pc時，系統相位演化圖如圖3。此時的系統演化穩定策略為（1，1），策略組合為（嚴格管理，整改）。

圖3 推論3下的演化相位圖

證明3：根據系統動態方程及其判斷條件求出各均衡點的跡和雅各比行列式的值，并判斷相應穩定性。當Cs-Cp-Ph＜0 且Cr-Cq＜θf+Pc時，系統均衡點的穩定性分析如表5。

根據表5可以判定推論3推論正確。由推論3可知，建筑垃圾清運單位的整改投入收益比不整改投入收益大且政府環保部門的嚴格監管的投入收益比寬松監管的投入收益大，此時環保部門得到的罰款和上級嘉獎比嚴格監管投入的成本大且建筑垃圾清運單位的罰款數目已經超過了整改后的收益總和，因此雙方會分別選擇進行嚴格監管和整改。

表5 系統均衡點的穩定性分析

推論4：當Cs-Cp-Ph＞0 且Cr-Cq＜θf+Pc時，系統相位演化圖如圖4。此時的系統演化穩定策略為（0，1），策略組合為（寬松管理，整改）。

圖4 推論4下的演化相位圖

證明4：根據系統動態方程及其判斷條件求出各均衡點的跡和雅各比行列式的值，并判斷相應穩定性。當Cs-Cp-Ph＞0 且Cr-Cq＜θf+Pc時，系統均衡點的穩定性分析如表6。

根據表6可以判定推論4推論正確。由推論4可知，建筑垃圾清運單位的整改投入收益比不整改投入收益大，而政府環保部門的嚴格監管的投入收益比寬松監管的投入收益小，此時建筑垃圾清運單位的罰款數目仍超過了整改后的收益總和，繼續選擇進行整改。但是環保部門得到的罰款和上級嘉獎之和小于了嚴格監管投入的成本，所以選擇進行寬松監管。

表6 系統均衡點的穩定性分析

推論5：當0＜Cs-Cp-Ph＜(1-θ)f且θf+Pc＜Cr-Cq＜f+Pc時，系統相位演化圖如圖5，此時的系統不存在穩定均衡點，屬于博弈過程中的過渡期。

圖5 推論5下的演化相位圖

證明5：根據系統動態方程及其判斷條件求出各均衡點的跡和雅各比行列式的值，并判斷相應穩定性。當0＜Cs-Cp-Ph＜(1-θ)f且θf+Pc＜Cr-Cq＜f+Pc時，系統均衡點的穩定性分析如表7，可以判定推論5推論正確。

表7 系統均衡點的穩定性分析

由推論5可知，此時沒有博弈穩定均衡點，博弈雙方根據各自的利益最大化的要求向最接近自己的博弈穩定點靠攏，這時是一種過渡時期，此時的系統演化方向不確定，雙方需要進行各自策略和相對應的條件（例如罰款數額）的調節，在這種情況下政府更應該謹慎策略，若是選擇策略失誤就會導致雙方整體收益變差。

根據推論1、2、3、4、5 可知，雙方博弈過程是一個循環過程，對于社會整體利益來說，最完美的情況為推論4，即政府在寬松監管的同時建筑垃圾清運單位主動進行整改，這就需要我們進行調節獎懲措施，爭取較快的進入和保持博弈情況維持在推論4 下，具體仿真分析見下文。

3 仿真分析

為了更為直觀的對不同情況下政府環保部門與建筑垃圾清運單位之間的演化博弈策略進行研究，利用MATLAB 軟件對4 種不同情況的進行仿真來模擬參數變化時相應演化博弈的策略改變的結果。

設固定值Cs=20,Cp=12,Cr=30,Cq=20,θ=0.5,x,y的初值屬于{0.2,0.4,0.6,0.8}中任意兩值組合。

（1）設Ph=1,Pc=1,f=4，滿足推論1 條件Cs-Cp-Ph＞(1-θ)f且Cr-Cq＞f+Pc，仿真結果如圖6所示。

圖6 穩定點（0，0）的仿真結果

由上圖可知模擬結果與推論1 一致，此時的上級嘉獎、建筑垃圾清運單位知名度和違規罰款都處于較低的狀態，可以把推論1看做是雙方博弈的初始狀態，在推論1 的條件下，雙方逐漸靠近穩定點（0，0）并選擇進行（寬松監管，不整改）。

（2）設Ph=9,Pc=1,f=8，滿足推論2 條件Cs-Cp-Ph＜(1-θ)f且Cr-Cq＞f+Pc，仿真結果如圖7所示。

圖7 穩定點（1，0）的仿真結果

由上圖可知仿真結果與推論2一致，同時可以看出，推論1由于某種條件會轉變為推論2，即上級政府加大對垃圾清運的要求，向下級環保部門施壓并提高了對建筑垃圾清運工作管理的嘉獎，即提高了Ph的值，下級環保部門應上級要求加大對清運建筑垃圾違規行為的處罰f，此時雙方逐漸靠近穩定點（1，0），即選擇進行（嚴格監管，不整改）。

（3）設Ph=9,Pc=5,f=12，滿足推論3條件Cs-Cp-Ph＜0且Cr-Cq＜θf+Pc，仿真結果如圖8所示。

圖8 穩定點（1，1）的仿真結果

由上圖可知仿真結果與推論3一致，此時，政府環保部門由于上級壓力進行嚴格監管，同時采取了更加嚴格的獎懲措施，例如增加罰款的金額f和加大對主動進行整改的單位進行推廣，加強這些單位的知名度和認可度Pc。此時大部分的建筑垃圾清運單位為保證自身收益選擇進行整改以免于罰款，雙方逐漸靠近穩定點（1，1），即選擇進行（嚴格監管，整改）。

（4）設Ph=1,Pc=6,f=10，滿足推論4條件Cs-Cp-Ph＞0且Cr-Cq＜θf+Pc，仿真結果如圖9所示。

圖9 穩定點（1，1）的仿真結果

由上圖可知仿真結果與推論4一致，此時，建筑垃圾清運單位基本選擇進行整改，而上級政府過了推廣整改的時期減少了對下級政府環保部門的嘉獎Ph，此時若要保證建筑垃圾清運單位繼續進行自覺整改，需要維持獎懲力度，基本保持推論3中違規罰款的金額f與對主動進行整改的單位的推廣和加強這些單位的知名度、認可度Pc。政府環保部門不需要進行對監管的投入而選擇進行寬松監管的同時，建筑垃圾清運單位仍然選擇繼續進行整改，這種情況是最理想的狀態，雙方逐漸靠近穩定點（1，1）并選擇進行（寬松監管，整改）。

（5）由于推論5屬于演化的過程時期，此時的演化穩定點不確定，任取0＜Cs-Cp-Ph＜(1-θ)f且θf+Pc＜Cr-Cq＜f+Pc中的點進行仿真，所得結果如圖10所示。

圖10 演化穩定點的仿真結果

根據上圖所示，此時的博弈雙方如推論5所說，處于一種演化的過渡期，此時不存在演化穩定點，政府需要根據特定的社會環境改變當時的政策完善相應的獎懲機制使得現有狀態向最優狀態（即推論4）的狀態轉變。

4 結語與建議

本文通過對政府環保部門和建筑垃圾清運單位進行演化博弈分析和仿真，并引入違規罰款、上級嘉獎、建筑垃圾清運單位口碑和周圍居民投訴可能性等相關因素，分析結果表明：雙方采取的策略與政府環保部門的獎懲機制有著密不可分的關系，當逐漸改變違規罰款、上級嘉獎和單位口碑等條件時，雙方選擇的策略會不斷地改變，特別是當主要因素違規罰款的不斷提高時，雙方的博弈策略會依次出現（寬松管理，不整改）、（嚴格管理，不整改）、（嚴格管理，整改）、（寬松管理，整改）的情況。由上文可知，最滿意和最適合社會環境的情況是第四種情況（寬松管理，整改），為了保證達到和維持這一情況，根據上文的博弈模型條件在此提出相關建議：

（1）在地方政府出現清運建筑垃圾違規的情況時，需要政府上級部門乃至中央加強政策的制定和實施，并完善對政策嚴格執行的下級部門的激勵措施，比如增加嚴格治理下級的財政撥款或者把治理結果當做是晉升條件考核績效。在這種條件下，能夠很大程度上激勵下級環保部門改變現有的寬松管理的模式，嚴格執行現有規章制度并加強監管的力度，促進建筑垃圾清運單位自覺整改，爭取提早進入整體效益最優階段，減少上級政府和環保部門的投入壓力。

（2）政府環保部門加大現有的建筑垃圾清運的相關違規懲罰措施，特別是要提高相關違規罰款金額，使得此時進行主動整改的建筑垃圾清運單位的收益遠遠大于不整改的收益，相關的建筑垃圾清運單位為了保證自身利益，會選擇對自己更有利的策略，也就是主動進行整改。當處于最優階段時，政府環保部門也要保證一定的罰款數額和主動整改相關單位的推廣度，維持現有狀態，避免現有階段出現退化的情況。

（3）加強對主動整改的建筑垃圾清運單位的獎勵和推廣，頒發相關資質證明和榮譽證書，并在相關政府網站進行表彰，提高相關單位的知名度。也可以把相關合法資質和榮譽作為其他政府項目和高投資項目的承包標準，把不整改企業限制在評標的門口，提高主動整改單位的承包項目的數量和質量，也可以間接增加相關單位的收益，使得這些模范企業做好帶頭作用，帶動整體行業的整改氛圍。