政府監管與閉環供應鏈環保投資策略演化博弈分析

2019-10-18 09:35:03王建華黃賢鳳馬漢武劉旭

物流科技 2019年9期

王建華黃賢鳳馬漢武劉旭

摘要：針對閉環供應鏈在經濟可持續發展中具有重要地位而當前其環保投資不足的現狀，構建包含政府監管策略與供應鏈環保投資策略的博弈模型，進行策略演化動態穩定性分析，采用數值仿真分析決策參數和初始條件對演化結果的影響及其演化路徑。結果表明，政府監管成本、政府獎懲力度、投資收益等是影響監管和環保投資策略動態演化的關鍵因素;環保投資收益較高時，無論政府是否選擇監管策略，閉環供應鏈都會選擇環保投資策略;環保投資收益較低時，政府進行監管政策設計需要在調整獎懲力度，同時采取激勵措施促進環保技術的發展來降低供應鏈環保投資的投入成本，以實現閉環供應鏈向環保運作狀態的演化。

關鍵詞：政府監管;閉環供應鏈;環保投資;演化穩定策略;演化博弈

中圖分類號：F273文獻標識碼：A

O引言

隨著科技和生產力的快速發展，產品開發、生產、使用和更新換代的速度越來越快，廢棄產品越來越多，資源消耗和環境惡化問題日益凸顯，尤其在經濟處于快速增長時期的中國。為了充分利用這些廢舊產品的殘值，減少其對環境的危害，世界各國陸續出臺相關的政策和法律法規加強對企業可持續發展的引導和規制，促進閉環供應鏈的發展。

政府引導閉環供應鏈發展通常采取兩類方式：獎懲制度和回收補貼。獎懲制度一般規定特定的回收率，如果生產者廢舊品回收達到特定回收率給予獎勵，如果生產者廢舊品回收低于特定回收率則給予懲罰。易余胤等（2014）研究獎懲制度對混合回收渠道下閉環供應鏈節點企業最優定價和渠道選擇的影響。王文賓等（2016）比較政府獎懲機制和稅收一補貼機制對于提高逆向供應鏈回收率的有效性。王文賓等（2019）研究政府獎懲機制下閉環供應鏈的成本共擔一利潤共享契約，研究發現隨著政府獎懲力度的提高，產品的零售價降低，回購價、回收率和回收商的利潤均提高，但制造商的利潤與目標回收率有關。石純來等（2019）研究規模不經濟下獎懲機制對閉環供應鏈制造商合作策略影響。

獎懲制度涉及主體主要是企業，為了進一步調動消費者參與到閉環供應鏈中來，政府推出一系列回收補貼政策。回收補貼政策在執行過程中雖然是政府根據回收量給予回收企業補貼，但是企業可以根據補貼政策采取不同的市場活動，例如以舊換新補貼或二手回收現金券等，這些活動會提高消費者參與閉環供應鏈的積極性。林杰等（2014）研究在家電以舊換新背景下政府補貼對閉環供應鏈成員利潤分配的影響。李新然等（2015）研究政府“以舊換再”補貼下的差別定價對閉環供應鏈回收量和利潤的影響。李新然等（2017）研究再造品銷售困難環境下政府補貼和銷售努力對閉環供應鏈運作效益的影響，并提出了相應對策。Liu等（2016）基于回收品質量視角研究政府補貼對定價的影響。韓小花等（2019）針對兩階段閉環供應鏈系統，研究了古諾競爭型閉環供應鏈中的“以舊換再”策略選擇問題。

上述研究的政策主要基于供應鏈回收數量而進行的設計，沒有考慮供應鏈回收再制造過程中的環保性。而現實閉環供應鏈中存在很多無拆解資質或環保設備和技術不過關的企業，這些企業在進行廢舊品的回收、拆解與再制造過程中容易形成資源利用率低而二次污染嚴重的結果。有鑒于此，本文綜合考慮經濟性和環保性指標，利用演化博弈方法研究政府監管策略和閉環供應鏈環保投資策略的演化路徑，重點分析政府獎懲力度和監管成本、供應鏈環保投資成本與收益等參數對政府和供應鏈群體策略演化的影響規律，以期為閉環供應鏈環保投資策略選擇提供客觀有效的理論指導，為政府制定可持續發展政策提供理論依據。

1問題描述及模型構建

1.1問題描述。考慮閉環供應鏈從市場上回收廢舊產品并進行再造和再循環，由于理性行為人追求經濟效益的特點使得很多閉環供應鏈不具備正規的再造流程或再處理設備，其在再造過程中一方面提高了廢舊產品的回收再利用數量，另一方面又導致對環境產生了較大的污染.但是在現行的技術水平和市場需求條件下，閉環供應鏈的存在整體上具有較大的社會效應，從而使得政府監管力度和處置措施不是非常的完備和嚴厲。但是為了促進閉環供應鏈逐步向環保運營方向發展，發揮很好的資源再利用和環境保護作用，政府需要采取一定的力度對閉環供應鏈進行監管，促進其進行環保投資，增強其再處理過程的技術水平和污染處置能力。

在該博弈中，參與主體主要是政府和閉環供應鏈群體，每一群體成員都有兩個純策略選擇。閉環供應鏈可以選擇進行環保投資或不進行環保投資，政府可以選擇監管或不監管。政府按照一定的隨機比例a對閉環供應鏈進行監管和查處，如果發現閉環供應鏈沒有進行環保系統的投資，則進行處罰P，如果發現閉環供應鏈進行了環保系統的投資，則給予獎勵A，其中實施監管活動需要支付成本C_g。閉環供應鏈對資源再利用的社會收益為R，環保運行可以獲得經濟收益E₁，正常運行可以獲得經濟利益E₂，其中：有盧比例的成員采取了環保系統的投資策略，投資需要成本為C_j，運作過程對環境的污染效應為h;有1-B的成員不采取環保投資，環境污染效應為H。

為了限定問題應用場景和后續表述方便性，進行如下假設和定義：（1）環保投資供應鏈的污染效應要比沒采取環保投資供應鏈的低，即h1>E₂。（3）令E₁-C_i為供應鏈環保收益、E₂為供應鏈正常收益、E=E₁-C_i-E₂為供應鏈環保溢價收益。

1.2模型構建。根據鷹鴿博弈的思想建立政府監管與閉環供應鏈環保投資策略博弈收益矩陣如表1所示。

2演化均衡分析

從表3可以看出，在政府監管成本較低而閉環供應鏈具有中等環保溢價收益的前提下不存在演化穩定策略，可以看出政府和閉環供應鏈將都選擇混合策略。當政府因為監管成本較低而選擇較高比例的監管策略時，閉環供應鏈如果不進行環保投資將受到政府的罰款，于是閉環供應鏈中有一定比例的成員會選擇采取環保投資;但是隨著采取環保投資的比例提高，政府實施監管策略不僅需要投入監管成本還需要給予采取環保投資的供應鏈以獎勵，政府將逐步縮小監管的比例;繼而因為政府監管力度減弱而不能獲得足夠的政府獎勵來彌補環保溢價收益為負值的損失，使得供應鏈選擇不進行環保投資的比例增加。如此反復，演化博弈的結果就是政府和閉環供應鏈均選擇混合策略。

2.3P>C_g，E>0。政府對不采取環保投資的閉環供應鏈罰款要高于政府監管成本，渠道環保溢價收益能夠產生正向收益，即低政府監管支付與高環保溢價收益環境。此時，演化博弈動態方程存在4個均衡點：D（0，0），A（1，0），B（0，1），C（1，1），對這4個均衡點進行穩定性分析如表4所示。

從表4可以看出，在政府監管成本較低而閉環供應鏈環保溢價收益高的前提下，演化博弈的穩定策略為B（O，1）。此種情形下，由于采取環保投資可以實現正向的環保溢價收益，不論政府是否進行補貼，閉環供應鏈都會自發地選擇環保投資策略，在提高收益的同時也能降低運營對環境的危害;因政府獎勵對于閉環供應鏈環保投資來說起到了錦上添花的作用，不論政府是否進行監管都不會影響閉環供應鏈的策略，從而導致政府監管積極性降低;同時不采取監管措施又能節約政府運作成本，更進一步促使政府采取不監管策略。

2.4Pg，E+A+P<0。政府對不采取環保投資的閉環供應鏈罰款要低于政府監管成本，渠道環保溢價收益加上政府對采取環保投資渠道的獎勵與沒有采取環保投資渠道的懲罰之和都不能產生正向收益，即高政府監管支付與低環保溢價收益環境。此時，演化博弈動態方程存在4個均衡點：0（0，0），A（1，0），B（0，1），C（1，1），對這4個均衡點進行穩定性分析如表5所示。

從表5可以看出，在政府監管成本較高而閉環供應鏈環保溢價收益降低的環境下，演化博弈的穩定策略為0（0，0）。此種情形下，政府因為監管成本過高，而對不進行環保投資的閉環供應鏈懲罰又過低，在長期演化過程中，政府趨向于不進行監管。閉環供應鏈由于環保溢價收益為負值，即使考慮到政府的獎勵和懲罰也不能實現正向的環保投資收益，作為市場獨立的經濟人，渠道會選擇不進行環保投資。

2.5Pg，0

從表6可以看出，在政府監管成本較高而閉環供應鏈具有中等環保溢價收益的環境下，演化博弈的穩定策略為0（0，0）。政府因為監管成本較高而寧愿放棄對不進行環保投資的渠道采取監管和懲罰的策略;而政府不采取監管措施，采取環保投資策略的供應鏈就無法獲得政府的獎勵，不采取環保投資的閉環供應鏈也不用擔心政府的懲罰，同時考慮采取環保投資不能獲得正向環保溢價收益，所謂獨立經濟行為人的供應鏈將最終選擇不采取環保投資策略。

2.6Pg，E>0。政府對不采取環保投資的閉環供應鏈罰款要低于政府監管成本，渠道環保溢價收益能夠產生正向收益，即高政府監管支付與高環保溢價收益環境。此時，演化博弈動態方程存在4個均衡點：O（0，0），A（1，0），B（O，1），C（1，1），對這4個均衡點進行穩定性分析如表7所示。

從表7可以看出，在政府監管成本較高而閉環供應鏈環保溢價收益高的前提下，演化穩定策略為B（0，1）。此種情形下，由于采取環保投資可以實現正向的環保溢價收益，不論政府是否進行補貼，閉環供應鏈都會自發地選擇環保投資策略，在提高供應鏈收益的同時也能降低渠道運營對環境的危害;初始狀態下政府基于促進環保回收和綠色發展的觀念而采取一定比率的監管，但是因為監管成本較高而懲罰力度較低，以及不論政府是否采取監管措施時供應鏈都會采取環保投資策略，政府最終只會采取不監管的策略。

3數值仿真分析

下面運用Matlab軟件進行數值仿真，一方面證實上述6種環境下的均衡點分析結論，另一方面分析政府監管和閉環供應鏈進行環保投資比例初始值向均衡點演化的軌跡。a和β的初始值分別取[0.1，0.9]、[0.3，0.7][0.5，0.5][0.7，0.3][0.9，0.1]，這5種初始值下的實驗分別命名為Z₁-Z₅，時間周期為[O，100]，每種實驗場景中均相同的參數P、A、R、h、H分別設置為3、4、20、5和8，其他實驗參數標注于仿真演化圖形下方，其中仿真演化圖中橫軸和縱軸分別代表政府選擇監管策略比例α和閉環供應鏈選擇環保投資策略比例β。

圖1顯示在低政府監管支付與低環保溢價收益環境下[α，β]不同初始值向最終的演化穩定策略A（1，0）的演化路徑，其中：當初始值盧較大時，如Z₁～Z₄，先迅速降低β值，直至β值降至0，在此期間，α值甚至有少許的降低，然后再不斷增加α值，使得α值增加到1，從而達到穩定均衡點A（1，0）;當初始值β較小時，如Z₅，也是先迅速降低β值，在此同時α值也會逐步增加，然后α值快速增加到1，從而達到穩定均衡點A（1，0）。在實驗的5種初始策略組合下，開始有一定的閉環供應鏈采取環保投資策略，但是由于環保投資的溢價收益要明顯低于不進行環保投資的收益，閉環供應鏈寧愿放棄政府給予的獎勵并且冒著被懲罰的風險而迅速選擇不進行環保投資策略，而當閉環供應鏈群體采取環保投資策略的比例低于10%左右時，激發了政府迅速加大監管力度，直至全面監管。

圖2顯示在低政府監管支付以及閉環供應鏈具有中等環保溢價收益環境下整個系統不存在演化穩定策略，根據前述演化均衡分析可知系統最終只得到中心點D，即最終兩個群體將采取混合策略（0.57，0.14），說明這種環境下博弈雙方策略選擇具有相互依賴性，并呈現為一種周期行為模式。兩群體策略比例不同初始值[α，β]下的動態演化路徑為：當β高于0.14時，α值朝著0的方向演化;當β低于0.14時，α值朝著1的方向演化;當α高于0.57時，β值朝著1的方向演化;當α低于0.57時，β值朝著0的方向演化。這種情形表示現實經濟環境中，當閉環供應鏈采取環保投資策略的比例β較高時，則政府將逐步降低監管策略實施的比例，而當該比例β低于0.14時政府則逐步提高監管策略實施的比例;當政府采取監管策略的比例α較高時，則閉環供應鏈采取環保投資策略的比例將增加，而當該比例α低于0.57時閉環供應鏈選擇環保投資策略的積極性將降低。

圖3顯示在低政府監管支付與高環保溢價收益環境下[α，β]不同初始值向最終的演化穩定策略β（0，1）的演化路徑，其中：當初始值β較小時，如Z₄和Z₅，先迅速提高β值，然后在提升β的同時降低α值，從而達到穩定均衡點β（0，1）;當初始值β較大時，如Z₁～Z₃，β值提升的同時降低α值，從而達到穩定均衡點β（0，1）。在實驗的5種初始策略組合下，開始閉環供應鏈群體有一定比例不采取環保投資策略，但是由于環保投資的溢價收益要明顯高于不進行環保投資的收益，在利益驅動下，閉環供應鏈群體會迅速選擇環保投資策略，從而促使政府選擇不監管策略以節約監管和獎勵成本，達到“無為而治”的系統狀態。

圖4顯示在高政府監管支付與低環保溢價收益環境下[α，β]不同初始值向最終的演化穩定策略0（0，0）的演化路徑，其中：當初始值β較大時，如Z₁，先共同降低α和盧值，然后迅速降低β值，然后α和β值共同降低至0，從而達到穩定均衡點O（0，0）;當初始值β較小時，如Z₂-Z₅，先共同降低α和β值，直至β值降至0，然后再降低α，從而在達到穩定均衡點O（0，0）。在實驗的5種初始策略組合下，開始政府群體有一定比例采取監管策略，但是由于監管費用過高，則逐步選擇不采取監管策略，寧愿選擇“污染后再治理”策略，這樣則引導閉環供應鏈選擇不進行環保投資策略，以獲得較高的收益。

圖5顯示在高政府監管支付與中環保溢價收益環境下[α，β]不同初始值向最終的演化穩定策略0（0，0）的演化路徑，其中：當初始值α較大時，如Z₄-Z₅，，起初在快速降低α的同時，β值有一定的增加，但是當α降低到一定程度時，β值也開始快速降低，從而達到穩定均衡點O（0，0）;當初始值α較小時，如Z₁～Z₂，先共同降低α和盧值，α降低到一定程度時β值開始快速降低，從而達到穩定均衡點O（0，0）。該種情形下的演化結果同圖4，只是演化過程中閉環供應鏈的中間演化過程稍有不同。

圖6顯示在高政府監管支付與高環保溢價收益環境下（α，β）不同初始值向最終的演化穩定策略B（0，1）的演化路徑，其中：當初始值α較大時，如Z₅，起初在快速提高盧的同時α值有一定的降低，但是當β值增加到一定程度時，α值開始快速降低，從而達到穩定均衡點B（0，1）;當初始值α較小時，如Z₁～Z₄，α值在降低的同時β值增加，直至達到穩定均衡點B（0，1）。該種情形下的演化結果同圖3，最后都得到閉環供應鏈采取環保投資策略而政府采取不監管的策略。

4結論與建議

本文利用演化博弈方法研究政府監管與閉環供應鏈環保投資策略選擇和演進規律，給出了政策設計和企業決策的參考方法。主要結論和建議如下：

（1）從政府角度看，當監管支付較高時，不論閉環供應鏈是否采取環保投資策略，政府最終都將采取不監管策略。此種情況下，政府如果希望能夠對閉環供應鏈的綠色運營發揮一定的監管和引導作用，則需要采取措施降低監管過程所耗費的人力、信息收集、監管檢測等方面的成本，或者提高對不采取環保投資渠道的懲罰額度。

（2）從閉環供應鏈來看，當采取環保投資策略能夠獲得較高的環保溢價收益時，不論政府是否選擇監管策略，閉環供應鏈最終都會采取環保投資策略。但是也要注意，由于閉環供應鏈之間的彼此競爭性，采取環保投資策略的閉環供應鏈所獲得的效益不一定優于不采取回收投資策略的供應鏈，這將影響閉環供應鏈采取環保投資的內在驅動力。此種情況下，政府可以積極調研和公布不同閉環供應鏈運作成本和收益數據，引導閉環供應鏈積極采取環保投資策略，而最后政府可以完全不用對閉環供應鏈進行監管，將監管職能轉變為行業研究與指導。

（3）當環保投資策略不能獲得高環保溢價收益時，閉環供應鏈沒有采取環保投資的積極性，或者不采取環保投資，或者根據政府監管的嚴厲程度動態調整環保投資。此種情況下，要想閉環供應鏈能夠積極采取環保投資策略，從而提高廢舊產品回收再利用效率或降低廢舊產品回收處理的環境污染水平，則需要通過激勵相關研發創新活動，以提高環保處理系統軟硬件技術水平及其市場應用規模，從而降低其導人成本，或者通過市場引導和綠色意識宣傳使得采用環保系統后的閉環供應鏈回收規模效應遠高于不采用環保系統的閉環供應鏈，達成高環保溢價收益。

（4）政府與閉環供應鏈策略博弈的短期演化規律同兩類群體初始策略比例具有較強的關聯性，而長期的演化穩定策略則同兩類群體支付參數具有較強的關聯性。因此，在動態的市場環境中，如果希望達成短期市場效應，政府部門間可以通過協同運作調控短期的監管力度來引導閉環供應鏈群體策略行為;而希望系統達成長期的、環保的穩定狀態，則需要政府監管運作成本、監管政策以及供應鏈環保投資技術和收益等一系列因素的協同提升。

物流科技2019年9期

物流科技的其它文章: 基于校企雙導師制的物流工程碩士實踐創新能力提升策略研究; 基于“e享校園”移動平臺的SC教育教學改革; 物流管理專業跟崗實習合作企業篩選及實習管理對策研究; 基于遺傳算法的密集型自動化立體倉庫貨位分配優化研究; 互聯網供應鏈金融風險管理發展趨勢研究; 我國農產品供應鏈模式研究