空間博弈中基于信號傳遞的合作行為演化仿真

2021-11-17 04:31:40周建新劉明華沈小偉吳金秀

計算機仿真 2021年2期

周建新，劉明華，沈小偉，吳金秀

(1. 華北理工大學電氣工程學院，河北唐山 063210；2. 華北理工大學以升創新教育基地，河北唐山 063210)

1 引言

生命起源于合作，合作行為在自然界和人類文明社會中十分普遍，是自然界和人類社會得以演化的重要基礎，如蟻群和蜂群中分工合作是種群繁衍生息的保證，人類相互合作形成社會結構以維持社會正常發展等。如何形成和維持合作行為，是當前經濟學、生態學、社會學、政治學及信息科學研究的重要問題。然而，現實中的合作往往并不容易達成，“搭便車”、公共資源過度使用等行為隨處可見，使合作陷入困境[1]。

關于合作行為的達成，諸多領域的學者提出了許多方法和機制。其中，Martin A·Nowak總結了生物之間“合作”得以達成的五種機制[2]：親緣選擇[3]、直接互惠[4]、間接互惠[5]、空間互惠[6]以及群體選擇[7]。而空間互惠作為一種促進合作的機制，引起了眾多學者的廣泛關注。不同的空間結構對合作行為的演化有不同的影響，如張建磊等人研究了隨機規則網絡中合作行為的演化，指定部分個體的策略，研究表明在隨機規則網絡中只要指定足夠多的個體策略就能使其占據主導地位[8]。Feng Shu等人研究了二維網格中雪堆博弈的演化機制，引入記憶機制，研究表明在二維網格中隨著記憶能力的增強，合作水平明顯提高[9]。在空間互惠的基礎上，多種提高合作水平的機制被提出，如移動性、信譽、懲罰、噪聲和寬容等。Vainstein將移動性引入合作行為的研究中，研究表明合作者可以通過移動逃避背叛者而形成合作者團簇來抵抗背叛者的入侵，合作水平明顯提高[10]。廖列法和孫瑋等人研究了噪聲對個體行為的影響，研究表明適度的噪聲值能夠促進合作行為的涌現[11]。Shuhua Zhang等人研究了空間公共物品博弈中寬容的懲罰對合作演化的影響，研究表明寬容的懲罰通過加強空間互惠促進了合作[12]。

除上述機制外，近年來信號傳遞對合作的促進作用也得到了各領域研究學者的關注。信號傳遞是傳統信息經濟學研究的主要內容，信號包括方言、膚色以及著裝等各種可識別的標簽，向對方傳達某種信息，對個體決策有較強的影響。如Emma Cohen等人研究了以口音為標簽的個體行為演化，通過口音的識別將合作者進行分類，研究表明口音的識別促進了合作[13]。Francisco C. Santos等人研究了有限種群中預博弈信號及其數量對合作演化的影響，研究表明預博弈信號促進了合作行為的產生，并且預博弈信號數量的增加使得合作者避免被背叛者欺騙，提高了合作水平[14]。L Spector等人研究了遺傳穩定性和環形網絡結構對基于標簽的利他主義的影響，研究表明遺傳穩定性和環形結構在較大范圍內促進了利他主義的產生及發展[15]。

空間結構和信號都會對合作行為產生重要影響。然而，關于空間結構中信號是否影響合作行為的演化，目前仍然缺乏這方面的研究，此外也缺乏信號如何影響合作行為演化的機制分析。本文將對二維空間網格中信號傳遞對合作行為演化的影響進行研究，建立基于信號傳遞的合作行為演化模型，對演化過程進行仿真，從合作水平、策略分布和演化機制等三個方面進行分析。與無信號情況進行對比，研究信號對個體行為演化的影響。

2 模型構建

2.1 博弈模型

囚徒博弈是現有研究合作問題最為廣泛的模型之一，其博弈過程中個體兩兩交互，個體在合作和背叛這兩種行為中進行選擇。如果雙方都選擇合作，則都獲得報酬R；如果雙方都選擇背叛，則都獲得懲罰P；如果一個個體選擇背叛，另一個個體選擇合作，則合作者獲得收益S，而背叛者獲得收益T[16]。如圖1為囚徒博弈收益矩陣，其中參數滿足：T>R>P>S且2R>T+S。Martin A. Nowak和Robert M. May于文獻[17]中提出了簡化的囚徒博弈模型，即T=b>1，R=1，P=0，S=0。該模型中的參數只有b，便于分析，被廣泛采用，因此本文中囚徒博弈參數的設置與其保持一致。

圖1 囚徒博弈收益矩陣

2.2 個體分類

當演化博弈過程中沒有信號時，個體采取純合作策略或純背叛策略。而當演化過程中存在信號時，個體根據對方發出的信號進行決策。本文中信號分為信號0和信號1兩種，只作為表示符號，沒有特殊意義。文中將策略定義為一個2維向量，其中第1維表示收到信號0時個體采取的行動，第2維表示收到信號1時個體采取的行動，即[收到信號0采取的行動，收到信號1采取的行動]。根據策略和信號的不同將個體分為利他者、排外者、諂媚者和背叛者，如表1所示，其中合作行為用C表示，背叛行為用D表示。

表1 個體分類

2.3 策略更新規則

Fermi函數被諸多學者廣泛采用作為策略更新規則，其特點是個體能夠依概率調整自己的策略，既有可能保持策略不變，又有可能學習對方的策略。Fermi函數的具體機制如下。

博弈個體i隨機選擇一個鄰居j，個體i依如下概率調整自己的策略

(1)

其中，P(si←sj)為個體i選擇學習個體j的策略的相對概率，wi和wj分別為個體i和個體j的收益，K為選擇強度，0≤K<+∞。K值描述了策略選取過程中的理性程度，K→0表示個體選擇完全理性，K→+∞表示個體選擇完全隨機[18]。根據最大收益與最小收益之差，文中選擇K=0.1。個體若選擇學習對方，則學習對方的信號及其策略，否則保持信號及策略不變。

2.4 數據特征的構造

當演化過程中不存在信號時，合作水平定義為合作者數目與個體總數的比值，即

(2)

其中，ρ1代表無信號合作水平，nc代表合作者數目，N為個體總數。

當演化過程中存在信號時，個體合作程度定義為個體對其所有鄰居采取合作行為的數目與其鄰居總數的比值，即

(3)

其中，xi代表個體i對其鄰居采取合作行為的數目，n為個體i周圍鄰居數目，該模型采用von Neumann鄰居，n=4。總體合作水平定義為個體的合作程度之和與個體總數的比值，即

(4)

其中，ρ2代表有信號合作水平，ci代表個體i的合作程度，N為個體總數。

2.5 演化流程

該空間博弈的動態演化過程如圖2所示，具體步驟如下。

step1：初始化一個100*100的二維網格，格子中放置個體，個體隨機選擇利他者、排外者、諂媚者和背叛者四種策略之一和兩種信號之一；

step2：每個個體同它所有的von Neumann鄰居進行囚徒博弈并計算收益；

step3：根據Fermi函數進行策略更新；

step4：重復step2～step3，直至系統滿足停止條件為止。

圖2 演化博弈流程

3 仿真結果及分析

本文利用Repast仿真軟件[19-20]對二維網格中存在信號傳遞的囚徒博弈演化過程進行建模和仿真，每組參數運行2000步，分別從合作水平、策略分布和演化機制三個方面對結果進行分析。

3.1 合作水平

圖3為無信號和有信號條件下的合作水平隨時間的變化(對數坐標)。當演化過程中無信號時，個體采取純合作策略或純背叛策略。如圖3(a)所示，在無信號博弈模型中，合作水平隨著時間的推進不斷下降，后期合作水平為0，種群演化到完全背叛狀態。并且隨著b值的逐漸增大，演化過程中合作水平不斷降低，背叛者入侵合作者的速度越來越快。當演化過程中有信號時，個體根據對方發出的信號采取行動。如圖3(b)所示，在有信號博弈模型中，初期由于采取合作行為的個體未能形成團簇而受到背叛者的入侵，合作水平下降，而后隨著時間的推移，合作水平不斷上升。與無信號博弈相比，有信號博弈中合作水平明顯提高。

圖3 合作水平的演化

圖4為有信號條件下合作水平隨b值的變化，其中不同b值對應合作水平取值為演化過程后500步的平均值。當b<1.4時，合作水平較高，能夠達到80%。而當b>1.4時，合作水平急劇下降。因此有信號條件下個體平均合作水平隨著b值的增大而降低。

圖4 有信號合作水平隨b值的變化

3.2 策略分布

圖5為有信號條件下b=1.4和b=1.6時利他者、排外者、諂媚者和背叛者的分布情況(對數坐標)。如圖5(a)所示，當b=1.4時，利他者和諂媚者在演化初期迅速消失，背叛者有小幅度的增加，而后背叛者減少，排外者增多，隨著時間的推移排外者不斷增加，遠遠多于背叛者，呈現出共存現象。如圖5(b)所示，當b=1.6時，利他者和諂媚者在演化初期迅速消失，與b=1.4情況相同。但是隨著b值的增大，演化過程中背叛者增多，與排外者交替變化。在有信號條件下，排外者和背叛者能夠共存，并且背叛者隨著b值的增大而增多。

圖5 四種策略隨時間的變化

3.3 演化機制

圖6為有信號條件下b=1.4和b=1.6時演化過程的截圖，分別對應時刻t=1，10，100，200，500，1000，1500和2000，黑色代表合作水平為1，白色代表合作水平為0，灰色代表由式(3)計算得到的介于0-1之間的合作水平，圓形代表發出信號0的個體，方形代表發出信號1的個體。

從圖6可以看到，發出同種信號的排外者聚集形成團簇，與其信號相同的背叛者則徘徊在團簇邊緣，并且由于排外者只依據信號決定是否合作，導致處于邊緣的背叛者可以逐漸入侵團簇，從而使得發出該類信號的排外者逐漸減少，背叛者逐漸增多，團簇隨著背叛者的不斷入侵而瓦解，此時整個團簇表現為同類個體之間的競爭，且背叛者占優，整體合作水平呈下降趨勢。但背叛者的增長并不是無限制的，隨著背叛者逐漸增多而聚集成群，處于群體邊緣的背叛者又會被發出另一種信號的排外者入侵，使得發出此種信號的個體的總數逐漸減少，而發出另一種信號的個體的總數逐漸增加，此時整個系統表現為發出兩種不同信號的個體組成的群體之間的競爭，即群體選擇模式。而后在群體選擇中處于優勢的群體又會被本群中的背叛者入侵，開始新的循環。在圖7中，可以更清晰的看到，發出不同信號的群體表現出動態的周期變化，群體數目呈現出此消彼長的形勢。無論是b=1.4，還是b=1.6時系統都表現為這樣的模式。區別只在于當b=1.6時系統形成的團簇更小，背叛者的總數更多，而每個循環的平均時間更短。

圖6 演化截圖

圖7 發出不同信號個體的比例隨時間的變化

4 結語

信號傳遞為研究個體合作行為的演化提供了新的思路。本文利用Repast仿真環境構建了有信號傳遞的合作行為演化模型，并進行仿真分析。仿真結果表明，與無信號情況相比，合作水平有顯著提高。通過研究信號傳遞對個體行為的影響，能夠清楚地分析出不同b值條件下的策略分布，發出相同信號的個體聚集成群，發出不同信號的個體相互制約的特征。進一步的研究可嘗試將信號傳遞推廣到其它空間結構上，如隨機網絡、小世界網絡、無標度網絡等，預計其對合作行為的演化會有不同的影響。