復雜網絡聯合生產演化博弈中的歷史記憶作用

2021-03-08 01:52:34吳鳳燕劉歌群顧冬晴劉曉坤

電子科技 2021年3期

吳鳳燕，劉歌群，陶峰，顧冬晴，劉曉坤，張偉

(1.上海理工大學光電信息與計算機工程學院，上海 200093;2.上海理工大學，上海 200093；3.上海空間機器人工程技術研究中心，上海 201109;4.上海宇航系統工程研究所，上海 201109)

在自然界和人類社會中始終存在著合作行為，例如在電子生產行業中，一個合格的電子產品通常需要多個主體分工合作才能完成。這種電子企業間的聯合生產行為引起了很多研究者的關注，演化博弈理論由此開始蓬勃發展[1]。文獻[2]把二維格子網絡與囚徒困境博弈相結合，建立了網絡演化博弈的研究范式，并發現了網絡結構上群體之間的互惠行為。越來越多的研究聚焦于網絡結構的影響[3]和促進合作的有效機制[4-12]。在諸多機制中，不乏可有效促進合作的機制，例如志愿者機制[4]、網絡互惠機制[5]和遷移機制[6-7]等。其中，歷史記憶機制[13-15]成為近幾年研究的熱點。文獻[13]把過往一定記憶長度內的最優策略保存下來，根據合作策略的占比對新一輪的策略進行更新。文獻[14]通過對兩個記憶長度內的收益進行加權，研究了弱囚徒困境在不同網絡上的演化博弈，發現按照歷史記憶進行策略更新的人數比例與群體合作水平呈正相關。以上研究揭示了歷史記憶機制對于網絡演化博弈合作涌現的促進作用，具有重要的理論價值。但是這些結論針對弱囚徒困境和雪堆博弈給出，有一定的限制性，當博弈模型改變后是否依然適用仍需要進一步研究。

在電子生產行業中，電子企業間在聯合生產的同時還會出現偷工減料、以次充好或捏造數據等背叛行為。以次充好的產品、豆腐渣工程以及偽造的業績等等均是這種背叛現象的例證。因此，在聯合生產博弈中研究這種具有非完全合作性質的背叛行為具有時代意義。文獻[16]提出了一種全新的博弈模型，即聯合生產博弈模型。本文基于該模型，引入記憶因子u并運用蒙特卡羅仿真方法，分析了合作頻率的提升與記憶權重取值的相關性以及網絡機制對合作涌現的影響。

1 模型與方法

1.1 聯合生產博弈模型

文獻[16]中提出的聯合生產博弈模型描述了生產領域追求高回報率的非完全合作現象，該模型基于生產任務定義了必要成本c(0≤c≤1)盈利成本1-c(總成本歸一化為1)，以及利潤系數k。每個博弈方各有兩種策略，合作(Cooperation，C)時按成本1進行生產，背叛(Defection，D)時偷工減料按必要成本c進行生產。

當k≥1時，按收益來說，(C，C)組合是納什均衡。但是(D，C)組合中背叛方的回報率(利潤除以出資額)有可能更高，成為背叛的誘惑來源。因此按照回報率分析雙方得失，可使策略選擇具有博弈模型應有的“困境”特征。回報率矩陣如下

(1)

1.2 網絡演化博弈仿真方法

假設網絡有N個節點，節點之間以邊相連，構成具有某種特征的網絡拓撲結構。每個個體(節點)的初始策略隨機獲得

Sx=(1，0)T與Sx=(0，1)T

(2)

分別表示x的當前策略為“合作”與“背叛”。

在每一輪的博弈中(每個蒙特卡羅步)，每個個體x與自己的所有一階鄰居逐一博弈，求平均之后得到本輪回報率

(3)

其中，Mr是回報率矩陣，見式(1)；Nx是節點x的一階鄰居集合，nx是節點x的度，nx=|Nx|。之所以對nx次博弈的回報率求平均，是因為聯合生產博弈模型利用回報率而不是收益來衡量個體的得失。每一輪博弈中，同一節點的策略相同，出資也相同，整輪回報率是與所有鄰居博弈回報率的平均。

一輪博弈結束后，所有個體對自己的策略進行更新。在下一個蒙特卡羅步，個體利用新策略按照鄰居關系再次進行兩兩博弈。然后再更新、再博弈，如此不斷迭代循環。本文把采取合作策略的節點數量占整個網絡節點數量的比例定義為合作頻率Fc。隨著仿真的進行，合作頻率將不斷變化，可用于分析網絡結構、博弈模型參數及更新規則參數對合作涌現的影響。

為了保證統計結果的可信性，每一組參數進行50次獨立仿真，仿真步長設為10 000步。合作頻率在保持穩定的最后500蒙特卡羅步取均值，然后對50次仿真求平均。

1.3 更新規則

本文把記憶長度設定為2，參照文獻[7]，利用記憶因子u(0≤u≤1)對個體上一輪和本輪的回報率進行加權。定義個體的適應度Qx(t)如下

(4)

其中，t為蒙特卡羅步數；Px(t)表示個體x在t時刻的整輪回報率；Qx(t)表示個體x在t時刻的適應度。記憶因子u反映適應度對上一輪回報率的權重，u越大表示對歷史記憶的依賴性越強。此處定義的適應度與文獻[7]不同，文獻[7]是對t和t-1時刻的一輪收益進行加權，而本文是對t和t-1時刻的一輪回報率進行加權。與收益相比，回報率會削弱節點異質性對合作涌現的影響。

個體的策略更新采用費米規則[18]，每個節點x隨機選擇一個鄰居y，然后以適應度之差Qx(t)-Qy(t)為依據按照概率對該鄰居進行模仿

(5)

其中，W(Sy→Sx)為x模仿y的策略Sy的概率；κ表示環境的噪聲因素，描述個體的非理性程度。為將研究重點集中于博弈模型參數和記憶作用對合作涌現的影響，本文將κ設置為固定值0.1。

要求思想政治課教師結合教學內容，每次課實施“時事開講5分鐘”。既增強教學內容的新穎性，又能把理論知識和社會現實結合起來，同時增強思想政治課教師對黨和國家政策的了解和理解。

2 仿真結果及討論

2.1 BA網絡上記憶作用對合作涌現的影響

生成節點數N=1 000的BA網絡(n0=3，m=3)。先把固定成本設為c=0.5，考察記憶因子u為0.1～0.9時合作頻率Fc隨利潤系數k的變化規律，仿真結果見圖1(a)。

(a)

(b)

由圖1(a)可見，Fc隨著k單調上升是聯合生產模型BA網絡演化博弈的一項基本規律[17]。在施加記憶作用之后，對于同樣的k值，記憶因子u越大合作頻率Fc越高。此外，隨著記憶因子u的引入并逐漸增大，網絡上出現固定比例合作者的k閾值逐漸變小。這兩個現象均表明，歷史記憶作用促進了BA網絡上的合作。

將固定成本增大為c=0.6，進行與圖1(a)同樣的仿真，得到Fc-k曲線如圖1(b)所示。當固定成本增大時，聯合生產博弈模型的背叛占優屬性減弱，個體更傾向于選擇合作策略[17]。因此與圖1(a)相比，c=0.6時，同樣的利潤系數k和同樣的記憶因子u對應的合作頻率Fc更高，而且網絡上出現固定比例合作者的k閾值更小。此現象再次印證了歷史記憶對合作的促進作用，并同時表明該促進作用不受固定成本的影響。此外，圖1(b)還表明了足夠大的固定成本c和記憶因子u可能使得所有個體選擇合作。

2.2 記憶作用下固定成本對合作涌現的影響

在上文所生成的BA網絡上，將記憶因子設為u=0.5，考察固定成本c為0.4～0.9時合作頻率Fc隨利潤系數k的變化規律，仿真結果如圖2(a)所示。

(a)

(b)

由圖2(a)可見，Fc-k單調曲線隨著固定成本c的增大而不斷抬高，出現穩定比例合作者的k閾值不斷變小。此現象表明高比例的固定成本c會誘發高比例的群體合作，同時會降低出現穩定比例合作者的利潤系數閾值。此趨勢與固定成本對博弈模型“合作/背叛占優屬性”的影響規律一致，說明在記憶作用下該影響規律沒有改變。

將記憶因子增大到u=0.7，繼續考察固定成本c為0.4～0.9時的Fc-k規律，仿真結果見圖2(b)。圖2(b)保持了圖2(a)的基本規律，而與同一個c值對應的Fc-k曲線抬得更高，出現穩定比例合作者及群體全部成為合作者對應的k閾值更小。此現象表明，對于0.4～0.9范圍內的c值，記憶作用始終對群體合作有利，且記憶因子越大合作頻率越高、群體合作所需要的利潤系數閾值越低。

2.3 記憶作用對合作頻率演化過程的影響

圖3給出了利潤系數k=2.2，固定成本分別為c=0.5和c=0.6時，不同記憶因子對應的合作頻率演化曲線。

(a)

由圖3可見，記憶因子較小(u=0.1)時，演化曲線與無記憶情況相似。合作頻率先從Fc=0.5的初始值開始，由于博弈模型的背叛占優性質，合作頻率下降。隨著博弈迭代不斷進行，網絡互惠機制使得合作頻率停止下降并回升穩定在與(c，k)值對應的合作頻率值上。記憶作用的存在使合作頻率穩定值更高，且兩者呈正相關，充分說明了記憶作用能夠促進群體合作。

2.4 記憶作用下固定成本對合作頻率演化過程的影響

(a)

由圖4(a)可見，隨著固定成本c的不斷增加，合作頻率大幅升高，甚至在c>0.7后，動態穩定下的合作頻率達到了1。此現象表明高比例的固定成本會誘發高比例的群體合作，這與上文的結論保持一致。

將記憶因子增大到u=0.7，繼續考察固定成本c為0.3～0.9時的合作頻率演化過程，仿真結果如圖4(b)所示。圖4(b)保持了圖4(a)的基本規律，同一個c值對應的演化穩定曲線抬得更高，出現穩定比例合作者及群體全部成為合作者的時間更短。此現象表明，對于0.3～0.9范圍內的c值，記憶作用始終對群體合作有利，且記憶因子越大合作頻率越高，群體出現穩定比例合作者所需要的演化時間越少。

2.5 不同網絡上記憶對合作涌現影響作用的比較

本文進一步考察了歷史記憶在其他網絡模型中對合作涌現的影響作用。生成N=200，p=0.02的ER隨機網絡和N=225二維格子網絡(Lattice Network，LA)，把固定成本設為c=0.5，考察記憶因子u為0.1～0.9時合作頻率Fc隨利潤系數k的變化規律，仿真結果如圖5所示。

(a)

由圖5可見，在ER隨機網絡和格子網絡上，歷史記憶對合作涌現的影響作用與在BA網絡上相同，都能促進群體合作，提升合作頻率，降低出現穩定比例合作者的利潤系數閾值，降低群體全部成為合作者的利潤系數閾值，且合作水平的提升與記憶因子取值正相關。此現象說明了歷史記憶對聯合生產演化博弈合作水平的促進作用，且對于不同的網絡模型具有普遍性。比較圖5的兩個子圖可知，在相同的參數下，ER隨機網絡上的聯合生產博弈合作水平更高、出現固定比例合作者及群體全部成為合作者對應的k閾值更小。

2.6 記憶作用下網絡機制對合作涌現的影響

設置固定成本c=0.6，記憶參數u=0.7，對比在3種不同網絡拓撲結構下，合作頻率Fc隨利潤系數k的變化規律，仿真結果如圖6所示。

圖6 3種網絡中合作頻率Fc與利潤系數k的關系

從圖6可以看出，當k<1.5時，ER隨機網絡中的合作頻率Fc高于LA和BA無標度網絡；而當k>1.5時，LA中的合作頻率Fc要高于ER隨機網絡和BA無標度網絡。此現象表明，利潤系數k較小時，由于模型的背叛占優屬性，網絡拓撲結構的隨機性越大，出現固定比例合作者的利潤系數閾值越小。隨著利潤系數k的不斷增大，越規則的網絡拓撲結構，受歷史記憶的影響越大，更容易產生合作團簇，防止背叛入侵，合作頻率也越高。此外，在利潤系數k=1.5處，3種網絡拓撲結構下的合作頻率相等。此現象表明，固定成本和記憶因子在某些特定值時，可以找到某個利潤系數值使得3種網絡機制對合作涌現產生相同的影響。

3 結束語

本文基于聯合生產博弈模型，引入記憶因子對最近兩輪回報率進行加權，作為策略更新的依據，并采用費米動力學進行策略更新。通過蒙特卡羅仿真，研究了策略更新環節的歷史記憶對聯合生產演化博弈的影響。研究發現，記憶長度設定為2的歷史記憶能夠有效促進合作、降低群體合作對利潤系數的門檻要求。通過合作的動態演化，證實了合作頻率的提升與記憶權重取值正相關。研究還發現，歷史記憶對于聯合生產演化博弈合作水平的促進作用，在BA網絡、ER隨機網絡和格子網絡上具有普適性。本文的研究結果為電子生產行業的競爭與博弈現象提供了參考。