P2P信任系統(tǒng)中基于重復(fù)博弈的懲罰機(jī)制研究

2017-07-10 10:27:26楊先偉戰(zhàn)學(xué)秋

計(jì)算機(jī)應(yīng)用與軟件 2017年6期

關(guān)鍵詞：懲罰機(jī)制模型

楊先偉戰(zhàn)學(xué)秋

(無錫職業(yè)技術(shù)學(xué)院江蘇無錫 214121)

P2P信任系統(tǒng)中基于重復(fù)博弈的懲罰機(jī)制研究

楊先偉戰(zhàn)學(xué)秋

(無錫職業(yè)技術(shù)學(xué)院江蘇無錫 214121)

P2P網(wǎng)絡(luò)是一種動(dòng)態(tài)的、自組織的、分布式的開放網(wǎng)絡(luò)環(huán)境，信任問題在P2P系統(tǒng)中扮演了越來越關(guān)鍵的角色，而懲罰機(jī)制的設(shè)計(jì)又是P2P信任問題的關(guān)鍵所在。設(shè)計(jì)了一種基于重復(fù)博弈的懲罰模型，創(chuàng)新點(diǎn)在于：在博弈論的分析框架之下，引入了基于信任度的懲罰策略并創(chuàng)造性地設(shè)計(jì)了懲罰度轉(zhuǎn)換函數(shù)，使得在單次博弈中無法實(shí)現(xiàn)的信任和合作在重復(fù)博弈中得以實(shí)現(xiàn)。該懲罰機(jī)制具有良好的威懾性、容錯(cuò)性、主觀性和區(qū)分性，并通過模擬實(shí)驗(yàn)證明了其可行性和有效性。

懲罰機(jī)制 P2P 信任博弈論重復(fù)博弈信任度

0 引言

P2P網(wǎng)絡(luò)的目標(biāo)是充分利用網(wǎng)絡(luò)環(huán)境中的資源，進(jìn)行大規(guī)模協(xié)同計(jì)算或資源共享。它具備如下特征：① 動(dòng)態(tài)。節(jié)點(diǎn)自主加入，自主退出，自主與其他節(jié)點(diǎn)進(jìn)行互動(dòng)，隨時(shí)隨地處于變化之中。② 分布式。無論是物理位置還是邏輯位置，節(jié)點(diǎn)都是分散性的，而且具有匿名性，身份也常常趨于隨意。③不可靠性。節(jié)點(diǎn)提供的服務(wù)或計(jì)算能力，本質(zhì)上是一種無約束的行為，無需承擔(dān)責(zé)任。P2P服務(wù)為互聯(lián)網(wǎng)的多元化應(yīng)用注入了無限的活力，但活力是一柄雙刃劍，它同時(shí)也造成了節(jié)點(diǎn)之間缺乏足夠的信任關(guān)系，產(chǎn)生了諸多的不確定因素，可能影響到系統(tǒng)安全，比如搭便車、聯(lián)合欺騙、隨意終止服務(wù)等，這嚴(yán)重影響了系統(tǒng)的整體效率。在這樣的環(huán)境中，緊緊依靠道德因素來約束節(jié)點(diǎn)是不現(xiàn)實(shí)的，而傳統(tǒng)安全手段在多變且匿名的環(huán)境里也有很大的缺陷性。因此，建立有效的分布式信任管理機(jī)制迫在眉睫。

近來，博弈論的思想提供了一種構(gòu)建信任管理機(jī)制的全新思路[2]，其基本原理是承認(rèn)信任問題的本質(zhì)是一個(gè)囚徒困境博弈，并通過策略的設(shè)計(jì)，使在一次性博弈中無法實(shí)現(xiàn)的信任和合作的結(jié)果，在重復(fù)博弈有可能出現(xiàn)，從而可以實(shí)現(xiàn)具有帕累托效率的合作均衡結(jié)果。研究此類模型的關(guān)鍵問題是懲罰策略的設(shè)計(jì)。我們認(rèn)為，P2P環(huán)境中一個(gè)好的懲罰策略要達(dá)到威懾性、容錯(cuò)性、主觀性、區(qū)分性等幾個(gè)特點(diǎn)。威懾性使得合作或信任成為節(jié)點(diǎn)的最優(yōu)選擇，容錯(cuò)性使得懲罰機(jī)制能容忍偶爾的犯錯(cuò)，主觀性是對(duì)同樣的犯錯(cuò)行為，不同的節(jié)點(diǎn)根據(jù)自己的安全性給予不同的懲罰，區(qū)分性是指要區(qū)別對(duì)待偶爾犯錯(cuò)的節(jié)點(diǎn)和常常犯錯(cuò)的節(jié)點(diǎn)，給予后者更重的懲罰。

目前，分布式環(huán)境下對(duì)不合作節(jié)點(diǎn)懲罰機(jī)制的研究已經(jīng)取得了若干進(jìn)展，研究者們從不同的角度，提出了各種不同的懲罰機(jī)制，主要包括：

冷酷戰(zhàn)略。即在授信方在受信方犯錯(cuò)一次之后，給予無限期的懲罰，在之后的每一期博弈中都選擇“不合作”。冷酷戰(zhàn)略的容錯(cuò)性很差，它不允許節(jié)點(diǎn)犯任何錯(cuò)誤，顯然在實(shí)際情況中這是不可行的。

針鋒相對(duì)戰(zhàn)略。即授信方在t階段選擇受信方在t-1階段的戰(zhàn)略，“你合作我就合作，你不合作我就不合作”，這種戰(zhàn)略具有較好的容錯(cuò)性，但是由于它的懲罰期只有1期，所以并不具有良好的威懾性，也不具有主觀性和區(qū)分性。

文獻(xiàn)[3]引進(jìn)了信任的不確定計(jì)算，并通過信任懲罰算法，防止交易實(shí)體的惡意行為。該模型采用加權(quán)的信任云合并算法進(jìn)行信任綜合，體現(xiàn)了威懾性、容錯(cuò)性和主觀性，但是這種模型不具有區(qū)分度，對(duì)每一個(gè)不合作的節(jié)點(diǎn)，都給予相同的懲罰力度，分布式環(huán)境下的節(jié)點(diǎn)有的是具有不合作傾向的習(xí)慣，而有的是因?yàn)槭д`偶爾不合作，模型沒有體現(xiàn)出對(duì)他們的區(qū)別對(duì)待。

文獻(xiàn)[4]提出了一種同時(shí)考慮失敗次數(shù)和失敗影響力(失敗金額)的懲罰模型，從而達(dá)到過濾惡意節(jié)點(diǎn)欺騙懲罰機(jī)制的目的。模型具有較好的威懾性和容錯(cuò)性，也具有一定的區(qū)分度，但該模型對(duì)于同一個(gè)不合作行為，不同的節(jié)點(diǎn)給予相同的懲罰度，所以并不具備良好的主觀性。

文獻(xiàn)[5]基于針鋒相對(duì)策略，利用博弈論從靜態(tài)和動(dòng)態(tài)兩個(gè)方面對(duì)懲罰機(jī)制進(jìn)行了建模與分析，利用演化博弈避免了針鋒相對(duì)策略威懾性不足的問題，并通過懲罰參數(shù)實(shí)現(xiàn)了主觀性。然而它的缺點(diǎn)也在于區(qū)分性，即不能區(qū)別對(duì)待善意節(jié)點(diǎn)的“偶爾犯錯(cuò)”和惡意節(jié)點(diǎn)的“故技重施”。

1 基于重復(fù)博弈的懲罰機(jī)制設(shè)計(jì)

在模型中，我們引入了信任度來實(shí)現(xiàn)懲罰的區(qū)分性，對(duì)同樣的犯錯(cuò)行為，根據(jù)犯錯(cuò)節(jié)點(diǎn)的信任度來給予不同的懲罰，并引入了懲罰期的概念來實(shí)現(xiàn)容錯(cuò)性，根據(jù)參數(shù)的自主設(shè)置來實(shí)現(xiàn)主觀性，并證明了模型的威懾性。具體設(shè)計(jì)如下：

在P2P環(huán)境中，節(jié)點(diǎn)的每一次交互有兩種選擇：合作、不合作，記為Co、Un。設(shè)當(dāng)博弈方i和博弈方j(luò)進(jìn)行交互，設(shè)雙方的博弈收益矩陣如表1所示。

表1 信任博弈矩陣

假設(shè)節(jié)點(diǎn)對(duì)自己何時(shí)離開分布式環(huán)境網(wǎng)絡(luò)不清楚，所以從策略管理的角度說，交易可被描述成無限期重復(fù)博弈。為了輔助實(shí)現(xiàn)這一假設(shè)，在實(shí)際應(yīng)用中，可以保證新加入的節(jié)點(diǎn)的初始信任度小于分布式信任環(huán)境中已有的所有節(jié)點(diǎn)，這樣既可以使節(jié)點(diǎn)失去離開該環(huán)境的動(dòng)力。

定義1 節(jié)點(diǎn)信任度p：授信方對(duì)受信方信任程度的量化估計(jì)，即授信方對(duì)受信方的誠實(shí)度、安全性和可靠性等可相信程度的主觀概率估計(jì)。信任的程度可以從完全不信任到完全信任，對(duì)應(yīng)于信任度范圍從0到1。信任度的取值為連續(xù)值，可以取0到1之間的任一值。

定義2 懲罰期T：在某一節(jié)點(diǎn)選擇Un行為之后，給予這一節(jié)點(diǎn)T期的懲罰，即在以后的T次交互中，犯錯(cuò)節(jié)點(diǎn)必須為其它節(jié)點(diǎn)無償服務(wù)，在結(jié)束T次無償服務(wù)的交互后，才可以有機(jī)會(huì)繼續(xù)獲得(Co, Co)的雙贏收益。

p為犯錯(cuò)節(jié)點(diǎn)的信任度，f(p)將p∈[0,1]投影到了T∈[1,+∞)，k為懲罰因子，由實(shí)施懲罰的節(jié)點(diǎn)根據(jù)自身的安全需求設(shè)定，體現(xiàn)了懲罰的主觀性，安全需求越高，k越大，T越大，安全需求越低，k越小，T越小。

定義4 節(jié)點(diǎn)i和節(jié)點(diǎn)j在交互的時(shí)候，用si表示節(jié)點(diǎn)i的行為，sj表示節(jié)點(diǎn)j的行為，si,sj∈{Co,Un}，Ti、Tj分別表示i和j可能存在的懲罰期，定義如下的懲罰機(jī)制：

(1) 初始條件下，雙方首先嘗試合作，即(si,sj)=(Co,Co)。

(2) 如果在第t次交互中，某一方出現(xiàn)不合作行為，不失一般性地，假定不合作方為節(jié)點(diǎn)j，此時(shí)i根據(jù)j的信任度pj用懲罰度轉(zhuǎn)換函數(shù)f(p)來計(jì)算i對(duì)j的懲罰期Tj，其中f(p)中的參數(shù)k根據(jù)i的自身安全需求由節(jié)點(diǎn)i自行設(shè)置。計(jì)算出Tj之后，i開始對(duì)j進(jìn)行Tj期的懲罰，懲罰期從第t+1次交互到第t+Tj次交互。

(3) 在i和j的第t+1次交互到第t+Tj次交互期間，i應(yīng)獲得j提供的Tj期無償收益，若j接受懲罰，選擇Co，即(si,sj)=(Un,Co)；在每進(jìn)行一次交互后，Tj=Tj-1，直至Tj=0時(shí)，結(jié)束懲罰；若j不接受懲罰，選擇Un，則i重新開始計(jì)算懲罰期。

(4) 從第t+Tj+1交互開始，i結(jié)束對(duì)j的懲罰，雙方繼續(xù)嘗試合作，即(si,sj)=(Co,Co)。

(5) 在非懲罰期(Ti=Tj=0)的每一次交互之后，i和j根據(jù)定義2的公式更新對(duì)方的信任度，在懲罰期的交互中，若j接受懲罰，i不更新j的信任度，若j不接受懲罰，則在重新開始計(jì)算懲罰期的時(shí)候更新信任度。

任意節(jié)點(diǎn)i的算法偽碼如下：

void main

{j=GetNodeID()

//獲得節(jié)點(diǎn)的ID

if(Tj=0)

{Si=Co;

//對(duì)方節(jié)點(diǎn)不在懲罰期內(nèi)，選擇Co

if(Sj=Co)update(Pj);

//update(P)是更新信任度的函數(shù)

else{Tj=f(pj);

//f(p)是懲罰度轉(zhuǎn)換函數(shù)

update(pj);}

//對(duì)方節(jié)點(diǎn)不合作，計(jì)算并開始懲罰期

}

if(Tj>0)

{Si=Un;

//對(duì)方節(jié)點(diǎn)在懲罰期內(nèi)，選擇Un

if(Sj=Co)Tj=Tj-1;

//對(duì)方節(jié)點(diǎn)配合懲罰，則懲罰期減1

else{Tj=f(pj);

update(pj);}

//對(duì)方節(jié)點(diǎn)若不配合懲罰，則重新計(jì)算并開始懲罰期

}

elsereturnerror;

}

2 模型分析

2.1 模型的合理性

首先我們來分析上述懲罰規(guī)則的合理性，即分析被懲罰方和懲罰方都會(huì)按照懲罰機(jī)制來服從懲罰和采取懲罰策略。

(1) 對(duì)犯錯(cuò)節(jié)點(diǎn)j而言，如果i采取了懲罰策略，那么j的最優(yōu)選擇是服從懲罰，按照懲罰機(jī)制來提供Tj期的無償服務(wù)。因?yàn)橹挥刑峁┝薚j期的無償服務(wù)，它才有可能在未來獲得正收益。否則如果它的選擇不是Co，那么它將只會(huì)獲得負(fù)收益。而博弈是一個(gè)無限期的重發(fā)博弈，為了獲得正收益，服從Tj期的懲罰是節(jié)點(diǎn)j的最優(yōu)策略。

(2) 對(duì)實(shí)施懲罰的節(jié)點(diǎn)i而言，如果j服從了懲罰，那么i的最優(yōu)策略是實(shí)施懲罰，因?yàn)閷?shí)施懲罰采取的Un策略，可以使得i獲得Tj期的收益c，而不實(shí)施懲罰，得到的收益是a，由于c>a，所以按照懲罰機(jī)制實(shí)施懲罰是節(jié)點(diǎn)i的最優(yōu)戰(zhàn)略。

這樣，我們就證明了懲罰機(jī)制的合理性，即證明了按照懲罰機(jī)制來選擇行為，是懲罰期內(nèi)節(jié)點(diǎn)間的一個(gè)子博弈納什均衡。

2.2 模型的有效性

下面我們來分析在懲罰對(duì)節(jié)點(diǎn)的有效性。為了證明懲罰機(jī)制是有效的，我們需要證明，在懲罰機(jī)制的作用下，節(jié)點(diǎn)的最優(yōu)選擇是Co而不是Un。

證明：

證明節(jié)點(diǎn)采取Co戰(zhàn)略，是一個(gè)納什均衡。即當(dāng)其它節(jié)點(diǎn)i堅(jiān)持懲罰機(jī)制的時(shí)候，Co是節(jié)點(diǎn)j的最優(yōu)選擇。

由于懲罰期的初始值Ti=Tj=0，則當(dāng)sj=Co時(shí)，每輪的博弈結(jié)果都是(si,sj)=(Co,Co)，設(shè)貼現(xiàn)因子為δ，總收益是對(duì)每輪“貼現(xiàn)因子*收益”求和，節(jié)點(diǎn)j的總收益為：

其中，πj(λ)是節(jié)點(diǎn)j在第λ階段的收益。

如果節(jié)點(diǎn)j在某階段偏離，設(shè)為第t階段，考慮最大偏離收益的情況，即只偏離一次，且在懲罰輪次友好地配合懲罰，懲罰期為Tj，則每輪的博弈結(jié)果為：

(Co,Co)1,(Co,Co)2,…,(Co,Co)t-1,(Co,Un)t,(Un,Co)t+1,(Un,Co)t+2,…,(Un,Co)t+Tj,(Co,Co)t+Tj+1,(Co,Co)t+Tj+2,…

在偏離情況下，對(duì)每輪“貼現(xiàn)因子*收益”求和，可得最大偏離收益為：

a+δa+…+δt-2a+δt-1c-δtb-δt+1b-…-

δt+Tj-1b+δt+Tja+δt+Tj+1a+…=

δTj+1(a+b)>0

為了求得滿足上述不等式的條件，當(dāng)Tj固定時(shí)，對(duì)φ(δ)求導(dǎo)：φ′(δ)=b+c-(Tj+1)(a+b)δTj。

(si,sj)=(Co,Co)

體現(xiàn)在懲罰因子k的設(shè)置上，達(dá)到此種良好均衡結(jié)果的條件是：

2.3 四個(gè)目標(biāo)的實(shí)現(xiàn)

本節(jié)的引言中，我們提出了一種好的懲罰機(jī)制，需要具備威懾性、容錯(cuò)性、主觀性、區(qū)分性。這里，我們簡(jiǎn)單地分析一下四個(gè)目標(biāo)的實(shí)現(xiàn)。

(1) 威懾性的實(shí)現(xiàn)。在2.2節(jié)中，我們證明了在懲罰機(jī)制的作用下，選擇“合作”構(gòu)成節(jié)點(diǎn)的子博弈納什均衡，是節(jié)點(diǎn)的最優(yōu)選擇，這說明了懲罰機(jī)制對(duì)所有理性節(jié)點(diǎn)都具備足夠的威懾性。

(2) 容錯(cuò)性的實(shí)現(xiàn)。我們引入“懲罰期”的方案，即對(duì)節(jié)點(diǎn)的不合作行為給予一定時(shí)期的懲罰，懲罰期結(jié)束后，結(jié)束懲罰，這樣就允許了偶爾的犯錯(cuò)，讓犯錯(cuò)節(jié)點(diǎn)有“改過自新”的機(jī)會(huì)。

(3) 主觀性的實(shí)現(xiàn)。懲罰度轉(zhuǎn)換函數(shù)f(p)中，k為懲罰因子，由實(shí)施懲罰的節(jié)點(diǎn)根據(jù)根據(jù)自身的安全需求設(shè)定，體現(xiàn)了懲罰的主觀性，安全需求越高，k越小，T越小，安全需求越低，k越大，T越大。

(4) 區(qū)分性的實(shí)現(xiàn)。懲罰機(jī)制采取了被懲罰節(jié)點(diǎn)的信任度作為計(jì)算懲罰期的依據(jù)，信任度越高，懲罰期越短，這體現(xiàn)了對(duì)“偶爾犯錯(cuò)”節(jié)點(diǎn)和“故技重施”節(jié)點(diǎn)的區(qū)別對(duì)待。

3 仿真實(shí)驗(yàn)

為了驗(yàn)證新算法的可行性和有效性，我們進(jìn)行了兩個(gè)仿真實(shí)驗(yàn)。

實(shí)驗(yàn)設(shè)計(jì)了四類節(jié)點(diǎn)：

(1) 無條件合作節(jié)點(diǎn)，無論對(duì)方是何種節(jié)點(diǎn)，這類節(jié)點(diǎn)的策略總是“合作”，記該類節(jié)點(diǎn)為HN型節(jié)點(diǎn)。

(2) 理性節(jié)點(diǎn)，這類節(jié)點(diǎn)嚴(yán)格按照本模型所設(shè)計(jì)懲罰機(jī)制來選擇策略，即面對(duì)非懲罰期節(jié)點(diǎn)時(shí)首先選擇“合作”，在面對(duì)懲罰期內(nèi)的節(jié)點(diǎn)時(shí)執(zhí)行懲罰，記該類節(jié)點(diǎn)為RN(Rational Node)型節(jié)點(diǎn)。

(3) 偶爾犯錯(cuò)的節(jié)點(diǎn)，這類節(jié)點(diǎn)的特點(diǎn)是多數(shù)情況下的選擇和RN型節(jié)點(diǎn)的選擇一樣，只是偶爾犯錯(cuò)偏離理性，記該類節(jié)點(diǎn)為OD(Occasionally Dishonest)型節(jié)點(diǎn)，偏離的概率記為pOD，本實(shí)驗(yàn)設(shè)定pOD=0.05。

(4)永不合作的節(jié)點(diǎn)，這類節(jié)點(diǎn)屬于惡意節(jié)點(diǎn)，總是選擇不合作，記該類節(jié)點(diǎn)為DN型。

實(shí)驗(yàn)中并沒有模擬各個(gè)節(jié)點(diǎn)所提供的具體服務(wù)，只是讓四類節(jié)點(diǎn)每隔一個(gè)單位時(shí)間就隨機(jī)地選取對(duì)象進(jìn)行交互，并根據(jù)自身地節(jié)點(diǎn)類型選擇“合作”或是“不合作”策略，并統(tǒng)計(jì)各類節(jié)點(diǎn)的平均收益。

3.1 模型的威懾性

實(shí)驗(yàn)一用于模擬各類節(jié)點(diǎn)的平均收益隨DN型節(jié)點(diǎn)所占比例大小的變化情況，從而驗(yàn)證模型的威懾性。

實(shí)驗(yàn)場(chǎng)景為資源共享應(yīng)用，節(jié)點(diǎn)間互享的資源在效用是對(duì)等且互補(bǔ)的，我們模擬了2 000個(gè)節(jié)點(diǎn)，設(shè)信任博弈矩陣中a為8，b、c均為10，d為1，HN節(jié)點(diǎn)和OD節(jié)點(diǎn)所占比例均為0.1。所有節(jié)點(diǎn)的初始信任度均為隨機(jī)地分布在0.5到0.95之間，懲罰因子k為。

各類節(jié)點(diǎn)的平均收益隨DN型節(jié)點(diǎn)所占比例大小的變化情況如圖1到圖3所示。

在第一階段，由于RN型節(jié)點(diǎn)與DN型節(jié)點(diǎn)初次交互，所以會(huì)選擇信任，從而讓DN型節(jié)點(diǎn)獲得欺騙收益，而自己則蒙受損失；HN型在第一階段的的策略和收益都和RN型相同；而OD型由于偶爾的犯錯(cuò)會(huì)獲得欺騙收益，所以收益略高于RN/HN型；獲得大量欺騙收益的DN型在此階段收益最高，如圖1所示。

在第二階段，DN節(jié)點(diǎn)由于第一階段的不合作行為，而受到了RN型節(jié)點(diǎn)和OD型節(jié)點(diǎn)的懲罰，收益和第一階段相比大幅下降；而RN節(jié)點(diǎn)和OD節(jié)點(diǎn)由于在DN節(jié)點(diǎn)的懲罰期內(nèi)獲得DN節(jié)點(diǎn)的無償服務(wù)，所以收益比第一階段增加；HN節(jié)點(diǎn)由于未實(shí)施懲罰，故而收益也較第一階段下降；OD節(jié)點(diǎn)由于偶爾的犯錯(cuò)而遭受懲罰，故而收益略少于RN節(jié)點(diǎn)。如圖2所示。

從第三階段開始，各類節(jié)點(diǎn)的收益趨于穩(wěn)定，和第二階段相比，HN節(jié)點(diǎn)收益無明顯變化；RN和OD節(jié)點(diǎn)因?yàn)樵趯?shí)施懲罰結(jié)束后可能遭遇到DN節(jié)點(diǎn)的繼續(xù)和不合作，所以平均收益略有下降，而同第二階段一樣，OD節(jié)點(diǎn)的收益要略低于RN節(jié)點(diǎn)；DN節(jié)點(diǎn)由于在懲罰期結(jié)束后可能獲得不合作帶來的欺騙收益，所以平均收益略有增多。如圖3所示。

圖1 第一階段各類節(jié)點(diǎn)的平均收益隨DN型節(jié)點(diǎn)所占比例大小的變化情況

圖2 第二階段各類節(jié)點(diǎn)的平均收益隨DN型節(jié)點(diǎn)所占比例大小的變化情況

圖3 第三階段各類節(jié)點(diǎn)的平均收益隨DN型節(jié)點(diǎn)所占比例大小的變化情況

圖4是DN型節(jié)點(diǎn)所占比例為0.2時(shí)的收益全局演化曲線，可以看到：

(1) HN型和OD型節(jié)點(diǎn)除了在第一階段由于受RN型節(jié)點(diǎn)的欺騙而較低之外，在第二階段隨著DN型節(jié)點(diǎn)進(jìn)入懲罰期而增高。

(2) DN型節(jié)點(diǎn)除了在第一階段欺騙成功而獲得較高收益之后，在第二階段由于被懲罰而驟降。

(3) 第三階段和第二階段相比，由于某些DN型節(jié)點(diǎn)結(jié)束了懲罰期而繼續(xù)欺騙，所以DN型和OD型節(jié)點(diǎn)的收益略有下降，而DN型節(jié)點(diǎn)收益略有增高。

(4) 由于DN型節(jié)點(diǎn)一再不合作，信任度越來越小，懲罰期也越來越長(zhǎng)，所以從第三階段開始的每一階段，RN型和OD型的收益呈遞增趨勢(shì)，而DN型的收益呈下降趨勢(shì)。

(5) 由于OD型節(jié)點(diǎn)偶爾犯錯(cuò)，所以這類節(jié)點(diǎn)僅在第一階段的收益略高于RN型節(jié)點(diǎn)，而在其它階段都略低于RN型節(jié)點(diǎn)。

圖4 DN型節(jié)點(diǎn)所占比例為0.2時(shí)的收益全局演化曲線

實(shí)驗(yàn)一證明了模型的可行性和有效性，通過實(shí)驗(yàn)結(jié)果我們可以看到懲罰機(jī)制對(duì)不合作節(jié)點(diǎn)給予了有效的威懾，對(duì)偶爾犯錯(cuò)的節(jié)點(diǎn)在容錯(cuò)的前提下也給予了適當(dāng)?shù)膽土P。實(shí)驗(yàn)證明了在懲罰機(jī)制下，成為RN節(jié)點(diǎn)，即遵守模型的懲罰規(guī)則，是節(jié)點(diǎn)的最優(yōu)選擇。

3.2 模型的主觀性

實(shí)驗(yàn)二用于驗(yàn)證模型的主觀性。主觀性要求實(shí)施懲罰的節(jié)點(diǎn)根據(jù)自身的安全需求設(shè)定懲罰因子，使得對(duì)同樣的犯錯(cuò)行為，安全性高的節(jié)點(diǎn)給予犯錯(cuò)節(jié)點(diǎn)更重的懲罰，而安全性低的節(jié)點(diǎn)給予相對(duì)較輕的懲罰。

實(shí)驗(yàn)設(shè)置了400個(gè)被訪問節(jié)點(diǎn)，以及400個(gè)訪問節(jié)點(diǎn)。其中訪問節(jié)點(diǎn)等分為三類，OD型、DN型和FD型，OD型和DN型的含義和實(shí)驗(yàn)一相同，分別代表偶爾犯錯(cuò)的節(jié)點(diǎn)和永不合作的節(jié)點(diǎn)，F(xiàn)D(frequently dishonest)型代表常常犯錯(cuò)的故技重施型節(jié)點(diǎn)；被訪問節(jié)點(diǎn)嚴(yán)格遵守懲罰策略。讓訪問節(jié)點(diǎn)對(duì)被訪問節(jié)點(diǎn)進(jìn)行隨機(jī)訪問，動(dòng)態(tài)地調(diào)整被訪問節(jié)點(diǎn)的懲罰因子k，觀察三類訪問節(jié)點(diǎn)十次訪問后每次訪問的平均收益。

實(shí)驗(yàn)設(shè)定OD節(jié)點(diǎn)的犯錯(cuò)幾率為0.05，F(xiàn)D型的犯錯(cuò)幾率為0.3，訪問節(jié)點(diǎn)的初始信任度隨機(jī)分布在0.6到0.95之間，收益矩陣和實(shí)驗(yàn)一相同，實(shí)驗(yàn)結(jié)果如圖5所示。

圖5 不同懲罰因子下各類節(jié)點(diǎn)的收益

從實(shí)驗(yàn)結(jié)果我們可以看出，隨著懲罰因子的減小，對(duì)同樣的不合作行為懲罰力度也隨之減小，于是對(duì)三類存在不合作行為的節(jié)點(diǎn)，收益都隨懲罰因子減小而增大。特別注意到，對(duì)OD型節(jié)點(diǎn)，在懲罰因子小于0.6時(shí)，收益增幅不明顯，這是因?yàn)楫?dāng)信任度p∈[k,1)時(shí)，懲罰期T=1，而偶爾犯錯(cuò)的OD型節(jié)點(diǎn)在多數(shù)時(shí)候信任度都大于0.6，所以當(dāng)懲罰因子小于0.6時(shí)，懲罰期恒為1，所以收益未隨懲罰因子的繼續(xù)減小而明顯增大。

實(shí)驗(yàn)二驗(yàn)證了模型的主觀性，節(jié)點(diǎn)可以根據(jù)自身的安全性調(diào)整自己的懲罰因子，從而實(shí)現(xiàn)對(duì)相同的不合作行為給予不同力度的懲罰，當(dāng)懲罰因子k越小，懲罰力度就越小，實(shí)驗(yàn)驗(yàn)證了此時(shí)不合作節(jié)點(diǎn)得到相對(duì)較高的收益，當(dāng)懲罰因子k越大，懲罰力度就越大，實(shí)驗(yàn)驗(yàn)證了此時(shí)不合作節(jié)點(diǎn)得到相對(duì)較低的收益。

4 結(jié) 語

P2P網(wǎng)絡(luò)是一種動(dòng)態(tài)的、自組織的、分布式的開放網(wǎng)絡(luò)環(huán)境，信任問題在P2P系統(tǒng)中扮演了越來越關(guān)鍵的角色，而懲罰機(jī)制的設(shè)計(jì)又是P2P信任問題的關(guān)鍵所在。本文設(shè)計(jì)了一種基于重復(fù)博弈的懲罰模型，創(chuàng)新點(diǎn)在于：在博弈論的分析框架之下，引入了基于信任度的懲罰策略并創(chuàng)造性地設(shè)計(jì)了懲罰度轉(zhuǎn)換函數(shù)，使得在單次博弈中無法實(shí)現(xiàn)的信任和合作在重復(fù)博弈中得以實(shí)現(xiàn)。該懲罰機(jī)制具有良好的威懾性、容錯(cuò)性、主觀性和區(qū)分性，并通過模擬實(shí)驗(yàn)證明了其可行性和有效性。由于條件的限制，現(xiàn)階段我們只是進(jìn)行了仿真實(shí)驗(yàn)，并沒有在大規(guī)模的P2P環(huán)境中進(jìn)行應(yīng)用，我們下一步的工作也將著力于把模型推廣到實(shí)際的應(yīng)用中。

[1] Chin S H. On application of game theory for understanding trust in networks[C]// International Symposium on Collaborative Technologies and Systems. 2009:106-110.

[2] Li Yong-feng, Si Chunl-in. Game analysis on the trust in the cooperation innovation[J].Journal of Hunan University Natural Sciences, 2008,35(3):84-87.

[3] 張杰，張景安.一種引入懲罰機(jī)制的網(wǎng)絡(luò)信任評(píng)價(jià)研究[J].Software,2013,34(7):72-74.

[4] 汪克文,謝福鼎,張永.基于懲罰機(jī)制的P2P電子商務(wù)模型[J].計(jì)算機(jī)工程,2010,36(12):265-268.

[5] 聞?dòng)⒂? 趙博, 趙宏. 基于博弈理論的移動(dòng)自組網(wǎng)激勵(lì)機(jī)制研究[J].通信學(xué)報(bào), 2014,35(4):44-52.

[6] 郭晶晶,馬建峰，李琦. 基于博弈論的移動(dòng)自組織網(wǎng)絡(luò)的信任管理方法[J].通信學(xué)報(bào), 2014. 35(11):50-58.

[7] 李虎陽,羅旭,常永虎. 基于可信度的多次重復(fù)博弈研究[J].重慶工商大學(xué)學(xué)報(bào)(自然科學(xué)版),2016.2:70-72.

[8] Shen Y, Yan Z, Kantola R. Game Theoretical Analysis of the Acceptance of Global Trust Management for Unwanted Traffic Control[C]// IEEE, International Conference on High PERFORMANCE Computing and Communications & 2013 IEEE International Conference on Embedded and Ubiquitous Computing. IEEE, 2013:935-942.

[9] Murakami S, Inuzuka N, Yamaguchi M, et al. Analysing the development of cooperation in MANETs using evolutionary game theory[J]. The Journal of Supercomputing, 2013, 63(3):854-870.

[10] Li Z, Shen H. Game-theoretic analysis of cooperation incentive strategies in mobile ad hoc networks[J]. Mobile Computing, IEEE Transactions, 2012, 11(8):1287-1303.

[11] 王保玉，高承實(shí)，戴青 P2P電子商務(wù)中信任評(píng)價(jià)模型研究[J].計(jì)算機(jī)應(yīng)用與軟件,2013,30(12):113-116.

[12] 劉進(jìn)軍. 基于懲罰的SVM和集成學(xué)習(xí)的非平衡數(shù)據(jù)分類算法研究[J].計(jì)算機(jī)應(yīng)用與軟件, 2014,31(1):186-190.

RESEARCH ON PUNISHMENT MECHANISM IN P2P TRUST SYSTEM BASED ON REPEATED GAME

Yang Xianwei Zhan Xueqiu

(WuxiInstituteofTechnology,Wuxi214121,Jiangsu,China)

P2P network is a dynamic, self-organized, distributed open network environment. Trust plays an increasingly important role in P2P systems, and the design of penalty mechanism is the key of P2P trust. This paper designs a penalty model based on repeated games. The innovation is that: in the framework of the game theory analysis, the introduction of the punishment strategy based on the degree of Trust and creatively designed a penalty conversion function, so that trust and cooperation can not be achieved in a single game can be achieved in the repeated game. The penalty mechanism has a good deterrence, fault tolerance, subjectivity and differentiation. The simulation experiment proves its feasibility and effectiveness.

Punishment mechanism P2P Trust Game theory Repeated game Trustworthiness

2016-05-16。國家自然科學(xué)基金資助項(xiàng)目(11471144)。楊先偉，講師，主研領(lǐng)域：密碼學(xué)及通信與系統(tǒng)工程。戰(zhàn)學(xué)秋，教授。

TP311.1

10.3969/j.issn.1000-386x.2017.06.058

P2P信任系統(tǒng)中基于重復(fù)博弈的懲罰機(jī)制研究

0 引 言

1 基于重復(fù)博弈的懲罰機(jī)制設(shè)計(jì)

2 模型分析

3 仿真實(shí)驗(yàn)

4 結(jié) 語

0 引言