基于交互學習神經網路的仿真研究

2013-07-12 06:50:08四川職業技術學院電子電氣工程系

電子世界 2013年4期

四川職業技術學院電子電氣工程系劉宸

基于交互學習神經網路的仿真研究

四川職業技術學院電子電氣工程系劉宸

交互學習可促使人更加具有智慧，因此，研究人類的交互學習對于探索人類的學習規律具有十分重要的意義。有研究表明，神經網路同博弈理論相結合能夠構建人類交互學習模型，本文通過對交互學習神經網路模型進行構建，采用仿真技術對人類交互學習的過程及其基本規律進行研究，結果顯示，此模型能夠對交互及競爭學習過程進行有效模擬。

交互學習；博弈理論；神經網路；仿真

人類作為一種群居性的動物天生就具有交互性學習的能力，交互性學習可以促使人變得更有智慧，因為一旦某一只動物變聰明，其它動物就能夠對此能力進行學習，因此也會跟著變得更聰明。若某人了解交互學習與競爭學習之間的關系，那么這個人就會變得更加聰明。若某民族了解此道理，則此民族也會更興旺。因此，研究交互學習規律對于人類思維發展具有十分重要的意義。

1.人類交互學習的特征分析

同人類的個體學習過程不同，交互學習具有其較為顯著的特征：若有n個參與人員，各參與人員均會通過對除其自身以外的n-1個參與人員進行同時性的學習，并以此為基礎來對自身的行為策略進行改變，即某個參與人員其自身的選擇會受到剩余其他參與人員的選擇影響，同時也會對其他參與人員的選擇帶來影響。此特征普遍存在于如今的經濟生活當與社會環境之中，因而研究人與人的交互學習模型具有很重要的意義。

本文通過將在人工神經網路中融合入博弈支付函數的結構，并將博弈支付矩陣中各個支付值作為其輸入的結點xj以及對手支付值，同時，將參與人相應可進行選擇的行動策略作為其輸出的結點y，并最終建立了一個人類交互學習的神經網路模型。

圖1 交互及競爭學習模型的博弈實驗訓練過程曲線

圖2 博弈實驗的數據同仿真結果之間的比較

2.交互學習神經網路模型的構建

通常而言，重復性的博弈理論中的學習過程通常包括如下兩種模型：一種是強化性的學習模型，另一種是強化及環境兩者交互性混合學習模型。此兩種學習過程模型的各種相應的權重參數均需以實驗數據等為依據進行調整。同以上兩種學習模式不同，有資料還提出了另一種模式，及以Regret反饋為基礎的學習神經網路，此模式可成功進行混合策略博弈中唯一性均衡點的預測。以Regret反饋為基礎的學習神經網路為前饋與反饋兩種神經網路的結合。對于人工神經網路而言，其實質主要是將眾多相對較為簡單的神經元在某一網路系統中進行有機組合，以以信息流的方向為依據將其分為前饋與反饋兩種神經網路。

由于神經網路學習的過程為誤差向后由輸出至輸入層傳播且對網路連接的權值進行修正的過程，因此學習目的即為了確保網路實際的輸出同某一期望輸出相接近。對于交互學習神經網路結構而言，其輸入節點主要為支付矩陣中的8個支付值，而將兩個輸出節點來對實際過程的行動選擇概率進行具體表示。通常而言，各輸入節點的輸入信息取當前博弈過程中相對應支付值，而對于輸出結點而言，其激活函數主要是將相相應的輸入節點同連接權wij的乘積進行求和，之后再由Sigmoid活化函數進行計算后獲得，公式如下：

式中，ti(a-k)——參與人員k對剩余參與人員行動后的最佳反應；yi——參與人員做出行為i的概論；Rk（·）——通過行為及其他參與人員行為所得的Regret值；xj——輸入節點強度，也可認為是支付值；λ——學習率。Regret主要是由實際所收入的支付值同可能獲取最大支付值之間的差值進行計算的。因此，以上述兩個公式可對連接權進行如下調整：學習效率、實際情況下的收益同事后的最佳收益之間的差、Regret值以及輸入特性等多種因素間的乘積。

將Regret引入到反饋學習中極大程度地改善了神經網路混合策略預測性能的均衡性。Regret等于在對手行為選擇已知的情況下參與人員可能能獲得的最大支付值同博弈過程實際的支付值之間的差值。此法為通過神經網絡對人類的交互學習行為進行了科學模擬，并提出了相應的算法。模型基于單神經元感知器對博弈收益進行了考慮，以便對反饋過程進行修改。此種事后驅動同學習過程相符。參與者在得知同剩余參與者上次行動的選擇之后可得Regret值，而后以Regret程度為依據來對自己最佳行動策略進行選擇，以逐漸接近最佳策略。也就是說，參與者了解剩余參與者前一次的博弈行動選擇之后，會將其目前行動朝著上一次博弈最佳反應方向轉變。

3.模型仿真及結果分析

為了對交互學習模型的性能進行比較，本文采用了均方差準則MSD，MSD作為檢測估計值同實測值間差值中普遍受到認可的方法，其公式如下：

其中，y——實測值向量；y′——估計值向量；yi——第i個博弈試驗中y向量所選相應行動頻率值；yi′——模型的輸出頻率值，N——對應向量的長度。

基礎數據采用博弈理論支付函數，借助于所構建的交互學習神經網路模型進行仿真分析，計算結果如圖1所示：圖1的上方為仿真計算中輸出的A1與A2分別表示的是參與人A所選行動1的頻率，以及參與人B所選行動2的頻率。而圖2顯示的是此組數據同實驗結果之間的比較，由圖2可知，交互學習神經網路模式的仿真結果同實驗的數據較為吻合。

在對10組不同的博弈實驗進行MSD準則計算及對比后可知，Regret模型具有相對較好的預測結果。結果顯示：在反饋過程中進行Regret變量的引入能夠對人工神經網路的性能進行顯著的改善。進行Regret模型的構建能夠體現如下重要特點，即可對人類交互學習的過程進行有效模擬，就像博弈實驗相同。作為自然進化過程中十分重要的特征之一，人類的交互學習過程不僅包括了人與人之間的交互學習過程，還包括了人與自然以及人與自然界中其它生物之間的交互學習。

4.結論

隨著人類對思維及知識掌握過程探索及論證的逐步深入，有關人類交互學習的研究已經成為當今領域的研究熱點之一。在人工神經網路交互學習的進化過程中，通過對人類的學習方法中的回顧和對比進行效仿來對人工神經網路的連接權值進行有效的更新。通過所構建的交互學習模型進行仿真分析，結果顯示，此模型不僅能夠對人類的交互學習過程進行較好的描述，還可對博弈均衡狀態進行較為有效的預測。

[1]李伯虎,柴旭東,侯寶存等.一種新型的分布協同仿真系統——“仿真網格”[J].系統仿真學報,2010(20):5 423-5430.

[2]Kepecs A,Uchida1 N,Zariwala1 H A,Mainen Z F.Neural correlates,computation and behavioural impact of decision conf i dence[J].Nature(S0028-0836),2008,455(7210):227-231.