999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于交互學習神經網路的仿真研究

2013-07-12 06:50:08四川職業技術學院電子電氣工程系
電子世界 2013年4期
關鍵詞:人類實驗模型

四川職業技術學院電子電氣工程系 劉 宸

基于交互學習神經網路的仿真研究

四川職業技術學院電子電氣工程系 劉 宸

交互學習可促使人更加具有智慧,因此,研究人類的交互學習對于探索人類的學習規律具有十分重要的意義。有研究表明,神經網路同博弈理論相結合能夠構建人類交互學習模型,本文通過對交互學習神經網路模型進行構建,采用仿真技術對人類交互學習的過程及其基本規律進行研究,結果顯示,此模型能夠對交互及競爭學習過程進行有效模擬。

交互學習;博弈理論;神經網路;仿真

人類作為一種群居性的動物天生就具有交互性學習的能力,交互性學習可以促使人變得更有智慧,因為一旦某一只動物變聰明,其它動物就能夠對此能力進行學習,因此也會跟著變得更聰明。若某人了解交互學習與競爭學習之間的關系,那么這個人就會變得更加聰明。若某民族了解此道理,則此民族也會更興旺。因此,研究交互學習規律對于人類思維發展具有十分重要的意義。

1.人類交互學習的特征分析

同人類的個體學習過程不同,交互學習具有其較為顯著的特征:若有n個參與人員,各參與人員均會通過對除其自身以外的n-1個參與人員進行同時性的學習,并以此為基礎來對自身的行為策略進行改變,即某個參與人員其自身的選擇會受到剩余其他參與人員的選擇影響,同時也會對其他參與人員的選擇帶來影響。此特征普遍存在于如今的經濟生活當與社會環境之中,因而研究人與人的交互學習模型具有很重要的意義。

本文通過將在人工神經網路中融合入博弈支付函數的結構,并將博弈支付矩陣中各個支付值作為其輸入的結點xj以及對手支付值,同時,將參與人相應可進行選擇的行動策略作為其輸出的結點y,并最終建立了一個人類交互學習的神經網路模型。

圖1 交互及競爭學習模型的博弈實驗訓練過程曲線

圖2 博弈實驗的數據同仿真結果之間的比較

2.交互學習神經網路模型的構建

通常而言,重復性的博弈理論中的學習過程通常包括如下兩種模型:一種是強化性的學習模型,另一種是強化及環境兩者交互性混合學習模型。此兩種學習過程模型的各種相應的權重參數均需以實驗數據等為依據進行調整。同以上兩種學習模式不同,有資料還提出了另一種模式,及以Regret反饋為基礎的學習神經網路,此模式可成功進行混合策略博弈中唯一性均衡點的預測。以Regret反饋為基礎的學習神經網路為前饋與反饋兩種神經網路的結合。對于人工神經網路而言,其實質主要是將眾多相對較為簡單的神經元在某一網路系統中進行有機組合,以以信息流的方向為依據將其分為前饋與反饋兩種神經網路。

由于神經網路學習的過程為誤差向后由輸出至輸入層傳播且對網路連接的權值進行修正的過程,因此學習目的即為了確保網路實際的輸出同某一期望輸出相接近。對于交互學習神經網路結構而言,其輸入節點主要為支付矩陣中的8個支付值,而將兩個輸出節點來對實際過程的行動選擇概率進行具體表示。通常而言,各輸入節點的輸入信息取當前博弈過程中相對應支付值,而對于輸出結點而言,其激活函數主要是將相相應的輸入節點同連接權wij的乘積進行求和,之后再由Sigmoid活化函數進行計算后獲得,公式如下:

式中,ti(a-k)——參與人員k對剩余參與人員行動后的最佳反應;yi——參與人員做出行為i的概論;Rk(·)——通過行為及其他參與人員行為所得的Regret值;xj——輸入節點強度,也可認為是支付值;λ——學習率。Regret主要是由實際所收入的支付值同可能獲取最大支付值之間的差值進行計算的。因此,以上述兩個公式可對連接權進行如下調整:學習效率、實際情況下的收益同事后的最佳收益之間的差、Regret值以及輸入特性等多種因素間的乘積。

將Regret引入到反饋學習中極大程度地改善了神經網路混合策略預測性能的均衡性。Regret等于在對手行為選擇已知的情況下參與人員可能能獲得的最大支付值同博弈過程實際的支付值之間的差值。此法為通過神經網絡對人類的交互學習行為進行了科學模擬,并提出了相應的算法。模型基于單神經元感知器對博弈收益進行了考慮,以便對反饋過程進行修改。此種事后驅動同學習過程相符。參與者在得知同剩余參與者上次行動的選擇之后可得Regret值,而后以Regret程度為依據來對自己最佳行動策略進行選擇,以逐漸接近最佳策略。也就是說,參與者了解剩余參與者前一次的博弈行動選擇之后,會將其目前行動朝著上一次博弈最佳反應方向轉變。

3.模型仿真及結果分析

為了對交互學習模型的性能進行比較,本文采用了均方差準則MSD,MSD作為檢測估計值同實測值間差值中普遍受到認可的方法,其公式如下:

其中,y——實測值向量;y′——估計值向量;yi——第i個博弈試驗中y向量所選相應行動頻率值;yi′——模型的輸出頻率值,N——對應向量的長度。

基礎數據采用博弈理論支付函數,借助于所構建的交互學習神經網路模型進行仿真分析,計算結果如圖1所示:圖1的上方為仿真計算中輸出的A1與A2分別表示的是參與人A所選行動1的頻率,以及參與人B所選行動2的頻率。而圖2顯示的是此組數據同實驗結果之間的比較,由圖2可知,交互學習神經網路模式的仿真結果同實驗的數據較為吻合。

在對10組不同的博弈實驗進行MSD準則計算及對比后可知,Regret模型具有相對較好的預測結果。結果顯示:在反饋過程中進行Regret變量的引入能夠對人工神經網路的性能進行顯著的改善。進行Regret模型的構建能夠體現如下重要特點,即可對人類交互學習的過程進行有效模擬,就像博弈實驗相同。作為自然進化過程中十分重要的特征之一,人類的交互學習過程不僅包括了人與人之間的交互學習過程,還包括了人與自然以及人與自然界中其它生物之間的交互學習。

4.結論

隨著人類對思維及知識掌握過程探索及論證的逐步深入,有關人類交互學習的研究已經成為當今領域的研究熱點之一。在人工神經網路交互學習的進化過程中,通過對人類的學習方法中的回顧和對比進行效仿來對人工神經網路的連接權值進行有效的更新。通過所構建的交互學習模型進行仿真分析,結果顯示,此模型不僅能夠對人類的交互學習過程進行較好的描述,還可對博弈均衡狀態進行較為有效的預測。

[1]李伯虎,柴旭東,侯寶存等.一種新型的分布協同仿真系統——“仿真網格”[J].系統仿真學報,2010(20):5 423-5430.

[2]Kepecs A,Uchida1 N,Zariwala1 H A,Mainen Z F.Neural correlates,computation and behavioural impact of decision conf i dence[J].Nature(S0028-0836),2008,455(7210):227-231.

猜你喜歡
人類實驗模型
一半模型
記一次有趣的實驗
人類能否一覺到未來?
重要模型『一線三等角』
人類第一殺手
好孩子畫報(2020年5期)2020-06-27 14:08:05
重尾非線性自回歸模型自加權M-估計的漸近分布
做個怪怪長實驗
1100億個人類的清明
3D打印中的模型分割與打包
NO與NO2相互轉化實驗的改進
主站蜘蛛池模板: 玖玖免费视频在线观看| 亚洲 欧美 日韩综合一区| 欧美日一级片| 99热这里只有精品5| 国产天天色| 精品久久久无码专区中文字幕| 日韩无码黄色| 国产一区二区三区在线观看免费| 欧美午夜久久| 天天视频在线91频| AV在线麻免费观看网站| av在线人妻熟妇| 久久情精品国产品免费| yjizz国产在线视频网| 丁香五月婷婷激情基地| 久久久久国产一区二区| 狠狠做深爱婷婷久久一区| 午夜啪啪网| 白丝美女办公室高潮喷水视频| 91精品啪在线观看国产60岁 | 丝袜久久剧情精品国产| 9丨情侣偷在线精品国产| 亚洲精品色AV无码看| 在线日韩日本国产亚洲| 手机在线免费毛片| 国产视频资源在线观看| www.99精品视频在线播放| 亚洲免费毛片| 伊人网址在线| 4虎影视国产在线观看精品| 成人午夜网址| 青草视频免费在线观看| 综合成人国产| 又大又硬又爽免费视频| 国产在线欧美| 全部免费特黄特色大片视频| 香蕉精品在线| 极品尤物av美乳在线观看| 一本色道久久88| 久久人与动人物A级毛片| 人人91人人澡人人妻人人爽| 亚洲 欧美 日韩综合一区| 白浆免费视频国产精品视频| 国产精品自在在线午夜区app| 人妻无码中文字幕一区二区三区| 狠狠色成人综合首页| 国产无码在线调教| 精品无码国产自产野外拍在线| 亚洲精品制服丝袜二区| 97国产在线视频| 国产成人一级| 国产国语一级毛片在线视频| 制服丝袜一区二区三区在线| 美女国内精品自产拍在线播放| 精品成人一区二区三区电影| 精品久久香蕉国产线看观看gif| 中文字幕久久波多野结衣| 久久精品91麻豆| 欧美成人国产| 最新国产麻豆aⅴ精品无| 99久久精品免费看国产免费软件| 操国产美女| 真实国产乱子伦高清| 国产精品大尺度尺度视频 | 日韩a级毛片| 国产高潮流白浆视频| 亚洲精品麻豆| 无码福利日韩神码福利片| 日韩欧美综合在线制服| 欧美一级在线播放| a级毛片毛片免费观看久潮| 91小视频在线观看| 国产地址二永久伊甸园| 最近最新中文字幕在线第一页| 欧美一区国产| 成人午夜网址| 久久久久久尹人网香蕉| 亚洲精品男人天堂| AⅤ色综合久久天堂AV色综合| 午夜三级在线| 午夜国产理论| 成人免费午间影院在线观看|