999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種組合型的深度學習模型學習率策略

2016-08-22 09:55:12賀昱曜李寶奇
自動化學報 2016年6期
關鍵詞:深度模型

賀昱曜 李寶奇

?

一種組合型的深度學習模型學習率策略

賀昱曜1李寶奇1

一個設計良好的學習率策略可以顯著提高深度學習模型的收斂速度,減少模型的訓練時間.本文針對AdaGrad和AdaDec學習策略只對模型所有參數提供單一學習率方式的問題,根據模型參數的特點,提出了一種組合型學習策略:AdaMix.該策略為連接權重設計了一個僅與當前梯度有關的學習率,為偏置設計使用了冪指數型學習率.利用深度學習模型Autoencoder對圖像數據庫MNIST進行重構,以模型反向微調過程中測試階段的重構誤差作為評價指標,驗證幾種學習策略對模型收斂性的影響.實驗結果表明,AdaMix比AdaGrad和AdaDec的重構誤差小并且計算量也低,具有更快的收斂速度.

深度學習,學習率,組合學習策略,圖像重構

引用格式賀昱曜,李寶奇.一種組合型的深度學習模型學習率策略.自動化學報,2016,42(6):953-958

深度學習[1-6]是機器學習領域一個新的研究方向,與傳統的機器學習和信號處理方法相比,深度學習模擬人類視覺神經系統的層次體系,含有更多的隱含單元層,通過對原始數據逐層的非線性變換,可以得到更高層次的、更加抽象的特征表達,高層次的表達能夠強化輸入數據的區分能力,同時削弱不相關因素的不利影響.

深度學習憑借其處理復雜和不確定性問題的能力,在圖像分類、文本檢測、語音識別等領域取得了比以往方法更好的成績[7].成績的提高是以規模更大、層次更深的網絡結構為基礎,以海量的訓練數據為依據,以更多的調節參數為代價,所以深度學習模型的訓練比以往的方法需要更長時間,因此如何加快模型的收斂速度是一個值得深入研究的問題.

一個呈下降趨勢的學習率策略可以顯著提高模型的收斂速度,減少模型的訓練時間[8].深度學習模型的學習率通常為常數型或簡單呈下降趨勢的指數型函數和冪指數型函數,其根據函數本身的特點調節學習率大小,在很多情況下上述方法仍然不失為一種最簡單有效的學習率策略.2010年,Duchi等提出了自適應的全參數學習率策略AadGrad[9],該方法為深度學習過程中每一個參數單獨設計一個學習率,并利用梯度的平方和保證學習率的下降趨勢,該方法首次提出全參數學習率策略,為深度學習模型的快速收斂提供了一個很好的解決思路.2013年,Senior等在AadGrad學習策略的基礎上提出了一種改進型的學習策略AadDec[10],該方法每個參數學習率由之前的所有回合梯度的平方和簡化為當前梯度和上一回合梯度的平方和,并將該方法成功應用到語音識別系統中,在模型收斂速度上AadDec比AadGrad有進一步的提升.深度學習模型內連接權重和偏置屬于兩種類型的參數,作用也不一樣,為不同類型的參數提供相同的學習策略是不合理的.

本文在AadGrad和AadDec學習策略的基礎上,通過對隨機梯度下降法收斂機制的分析以及對深度學習模型連接權重和偏置的深入研究,提出了一種組合型的學習策略AdaMix,即為連接權重和偏置分別設計學習率,以期能加快深度學習模型的收斂速度,同時減少模型的運算時間.

1 問題描述

本文以圖像重構任務為背景,研究學習率對深度學習模型收斂性的影響.

1.1數據

為客觀地評價學習率策略對深度學習模型收斂性的影響,實驗采用MNIST數據庫,該庫總共包含70000幅28像素×28像素的圖像,每一個樣本為0~9的手寫體數字,其中60000幅為訓練樣本集,10000幅為測試樣本集.

1.2深度學習模型

本文研究的深度學習模型為Autoencoder[8],從本質上講它是深度信念網絡(Deep belief nets,DBN)[11]的無監督形式,同樣由多個限制玻爾茲曼機(Restricted Boltzmann machines,RBM)[12]逐層迭代組成.在預處理階段(Pertraining),Autoencoder與DBN的訓練方式一樣,利用大量的無標簽數據使模型參數的初值感知在一個合理的范圍;在反向微調階段(Fine-turning),DBN模型使用Wake-sleep算法[13]對模型的參數進行微調,而Autoencoder首先構建一個對稱的網絡用于生成原始輸入數據,如圖1所示,這個過程被稱作展開(Unrolling),然后利用原始數據與生成數據之間的差異對模型的參數進行微調,整個過程不需要使用標簽數據,經過足夠多的迭代運算以后,模型便可以精確重構原始輸入數據.

圖1 Autoencoder模型的訓練過程Fig.1 The training process of Autoencoder model

1.3學習率的定義

對于一個參數為θ={ωij,b1i,b2j}的RBM模型,如圖2所示,上層為隱含單元層,下層為可見單元層,可見單元與隱含單元之間雙向連接,同一層內的神經元之間互不連接.從概率論的角度,這也就意味著在給定可見單元的狀態下各個隱含單元之間是相互獨立的,反之亦然.在模型訓練過程中,需要計算三種不同類型的參數[14].

其中,α為可見單元層與隱含單元層之間連接權重的學習率,Δωij為權重增量;β為可見單元層偏置的學習率,Δb1i為偏置增量;γ為隱含單元層偏置的學習率,Δb2j為偏置增量. Edata為由輸入數據得到的期望,Emodel為由模型得到的期望.η={α,β,γ}稱為模型的學習率.

圖2 RBM的結構圖Fig.2 The network graph of an RBM

1.4隨機梯度下降法

對于深度學習模型Autoencoder的參數θ優化求解問題[15-16],其一般數學表達式為

其中,L(θ)為定義在數據集上的損失函數,▽L(θ)為損失函數的梯度,θ(t+1)為迭代t+1時刻的參數值,θ(t)為迭代t時刻的參數值,η(t)為學習率(步長).梯度下降法可以快速求解大多數優化問題,但對以大規模數據集(Large data set)為基礎的深度學習模型參數優化而言,▽L(θ)的計算非常耗時甚至無法計算.

隨機梯度下降法(Stochastic gradient descent,SGD)[17]是梯度下降法的變形.與梯度下降法計算整個數據集不同,SGD只在數據集中隨機挑選一部分樣本(Minibatch)來計算損失函數的梯度,其數學表達式為

其中,▽Lm(θ)為利用第m個批次數據計算得到的損失函數梯度值,N為第m個批次數據集內樣本的個數.與梯度下降法相比,SGD的計算量得到了極大的降低,所以深度學習模型主要采用SGD方法優化模型參數.

在滿足

的條件下,SGD與梯度下降法具有相同的收斂特性[18].‖▽Lm‖< H,H 為有界常數,模型的學習率需滿足limt→∞η(t)=0,即一個呈下降趨勢并收斂至0的學習率.

1.5評價指標

本文使用Autoencoder反向微調階段測試數據集的重構誤差(Reconstruction error rate,RER)作為模型收斂狀態的定量評價指標.該指標是在像素的層次上描述圖像的重構質量,與分類準確率相比能更好地描述模型參數的收斂狀態.對于一個含有N個樣本的測試數據集,其重構誤差數學表達式為

其中,MSE為均方誤差(Mean squared error,MSE)的計算公式,In(data)為模型輸入數據,Out(data)為模型生成數據,D為樣本元素個數,即圖像的像素數.在相同的迭代次數下,重構誤差率越大收斂性越差,重構誤差率越小收斂性越好.

2 學習率策略

常數型學習率在很多時候仍然不失為一種最簡單有效的方法,但需要對學習率初值設置有足夠豐富的經驗.深度學習模型權重和偏置屬于兩種類型的參數,其作用也不同,因此在設計學習率策略時,需要考慮權重和偏置各自的特點.

2.1權重和偏置

深度學習模型的基本單元為神經元,其結構如圖3所示.

圖3 人工神經元結構Fig.3 The network graph of an artificial neuron

圖3中,vi代表輸入神經元,xi為輸入神經元狀態,wij為輸入神經元與輸出神經元hj的連接權重,bj為輸出神經元的偏置(閾值),f(·)為激活函數,yj為輸出神經元狀態.數學表達式如下:

深度學習模型通過連接權重實現數據的表達,通過共享權重和偏置實現數據的區分,權重對深度學習模型的特征提取和逐層抽象非常重要;偏置項則是相當于原始數據增加的一個維度(一個狀態為bj,權重一直為1的神經元),原始數據增加一個維度有利于數據的區分,尤其是在輸入數據維度較低的條件下.但如果輸入數據維度比較高,已經足以對數據進行區分,偏置的作用就會被弱化.因此對于本文的高維數據(本文數據維度為28像素×28像素),如果僅考慮連接權重而不考慮偏置,模型通過增加的迭代次數仍可達到它們同時作用的效果;反之則不然.

對于連接權重(權重)和偏置(狀態)的調節需要采用不同的機制.對權重而言,為每個權重參數單獨設計一個學習率,讓其根據自身的狀態自適應調節學習率及增量的大小,能加快輸入數據的穩定表達,從而提高模型的收斂速度.雖然在處理高維數據時,偏置項的作用得到了弱化,但若處理不當仍會放慢模型收斂速度,所以偏置學習率的選取應在保證下降趨勢的前提下,盡量選取計算量小的函數.后續的仿真實驗對本文提出的權重和偏置學習率設計原則的合理性進行了驗證.

2.2學習率策略

一個設計良好的學習率策略可以顯著提高深度學習模型的收斂速度,減少模型的訓練時間.全參數型學習率從機理上講,更能加快深度學習模型的收斂速度.

2.2.1AdaGrad

AdaGrad是一個自適應的全參數形式學習策略.其數學表達形式如下:

其中,η(0)為模型迭代第1次時的學習率,η(t)為模型迭代第t+1次時的學習率,g(s)為模型迭代第s次時的梯度(為了表述方便,用g代替▽Lm),K為常數項,通常K=1.

AdaGrad為模型連接權重和偏置的每個參數都單獨提供了一個統一形式學習率,每個學習率能根據梯度的變化情況自適應調整大小,并利用梯度的平方和來保證學習率呈下降趨勢.AdaGrad為研究全參數自適應學習率提供了依據.

2.2.2AdaDec

AdaDec是在AdaGrad的基礎上針對語音識別系統提出的一種改進形式,分母中的梯度部分僅由上一回合和當前梯度決定,與之前的梯度沒有關系,同時為了保證學習策略在長期的學習過程中呈現下降的趨勢,分子用一個呈下降趨勢的冪指數代替,其數學表達形式如下:

其中,p為冪指數型函數,R為最大迭代次數,q為常數項,通常取值為0.75;G(t)為當前梯度和上一次梯度的平方和,ξ為衰減因子,取值為0.999;K為常數項,取值為1.

AdaDec同樣為模型連接權重和偏置的每個參數都單獨提供了一個統一形式學習率,每個學習率在冪指數函數和最近兩個回合梯度平方和的共同作用下自適應的下降.

2.2.3AdaMix

本文在AdaGrad和AdaDec的基礎上,根據連接權重和偏置的不同特點和作用,依據本文提出的設計原則提出了一種組合形式的學習率策略:AdaMix,其數學表達式如下:

其中,αij(t)為連接權重下一回合的學習率,αij(t-1)為當前回合連接權重的學習率,g(t)2為當前回合的梯度的平方和,K=1.βi(t)和γj(t)分別為可見單元和隱含單元偏置的學習率,使用呈下降趨勢的冪指數函數,q依然取0.75.

AdaMix權重部分的學習率是在AdaGrad和AdaDec兩種學習率策略基礎上做出的改進.在上一回合的學習率的基礎上利用當前的梯度去自適應調節學習率的大小,這樣設計的學習率更能準確描述模型的運行狀態,調節得到的學習率也更合理,因此能加快模型的收斂速度,也減少了不必要的計算(歷史梯度數據).在處理高維數據時,偏置項的作用受到了弱化,因此在保證快速收斂的前提下,從減少計算量的角度出發,為偏置部分選擇了冪指數函數作為學習率,同時所有的偏置項共用此學習率.

2.3算法分析

AdaGrad引入了過多的歷史梯度數據,歷史梯度數據對當前回合的學習率的貢獻是有限的,而且當前學習率都是在初始學習率的調節基礎上得到,并不能很好地反映模型運行狀態.AdaDec是以冪指數函數作為學習率的下降趨勢,在此基礎上利用最近兩個回合的梯度數據對當前學習率進行調節,而冪指數函數并不是模型真正的收斂曲線.AdaMix則是在充分考慮了模型參數特點的基礎上,為權重設計了更能反映模型運行狀態的學習率,為偏置設計了收斂速度較好但計算量小的冪指數函數,不同類型的參數依據自身的狀態實現快速收斂.從模型的收斂條件來看,模型參數的學習率越能反映模型的運行狀態越能加快模型的收斂速度.

3 仿真實驗

為了驗證本文方法AdaMix的性能,引入常數型學習率(Cons或Cons+Cons)作為參考,設計實驗1對三種學習率策略AdaMix、AdaGrad和AdaDec的收斂性和計算量(模型運算時間)進行比較;為了驗證本文提出的權重和偏置學習率設計原則,設計實驗2、實驗3和實驗4分別研究權重和偏置的關系、不同學習率對權重的影響和不同學習率對偏置的影響;為了進一步驗證本文方法的收斂性能,設計實驗5研究不同規模數據量對本文方法(AdaMix)的影響.

實驗采用一個5層的Autoencoder模型,第1層神經元的個數為784,第2層神經元的個數為1000,第3層神經元的個數為500,第4層神經元的個數為250,第5層神經元的個數為30,各層之間的初始連接權重服從均值為0、方差為0.001的高斯分布,第1層的初始偏置由訓練數據決定,其他層的初始偏置設置為0.實驗中所提到的方法均采用相同的學習率初始值,預處理階段的學習率初始值為0.1,反向微調階段的學習率初始值為0.001.模型的重構誤差根據式(8)和式(9)計算.

3.1實驗1.AdaMix的性能

實驗比較常數型、AdaGrad、AdaDec和AdaMix四種學習率策略對深度學習模型收斂性的影響同時計算模型迭代50次時的運行時間.實驗數據為完整MNIST數據集的1/10,即訓練樣本集為6000幅圖像,測試樣本集為1000幅圖像.SGD迭代次數為5~50,步長為5.

從圖4可以看出,四種學習策略都使模型的重構誤差隨迭代次數的增加而減小并且逐步趨于穩定.在整個迭代過程中常數型、AdaGrad和AdaDec的重構誤差曲線接近,AdaMix的重構誤差曲線低于另外三種.迭代次數為50次時,常數型學習率的重構誤差為8.37,AdaGrad的重構誤差為8.47,AdaDec的重構誤差為8.22,AadMix的重構誤差為7.82.AdaMix的收斂性能最好.

與此同時,模型迭代50次時計算機仿真時間依次為693.54s,810.20s,833.79s和752.56s.常數型學習率的計算時間最短,其次是AdaMix,AdaGrad和AdaDec.雖然迭代50次時,AadMix比常數型學習率的計算時間長,但從圖4可以看出要實現相同的收斂效果,常數型學習率需要更多的迭代次數,即更長的計算時間.綜合考慮重構誤差和計算時間,AadMix的性能優于其他三種學習率.

圖4 AdaMix與其他三種方法的收斂性能比較Fig.4 Comparison of the convergence performance of AdaMix and other three methods

3.2實驗2.權重和偏置的作用

本實驗在常數型學習率策略(Cons+Cons)的基礎上,設計另外兩種形式的學習率策略.權重學習率為常數,偏置學習率為零(Cons+None)和權重的學習率為零,偏置的學習率為常數(None+Cons).比較分析連接權重和偏置對深度學習模型收斂性的影響.實驗數據為完整MNIST數據集的1/10,即訓練樣本集為6000幅圖像,測試樣本集為1000幅圖像.SGD迭代次數為5~50,步長為5.

從圖5可以看出,Cons+None和Cons+Cons兩種學習率策略使模型的重構誤差隨著迭代次數的增加逐漸減小,并且下降的趨勢是一致的,迭代50次時的重構誤差分別為9.09和8.37;None+Cons型學習率策略并沒有使模型的重構誤差隨迭代次數的增加而減少,而且一直保持在一個非常高的水平(51.40).由此可見,在處理高維數據時(本文數據的維數28像素×28像素),權重對模型的收斂起決定性的作用,偏置的作用受到了弱化.同時通過增加迭代次數,Cons+None型學習率可以獲得與Cons+Cons同樣水平的重構誤差.

圖5 權重和偏置對深度學習模型收斂性的影響Fig.5 The influence of weight and bias on the convergence of deep learning model

3.3實驗3.不同學習率對權重的影響

本實驗在常數型學習率(Cons+Cons)的基礎上,對權重部分設計五種不同形式的學習率策略.權重的學習率為指數(Exponent),偏置的學習率為常數(Exp+Cons);權重的學習率為冪指數(Power),偏置的學習率為常數(Power +Cons);權重的學習率為AdaGrad,偏置的學習率為常數(AdaGrad+Cons);權重的學習率為AdaDec,偏置的學習率為常數(AdaDec+Cons);權重為AdaMix的權重部分;偏置為常數型學習率(AdaMix+Cons).比較上述六種學習率策略對深度學習模型連接權重的影響.實驗數據為完整MNIST數據集的1/10,即訓練樣本集為6000幅圖像,測試樣本集為1000幅圖像.SGD迭代次數為5~50,步長為5.

從圖6可以看出,六種學習率策略都使模型重構誤差隨著迭代次數的增加而降低,整體趨勢一致.模型迭代50次時常數型學習率重構誤差為8.37,Exp+Cons型學習率為8.67,Power+Cons型學習率為8.38,AdaGrad+Cons型學習率為8.28,AdaDec+Cons型學習率為8.10,AdaMix +Cons型學習率為7.88.連接權重為全參數形式(后三種)的學習率策略比簡單形式(前三種)的學習率策略具有更好的收斂性能,尤其是本文提出的權重學習方式.

圖6 不同學習率對深度學習模型權重的影響Fig.6 The influence of different learning rates on the weight of deep learning model

3.4實驗4.不同學習率對偏置的影響

本實驗在常數型學習率的基礎上,對偏置部分設計五種不同形式的學習率策略.權重的學習率為常數,偏置的學習率為指數(Cons+Exp);權重的學習率為常數,偏置的學習率為冪指數(Cons+Power);權重的學習率為常數,偏置的學習率為AdaGrad(Cons+AdaGrad);權重的學習率為常數,偏置的學習率為AdaDec(Cons+AdaDec);權重的學習率為常數,偏置為AdaMix的權重部分的學習率(Cons+AdaMix).比較上述六種學習率深度學習模型偏置的影響.實驗數據為完整MNIST數據集的1/10,即訓練樣本集為6000幅圖像,測試樣本集為1000幅圖像.SGD迭代次數為5~50,步長為5.

從圖7可以看出,六種學習率策略都使模型重構誤差隨著迭代次數的增加而降低,整體趨勢一致.六種偏置的學習率性能比較接近,模型迭代50次時常數型學習率的重構誤差為8.37,Cons+Exp型學習率為8.49,Cons+Power型學習率為8.31,Cons+AdaGrad型學習率為8.54,Cons+AdaDec型學習率為8.44,Cons+AdaMix型學習率為8.45.六種學習略策略的收斂性能接近,偏置部分為冪指數形式的學習率時,模型收斂性能稍好.

圖7 不同學習率對深度學習模型偏置的影響Fig.7 The influence of different learning rates on the bias of deep learning model

3.5實驗5.數據量對AdaMix性能的影響

本實驗比較數據量對AdaMix性能的影響,數據量為完整MNIST數據集的1/10、3/10、6/10和1.SGD迭代次數為5~50,步長為5.

從圖8可以看出,AdaMix在四種數據量下,模型重構誤差隨迭代次數的增大重構誤差不斷減小.模型迭代50次時四種數據量下的重構誤差依次為7.81、5.06、4.06和3.56.在相同的迭代次數條件下,數據量越大模型的重構誤差越小,收斂速度越快.

圖8 不同數據量下的AdaMix對深度學習模型收斂性能的影響Fig.8 The convergence of deep learning model under AdaMix in different scale data sets

3.6討論

簡單形式的學習率(常數型、指數型和冪指數型等)雖然計算量低,但模型收斂速度慢.全參數形式的學習率策略(AdaGrad和AdaDec)雖然在一定程度上提高模型的收斂速度,但卻提高了模型的計算量.AdaMix是一種組合型的學習率策略,即為權重和偏置分別設計符合各自特點的學習率,與AdaGrad和AdaDec相比,在提高模型收斂速度的同時也降低了模型的運算時間.收斂速度的提高得益于權重采用全參數形式的學習率,學習率的取值與模型當前的運行狀態直接相關,所以得到的學習率更合理;計算量的降低一部分原因是權重部分減少了不必要的歷史梯度計算,另外就是偏置采取了形式簡單的冪指數函數作為學習率.當原始輸入數據維度較高時,弱化了偏置的作用、強化了權重的作用,連接權重和偏置的關系和作用得到了進一步的理解.數據量對深度學習模型收斂有很大的影響,通過增加訓練樣本集的數量可以減小模型的重構誤差、提高模型的收斂速度.

4 結論

通過對深度學習模型參數特點進行深入研究,給出了深度學習模型權重和偏置的設計原則,并在此基礎上提出了一種組合型學習策略AdaMix,經實驗證明AdaMix比Ada-Grad和AdaDec的收斂性好、計算量低.顯然細化深度學習模型中參數的學習策略是提高模型是收斂性的有效手段.

在本文的研究基礎上,擬開展的研究工作是:1)將本文方法應用到聲音、文本等其他領域的學習過程中;2)對深度學習模型采用逐層的學習策略,并對本文方法做相應的改變.

References

1 Hinton G.Where do features come from?Cognitive Science,2014,38(6):1078-1101

2 LeCun Y,Bengio Y,Hinton G.Deep learning.Nature,2015,521(7553):436-444

3 Mnih V,Kavukcuoglu K,Silver D,Rusu A A,Veness J,Bellemare M G,Graves A,Riedmiller M,Fidjeland A K,Ostrovski G,Petersen S,Beattie C,Sadik A,Antonoglou I,King H,Kumaran D,Wierstra D,Legg S,Hassabis D. Human-level control through deep reinforcement learning. Nature,2015,518(7540):529-533

4 Schmidhuber J.Deep learning in neural networks: an overview.Neural Networks,2015,61(7553):85-117

5 Gao Ying-Ying,Zhu Wei-Bin.Deep neural networks with visible intermediate layers.Acta Automatica Sinica,2015,41(9):1627-1637(高瑩瑩,朱維彬.深層神經網絡中間層可見化建模.自動化學報,2015,41(9):1627-1637)

6 Qiao Jun-Fei,Pan Guang-Yuan,Han Hong-Gui.Design and application of continuous deep belief network.Acta Automatica Sinica,2015,41(12):2138-2146(喬俊飛,潘廣源,韓紅桂.一種連續型深度信念網的設計與應用.自動化學報,2015,41(12):2138-2146)

7 Yu D,Deng L.Deep learning and its applications to signal and information processing.IEEE Signal Processing Magazine,2011,28(1):145-154

8 Hinton G E,Salakhutdinov R R.Reducing the dimensionality of data with neural networks.Science,2006,313(5786):504-507

9 Duchi J,Hazan E,Singer Y.Adaptive subgradient methods for online learning and stochastic optimization.The Journal of Machine Learning Research,2011,12:2121-2159

10 Senior A,Heigold G,Ranzato M A,Yang K.An empirical study of learning rates in deep neural networks for speech recognition.In:Proceedings of the 2013 IEEE International Conference on Acoustics,Speech,and Signal Processing. Vancouver,BC:IEEE,2013.6724-6728

11 Hinton G E,Dayan P,Frey B J,Neal R M.The“wake-sleep”algorithm for unsupervised neural networks.Science,1995,268(5214):1158-1161

12 Hinton G E,Osindero S,Teh Y W.A fast learning algorithm for deep belief nets.Neural Computation,2006,18(7):1527 -1554

13 Fischer A,Igel C.Training restricted Boltzmann machines:an introduction.Pattern Recognition,2014,47(1):25-39

14 Salakhutdinov R,Hinton G.An efficient learning procedure for deep Boltzmann machines.Neural Computation,2012,24(8):1967-2006

15 Robbins H,Monro S.A stochastic approximation method. The Annals of Mathematical Statistics,1951,22(3):400-407

16 You Z,Wang X R,Xu B.Exploring one pass learning for deep neural network training with averaged stochastic gradient descent.In:Proceedings of the 2014 IEEE International Conference on Acoustics,Speech,and Signal Processing.Florence,Italy:IEEE,2014.6854-6858

17 Klein S,Pluim J P W,Staring M,Viergever M A.Adaptive stochastic gradient descent optimisation for image registration.International Journal of Computer Vision,2009,81(3):227-239

18 Shapiro A,Wardi Y.Convergence analysis of gradient descent stochastic algorithms.Journal of Optimization Theory and Applications,1996,91(2):439-454

賀昱曜西北工業大學教授.主要研究方向為智能控制與非線性控制理論,精確制導與仿真,信息融合,現代電力電子技術與功率變換理論.

E-mail:heyyao@nwpu.edu.cn

(HE Yu-YaoProfessor at Northwestern Polytechnical University.His research interest covers intelligent control and nonlinear control theory,precision guidance and simulation,information fusion,modern power electronics technology,and power transformation theory.)

李寶奇西北工業大學博士研究生.主要研究方向為目標檢測、識別和跟蹤,信息融合,深度學習.本文通信作者.

E-mail:bqli@mail.nwpu.edu.cn

(LI Bao-QiPh.D.candidate at Northwestern Polytechnical University.His research interest covers target detection,recognition and tracking,information fusion,and deep learning.Corresponding author of this paper.)

A Combinatory Form Learning Rate Scheduling for Deep Learning Model

HE Yu-Yao1LI Bao-Qi1

A good learning rate scheduling can significantly improve the convergence rate of the deep learning model and reduce the training time.The AdaGrad and AdaDec learning strategies only provide a single form learning rate for all the parameters of the deep learning model.In this paper,AdaMix is proposed.According to the characteristics of the model parameters,and a learning rate form which is only based on the current epoch gradient is designed for the connection weights,a power exponential learning rate form is used for the bias.The test reconstruction error in the fine-turning phase of the deep learning model is used as the evaluation index.In order to verify the convergence of the deep learning based on different learning rate strategies,Autoencoder,a deep learning model,is trained to restructure the MNIST database.The experimental results show that Adamix has the lowest reconstruction error and minimum calculation compared with AdaGrad and AdaDec,so the deep learning model can quickly converge by using AdaMix.

Deep learning,learning rate,combined learning scheduling,image reconstruction

10.16383/j.aas.2016.c150681

He Yu-Yao,Li Bao-Qi.A combinatory form learning rate scheduling for deep learning model.Acta Automatica Sinica,2016,42(6):953-958

2015-10-20錄用日期2016-04-01
Manuscript received October 20,2015;accepted April 1,2016
國家自然科學基金(61271143)資助
Supported by National Natural Science Foundation of China (61271143)
本文責任編委柯登峰
Recommended by Associate Editor KE Deng-Feng
1.西北工業大學航海學院 西安710072
1.School of Marine Science and Technology,Northwestern Polytechnical University,Xi′an 710072

猜你喜歡
深度模型
一半模型
深度理解一元一次方程
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
深度觀察
深度觀察
深度觀察
深度觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 青青国产在线| 亚洲国产精品日韩av专区| 精品天海翼一区二区| 永久免费精品视频| 国产XXXX做受性欧美88| 一区二区自拍| 国产手机在线观看| 波多野结衣一区二区三区四区视频| AV老司机AV天堂| 久久毛片网| 国产精品视频观看裸模| 国产素人在线| 黄色污网站在线观看| 好紧好深好大乳无码中文字幕| 久久毛片网| 欧美激情,国产精品| 美女潮喷出白浆在线观看视频| 青青久久91| 国产精品第页| 在线观看国产网址你懂的| 高清不卡一区二区三区香蕉| 免费国产高清视频| 夜夜操狠狠操| 亚洲天堂在线免费| a毛片免费在线观看| 国产熟睡乱子伦视频网站| 国产精品国产三级国产专业不 | 久久精品亚洲中文字幕乱码| 一本大道香蕉中文日本不卡高清二区 | 国产超薄肉色丝袜网站| 亚洲中久无码永久在线观看软件 | 天天操天天噜| 亚洲国产精品一区二区高清无码久久| 国产一二三区视频| 高潮爽到爆的喷水女主播视频 | 黄色a一级视频| 久久久久无码国产精品不卡| 久久精品国产精品国产一区| 成人福利在线视频| 国产精品视频猛进猛出| 91亚洲免费| 亚洲三级网站| 国产网友愉拍精品| 狠狠干综合| 亚洲人成网站日本片| 亚洲自偷自拍另类小说| 青青国产成人免费精品视频| 天天综合网色中文字幕| 国产久操视频| 国产成人精品2021欧美日韩| 亚洲综合婷婷激情| 欧美第九页| 欧美区在线播放| 欧美午夜在线播放| 伊人天堂网| 色噜噜狠狠狠综合曰曰曰| 少妇高潮惨叫久久久久久| 色综合久久88| 毛片在线播放a| 99精品国产电影| AV在线天堂进入| 综合亚洲网| 在线高清亚洲精品二区| 亚洲视频四区| 欧美成人怡春院在线激情| 亚洲综合天堂网| 久热99这里只有精品视频6| 日韩 欧美 小说 综合网 另类| 亚洲欧美精品一中文字幕| 国产jizzjizz视频| 99精品热视频这里只有精品7| 粉嫩国产白浆在线观看| 蜜桃臀无码内射一区二区三区| 婷婷六月色| 国产一区免费在线观看| 国产欧美日韩视频怡春院| 亚洲va视频| 国产成人精品一区二区三区| 国产99久久亚洲综合精品西瓜tv| 日韩a级毛片| 日韩精品一区二区三区大桥未久 | 999精品在线视频|