999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于動量項分離的深度學習優化算法

2022-03-15 10:31:50文晨銳楊歆豪張嘉慧
計算機仿真 2022年2期
關鍵詞:實驗模型

文晨銳,楊歆豪,張嘉慧,張 珂

(蘇州大學機電工程學院,江蘇 蘇州 215006)

1 引言

隨著深度學習的發展,圖像識別等各類任務已由傳統的手工提取特征轉向神經網絡自動提取特征,同時隨著神經網絡架構逐漸變深,其參數量也越來越大,參數的更新問題是實現網絡進行圖像識別等任務的基本問題[1-4]。神經網絡訓練的關鍵在于用優化器進行參數更新,根據調整學習速率策略的不同,將優化器分為兩類:①手動調整學習速率優化器,如隨機梯度下降法(Stochastic Gradient Descent,SGD)、帶有動量的SGD算法(Stochastic Gradient Descent with Momentum,SM)等[5-7]。②自動學習速率優化器,如Adagrad(Adaptive gradient algorithm)、RMSProp(Root Mean Square Prop)、Adam等[8,9]。

盡管自動學習速率優化器在許多深度學習任務中取得了成功,但是有研究[10]表明,手動調整學習速率的優化器能夠以相同甚至更快的速度獲得更好的結果。目前深度模型的研究工作,由于自動學習速率優化器的泛化效果較差,通常采用基于動量的方法進行訓練。

深度模型中運用廣泛的優化器大多基于梯度的優化方法。SGD算法的前身是梯度下降法,該方法簡單易理解,但它受到大數據集冗余計算的限制。SGD算法通過對整個數據集的隨機子集進行采樣,解決了梯度下降法因數據集過大而訓練過慢的問題。然而SGD算法因隨機梯度導致下降速度較慢,且易在局部最優點附近振蕩。SM算法在原有的SGD算法的基礎上加入動量項,即將先前累積的梯度方向作為當前下降方向的重要參考,加快了梯度下降,但SGD算法存在的局部最優點振蕩問題并沒有在此得到解決。當出現局部最優點振蕩,訓練過程將花費更多的時間成本和計算成本,同時會阻礙SM算法收斂,因此,緩解該問題能夠節約資源以及實現更好的收斂。

動量項的存在使得過去累積梯度時刻對當前梯度作用,正是如此,當出現在局部最優點時,過去累積梯度促進當前梯度繼續向著原始方向前進,從而產生局部最優點振蕩。本文提出了一種用于深度網絡訓練的優化算法——SSM(Separated SM)算法。通過分離動量項,防止當前梯度受過去累積梯度的影響,從而緩解局部最優點振蕩問題,這是其它優化算法中不曾考慮的方面。本文的主要工作如下:①提出一種用曲率半徑分離動量項的一階動量算法。②采用不同網絡模型以及利用不同的數據集進行訓練測試,驗證算法的可行性與準確性。

2 問題分析

SM算法[6]通過積累過去梯度的指數衰減移動平均值,調節梯度方向,朝著一致的方向移動,其擬合速度快。更新規則如下所示

vt+1=αvt-r?Lt

θt+1=θt+vt+1

(1)

其中vt是指歷史梯度積累,α∈(0,1)是衰減移動平均值。由Wangpeng An的研究[10]所知,?Lt表示的梯度,可將其理解為誤差et,因此將上式展開后可得到

(2)

式中,α是為了解決在進行小批量訓練時隨機梯度的問題,減少干擾。

將該算法運用到一個正定二次目標q(x)=xTAx/2+bTx中進行定量分析,A=UTDU,用y=Ux重新參數化q(x)可得

p(y)≡q(x)=yTDy/2+(Ub)Ty

(3)

式中[p]i(t)=λit2/2+cit,c=Ub,λi>0為A矩陣的特征值。用SMz(α,p,y,v)表示參數向量,z∈{x,v},可得:

SMz(α,p,y,v)=αv-r?p(y)

(4)

從式(4)可以看出SM算法可同時作用n個一維參數向量,動量存在于每項單維參數問題中,作用于參數更新過程。

SM算法的動量項使得當前梯度受過去累積梯度的影響,實際上從研究中可以得出,SM算法在任何情況下都使用過去累積梯度來影響當前梯度,這會導致當前梯度方向產生偏差。尤其是當梯度在局部最優點附近時,過去累積梯度會直接影響當前梯度向前探尋,由此,該算法出現在局部最優點附近振蕩。

此外,Ilya Sutskever的研究[12]表明,在一個二維橢圓二次目標中,SM算法所采取的優化路徑沿高曲率垂直方向表現出較大的振蕩。本文嘗試用SM算法找尋Rosenbrock函數[13]的最小值,初始點設置為(1,0),20次迭代結果如圖1所示。由圖1(b)圖可以看出,SM算法在到達最小值后仍有明顯的軌跡上升,由左側的等高線圖可以看出,迭代軌跡明顯遠離最小值。因此證明動量項的存在有時阻礙了擬合過程。

圖1 SM算法的迭代路徑圖

3 動量項分離算法設計

SM算法引入的動量項考慮了過去和現在的梯度,依此更新網絡參數。而當過去累積梯度超過當前梯度太多,則無法修正更新方向,從而出現振蕩現象。因此,需要在適當的時機減弱過去累計梯度的影響,本文借助曲率適當消除動量項。

曲率能夠表明參數在某一時刻的變化程度,曲率半徑能夠描述曲率的變化,進而能夠描述參數值的變化情況。不同時刻下的參數點的曲率各不相同[14]。常用的曲率的數學公式為

(5)

當曲率半徑小于閾值時,去掉動量項,以免累積梯度影響當前更新方向;當曲率半徑大于閾值時,保留動量項,加速梯度下降。為了實現對動量項的限制,設置了一個動量開關項,如式(6)所示

η(ρt,λ)=ρt1{ρt>λ}

(6)

η(ρt,λ)是動量開關項,ρt為當前時刻的曲率半徑,λ為曲率半徑閾值。

(7)

參數更新規則如式(7)所示,式中的α指的是動量項系數,設為0.999,?Lt是t時刻的梯度。

由于該算法借助曲率半徑限制動量項,因此需要選擇曲率半徑閾值λ。使用Resnet模型對CIFAR10數據集進行圖像識別,優化階段使用本文的算法,通過對曲率數據的觀測,將曲率半徑范圍限制在[10,70]進行實驗,實驗結果如下表1所示。

表1 不同曲率半徑下驗證集的準確率

前兩次迭代的準確率在閾值為60、70時最高,從第三次迭代到第七次迭代,λ=20時,準確率呈現平穩小波動上升,第八次到第十次迭代,λ=30時,隨著迭代次數的增加,準確率逐漸升高,第十次迭代準確率可達79.97%。整體數據來看,曲率半徑閾值為30時,準確率呈現出無大幅振蕩的上升趨勢。因此,后續的迭代閾值設為30。初始化閾值設為60,閾值設定具體見式(8),第四章實驗部分表明,在不同的數據集以及不同的深度模型下,實驗效果較好。

(8)

將本文算法運用到正定二次目標q(x),用SSMz(α,p,y,v)表示參數向量,可得

SSMz(α,p,y,v)=αηv-r?p(y)

(9)

在高曲率特征方向,曲率半徑較小,ηi為0時,即表示對于第i個參數變化到高曲率部分,在高曲率特征方向消除動量項,可以防止振蕩。

同樣,用本文算法找尋Rosenbrock函數[13]的最小值,初始點設置相同,20次迭代結果如圖2所示。由圖2(b)可以看出,SSM算法在到達最小值后軌跡同樣出現上升趨勢,但上升趨勢不大。由左側的等高線圖可以看出,迭代軌跡集中在最小值附近。對比圖1圖2,SSM算法能夠緩解振蕩問題。

4 實驗內容

為了驗證SSM算法的有效性,本文分別在三個公開數據集MNIST、CIFAR10和CIFAR100上進行實驗[16,17]。MNIST為數字手寫體數據集,MNIST是數據集NIST的子集,包含60000個訓練數據和10000個測試數據,圖像是固定為28×28大小的灰度圖像。cifar-10數據集共有60000張RGB圖像,圖像大小為32×32,圖像標簽分為10個類,每類6000張圖像。在此數據集上,分別在Resnet模型和Densenet模型上進行實驗[18,19],在兩個模型上分別對SM算法和SSM算法進行對比實驗。

此外,本文算法與SM算法在CIFAR100的數據集上進行對比,測試不同數據集下的算法的準確性。CIFAR100數據集包含100小類,每小類包含600張圖像,分別是500張訓練圖像和100張測試圖像。100小類被分組為20個大類,這是比CIFAR10更精細分類的數據集。實驗所用的計算機配置為:Intel Core i5-8300H CPU,8GB RAM,GPU為GeForce GTX 1050Ti。

4.1 MNIST數據集實驗結果

為了對比本文算法與SM算法的性能,本文首先用MNIST數據集訓練LeNet,20次迭代的訓練批大小為64,學習率設為0.1。經實驗所得實驗結果如圖3所示。

圖3 MNIST數據集對比實驗結果

SM算法早期準確率在正常范圍內,由圖3(a)可知,在第六次迭代時,測試集準確率尚在94.87%,在第七次迭代時極速衰減至10.28%,圖3(b)中損失也相應地極速增大。該現象表明前六次累積梯度影響了第七次迭代的下降方向,使其偏離尋優軌跡。

反觀本文算法,前期準確率就高于SM算法2%,整體曲線保持波動不大的水平狀態,準確率穩定在98%上下,由此表明,本文算法相較于SM算法并未因學習步長大而大量累積過去梯度,該實驗結果證明了本文算法的優良性能。

4.2 Resnet模型下不同算法的對比實驗

本文采用Resnet模型[18]對SM算法和本文的算法進行對比驗證。實驗初始化學習率為0.1,迭代次數為100時,降至0.01,迭代次數為200時,降至0.0001。實驗結果如圖4所示。

圖4 Resnet模型下不同算法的對比實驗結果

從圖4(a)中可以看出,本文的SSM算法訓練集的準確率整體高于SM算法。學習率為0.1的100次迭代過程中,本文算法準確率高出SM算法準確率的2%,訓練至220次時最終準確率持平于99.8%左右。測試集的準確率如圖4(b)所示,學習率為0.1的100次迭代過程中,本文算法的準確率普遍高于SM算法,平均高出2%,且準確率曲線波動幅度較小。前100次迭代可以看出目標函數已到達最優點附近,當學習率降至0.01時,參數更新的步伐變小,準確率有了顯著提升。從圖中可以看出,第100次迭代到第200次迭代過程中,SM算法出現了明顯的局部最優點振蕩問題,而本文的算法明顯改善了該問題,使得準確率保持在92.5%左右。

4.3 Densenet模型下不同算法的對比實驗

Densenet通過通道上的連接實現特征重復利用,所需的參數和計算成本相較于Resnet更少[19]。本文為驗證不同模型下算法的有效性,在CIFAR10數據集上使用Densenet模型進行訓練和驗證,初始化學習率為0.1,Densenet的深度設為19,設定迭代次數為150,在迭代次數為100時,學習率降為0.01,實驗結果如圖5所示。

圖5 Densenet模型下不同算法的對比實驗

訓練集的準確率曲線由圖5(a)展現,本文的SSM算法150次迭代后最終的準確率為90.63%,而SM算法的訓練集準確率最高為88.12%。測試集的準確率如圖5(b)所示,由前100次迭代過程可以看出,由于學習率較大,準確率曲線振蕩明顯,本文算法所呈現的準確率普遍高于SM算法,但振蕩程度有所改善。當學習率降至0.01時,本文的SSM算法的測試集準確率基本穩定在87.17%,而SM算法仍振蕩明顯,平均準確率為84.8%。實驗結果表明用不同的網絡模型訓練能達到相同的改善效果,局部最優點的振蕩問題均得以改善。

4.4 CIFAR100數據集的性能測試實驗

本文在CIFAR100數據集進行SM算法與SSM算法的對比實驗。運用深度為22的Resnet模型對該數據集進行訓練和測試,初始學習率為0.1,迭代100次時降至0.01,實驗結果如表2所示。

表2 不同算法準確率與損失的比較

針對CIFAR100數據集,實驗將SM算法分別與曲率半徑閾值為30、40、50的SSM算法進行實驗對比。實驗分別計算出不同算法的前100次迭代與后50次迭代的驗證集準確率及訓練集準確率,分別計算出不同算法的訓練集與驗證集損失函數的最小值。從表中可以看出,前100次迭代,SM算法的驗證集準確率平均為46.70%,后50次迭代提升至66.53%,而曲率半徑閾值為40的SSM算法,驗證集準確率高出SM算法1.3%。由此可知,針對不同的數據集,本文提出的SSM算法仍能表現出良好的性能。

5 結論

本文針對優化算法中常見的局部最優點振蕩問題,提出了一種動量項分離的優化算法。通過計算目標函數在每個時刻的曲率半徑,根據閾值確定動量項能否存在,從而緩解振蕩。從模型準確性和擬合速度上得到如下結論:①準確性上,在不同模型結構以及數據集中進行實驗對比,SSM算法相較于SM算法,具有高準確率、快速穩定收斂的特點,且能夠適當減少迭代次數。該算法相較于一階動量算法,準確率平均提升了2個百分點。②擬合速度上,本文的算法由于引入附加的參數,每次迭代相較于SM算法會花費多一點時間,迭代速度會變緩,然而,由于局部最優點振蕩變弱,迭代次數相應能夠較少,總的迭代時間會縮短,提高一定的擬合速度。

綜上所述,本文提出的SSM算法具有較高的準確率,同時能夠穩定而快速地實現任務,是實現參數更新的一種有效的優化算法。

猜你喜歡
實驗模型
一半模型
記一次有趣的實驗
微型實驗里看“燃燒”
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
做個怪怪長實驗
3D打印中的模型分割與打包
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 亚洲啪啪网| 欧美三级自拍| 国产一级毛片yw| 全部免费特黄特色大片视频| 成人免费网站在线观看| 中文字幕在线播放不卡| 在线a视频免费观看| 国产本道久久一区二区三区| 国产精品视频999| 欧美一区二区三区欧美日韩亚洲| 国产一区二区三区在线观看视频| 中文字幕66页| 国产本道久久一区二区三区| 青青热久麻豆精品视频在线观看| 超清无码一区二区三区| 3344在线观看无码| 一级黄色网站在线免费看| 国产爽歪歪免费视频在线观看 | 欧美精品xx| 天天综合天天综合| 亚洲欧美成人综合| 国产精品网址你懂的| 亚洲第一网站男人都懂| 国产福利免费在线观看| 国产真实自在自线免费精品| 亚洲大学生视频在线播放| 国产性猛交XXXX免费看| 亚洲天堂网2014| 99热最新网址| 久久美女精品国产精品亚洲| 97国产在线观看| 午夜a视频| 久久天天躁夜夜躁狠狠| 欧洲在线免费视频| 欧美亚洲国产精品第一页| 青青青国产精品国产精品美女| 欧美区一区二区三| 欧美性精品| 香蕉视频在线精品| 国产微拍一区| 91日本在线观看亚洲精品| 欧美成人精品一级在线观看| 亚洲性影院| 呦系列视频一区二区三区| 老司机午夜精品视频你懂的| 精品第一国产综合精品Aⅴ| 国产大片喷水在线在线视频| 亚洲综合九九| a国产精品| 国产自在自线午夜精品视频| 国产欧美在线| 国产网站免费观看| 精品国产电影久久九九| 成人字幕网视频在线观看| 一级成人a做片免费| 国产精品林美惠子在线播放| 青青草国产在线视频| 91青青草视频在线观看的| 亚洲国产清纯| 日韩在线网址| 国产精品9| 亚洲日韩精品无码专区97| 午夜a级毛片| 99久久国产综合精品女同| 国内精品久久九九国产精品 | 亚洲人成网站在线观看播放不卡| 青青青草国产| 2048国产精品原创综合在线| 国产福利观看| 国产午夜福利在线小视频| a在线亚洲男人的天堂试看| 91伊人国产| 日韩一二三区视频精品| 亚洲一区网站| 日韩福利在线观看| 国产黑人在线| 91国内在线视频| 高清码无在线看| 亚洲色图欧美一区| 国产成人精品高清在线| 精品撒尿视频一区二区三区| 国产欧美日韩另类精彩视频|