999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

DropoutVNS:基于變領域搜索的dropout方法

2023-08-02 08:29:30甘桃菁朱文斌
電腦知識與技術 2023年17期
關鍵詞:標準

甘桃菁,朱文斌

(華南理工大學工商管理學院,廣東廣州 510000)

0 引言

近年來,深度學習網絡在機器翻譯[1]、圖像分類[2]等領域都有很好的表現。但是深度學習網絡具有復雜結構,有數量眾多的節點和參數,面臨著過擬合的問題。Dropout 是由Hinton 等人[3]提出的一種正則化算法,通過隨機丟失一些網絡節點,將節點的輸出置為0,以減輕過擬合問題。名詞dropout指將神經網絡中的神經元去除,同時也會暫時移除該神經元的所有輸入和輸出連接。

在一個完全連接的神經網絡中,一層網絡的定義如下:

其中,φ是一個非線性激活函數,如ReLU、tanh和sigmoid 等。xj是一個神經元的輸出,y是該層神經元的輸出,w和b分別是權重和偏差。

若增加標準的dropout,則一層的定義如下:

每個rj服從概率為p的伯努利分布,其值為0 或1。使用rj對每一個神經元的輸出xj進行控制。只有當rj=1時,該神經元才會輸出,否則為0。

在圖1 中,網絡一為標準的神經網絡。網絡二是在網絡一的基礎上運用dropout,丟棄左邊的輸入節點,此節點的輸出連接均失效。網絡三是在網絡二的基礎上再丟棄隱藏層的兩個節點,此兩個節點的輸入和輸出連接都失效,無法再傳輸任何信息。

圖1 標準網絡和運用dropout后的網絡示例圖

圖2 變領域搜索算法的示例圖

圖3 使用變領域搜索的思想看Dropout

自從dropout提出以來,它已經被成功地應用于許多深度學習模型[4-5]。人們也基于dropout 提出許多變體[6-9]。Dropout在訓練網絡的每次迭代中,會以概率p隨機丟棄節點。因此有學者提出自適應調整丟棄率p的方法[6],不需要再提前固定概率p。Wan 等人[8]提出DropConnect,不再是隨機丟棄某個神經元,而是隨機丟棄某個神經元的某個連接權重。

為了探究Dropout 良好表現的原因,各個研究者從不同的角度對其進行分析。Wager等人[10]將dropout視為一種自適應L2 正則化技術,并提出dropout 和自適應優化算法AdaGrad[11]相關。還有一些研究試圖用不同的理論去解釋dropout。Gao 和Zhou[12]表明dropout 可以幫助降低深層神經網絡的拉德馬赫復雜性。而Gal 等人[13]則從貝葉斯的角度討論dropout,把它當作深度高斯過程的近似。

在dropout 被提出的原始論文中,Hinton 認為dropout 隨機使一些神經元的輸出變為0,打破神經元之間的固定聯系,可以防止神經元之間的協同適應[3-5]。協同適應可以解釋為一個過程,通過這個過程,多個節點的表現會趨向一致,互相之間更加依賴。這種現象也稱為共同適用問題[13-14]。與此同時,Hinton 還將dropout 描述為一種集成技術,用共享參數集成許多子網絡。因此,Hinton認為在訓練過程中丟棄神經元實際上是訓練指數數量的稀疏網絡,并在測試階段對這些網絡的結果進行平均,這個過程也稱為模型組合。

1 Dropout與VNS

Dropout是一種模型組合方法,這與求解組合優化時常用的一種算法有相似之處:變鄰域搜索算法(Variable Neighborhood Search,VNS)[15]。VNS 是Mladenovic和Hansen 提出的一種改進的局部搜索算法。局部搜索算法是一種近似算法,其基本原理是在鄰近解中不斷迭代,使目標函數逐步優化,直至不能再優化為止。爬山法、模擬退火算法都屬于局部搜索算法。在搜索過程中,VNS是在不同的領域中交替地進行局部搜索,因此更容易跳出局部最優解。若用爬山的思想來解釋變領域搜索,相當于爬到最高的山峰后,再變化到另一個爬山地形,繼續爬到該地形的最高點。

Dropout 在每次訓練時會隨機丟棄神經元,相當于每次訓練時隨機切換一個新的訓練網絡。因此可以將不同的訓練網絡視作不同的搜索區域,每次的訓練過程視為在當前搜索區域上尋找最大或者最小值。因此,可以用變領域搜索算法的思想來解釋Dropout。

通常用于訓練神經網絡的數據集較大,所以在每次訓練時只會選擇一部分的數據用來訓練。人們通常將這稱為批訓練法,其中批也稱為batch。若一個完整的數據集有100個數據,每個批次的大小為5,則整個數據集會分為20 個batch 數據。因此Dropout 是使用不同的網絡去訓練不同batch的數據。

但使用Dropout算法后的訓練時間通常是具有相同架構的標準神經網絡的2~3 倍。這可能是因為每個網絡在一個batch 的數據上訓練一次后,就被隨機替換成下一個網絡。這個過程相當于爬山還沒爬到局部最高點,僅僅是在最高點的方向上前進一步,就切換成下一個爬山地形。因此標準的Dropout 與VNS有一定差別。參照VNS 的思想,可以提出一個基于Dropout的算法:DropoutVNS,其與標準Dropout的不同點在于切換訓練網絡的標準不同。

2 DropoutVNS

不同于Dropout 隨機切換訓練網絡,DropoutVNS使用多個batch 數據訓練到穩定時再切換網絡。“穩定”被定義為相鄰兩次batch 數據得到的訓練指標相近。若訓練時使用的評判指標為a,第i次訓練得到的指標結果為ai,則第i次訓練穩定的公式表達如下:

其中,ε稱為穩定參數,可以選擇10-5、10-6等。在后續實驗中會評估不同的ε對模型結果的影響。若可隨機丟棄的神經元個數為N,則dropout算法在每次切換網絡時,可以在2N個網絡中選擇,定義這些網絡的集合為D。若整個數據集可以分為M個batch數據,則標準dropout 會切換M 次網絡,而dropoutVNS 的切換次數會小于等于M。

為了更好地解釋dropoutVNS,這里定義三個訓練算法:標準算法、dropoutVNS以及dropout。

1)標準算法:一直使用一個完整網絡來訓練。

2)dropoutVNS:使用多個batch數據訓練同一個網絡到穩定時,再隨機選擇下一個網絡。其中每個網絡都是屬于集合D,每個網絡會以一定概率丟棄節點。

3)dropout:每輸入一個batch的數據就切換一個網絡來訓練,每次會隨機刪掉完整網絡中的某些節點。其中每個網絡都是屬于集合D。

DropoutVNS 與dropout 最大的不同在于,切換網絡時dropoutVNS是使用多個batch數據訓練到穩定后再切換下一個網絡,而dropout 是每個batch 數據都隨機切換一個網絡。

在圖4 中,每個算法都訓練5 個batch 的數據,而標準算法的切換次數為0,一直使用完整網絡訓練。Dropout 算法的切換次數為5,每訓練一個batch 數據就會隨機切換一個網絡,DropoutVNS的切換次數為2,只在訓練穩定時才會切換網絡。

圖4 不同算法的訓練示例圖

3 實驗分析

為了評估dropoutVNS對模型性能的提升效果,在三個圖像分類數據集上分別進行實驗分析:MNIST[16]、CIFAR-10、CIFAR-100[17]。

與Hinton等人[3]在2012年發表的論文中采用的網絡結構一致,在MNIST上使用只有全連接層的神經網絡,在CIFAR-10、CIFAR-100 上使用卷積神經網絡。在這些實驗中,目標是研究dropoutVNS相較于標準算法和dropout算法,是否能夠提高模型的預測性能。

3.1 MNIST數據集

本次實驗數據集使用MNIST 數據集。網絡結構為784-1024-1024-1024-10,有三個節點數為1 024的隱藏層,輸入和輸出節點數分別為784和10。激活函數使用ReLU。訓練時使用批訓練方法,每個batch有60個數據,共有1 000個batch。最后使用整個數據集訓練100次,即epoch為100。一共重復5次實驗,每次實驗取最后一個epoch 在測試集上的error 值,然后計算5次實驗的error的平均值和標準差。

選擇3 個穩定參數ε,從0.000 01,依次減少100倍,直到0.000 000 001,目的是觀察其對模型性能的影響。表1 總結了3 種算法,以及dropoutVNS 中不同穩定參數在MNIST 數據集上的測試集error 值以及訓練時間。

表1 不同算法在MNIST數據集上的測試集error值以及訓練時間

其中,測試集error 值的單位為%,測試集error 值為1.89,指的是有1.89%的圖像被錯誤分類,剩下的圖像被正確歸類。因此error也稱為分類錯誤率,而準確率=1-錯誤率。在測試集error 值中,±符號后面的數字是相應的標準差。丟棄概率p固定為0.5,即網絡中的每個節點有50%的可能被丟棄。穩定參數為0.000 01 指的是穩定條件為兩次訓練的error 之差的絕對值小于0.000 01,當達到穩定條件時dropoutVNS 會切換一次網絡。

從表1 可知,在模型性能方面,當穩定參數為0.000 000 1時,dropoutVNS與dropout的預測性能相差不大。而在其他的穩定參數下,dropoutVNS均比dropout 在模型預測性能方面有略微提升。總體而言,dropoutVNS 相比dropout 可以提升模型的預測性能。而dropoutVNS 也比標準的算法網絡提升約3%的準確率。

在訓練時間方面,無論選擇哪個穩定參數,dropoutVNS 的訓練時間都比dropout 算法的訓練時間少。即在MNIST數據集上,dropoutVNS使用更少的訓練時間,就達到與dropout相同甚至比其更好的預測性能。

3.2 CIFAR-10數據集

本次實驗使用CIFAR-10數據集。網絡結構則為卷積神經網絡,共有三個卷積層,卷積核分別為96、128、256,后接兩個節點數為1 024 的全連接層,最后的輸出節點數為10。在每個卷積層和全連接層后面均加入dropout或者dropoutVNS,激活函數為ReLU,學習率為0.001,使用Momentum 優化器并且momentum值為0.9。在批訓練參數方面,每個batch 有64 個數據,因此共有781個batch,并使用整個數據集訓練300次。其余實驗設置與使用MNIST 數據集的實驗設置相同。

從表2可知,在不同的穩定參數下,dropoutVNS均比dropout 可以更好地提升模型預測能力,其中,最好的是穩定參數為0.000 01 的dropoutVNS,其error 相較于dropout 減少約1%。而dropoutVNS 也比標準的算法網絡提升約4%的準確率。

表2 不同算法在CIFAR-10數據集上的測試集error值以及訓練時間

在訓練時間方面,兩者相差不大。即dropoutVNS使用幾乎相同的時間,就比dropout 算法提升約1%的準確率。

3.3 CIFAR-100數據集

本次實驗使用預測難度更大的數據集CIFAR-100,CIFAR-100 相比CIFAR-10 擁有更多的圖像類別。網絡結構同樣選用卷積神經網絡,有三個卷積層,卷積核分別為96、128、256,兩個節點數為1 024的全連接層,輸出節點數為100。在卷積網絡的卷積層和全連接層后面均加入dropout或dropoutVNS,激活函數為ReLU,學習率為0.001,使用Momentum優化器且momentum值為0.9。在整個數據集的訓練次數上,因為CIFAR-100 更難訓練,所以epoch 增大到700。其余實驗設置與使用CIFAR-10 數據集的實驗設置相同。

從表3可知,在不同的穩定參數下,dropoutVNS均比dropout在模型預測性能方面有較大提升。其中,最好的是穩定參數為0.000 000 1的dropoutVNS,相較于dropout 減少約2%的測試集error 值。而dropoutVNS也比標準的算法網絡提升約6%的準確率。

表3 不同算法在CIFAR-100數據集上的測試集error值以及訓練時間

在訓練時間方面,相較于dropout,dropoutVNS 使用的訓練時間更少,可以減少約20分鐘的時間。即在CIFAR-100 數據集上,dropoutVNS 使用更少的時間,就可以比dropout算法提升約2%的準確率。

3.4 實驗總結

分別在三個常用的圖像分類數據集中,比較dropoutVNS、dropout 和標準網絡的性能。同時,在使用dropoutVNS算法時選取不同的穩定參數,分析穩定參數對模型性能的影響。以上實驗結果說明,dropout-VNS相較于標準網絡能大大提高模型的預測能力,其中在CIFAR-100 數據集上可以提升約6%的準確率。而dropoutVNS 相較于dropout 也能實現更好的模型預測性能。在MNIST數據集上,dropoutVNS使用更少的訓練時間,就達到與dropout相同甚至比其更好的預測性能。在CIFAR-10 數據集上,dropoutVNS 使用幾乎相同的訓練時間就可以獲得更小的錯誤率。在CIFAR-100數據集上,dropoutVNS使用更少的訓練時間就獲得更小的錯誤率。

4 結束語

Dropout 切換訓練網絡與VNS 變化領域搜索有相似之處,可以將Dropout 看作是一種特殊的變領域搜索算法。但Dropout 在切換訓練網絡時是完全隨機的,而VNS 是在找到局部最優點后才變化領域。因此,在標準Dropout的基礎上進行改進,將切換訓練網絡的標準改為穩定后再切換,從而提出一種新的正則化方法:DropoutVNS。在三個圖像分類數據集的實驗結果均表明,DropoutVNS明顯優于標準的網絡,在CIFAR-100數據集上可以提升約6%的準確率。與此同時DropoutVNS 也優于Dropout,可以提升模型預測性能,提高圖像分類的準確性,減少訓練時間。

猜你喜歡
標準
2022 年3 月實施的工程建設標準
忠誠的標準
當代陜西(2019年8期)2019-05-09 02:22:48
標準匯編
上海建材(2019年1期)2019-04-25 06:30:48
美還是丑?
你可能還在被不靠譜的對比度標準忽悠
一家之言:新標準將解決快遞業“成長中的煩惱”
專用汽車(2016年4期)2016-03-01 04:13:43
2015年9月新到標準清單
標準觀察
標準觀察
標準觀察
主站蜘蛛池模板: 国产精品无码一区二区桃花视频| 性欧美在线| 91网址在线播放| 国产成人高清精品免费软件| 亚洲AV免费一区二区三区| 亚洲国产成人麻豆精品| 久久亚洲精少妇毛片午夜无码 | a在线观看免费| 午夜天堂视频| 国产成人一区| 国产精品亚洲一区二区三区在线观看 | 国产一区亚洲一区| 91精品视频网站| 欧美 国产 人人视频| 日韩在线视频网| 亚洲伦理一区二区| 99热最新网址| 国产精鲁鲁网在线视频| 欧美专区日韩专区| 欧美三级自拍| 成人精品免费视频| 色综合网址| 国产欧美精品午夜在线播放| 亚洲天堂网站在线| 99热国产在线精品99| 国产另类视频| 2020久久国产综合精品swag| 亚洲视频一区在线| 最新精品国偷自产在线| 国产中文在线亚洲精品官网| 国产在线高清一级毛片| 色婷婷色丁香| 成人va亚洲va欧美天堂| 亚洲天堂久久| 试看120秒男女啪啪免费| 综合五月天网| 性视频一区| 亚洲国产成人综合精品2020| 亚洲永久视频| 国产地址二永久伊甸园| 国产成人精品第一区二区| 91视频区| 久久久久久久蜜桃| 三区在线视频| AV在线麻免费观看网站| 99免费视频观看| 日韩中文欧美| 国产浮力第一页永久地址| 在线无码私拍| 亚洲中文字幕在线观看| 高清国产在线| 日本影院一区| 国产视频你懂得| 欧美精品在线看| 国产精品网拍在线| 一级毛片在线播放免费观看| 欧美五月婷婷| 国产精品视频猛进猛出| 2021国产精品自产拍在线| 亚洲成人免费在线| 国产综合在线观看视频| 亚洲一区波多野结衣二区三区| 国产av剧情无码精品色午夜| 国产精品男人的天堂| 国产本道久久一区二区三区| 在线播放国产一区| 影音先锋丝袜制服| 亚洲精品第一页不卡| 国产91色在线| h网址在线观看| 亚洲av色吊丝无码| 国产视频入口| 日韩欧美一区在线观看| 国产精品视频久| 亚洲视频三级| 97在线国产视频| 91系列在线观看| 亚洲系列中文字幕一区二区| 香蕉国产精品视频| 欧美激情视频一区二区三区免费| 香蕉视频在线观看www| 美女一区二区在线观看|