999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

改進(jìn)的彈性網(wǎng)模型在深度神經(jīng)網(wǎng)絡(luò)中的應(yīng)用

2019-11-15 04:49:03馮明皓張?zhí)靷?/span>王林輝陳榮連少靜
計(jì)算機(jī)應(yīng)用 2019年10期
關(guān)鍵詞:深度學(xué)習(xí)

馮明皓 張?zhí)靷? 王林輝 陳榮 連少靜

摘 要:由于具有較高的模型復(fù)雜度,深層神經(jīng)網(wǎng)絡(luò)容易產(chǎn)生過(guò)擬合問(wèn)題,為了減少該問(wèn)題對(duì)網(wǎng)絡(luò)性能的不利影響,提出一種基于改進(jìn)的彈性網(wǎng)模型的深度學(xué)習(xí)優(yōu)化方法。首先,考慮到變量之間的相關(guān)性,對(duì)彈性網(wǎng)模型中的L1范數(shù)的不同變量進(jìn)行自適應(yīng)加權(quán),從而得到L2范數(shù)與自適應(yīng)加權(quán)的L1范數(shù)的線性組合。其次,將改進(jìn)的彈性網(wǎng)絡(luò)模型與深度學(xué)習(xí)的優(yōu)化模型相結(jié)合,給出在這種新正則項(xiàng)約束下求解神經(jīng)網(wǎng)絡(luò)參數(shù)的過(guò)程。然后,推導(dǎo)出改進(jìn)的彈性網(wǎng)模型在神經(jīng)網(wǎng)絡(luò)優(yōu)化中具有群組選擇能力和Oracle性質(zhì),進(jìn)而從理論上保證該模型是一種更加魯棒的正則化方法。最后,在多個(gè)回歸問(wèn)題和分類(lèi)問(wèn)題的實(shí)驗(yàn)中,相對(duì)于L1、L2和彈性網(wǎng)正則項(xiàng),該方法的回歸測(cè)試誤差可分別平均降低分類(lèi)測(cè)試準(zhǔn)確度可分別平均提高3.98、2.92和3.58個(gè)百分點(diǎn)。由此,在理論和實(shí)驗(yàn)兩方面驗(yàn)證了改進(jìn)的彈性網(wǎng)模型可以有效地增強(qiáng)深層神經(jīng)網(wǎng)絡(luò)的泛化能力,提升優(yōu)化算法的性能,解決深度學(xué)習(xí)的過(guò)擬合問(wèn)題。

關(guān)鍵詞: 神經(jīng)網(wǎng)絡(luò)模型;深度學(xué)習(xí);正則化方法;彈性網(wǎng)模型;過(guò)擬合

中圖分類(lèi)號(hào):TP183

文獻(xiàn)標(biāo)志碼:A

Abstract:? Deep neural networks tend to suffer from overfitting problem because of the high complexity of the model.To reduce the adverse eeffects of the problem on the network performance,?an improved elastic network model based deep learning optimization method was proposed. Firstly, considering the strong correlation between the variables, the adaptive weights were assigned to different variables of L1-norm in elastic network model, so that the linear combination of the L2-norm and the adaptively weighted L1-norm was obtained. Then, the solving process of neural network parameters under this new regularization term was given by combining improved elastic network model with the deep learning optimization model. Moreover, the robustness of this proposed model was theoretically demonstrated by showing the grouping selection ability and Oracle property of the improved elastic network model in the optimization of neural network. At last, in regression and classification experiments, the proposed model was compared with L1-norm, L2-norm and elastic network regularization term, and had the regression error decreased by 87.09, 88.54 and 47.02 and the classification accuracy improved by 3.98, 2.92 and 3.58 percentage points respectively. Thus, theory and experimental results prove that the improved elastic network model can effectively improve the generalization ability of deep neural network model and the performance of optimization algorithm, and solve the overfitting problem of deep learning.

Key words:? neural network model; deep learning; regularization method; elastic network model; overfitting

0 引言

近年來(lái),深度學(xué)習(xí)[1]技術(shù)受到廣泛關(guān)注,并在眾多應(yīng)用領(lǐng)域有著較好表現(xiàn)。理論上,深層神經(jīng)網(wǎng)絡(luò)能夠擬合任意分布的數(shù)據(jù),但是在實(shí)際中,有限的數(shù)據(jù)資源和較高的模型復(fù)雜度使得神經(jīng)網(wǎng)絡(luò)很難具有理想的泛化能力,過(guò)擬合現(xiàn)象由此產(chǎn)生。該現(xiàn)象是機(jī)器學(xué)習(xí)中一種常見(jiàn)的病態(tài)問(wèn)題,解決該問(wèn)題的方法通常分為三種:第一種是擴(kuò)充訓(xùn)練數(shù)據(jù)規(guī)模,例如,Szegedy等[2]通過(guò)對(duì)原有圖像樣例進(jìn)行翻轉(zhuǎn)、裁剪等變化來(lái)增加訓(xùn)練數(shù)據(jù),從而提升了神經(jīng)網(wǎng)絡(luò)在圖像分類(lèi)中的性能;與之不同,陳文兵等[3]通過(guò)生成小樣本數(shù)據(jù)來(lái)增加訓(xùn)練樣本的數(shù)量,這種合成數(shù)據(jù)的方法同樣可以降低神經(jīng)網(wǎng)絡(luò)的過(guò)擬合程度。第二種是更改訓(xùn)練方式,最具代表性的工作是Dropout[4],該方法通過(guò)在每次優(yōu)化迭代中隨機(jī)刪除一些神經(jīng)元來(lái)降低模型的復(fù)雜程度;除此之外,Zhang等[5]通過(guò)監(jiān)控?fù)p失值的變化來(lái)決定網(wǎng)絡(luò)訓(xùn)練的中止或重啟,從而避免過(guò)擬合問(wèn)題。第三種是在損失函數(shù)中引入正則項(xiàng)因子,對(duì)網(wǎng)絡(luò)模型中的參數(shù)進(jìn)行約束優(yōu)化求解。與第一種方法相比,正則化方法沒(méi)有增加額外的訓(xùn)練數(shù)據(jù),從而不會(huì)加劇計(jì)算負(fù)擔(dān),同時(shí),也不會(huì)受到冗余數(shù)據(jù)和噪聲數(shù)據(jù)的影響;與第二種方法相比,正則化方法具有較好的收斂性,不會(huì)導(dǎo)致較長(zhǎng)的訓(xùn)練周期。此外,正則化方法具有可靠的理論基礎(chǔ)和嚴(yán)格的理論推導(dǎo),因此,在解決過(guò)擬合問(wèn)題的工作中,對(duì)正則化方法的研究與應(yīng)用最為普遍。

正則化方法最早由Tikhonov等[6]在1963年提出,并于20世紀(jì)90年代以后,成為一種主流的解決機(jī)器學(xué)習(xí)中解決病態(tài)問(wèn)題的有效方法。本質(zhì)上,該方法是將正則項(xiàng)作為含有解的先驗(yàn)知識(shí)引進(jìn)經(jīng)驗(yàn)風(fēng)險(xiǎn)中,從而約束解空間的范圍,進(jìn)而獲得理想中的穩(wěn)定解。在理論上,Antoniadis等[7]提出一個(gè)理想的正則化方法應(yīng)該具備以下四個(gè)性質(zhì):1)連續(xù)性。所求參數(shù)的估計(jì)值在范圍內(nèi)應(yīng)當(dāng)連續(xù),以獲得一個(gè)更穩(wěn)定的解。2)無(wú)偏性。所求參數(shù)的估計(jì)值應(yīng)當(dāng)是近似無(wú)偏的,以獲得一個(gè)偏差較小的模型。3)稀疏性。所求模型能夠?qū)⑤^小參數(shù)直接壓縮為0,降低模型的復(fù)雜程度。4)Oracle性質(zhì)。正則項(xiàng)能夠正確識(shí)別模型的能力,可用漸進(jìn)正態(tài)性和變量選擇一致性來(lái)解釋。在該領(lǐng)域里,這四個(gè)性質(zhì)被廣泛用作評(píng)價(jià)正則化方法的標(biāo)準(zhǔn),因此在設(shè)計(jì)正則化方法時(shí),應(yīng)盡量保證所提出的模型具備以上性質(zhì)。

在實(shí)際中,被廣泛使用的正則化方法主要有:最小絕對(duì)值收斂和選擇算子(Least Absolute Shrinkage and Selection Operator, LASSO)模型、嶺回歸模型和彈性網(wǎng)模型。其中:LASSO模型又被稱(chēng)為L(zhǎng)1正則化方法,該方法可以保證求解結(jié)果具有稀疏性[8],降低原始數(shù)據(jù)維度,并可以過(guò)濾出重要的特征,因而該模型通常被用于高維數(shù)據(jù)的建模問(wèn)題,例如,Cui等[9]利用LASSO模型構(gòu)造特征池來(lái)對(duì)高維數(shù)據(jù)進(jìn)行特征提取;Tang等[10]提出一種基于L1正則化方法的稀疏自動(dòng)編碼器模型。但是LASSO模型忽略了變量之間的相關(guān)性,不滿(mǎn)足無(wú)偏性。嶺回歸模型又被稱(chēng)為L(zhǎng)2正則化方法,這種方法在參數(shù)估計(jì)中限制較大的解,從而啟發(fā)式地得到趨近于零的解,并且該方法可以保留變量之間的相關(guān)性,在樣本維度高于樣本規(guī)模時(shí),可以獲得光滑的穩(wěn)定解。因此為了避免神經(jīng)網(wǎng)絡(luò)模型過(guò)于復(fù)雜,L2正則化方法常被用于懲罰神經(jīng)網(wǎng)絡(luò)中較大的參數(shù)[11];同時(shí),Jin等[12]通過(guò)在神經(jīng)網(wǎng)絡(luò)優(yōu)化問(wèn)題中引入L2正則項(xiàng)來(lái)提高神經(jīng)網(wǎng)絡(luò)對(duì)離群點(diǎn)數(shù)據(jù)的魯棒性。但是L2正則化方法往往得到較稠密的解,因而不具備稀疏性。彈性網(wǎng)模型是前兩種方法的線性組合,該模型既具備L1正則化的特征選擇能力和稀疏性的特點(diǎn),又具備L2正則化保留變量之間相關(guān)性的特點(diǎn),因而該模型在防止過(guò)擬合的問(wèn)題中有更加廣泛的應(yīng)用[13-14];但是在理論上,彈性網(wǎng)很難滿(mǎn)足無(wú)偏性和Oracle性質(zhì)。

為了更好地解決深度學(xué)習(xí)里的過(guò)擬合問(wèn)題,本文在神經(jīng)網(wǎng)絡(luò)的損失函數(shù)中引入一種改進(jìn)的彈性網(wǎng)模型,該模型可以被看作是L2正則化與加權(quán)的L1正則化的線性組合。在該模型里,L1正則化中的不同變量被自適應(yīng)地賦予不同的權(quán)重因子,在優(yōu)化神經(jīng)網(wǎng)絡(luò)參數(shù)時(shí),這種加權(quán)的方式可以有選擇性地保留重要的權(quán)重分量,使得到的網(wǎng)絡(luò)參數(shù)具有稀疏性,從而降低過(guò)擬合的風(fēng)險(xiǎn)。同時(shí),通過(guò)理論推導(dǎo)可以證明,在L2正則化的協(xié)同作用下,該模型具有合理的群組選擇能力,因而相關(guān)性強(qiáng)的權(quán)重分量得以同時(shí)去除或者保留。除此之外,該模型還具備Oracle性質(zhì),可以保證對(duì)系數(shù)不為零的參數(shù)進(jìn)行無(wú)偏估計(jì)。因而該模型是一種功能性更強(qiáng)的正則化模型。為了進(jìn)一步驗(yàn)證該模型的實(shí)際效果,本文做了充分的對(duì)比實(shí)驗(yàn),通過(guò)實(shí)驗(yàn)結(jié)果驗(yàn)證了該方法可以有效地防止深度學(xué)習(xí)中的過(guò)擬合問(wèn)題,而且正則化的效果要明顯優(yōu)于現(xiàn)有的主流模型。

1 基于改進(jìn)的彈性網(wǎng)的神經(jīng)網(wǎng)絡(luò)優(yōu)化模型深層神經(jīng)網(wǎng)絡(luò)(如圖1所示)的學(xué)習(xí)目標(biāo)是在給定的樣本集上最小化期望損失,可以定義為:

其中:w和b分別是網(wǎng)絡(luò)的權(quán)重和偏置,也是深度學(xué)習(xí)的優(yōu)化對(duì)象;x是神經(jīng)網(wǎng)絡(luò)的輸入,即樣本屬性; y*是樣本的期望輸出; p(x)為樣本的概率密度函數(shù);J(w,b;x, y*)是關(guān)于權(quán)重w和偏置b的函數(shù),該函數(shù)用來(lái)度量實(shí)際輸出y和期望輸出y*之間的距離(可以是歐氏距離,也可以是Kullback-Leibler(K-L)散度)。?為了提升神經(jīng)網(wǎng)絡(luò)的性能,一種最有效的辦法是通過(guò)加入正則化項(xiàng)對(duì)損失函數(shù)進(jìn)行約束求解,有如下定義:

其中:R(w)為正則化項(xiàng)。常用正則化項(xiàng)有: ,即彈性網(wǎng)。λ為正則項(xiàng)參數(shù),表示正則項(xiàng)在整體模型中占的比重。這些模型的性質(zhì)已在引言中進(jìn)行討論,為了克服這些現(xiàn)有模型的不足,一種改進(jìn)的彈性網(wǎng)正則化模型被引入到神經(jīng)網(wǎng)絡(luò)的優(yōu)化過(guò)程中。

首先,引入這種改進(jìn)的彈性網(wǎng)模型:為一個(gè)非常小的數(shù),用來(lái)防止分母為0;w*i為彈性網(wǎng)模型的參數(shù)優(yōu)化結(jié)果;λ2必須和彈性網(wǎng)的參數(shù)相同;λ*1可以和λ1相同也可以不同;參數(shù)γ是一個(gè)正數(shù)。

最后,將改進(jìn)的彈性網(wǎng)模型代入式(1),則深度學(xué)習(xí)優(yōu)化模型的定義可變形為:

在分類(lèi)實(shí)驗(yàn)里,損失函數(shù)為交叉熵(Cross Entropy, CE)函數(shù),定義如下:

其中:c為輸出層神經(jīng)元的個(gè)數(shù);n為樣本數(shù)。在回歸實(shí)驗(yàn)里,損失函數(shù)為均方誤差(Mean Squared Error, MSE),定義如下:

具體地,這里選取目前最流行的深度學(xué)習(xí)優(yōu)化算法為研究對(duì)象,即自適應(yīng)矩估計(jì)(Adaptive moment estimation, Adam)[15]。其中,在Adam模型中梯度的計(jì)算如下:

其中:sgn(·)為符號(hào)函數(shù),J(w,b)w可以通過(guò)神經(jīng)網(wǎng)絡(luò)的BP算法得到。

基于改進(jìn)的彈性網(wǎng)的神經(jīng)網(wǎng)絡(luò)優(yōu)化算法的流程如算法1所示。

算法1 基于改進(jìn)的彈性網(wǎng)的神經(jīng)網(wǎng)絡(luò)優(yōu)化算法。

輸入 數(shù)據(jù)集(X,Y),Adam算法超參數(shù),正則項(xiàng)系數(shù)λ。

輸出 訓(xùn)練后的模型參數(shù)。

1)輸入數(shù)據(jù)集,構(gòu)建彈性網(wǎng)模型進(jìn)行迭代:

2)得到彈性網(wǎng)模型的參數(shù)后,按式(2)構(gòu)建改進(jìn)的彈性網(wǎng)。

3)按式(3)構(gòu)建新的優(yōu)化模型,重新進(jìn)行迭代。

2 改進(jìn)的彈性網(wǎng)的相關(guān)性質(zhì)?性質(zhì)為了防止反向傳播中的梯度消失現(xiàn)象,通常采用的激活函數(shù)為修正線性單元(Rectified Linear Unit, ReLU),此函數(shù)的形式如下:

不失一般性,考慮神經(jīng)元輸出不為零的情況,此時(shí)一個(gè)神經(jīng)元的前向計(jì)算可以被視為一個(gè)線性回歸過(guò)程。為了表述方便,下面的證明中偏置暫時(shí)不被考慮。設(shè)第l層神經(jīng)元的輸入為n×cl-1維度的矩陣X,設(shè)期望輸出為n×cl維度的矩陣Y,其中cl-1和cl分別表示第l層和第l-1層神經(jīng)元的個(gè)數(shù)。在衡量實(shí)際輸出與期望輸出的距離時(shí),使用歐氏距離作為標(biāo)準(zhǔn),此時(shí)優(yōu)化目標(biāo)可以表示如下:其中:*為模型參數(shù)估計(jì)值,為模型參數(shù)真實(shí)值,并且通過(guò)證明改進(jìn)的彈性網(wǎng)模型滿(mǎn)足性質(zhì)1)與性質(zhì)2),說(shuō)明了該模型具有Oracle性質(zhì)。該性質(zhì)表明:該模型的估計(jì)值可以以1的概率正確估計(jì)非零的參數(shù),并且估計(jì)值的非零部分服從漸近正態(tài)分布。

3 實(shí)驗(yàn)與分析

3.1 實(shí)驗(yàn)數(shù)據(jù)集

本文實(shí)驗(yàn)采用的數(shù)據(jù)集包括分類(lèi)實(shí)驗(yàn)數(shù)據(jù)集和回歸實(shí)驗(yàn)數(shù)據(jù)集兩個(gè)部分,這些數(shù)據(jù)集的信息分別匯總在表1~2中。這些數(shù)據(jù)集來(lái)自UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫(kù)網(wǎng)站和KEEL數(shù)據(jù)集網(wǎng)站,并且在回歸問(wèn)題中都是對(duì)單一屬性進(jìn)行回歸預(yù)測(cè)。為了更好地進(jìn)行實(shí)驗(yàn),數(shù)據(jù)集在標(biāo)準(zhǔn)化處理后被劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。

3.2 實(shí)驗(yàn)設(shè)置

所有實(shí)驗(yàn)的實(shí)驗(yàn)環(huán)境為Windows 10(64位)操作系統(tǒng), Python 3.6以及Tensorflow 1.5 GPU版本,顯卡為GTX 1060 6GB顯存。實(shí)驗(yàn)中用到的神經(jīng)網(wǎng)絡(luò)為全連接的多隱層前向傳播網(wǎng)絡(luò)模型,并且對(duì)于同一個(gè)數(shù)據(jù)集采用的網(wǎng)絡(luò)結(jié)構(gòu)相同。超參數(shù)λ1和λ2的取值范圍是{107,106,…,10-7},在每個(gè)數(shù)據(jù)集上固定網(wǎng)絡(luò)結(jié)構(gòu),經(jīng)過(guò)多次實(shí)驗(yàn),使得L1、L2和彈性網(wǎng)(Elastic Net,EN)模型取得最好結(jié)果的參數(shù)作為該數(shù)據(jù)集上實(shí)驗(yàn)對(duì)比所用的參數(shù),改進(jìn)的彈性網(wǎng)(Advanced EN, AEN)模型的λ*1和λ2設(shè)置與EN相同,后續(xù)實(shí)驗(yàn)可以驗(yàn)證,在EN達(dá)到最好效果時(shí),改進(jìn)的彈性網(wǎng)仍能繼續(xù)改善網(wǎng)絡(luò)的性能。訓(xùn)練集用來(lái)進(jìn)行模型參數(shù)的學(xué)習(xí),驗(yàn)證集用來(lái)評(píng)估不同階段的模型的表現(xiàn);測(cè)試集用來(lái)評(píng)估訓(xùn)練結(jié)束后的模型的性能。分類(lèi)實(shí)驗(yàn)采用交叉熵(CE)作為驗(yàn)證集上的評(píng)價(jià)指標(biāo),同時(shí)采用準(zhǔn)確度(Accuracy, ACC)作為測(cè)試集上的評(píng)價(jià)指標(biāo);回歸實(shí)驗(yàn)采用均方誤差(MSE)作為驗(yàn)證集和測(cè)試集上的評(píng)價(jià)指標(biāo)。

3.3 實(shí)驗(yàn)分析

本文主要對(duì)比的方法有:在L1正則項(xiàng)約束下的優(yōu)化模型(L1),在L2正則項(xiàng)約束下的優(yōu)化模型(L2),在彈性網(wǎng)約束下的優(yōu)化模型(EN),以及在本文方法約束下的優(yōu)化模型(AEN)。圖2展示了在其中四個(gè)數(shù)據(jù)集的驗(yàn)證集上的對(duì)數(shù)損失值隨迭代次數(shù)的變化趨勢(shì)。圖3~4為在不同數(shù)據(jù)集上訓(xùn)練結(jié)果和測(cè)試結(jié)果之間的差值,這些差值反映了模型的過(guò)擬合程度,差值越大,過(guò)擬合情況越嚴(yán)重。具體表現(xiàn)為:在分類(lèi)問(wèn)題上,測(cè)試準(zhǔn)確率越低于訓(xùn)練準(zhǔn)確率;在回歸問(wèn)題上,測(cè)試誤差越高于訓(xùn)練誤差。表3~4則給出了以上方法在不同測(cè)試集上的最終測(cè)試結(jié)果,以及AEN相對(duì)于L1、L2和EN的平均準(zhǔn)確率提升數(shù)值和均方誤差下降數(shù)值。

從圖3~4可看出,AEN在防止過(guò)擬合的問(wèn)題中取得了較為突出的表現(xiàn)。除此之外,從表3~4可看出:AEN方法在大多數(shù)情況下可以得到更低的回歸損失值和較高的分類(lèi)準(zhǔn)確率,且通過(guò)圖2中在驗(yàn)證集上的損失變化曲線可以看出:L1方法由于其稀疏性更容易得到一個(gè)較低的損失;L2方法由于其平滑的特性,曲線一般更加光滑穩(wěn)定,但一般不會(huì)得到一個(gè)較低的損失;EN方法由于將兩者結(jié)合,經(jīng)常會(huì)得到一個(gè)比前兩者更好的結(jié)果;AEN方法在不同的數(shù)據(jù)集上可以得到比其他方法更低的預(yù)測(cè)損失。結(jié)合圖3~4和表3~4可以得出:AEN方法不僅可以在訓(xùn)練階段使得深層神經(jīng)網(wǎng)絡(luò)模型更魯棒地?cái)M合數(shù)據(jù)分布,而且所得到的模型在未知數(shù)據(jù)上也有較好的泛化能力。產(chǎn)生這些結(jié)果的原因可以被歸結(jié)為以下兩點(diǎn):1)在彈性網(wǎng)的框架下,能夠兼顧稀疏性和平滑性,在能夠減輕模型復(fù)雜度的同時(shí)又容易找到最優(yōu)解;2)改進(jìn)的彈性網(wǎng)模型是在彈性網(wǎng)基礎(chǔ)上對(duì)L1部分再進(jìn)行加權(quán),對(duì)不同的參數(shù),配給不同的權(quán)重變量,對(duì)于較大的參數(shù)將會(huì)配給一個(gè)較小的權(quán)重,對(duì)于較小的參數(shù)將會(huì)配給一個(gè)較大的權(quán)重,這樣在迭代更新時(shí),較大的、重要的參數(shù)將會(huì)更容易被保留下來(lái),較小的、不重要的參數(shù)也會(huì)更容易接近0。

4 結(jié)語(yǔ)

本文對(duì)深度學(xué)習(xí)以及正則化方法進(jìn)行了研究與分析。首先討論了L1正則化、L2正則化和彈性網(wǎng)正則化,并基于這些正則化模型的優(yōu)勢(shì)與缺點(diǎn),提出一種基于彈性網(wǎng)的改進(jìn)模型。然后,將這個(gè)改進(jìn)的彈性網(wǎng)正則化方法與深度學(xué)習(xí)算法相結(jié)合,提出一種對(duì)神經(jīng)網(wǎng)絡(luò)參數(shù)進(jìn)行約束求解的新方法。在理論上,證明了這個(gè)改進(jìn)的彈性網(wǎng)模型具有群組選擇能力和Oracle性質(zhì),這些性質(zhì)的證明可以保證改進(jìn)的方法在一定程度上避免深度學(xué)習(xí)中的過(guò)擬合問(wèn)題,從而提高深層神經(jīng)網(wǎng)絡(luò)的泛化能力。在實(shí)驗(yàn)上,通過(guò)對(duì)比不同方法在多個(gè)驗(yàn)證集和測(cè)試集的表現(xiàn),可以看到改進(jìn)的彈性網(wǎng)模型不僅可以在訓(xùn)練階段較魯棒地收斂至較低的損失值,在對(duì)未知樣本的預(yù)測(cè)階段也體現(xiàn)出了較好的泛化能力,通過(guò)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析,得出改進(jìn)的彈性網(wǎng)模型取得好的效果的原因,日后主要的研究目標(biāo)是把本文方法應(yīng)用在更多的實(shí)際問(wèn)題中。

參考文獻(xiàn)(References)

[1] LECUN Y, BENGIO Y, HINTON G. Deep learning[J]. Nature, 2015, 521(7553): 436-444.

[2] SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2015: 1-9.

[3] 陳文兵, 管正雄, 陳允杰. 基于條件生成式對(duì)抗網(wǎng)絡(luò)的數(shù)據(jù)增強(qiáng)方法[J]. 計(jì)算機(jī)應(yīng)用, 2018, 38(11): 3305-3311. (CHEN W B, GUAN Z X, CHEN Y J. Data augmentation method based on conditional generative adversarial net model[J]. Journal of Computer Applications, 2018, 38(11): 3305-3311.)

[4] SRIVASTAVA N, HINTON G, KRIZHEVSKY A, et al. Dropout: a simple way to prevent neural networks from overfitting[J]. The Journal of Machine Learning Research, 2014, 15(1): 1929-1958.

[5] ZHANG Z, LUO P, LOY C C, et al. Facial landmark detection by deep multi-task learning[C]// Proceedings of the 2014 European Conference on Computer Vision, LNCS 8694. Cham: Springer, 2014: 94-108.

[6] TIKHONOV A N. Solution of incorrectly formulated problems and the regularization method[J]. Doklady Akademii Nauk SSSR, 1963, 151: 501-504.

[7] ANTONIADIS A, FAN J. Regularization of wavelet approximations[J]. Journal of the American Statistical Association, 2001, 96(455): 939-967.

[8] LIAN L, LIU A, LAU V K N. Weighted LASSO for sparse recovery with statistical prior support information[J]. IEEE Transactions on Signal Processing, 2018, 66(6): 1607-1618.

[9] CUI C, WANG D. High dimensional data regression using Lasso model and neural networks with random weights[J]. Information Sciences, 2016, 372: 505-517.

[10] TANG J, DENG C, HUANG G. Extreme learning machine for multilayer perceptron[J]. IEEE Transactions on Neural Networks and Learning Systems, 2016, 27(4): 809-821.

[11] PHAISANGITTISAGUL E. An analysis of the regularization between l2 and dropout in single hidden layer neural network[C]// Proceedings of the 7th International Conference on Intelligent System, Modelling and Simulation. Piscataway: IEEE, 2016: 174-179.

[12] JIN J, CHEN C L P. Regularized robust broad learning system for uncertain data modeling[J]. Neurocomputing, 2018, 322: 58-69.

[13] 李光早, 王士同. 基于稀疏表示和彈性網(wǎng)絡(luò)的人臉識(shí)別[J]. 計(jì)算機(jī)應(yīng)用, 2017, 37(3): 901-905. (LI G Z, WANG S T. Face recognition based on sparse representation and elastic network[J]. Journal of Computer Applications, 2017, 37(3): 901-905.)

[14] LI Q, SUN Y, WANG C, et al. Elastic net hypergraph learning for image clustering and semi-supervised classification[J]. IEEE Transactions on Image Processing, 2017, 26(1): 452-463.

[15] KINGMA D P, BA J L. Adam: a method for stochastic optimization[EB/OL]. [2019-01-10]. https://arxiv.org/pdf/1412.6980.pdf.

[16] MARQUARIDT D W. Generalized inverses, ridge regression, biased linear estimation, and nonlinear estimation[J]. Technometrics, 1970, 12(3): 591-612.

猜你喜歡
深度學(xué)習(xí)
從合坐走向合學(xué):淺議新學(xué)習(xí)模式的構(gòu)建
面向大數(shù)據(jù)遠(yuǎn)程開(kāi)放實(shí)驗(yàn)平臺(tái)構(gòu)建研究
基于自動(dòng)智能分類(lèi)器的圖書(shū)館亂架圖書(shū)檢測(cè)
搭建深度學(xué)習(xí)的三級(jí)階梯
有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識(shí)別研究
利用網(wǎng)絡(luò)技術(shù)促進(jìn)學(xué)生深度學(xué)習(xí)的幾大策略
考試周刊(2016年94期)2016-12-12 12:15:04
MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場(chǎng)域建構(gòu)
大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
主站蜘蛛池模板: 婷婷色中文| 在线国产91| 高h视频在线| 囯产av无码片毛片一级| 激情爆乳一区二区| 91无码网站| 久久精品女人天堂aaa| 国产偷国产偷在线高清| 欧美国产日本高清不卡| 一级片免费网站| 97影院午夜在线观看视频| 国产制服丝袜91在线| 无码专区国产精品第一页| a级毛片视频免费观看| 国产亚洲现在一区二区中文| 国产成人一区二区| 国产亚洲精品97AA片在线播放| 国产成人综合久久精品下载| 2020国产免费久久精品99| 国产精品午夜福利麻豆| 欧美福利在线观看| 成人国产免费| 美女高潮全身流白浆福利区| 黄色在线不卡| 国产在线视频福利资源站| 国产欧美又粗又猛又爽老| 久久久波多野结衣av一区二区| 幺女国产一级毛片| 国产免费精彩视频| 国内精品久久久久鸭| 久久综合九色综合97婷婷| 国产区人妖精品人妖精品视频| a天堂视频| a亚洲视频| 国产一区二区三区精品欧美日韩| 91无码网站| 国产综合在线观看视频| 精品国产www| 亚洲最新在线| 亚洲日本韩在线观看| 在线a视频免费观看| 青草视频在线观看国产| 国产精品毛片一区| 亚洲成av人无码综合在线观看| 日韩视频免费| 日日摸夜夜爽无码| 亚洲日韩在线满18点击进入| 狠狠色成人综合首页| 免费国产在线精品一区| 日韩中文精品亚洲第三区| 国产91丝袜在线播放动漫 | 精品成人一区二区| 中文天堂在线视频| 激情综合网址| 狠狠干欧美| 国产手机在线ΑⅤ片无码观看| 婷婷六月综合网| 亚洲国产午夜精华无码福利| 国产视频自拍一区| 国产91久久久久久| 乱色熟女综合一区二区| 天天综合网在线| 日韩最新中文字幕| 国产成人精彩在线视频50| 看看一级毛片| 91在线免费公开视频| 一级全免费视频播放| 亚洲第一成年人网站| 亚洲天堂精品在线| 欧美亚洲欧美区| 欧美激情,国产精品| 国产中文一区a级毛片视频| 亚洲日韩Av中文字幕无码| 超清人妻系列无码专区| 在线播放国产99re| 日本一区二区不卡视频| 亚洲精品视频免费观看| 欧美一区二区三区不卡免费| 在线综合亚洲欧美网站| 欧美日韩北条麻妃一区二区| 久草视频中文| 精品视频一区在线观看|