999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種有效神經網絡訓練優(yōu)化方法

2022-09-28 07:29:50楊晶東
智能計算機與應用 2022年9期
關鍵詞:優(yōu)化模型

陳 青,楊晶東,王 晗,彭 坤

(上海理工大學 光電信息與計算機工程學院,上海 200093)

0 引 言

目前,卷積神經網絡(CNN)已廣泛應用于圖像處理、語音識別、自然語言處理等領域,并取得了巨大成功。典型的CNN由卷積層、池化層和全連接層組成。卷積層和池化層能夠自動提取深層特征和降維。然而,訓練普通的CNN模型需要大量參數(shù)。Lécun等人提出的LeNets網絡中,使用了大約1 M個訓練參數(shù)。Krizhevsky等人在ImageNet競賽中應用了包含60 M個訓練參數(shù)的ResNet網絡,并使用了數(shù)據增強,其中包括翻轉、裁剪、亮度和對比度變換來增加數(shù)據量。Yuan等人提出了基于ResNet50的腮腺腫瘤CT圖像分類模型,并加入北京DSG公司的數(shù)據脫敏策略,提高了預測性能。然而,脫敏方法只能消除CT圖像的特征,不能模糊整個圖像的背景。此外,1 000次訓練和90%的測試集精度表明,模型的收斂速度較慢,并且出現(xiàn)了一定的過度擬合。Sun等人改進了ResNet50,其中包括23 602 051個訓練參數(shù),通過使用深度卷積生成對抗網絡(DCGAN)的數(shù)據增強,對蘋果品質進行分類化。這些操作可以為單個圖像添加多個副本,以提高圖像利用率和數(shù)據多樣性,從而提升分類模型的性能。

然而,在同一數(shù)據集上進行多次訓練后,具有大量參數(shù)的迭代會在一定程度上導致過擬合。訓練集中的噪聲也會對網絡性能產生負面影響,導致泛化性能下降。通常使用隨機梯度下降(SGD)算法訓練網絡參數(shù),并使用正則化和指數(shù)移動平均(EMA)算法優(yōu)化網絡性能。具有綜合自回歸的傳統(tǒng)移動平均模型(ARIMA)、指數(shù)加權移動平均模型(EWMA)主要適用于時變序列的估計,如股市趨勢預測、風速預測或旅游興趣預測等。Huang等人提出了正則化和重新初始化指數(shù)移動平均(ReEMA),用于更新目標跟蹤中的目標模型。ReEMA施加懲罰以降低新生成目標模型的不可靠性,并使用重新初始化項來緩解退化水平,進一步應用正則化器來限制復雜性,表明了高效性和有效性。

上述EMA算法均使用固定的衰減率來更新網絡參數(shù),故而并不適合長時間、多步驟的深層神經網絡訓練。因此,本文提出了一種基于Tanh函數(shù)的動態(tài)衰減指數(shù)移動平均算法(T-ADEMA)。該算法以變系數(shù)Tanh作為衰減函數(shù),動態(tài)自適應地調整模型參數(shù),降低噪聲。本文應用T-ADEMA算法對經典模型ResNet進行訓練和測試,包括對MNIST、CIAFR_10、CIFAR_100數(shù)據集和當前流行的非CNN模型Vision Transformer(ViT)進行胸部X射線數(shù)據集的訓練和測試,通過DCGAN算法進行數(shù)據增強。此外,還與傳統(tǒng)的EMA算法進行了比較,分析了識別率和泛化性能。

1 動態(tài)衰減EMA算法

1.1 EMA算法

一組動態(tài)原始序列()由數(shù)據信號()和噪聲信號()組成。其中,()是期望的測量值或有效信號,()是由噪聲引起的隨機信號。離散數(shù)據被視為一組時變數(shù)值序列,其表達式如下:

為了抑制()并提取(),通常對序列()進行平滑或濾波。對序列()進行適當?shù)姆侄危谟袛?shù)值振蕩區(qū)間內,對一些合適的單元進行平滑和局部平均,以接近穩(wěn)定區(qū)間,進一步削弱()引起的隨機振蕩。由于只選擇了部分小區(qū)間進行局部平均和平滑,因此整個序列近似于()。假設有一組離散序列{,,,…,x}以及一組參數(shù)序列{,,,…,α},∈[ 0,1],經過加權移動平均優(yōu)化,序列可由公式(2)得出:

其中,σ是序列x的指數(shù)移動平均值(EMA),α是指數(shù)移動平均值的權重。

在EMA的計算中,權重σ越大,EMA序列越接近序列x,平均效應越大,反之亦然。此外,由于權重序列項是恒定的,因此可以使用當前移動平均值及其之前的值來計算從到1的EMA。

1.2 動態(tài)衰減EMA算法

在神經網絡訓練中,每次迭代都會更新權重、偏移量和一些其它訓練變量,以獲得離散時間序列。假設神經網絡模型的訓練參數(shù)序列{,,…,ω},則基于EMA算法同步更新的影子參數(shù)序列{,,…,v}可由公式(3)得出:

其中,是衰減率,按經驗通常取值為09或099。

按遞歸方式逐項展開式(3),可以得出公式(4):

其中,表示訓練迭代次數(shù),是一個常值參數(shù),控制移動平均值,根據經驗將其設置為09。可以看出,第個移動平均值只與序列{ω,…,ω}和衰減系數(shù)有關。在用SGD優(yōu)化器訓練網絡參數(shù)的同時,選擇合適的學習速率(本文中的學習速率設置為0.001),可以加快網絡收斂速度,在一定時間內學習足夠多的有效特征。基于以上原因,本文采用T-ADEMA算法更新訓練參數(shù),有效地消除了訓練噪聲,提高了泛化性能。

為了在神經網絡訓練過程中根據不同的訓練階段更有效地過濾噪聲,本文基于公式(5)中ADEMA算法的衰減系數(shù),提出了基于衰減系數(shù)的T-ADEMA算法,見式(6)。衰減系數(shù)應滿足以下公式:

2 基于動態(tài)EMA優(yōu)化的分類模型

由于本文實驗圖像數(shù)據集的分辨率低于ImageNet,因此該體系結構可以應用于ResNet網絡。常見的ResNet網絡由50層(包括池化層)和3個全連接層組成,每個層都有作為激活函數(shù)。

本文提出了基于動態(tài)EMA算法的T-ADEMA算法來優(yōu)化訓練參數(shù)的權重,并將其應用于圖像分類。詳細的模型結構和參數(shù)如圖1所示。首先,將大小為3×224×224的原始圖像輸入殘差網絡模型。通過1和層后,輸出圖像的大小為645656。2_包含3個,每個包含模塊(3層虛線)和模塊(3層實線)。模塊首先使用11卷積降低特征映射的維數(shù),然后執(zhí)行33卷積操作來提取特征,最后使用11卷積恢復維數(shù)。卷積層連接到(批量歸一化)和層。模塊用于深化網 絡 結 構。2_、3_、4_、5_的數(shù)量分別為3、4、6和3。用于層 和層 之 后 的 分 類。和_10有10個分類。_100包括20類粗分類和100類細分類。用于每個全連接層的激活函數(shù)。全連接層的2層應用了以減少過擬合。輸出層使用函數(shù)計算反向傳播的誤差,進而獲得分類概率。

圖1 基于T-ADEMA優(yōu)化的殘差網絡結構Fig.1 The ResNet framework based on T-ADEMA optimization

圖2展示了基于T-ADEMA優(yōu)化的Vision Transformer(ViT)框架,其中原始圖像被劃分為16個切片作為輸入特征圖像。針對3分類的胸部X光圖像,本文將基于T-ADEMA的ViT模型與其他主流的EMA優(yōu)化方法進行了比較實驗。

圖2 基于T-ADEMA優(yōu)化的VIT網絡結構Fig.2 The VIT framework based on T-ADEMA optimization

3 實驗預處理

實驗使用的深度學習框架為Pytorch。實驗環(huán)境包括Intel i7-10700 CPU、NVIDIA GeForce RTX 3070以及NVIDIA CUDA_CUDNN加速器、Windows 10 20H2和Python3.8|Pytorch 1.7.0。

3.1 數(shù)據集

本文將提出的T-ADEMA算法結合SGD優(yōu)化器在MNIST、CIFAR_10/100和COVID-19等4個數(shù)據集上驗證其泛化性能。其中,MNIST是一個公開手寫的數(shù)字圖像數(shù)據集,由60 000個訓練樣本和10 000個測試樣本組成。樣本是28*28的二值圖像,具體如圖3(a)所示。CIFAR_10數(shù)據集是應用最廣泛的圖像識別數(shù)據集,由50 000個訓練樣本和10 000個測試樣本組成,每個樣本有28*28個像素,數(shù)據集擁有10個分類,如圖3(b)所示。類似于CIFAR_10數(shù)據集,CIFAR_100數(shù)據集擁有100個類,包括每個類的500個訓練圖像和100個測試圖像,如圖3(c)所示。圖3(d)展示的COVID-19數(shù)據集由3個類別的胸部X光圖像組成,即COVID-19、正常、病毒性肺炎。COVID-19數(shù)據集的圖像分辨率為1 024×1 024,共2 900例,這里的215例COVID-19,1 340例正常,1 345例病毒性肺炎。

圖3 4個數(shù)據集的訓練樣本Fig.3 The training samples of four datasets

3.2 圖像增強

實驗中,對CIFAR_10/100采用傳統(tǒng)圖像增強方法,以提高識別率。將訓練數(shù)據放入模型訓練前,隨機進行左右、上下翻轉,亮度變換或對比度變換;對于COVID-19數(shù)據集,采用DCGAN對數(shù)據集進行增強和擴充。圖4顯示了DCGAN的批量增強和擴充過程。保留20%的3類比例原始樣本用于測試集,剩余樣本用于DCGAN進行數(shù)據擴充。DCGAN圖像增強后的樣本分布見表1。由表1可知,通過DCGAN分別生成3類圖像樣本,達到每個類別有1 200個樣本。可以看出,在DCGAN算法的基礎上,經過約200輪訓練,增強后的圖像與原始圖像越來越相似,最終的增強圖像在DCGAN算法的基礎上取得了更好的效果。

表1 DCGAN圖像增強后的樣本分布Tab.1 Samples distribution after data augmentation via DCGAN algorithm

圖4 COVID-19數(shù)據集的DCGAN圖像增強Fig.4 The data augmentation via DCGAN algorithm on COVID-19 dataset

為了驗證基于DCGAN算法的數(shù)據增強效果,采用分布隨機近鄰嵌入SNE,用來降低樣本分布可視化的維數(shù)。SNE通過將高維空間映射為高斯分布概率,將相似性轉化為相鄰樣本之間的概率。本文從每個類別中隨機選取100幅真實圖像和100幅通過DCGAN算法生成的圖像,分別通過SNE進行可視化。原始圖像和生成圖像通過SNE可視化分布如圖5所示。從圖5(a)~圖5(c)可以看出,生成圖像(紅點)的分布與原始圖像(藍點)的分布近似。可以推斷,生成的圖像與原始圖像具有相似性,可以應用于樣本分類。此外,圖5(d)表明,每一類樣本超過1/3的樣本數(shù)是可分辨的,并且屬于不同的類別。由此可以看出,DCGAN算法不僅學習了胸部X射線圖像的全局特征,而且能夠分辨出局部細小特征的區(qū)別,能有效地識別3類樣本。

圖5 原始圖像和生成圖像通過t-SNE可視化分布Fig.5 Distribution of real images and its corresponding generated images via t-SNE

4 實驗分析

4.1 SGD+T-ADEMA算法性能分析

為了驗證EMA算法的有效性,分別在MNIST、CIFAR_10/100和COVID-19數(shù)據集上進行了對比實驗,并使用SGD優(yōu)化算法、固定衰減EMA算法(SGD+EMA)、公式(5)中的動態(tài)衰減ADEMA算法、公式(6)中的動態(tài)衰減T-ADEMA算法(SGD+T-ADEMA)和主流優(yōu)化算法Adam等5種優(yōu)化算法,在固定或動態(tài)學習率和批量訓練的情況下,優(yōu)化了ResNet50和ViT分類模型。MNIST訓練集包含60 000個樣本,批量大小為30,每輪訓練包括2 000次迭代。由于模型經過5輪訓練后接近收斂,因此每50次迭代計算一次訓練集損失,以記錄收斂參數(shù)。對于數(shù)據集CIFAR_10/100和COVID-19,在訓練100輪左右后收斂,每次訓練一個輪次計算訓練集的損失。本文在5種不同的EMA算法上計算了5輪實驗的評估指標均值,并分別訓練MNIST,CIFAR_10/100和COVID-19數(shù)據集。評價指標包括準確率()、精 度()、召回率()、值。研究推得的計算公式如下:

其中,、、和分別為真陽性、真陰性、假陽性和假陰性。

在MNIST數(shù)據集、CIFAR_10數(shù)據集、CIFAR_100數(shù)據集和COVID-19數(shù)據集上5種算法的損失函數(shù)和評估指標對比結果如圖6~圖9所示。圖6(a)、圖7(a)、圖8(a)和圖9(a)分別顯示了5種優(yōu)化算法在各數(shù)據集上的訓練損失函數(shù)曲線。實驗結果表明,在訓練初始階段,SGD+T-ADEMA算法只學習到少量圖像特征,并不能有效抑制小批量數(shù)據中的噪聲,其收斂速度較慢,僅相當于ADEMA算法在較少訓練回合中的平均值,在早期訓練迭代中下降最慢。這是因為SGD+T-ADEMA算法在濾除噪聲方面效果更好,在早期訓練階段需要較少的學習數(shù)據,學習速度也相同,因此損失降低相對較慢,且該算法在經過多輪訓練后能學習到更有效的特征。SGD+T-ADEMA算法在訓練中期,在MNIST和CIFAR_100數(shù)據集上收斂最快。雖然在CIFAR_10數(shù)據集的收斂速度略低于ADEMA,但可以過濾更多的噪聲。在訓練后期,SGD+T-ADEMA算法的損失曲線的收斂性明顯優(yōu)于其他4種算法。在COVID-19數(shù)據集上,SGD+T-ADEMA算法與其他EMA算法相比收斂速度更快。經過幾輪訓練參數(shù)的更新,學習了足夠多的特征,有效地過濾了噪聲。測試集上5種算法的評估指標見表2。

圖6 MNIST數(shù)據集上5種算法的損失函數(shù)和評估指標對比Fig.6 The comparison of training loss and evaluation indicators of five algorithms on MNIST dataset

圖7 CIFAR_10數(shù)據集上5種算法的損失函數(shù)和評估指標對比Fig.7 The comparison of training loss and evaluation indicators of five algorithms on CIFAR_10 dataset

圖8 CIFAR_100數(shù)據集上5種算法的損失函數(shù)和評估指標對比Fig.8 The comparison of training loss and evaluation indicators of five algorithms on CIFAR_100 dataset

圖9 COVID-19數(shù)據集上5種算法的損失函數(shù)和評估指標對比Fig.9 The comparison of training loss and evaluation indicators of five algorithms on COVID-19 dataset

由表2以及圖6(b)、圖7(b)、圖8(b)、圖9(b)可見,在上述4種數(shù)據集上的實驗結果表明,SGD+T-ADEMA模型的各評估指標均優(yōu)于傳統(tǒng)EMA算法和主流Adam優(yōu)化器,數(shù)據集訓練越困難,TADEMA算法就越有優(yōu)勢。此外,考慮到GPU內存(8 GB)的限制,本實驗選擇的最大批量為32,不同訓練批量可能會提高模型的預測性能。

表2 4種數(shù)據集上評估指標對比Tab.2 Comparison of evaluation indicators on the four datasets

綜上所述,動態(tài)衰減EMA算法比固定衰減的傳統(tǒng)EMA算法更適合模型優(yōu)化。其中,衰減系數(shù)決定了更新速度,衰減系數(shù)越大,網絡收斂越穩(wěn)定。當網絡開始訓練時,使用較小的衰減來確保初始學習的準確性,隨著迭代次數(shù)的增加,衰減系數(shù)逐漸增大,可以有效地濾除噪聲引起的無效學習,提高訓練精度,使網絡具有更好的收斂性。

4.2 T-ADEMA+SGD算法實時性分析

為了分析本文模型的實時性,對5種優(yōu)化算法在4個數(shù)據集上的訓練時間進行了比較,其結果見表3。由表3中數(shù)據可知,與其它算法相比,由于T-ADEMA算法使用Tanh函數(shù)計算移動平均,因此基于TADEMA+SGD網絡每批訓練時間增加約0.02 s,比其它算法需要更高的計算成本。然而,SGD+T-ADEMA算法比主流的Adam算法需要更少的訓練時間。雖然T-ADEMA算法的訓練時間略高于傳統(tǒng)算法,但可以有效地加快模型收斂速度,并在準確率、精度、召回率和值等評價指標上取得較高的精度。

表3 4類數(shù)據集訓練時間對比Tab.3 Comparison of training time on the four datasets s

5 結束語

本文提出了基于動態(tài)衰減的T-ADEMA+SGD算法更新模型訓練參數(shù),在一定程度上提高了泛化性能,加快了模型訓練收斂速度。為了驗證算法的有效性,將基于T-ADEMA+SGD優(yōu)化算法應用于ResNet50和ViT分類模型,用來優(yōu)化各模型訓練參數(shù)。實驗表明,基于T-ADEMA+SGD模型均能較好地提升各種樣本庫(如MNIST、CIFAR_10/100和COVID-19)的分類精度和泛化性能,對神經網絡的訓練和優(yōu)化具有較好的啟發(fā)意義。

猜你喜歡
優(yōu)化模型
一半模型
超限高層建筑結構設計與優(yōu)化思考
房地產導刊(2022年5期)2022-06-01 06:20:14
民用建筑防煙排煙設計優(yōu)化探討
關于優(yōu)化消防安全告知承諾的一些思考
一道優(yōu)化題的幾何解法
由“形”啟“數(shù)”優(yōu)化運算——以2021年解析幾何高考題為例
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 内射人妻无套中出无码| 国产玖玖视频| 国产精品亚洲综合久久小说| 99视频在线免费| 国产精品视频a| 色婷婷久久| 国产对白刺激真实精品91| 成人午夜天| 一级毛片高清| 精品久久久久久久久久久| 91无码网站| 亚洲人网站| 高清无码一本到东京热| 成人福利在线视频免费观看| 538国产在线| 免费高清a毛片| 国产特级毛片aaaaaa| 亚洲国产成人自拍| 免费aa毛片| 国产综合精品一区二区| 99成人在线观看| 911亚洲精品| 国产精品人成在线播放| 亚洲欧洲日韩综合色天使| 欧美国产另类| 99免费在线观看视频| 亚洲国产清纯| 免费人成在线观看成人片| 噜噜噜久久| 无码福利视频| 国产永久在线观看| 色哟哟色院91精品网站| 亚洲欧美天堂网| 欧美乱妇高清无乱码免费| 在线高清亚洲精品二区| 欧美www在线观看| 国产精品永久不卡免费视频| 欧美激情综合| 午夜成人在线视频| 日韩福利在线视频| 亚洲成人手机在线| 欧美在线一二区| 中文无码日韩精品| 国产迷奸在线看| 美女一级免费毛片| 亚洲第一福利视频导航| 亚洲男人天堂2018| 国产精品xxx| 欧美精品成人| 毛片卡一卡二| 亚洲第一色视频| 日本不卡视频在线| 久久综合干| 美女一区二区在线观看| 日韩天堂网| 五月天久久婷婷| 国产91视频免费观看| 国产成本人片免费a∨短片| 欧美精品伊人久久| 国产91丝袜在线播放动漫 | 国产99视频精品免费视频7| 亚洲不卡影院| 91久久偷偷做嫩草影院电| 香蕉久久永久视频| 国产成人免费手机在线观看视频| 亚洲一区国色天香| 国产在线欧美| 亚洲伊人电影| 久久国产亚洲偷自| 国产精品55夜色66夜色| 国产亚洲美日韩AV中文字幕无码成人 | 国产成人综合网| 日本午夜网站| 日韩精品中文字幕一区三区| 欧美国产视频| 国产99热| 亚洲欧美日韩另类在线一| 国产第一页屁屁影院| 2021国产在线视频| 国产91丝袜在线观看| 欧美在线三级| 东京热高清无码精品|