中圖分類號:TP181 文獻標志碼:A
深度神經網絡在解決各類計算機視覺任務時,呈現出了卓越性能和顯著成果。其發展離不開浩繁數據集的支撐,但由于樣本可辨識度較低、標注樣本具有主觀性等因素,不可避免地引入了標簽噪聲,從而影響深度模型泛化效果。同時,標簽噪聲無處不在:醫療領域內的數據集的標記需要領域專業知識,且觀察者與觀察者之間也會存在分歧,而錯誤的預測可能會直接影響到診療結果[3];在軍事目標識別任務中,一些外觀相似的軍事目標經常容易被標注錯誤,比如坦克和自行榴彈炮[4]等。標簽噪聲存在的必然性和普遍性使標簽噪聲學習的研究顯得尤為迫切、重要。
因此,越來越多的學者針對提高標簽噪聲學習方法的泛化性進行研究。根據這些方法的針對對象不同,可以分為Robustloss、優化方法、訓練范式、數據以及混合方法這幾類。Robustloss是最普遍、傳統的方法,通過建立更魯棒的損失函數緩解標簽噪聲的影響[5-7]。銳度感知最小化(sharpness-awareminimization,SAM)[8]通過向模型參數空間中引入對抗性權重擾動改進優化方法。同時,Coteaching[9]、半監督學習(semi-supervised learn-ing)[10]、對比學習[1-12]等訓練范式也常用于解決標簽噪聲問題。針對樣本數據進行處理,也是解決標簽噪聲問題的常用方法之一。通常通過樣本加權[13]、標簽校正[14]、噪聲標簽過濾[9]和利用Mix-up[15]進行數據增強等方法進行。同時,將上述方法進行組合的混合方法[16-17]更是提高標簽噪聲學習泛化能力的常用手段。盡管現有的研究已經證明了它們的有效性,但這些算法設計往往高度依賴于過往的經驗性結果,這也就導致它們難以利用最新技術來開發基于參數空間的深度神經網絡的能力。
近幾年,有學者發現損失平面的幾何形狀和模型的泛化能力存在關聯。基于這一點,FORET等[8]提出了銳度感知最小化優化算法。一般的優化方法包括SGD的目的都是尋找一個本身就具備低損失值的參數,而SAM的目的是通過尋找區域內具有均勻的低損失值的參數,使其能夠同時最小化損失和損失銳度。由于計算的是區域參數而不是單個參數,因此其損失平面相比其他優化方法更加的平坦,這也就達到了提高模型泛化的效果。但是,對于標簽噪聲學習來說,SAM的運用還存在一個問題,即SAM不是專門為了標簽噪聲學習而研發的,如果直接將其加入到標簽噪聲學習中,SAM難以在每批噪聲數據中找到正確的對抗性擾動。而本文也正是針對這一點,對SAM進行研究改進,使其能夠更好地用于標簽噪聲學習。
針對SAM難以在每批噪聲數據中找到正確的對抗性擾動這一問題,本研究提出了擾動前后信息互補的銳度感知最小化(SAMwithcomplementaryinformationpreand post-perturbation,CI3PSAM),通過向模型參數空間中引入對抗性權重擾動,即擾動前后的模型參數,將其結合達到信息互補的效果,以此更好地尋找正確的擾動方向。同時為了提高擾動方向的準確性,還引入了動態閾值策略來區分噪聲樣本與干凈樣本。本文研究旨在通過引入一種有效的優化方法,在提升模型的泛化性能的同時提高檢測精度。
1 相關工作
1.1 標簽噪聲學習
標簽噪聲指在訓練過程中所使用的目標標簽與實例本身實際應有的真實標簽之間存在的差異或偏差。從噪聲標簽中學習是一場持久戰。目前對標簽噪聲學習的研究方向呈現多樣化的趨勢。
學者們考慮到損失函數對標簽噪聲非常敏感這一特性,常將損失函數由更魯棒的版本代替,如平均絕對誤差(mean absolute error,MAE)[7]、廣義交叉熵(generalized cross entropy,GCE)[5]等。ZHANG等[14]提出的漸進式標簽校正算法(pro-gressivelabelcorrection,PLC)根據噪聲分類器的置信度逐步校準數據的標簽。HAN等[9提出的Co-teaching同時訓練兩個網絡,使其中一個網絡根據smallloss準則協助另一個網絡分離干凈樣本,并交替協助以更新樣本、相互監督。LI等將標簽噪聲學習與半監督學習聯系并結合,提出的Divi-deMix把具有高置信概率為噪聲樣本的訓練數據的樣本標簽丟棄,將其作無標簽數據來正則化模型。LI等[12從對比學習的角度,提出了一種新的對比正則化函數來學習噪聲數據,即CTRR模型(contrastiveregularization),該模型可以有效約束圖像特征,防止模型對標簽噪聲過擬合。LU等[13]把課程學習(curriculumlearning,CL)結合到神經網絡的訓練中,提出了一種樣本加權方案。TAN等[11]受其啟發,在Co-teaching 的基礎上提出 Co-learning,即通過結合自監督任務和原有的有監督任務協同訓練。自監督任務與標簽校正的結合(contrative label correction,CLC)[16]也產生良好的性能提升。HUANG等[17]結合分層標簽校正和混合監督對比學習(mixupsupervised contrastivelearning,MSCL)提出了一種有效的噪聲標簽學習框架。
當前的標簽噪聲學習方法都能夠有效對待噪聲標簽,但這些方法往往高度依賴于過往的經驗性結果,這在一定程度上限制了它們充分采納和利用最新的技術進展,來進一步開發基于參數空間的深度神經網絡。而近年提出的SAM能夠有效利用參數空間來提高模型泛化能力。
1.2 銳度感知最小化
SAM是更先進、更符合現代深度學習的優化方法,是對隨機梯度下降(stochasticgradientde-scent,SGD)的一種改進和擴展。它繼承了SGD的基本思想,即使用梯度下降來優化模型參數,但同時又引入了新的優化策略,以改善模型的泛化性能。SAM的核心思想是在優化過程中不僅考慮損失函數的值,還考慮損失函數在參數空間中的尖銳程度,通過尋找損失函數值較低且尖銳程度較小的參數區域,使損失景觀更加平坦,從而間接地提高模型的泛化能力,減少過擬合的風險。
SAM對在剛性區域中定義的銳度在參數重新縮放的敏感性方面具有缺陷,這使得損失不受影響,從而導致銳度和泛化差距之間的聯系減弱。KWON等[18根據這一問題,提出了自適應銳度感知最小化(adaptiveSAM,ASAM),該優化方法可以自適應調整最大化區域,從而在參數重新縮放時均勻地發揮作用。同時,SAM會無差別地計算所有參數的擾動,不可避免地造成計算浪費,其計算量是 SGD等常見優化方法的兩倍。據此,DU等[19]將隨機權重擾動和銳度感知數據選擇兩個新穎的策略引入SAM,提出了高效銳度感知最小化(effi-cientSAM,ESAM),在不犧牲其泛化性能的情況下提高了SAM的效率。但是ESAM每一步都隨機選擇樣本的方式可能會導致優化偏差。MI等[20]對其進行改進,提出了稀疏銳度感知最小化(sparseSAM,SSAM),實現稀疏擾動的二進制編碼。YUE等[21]從SAM的損失函數人手,提出了權重銳度感知最小化(weightedSAM,WSAM),該方法將平坦程度視為正則化項,并給不同任務之間設置了不同的權重,來改善訓練極值點的平坦度。由于尖銳和平坦的最小值都可以具有低擾動損失,因此SAM可能并不會每次都選擇平坦的最小值。基于這一點發現,ZHUANG等22提出的替代間隙引導的銳度感知最小化模型(gapguidedSAM,GSAM)定義了一個替代間隙,用其衡量局部極小點的銳度,并且易于計算,可以在訓練時直接最小化。
2 方法
2.1 變量說明
在標簽噪聲學習任務中,將擁有 N 個樣本的 K 類訓練樣本集定義為 S={(xi,yi)}i=1N ,其中, xi 表示第 i 個樣本, yi 表示數據樣本 xi 的標簽, yi∈ {1,2,…,K} 。從未知的數據集 D 中獨立同分布地抽取得到訓練樣本 s ,并且其標簽以一定的錯誤率被損壞。標簽噪聲學習的目標是學習一個模型f(w) ,能夠將其推廣到一個未知的數據集 D 。特別是當我們考慮如深度神經網絡這樣的現代過度參數化模型時,由一個 w?W?Rd 參數化的模型族表示, d 通常比 N 大得多。對于每個數據點的損失函數 l ,使用經典的交叉熵(crossentropy,CE)損失函數,則訓練損失可以定義為
,群體損失定義為 LD(w)= (20E(x,y)~D[l(f(w,x),y)] 。在僅觀察到訓練樣本 s 的情況下,模型 f(w) 訓練的核心目標是選取那些能夠最小化群體損失函數 LD(w) 的模型參數 w ,以此來優化模型的性能。
2.2銳度感知最小化相關計算
SAM中已經證明最小化群體損失相當于最小 化概率近似正確貝葉斯(probablyapproximately correctBayesian,PAC-Bayesian)誤差上限,即
式中: ? 表示半徑為 ρ 的球形領域內的擾動;Ls(w+?) 表示以 w 為中心、半徑為 ρ 的球域內最壞的可能損失;方括號中的式子表示通過測量從 w 到附近參數值過程中損失值的變化程度; h 函數表示一個嚴格遞增函數。隨后,它通過最小化銳度項(2號
、訓練損失值和正則化w ,實現同時最小化訓練損失值和找到損失景觀平坦最小值的目的。同時
可以用標準的L2正則化項
來代替,更新后的式子如下:
minwLD(w)=minwmax|?|p?ρLS(w+?)+λ|w|22
SAM分兩步來解決最大-最小優化問題:第一步,在 w 周圍進行一階泰勒展開來近似內部最大
化問題進行擾動計算:

第二步,利用數值優化器,如SGD,更新模型權重以最小化 Ls(w+?) :
wt+1≈wt-η?wLs(w+?*)
式中: η 為步長; ablaw 為對參數 w 求偏導。
SAM的關鍵即是對上述兩步進行迭代求解,尋找平坦最小值。
2.3 擾動計算
由于噪聲標簽的存在,特別是當噪聲占比較大時,擾動后的模型參數的梯度下降方向可能無法準確地表示最大化的鄰域損失值的方向。因此,我們提出了一個新的擾動計算策略。
首先分析了在訓練過程中對噪聲樣本和干凈樣本之間的參數擾動問題。基于這些分析,我們對模型參數的梯度擾動和計算進行改進,通過干凈樣本來確定參數擾動的方向,并在損失景觀中搜索平坦最小值,在限制樣本的梯度擾動方向的同時,對齊擾動前后的模型參數信息。具體實現過程如圖1所示。在每個epoch中,樣本都會根據其特性被動態劃分為可能的干凈樣本 S+ 和可能的噪聲樣本 S- ,本文方法主要針對可能的干凈樣本 S+ 進行計算,對可能的噪聲樣本 S- 不做處理,相當于暫時丟棄。樣本分類的方法將在下一小節中詳細描述。

當進入第 χt 個epoch時,網絡模型的參數計算將經歷以下幾個步驟。首先,將可能的干凈樣本S+ 傳遞到模型參數 wt 中執行前向-后向傳播操作,從而計算網絡參數關于可能的干凈樣本 S+ 的梯度ablaLs+(wt) 研究中的SAM利用干凈樣本來改善擾動方向,由式(3)計算可得擾動 ?* ,于是擾動后的模型參數定義為 wt*=wt+?* 。
如果僅用擾動后的模型參數來確定擾動方向,模型的學習效果并不是很好,這可能是因為噪聲數據,從而造成誤判。將擾動前后的模型參數相結合,進行信息互補可以有效解決這一問題。
可能的干凈樣本 S+ 在擾動前的網絡輸出為fs+(wt) ,擾動后的網絡輸出為 fs+(wt*) 。為了確保二者在輸出分布上保持一致,需要對它們進行softmax處理,將分數分布轉換為概率分布,使其對齊,由此得到 Ps+(wt) 與 Ps+(wt*) 。模型的訓練目標是強化對干凈樣本的預測能力,因此在后續步驟中,將給予干凈樣本的擾動權重以正面激勵,以此提高權重擾動方向的準確性。為了實現這一點,在干凈樣本的預測模型中,加上其擾動前的預測權重的對數概率,即表示為

這樣即可實現擾動前后的模型參數信息互補的目的,在增強模型對干凈樣本的學習能力的同時,使模型更好地適應數據變化,提高了模型整體的泛化性能。最終,對上述分布采用歸一化操作LS+(wt*)=crossentroy(F(wt),Y) ,計算得到新的網絡權重參數并進行網絡預測:
wt+1=wt-η?Ls+(wt?)
2.4 樣本劃分
如果我們無差別地對所有樣本進行加權,那么許多明顯的噪聲樣本也會被加權,從而導致損壞模型的參數擾動,同時也會降低SAM的效率。因此,引人了一種基于動態閾值的樣本選擇策略,將每個批次中的樣本劃分為可能的干凈樣本 S+ 與可能的噪聲樣本 S- 。
為了動態地將批次中的樣本劃分為兩個集合,我們引入了類別閾值 τ(t) , Φt 表示第 χt 個epoch。將模型在噪聲標簽上的第 i 個實例的softmax 輸出表示為 p(xi,yi)=softmax(f(w,xi)) 。當 p(xi,yi) 大于類別閾值 τ(t) ,那么第 χi 個實例將被標記為可能的干凈樣本 S+ ;反之,被標記為可能的噪聲樣本,可以表示為如下公式:

動態閾值計算方法如下:

式中:
K-1} 以及 α=0.99 用作調節分配給歷史輸出的權重的平滑參數。
3 實驗
3.1 數據集與實驗設置
實驗共涉及3個數據集,它們的詳細特征如表1所示。CIFAR-1O和CIFAR-100數據集作為自然數據集,很難控制或確定其噪聲特性,因此在該實驗中特意引人兩種噪聲模型:對稱和不對稱噪聲,以模擬現實世界中的標簽噪聲情況。對稱噪聲表示每個類別都以相似的概率被錯誤標記為其他類別,而非對稱噪聲根據CIFAR-1O上發生的真實錯誤結構,如“鳥 $$ 飛機”“貓 $$ 狗”等,以此設計噪聲[23],CIFAR-100 則將每個類別的標簽翻轉到同一超類中的下一個類別。參考先前的文獻研究[16-17],在CIFAR-10 和 CIFAR-100 上分別使用20% . 40% . 60% 和 80% 4個不同的對稱噪聲率,以及 20% . 30% , 40% 的非對稱噪聲率。而第3個數據集ANIMAL-10N,則是一個真實存在的噪聲數據集,其噪聲率為 8% 。通過這3個數據集的綜合運用,我們能夠更全面地評估模型的性能與穩定性。

本文將 ResNet-18[24] 作為實驗的骨干網絡,并在3個數據集上訓練了200個epochs,采用SGD作為基礎優化器,動量為0.9,權重衰減為0.0005,batch-size為128,針對CIFAR-10數據集的初始學習率為0.03,針對CIFAR-100數據集的初始學習率為0.1,針對ANIMAL-10N數據集的初始學習率為0.01。
為了證明本文方法在標簽噪聲的分類準確率,選取了各種噪聲標簽學習框架內的典型算法的結果進行對比實驗,其中包括用于魯棒損失的GCE,用于正則化的 Mixup,用于標簽校正的PLC[4]和CLC[16],用于半監督學習的DivideMix[10],用于對比學習的CTRR[12]和Co-learning[11],以及用于混合方法的MSCL[17]。
3.2 實驗結果
本文實驗目的是檢驗CI3PSAM在不同標簽噪聲情況下的性能。我們先在合成噪聲標簽數據集(CIFAR-10和CIFAR-10O)進行驗證,再到真實的噪聲數據集(ANIMAL-10N)上驗證,通過這3個數據集來檢驗SAM的性能。
表2和表3展示了在CIFAR-10和CIFAR-100數據集上,本文方法與其他各種噪聲標簽學習框架內的經典方法的比較。在CIFAR-1O和CIFAR-100數據集上,CI3PSAM從中度噪聲率到重度噪聲率的表現始終優于基線方法,這也證明了該方法在標簽噪聲學習領域內的有效性。將CI3PSAM與Di-videMix和MSCL進行比較,可以發現,本文方法所展現出的性能大多數情況下與它們相當。特別是在CIFAR-100數據集上,CI3PSAM在處理標簽噪聲上展現出了其優異性能,但在對稱噪聲率 80% 的情況下,該方法準確度較低,不如DivideMix和MSCL穩定。這表明本方法雖然能夠有效識別可能干凈的樣本,但由于其比例太小,導致無法很好地影響參數擾動,準確度也因此較低。


上述的實驗可以證明CI3PSAM可以在合成噪聲數據集上展現其較好的性能。為了進一步驗證本文方法的有效性,我們在真實噪聲數據集ANI-MAL-10N上進行實驗,實驗結果如表4所示。結果表明,本文所提出的CI3PSAM方法優于其他算法,其準確度比PLC提高 4% ,比OT-Filter[25]提高 1.9% 。

4 結束語
本文針對探索在損失景觀中搜索平坦最小值與模型對噪聲標簽的魯棒性之間的關系這一主題,提出了一種將擾動前后信息進行互補的銳度感知最小化優化方法用于標簽噪聲學習。該方法將可能的干凈樣本集擾動前后的模型參數進行相加,以達到信息互補的效果。為了更好地學習樣本特征,利用動態閾值將樣本劃分為可能的干凈樣本和噪聲樣本集合。通過在合成噪聲數據集和真實噪聲數據集上的實驗驗證了本文所提出的CI3PSAM方法的優越性與魯棒性。在未來的研究中,我們計劃將標簽校正引人到本文研究中,進行進一步的探索研究。
參考文獻:
[1]BRODLEY C E,FRIEDL M A. Identifying mislabeled training data[J].Journal of Artificial Intelligence Research,1999,11:131-167.
[2]ZHANG CY,BENGIO S,HARDT M,et al. Understanding deep learning(still)requires rethinking generalization[J].CommunACM,2021,64(3):107-115.
[3]KARIMI D,DOU H,WARFIELD S K,et al. Deep learning with noisy labels:exploring techniques and remedies in medical image analysis [J/OL].Medical Image Analysis,2020,65(2020-6-20)[2024-6-12].https:// doi.org/10.1016/j.media.2020.101759.
[4]宮辰,張闖,王啟舟.標簽噪聲魯棒學習算法研究綜 述[J].航空兵器,2020,27(3):20-26.
[5] ZHANG Z L, SABUNCU M. Generalized cross entropy loss for training deep neural networks with noisy labels [C]//BENGIO S,WALLACHH,LAROCHELLE H, et al.Advances in Neural Information Processing Systems.New York:Curran Associates Inc.,2018,31: 8792-8802.
[6]MA XJ,HUANG HX,WANG Y S,et al. Normalized loss functions for deep learning with noisy labels[C]// III HD,SINGHA.Proceedings of the 37th International Conference on Machine Learning.Virtual:PMLR, 2020,119:6543-6553.
[7]GHOSH A,KUMAR H, SASTRYP S. Robust loss functions under label noise for deep neural networks[J/OL]. Proceedings of the AAAI Conference on Artificial Intelligence,2017,31(1)(2017-2-13)[2024-6-12]. https:// ojs.aaai.org/index. php/AAAI/article/view/10894.
[8]FORETP,KLEINERA,MOBAHI H,et al. Sharpnessawareminimization for efficiently improving generalization[C/OL]. International Conference on Learning Representations,2021(2021-1-13)[2024-6-12]. https:// openreview.net/forum? id τ=τ 6Tm1 mposlrM.
[9]HANB,YAOQM,YUXR,et al.Co-teaching:robust training of deep neural networks with extremely noisy labels[C]//32nd Conference on Neural Information Processing Systems. Montreal:Neural Information Processing Systems Foundation, 2018: 8527-8537.
[10]LI JN, SOCHER R,HOI S C H. DivideMix:learning with noisy labels as semi-supervised learning[C/OL]. International Conference on Learning Representations, 2020(2019-12-20)[2024-6-12].htps://openreview. net/forum? id = HJgExaVtwr.
[11]TAN C, XIA J, WU L R,et al. Co-learning: learning from noisy labels with self-supervision[C]//29th ACM International Conference on Multimedia(MM).New York:Association for Computing Machinery,2021:1405- 1413.
[12]LI Y, LIU S, SHE Q,et al. On learning contrastive representations for learning with noisy labels[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans:IEEE,2022: 16661-16670.
[13]LU J, ZHOU Z Y,LEUNG T,etal. MentorNet; earning data-driven curriculum for very deep neural networks on corrupted Labels [C]//JENNIFER D,ANDREASK. Proceedings of the 35th International Conference on Machine Learning. Stockholm:PMLR,2018:2304-2313.
[14]ZHANG Y K, ZHENG S Z,WU P X, et al. Learning with feature-dependent label noise:a progressive approach[C]//International Conference on Machine Learning.Vienna :ICLR,2021:1-13.
[15]ZHANG H, CISSE M, DAUPHIN Y N,et al. Mixup: beyond empirical risk minimization [C/OL]. International Conference on Learning Representations,2018(2018- 2-16)[2024-6-12]. https://openreview.net/forum? id = r1 Ddp1-Rb.
[16]HUANG B,LIN YH, XUC Y. Contrastive label correction for noisy label learning[J].Information Sciences, 2022,611: 173-184.
[17]HUANG B,ZHANG P,XU C Y.Combining layered label correction and mixup supervised contrastive learning to lear noisy labels [J/OL].Information Sciences, 2023,642(2023-5-26)[2024-6-12]. htps://doi. org/ 10.1016/j. ins.2023.119242.
[18] KWON J,KIM J,PARK H,et al. ASAM:adaptive sharpness-aware minimization for scale-invariant learning of deep neural networks [C]//Proceedings of the 38th International Conference on Machine Learning.Virtual: PMLR,2021:5905-5914.
[19]DUJW,YANHS,FENGJS,etal.Efficient sharpness-aware minimization for improved training of neural networks[C]//International Conference on Learning Representations.Virtual:ICLR,2022.
[20]MIP,SHENL,RENTH,etal. Make sharpness-aware minimization stronger:a sparsified perturbation approach [J].Advances in Neural Information Processing Systems,2022,35:30950-30962.
[21]YUEY,JIANGJD,YEZL,et al. Sharpness-aware minimization revisited:weighted sharpness asaregularization term[C]//Proceedingsofthe29th ACMSIGKDD Conference on Knowledge Discovery and Data Mining. New York:Association for Computing Machinery,2023: 3185-3194.
[22]ZHUANGJT,GONGBQ,YUANLZ,et al.Surrogate gapminimization improvessharpness-aware training [C]//International Conference on Learning Representations.Virtual:ICLR,2022:1-24.
[23]LIJN,WONGYK,ZHAOQ,etal.Learningto learn fromnoisylabeled data[C]//2019IEEE/CVF Conference on Computer Visionand Pattern Recognition (CVPR). Los Alamitos:IEEE Computer Society,2019: 5046-5054.
[24]HEKM,ZHANGXY,RENSQ,et al.Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. LasVegas:CVPR,2016:770-778.
[25]FENGCW,RENYL,XIEXK.Ot-filter:an optimal transport filter for learning with noisy labels[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver:CVPR,2023: 16164-16174.
[26]CHEN Y Y,SHENX,HUSX,et al.Boosting coteaching with compression regularization for label noise [C]// Proceedings of the IEEE/CVF Conferenceon Computer Vision and Pattern Recognition. Nashville: CVPRW,2021:2688-2692.
(責任編輯:曾 晶)
Sharpness-Aware Minimization with Complementary Information for Label Noise Learning
XU Chaoyang1,WU Wanhan2,LIN Yaohai*2 (1.ScholofMechanical,Electrical,andInformationEngineering,PutianUniversity,Putian3511o,China;2.Collgeof Computerand Information Sciences,Fujian Agricultureand ForestryUniversity,Fuzhou 35ooo2,China)
Abstract:Label noise presents a prevalent challenge in machine learning and computer vision applications. Sharpness-aware minimization (SAM) has emerged as an efective approach for enhancing the generalization performance of learning models within environments characterized by noisy labels. SAM achieves this by introducing adversarial weight perturbations into the model parameter space.However,the presence of label noise complicates SAM's ability to identify the correct adversarial perturbation ineach batch of noisydata.To addressthis isse,sharpness-aware minimization with complementary informationis adopted to combine the information before and after disturbance,so as to achieve the complementary efect. Thus,the correct disturbance direction is found beter.Additionally,a dynamic threshold strategy is introduced to enhance the precision of perturbation direction estimation by efectively distinguishing noise samples from clean ones. Empirical validation across various benchmark datasets,including CIFAR-1O, CIFAR-1OO,and ANIMAL-10N, furtherdemonstrate the effctiveness and superiorityof this method.The proposed method can effectively reduce the interference of noise on the disturbance direction and improve the clasification accuracy in the noisy label environment,and has excellent generalization ability.
Keywords:machine learning;deep learning;neural networks;sharpness-aware minimization;label noise learning;model generalization; perturbation computation; information complementation