

















摘 要:測試時間適應(yīng)(test-time adaptation,TTA)的目標(biāo)是利用未標(biāo)記的測試數(shù)據(jù)使已訓(xùn)練完成的神經(jīng)網(wǎng)絡(luò)模型在測試時適應(yīng)測試數(shù)據(jù)分布。現(xiàn)有的TTA方法主要考慮在單個或多個靜態(tài)環(huán)境中進(jìn)行適應(yīng)。然而,在非平穩(wěn)環(huán)境中,測試數(shù)據(jù)分布會隨著時間的推移而連續(xù)變化,這導(dǎo)致以往的TTA方法不穩(wěn)定。因此,提出了一種基于魯棒和可靠對稱交叉熵的測試時適應(yīng)(robust and reliable symmetric cross entropy test-time adaptation,RRSTA)算法。首先,為提高對噪聲分布變化的魯棒性和緩解災(zāi)難性遺忘,提出了基于均值教師模型的對稱交叉熵,既鼓勵模型正確預(yù)測又懲罰錯誤的預(yù)測。其次,為了提高對不同噪聲樣本的魯棒性,提出了一種雙流擾動技術(shù),通過教師模型強(qiáng)視圖,指導(dǎo)學(xué)生模型的由弱到強(qiáng)的擾動視圖。最后,提出了可靠熵最小化策略,防止參數(shù)的劇烈變化,以穩(wěn)定適應(yīng)。廣泛的實(shí)驗(yàn)和消融研究在CIFAR10C和CIFAR100C上證實(shí)了所提方法的有效性,相比于未經(jīng)適應(yīng)的模型,錯誤率降低了26.13%和14.69%,并且顯著優(yōu)于次優(yōu)的方法。
關(guān)鍵詞:測試時適應(yīng); 領(lǐng)域自適應(yīng); 連續(xù)適應(yīng); 分布變化
中圖分類號:TP301 文獻(xiàn)標(biāo)志碼:A
文章編號:1001-3695(2024)06-022-1756-06
doi:10.19734/j.issn.1001-3695.2023.10.0500
Robust and reliable symmetric cross-entropy-based test-time adaptation
Abstract:TTA aims to make the trained neural network model adapt to the test data distribution at test time using unlabeled test data. Existing TTA methods mainly consider adaptation in a single or multiple static environments. However, in non-stationary environments, the test data distribution changes continuously over time, which leads to the instability of previous TTA methods. Therefore, this paper proposed a test-time adaptation algorithm(RRSTA) based on robust and reliable symmetric cross entropy. Firstly, in order to improve the robustness to noise distribution changes and alleviate catastrophic forgetting, it proposed a symmetric cross entropy based on the mean teacher model, which encouraged the model to predict correctly and punished the wrong prediction. Secondly, in order to improve the robustness to different noise samples, it proposed a dual-stream perturbation technique, which guided the weak-to-strong perturbation view of the student model through the strong view of the teacher model. Finally, it proposed a reliable entropy minimization strategy to prevent the drastic change of parameters and stabilize adaptation. Extensive experiments and ablation studies on CIFAR10C and CIFAR100C confirm the effectiveness of the proposed method. Compared with the unadapted models, the error rate is significantly reduced by 26.13% and 14.69%, and it is significantly better than the second-best method.
Key words:test-time adaptation; domain adaptation; continuous adaptation; distribution change
0 引言
當(dāng)前的深度神經(jīng)網(wǎng)絡(luò)(DNN)已經(jīng)在廣泛的領(lǐng)域取得了令人印象深刻的性能,包括計(jì)算機(jī)視覺[1]和自然語言處理[2]。不幸的是,當(dāng)訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)取自不同的分布時,深度模型經(jīng)常違反這一假設(shè),出現(xiàn)了顯著的性能下降的情況,因?yàn)樵S多環(huán)境通常是非平穩(wěn)且不斷變化的。為了解決這種退化問題,之前的研究通常尋求在訓(xùn)練過程中增強(qiáng)模型的魯棒性,包括利用數(shù)據(jù)增強(qiáng)[3]、領(lǐng)域適應(yīng)[4]、領(lǐng)域泛化[5]和對抗訓(xùn)練[6]。盡管這些方法試圖從各個角度減少訓(xùn)練數(shù)據(jù)和目標(biāo)數(shù)據(jù)之間的分布差異來解決退化問題,但在實(shí)際應(yīng)用中,由于成本、時間和資源可用性的限制,仍然存在某些無法觀察到的分布偏移[7],這可能對方法的有效性提出重大挑戰(zhàn)。此外,這些技術(shù)需要在訓(xùn)練過程中進(jìn)行干預(yù),文獻(xiàn)[8]指出這進(jìn)一步增加了災(zāi)難性失敗的風(fēng)險(xiǎn)。
盡管領(lǐng)域適應(yīng)、領(lǐng)域泛化都廣泛研究了分布變化的問題并取得了積極的結(jié)果. 然而在很多實(shí)際場景中, 由于隱私問題或法律約束源域數(shù)據(jù)并不總是可訪問的,例如,用戶身份信息、病人健康數(shù)據(jù)等。此外,現(xiàn)有方法需要額外附加的計(jì)算成本,并難以在訓(xùn)練期間推廣到潛在未知的數(shù)據(jù)分布范圍。測試時間適應(yīng)[9~11]方法正成為一種替代解決方案,TTA僅利用當(dāng)前未標(biāo)記的測試數(shù)據(jù)在線更新模型參數(shù)以克服數(shù)據(jù)分布偏移。毫無疑問,TTA考慮了更具挑戰(zhàn)性但更現(xiàn)實(shí)的問題,并引起了廣泛的關(guān)注和應(yīng)用,例如多模態(tài)[12]、醫(yī)學(xué)圖像分析[13]等。
先前的TTA已被證明能通過熵最小化[10, 14, 15]、批量歸一化統(tǒng)計(jì)[16]顯著提高模型對分布偏移的魯棒性。然而,其良好的性能通常是在較為溫和的測試時設(shè)置下實(shí)現(xiàn)的,其中測試樣本是從具有相同數(shù)據(jù)分布偏移類型的固定目標(biāo)域中獨(dú)立采樣的。然而,在更為現(xiàn)實(shí)的環(huán)境中,這些方法的有效性可能會降低,這是因?yàn)閿?shù)據(jù)環(huán)境會隨著天氣、地理位置、時間或其他因素而不斷發(fā)生改變。例如,在自動駕駛系統(tǒng)中,汽車周圍環(huán)境會隨著時間的推移而不斷變化、汽車進(jìn)出隧道光線發(fā)生改變、街道上意外出現(xiàn)的兒童或是傳感器鏡頭的自然老化或污損。以上都是現(xiàn)實(shí)中常見的場景,這通常會使得已經(jīng)訓(xùn)練完成的模型出現(xiàn)性能退化。因此,本文進(jìn)一步考慮更加現(xiàn)實(shí)的測試時設(shè)置,即文獻(xiàn)[9]首次提出的連續(xù)測試時適應(yīng),其中測試數(shù)據(jù)分布會隨著時間不斷變化。相關(guān)方法的比較如表1所示。
為了提升模型在非平穩(wěn)環(huán)境中的表現(xiàn),本文首先深入研究了基于熵最小化的TTA方法失敗的案例,發(fā)現(xiàn)以往的TTA方法表現(xiàn)良好,通常是在較為溫和的環(huán)境下并且嚴(yán)重依賴于超參數(shù)的選擇, 而當(dāng)超參數(shù)發(fā)生細(xì)小的改變則有可能導(dǎo)致災(zāi)難性的失敗;然后進(jìn)一步分析了不同熵值樣本對模型性能的貢獻(xiàn);最后提出了基于均值教師模型的魯棒和可靠對稱交叉熵的測試時適應(yīng)(robust and reliable symmetric cross entropy test-time adaptation,RRSTA)算法來穩(wěn)定測試時適應(yīng)。 相比以往的方法而言,本文專注于更現(xiàn)實(shí)和更具挑戰(zhàn)性的設(shè)置,其中數(shù)據(jù)分布不斷變化。在廣泛使用的CIFAR10C和CIFAR100C基準(zhǔn)數(shù)據(jù)集上,所提出的測試時適應(yīng)方法能夠降低26.13%和14.69%的錯誤率,并顯著高于次優(yōu)方法。
1 問題定義
測試時適應(yīng)算法的目標(biāo)是僅利用當(dāng)前未標(biāo)記的測試數(shù)據(jù),使已經(jīng)預(yù)訓(xùn)練好的模型在測試時有效適應(yīng)到新的目標(biāo)域,解決目標(biāo)域和源域的數(shù)據(jù)分布差異問題。為了詳細(xì)說明,接下來將用公式化和具體符號來進(jìn)行描述。
2 測試時適應(yīng)的風(fēng)險(xiǎn)
事實(shí)上,數(shù)據(jù)分布不斷變化的設(shè)置很大程度上是由部署模型的實(shí)際需求驅(qū)動的。正如在引言中所提到的,自動駕駛汽車周圍環(huán)境的總是會隨著時間的推移而變化,并且會受到天氣和地理位置等因素的影響。以往的一些測試時適應(yīng)算法在較為溫和的條件取得了成功。然而,由于目標(biāo)域的數(shù)據(jù)分布不斷變化,一些方法通常會無聲地退化模型的性能,且在短時間內(nèi)難以觀察到這種性能退化的現(xiàn)象。本文進(jìn)一步繪制了具有代表性的熵最小化方法[10]的失效模式, 總的結(jié)果如圖1所示。
2.1 超參數(shù)敏感
首先本節(jié)選取具有代表性的純熵最小化的測試時適應(yīng)方法(tent[10]),并在不同批量大小和學(xué)習(xí)率上進(jìn)行實(shí)驗(yàn)。結(jié)果如圖1(a)(b)所示,五種不同批量大小中有三種發(fā)生了崩潰(即錯誤率>;90%),而所考慮的三種不同的學(xué)習(xí)率(η)中有兩種同樣也發(fā)生了崩潰。這表明以往的純熵最小化的方法在動態(tài)分布變化的場景中進(jìn)行連續(xù)的適應(yīng)是不穩(wěn)定的。雖然通過超參數(shù)能夠避免這一現(xiàn)象的產(chǎn)生,但是為不同場景都單獨(dú)準(zhǔn)備超參數(shù)是不現(xiàn)實(shí)的。 此外,即便超參數(shù)調(diào)優(yōu)或許能延緩崩潰現(xiàn)象的發(fā)生,但這種崩潰的發(fā)生最終是不可避免的。例如,當(dāng)批量大小選取512或?qū)W習(xí)率為0.001時都表現(xiàn)出了崩潰的趨勢。
2.2 低質(zhì)量的偽標(biāo)簽
在測試時適應(yīng)領(lǐng)域中,熵最小化是具有代表性的方法之一。在數(shù)據(jù)集分布相同且不包含噪聲的情況下,傳統(tǒng)的熵最小化通常是有效的,它鼓勵模型對正確偽標(biāo)簽作出正確的預(yù)測結(jié)果。傳統(tǒng)的純熵最小化的公式表示為
Euclid Math OneLAp=-∑fθ(xt)log fθ(xt)(3)
其中:fθ(xt)表示模型對于輸入xt的預(yù)測結(jié)果,并將模型自身預(yù)測結(jié)果作為偽標(biāo)簽。
然而,當(dāng)數(shù)據(jù)存在分布變化或噪聲時,這將使得偽標(biāo)簽變得嘈雜,從而容易出現(xiàn)低質(zhì)量的偽標(biāo)簽。而且這些噪聲會使得錯誤不斷積累。結(jié)果如圖1(c)中所示,模型最終發(fā)生崩潰,模型傾向于將所有輸入樣本預(yù)測為某幾類,即使這些樣本具有不同的真實(shí)類別。這是因?yàn)閭鹘y(tǒng)的熵最小化只鼓勵正確預(yù)測結(jié)果,而不對錯誤預(yù)測結(jié)果進(jìn)行懲罰。因此,迫切地需求已經(jīng)部署的模型在以上場景中表現(xiàn)良好。
3 方法
在非平穩(wěn)的現(xiàn)實(shí)環(huán)境中,面對分布不同的目標(biāo)域數(shù)據(jù),預(yù)訓(xùn)練模型fθ0的預(yù)測結(jié)果會變得不可靠。 為了防止性能進(jìn)一步下降,本文提出了魯棒和可靠對稱交叉熵測試時適應(yīng)算法,主要分為三個部分:基于對稱交叉熵的均值教師模型、雙流擾動技術(shù)以及可靠熵最小化。RRSTA算法框架如圖2所示。
3.1 基于對稱交叉熵的均值教師模型
給定測試數(shù)據(jù)xt和模型fθt,在測試時適應(yīng)中,以往的TTA方法的目標(biāo)通常是最小化預(yù)測的交叉熵來更新模型權(quán)重,這已被證實(shí)是有效的。然而在不斷變化的測試流數(shù)據(jù)中,這些方法可能會因?yàn)閿?shù)據(jù)分布的改變導(dǎo)致低質(zhì)量的偽標(biāo)簽從而發(fā)生性能退化。
一種理想的方式是利用平均教師模型[17],這是因?yàn)榻處熌P屯ㄟ^移動指數(shù)平均(exponential moving average)[18]進(jìn)行更新,其預(yù)測結(jié)果qt會包含過去迭代模型的信息,從而能提供更高質(zhì)量的偽標(biāo)簽,緩解連續(xù)適應(yīng)過程中的災(zāi)難性遺忘問題[19]。
其中:γ=0.99是初始平滑系數(shù)。
然而,基于常規(guī)交叉熵的平均教師模型主要關(guān)注增強(qiáng)正確標(biāo)簽的預(yù)測概率,而不懲罰預(yù)測錯誤的預(yù)測概率。如圖1 (c)所示,這可能導(dǎo)致在面對噪聲樣本時過度自信或降低泛化能
其中:第一項(xiàng)是常規(guī)交叉熵?fù)p失,第二項(xiàng)是反向交叉熵[20]損失。相比常規(guī)交叉熵而言,對稱交叉熵不僅關(guān)注正確標(biāo)簽的不確定性,同時能夠懲罰模型對于錯誤標(biāo)簽的過度確定性。
3.2 雙流擾動技術(shù)
本節(jié)提出了基于對稱交叉熵的均值教師模型。但是由于數(shù)據(jù)分布不斷變化,可能還會存在一些自然或合成的噪聲樣本。為了進(jìn)一步提高模型對噪聲分布變化的魯棒性,本節(jié)在對稱交叉熵的基礎(chǔ)上進(jìn)一步提出了一種雙流擾動技術(shù),通過在原始樣本的弱視圖的指導(dǎo)下,使由弱到強(qiáng)的擾動視圖保持一致。 對于自然噪聲,本節(jié)考慮通過原始級的擾動來進(jìn)行應(yīng)對,而對于合成噪聲,采用一組人工合成的數(shù)據(jù)增強(qiáng)策略來進(jìn)行補(bǔ)充。
本節(jié)強(qiáng)調(diào)將不同屬性的擾動分離成獨(dú)立流的必要性。這與最近將不同擾動混合到單個流中的工作不同,為了驗(yàn)證雙流擾動之間能否可以很好地互補(bǔ),本節(jié)進(jìn)行了一個簡單的實(shí)驗(yàn)進(jìn)行驗(yàn)證,首先從xt獨(dú)立地產(chǎn)生雙流擾動與混合雙流擾動進(jìn)行對比。如圖3所示,獨(dú)立雙流擾動帶來了一致的改進(jìn),而混合擾動則相反。
3.3 可靠熵最小化策略
直覺上不同的樣本在測試時適應(yīng)過程中會對模型性能產(chǎn)生不同的貢獻(xiàn)。為了驗(yàn)證這一點(diǎn),本節(jié)首先根據(jù)熵值大小對樣本的貢獻(xiàn)程度進(jìn)行了劃分。圖4為高熵樣本和低熵樣本對模型性能的貢獻(xiàn),其中通過tent方法在CIFAR100C(損壞類型motion blur,損壞嚴(yán)重等級為5)上調(diào)整模型。從圖4中,毫無疑問的是低熵樣本總是比高熵樣本對模型性能的貢獻(xiàn)更大,而高熵樣本通常會損壞模型性能。這是因?yàn)楦哽貥颖就ǔS衅钋也豢煽俊;谏鲜龇治觯芪墨I(xiàn)[23]啟發(fā),一種最直接的方案是通過熵值進(jìn)行過濾。形式上,令E(xt;Θ)表示樣本xt的熵。那么,熵最小化的目標(biāo)可以表示為
4 實(shí)驗(yàn)
4.1 數(shù)據(jù)集
本文主要在廣泛使用的基準(zhǔn)上評估所有方法,即CIFAR10C、CIFAR100C[24]。它們分別是基于CIFAR10、CIFAR100測試集然后通過各種算法合成不同噪聲來構(gòu)建的。如圖5所示,主要包括噪聲(Gaussian noise、shot noise、impulse noise)、模糊(defocus blur、frosted glass blur、motion blur、zoom blur)、天氣(snow、frost、fog)和數(shù)碼(brightness、contrast、elastic、pixelate、JPEG),共計(jì)15種不同的損壞類型組成。其中每種損壞類型具有5個不同的嚴(yán)重性級別,并且嚴(yán)重性級別越大意味著分布變化越嚴(yán)重。
4.2 實(shí)施細(xì)節(jié)
在CIFAR10→CIFAR10C中使用預(yù)訓(xùn)練的WideResNet-28[25]模型,在CIFAR100→CIFAR100C中使用ResNeXt-29[26]模型進(jìn)行實(shí)驗(yàn)。需要注意的是本文不對訓(xùn)練過程做任何調(diào)優(yōu),在所有任務(wù)中預(yù)訓(xùn)練模型的權(quán)重均由魯棒評測基準(zhǔn)RobustBench[27]提供,并保持所有的預(yù)定義模型設(shè)置。
在測試時,本文方法采用SGD優(yōu)化器,動量設(shè)置為0.9,學(xué)習(xí)率大小設(shè)置為η=1×10-3。關(guān)于超參數(shù)設(shè)置,熵過濾閾值ε=0.4×ln C,C是類別總數(shù),式(8)中的擾動數(shù)量n設(shè)置為4,式(5)中指數(shù)移動平均系數(shù)γ=0.99,與CoTTA[9]方法保持一致,關(guān)于其他超參數(shù)均保持默認(rèn)。為了公平比較, 本文在所有實(shí)驗(yàn)中將批量大小設(shè)置為64。
4.3 對比方法
為了驗(yàn)證本文算法的有效性, 考慮以下典型的強(qiáng)有力的基線方法進(jìn)行比較,其中包括:a)tent[10]將模型的預(yù)測概率值作為偽標(biāo)簽并最小化熵來更新模型參數(shù);b)CoTTA[9]通過權(quán)重平均和增強(qiáng)樣本平均來提升偽標(biāo)簽的質(zhì)量,并通過持續(xù)將一小部分神經(jīng)元隨機(jī)恢復(fù)到源預(yù)訓(xùn)練的權(quán)重;c)SHOT[11]通過利用信息最大化和自監(jiān)督偽標(biāo)簽來學(xué)習(xí)目標(biāo)特定特征提取模塊,以隱式地將目標(biāo)域的表示與源假設(shè)對齊;d)BN[16]僅使用批量歸一化統(tǒng)計(jì)量, 而無須任何參數(shù)更新。需要注意的是,source方法直接在目標(biāo)域上進(jìn)行評估,無須進(jìn)行任何調(diào)整和適應(yīng)。關(guān)于所對比的其他方法,本文都遵循其官方代碼的實(shí)現(xiàn)方式并保持與其論文一致的超參數(shù)設(shè)置。
4.4 實(shí)驗(yàn)結(jié)果
表2中顯示了連續(xù)測試時適應(yīng)設(shè)置下連續(xù)適應(yīng)不同損壞類型的結(jié)果,并且所有TTA方法都共享相同的損壞類型順序。其中,損壞等級最高為5級,下畫線表示性能低于source的結(jié)果,粗體表示最佳結(jié)果,“±”代表標(biāo)準(zhǔn)差。從總體來看,直接使用預(yù)訓(xùn)練模型(source)的性能不佳,在CIFAR10C和CIFAR100C上的平均錯誤率分別低至43.52%和46.44%,這表明在測試時對模型進(jìn)行適應(yīng)是有必要的。當(dāng)僅使用批量歸一化統(tǒng)計(jì)量(BN)進(jìn)行適應(yīng)時,在CIFAR10C和CIFAR100C上的錯誤率分別降低了22.59%和10.22%。雖然大多數(shù)方法在CIFAR10C上表現(xiàn)良好,但當(dāng)在較難的CIFAR100C數(shù)據(jù)集時,甚至部分方法在適應(yīng)后的性能反而出現(xiàn)了下滑。如果把注意力轉(zhuǎn)向適應(yīng)過程,可以觀察到基于純熵最小化的方法tent的性能退化十分顯著,并由于錯誤的不斷積累,導(dǎo)致模型最終發(fā)生崩潰(即錯誤率大于90%)。雖然CoTTA方法在CIFAR10C上取得了次優(yōu)的結(jié)果,但這是以額外擴(kuò)增32次增強(qiáng)樣本并前向傳播的代價(jià)取得的。
相反,本文RSSTA方法在所有數(shù)據(jù)集上都取得了優(yōu)異的結(jié)果。從總體來看,相比于未經(jīng)適應(yīng)的模型,在CIFAR10C和CIFAR100C上分別將平均錯誤率降低了26.13%和14.69%。此外,所提出的RSSTA在所有腐敗類型上都取得了最好的結(jié)果。廣泛的實(shí)驗(yàn)結(jié)果強(qiáng)有力地驗(yàn)證了RSSTA能有效適應(yīng)不同的損壞類型,并擁有更低的錯誤率。
5 消融研究
5.1 不同損壞嚴(yán)重等級的影響
在真實(shí)的場景中,考慮到損壞嚴(yán)重等級并不總是最嚴(yán)重的。因此,為了驗(yàn)證本文方法RSSTA在不同損壞嚴(yán)重等級的有效性, 本節(jié)進(jìn)一步改變不同的損壞嚴(yán)重等級并與其他方法進(jìn)行比較。如圖6所示,隨著損壞等級的增加,tent方法的錯誤率提升尤為顯著。相反,RSSTA與次優(yōu)方法相比仍保持較大優(yōu)勢。最重要的是,RSSTA在所有損壞等級下都保持一致的最佳性能。
5.2 不同擾動數(shù)量的影響
為了驗(yàn)證式(8)中不同擾動數(shù)量n的影響,本節(jié)改變n的數(shù)值大小。如圖7所示,最大與最小的數(shù)值都不利于模型性能提升。而在數(shù)值為4時取得了最佳優(yōu)勢,因此在所有實(shí)驗(yàn)中,本文方法RSSTA中的參數(shù)n默認(rèn)數(shù)值設(shè)置為4。此外,不建議n的數(shù)量超過5,是因?yàn)闀霈F(xiàn)較大dropout概率值,導(dǎo)致切斷層之間的連接太多,從而限制模型的學(xué)習(xí)能力[28]。
5.3 損失表面可視化
本節(jié)通過Loss landscape[29]分別繪制了具有代表性的熵最小化的方法tent與所提出的RSSTA方法的損失表面。如圖8所示,RSSTA的損失表面更為平坦和光滑,且在更小的步數(shù)就已達(dá)到更平坦的表面,這表明RSSTA具有更好的泛化性,對噪聲樣本具有更好的魯棒性。
5.4 計(jì)算開銷
表3總結(jié)了本文中所涉及方法的詳細(xì)特征。綜合實(shí)驗(yàn)結(jié)果和時間開銷來看,所提出的RSSTA取得了一個理想的平衡。而CoTTA方法通過額外的32次數(shù)據(jù)增強(qiáng),導(dǎo)致了最高的計(jì)算時間開銷。眾所周知,反向傳播通常占據(jù)大部分計(jì)算開銷,雖然RSSTA對增強(qiáng)樣本和原始樣本通過了兩次前向傳播,但受益于RSSTA只最小化可靠熵,因此反向傳播的數(shù)量能大大減少。
6 結(jié)束語
本文分析了以往測試時適應(yīng)方法的失敗的案例,發(fā)現(xiàn)以往的TTA方法表現(xiàn)良好,通常是在較為溫和的環(huán)境下并且依賴于超參數(shù)的選擇,如果超參數(shù)發(fā)現(xiàn)細(xì)微的改變往往會導(dǎo)致災(zāi)難性的失敗。針對深度學(xué)習(xí)模型在不同的目標(biāo)域性能退化的問題,本文考慮了更加現(xiàn)實(shí)的測試場景,即目標(biāo)域的數(shù)據(jù)分布是不斷變化的,提出了魯棒和可靠的對稱交叉熵的測試時適應(yīng)算法,以提高模型在新領(lǐng)域上的性能。首先,引入了基于均值教師模型的對稱交叉熵來緩解災(zāi)難性遺忘。此外,本文還對樣本熵值對模型的貢獻(xiàn)進(jìn)行分析,發(fā)現(xiàn)高熵值樣本往往會損害模型適應(yīng),基于此本文提出只最小化可靠熵值的樣本。大量的實(shí)驗(yàn)和消融研究證明了本文方法的穩(wěn)健性和有效性,相比于未經(jīng)適應(yīng)的模型,錯誤率降低了26.13%和14.69%。本文方法的代碼可在https://anonymous.4open.science/r/test-time-adaptation-20231018獲得。
參考文獻(xiàn):
[1]Alzubaidi L, Zhang Jinglan, Humaidi A J, et al. Review of deep learning: concepts, CNN architectures, challenges, applications, future directions[J]. Journal of Big Data, 2021,8: 1-74.
[2]Liu Yinhan, Ott M, Goyal N, et al. Roberta: a robustly optimized BERT pretraining approach[EB/OL]. (2019-07-26). https://arxiv.org/abs/1907.11692.
[3]Zhong Zhun, Zheng Liang, Kang Guoliang, et al. Random erasing data augmentation[C]//Proc of AAAI Conference on Artificial Intelligence. Palo Alto,CA:AAAI Press, 2020: 13001-13008.
[4]Wang Mei, Deng Weihong. Deep visual domain adaptation: a survey[J]. Neurocomputing, 2018, 312: 135-153.
[5]Zhou Kaiyang, Liu Ziwei, Qiao Yu, et al. Domain generalization: a survey[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2022,45(4): 4396-4415.
[6]Tramer F, Boneh D. Adversarial training and robustness for multiple perturbations[C]//Proc of the 33rd International Conference on Neural Information Processing Systems. Red Hook, NY:Curran Associates Inc., 2019:5866-5876.
[7]Koh P W, Sagawa S, Marklund H, et al. Wilds: a benchmark of in-the-wild distribution shifts[C]//Proc of International Conference on Machine Learning. 2021: 5637-5664.
[8]Bommasani R, Hudson D A, Adeli E, et al. On the opportunities and risks of foundation models[EB/OL]. (2021-08-16). https://arxiv.org/abs/2108. 07258.
[9]Wang Qin, Fink O, Van Gool L, et al. Continual test-time domain adaptation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2022: 7201-7211.
[10]Wang Dequan, Shelhamer E, Liu Shaoteng, et al. Tent: fully test-time adaptation by entropy minimization[EB/OL]. (2020-06-18). https://arxiv.org/abs/2006.10726.
[11]Liang Jian, Hu Dapeng, Feng Jiashi. Do we really need to access the source data?Source hypothesis transfer for unsupervised domain adaptation[C]//Proc of International Conference on Machine Lear-ning. 2020: 6028-6039.
[12]Shu Manli, Nie Weili, Huang De’an, et al. Test-time prompt tuning for zero-shot generalization in vision-language models[C]//Proc of NeurIPS.2022.
[13]Liu Quande, Chen Cheng, Dou Qi, et al. Single-domain generalization in medical image segmentation via test-time adaptation from shape dictionary[C]//Proc of AAAI Conference on Artificial Intelligence. Palo Alto,CA:AAAI Press, 2022: 1756-1764.
[14]Ben-David S, Blitzer J, Crammer K, et al. Analysis of representations for domain adaptation[C]//Advances in Neural Information Processing Systems. 2006.
[15]Wang Jindong, Lan Cuiling, Liu Chang, et al. Generalizing to unseen domains: a survey on domain generalization[J]. IEEE Trans on Knowledge and Data Engineering, 2022,35(8):8052-8072.
[16]Nado Z, Padhy S, Sculley D, et al. Evaluating prediction-time batch normalization for robustness under covariate shift[EB/OL]. (2020-06-19). https://arxiv.org/abs/2006.10963.
[17]Tarvainen A, Valpola H. Mean teachers are better role models: weight-averaged consistency targets improve semi-supervised deep learning results[C]//Advances in Neural Information Processing Systems.2017.
[18]Cai Zhaowei, Ravichandran A, Maji S, et al. Exponential moving average normalization for self-supervised and semi-supervised learning[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2021: 194-203.
[19]Kirkpatrick J, Pascanu R, Rabinowitz N, et al. Overcoming catastrophic forgetting in neural networks[J].Proc of National Academy of Sciences, 2017,114(13): 3521-3526.
[20]Wang Yisen, Ma Xingjun, Chen Zaiyi, et al. Symmetric cross entropy for robust learning with noisy labels[C]//Proc of IEEE International Conference on Computer Vision. Piscataway,NJ:IEEE Press, 2019: 322-330.
[21]Yang Lihe, Qi Lei, Feng Litong, et al. Revisiting weak-to-strong consistency in semi-supervised semantic segmentation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023: 7236-7246.
[22]Wagner T, Guha S, Kasiviswanathan S, et al. Semi-supervised lear-ning on data streams via temporal label propagation[C]//Proc of International Conference on Machine Learning. 2018: 5095-5104.
[23]Niu Shuaicheng, Wu Jiaxiang, Zhang Yifan, et al. Efficient test-time model adaptation without forgetting[C]//Proc of the 39th Internatio-nal Conference on Machine Learning. 2022: 16888-16905.
[24]Hendrycks D, Dietterich T. Benchmarking neural network robustness to common corruptions and perturbations[C]//Proc of International Conference on Learning Representations. 2019.
[25]Zagoruyko S, Komodakis N. Wide residual networks[EB/OL]. (2016-05-23). https://arxiv.org/abs/1605.07146.
[26]Xie Saining, Girshick R, Dollár P, et al. Aggregated residual transformations for deep neural networks[C]//PronA9LgqUp/xvZ+AvFZwFy52dguG6M2IhEVFefmvuOdfg=c of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2017: 1492-1500.
[27]Croce F, Andriushchenko M, Sehwag V, et al. RobustBench: a standardized adversarial robustness benchmark[EB/OL]. (2020-10-19). https://arxiv.org/abs/2010.09670.
[28]Baldi P, Sadowski P J. Understanding dropout[C]//Advances in Neural Information Processing Systems. 2013.
[29]Li Hao, Xu Zheng, Taylor G, et al. Visualizing the Loss Landscape of neural nets[C]//Proc of Neural Information Processing Systems. 2018.