999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多教師對比知識反演的無數據模型壓縮方法

2023-11-16 00:51:16林振元林紹輝姚益武何高奇王長波馬利莊
計算機與生活 2023年11期
關鍵詞:方法模型教師

林振元,林紹輝+,姚益武,何高奇,王長波,馬利莊

1.華東師范大學 計算機科學與技術學院,上海 200062

2.北京大學 信息科學技術學院,北京 100871

知識蒸餾(knowledge distillation,KD)[1-5]是一種常見的模型壓縮方法,在大多數現有的KD 方法中,使用基于logits[1]或來自教師的特征信息[2]的方法可以將知識從教師網絡轉移到學生模型,但在這其中需要訪問整個訓練數據。本文將這些KD 方法稱為數據驅動的KD 方法。然而在現實中,由于隱私、保密或傳輸限制,在蒸餾過程中原始訓練樣本通常不可用。例如,患者的醫療數據是保密的,不會公開共享以泄露患者的隱私。如果沒有數據的幫助,這些方法在獲取不到原始數據的情況下將無法使用。

許多工作[6-8]使用生成對抗網絡研究無數據模型壓縮。然而,這些研究都關注于提高從特定的單一模型反演數據的性能,導致生成的數據缺乏多樣性和泛化性。

一方面,從某一特定模型反演知識會使合成圖像有偏差。由于生成的樣本是從單一的教師模型反演學習得到的,只含有教師網絡所包含的結構先驗知識,導致這些合成的數據不能用于蒸餾到其他的模型。如圖1 所示,在相同的設定下分別將DAFL(data-free learning)[6]、DFQ(data-free quantization)[9]、DeepInversion[10]、CMI(contrastive model inversion)[7]方法合成的數據直接用于訓練不同架構的網絡,實驗結果表明同一個方法得到的訓練數據用于訓練不同網絡時效果差異很大,而且與CIFAR-10 原始數據相比性能上仍存在較大的差距。以Inception-V3 為例,現有的方法CMI[7]所合成的數據與原始數據得到的性能仍然相差了10 個百分點,而且使用合成的數據來訓練不同的網絡結構很不穩定,不同網絡的準確率有較大的方差,說明先前的方法合成的數據可能包含了某一種網絡結構的先驗知識以至于無法很好推廣適用于其他的模型的訓練。因此,這種方法顯然無法拓展至多種網絡進行壓縮。而使用不同的教師網絡進行多次多個模型的壓縮將顯著增加多個模型的訓練時間和數據內存存儲。另外,Chen等[6]使用特定的教師模型(ResNet-34[11])合成數據去訓練其他模型,例如ResNet-18、WRN-16-1,WRN-16-1的最終性能明顯低于ResNet-18 的性能。因此本文的目的在于所合成的數據可以直接用于訓練其他結構的網絡。

圖1 跨模型無數據蒸餾的結果概述Fig.1 Overview of results of cross-model data-free distillation

另一方面,目前的工作在判別器中使用信息熵[6]或學生-教師分歧[9]來生成多樣化的圖像,由于缺乏與歷史生成的圖像的比較,生成圖片的多樣性仍然有所欠缺。在這種情況下,該類算法在生成的圖像中會遇到重復模式,生成器極有可能生成與歷史實例高度相似的實例。

為了解決這些問題,本文提出了一種多教師對比知識反演的無數據蒸餾方法(multi-teacher contrastive knowledge inversion,MTCKI),圖2 描述了所提出方法的工作流程。MTCKI 算法在實際應用中,也有著巨大的需求。例如,模型的供應端(公司和企業)是會有很多不同網絡架構的預訓練模型,而客戶端需要部署一個小模型在自己的終端設備上。本文提出了一種供應端-客戶端合作的模式,供應端將已經訓練好的多個教師模型提供給客戶,而不提供原始的訓練數據,而客戶端只通過這些訓練好的教師網絡去得到一個學生網絡用于部署。單個學生可以訪問多個教師從而得到多個教師網絡提供的全面指導,由此訓練出的學生模型對模型偏差具有較強的魯棒性。本文首先提出了基于多教師集成的模型反演,充分反演來自教師的更豐富的信息以生成可泛化的數據。同時,本文進一步提出了多教師和學生之間的對比交互正則化,其中包含教師內對比和師生對比,以提高合成數據的多樣性。具體來說,教師內部對比用于逐步合成具有與歷史樣本不同模式的新樣本。本文還提出了師生對比,師生對比旨在使得生成器合成的圖片能讓學生網絡和教師網絡映射到相同的表示空間中,采用對比學習的方法拉近同一物體的多視角表示,并區分開不同物體的特征。學生網絡學到的不僅是學生網絡所擅長提取的特征,比如鳥的嘴,還能從與教師網絡的表示的拉近過程中明白鳥的嘴、翅膀、眼睛、羽毛都可以被看作同一物體的不同視角,從而學習到更好的特征表示。基于以上原理,生成器所合成的圖片融合了多視角的特征信息使得合成的圖片具有泛化性和多樣性,一次生成的圖片數據集能夠用于蒸餾或從頭訓練多個不同的學生網絡。本文方法以對抗的方式訓練圖像生成和知識轉移的過程,最終可以獲得高精度的學生模型和高質量的生成數據。

圖2 多教師對比知識反演的無數據模型壓縮方法整體架構Fig.2 Overall framework of multi-teacher contrastive knowledge inversion for data-free distillation

本文的主要貢獻總結如下:

(1)提出了一個新的無數據知識蒸餾框架,從多個可用的教師模型中提取“多視角”知識,同時提高學生模型精度和合成高質量數據。

(2)設計了一種對比交互方式,充分利用來自多位師生的知識,生成具有高泛化性和多樣性的合成數據。一次生成的圖片數據集能夠用于蒸餾或從頭訓練多個不同的學生網絡。

(3)實驗表明本文方法優于現有的方法。本文方法不僅合成了更接近原始數據集分布的高保真數據,而且還達到了與在原始數據集上訓練的預訓練模型相媲美的結果。

1 相關工作

1.1 數據驅動的知識蒸餾

知識蒸餾[1]旨在通過從大型教師網絡轉移知識來提高小型學生網絡的性能。產生的知識可來自類后驗概率[1]或中間特征[1-2,7,12-13]。目前已有利用多個教師構建更豐富和有啟發性的信息來訓練學生模型的研究,其中知識來自集成logits[14-15]或特征[16-18]。例如,Lan 等[14]構造了一個多分支結構,每個分支表示學生,并對每個分支進行融合得到教師網絡,將最終的集成logits作為蒸餾知識。You等[17]使用多個教師網絡的結合來提取不同實例中間層中的三元組排序關系,鼓勵與學生保持一致。本文方法在以下兩方面與之前的方法完全不同:(1)本文的框架以無數據的方式構建,這相比之前的數據驅動的知識蒸餾更加靈活;(2)本文考慮了多位教師之間的內部和相互關系,與基于多教師的知識蒸餾相比,它可以提取更豐富的知識進行蒸餾。

1.2 無數據的知識蒸餾

無數據知識蒸餾的關鍵是在無需真實圖像的情況下進行圖像合成。一般可以大致分為兩類:(1)在先驗知識上使用梯度下降直接學習圖像,如激活統計[19]和批量正則化(batch normalization,BN)統計[10];(2)對抗性訓練以在噪聲輸入上學習生成器。DAFL[6]和DFQ[9]在第一階段使用生成對抗網絡(generative adversarial networks,GAN)生成圖像,可進一步用于學習學生模型。最近,ZAQ(zero-shot adversarial quantization)[20]提出了一個兩級差異建模框架,用對抗的方式對學生和老師之間的中間特征進行差異估計,并通過知識轉移來學習學生。訓練后,無需重新訓練即可同時獲得合成圖像和學生模型。ZeroQ[21]、Knowledge Within[22]以及MixMix[23]使用合成的數據集來執行無數據量化。然而,這些方法是模型定制的,生成的圖像不能推廣到其他模型進行蒸餾。與這些方法不同,本文方法提出了多教師和學生之間的對比交互,以生成高泛化和高多樣性的圖像。雖然MixMix[23]也利用多教師使用合成的數據集來執行無數據量化,但本文方法利用最終特征信息和師生交互來更好地提高合成圖像的泛化性和多樣性。此外,學生和圖像生成的學習是以端到端的方式訓練的,這與MixMix中的兩步訓練完全不同。

1.3 對比學習

對比學習[24-28]已廣泛應用于無監督學習,能夠學習有效的特征表示以提高下游任務的性能。實例級對比是一種簡單而有效的策略,旨在將正樣本和錨點拉近,同時將其推離表示空間中的負樣本。例如,He 等[26]使用記憶庫來存儲來自動量編碼器的負樣本,并使用InfoNCE損失[27]從查詢編碼器和動量編碼器之間的表示中構建對比。Chen等[24]用大批量數據替換記憶庫,讓兩個網絡在不同輸入增強上進行對比。對比學習的思想同樣也有被應用于知識蒸餾[29-31]。例如,Tian等[29]通過最大化教師和學生表示之間的互信息,將對比學習與知識蒸餾相結合。然而,這些方法中的對比知識是由真實數據和一個教師網絡形成的,然而,本文方法不需要任何真實數據,只需構建多教師和學生之間的對比。

2 多教師對比知識反演方法

2.1 預備知識

為了更好地說明所提出的方法,本文首先使用一個預訓練的教師網絡介紹了三個廣泛使用的模型反演損失。令fT(x,θt)和fS(x,θs)分別表示來自輸入圖像x的教師和學生編碼器的輸出,其中參數分別為θt和θs。由于預訓練教師中給定固定參數,本文通過省略θt將fT(x,θt)表示為fT(x)。=G(z,θg)是參數為θg的生成器G從噪聲輸入z合成的圖像。本文的目標是通過減小教師網絡帶來的偏差來生成具有多樣性的高保真數據集,以替代原始圖像X。

(1)One-hot 預測損失。它用于生成器合成與教師網絡訓練數據相兼容的圖像,使教師能夠對∈做出one-hot 的預測[5]。因此,給定一個預定義的類c,本文將one-hot預測損失表示為:

這里的CE是指交叉熵損失。

(2)BN 層中的特征正則化損失。BN 層已廣泛用于CNN,它通過在訓練期間用平均統計量對特征圖進行歸一化來緩解協變量偏移。訓練后,這些統計數據存儲了有關X的豐富信息(例如:運行均值μ(x)和運行方差σ2(x))。因此,Yin 等[10]通過最小化所有層的和x的統計數據之間的距離來提出特征正則化:

(3)對抗蒸餾損失。通過對抗性蒸餾損失以鼓勵合成圖像使學生-教師產生較大的分歧[10,32-33],可以表示為:

其中,KL是KL散度,τ是溫度參數。

如上所述,本文整合了無數據蒸餾的基本框架,無數據蒸餾的整體模型反演損失可以通過組合公式(1)~(3)來表示:

其中,λi,i=1,2,3 是平衡參數。

2.2 多視圖的教師網絡集成

文獻[34]提出了多視圖假設,即“多視圖”結構非常普遍存在于許多現實世界的數據集中。這些數據中存在多個特征,可用于正確分類圖像。例如,通過觀察翅膀、身體大小或嘴巴的形狀,可以將鳥類圖像分類為鳥類。模型往往只需要獲取一部分的特征,由于大部分的圖像可以被正確分類,模型便不再學習額外的特征。在現有的無數據蒸餾方法中,即使學生可以提取單一老師學習的所有特征,他們仍然無法“看到”該特定教師未發現的特征,從而限制了學生的表現。除此之外,由于圖像的合成受限于教師網絡,生成器合成的圖像缺乏多視圖結構,以至于學生網絡難以看到物體的全部特征,這也就限制了合成數據的泛化性能。即使某些模型缺少單個學生可以學習多視圖知識的視圖,基于集成的方法也可以收集到大部分這些視圖。受文獻[14,34]的啟發,本文首先考慮多個集成教師來構建一個可靠的多分支模型。整體的框架如圖2所示,本文的框架包含多個教師網絡、一個學生網絡以及一個生成器。本文選擇所有教師的平均最終輸出作為模型預測,而不是按文獻[14]使用門控組件。此外,本文使用不同的教師來獲取各種統計知識,以提高合成圖像的多視圖結構,從而提升數據的泛化性能。因此,方程式中的模型反演損失式(4)可以重新表述為:

2.3 多教師和學生之間的對比策略

對比學習[23,25-26]以自監督方式在特征表示上取得了巨大成功,可以有效地轉移到下游任務,例如分割和目標檢測。實例級對比是一種簡單而有效的策略,目的在于將錨點拉近正實例,同時將其推離表示空間中的負實例。MOCO(momentum contrast)[26]算法使用記憶庫(比如存儲來自歷史數據的特征)通過將當前的實例與歷史存儲的實例的匹配來進行對比,從而學習圖像特征表示。它啟發了本文使用記憶庫進行對比學習來生成具有高度多樣性的數據。

受此啟發,任意選取生成器合成的同一批圖像中的一張圖像為待測圖像,將待測圖像的表示和數據增強后的待測圖像的表示作為正樣本對,生成器合成的同一批圖像中待測圖像以外的圖像的表示作為負樣本,并將生成器合成的歷史圖像的表示作為負樣本。本文首先引入一個頭部投影網絡h將輸入投影到一個新的特征空間中。因此,本文可以獲得每個帶有參數的教師的輸出。本文遵循MOCO的流程,并通過InfoNCE[27]為每個教師編碼器獨立地構造教師內對比損失(intra-teacher contrastive loss),可以表示為:

教師內對比損失可以幫助生成器逐步合成一些與歷史樣本不同的新樣本。然而,它只獨立考慮了教師的實例級對比,本文希望通過不同網絡對物體不同視圖下的特征關系進行對比學習,從而使得學生網絡以及生成器對于數據中的多視圖知識的分布學習到更好的表征。換句話說,同一個物體在不同視圖下的表征應當是相似的,不同物體的表征則遠離。基于上述思想,學生網絡學到的不僅是學生網絡所擅長提取的特征,比如鳥的嘴,還能從與教師網絡的表示的拉近過程中明白鳥的嘴、翅膀、眼睛、羽毛都可以被看作同一物體的不同視角,從而學習到更好的特征表示。故本文進一步提出了師生對比,旨在使生成器合成的圖片能讓學生網絡和教師網絡映射到相同的表示空間中,采用對比學習的方法拉近同一物體的多視角表示,并將不同物體的特征區分開來。首先,從當前批次中的第i個圖像構造學生的特征,表示為=h(fS(,θs),θh)。然后,本文將學生的特征和相同的第i圖像中教師的特征進行拉近,并將和負實例的表示推遠,包括記憶庫和其他不包括當前批次中的第i個圖像實例。因此,師生對比損失可以表述為:

其中,Neg是負樣本的集合,可以定義為:

這里,D(s)是教師網絡索引集,為學生模型輸出的歷史圖像記憶庫中的第j個負樣本的特征表示。通過結合式(9)和式(10),本文可以將多教師和學生之間的對比交互損失表示為:

本文通過最小化式(11)來反演出來自多個教師的更豐富的知識。它有效地生成具有多樣性和更真實的圖像。需要注意的是,與MOCO不同,本文的框架是以對抗的方式進行訓練,不需要動量編碼器。

2.4 優化

本文方法包含兩個階段:通過生成器G生成圖像以及從教師蒸餾知識到學生網絡。對于圖像生成,本文結合了模型反演損失和對比交互損失Lci,可以表示為:

其中,λ是和Lci之間的平衡參數。對于知識蒸餾,本文的目標是將知識從多教師集成的預測結果蒸餾到學生網絡,則式(8)改為:

本文的框架在兩階段過程中進行訓練,如算法1所示,其中生成器和學生交替更新。在每次迭代中,首先訓練生成器使得其輸出的圖片通入教師網絡后的統計量信息逼近存儲在教師BN層中的統計數據,使得特征圖處于一個合理的范圍內。隨后使用對比學習與歷史樣本進行對比,融合教師網絡多視角的信息,并消除存儲在圖像中的模型結構所帶來的偏差信息。然后訓練學生網絡使其輸出與教師集合預測的輸出之間的距離最小化。通過交替更新學生和生成器,算法收斂到最優點。

算法1多教師對比知識反演的算法

3 實驗

3.1 實驗設置

(1)數據集和模型。本文在不同的網絡架構上評估提出的方法,包括ResNets[11]、帶BN 層的VGG[35]、WRN[36]、Inception-V3[37]和MobileNet-v2[38]。在3 個廣泛使用的數據集CIFAR-10、CIFAR-100 和Caltech-101[39]上進行了實驗用于測試合成圖像的質量,并訓練教師網絡和學生網絡。本文選擇ResNet-34、VGG-11、WRN-40-2 和Inception-V3 作為教師模型。選擇WRN-16-1、ResNet-18、WRN-16-2、WRN-40-1 和VGG-8作為學生模型,并對其進行評估。本文在表1中總結了這些在原始CIFAR-10/100和Caltech-101數據集上訓練的教師的準確率,其中“Ensemble”表示ResNet-34、VGG-11 和WRN-40-2 集成后的準確率。將本文方法與現有的最先進的方法DAFL[6]、DFQ[9]、Deepinv(deep inversion)[10]、CMI[7]進行了比較。

表1 在不同數據集上預訓練教師網絡的準確率Table 1 Accuracy of pre-trained teachers on different datasets 單位:%

(2)實驗設置細節。本文使用PyTorch來實現提出的多教師對比知識反演,算法1中的優化問題在具有24 GB顯存的NVIDIA GTX 3090 GPU上運行來進行實驗。權重衰減設置為0.000 1,動量設置為0.9。對于數據集CIFAR-10 和CIFAR-100,本文將小批量(minibatch)大小、總訓練回合(epoch)數和初始學習率分別設置為256、200和0.1。學習率在120、150、175和190 個epoch 上按0.1 的比例衰減。對于數據集Caltech-101,本文首先從原始數據集中隨機抽取20%的圖像作為測試集,并將所有圖像的大小調整為128×128。本文使用更大的生成器來合成圖像,教師數設置為3(在3.3 節中有對集成教師網絡個數的影響的分析)。

對于在數據集Caltech-101 上的實驗,將批量大小設定為32,合成圖像大小尺寸為128×128,epoch為400,學習率在250、300、350 和375 個epoch 上按0.1衰減,同時遵循了CMI中對于超參數的設定,λ1、λ2、λ3分別設置為0.5、1.0 和0.5,其余訓練參數設置為與CIFAR-10/100 相同。對于超參數λ,本文使用[0.1,1.0]范圍內的交叉驗證來確定多教師模型反演損失和對比交互損失之間的最佳權衡。

(3)生成器和頭部映射層的結構。生成器G的內部結構由一個全連接層(fully connected layers,FC)、三個卷積層組成,其中一個卷積層是由一個卷積、批量歸一化和LeakyReLU 組成。輸入噪聲的維度設置為256。對于頭部投影架構,本文使用兩個全連接層將網絡的輸出表示映射到同樣的256維。

(4)評價指標。本文選擇學生的準確率和生成的圖像與原始數據之間的FID(Frechet inception distance score)作為評估標準。FID 是生成對抗網絡GAN 中常見的衡量指標,用于衡量兩個數據集的相似程度,分數越低兩者的分布越接近。

3.2 與現有算法的比較

本文在數據集CIFAR-10、CIFAR-100 和Caltech-101 上進行實驗。CIFAR-10 是一個常用的分類數據集,圖像均勻分布在10個類別中。它總共有50 000張訓練圖像和10 000張測試圖像,所有這些圖像的大小都是32×32 像素。CIFAR-100中的圖像與CIFAR-10相同,只是它們分為100個類別。Caltech-101是一個包含101個類別的圖像分類數據集。每個類別的樣本數量從40到800不等,每張圖像的大小約為300×200。

本文選擇ResNet-34、VGG-11和WRN-40-2作為本文的多個教師。在數據集CIFAR-10、CIFAR-100和Caltech-101中集成的預訓練教師達到95.83%、80.08%和67.08%的準確率。本文以定量和定性的方式將本文方法與最優方法(state-of-the-art,SOTA)進行比較。

(1)客觀指標分析。表2記錄了本文方法和先前的方法在不同數據集CIFAR-10、CIFAR-100和Caltech-101上的比較結果。本文可以觀察到:①本文方法在所有3 個數據集上都優于現有方法。例如,當在CIFAR-10 數據集上蒸餾到相同的WRN-16-1 時,本文方法達到了91.59%的準確率,比最佳的CMI 基線提高了2.49個百分點。對于CIFAR-100,在蒸餾到相同的WRN-16-2時,本文比CMI高出了2.08個百分點的準確率。對于更復雜的場景Caltech-101,本文方法在蒸餾到MobileNet-V2 時與Deepinv 相比增加了3.89 個百分點的準確率。②在本文所采用的多教師集成的準確率和CIFAR-10 上的一個特定ResNet-34的準確率(≈95.7%)幾乎一致時,本文方法在提取同一個學生時相比其他基線實現了顯著的性能提升。這也就表明模型性能的提升來自于多教師結構和提出的對比交互損失,而不是簡單來自于強教師。③教師和學生之間的同構結構有助于提高學生在所有基線中的表現。例如,在CIFAR-10上,本文使用相同的WRN-16-1 作為學生,相比于ResNet-34 作為教師,WRN-40-2作為教師時顯著提高了學生WRN-16-1的準確率。④值得注意的是,本文的預訓練教師沒有使用MobileNet-V2,然而本文的合成圖像仍然可以有效地訓練模型。而且本文方法已經和使用原始數據訓練的MobileNet-V2的準確度非常接近。這意味著使用本文提出的多教師對比知識反演方法的合成圖像對于各種模型的訓練具有很高的泛化性。⑤與其他方法相比,本文用不同的學生模型生成的數據集的FID值都是最低的,并且方差較小。這意味著本文的合成圖像與原始數據集最一致。本文方法在CIFAR-10 數據集上的FID 值(即≈52.20)甚至可以與一些使用原始數據的GAN方法[8]相媲美。

表2 在不同數據集上無數據蒸餾方法的結果Table 2 Results of data-free distillation on different datasets

(2)主觀視覺分析。本文進一步將提出的方法與現有方法的合成質量進行比較,如圖3 所示。與DAFL[6]、DFQ[9]、Deepinv[10]、CMI[7]相比,可以明顯看出本文的多教師對比知識反演所生成的圖像質量最高。例如,DAFL 使用CIFAR-10 數據集上的預訓練教師生成的圖像類似噪聲圖像。Deepinv 能夠生成具有視覺特征的圖像,但物體顏色與背景顏色接近,風格單一。因此,它與原始的CIFAR-10 數據集相距甚遠。DFQ 和本文的合成圖像之間的比較表明,本文提出的方法可以生成更多樣化的圖像,而DFQ 則遇到了明顯的模式崩潰問題。盡管CMI合成的圖像在顏色和風格上似乎有一些改進,但它們仍然過于模糊而無法區分。本文方法在對象輪廓的清晰度、顏色匹配的合理性方面提高了圖像質量。對于CIFAR-10數據集,本文方法生成更多樣化的語義圖像,例如不同姿勢的馬的特寫和各種類型的卡車。即使是像船后面的天際線這樣的微小細節也能夠清晰生成。對于CIFAR-100數據集,合成圖像提供了豐富的語義信息,肉眼可以很輕松識別圖3中顯示的對象,如熊貓、自行車、鮮花。

圖3 不同方法反演生成的圖片展示Fig.3 Images inverted from pre-trained model by different methods

3.3 消融實驗

為了評估本文方法的有效性,包括多教師的引入,對比交互損失、泛化性和多樣性。本文選擇CIFAR-10數據集中的預訓練模型進行消融實驗。

(1)超參數λ的敏感性。本文首先評估λ的敏感性。如表3所示,本文對不同學生網絡設定下超參數敏感性做了實驗,發現當λ設置為0.2 時蒸餾到不同的學生網絡能夠達到相對最佳的精度。為了方便討論,本文將所有實驗的λ設置為0.2。

表3 蒸餾到不同網絡結構時的超參數λ對結果的影響Table 3 Effect of hyper-parameter λ for distilling student networks

(2)集成教師網絡個數的影響。本文進行了多教師集成的幾種組合,其中教師的數量從1 到4。為了幫助學生學習更多樣化的知識,本文選擇了異構教師網絡,即不同網絡結構的模型作為教師。如表4所示,更多的教師相對來說可以達到更高的準確率。隨著教師數量的增加,學生和教師集成的測試準確率的增長速度放緩,終于接近一個上限。當教師數量設置為3,達到了相對飽和的性能。考慮到計算開銷,本文將實驗中多教師的網絡個數設定為3。

(3)對比交互損失的作用。本文研究了所提出的不同模塊的貢獻,包括多教師、教師內對比學習和師生對比學習。本文將每個模塊單獨關閉做cutoff來檢測其有效性。如表5所示,本文使用mt(multi-teacher)、itcl(intra-teacher contrastive learning)、tscl(teacher-student contrastive learning)分別代表多教師、教師內對比學習和師生對比學習。實驗數據表明使用多教師進行無數據蒸餾時直接將性能提高了5.7 個百分點。使用教師內對比損失函數可提升性能4.43 個百分點。當在多教師的基礎上加入教師內對比損失時,WRN-16-1 的準確率相比于原始方法達到了大約8 個百分點的增益。在此基礎上,本文進一步添加了學生-教師對比損失,對性能實現了進一步提升,使得本文的模型最終達到91.59%的準確率。這是由于教師模型中提取“多視角”知識并將其很好地融合到學生模型中,同時使用了對比交互方式,充分利用來自多位師生的知識,生成具有高泛化性和多樣性的合成數據。

表5 不同組件在蒸餾過程中對算法的影響Table 5 Effect of different component combinations on algorithm during distillation

(4)合成數據的泛化性能分析。本文使用WRN-16-1作為學生,使用多教師對比知識反演方法得到的數據和CMI方法反演的數據從頭開始訓練不同結構的網絡,由此來評估數據是否可以用于訓練多種不同的網絡。為了公平比較,在這兩個方法合成數據時采用的訓練參數和策略是相同的。

結果如表6 所示,與CMI 相比,本文方法實現了大幅提升(可高達8個百分點的提升)。此外,與原始CIFAR-10 數據集相比,使用本文方法的合成數據在從零開始訓練教師方面達到了非常接近的準確性。注意到本文并沒有使用Inception-V3 作為教師網絡之一,而本文的合成圖像仍可以有效地訓練該模型。這意味著使用MTCKI的合成圖像對于各種模型的訓練具有很高的泛化性。

表6 將合成數據直接用于從頭訓練網絡效果對比Table 6 Comparison of training model from scratch using inverted data 單位:%

(5)數據多樣性分析。為了進一步評估本文方法在數據多樣性方面的有效性,本文使用T-SNE[40]工具可視化MTCKI 和CMI 合成圖像的數據分布情況。如圖4 所示,對于本文方法,數據整體的分布較為分散,圖片的特征分布較廣,有效分開不同類別的數據分布,而具有相同類別的數據被很好地聚合。此分布與原始CIFAR-10 數據集十分接近。而CMI的數據點較為密集,圖片的特征較為相似,表明不同類別的合成圖像沒有被解開。與CMI 相比,本文方法表現出更好的數據多樣性。

圖4 CIFAR-10原始數據、CMI合成數據、MTCKI合成數據分布對比Fig.4 Distribution comparison among original CIFAR-10 data and data inverted by MTCKI and CMI

3.4 訓練過程分析

由于生成對抗的方法在收斂時可能會出現不穩定的情況,本文進一步分析了本文方法的收斂性和不同epoch 下圖像變化的情況。如圖5 所示,本文方法可以穩定地收斂。與其他基線進行了可視化比較,本文方法需要更少的訓練epoch 來收斂,且收斂到的損失最低。值得注意的是,在訓練過程中,由于豐富的多教師信息和對比交互的有效性,如圖6 所示,第10個epoch合成的圖像已經具有多樣化的語義信息和組織良好的物體輪廓。除此之外,本文還客觀分析了對比交互損失對運算復雜度的影響,本文將其分成測試時間和訓練時間兩部分。在測試時間上,加入對比交互損失不會對最終的測試時間有影響,因為該損失相當于模型訓練中的正則化項,測試過程中模型將不參與該部分計算。在訓練時間上,對比交互損失確實會增加模型訓練內存和時間開銷。當使用對比交互損失在單卡NVIDIA 3090GPU上訓練200 個epoch,需花費16.6 h,而不使用對比交互損失在單卡NVIDIA 3090GPU上訓練200個epoch需要11.9 h。雖然對比交互損失在訓練上會增大開銷,但是在一次訓練過程中合成的圖片可以用于多次從頭訓練一個新的網絡或用于有數據的知識蒸餾且準確率相比先前的方法都有較大提升,一定程度上節省了后續的開銷,并提高了模型精度。

圖5 不同方法在訓練過程中的損失曲線對比Fig.5 Training loss curves of different methods during training

圖6 不同回合階段的合成圖片的質量Fig.6 Quality of generated images in different epochs

4 結束語

本文提出了一種基于多教師對比知識反演的無數據知識蒸餾框架(MTCKI),該框架在提高學生網絡表現的同時,以對抗的方式生成高保真度的訓練數據。首先,本文提出了一種供應端-客戶端合作的模式,用于數據保護下的模型壓縮,然后構建了一個新的無數據知識蒸餾框架,從多個教師模型中提取“多視角”知識并將其很好地融合到學生模型中。此外,本文建立了多教師和學生之間的對比交互以提高合成圖像的多樣性。本文提出的MTCKI能將一次生成的圖片數據用于蒸餾或從頭訓練多個不同的學生網絡。本文綜合評估了MTCKI 在各種CNN 架構上的性能,實驗結果表明,MTCKI 不僅生成視覺上效果不錯的圖像,而且在性能上優于現有的無數據蒸餾方法。

猜你喜歡
方法模型教師
一半模型
最美教師
快樂語文(2021年27期)2021-11-24 01:29:04
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
教師如何說課
甘肅教育(2020年22期)2020-04-13 08:11:16
未來教師的當下使命
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 国产精品浪潮Av| 久久天天躁狠狠躁夜夜躁| 日韩A∨精品日韩精品无码| 成年看免费观看视频拍拍| 亚洲日韩在线满18点击进入| 亚洲一区无码在线| 国产综合精品一区二区| 小说区 亚洲 自拍 另类| 91蝌蚪视频在线观看| 天堂岛国av无码免费无禁网站| 午夜欧美理论2019理论| 91福利国产成人精品导航| 国产亚洲高清在线精品99| 精品色综合| 一区二区无码在线视频| 国产又粗又猛又爽| 国产成人做受免费视频| 欧美日韩国产在线人| 欧美一区二区啪啪| 99国产精品免费观看视频| 日本免费一区视频| 欧美狠狠干| 这里只有精品在线播放| 无码国产伊人| 久久9966精品国产免费| 青青青国产精品国产精品美女| 在线视频精品一区| 萌白酱国产一区二区| 91午夜福利在线观看精品| 久久99国产乱子伦精品免| 免费人成又黄又爽的视频网站| 波多野结衣第一页| 男女猛烈无遮挡午夜视频| 99青青青精品视频在线| 亚洲浓毛av| 亚洲中文精品人人永久免费| 九九热这里只有国产精品| 久久午夜夜伦鲁鲁片不卡| 青青久久91| 99re在线视频观看| 欧美黄网在线| 日本草草视频在线观看| 91免费国产在线观看尤物| 精品少妇人妻一区二区| 欧美日韩va| 奇米影视狠狠精品7777| 中文字幕亚洲乱码熟女1区2区| 国产成人精品视频一区视频二区| 国产毛片一区| 亚洲最大福利视频网| 高清国产在线| 日本影院一区| 曰AV在线无码| 99人妻碰碰碰久久久久禁片| 全部免费毛片免费播放 | 99在线观看国产| 日本高清免费一本在线观看| 欧美伊人色综合久久天天| 久久特级毛片| 99久久精品国产麻豆婷婷| 国产二级毛片| 欧美一区二区人人喊爽| 国产成人综合日韩精品无码首页| 国产精品原创不卡在线| 欧美三级视频网站| 国产一区二区网站| 国产综合精品一区二区| 国产女人喷水视频| 无码高潮喷水专区久久| 天天综合色网| 国产成人综合亚洲网址| 欧美精品不卡| 国产精品流白浆在线观看| 国产欧美综合在线观看第七页| 91精品国产福利| 国产成人综合在线观看| 欧美色视频日本| 久久无码av三级| 婷婷六月在线| 久久频这里精品99香蕉久网址| 中日韩一区二区三区中文免费视频| 亚洲国产午夜精华无码福利|