999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于拓撲一致性對抗互學習的知識蒸餾

2023-01-16 07:36:06曲延云裴玉龍
自動化學報 2023年1期
關鍵詞:分類方法模型

賴 軒 曲延云 謝 源 裴玉龍

圖像分類是計算機視覺領域的一個經典任務,有廣泛的應用需求,例如機場和車站閘口的人臉識別、智能交通中的車輛檢測等,圖像分類的應用在一定程度上減輕了工作人員的負擔,提高了工作效率.圖像分類的解決方法也為目標檢測、圖像分割、場景理解等視覺任務奠定了基礎.近年來,由于GPU等硬件和深度學習技術的發展,深度神經網絡(Deep neural network,DNN)[1]在各個領域取得了長足的進展,比如,在ImageNet 大規模視覺識別挑戰賽ILSVRC 比賽庫上的圖像分類,基于深度學習的圖像分類方法已經取得了與人類幾乎相同甚至超越人類的識別性能.然而,這些用于圖像分類的深度學習模型往往需要較高的存儲空間和計算資源,使其難以有效的應用在手機等云端設備上.如何將模型壓縮到可以適應云端設備要求,并使得性能達到應用需求,是當前計算機視覺研究領域一個活躍的研究主題.輕量級模型設計是當前主要的解決途徑,到目前為止,模型壓縮方法大致分為基于模型設計的方法[2]、基于量化的方法[3]、基于剪枝的方法[4]、基于權重共享的方法[5]、基于張量分解的方法[6]和基于知識蒸餾的方法[7]六類.

本文主要關注知識蒸餾方法.知識蒸餾最初被用于模型壓縮[8].不同于剪枝、張量分解等模型壓縮方法,知識蒸餾(Knowledge distillation,KD)的方法,先固定一個分類性能好的大模型作為教師網絡,然后訓練一個輕量級模型作為學生網絡學習教師網絡蒸餾出來的知識,在不增加參數量的情況下提升小模型的性能.基于知識蒸餾的模型壓縮方法,將教師網絡輸出的預測分布視為軟標簽,用于指導學生網絡的預測分布,軟標簽反映了不同類別信息間的隱關聯,為新網絡的訓練提供了更豐富的信息,通過最小化兩個網絡預測的Kullback-Leibler (KL)散度差異,來實現知識遷移.Romero 等[9]認為讓小模型直接在輸出端模擬大模型時會造成模型訓練困難,從而嘗試讓小模型去學習大模型預測的中間部分,該方法提取出教師網絡中間層的特征圖,通過一個卷積轉化特征圖大小來指導學生網絡對應層的特征圖.Yim 等[10]使用FSP (Flow of solution procedure)矩陣計算卷積層之間的關系,讓小模型去擬合大模型層與層之間的關系.Peng 等[11]和Park等[12]同時輸入多個數據,在原知識蒸餾模型的基礎上通過學習樣本之間的相關性進一步提升學生網絡性能.

考慮到知識蒸餾的本質是知識的遷移,即將知識從一個模型遷移到另一個模型,Zhang 等[13]提出了深度互學習(Deep mutual learning,DML)方法,設計了一種蒸餾相關的相互學習策略,在訓練的過程中,學生網絡和教師網絡可以相互學習,知識不僅從教師網絡遷移到學生網絡,也從學生網絡遷移到教師網絡.

協同學習也是常見的遷移學習方法之一,多用于半監督學習.在協同學習中,不同的模型或者在不同分組的數據集上學習,或者通過不同視角的特征進行學習,例如識別同一組物體類別,但其中一種模型輸入RGB 圖像,而另一種模式輸入深度圖像.協同屬性學習[14]就是通過屬性矩陣的融合進行屬性的挖掘,從而指導兩個模型的分類.而深度互學習方法中所有模型在同一數據集上訓練完成相同的任務.

盡管現有的知識蒸餾的方法已經取得了長足的進展,但仍存在以下問題:1)現有的深度互學習方法僅關注教師網絡和學生網絡輸出的類分布之間的差異,沒有利用對抗訓練來提升模型的判別能力;2)現有的深度互學習僅關注結果監督,忽視了過程監督.特別是沒有考慮高維特征空間中拓撲關系的一致性.針對問題1),本文設計對抗互學習框架,生成器使用深度互學習框架,通過對抗訓練,提高教師和學生網絡的判別性;針對問題2),本文在教師網絡和學生網絡互學習模型中,增加過程監督,即對中間生成的特征圖,設計了拓撲一致性度量方法,通過結果和過程同時控制,提高模型的判別能力.

總之,本文提出了一種基于拓撲一致性的對抗互學習知識蒸餾方法(Topology-guided adversarial deep mutual learning,TADML),在生成對抗[15]網絡架構下,設計知識蒸餾方法,教師網絡和學生網絡互相指導更新,不僅讓教師網絡的知識遷移到學生網絡,也讓學生網絡的知識遷移到教師網絡.本文的模型框架可以推廣到多個網絡的對抗互學習.TADML 由深度互學習網絡構成的生成器和一個判別器組成.生成器的每個子網絡都是分類網絡.類似于知識蒸餾,任一子網絡都可以看作是其余網絡的教師網絡,對其他網絡訓練更新,進行知識遷移.為方便計算,本文將所有子網絡組視為一個大網絡同時優化更新.每個被看作生成器的子網絡,生成輸入圖像的特征.判別器更新時判斷生成器的輸出特征屬于哪一個類別、來源于哪一個子網絡,而生成器更新時盡量混淆判別器使其無法準確判斷特征來源于哪一個生成器,進而擬合網絡中隱含的信息.

1 本文方法

本節介紹如何通過對抗訓練框架實現網絡間的知識轉移.首先概述TAMDL 網絡結構,然后討論所提的損失函數的構成,最后描述模型的訓練過程.

1.1 網絡結構

如圖1 所示,給出了基于拓撲一致性的對抗互學習知識蒸餾(TADML)框架,該框架由生成器和判別器兩部分組成:

圖1 本文方法框架Fig.1 The framework of the proposed method

1)生成網絡.該部分由兩個或多個分類子網絡組成,生成器中的分類網絡執行相同的分類任務,可以選取不同的模型結構,彼此間無需共享參數.不失一般性,現有的深度分類模型都可作為生成器中的分類網絡,例如ResNet和Wide-ResNet[16].由于所有的生成網絡使用相同的數據集執行相同的分類任務,對于輸入圖像x,定義第i個網絡的激活函數層Softmax 的類別分布概率值為fi(x,ωi),其中ωi是相應的分類模型網絡參數.

2)判別器.在TADML 架構中,將兩個或多個分類網絡看作生成器,而判別器只有一個.由于常見的判別器容易陷入過早收斂或難以訓練兩種極端情況,本文設計了一個能較好平衡判別器穩定性和辨別能力的判別器,相對于常見的多層感知器[17]更加穩定.如圖2 所示,提出的判別器由三個全連接的層(128fc-256fc-128fc)組成,且判別器的第一層和與最后一層沒有批標準化處理(Batch normalization,BN)與LeakyRelu 激活函數操作.與常見的判別器不同,本文所設計判別器的輸出不是簡單的真假(自然圖像/偽造圖像),而是判斷輸入來源于哪個網絡且隸屬于哪個類別.受到條件GAN (Conditional-GAN,C-GAN[18])在圖像恢復領域中的啟發,本文根據C-GAN 的對判別器的輸入進行改造,在后續的消融實驗部分對判別器的輸入進行不同程度的約束.

圖2 判別器結構圖Fig.2 The structure of discriminator

1.2 損失函數

所提方法考慮四種損失:標簽監督損失LS,對抗損失Ladv,分布一致性損失Lb,拓撲一致性損失LT.標簽監督損失LS是廣泛用于圖像分類中帶注釋數據分類任務的監督損失,這對提取知識起著至關重要的作用.分布一致性損失Lb是直接匹配所有分類子網絡的輸出的顯式損失,而對抗性損失Ladv表示隱式損失,該損失將所有分類子網絡的邏輯分布之間經過分類器判斷的差異最小化.換句話說,對抗性損失提供了一些通過傳統分布相似性度量而丟失的信息.拓撲一致性損失LT是樣本實例間隱藏的高階結構信息.

在訓練對抗生成抗網絡時,為指導網絡的學習,盡可能遷移分類網絡之間的知識,總的損失函數定義為:

式中,α和β分別表示四項損失所占的權重,在本文中分別設定為α=0.6,β=0.4.下面依次對這四個部分進行詳細說明.

1)標簽監督損失.該損失為常用的監督分類交叉熵損失.對于給定的圖像標簽對 (x;l),優化模型參數使得預測類別與標簽的交叉熵降至最低,以正確預測每個訓練實例的真實標簽:

2)分布一致性損失.考慮到互學習模型中的知識遷移,與之前的蒸餾網絡不同,本文沒有固定一個預訓練網絡作為教師網絡進行單向指導,所提方法中任意一個網絡都接受其余網絡的監督指導,最小化分類網絡輸出特征的類別分布差異,輸出越相似則表示遷移效果越好.受到Knowledge squeezed adversarial network compression (KSANC)[19]的啟發,本文考慮從結果導向和過程導向兩個方面同時進行知識遷移.過程導向約束僅針對最后一個全連接層的輸出.最終輸出的邏輯分布作為結果導向,即各個網絡之間只保留網絡輸出之間的實例級對齊.

考慮到網絡輸出的類別分布的差異性度量,本文使用Jensen-Shannon (JS) 散度衡量輸出分布的相似性:

式中,fi表示由第i個網絡預測的邏輯分布.KL 散度定義為:

3)對抗性損失.在TADML 的模型中,采用對抗學習(GAN)的方法,將從每個網絡中提取的知識轉移到另一個網絡中.在知識蒸餾中,學生網絡通過模仿教師網絡從而學習教師網絡中的知識,直到最后學生網絡的輸出與教師網絡相近則視為指導完成.TADML 網絡整體框架分為生成器和判別器兩個部分,多個分類網絡構成生成器.對于一個輸入的樣本,經過生成網絡得到多個類別概率,每一個分類網絡都對應輸出一個概率分布(也可以視為圖像經過這個網絡表征的特征編碼).這些概率分布作為判別器的輸入,判別器判斷類別概率分布是由哪個分類網絡產生.生成器與判別器交替迭代更新,固定判別器更新生成器時,盡量生成相似的特征編碼,使得判別器無法分辨特征編碼來自于生成器的哪一個子網絡;而在固定生成器更新判別器時,盡量訓練判別網絡,使其可以輕易的分辨輸入來源于生成器中哪個分類子網絡.二者交替迭代直到動態平衡,則視為收斂.

到目前為止,基于GAN 的方法已在很多領域取得了顯著的效果,在TADML 方法中,每個分類子網絡都被視為GAN 中的生成器,并提供邏輯分布作為另一個分類子網絡的真實標簽.相較于原始的GAN 網絡只輸出一個布爾值,即真或假,本文判別器判斷其輸入來源于哪個分類子網絡:

式中,gn(i) 是第i個元素為1,其余元素為0 的向量,表示生成器n個分類子網絡的第i個分類網絡的輸出作為判別器的輸入,Do(fj(x)) 表示判別器輸出的n位向量,代表判別器預測輸入來源于哪個網絡,n為分類子網絡數.

此外,如果判別器僅僅區分輸入來自生成器的哪個子網絡,則缺少類別信息可能導致錯誤的關聯.為此,引入輔助分類來預測輸入所屬類別.即本文所提的判別器不僅需要判斷輸入來源于哪個分類子網絡,還需要判斷輸入屬于哪一個類別標簽,損失函數表示為:

式中,gN(C) 表示真實的類別分布,DC(fi(x)) 表示判別器輸出的類別分布,N是類別總數.

鑒于GAN 網絡的判別器容易在極少的迭代次數后收斂和過度擬合.本文設計了懲罰項作為對模型的正則化處理,定義如下:

式中,μ權重參數設為0.7,ωD是判別器的網絡參數,g(0) 表示元素全為0 的向量,負號表示該項僅在式(5)最大化步驟中更新,前一項迫使判別器的權重緩慢增長,后一項則是對抗性樣本正則化.

本文設計的對抗損失為:

4)拓撲一致性損失.在過程導向的監督學習中,考慮樣本組間的拓撲結構相似性,本文選擇計算樣本在高維空間嵌入特征的距離及其角度的一致性.對于輸入的樣本組{x1,x2,x3,···,xn},經過第i個分類網絡的最后一層全連接輸出的特征映射看作高維嵌入特征{hi(x1),hi(x2),hi(x3),···,hi(xn)},則兩個網絡間基于特征距離的拓撲一致性損失可以表示為:

1.3 訓練步驟

在訓練過程中,本文交替更新判別器和生成器.在更新生成器參數時,固定判別器不動,將生成器的所有分類網絡視為一個整體,通過最小化式(1)同時更新生成器中所有的分類網絡參數.在更新判別器參數時,所有的生成網絡都是固定的,以提供穩定的輸入,通過最大化式(8)更新.交替迭代更新,每輸入一組數據交替一次,直至迭代次數滿足終止條件.在測試階段,本文僅考慮作為生成器的分類子網絡,并將每個分類子網絡視為一個完整的分類網絡來對輸入圖像分別進行分類.

2 實驗設置

2.1 數據集

本文在3 個公開的分類數據集CIFAR10、CIFAR100和Tiny-ImageNet 上進行訓練和測試,進一步在行人重識別數據集Market1501 上驗證所提方法的有效性.其中,CIFAR100和CIFAR10 數據集都包含60 000 張32 × 32 像素大小的圖像,分別由100 個類和10 個類組成,50 000 張用于訓練,10 000 張用于驗證.Tiny-ImageNet 源于ImageNet dataset (1 000 個類別),從中抽取200 個類別,每個類別有500 個訓練圖像,50 個驗證圖像和50個測試圖像,且所有圖片都被裁剪放縮為64 × 64像素大小.Market1501 是常用的行人重識別數據集,包含12 936 張訓練圖像(751 個不同的行人)和19 732 張測試圖像(750 個不同的行人),圖像大小為64 × 128 像素.

2.2 實現細節

本文算法使用Torch0.4 在NVIDIA GeForce GTX 1 080 GPU 上實現.對于所有分類數據集,均使用隨機梯度下降法進行優化,將權重衰減設置為0.0001,動量設置為0.9.對于CIFARs 的實驗,批量大小設置為64,生成網絡和判別器的初始學習率分別設置為0.1和0.001,每隔80 次迭代兩者都縮小為0.1 倍,總共訓練了200 次迭代.對于Tiny-ImageNet 的實驗,批量大小設置為128,總迭代次數為330 代,生成網絡初始學習率設為0.1,每隔60 代學習率乘以0.2,判別網絡初始學習率為0.001,每隔120 代乘以0.1.對于Market1501 的實驗,采用與DML 相同的實驗設置:使用Adam 優化器,學習率為0.0002,β1設為0.5,β2設為0.999,批量大小設置為16,圖像輸入大小為64 × 160 像素,共迭代100 000 次.盡管使用預訓練模型能得到更高的精度,在實驗中,所有網絡都采用隨機初始化的.由于訓練前期網絡變化較大,僅在總迭代次數過半的時候才加入拓撲一致性損失更新網絡,且用上一次迭代時分類精度高的網絡指導精度低的網絡,而不是互相指導學習.

2.3 消融實驗

關于損失函數的選擇,本文嘗試不同損失組合的效果.表1 展示了在CIFAR10和CIFAR100 上,將兩個ResNet32 設置為生成器中的教師網絡和學生網絡,遵循相同的實驗方案進行訓練,并選擇這兩個子網絡的平均精度作為最終結果.其中,LS表示標簽損失,Lp(p=1,2) 表示兩個網絡輸出分布之間的l1,l2范數損失,LJS表示兩個網絡輸出分布的LJS散度相似性,Ladv表示本章提出的對抗損失.從表中可知,單獨使用類別標簽監督損失LS在所有組合中結果最差,增加任意一種知識遷移的損失都能增加預測的精度,LS+LJS+Ladv取得最高的平均分類精度,在CIFAR10和CIFAR100 上增幅分別為0.62%和2.28%在固定類別標簽監督損失LS和對抗損失Ladv的情況下,對比增加L2和JS損失,前者增加LJS比增加L2使得分類性能有所提升,在兩個數據集上的增幅分別為0.48%和0.78%.綜上所述,在后續的實驗中,單獨使用LJS差異來計算Lb.

表1 損失函數對分類精度的影響比較(%)Table 1 Comparison of classification performance with different loss function (%)

進一步討論判別器結構對TAMDL 性能的影響.在CIFAR100 上進行實驗,在分類子網絡固定為ResNet32 的情況下,討論判別器采用不同的架構對最終網絡的分類誤差的影響.由表2 可以看出,不同結構的判別器對結果的影響不大.嘗試了兩層到四層不同容量的全連接層模型,且為了盡可能保留輸入數據的差異性,僅在全連接層之間進行BN與LeakyReLU 操作.實驗表明四層全連接層的效果普遍會略低于三層的效果,三層結構的判別器取得了略優的分類性能,128fc-256fc-128fc在CIFAR100 上取得了最好的分類性能,相比最差的四層結構的判別器128fc-256fc-256fc-128fc 分類精度僅提高了0.28.為此,在后續實驗中,TAMDL采用三層結構的判別器.

表2 判別器結構對分類精度的影響比較(%)Table 2 Comparison of classification performance with different discriminator structures (%)

本節討論判別器的輸入對TAMDL 性能的影響.在2 個ResNet32 構成的網絡上進行了實驗.對比了不同的判別器的輸入:1) Conv4 表示圖像經過第4 組卷積得到的特征;2) FC 表示單張圖像經過全連接層轉化但未經Softmax 的特征;3) DAE 表示原始圖像經過深度自編碼器得到的壓縮特征;4)Label 表示分類標簽的熱編碼;5) Avgfc 表示一組圖像經過全連接層轉化但未經Softmax 的特征的平均值.表3 對比了針對不同判別器輸入網絡的最終結果,表中的結果是經過分類網絡輸出的平均值.由表3 可以看出,FC 得到的特征作為判別器的輸入取得了最好的判別性能,增加的條件約束信息對最終結果沒有正面的促進,如FC+Conv4 判別器的性能并沒有提升,反而下降了0.44%.FC+Label 作為輸入,判別器性能僅次于FC 作為輸入得到的結果.

表3 判別器輸入對分類精度的影響比較(%)Table 3 Comparison of classification performance with different discriminator inputs (%)

進一步討論采樣數量對TAMDL 分類性能的影響.在訓練過程中通常采用從訓練數據集中隨機采樣來訓練網絡.不加限制的隨機采樣器可能會導致所有樣本都來自不同類別的情況.盡管它是對實例一致性的真實梯度的無偏估計,但是在本節提出的樣本組間結構相似性損失計算中,過多的樣本類別數容易導致組間關系過于復雜難以學習優化,且過少的樣本類別數又容易導致類間相關性偏差較大.為了正確的傳遞樣本組間的真實相關信息,采樣策略十分重要.在批量輸入大小固定為64 的情況下,對樣本組中的類別數目進行了限定.表4 給出了在CIFAR100 數據集上,學生和教師網絡為ResNet32和ResNet110 時的分類結果,其中每個樣本組中類別總數為K且每類的樣本數目為64/K,Random 表示不進行采樣約束的互學習結果,Vanila表示原始網絡精度.由表4 可知,當類別總數K取值過小時,網絡無法正常訓練或過早陷入過擬合狀態.如K=2,TADML 取得最低的分類性能.當K取值剛好等于類別總數時,即每個類別樣本僅出現一次,網絡的性能與隨機采樣效果基本保持一致.在K=8,16,32 時,TAMDL 的性能均優于隨機采樣的方式,增幅分別為0.31%、0.72%、0.38%.由此可知,樣本組的類別數在平衡類間內相關一致性中有很重要的作用,選取適當的類別數,后續實驗采用K=16.

表4 采樣數量對分類精度的影響比較(%)Table 4 Comparison of classification performance with different sampling strategies (%)

2.4 TAMDL 與DML 比較實驗

本節討論TAMDL 與DML 的性能對比.為了說明TAMDL 的魯棒性和優越性,實驗設置不同結構的分類網絡作為生成器,并與原始分類網絡和深度互學習方法(DML)進行比較.對比實驗的優化器參數設置與本文提出算法保持一致,DML 算法優化步驟按照原文的設置,使用KL 散度進行知識遷移并交替訓練子網絡.為了進一步說明本文所提兩個損失模塊的有效性,把僅加上對抗損失模塊的網絡(損失函數未加拓撲一致性損失度量)定義為ADML.實驗部分列出了ADML 算法與同時使用對抗性損失模塊、拓撲一致性損失模塊的TADML算法的測試結果.由表5 可以看出,本文方法在ResNet32,ResNet110和Wide-ResNet (WRN)之間的幾乎所有組合中,都比DML 表現更好,無論兩個網絡是同等大小,還是一大一小,大網絡幾乎都可以從小網絡中進一步獲益,從而達到更高的精度.換句話說,ADML 進一步提升了所有網絡的能力.表5 中除第1 行外,第2~5 行所有的教師和學生網絡結構模型,ADML 的性能都優于DML.學生網絡(第1 列)的第2~5 行增幅分別為1.04%、0.49%、0.71%、1.03%,教師網絡(第2 列)的第2~5 行增幅分別為0.1%、0.55%、0.74%、0.32%.當在CIFAR10 上重復相同的實驗時,由于生成網絡的輸出過于簡單導致基于GAN的優化難以收斂,提出的ADML 的性能幾乎等于DML.

由表5 可以看出,TADML 在所有的網絡結構試驗中幾乎都達到了最優的結果,最優值用黑體標記,次優值用下劃線標記.相對于DML,TADML在所有設置的網絡結構中都優于DML,學生網絡的增幅分別為1.21%、1.52%、0.93%、0.91%和1.52%,教師網絡的增幅分別為1.24%、0.78%、1.16%、1.07%和1.01%.進一步可以發現,當2 個分類子網絡大小不一致時,較大網絡的提升效果遠沒有較小網絡明顯.

表5 網絡結構對分類精度的影響比較(%)Table 5 Comparison of classification performance with different network structures (%)

將本文方法用于行人再識別,用平均識別精度mAP 進行度量.為公平比較起見,采用了與DML[13]在行人在識別實驗中相同的網絡設置,設置了2 組不同網絡學生和教師的架構:網絡1(InceptionV,MobileNetV1)、網絡2 (MobileNetV1,MobileNetV1).對比DML、ADML和TADML,結果如表6所示.在行人重識別數據集上的性能進一步表明了,本文算法的有效性和優越性.ADML 相對于DML,2 組師生網絡性能分別提升了0.26%和0.35%、0.47%和1.01%;TADML 相對于DML,兩組師生網絡性能分別提升了0.59%和1.04%、0.89%和1.39%.實驗結果表明,ADML和TADML 方法在Market1501數據集上的mAP 普遍高于DML.

表6 網絡結構對行人重識別平均識別精度的影響比較(%)Table 6 Comparison of person re-identification mAP with different network structures (%)

2.5 主流方法對比

將本文TAMDL 方法與當前流行的方法進行比較,為比較公平,將模型壓縮的性能作為比較指標,在三個常見的分類數據集CIFAR10、CIFAR100、Tiny-ImageNet 上進行比較.對比了9 種方法,分別為2 種廣泛使用的基于量化的模型壓縮方法:Quantization[20]、Binary Connect[21],4 種常見的知識蒸餾方法:解過程流方法(Flow of solution procedure,FSP)[10]、模擬淺層神經網絡的SNN-MIMIC 方法[22]、KD[8]、用淺而寬的教師網絡訓練窄而深的學生網絡的FitNet[9],3 種對抗訓練的蒸餾方法:對抗網絡壓縮方法(Adversarial network compression,ANC[23]、用條件對抗學習加速訓練學生網絡的TSANC 方法[24]、用知識擠壓進行對抗學習的KSANC 方法[19].其中Quantization[20]將網絡權重的進行三值化,Binary Connect[21]在前向和后向傳遞期間對權重進行二值化.SNN-MIMIC[22]模擬學習L2損失,KD[8]通過KL 散度進行軟目標的知識轉移,Yim 等[10]使用FSP 矩陣進行蒸餾,FitNet[9]使用更深但更薄的網絡嘗試遷移模型中間層的知識.ANC[23]首次將生成對抗網絡融入到知識蒸餾中對學生網絡的邏輯分布層進行指導,TSANC[24]在此基礎上對判別器的輸入進行了條件約束,KSANC[19]進一步加入了網絡中間層的監督指導.

在對比實驗中,教師網絡使用ResNet164,學生網絡使用ResNet20.其中Tiny-ImageNet 的實驗結果由復現的代碼運行得到,表中的其余結果均來自自文獻[19],一些對比方法未給出實驗結果,則標記為 “-”.如表7 所示,第1 行ResNet20 為學生網絡的分類性能,第2 行ResNet164 為教師網絡的性能.從第2 行至最后一行為在相同的教師和學生網絡設置下,對比方法僅使用學生網絡進行分類達到的分類性能.第1 列為對比方法,第2 列為模型大小.最優值使用黑色粗體標記,次優值使用下劃線粗體標記.本文方法TAMDL 在3 個數據集上均取得了最高的分類精度,與最新的對比方法KSANC比較,在CIFAR10、CIFAR100和Tiny-ImagNet上增幅分別為0.37%、2.23%和0.34%.

表7 本文算法與其他壓縮算法的實驗結果Table 7 Experimental results of the proposed algorithm and other compression algorithms

由表7 可以看出,學生網絡都沒能達到教師網絡的性能.對于CIFAR10,在相同規模下采用對抗學習后,學生網絡的性能得到改善,ANC、TSANC、KSANC、AMDL、TAMDL 的增幅分別為0.5%、0.75%、1.26%、0.81%和2.63%.對于類別復雜的CIFAR100,增幅更為明顯,以上5 種方法的增幅分別為0.92%、0.80%、1.95%、2.97%和4.81%.對于更為復雜的Tiny-ImageNet 數據集,以上五種方法的增幅分別為3.72%、3.75%、5.32%、4.55%和5.66%.比較實驗表明,數據集越復雜,對抗訓練的提升效果越明顯,本文方法TAMDL 相對于其他對比方法優勢越明顯.

2.6 模型復雜性分析

本節以ResNet164/ResNet20 做為教師網絡/學生網絡為例,來分析TAMDL 模型的復雜性.在訓練階段,先固定判別器,此時優化生成器—兩個分類網絡ResNet164和ResNet20,兩個模型的參數量分別為2.61 MB和0.27 MB,即生成器參數量為2.88 MB,耗時與傳統互學習網絡一致;優化判別器時,生成器固定不動,此時優化的是一個多層感知器—三個全連接層128-256-128,參數量為0.59 MB.在訓練時生成器和判別器以1:1 的輪次交替迭代,在數據集CIFAR100 使用Pytorch0.4進行實驗,生成器為ResNet164+ResNet20,判別網絡為三個維度為128-256-128 的全連接層,批尺寸Batchsize 設為64,即每個訓練輪次Epoch 將訓練集劃分為781個Batch,平均每訓練輪次Epoch耗時82 s,其中每個Batch平均耗時0.1045 s,優化生成器反向傳播耗時0.0694 s,優化判別器反向傳播耗時0.0016 s.采用對抗訓練,并沒有帶來太大的時間開銷.

3 結束語

本文提出了一種拓撲一致性指導的對抗互學習知識蒸餾方法.該方法在GAN 框架下,對輕量級的學生網絡進行知識遷移,所提方法設計了樣本組間拓撲一致性度量,依此設計的損失函數結合常規的實例級別的分布相似性,以及對抗損失及標號損失,作為訓練模型的總損失.文中評估了不同損失函數和不同模型架構對分類精度的影響.在3 個公開的數據集上驗證了本文方法TAMDL 的有效性.本文方法效果穩定且提升明顯,而且在壓縮模型的性能比較中,取得最好的結果.

猜你喜歡
分類方法模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 久久一本日韩精品中文字幕屁孩| 国产拍揄自揄精品视频网站| 曰韩人妻一区二区三区| 亚洲 成人国产| 久草国产在线观看| 中文字幕无码av专区久久 | 国产农村1级毛片| 国产成熟女人性满足视频| 蝌蚪国产精品视频第一页| AV无码国产在线看岛国岛| 国产在线第二页| 伊人国产无码高清视频| 国产人成在线观看| 高清免费毛片| 亚洲欧美精品一中文字幕| 亚洲一区二区三区国产精华液| 免费观看成人久久网免费观看| 亚洲精品欧美重口| 在线视频精品一区| 在线观看网站国产| 国产三级国产精品国产普男人| 亚洲免费福利视频| 亚洲视频黄| 青草国产在线视频| 国产美女一级毛片| 成人福利在线视频| 71pao成人国产永久免费视频| 国产精品第页| 国产成人在线小视频| 国产欧美精品一区aⅴ影院| 欧美自拍另类欧美综合图区| 成人午夜久久| 国产青青操| 91福利在线观看视频| 毛片网站在线看| 亚洲va在线∨a天堂va欧美va| 国产精品亚洲精品爽爽| 欧美亚洲网| 999国内精品视频免费| 91小视频在线观看免费版高清| 免费在线色| 最新午夜男女福利片视频| 黑色丝袜高跟国产在线91| 91精品视频网站| 在线观看欧美国产| 国产JIZzJIzz视频全部免费| 丁香五月婷婷激情基地| 国产精鲁鲁网在线视频| 一本大道无码日韩精品影视| 欧美成人综合视频| 扒开粉嫩的小缝隙喷白浆视频| 国产成人亚洲无码淙合青草| 福利一区三区| 天天干伊人| 亚洲国产欧美国产综合久久| 亚洲AV无码乱码在线观看代蜜桃| 亚洲全网成人资源在线观看| 极品性荡少妇一区二区色欲| 老司机精品99在线播放| 9丨情侣偷在线精品国产| 亚洲三级网站| 在线欧美日韩| 四虎国产成人免费观看| 色综合久久88色综合天天提莫 | 无码人妻热线精品视频| 女人18一级毛片免费观看| 国产精品所毛片视频| 国产精品密蕾丝视频| 免费在线国产一区二区三区精品 | 制服丝袜一区| 91在线播放免费不卡无毒| 精品国产成人av免费| 高清欧美性猛交XXXX黑人猛交| 免费亚洲成人| 热热久久狠狠偷偷色男同| 久久久久人妻精品一区三寸蜜桃| 日本在线视频免费| 欧美97色| 国产麻豆aⅴ精品无码| 99资源在线| 亚洲AV人人澡人人双人| 无码精品国产dvd在线观看9久|