預訓練模型的跨領域跨任務遷移學習

2020-04-07 03:37:37丁文博許玥

科技資訊 2020年2期

丁文博許玥

摘? 要：為了解決計算機深度學習時標注數(shù)據(jù)工作量大、準確度不高、耗時耗力等問題，需要將預先訓練好的模型中的數(shù)據(jù)進行跨領域跨任務遷移學習。基于對不同數(shù)據(jù)集的遷移效果的研究，試驗時將視覺領域中表現(xiàn)良好的ImageNet預訓練模型遷移到音頻分類任務，通過剔除無聲部分、統(tǒng)一音頻長度、數(shù)據(jù)轉(zhuǎn)換和正則化處理這4個步驟，采用經(jīng)典圖像增強和樣本混淆兩種數(shù)據(jù)增強方法，以5種不同的方式訓練數(shù)據(jù)集，實驗證明：ImageNET目標訓練模型的跨領域遷移學習效果顯著，但源領域的模型效果和目標領域的最終效果并沒有必然聯(lián)系，且使用同領域相似數(shù)據(jù)分布的數(shù)據(jù)集的預訓練效果比ImageNet上的預訓練效果更差。

關鍵詞：遷移學習? 預訓練? 數(shù)據(jù)集? 數(shù)據(jù)預處理? 數(shù)據(jù)增強

中圖分類號：TP391.4 ? ?文獻標識碼：A 文章編號：1672-3791（2020）01（b）-0107-04

Abstract： In order to solve the problems of? large workloads， low accuracy and time-consuming in data-labeling in deep learning， it is necessary to transfer the data from the pre-trained model to cross-domain/cross-task learning. Based on the study of the migration effect of different dat sets， the ImageNet pre-training model， which is good in the visual field， is migrated to the audio classification task. By eliminating the silent part， unifying the audio length， data conversion and regularization processing， classical image enhancement and sample confusion are used to enhance the data， five different training methods to train datasets. Experiments show that ImageNET target training model has significant effect on cross-domain migration learning， but the effect of source domain model is not necessarily related to the final effect of target domain，and the pre-training effect of datasets with similar data distribution in the same field is worse than that on ImageNet.

Key Words： Transfer learning; Pre-train; Dataset; Data preprocessing; Data augmentation

近年來，深度學習算法在諸多應用領域取得了突破性進展，模型復雜度和訓練數(shù)據(jù)量持續(xù)增長，大量的訓練數(shù)據(jù)成為了解決復雜問題的必需。如計算機視覺領域的ImageNet數(shù)據(jù)集[1]就具有千萬級別的圖像數(shù)據(jù)和標注。而在實際應用中，獲取大量標注數(shù)據(jù)并從頭開始訓練是十分困難的。

為了解決實際應用場景中標注數(shù)據(jù)獲取難度大、成本高等問題，可通過遷移學習方法將某一領域?qū)W習到的知識或模式應用到不同但相關的領域或問題中，這樣不僅能避免昂貴且費時的數(shù)據(jù)標注工作，還能提升目標領域或任務中學習效果。

1? 相關工作

通常遷移學習分為兩大類：一類是全網(wǎng)絡微調(diào)，即將預訓練模型用于新模型參數(shù)的初始化，而后在新任務數(shù)據(jù)上訓練新模型參數(shù);另一類是用預訓練模型作為特征提取器，無需更新無論是預訓練模型還是新任務模型的參數(shù)。但所有遷移學習的成功運用都基于一個假設：訓練數(shù)據(jù)與測試數(shù)據(jù)位于同一特征空間，并且具有相同的分布特性。一個常見的假設就是在ImageNet上表現(xiàn)良好的模型也能在其他視覺任務上表現(xiàn)良好。如在計算機視覺領域中，當面臨一個新的視覺分類、識別和分割任務時，通常會使用ImageNet數(shù)據(jù)集上預訓練的1000類分類模型進行遷移。

已有案例證明，采用遷移學習方法，將現(xiàn)成數(shù)據(jù)集（如ImageNet）預訓練好的模型作為新任務模型的基礎，能夠減少新任務訓練數(shù)據(jù)的規(guī)模，還可以有效避免過擬合等情況的發(fā)生。文獻[2]中系統(tǒng)地分析了16種卷積神經(jīng)網(wǎng)絡在12個圖像分類數(shù)據(jù)集上的效果，分別以3種方式展開實驗：ImageNet預訓練模型用于特征提取，預訓練模型作為新模型參數(shù)的初始化，使用與預訓練模型相同的網(wǎng)絡結構但隨機初始化參數(shù)。得出了兩個結論：好的預訓練模型能夠提供好的遷移學習效果;好的網(wǎng)絡結構也能提供好的遷移學習效果。

盡管文獻[2]系統(tǒng)地驗證了遷移學習的效果，但仍局限在計算機視覺領域。在部分音頻分類任務中，使用預訓練的視覺模型進行遷移學習也曾取得成功，如文獻[3]在聲音事件檢測時將ImageNet預訓練的卷積神經(jīng)網(wǎng)絡模型融入整體的卷積循環(huán)神經(jīng)網(wǎng)絡（CRNN）模型框架中;又如在文獻[4]中使用6種視覺領域表現(xiàn)優(yōu)異的不同結構的模型，分別以從頭訓練和使用預訓練模型作為初始模型這兩種方式訓練。在文獻[4]的兩項工作中，雖然音頻標注質(zhì)量參差不齊，且音頻任務進展遠遠落后于計算機視覺領域的相似任務，但將ImageNet預訓練模型用于音頻分類任務依然取得了不錯的效果，其再一次證明，預訓練模型能進行一定程度上的跨領域遷移。

該文正是基于這些跨領域遷移學習的成功案例，以聲學場景識別與事件檢測DCASE2019挑戰(zhàn)賽[5]中的音頻標簽分類為目標領域任務，以ImageNet圖像分類為源領域任務，從音頻分類問題入手，分析（在ImageNet 上訓練好的）視覺模型能否遷移到語音領域中，并通過系統(tǒng)實驗驗證了跨領域遷移學習的效果。

2? 實驗方法

2.1 數(shù)據(jù)集

該次實驗共采用了3種數(shù)據(jù)集：一是ImageNet數(shù)據(jù)集，該數(shù)據(jù)集為模型的預訓練數(shù)據(jù)集，并遷移學習到了語音領域;二是Freesound 數(shù)據(jù)集，用于實驗中的無噪聲訓練和測試;三是Yahoo Flickr Creative Commons 100M （YFCC100M）數(shù)據(jù)集，其為實驗中的噪聲數(shù)據(jù)集。

ImageNet[1]：ImageNet數(shù)據(jù)集建立在WordNet[6]提供的層次結構之上，是視覺研究界可用的最大的清潔圖像數(shù)據(jù)集。目前，此數(shù)據(jù)集的12個子集共有320萬個清晰注釋的圖像，分為5247類，并且平均每個同義詞集合收集了600多個圖像。

Freesound Dataset（FSD）[7]：FSD是一個基于AudioSet Ontology[8]中自由聲音內(nèi)容開發(fā)出來的新的音頻數(shù)據(jù)集。由于經(jīng)過了人工標注，F(xiàn)SD數(shù)據(jù)較為準確。數(shù)據(jù)集中的音頻數(shù)據(jù)共80類，涵蓋了不同的主題：如吉他和其他樂器、呼吸聲、人類聲音、機動車輛（道路）和各種家庭聲音等。它包括共4970條約10.5h的音頻，每個音頻時長從0.3～30s不等。

Yahoo Flickr Creative Commons 100M （YFCC100M）[8]：YFCC100M數(shù)據(jù)集是迄今為止發(fā)布的最大的公共多媒體集合，包括1億個媒體對象，其中約9920萬個對象是照片，80萬個是視頻。此數(shù)據(jù)集同時提供一系列相關的元數(shù)據(jù)，如標注、時間跨度和位置等。YFCC的音頻使用自動啟發(fā)式標注，會帶來大量的標注噪聲，這也是其在實驗中作為帶噪聲訓練的原因。視頻中共有19815條長約80h的音頻，每個音頻時長從1～15s不等。

2.2 數(shù)據(jù)預處理

在進行數(shù)據(jù)預處理時，輸入的是采樣率為44.1kHz的音頻文件。由于每個音頻文件的時長不一，且可能包含部分無意義無聲（或低分貝噪聲）時間，因此分四步進行數(shù)據(jù)預處理：剔除無聲部分、統(tǒng)一音頻長度、數(shù)據(jù)轉(zhuǎn)換和正則化處理。

2.2.1 剔除無聲部分

根據(jù)分貝情況剔除音頻中的無聲數(shù)據(jù)，閾值設為60dB。

2.2.2 統(tǒng)一音頻長度

統(tǒng)一所有音頻數(shù)據(jù)的長度。在該文中設置為5s，對于大于5s的音頻，截取其中一段;對于小于5s的音頻，重復堆疊該段音頻直到長度為5s。

2.2.3 數(shù)據(jù)轉(zhuǎn)換

將一維音頻數(shù)據(jù)轉(zhuǎn)為二維的梅爾頻譜圖數(shù)據(jù)。視覺領域的預訓練模型，由于處理對象是二維的圖像或三維的視頻數(shù)據(jù)，往往使用二維或三維卷積神經(jīng)網(wǎng)絡。而原始音頻信息是一維的連續(xù)變化信號，不能直接作為在視覺領域預訓練模型的輸入。通常的做法是將一維的音頻信息轉(zhuǎn)為二維的梅爾頻譜，即通過短時傅里葉變換將時域信號轉(zhuǎn)為頻域信號，取平方值得到能量譜，經(jīng)過梅爾濾波后獲得一段一維音頻數(shù)據(jù)對應的一張二維梅爾頻譜圖像。通過這種方法將音頻分類問題轉(zhuǎn)化為圖像分類問題。

2.2.4 正則化處理

將第三步中得到的128波段的梅爾頻譜圖進行均值為0、方差為1的正則化處理，并復制到3個通道中。

圖1描述了音頻數(shù)據(jù)從輸入到模型輸出的整體流程。

2.3 數(shù)據(jù)增強

數(shù)據(jù)增強是一種在數(shù)據(jù)集量級較小的情況下防止訓練過擬合的有效方法，在計算機視覺領域中常用隨機旋轉(zhuǎn)/裁剪、水平/豎直翻轉(zhuǎn)、加入隨機噪聲、圖像亮度/色彩變化等方式。由于數(shù)據(jù)預處理轉(zhuǎn)換完的頻譜圖像的特殊性，不能完全照搬視覺中的數(shù)據(jù)增強方法，本次實驗采用了以下兩大類數(shù)據(jù)增強方法。

2.3.1 經(jīng)典圖像類增強方法

水平翻轉(zhuǎn)、隨機裁剪、隨機背景噪聲、高斯模糊、隨機水平（時間維度上）平移和拉伸、隨機圖像掩碼。

2.3.2 樣本混淆

訓練時，在一個批次樣本中隨機選取兩個屬于不同類別的樣本數(shù)據(jù)，按一定概率進行數(shù)據(jù)和標簽的混淆，如公式（1）和（2）所示。

2.4 模型

此次實驗選取了VGG16[9]、VGG19[9]、Xception[10]、DenseNet121[11]、DenseNet169[11]、DenseNet201[11]、InceptionV3[12]和NASNetLarge[13]作為訓練模型，分別按照以下5種方式訓練。為了保證實驗結果的可重復和可對比，均使用FSD的20%數(shù)據(jù)作為驗證集，并固定劃分數(shù)據(jù)的隨機種子。

遷移YFCC100M預訓練模型，在YFCC100M數(shù)據(jù)上訓練出一個最優(yōu)模型作為預訓練模型，并使用該模型的結構和參數(shù)作為80%的FSD數(shù)據(jù)上訓練的初始化參數(shù)。

2.5 實驗結果

每個模型采用Adam優(yōu)化器，初始學習率為1e-4，損失函數(shù)為交叉熵。每一次完成所有樣本的迭代后，模型在驗證集上進行損失函數(shù)評估，當損失在連續(xù)5次沒有下降時，將學習率降為初始的0.5倍。此外，為了保障模型得到充分訓練并避免過擬合，訓練過程使用早停策略，當驗證集上的損失在連續(xù)15次完整數(shù)據(jù)集迭代均沒有下降時，模型訓練過程自動停止。

評價指標與DCASE2019挑戰(zhàn)賽一致，采用類別加權的類別排序平均精度（label-weighted label-ranking average precision，lwlrap）。lwlrap測量了對每個測試片段，模型給出的標簽排序列表的平均精度。類別排序平均精度（lrap）的計算公式如公式（3）所示[14]，lwlrap是每類標簽的lrap的平均值。

章節(jié)2.4中每個模型和實驗方法對應的結果如表1所示。由于模型訓練和數(shù)據(jù)增強部分會有一定的隨機性，每個模型都以多次訓練取最好評估結果的方式進行。

2.6 結果分析

通過分析表1數(shù)據(jù)可以得到以下結論。

（1）使用在ImageNet上預訓練的模型作為初始化能取得更好的效果（FSD_no對比FSD_pre，F(xiàn)SD_YFCC_no對比FSD_YFCC_pre），盡管肉眼看來，梅爾頻譜圖和ImageNet圖像的特征差別很大，但實驗依然證明了跨領域的遷移學習效果顯著。

（2）目標領域由于其問題、數(shù)據(jù)和源領域存在一定差異，源領域的模型效果和目標領域的最終效果并沒有必然聯(lián)系（ImageNet上準確率對比FSD_no/FSD_pre/FSD_YFCC_no/FSD_YFCC_pre），在ImageNet上表現(xiàn)好的NASNetLarge和Xception模型，無論是遷移網(wǎng)絡結構，或者是遷移結構和模型參數(shù)，均不能保證目標領域的效果。

（3）對比FSD_pre和FSD_YFCC可發(fā)現(xiàn)，使用同領域相似數(shù)據(jù)分布的數(shù)據(jù)集進行預訓練，其效果比ImageNet上的預訓練效果更差，原因有兩個：一是YFCC數(shù)據(jù)量較ImageNet小得多;二是YFCC中存在標注噪聲會影響預訓練效果。

3? 結語

該實驗系統(tǒng)驗證了從圖像分類到音頻分類的跨領域遷移的學習效果。分析實驗結果可知，通過大量正確運用視覺任務數(shù)據(jù)預訓練模型，不僅能解決計算機視覺領域本身的問題，還能夠在很大程度上輔助解決語音領域的問題，特別是在任務標注數(shù)據(jù)有限的情況下。

當然，遷移學習也有前提，即遷移學習的兩個領域要有共通點（語音的波形圖需經(jīng)過傅里葉變換轉(zhuǎn)換為頻譜圖，從而與圖像領域相連），因為如果源域和目標域的相似度不夠，便無法遷移;另外，目標域也需一定量的標注數(shù)據(jù)，并且標注數(shù)據(jù)必須清潔準確。

總之，該文的實驗結論能夠為跨領域遷移學習的方法提供啟發(fā)，也證明了跨領域遷移學習方法能夠為更多領域的成功應用提供幫助。

參考文獻

[1] Jia Deng，Wei Dong，Richard Socher，et al.Imagenet： A large-scale hierarchical image database[A].2009 IEEE Computer Society conference on computer vision and pattern recognition[C].2009.

[2] Kornblith，Simon， Jonathon Shlens，Quoc V.Le.Do better imagenet models transfer better？[A].Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition[C].2019.

[3] De ZhiWang，Lilun Zhang，Changchun Bao，et al.Weakly supervised CRNN system for sound event detection with large-scale unlabeled in-domain data[EB/OL].https：//www.arxiv.org/abs/1811.00301？context=cs.

[4] Xu，K，Zhu，B，Wang，D，et al.Nudt Solution for Audio Tagging Task of Dcase 2018 Challenge. DCASE2018 Challenge，1-3[Z].2019-08-01.

[5] DCASE2019 Challenge[EB/OL].https：//www.dcase.community/challenge2019/.

[6] Miller，George A.WordNet：An electronic lexical database[M].MIT press，1998.

[7] Jort F.Gemmeke，Paniel P.W，Ellis，Dyian Freedman，et al. "Audio set： An ontology and human-labeled dataset for audio events[A].2017 IEEE International Conference on Acoustics， Speech and Signal Processing（ICASSP）[C].2017.

[8] Bart Thomee，Benjamin Elizalde，David Ayman Shamma，et al.YFCC100M： The new data in multimedia research[J].Communications of the ACM，2016，59（2）：64-73.

[9] Simonyan， Karen， Andrew Zisserman.Very deep convolutional networks for large-scale image recognition[Z].2014.

[10] Chollet， Fran?ois.Xception： Deep learning with depthwise separable convolutions[A].Proceedings in IEEE conference on computer vision and pattern recognition（CVPR）[C].2017.

[11] Gao Huang，Zhuang Liu，Kilian Weinberger.Densely connected convolutional networks[A].Proceedings of the IEEE conference on computer vision and pattern recognition[C].2017.

[12] C.Szegedy，V.Vanhoucke，S.Ioffe，et al.Rethinking the inception architecture for computer vision.[Z].2015.

[13] Zoph， Barret.Learning transferable architectures for scalable image recognition[A].Proceedings of the IEEE conference on computer vision and pattern recognition[C].2018.

[14] 3.3.Metrics and Scoring：quantifying the quality of predictions[EB/OL].ttps：//www.scikit-learn.org/stable/modules/model_evaluation.html#label-ranking-average-precision.

[15] 部分模型ImageNet分類準確率[EB/OL].https：//www.keras.io/applications/.

科技資訊2020年2期

科技資訊的其它文章: 中藥外用制劑研制及質(zhì)量評價中應注意的問題; 歌劇《運河謠》中秦嘯生的藝術分析; 《中日交流標準日本語》與《中日交流標準中國語》的對比研究; 測繪地理信息統(tǒng)計數(shù)據(jù)質(zhì)量控制分析; 對皮膚外用無菌制劑研發(fā)的思考與建議; 黑龍江省籃球裁判員現(xiàn)狀