姚明海 黃展聰
(浙江工業大學信息工程學院 杭州 310023)
自2006年Hinton等人[1]采用逐層初始化解決深度神經網絡訓練以來,深度學習已廣泛用于模式識別、圖像理解、機器翻譯等領域。2016年,深度學習模型在ImageNet圖像集上的識別錯誤率已經低于人類[2]。然而,現有的深度學習模型訓練都以監督學習為主[3],為了訓練包含巨大參數量的模型,需要大量的人工標注訓練樣本,并假設訓練和應用場景數據屬于同一分布。但在實際中,由于許多因素(如照明、姿態和圖像質量等)的影響,訓練和應用場景的樣本分布往往不一致,使訓練好的模型在應用場景下的性能嚴重降低。此時需要重新標注應用場景數據再進行訓練,而為新任務標注數據集并重新訓練是昂貴且耗時的過程,上述問題成為深層神經網絡應用中新的難題。
領域自適應學習[4]是一種解決如何將分類器從訓練場景遷移到與之不同的應用場景的新型機器學習方法,其中訓練場景稱為源域,應用場景稱為目標域。源域和目標域的分布雖然不同,但是具有一定相關性,且只有源域數據具有標簽信息,而目標域數據沒有或者只有少量標簽信息可用[5]。從領域自適應學習提出至今,學者們已經提出了許多方法。Fetzer等人[6]引入了深度域混淆(DDC)架構來學習最后隱藏層中源域和目標域的域不變特征。Long等人[7]不局限于僅適配單一層,提出了一種深度自適應網絡(DAN),進行多層適配來學習2個領域間的可遷移特征?!?br>