周 偉,李藝穎,陳曙暉,丁 博
(國防科技大學 計算機學院, 湖南 長沙 410073)
傳統的機器學習和深度學習任務,大部分是圍繞單個任務的學習(或者可以稱為單域學習),如圖1(a)所示,其處理的數據樣本來自單個域(即獨立同分布的數據樣本),例如人臉識別、目標檢測,或者圖像生成等任務。當系統切換到一個新的任務或域時,系統需要更換新的網絡模型參數或重新初始化參數。深度學習在模式識別等領域超越了人類的性能,但是以數據驅動為基礎的系統模型十分脆弱,泛化能力存在弊端。例如,醫院通常僅基于自身數據構建深度學習模型,由于隱私、競爭或管理等因素而無法訪問其他醫院的同類數據。可以想象當患者可以獲得來自其他醫院數據信息(例如,心電圖或者腦電圖樣本)的協助診斷是多么有吸引力的事情。

(a) 單域模型(a) Model of single domain
協作是如今數據量爆炸、任務復雜度激增后一個多方渴望的解決理念,知識的共享將有助于提高所有機構的績效。但是,多機構的協助和共享并不是一件容易的事情,共享架構所帶來額外的資源開銷以及多機構私有數據本質上的偏移性問題是不可忽視的挑戰[1]:
1)機器學習應用存在一個普遍性問題:在運行機器學習應用程序之前,系統將所有數據集中到廣域網上的一個數據中心中[2-3],但廣域網帶寬是一種稀缺資源,因此移動所有數據可能非常緩慢[4]。此外,圖像和視頻的快速增長最終會使廣域網帶寬飽和[5];一些國家的隱私和數據主權法禁止跨越國界或大陸邊界傳輸原始數據[6]。……