陳攀 張恒汝 閔帆



摘 要:在聯邦學習中,跨客戶端的非獨立同分布(non-IID)數據導致全局模型收斂較慢,通信成本顯著增加。現有方法通過收集客戶端的標簽分布信息來確定本地模型的聚合權重,以加快收斂速度,但這可能會泄露客戶端的隱私。為了在不泄露客戶端隱私的前提下解決non-IID數據導致的收斂速度降低的問題,提出FedNA聚合算法。該算法通過兩種方法來實現這一目標。第一,FedNA根據本地模型類權重更新的L1范數來分配聚合權重,以保留本地模型的貢獻。第二,FedNA將客戶端的缺失類對應的類權重更新置為0,以緩解缺失類對聚合的影響。在兩個數據集上模擬了四種不同的數據分布進行實驗。結果表明,與FedAvg相比,FedNA算法達到穩定狀態所需的迭代次數最多可減少890次,降低44.5%的通信開銷。FedNA在保護客戶端隱私的同時加速了全局模型的收斂速度,降低了通信成本,可用于需要保護用戶隱私且對通信效率敏感的場景。
關鍵詞:聯邦學習;通信成本;隱私保護;非獨立同分布;聚合;權重更新
中圖分類號:TP181?? 文獻標志碼:A
文章編號:1001-3695(2024)03-008-0694-06
doi:10.19734/j.issn.1001-3695.2023.07.0327
Efficient federated learning:norm-weighted aggregation algorithm
Chen Pana,b,Zhang Hengrua,b,Min Fana,b
(a.School of Computer Science,b.Laboratory of Machine Learning,Southwest Petroleum University,Chengdu 610500,China)
Abstract:In federated learning,the non-independent and identically distributed(non-IID) data across clients leads to slower convergence of the global model and significantly increases communication costs.Existing methods collect information about the label distribution of clients to determine aggregation weights for local models,accelerating convergence,but this may leak clients privacy.To address the slower convergence caused by non-IID data without leaking clients privacy,this paper proposed the FedNA aggregation algorithm.FedNA achieved this goal in two ways.Firstly,it assigned aggregation weights based on the L1 norm of the class weight updates of local models to retain their contributions.Secondly,it set the class weight updates corresponding to missing classes at the clients to 0 to mitigate their impact on aggregation.Experiments were conducted under four different data distributions on two datasets.The results show that compared to FedAvg,the FedNA algorithm can reduce the number of iterations required to reach steady state by 890 at best,lowering communication costs by 44.5%.FedNA maintains clients privacy while accelerating the convergence of the global model and decreasing communication costs.It is suitable for situations that need to protect clients privacy and are sensitive to communication efficiency.
Key words:federated learning;communication cost;privacy protection;non-IID;aggregation;weight updates
0 引言
聯邦學習(federated learning,FL)[1~5]是一種分布式機器學習范式,旨在解決隱私保護和數據孤島問題[6]。FL結合本地計算和模型傳輸的思想解決中心化機器學習方法的隱私風險[7]。在訓練過程中,客戶端將數據保存在本地,僅將本地模型訓練得到的權重更新上傳到服務器。服務器將客戶端上傳的本地模型的權重更新進行聚合以更新全局模型,然后將更新后的全局模型發送回客戶端作為新的本地模型。通過重復的本地訓練和服務器聚合,最終得到一個最優的全局模型。
FL系統中客戶端之間的數據通常是非獨立同分布(non-IID)[7]的。例如,客戶端A可能是一家小型醫院,主要收治年輕人,而客戶端B可能是一家大型綜合醫院,收治各個年齡段的患者。這兩個醫院的患者數據在年齡分布上存在明顯的差異。數據的non-IID會使FL的收斂速度受到很大影響,導致通信成本顯著增加。聚合方法在FL中起著重要作用,它對全局模型的收斂速度有著顯著的影響。FedAvg[2]是FL中常用的聚合算法,其核心思想是客戶端擁有的數據量越大,在模型聚合時賦予其本地模型的權重就越高。由于它沒有考慮在non-IID數據下不同本地模型的貢獻差異,所以具有較高的通信成本。FedCA-TDD[1]保留了不同本地模型的貢獻,提高了FL的收斂速度,但其需要收集客戶端樣本的標簽分布信息。出于隱私原因,服務器不應從客戶端收集任何有關其本地訓練樣本的信息。
實驗發現,客戶端上傳的本地模型權重更新的分類器部分能反映本地模型對全局模型的貢獻。基于此,本文提出了聯邦范數加權聚合(federated norm weighted aggregation,FedNA),它在不收集任何客戶端隱私數據的前提下,能夠降低FL的通信成本。FedNA根據每個本地模型對全局模型的貢獻大小,動態確定其在聯邦聚合時的權重系數。具體來說,對于模型的特征提取器部分,貢獻被定義為客戶端訓練數據的數據量。對于模型的分類器部分,貢獻被定義為模型類權重更新的L1范數。此外,如果客戶端的數據集缺失某些類別,則將對應類別的權重更新置零,以減少其所帶來的負面影響。實驗結果表明,FedNA與其他先進方法相比,顯著降低了通信成本。
1 相關工作
1.1 聯邦學習
傳統的FL系統由K個客戶端和一個服務器組成,客戶端由[K]進行索引。客戶端k擁有本地數據集Dk,整個FL系統中的數據表示為D=∪k∈[K]Dk,其包含了C個類別的數據。FL系統的每一次迭代過程包含了客戶端選擇、本地模型訓練、模型權重更新傳輸和服務器端聚合。在第t次迭代中,服務器將最新的全局模型ωtglobal分發給隨機選擇的U個由[U]t索引的客戶端。隨后,客戶端k∈[U]t使用本地數據對模型進行優化,目標函數為
ωt+1global=ωtglobal+∑k∈[U]t|Dk|∑k′∈[U]t|Dk′|Δωtk(2)
1.2 聯邦學習的非獨立同分布
現有的一些研究[2,9,10]表明,non-IID數據是FL的一個重大挑戰。由于用戶行為的多樣性,來自不同客戶端的訓練數據存在顯著差異。例如,不同地區的植被數據由于維度、氣候等因素的影響,往往服從不同的分布。non-IID的數據會導致FL模型的準確率降低,同時也會增加通信成本。
關于FL在non-IID數據上的模型準確率的研究有很多。Zhao等人[11]提出在客戶端之間共享一個小的公共數據集,以緩解客戶端之間數據的non-IID,這與FL的初衷相悖[12~14]。與訓練單個全局模型的方法不同,Arivazhagan等人[15]提出在每個客戶端上設計訓練個性化模型,以緩解non-IID帶來的準確率下降問題。Li等人[9]提出為客戶端的局部目標函數添加一個近端項,以提高整體收斂的穩定性。Wang等人[16]設計了一種FL客戶端選擇機制,以獲得均勻的數據分布,提高模型的準確率。
1.3 聯邦學習的通信成本
在FL中,客戶端和服務器之間需要不斷進行數據傳輸,因此通信成本是一個挑戰。一些學者提出應用模型壓縮技術來減少傳輸的信息量,從而降低通信成本。Shi等人[17]提出將訓練算法與局部計算、梯度稀疏Flexible Sparsification相結合,從而減少迭代的總數。Sattler等人[18]擴展了現有的top-k梯度稀疏化,提出了Sparse Ternary Compression壓縮框架。Han等人[19]通過修剪、訓練量化和霍夫曼編碼對DNN模型進行深度壓縮。還有一些研究考慮發送不頻繁的權重更新。Gao等人[20]提出一種錯誤補償雙壓縮機制的通信高效分布式SGD方法得到更低的通信復雜度。Nishio等人[21]提出選擇盡可能多的設備參與每次訓練迭代,從而減少通信迭代的總數。此外,鄭賽等人[22]基于生成模型生成模擬數據實現一輪通信完成模型訓練,減少了通信數量。Ma等人[1]提出了FedCA-TDD,基于類加權聚合策略提高了FL系統的收斂速度,降低了通信成本。
2 聯邦范數加權聚合
2.1 問題設置
考慮一個傳統的FL系統,其中一個服務器和多個客戶端協作訓練一個分類模型。從功能來看,分類模型可以看作是由特征提取θ和分類器w={wc}Cc=1組成,其中{wc}Cc=1稱為類權重(class weight)。整個分類模型的參數表示為ω={θ,w}。FL的一個主要特點是分布式環境下的頻繁通信。每輪訓練迭代需要將模型權重更新從各客戶端發送到服務器,然后再將全局模型參數分發給各客戶端。客戶端數據間的non-IID導致通信成本的顯著增加。本文目標是在維持模型性能的前提下減少模型參數傳輸來減輕通信開銷。最近的一項研究[23]表明,FL中的non-IID場景可以細分為特征分布偏斜、標簽分布偏斜、不同特征下的概念轉移、不同標簽下的概念轉移和數量偏斜五個類別。標簽分布偏斜和數量偏斜是本文的主要關注點。
2.2 核心思想
在聯邦學習中,non-IID數據導致各客戶端對不同類別樣本的貢獻存在差異。具體而言,某一類樣本較豐富的客戶端對該類別的參數擬合貢獻更大。如何在不收集客戶端隱私數據的前提下在聚合時對客戶端的貢獻進行保留是一個挑戰。為了探究類別權重更新在反映客戶端貢獻方面的潛力,本文進行了實驗研究。為簡化問題,在有10個客戶端的FL系統中使用MNIST數據集進行實驗。可視化本地模型訓練過程中的類權重更新{Δwc}Cc=1的L1范數,如圖1所示。結果顯示,{Δwc}Cc=1的L1范數的模式與客戶端訓練樣本標簽分布的模式呈現出相似性。
基于此,從本地模型的類權重更新中提取本地模型對全局模型的貢獻。此外,先前的一些研究表明[24~26],客戶端訓練樣本的標簽分布或數量分布偏移的影響更多體現在模型中的分類器上,分類器對偏移更敏感。由此,本文對客戶端上傳的模型權重更新的特征提取器和分類器兩個部分,分別采用不同的方法確定權重進行加權平均。在特征提取器部分,客戶端本地訓練數據的數量定義為權重,這與FedAvg相似。在分類器部分,客戶端本地模型的類權重更新的L1范數定義為權重。通過類權重更新L1范數對分類器權重更新進行加權平均,能夠保留本地模型對不同類別的貢獻。
此外,softmax函數在分類任務中發揮著重要作用。在訓練過程中,當輸入樣本標簽為1時,softmax將對應類別的類權重推向該類別的特征中心,同時將其他類別的類權重拉離該類別特征中心。最終,各類別的類權重接近各自的特征中心,如圖2(a)所示。然而,在FL中,客戶端可能僅包含部分類別的訓練樣本,將不存在的類別稱為客戶端的缺失類。因此,在客戶端的本地訓練期間,對應于缺失類的類權重可能出現偏移,如圖2(b)和(c)所示。圖中,不同顏色的小圓代表不同類別樣本的特征。圖(a)客戶端有所有類別的樣本,類權重接近特征中心;圖(b)和(c)客戶端缺少某些類別的樣本,類權重遠離特征中心。缺失類的類權重更新會在聚合期間對模型收斂產生負面影響。因此,如果客戶端沒有某個類別的訓練樣本,本文考慮將該類別對應的類權重更新置0。
圖3顯示了FedNA和FedAvg在non-IID情況下的分類器部分的聚合結果。可以看出,FedNA能夠保留本地模型對每個類別的貢獻,其聚合后的L1范數接近于本地模型類別權重更新的L1范數。同時,FedNA僅依賴于客戶端上傳的模型參數,不收集任何額外隱私數據,避免了FedCA-TDD算法需要收集類別分布信息的隱私風險,對用戶隱私提供了保護。雖然FedNA所使用的分類器的L1范數可以在一定程度上反映客戶端的標簽分布,但這種反映具有很大的誤差,圖1也印證了這一點。
2.3 FedNA算法
FedNA算法對分類模型的兩個部分使用不同的加權策略。對于特征提取器部分,客戶端本地訓練樣本的數量決定權重;對于分類器部分,類權重更新的L1范數決定了其權重。客戶端k類權重的聚合權重定義如下:
3 實驗
3.1 實驗設置
1)數據集
在MNIST[27]和EMNIST Balanced[28]數據集上評估了本文方法和基準方法,數據集的統計信息如表1所示。為了模擬真實世界的FL系統,需要將數據集的訓練數據按照一定策略分配給每個客戶端,每個客戶端都有自己的本地訓練集。為了模擬FL中客戶端之間數據的non-IID場景,本文采用了如下兩種方案:
a)按照文獻[29,30]的方法對pc~Dirk(α)進行采樣,并按照pc,k的比例隨機分配c類訓練數據給客戶端k。non-iid(α)用于表示這種模擬方法,其中α用于控制non-IID的程度,較小的α值對應更不平衡的數據分布。
b)首先將數據集中的數據按類別進行排序,然后將這些數據分成100×s個分片。每個客戶端從這些分片中隨機選擇s個分片作為本地訓練集。由于所有分片都具有相同的大小,所以客戶端具有相同數量的訓練樣本。non-iid-bs(s)用于表示這種模擬方法,其中s用于控制客戶端擁有的分片數量,較小的s值對應于更不平衡的數據分布。
2)FL系統設置
實驗中,FL系統的默認設置如表2所示。客戶端本地訓練使用隨機梯度下降優化器進行優化,動量參數設為0.5,損失函數為交叉熵。客戶端本地訓練中使用了兩個自定義的CNN模型。第一個模型用于MNIST數據集的訓練,其網絡結構如表3所示,第二個更復雜的模型則用于EMNIST Balanced數據集的訓練,其網絡架構如表4所示。
3)評價指標
本文采用了以下三個指標評價本文方法與基準方法。
a)全局模型的測試準確性。即最后30次迭代的全局模型在測試數據集上的測試準確率的均值和標準差,用于評估模型的全局表現。
b)首次到達預期準確率所需的迭代次數。用于比較不同算法的收斂速度。
c)穩定在預期準確率所需的迭代次數。在數據為non-IID的情況下,FL訓練過程中的測試準確率會出現波動,所以需要考慮到達穩定狀態所需的迭代次數。如果連續10次記錄的測試準確率都超過了預期準確率,則認為模型穩定在預期準確率,到達穩定狀態。
預期準確率的設置遵循實驗結果。不同數據集在不同分布下,本文取各方法最后30次迭代的平均測試準確率的最小值,然后保留兩位有效數字作為預期準確率。表5展示了不同數據集在不同分布下的預期準確率。
3.2 實驗結果
本文在兩個數據集上的四種數據分布下對FedNA和基線方法進行了評估,測試準確率曲線如圖4~7所示。其中,FedNA w/o ZG表示未使用權重更新置零(ZG)的FedNA。從圖4~7可知,在收斂速度方面,FedNA表現明顯優于FedAvg,與FedCA-TDD幾乎相同。值得注意的是,FedNA無須收集客戶端本地數據的標簽分布。FedNA w/o ZG的收斂速度也優于FedAvg,這對于那些對隱私要求較高的場景非常有幫助。此外,隨著non-IID程度的增加,FedNA在收斂速度上的優勢變得更加明顯。
本文方法和基線方法的評價指標結果如表6、7所示。迭代次數這一行“/”左右的兩個數字分別為穩定在預期準確率和首次達到預期準確率的迭代次數。此外,本文將所有方法的迭代次數以FedAvg為基準進行標準化和可視化,結果如圖8、9所示。通過觀察表6、7和圖8、9可以得出結論,在大多數情況下,FedNA需要的迭代次數明顯少于FedAvg,與FedCA-TDD幾乎相同。例如,在non-iid-bs(2)分布下的EMNIST Balanced數據集中,FedNA和FedCA-TDD穩定在預期準確率和首次達到預期準確率的迭代次數分別為1 110/910和1 080/910,而FedAvg為2 000/1 550。FedNA w/o ZG與FedAvg相比也表現出明顯的優勢。例如,在non-iid-bs(1)分布下的EMNIT Balanced數據集中,FedNA w/o ZG穩定在預期準確率和首次達到預期準確率的迭代次數分別為1 680/1 080,而FedAvg為1 920/1 630。FL訓練的總通信成本是通過計算每輪通信成本乘以達到目標準確率所需的訓練迭代次數得到的[1]。FedNA每次迭代的傳輸數據量與FedAvg相同,但達到目標準確率所需的迭代次數更少,降低了總通信成本。值得注意的是,在non-iid-bs(2)分布下的EMNIST Balanced數據集中,FedNA達到穩定狀態所需的迭代次數比FedAvg少890次,可降低44.5%的通信成本。
本文測試了FedCA-TDD、FedNA、FedNA w/o ZG和FedAvg算法最終的測試準確率。結果顯示,FedNA、FedNA w/o ZG、FedCA-TDD的平均測試準確率分別為0.917、0.916和0.916,而FedAvg為0.905。FedAvg準確率略低于本文方法。例如,在EMNIST Balanced數據集上的non-iid-bs(1)和non-iid-bs(2)分布下,FedNA分別為0.827和0.848,而FedAvg分別為0.809和0.819。這表明,在提高收斂速度、減低通信成本的同時,本文方法并未對模型性能產生不利影響。
3.3 消融實驗
本文對沒有NA或ZG的FedNA在不同分布下的EMNIST Balanced數據集上進行消融實驗,結果如表8所示。對比FedNA w/o NA和FedAvg可以發現,NA可以提高FedNA的收斂速度。例如,在數據分布為non-iid(0.1)時,FedNA w/o NA穩定在預期準確率和首次達到預期準確率的迭代次數分別為1 130/890,而FedAvg為2 000/1 530。此外,對比FedNA w/o ZG和FedNA的迭代次數可以發現,ZG也可以提高FedNA的收斂速度。例如,在數據分布為non-iid(0.05)時,FedNA w/o NA穩定在預期準確率和首次達到預期準確率的迭代次數分別為1 950/960,而FedAvg為2 000/1 260。綜上,ZG和NA對最終收斂速度的提升都有不同程度的貢獻。
4 結束語
本文提出了一種新的聯邦學習聚合方法FedNA,旨在降低在non-IID數據下的聯邦學習的通信成本。FedNA根據客戶端的類權重更新的L1范數為客戶端分配權重,保留了本地模型的貢獻。此外,FedNA將客戶端缺失類的類權重更新設置為零,消除了其在聚合時對模型的負面影響。本文在兩個數據集上模擬了四種數據分布來進行實驗。結果表明,與FedAvg相比,FedNA算法最多可以減少44.5%的通信開銷。與現有方法相比,FedNA既有效地保護了客戶端的隱私,又加速了全局模型的收斂速度,降低了通信成本。
在未來的工作中,筆者將探索在不同的訓練階段如何自適應地調整類加權策略,從而實現更加高效的聚合策略。
參考文獻:
[1]Ma Zezhong,Zhao Mengying,Cai Xiaojun,et al.Fast-convergent federated learning with class-weighted aggregation[J].Journal of Systems Architecture,2021,117:102125.
[2]McMahan H B,Moore E,Ramage D,et al.Communication-efficient learning of deep networks from decentralized data[C]//Proc of International Conference on Artificial Intelligence and Statistics.[S.l.]:PMLR,2017:1273-1282.
[3]Konecˇny J,McMahan H B,Yu F X,et al.Federated learning:strategies for improving communication efficiency[EB/OL].(2017-10-30).https://arxiv.org/abs/1610.05492.
[4]McMahan H B,Moore E,Ramage D,et al.Federated learning of deep networks using model averaging[EB/OL].(2016-02-17).https://arxiv.org/abs/1602.05629v1.
[5]Konecˇny J,McMahan H B,Ramage D,et al.Federated optimization:distributed machine learning for on-device intelligence[EB/OL].(2016-10-08).https://arxiv.org/abs/1610.02527.
[6]Zhai Kun,Ren Qiang,Wang Junli,et al.Byzantine-robust federated learning via credibility assessment on non-IID data[J].Mathematical Biosciences and Engineering,2022,19(2):1659-1676.
[7]Zhang Chen,Xie Yu,Bai Hang,et al.A survey on federated learning[J].Knowledge-Based Systems,2021,216:106775.
[8]Cao Xiaoyu,Fang Minghong,Liu Jia,et al.FLTrust:Byzantine-robust federated learning via trust bootstrapping[EB/OL].(2022-04-12).https://arxiv.org/abs/2012.13995.
[9]Li Tian,Sahu A K,Zaheer M,et al.Federated optimization in heterogeneous networks[EB/OL].(2020-04-21).https://arxiv.org/abs/1812.06127.
[10]Li Qinbin,Diao Yiqun,Chen Quan,et al.Federated learning on non-IID data silos:an experimental study[C]//Proc of the 38th IEEE International Conference on Data Engineering.Piscataway,NJ:IEEE Press,2022:965-978.
[11]Zhao Yue,Li Meng,Lai Liangzhen,et al.Federated learning with non-IID data[EB/OL].(2018-06-02).https://arxiv.org/abs/1806.00582.
[12]Jeong E,Oh S,Kim H,et al.Communication-efficient on-device machine learning:federated distillation and augmentation under non-IID private data[EB/OL].(2023-10-19).https://arxiv.org/abs/1811.11479.
[13]Wu Xizhu,Liu Song,Zhou Zhihua.Heterogeneous model reuse via optimizing multiparty multiclass margin[C]//Proc of the 36th International Conference on Machine Learning.[S.l.]:PMLR,2019:6840-6849.
[14]Yao Xin,Huang Tianchi,Zhang Ruixiao,et al.Federated learning with unbiased gradient aggregation and controllable meta updating[EB/OL].(2020-12-16).https://arxiv.org/abs/1910.08234.
[15]Arivazhagan M G,Aggarwal V,Singh A K,et al.Federated learning with personalization layers[EB/OL].(2019-12-02).https://arxiv.org/abs/1912.00818.
[16]Wang Hao,Kaplan Z,Niu D,et al.Optimizing federated learning on non-IID data with reinforcement learning[C]//Proc of IEEE Confe-rence on Computer Communications.Piscataway,NJ:IEEE Press,2020:1698-1707.
[17]Shi Dian,Li Liang,Chen Rui,et al.Toward energy-efficient federated learning over 5G+mobile devices[J].IEEE Wireless Communications,2021,29(5):44-51.
[18]Sattler F,Wiedemann S,Myuller K R,et al.Robust and communication efficient federated learning from non-IID data[J].IEEE Trans on Neural Networks and Learning Systems,2019,31(9):3400-3413.
[19]Han Song,Mao Huizi,Dally W J.Deep compression:compressing deep neural network with pruning,trained quantization and Huffman coding[C]//Proc of International Conference on Learning Representations.2016.
[20]Gao Hongchang,Xu An,Huang Heng.On the convergence of communication efficient local SGD for federated learning[C]//Proc of AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2021:7510-7518.
[21]Nishio T,Yonetani R.Client selection for federated learning with hete-rogeneous resources in mobile edge[C]//Proc of IEEE International Conference on Communications.Piscataway,NJ:IEEE Press,2019:1-7.
[22]鄭賽,李天瑞,黃維.面向通信成本優化的聯邦學習算法[J].計算機應用,2023,43(1):1-7.(Zheng Sai,Li Tianrui,Huang Wei.Federated learning algorithm for communication cost optimization[J].Journal of Computer Applications,2023,43(1):1-7.)
[23]Kairouz P,McMahan H B,Avent B,et al.Advances and open pro-blems in federated learning[J].Foundations and Trends in Machine Learning,2021,14(1-2):1-210.
[24]Li Xinchun,Zhan Dechuan.FedRS:federated learning with restricted softmax for label distribution non-IID data[C]//Proc of the 27th ACM SIGKDD Conference on Knowledge Discovery and Data Mining.New York :ACM Press,2021:995-1005.
[25]Luo Mi,Chen Fei,Hu Dapeng,et al.No fear of heterogeneity:classifier calibration for federated learning with non-IID data[J].Advances in Neural Information Processing Systems,2021,34:5972-5984.
[26]Kang Bingyi,Xie Saining,Rohrbach M,et al.Decoupling representation and classifier for long-tailed recognition[C]//Proc of the 8th International Conference on Learning Representations.2020.
[27]LeCun Y,Bottou L,Bengio Y,et al.Gradient-based learning applied to document recognition[J].Proceedings of IEEE,1998,86(11):2278-2324.
[28]Cohen G,Afshar S,Tapson J,et al.EMNIST:extending MNIST to handwritten letters[C]//Proc of International Joint Conference on Neural Networks.Piscataway,NJ:IEEE Press,2017:2921-2926.
[29]Yurochkin M,Agarwal M,Ghosh S,et al.Bayesian nonparametric fe-derated learning of neural networks[C]//Proc of International Confe-rence on Machine Learning.[S.l.]:PMLR,2019:7252-7261.
[30]Wang Hongyi,Yurochkin M,Sun Yuekai,et al.Federated learning with matched averaging[C]//Proc of International Conference on Learning Representations.2020.