999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

連續學習研究進展

2022-06-09 14:57:18韓亞楠劉建偉羅雄麟
計算機研究與發展 2022年6期
關鍵詞:方法模型

韓亞楠 劉建偉 羅雄麟

(中國石油大學(北京)信息科學與工程學院 北京 102249)

近年來,隨著機器學習(machine learning, ML)領域的快速發展,機器學習在自然圖像分類、人臉識別等領域取得了一定的成果,深度學習的成功使機器學習的發展達到了另一個新的高度.然而,在現實世界中,機器學習系統總是會遇到連續任務學習問題,因此,如何對連續任務進行有效學習是當前研究的重點之一.現有的機器學習方法雖然可以在任務上取得較高的性能,但只有當測試數據與訓練數據概率分布類似時,機器學習才能取得較好的性能.換句話說,目前的機器學習算法不能在動態環境中持續自適應地學習,因為在動態環境中,任務可能會發生顯著變化,然而,這種自適應的學習能力卻是任何智能系統都具有的能力,也是實現智能生物系統學習的重要標志.

目前,深度神經網絡在許多應用中顯示出非凡的預測和推理能力,然而,當通過基于梯度更新的方法對模型進行增量更新時,模型會出現災難性的干擾或遺忘問題,這一問題將直接導致模型性能的迅速下降,即模型在學習新任務之后,由于參數更新對模型引起的干擾,將使得學習的模型忘記如何解決舊任務.人類和動物似乎學到了很多不同的知識,并且總是能不遺忘過去學到的知識,并將其應用在未來的學習任務中,受人和動物這種學習方式的啟發,很自然地將這種想法運用到機器學習領域,即隨著時間的推移,模型能夠不斷學習新知識,同時保留以前學到的知識,這種不斷學習的能力被稱為連續學習.連續學習最主要的目的是高效地轉化和利用已經學過的知識來完成新任務的學習,并且能夠極大程度地降低災難性遺忘帶來的問題.近年來,隨著深度學習的不斷發展,連續學習的研究已經受到極大的關注,因為連續學習主要有2點優勢:

1) 不需要保存之前任務上學習過的訓練數據,從而實現節約內存,同時解決了由于物理設備(例如機器內存)或學習策略(例如隱私保護)的限制,導致數據不能被長期存儲這一問題.

2) 模型能夠保存之前任務所學習的知識,并且能夠極大程度地將之前任務學習到的知識運用到未來任務的學習中,提高學習效率.

1 連續學習概述

1.1 連續學習的形成與發展

在現實世界中,機器學習系統處于連續的信息流中,因此需要從不斷改變的概率分布中學習和記住多個任務.隨著時間的推移,不斷學習新知識,同時保留以前學到知識,具備這種不斷學習的能力稱為連續學習或終身學習.因此,使智能學習系統具備連續學習的能力一直是人工智能系統面臨的挑戰[1-2].災難性遺忘或災難性干擾一直是連續學習所研究的重點,即當模型對新任務進行學習時會遺忘之前任務所學習的知識,這種現象通常會導致模型性能的突然下降,或者在最壞的情況下,導致新知識完全覆蓋舊知識.因此,克服災難性遺忘是人工智能系統邁向更加智能化的重要一步.

早期學者們曾嘗試為系統增加一個存儲模塊來保存以前的數據,并定期對之前所學的知識與新樣本的交叉數據進行回放來緩解災難性遺忘這一問題[3],這類方法一直延續至今[4-5].然而,基于存儲模塊連續學習方法的一個普遍缺點是它們需要顯式存儲舊任務信息,這將導致較大的工作內存需求,此外,在計算和存儲資源固定的情況下,應設計專門的機制保護和鞏固舊的知識不被新學習的知識所覆蓋.在此基礎上,Rusu等人[6-7]嘗試在新任務到來時,分配額外的資源來緩解災難性遺忘.然而,這種方法隨著任務數量的不斷增加,神經網絡架構將不斷增加,進而直接降低模型的可伸縮性.由于連續學習場景中不能預先知道任務數量和樣本大小,因此,在沒有對輸入訓練樣本的概率分布做出很強的假設情況下,預先定義足夠的存儲資源是不可避免的.在這種情況下,Richardson等人[8]提出了針對連續學習模型避免災難性遺忘的3個關鍵方面:1)為新知識分配額外的神經元;2)如果資源是固定的,則使用新舊知識的非重疊表示;3)把舊的知識疊加到新的知識上作為新的信息.在此基礎上,受神經科學理論的啟發,基于正則化策略、動態結構策略以及記憶策略等一系列連續學習的方法相繼被提出.

1.2 連續學習的定義

目前,連續學習的研究仍然處于發展階段,還沒有明確一致的定義,本文對有監督連續學習給出定義.

Fig. 1 Illustration of continual learning圖1 連續學習示意圖

如圖1所示,在連續學習過程中,智能體逐個對每個連續的非獨立均勻分布流數據示例進行學習,并且該智能體對每個示例只進行一次訪問.這種學習方式與動物學習過程更為接近.如果我們忽略各個任務的先后次序問題,單獨訓練每個任務,這將導致災難性遺忘,這也是連續學習一直以來所面臨的最大問題.因此,連續學習的本質,是通過各種手段高效地轉化和利用已經學過的知識來完成新任務的學習,并且能夠極大程度地降低遺忘帶來的問題.

1.3 連續學習場景

連續學習的問題是指模型能夠連續學習一系列任務,其中,在訓練期間,只有當前任務數據可用,并且假設任務間是有明顯的分界[9].近年來,對這一問題,研究者們已展開積極的研究,提出了許多緩解連續學習過程中災難性遺忘的方法.然而,由于各實驗方案的不同,因此直接對各方法進行比較評估顯然不可行.尤其是模型任務標識不可用等問題,這將直接影響模型實現的難易程度.因此,為了使評價更加標準化,并且也為了使實驗結果比較更具意義,在此首先對連續學習過程中的3個學習場景進行簡要概括[10],如表1所示:

Table 1 Three Continual Learning Scenarios表1 3種連續學習場景

在第1個學習場景中,模型總是被告知需要執行哪些任務,這也是最簡單的連續學習場景,將其稱為任務增量學習(task-incremental learning, Task-IL).近年來,提出的大部分連續學習方法在此場景都是適用的,且都具有較好的實驗效果,例如正則化方法和動態結構方法等.

在第2個學習場景中,通常將其稱之為域增量學習(domain-incremental learning, Domain-IL),任務標識不可用,模型只需要解決手頭的任務,模型也不需要推斷這是哪個任務.文獻[11]的實驗結果證明,基于情景記憶的方法在該場景下有較好的實驗結果,例如GER,DGR,RtF等,然而基于正則化方法,例如EWC,LwF,SI等,模型學習的準確率相對較差.

在第3個學習場景中,模型必須能夠解決到目前為止所看到的每個任務,并且還能夠推斷出它們所面臨的任務,將此場景稱為類增量學習(class-incremental learning, Class-IL),在該場景中包含一個很常見的實際問題,即增量地學習對象的新類.此場景是這3個場景中最為復雜的,也是最接近現實中的學習場景,近年來,針對此場景下的連續學習方法也相繼提出.例如,通過存儲之前任務數據的樣本,緩解系統遺忘方法:文獻[5]提出一種iCarl的連續學習方法,該方法通過在每個類中找出m個最具代表性的樣本,那么其平均特征空間將最接近類的整個特征空間,最后的分類任務是通過最接近樣本均值的分類器來完成的;文獻[12]介紹了對遺忘和不妥協量化的度量方法,進而提出一種稱為RWalk方法,完成類增量場景下的學習;文獻[13]提出一種動態網絡擴展機制,通過由所學習的二進制掩碼動態確定網絡所需增加的容量,以確保足夠的模型容量來適應不斷傳入的任務.

1.4 連續學習相關領域研究

連續學習相關的領域研究主要包括多任務學習和遷移學習.

1) 多任務學習.多任務學習的目的是能夠結合所有任務的共同知識,同時改進所有單個任務的學習性能,因此,多任務學習要求每個任務與其他任務共享模型參數,或每個任務有帶約束的模型參數,別的任務能夠給當前學習任務提供額外的訓練數據,以此來作為其他任務的正則化形式.也就是說,多任務學習的良好效果依賴于單個函數的共享參數化以及對多個損失同時進行估計和求平均.當同時訓練多個任務的共享層時,必須學習一個公共表示,從而有效地對每個任務進行交叉正則化,約束單個任務的模型.

對于神經網絡而言,Caruana[14]對多任務學習進行了詳細的研究,指出網絡的底層是共享的,而頂層是針對于特定任務的,多任務學習需要所有任務的數據,此外,多任務學習隨著時間的推移,不會積累任何知識,也就是說沒有持續學習的概念,這也是多任務學習的關鍵問題所在.

2) 遷移學習.遷移學習是使用源域來幫助另一個任務完成目標域學習的一種學習方式[15].它假設源域S中有大量的標記訓練數據,而目標域T只有很少或沒有標記的訓練數據,但有大量未標記的數據.遷移學習可以利用被標記的數據來幫助完成目標域中的學習.然而遷移學習與連續學習,主要有4個不同:①遷移學習不是連續的,它僅僅是使用了源域來幫助完成目標域學習;②遷移學習并沒有將過去所學的知識進行積累;③遷移學習是單向進行的,也就是說,遷移學習僅可使用源域來幫助完成目標域的學習,然而,連續學習是可以在任何方向上進行學習的;④遷移學習假設源域與目標域非常相似,且這種相似性是人為決定的,然而在連續學習中并沒有做出這樣一個很強的限制性假設.

2 連續學習的典型模型

2.1 無遺忘學習

Fig. 2 Illustration of learning without forgetting圖2 無遺忘學習方法示意圖

Li等人[16]在2017年提出了一種由卷積神經網絡(convolutional neural network, CNN)組成的無遺忘學習(learning without forgetting, LwF)方法,該方法將知識蒸餾(knowledge distillation, KD)[17]與細調方法[18]相結合,其中,利用知識蒸餾策略來避免對之前知識的遺忘.

假設給定一個CNN神經網絡,θshare為網絡的共享參數,θold是任務特定的參數.我們的目標是為一個新任務增加一個任務特定的參數θn,并且只利用新的數據和標簽(不使用已經存在任務的標簽數據)對特定的任務參數θn進行學習,使得它能夠對新的任務和之前的任務都有好的預測效果.無遺忘學習方法的示意圖如圖2所示:

(1)

2.2 彈性權重整合

Kirkpatrick等人[19]在2017年提出了一種結合監督學習和強化學習方法,即彈性權重整合(elastic weight consolidation, EWC)方法.在提出的模型目標函數中,包括了對新舊任務之間模型參數的懲罰項,從而有效緩解對先前學習的知識中與當下任務相關知識遺忘.彈性權重整合示意圖如圖3所示:

Fig. 3 Illustration of elastic weight consolidation圖3 彈性權重整合示意圖

具體而言,通過一個模型參數θ的后驗概率分布p(θ|D)對于任務訓練數據集D的模型參數θ進行建模.假設學習場景有2個獨立的任務A(DA)和任務B(DB),那么根據貝葉斯規則,模型參數θ的后驗概率的對數值表示為

logp(θ|D)=logp(DB|θ)+ logp(θ|DA)-logp(DB),

(2)

(3)

其中,LB(θ)為任務B的損失函數,λ表示新舊任務之間的相關性權衡參數,i表示參數的下標索引,F表示FIM.因此,這種方法需要對學習任務的模型參數進行對角線加權,該加權值與FIM的對角線元素值成比例.

2.3 梯度情景記憶

Lopez-Paz等人[20]在2017年提出梯度情景記憶模型(gradient episodic memory, GEM),該模型能夠實現知識正向遷移到先前任務的功能,以及將先前任務學習的知識正向地遷移到當前任務上.GEM模型最主要的特征是為每個任務k存儲一個情景記憶模型Mk來避免災難性遺忘,該模型不僅能夠最小化當前任務t的損失,而且可以將任務k

(4)

2.4 分析比較

LwF方法僅需要使用新任務的數據,對新任務進行優化,以提高新任務上模型預測的準確性,并保持神經網絡對以前任務的預測性能.這種方法類似于聯合訓練方法,但是該學習方法不使用舊任務的數據和標簽數據.實驗表明,LwF方法可以極大地提高算法的分類性能以及計算效率,簡化了學習過程,一旦學習了一個新的任務,訓練過的數據將不需要再被保存或者回放.然而,這種方法的缺點是學習的性能高度依賴于任務的相關性,并且單個任務的訓練時間隨著學習任務的個數線性增加.雖然蒸餾方法為多任務學習提供了一個潛在的解決方案,但它需要為每個學習任務持久存儲數據.另外需要注意,LwF方法不能被直接運用到強化學習場景中;EWC方法通過使用FIM對網絡參數進行約束,降低模型對以前所學知識的遺忘程度,此外,該方法在訓練過程中不增加任何計算負擔,但這是以計算FIM為代價的,需存儲FIM的值以及以前學習模型參數的副本;Lopez-Paz等人[20]的實驗結果表明GEM模型,相較于LwF和EWC方法具有較好的實驗效果,但是,該方法在訓練時,由于對于每個任務都需要進行情景記憶,因此需要更多的內存空間,所需的內存是EWC用于保存過去信息大小的2倍,與其他方法相比內存開銷較大,并且隨著學習任務數量的增加,訓練成本急劇增加,此外該方法也不能增量地對新的類別進行學習;同時提高性能也將加大計算負擔.

3 連續學習的關鍵問題

3.1 災難性遺忘

災難性遺忘是連續學習面臨的最大挑戰.避免災難性遺忘的問題,也就是說,在不斷完成有序到達的新任務學習的同時,也能夠在之前學習過的任務中表現得足夠好.

Venkatesan等人[21]在2017年設計了一種結合生成式模型和知識蒸餾技術的全新采樣策略,用其來產生來自過去學習任務概率分布上的“幻覺數據”,使模型在不訪問歷史數據的前提下,緩解連續學習過程中的災難性遺忘問題;文獻[22]從序列貝葉斯學習規則出發,假定數據序列到達時,用前一個任務模型參數的后驗概率分布作為新任務模型參數的先驗概率分布,為緩解連續學習過程中的災難性遺忘問題提供一種解決方案;文獻[19]提出的正則化方法在模型參數更新時增加約束,以此在保持已有知識的前提下,實現對新任務的學習,來緩解災難性遺忘等.

3.2 知識的正向遷移

連續學習過程中的知識正向遷移,即連續學習應該能夠在學習新任務的同時,利用以前的任務中學習到的知識來幫助新任務的學習,從而提高學習的效率和質量.

文獻[23]實驗證明簡單的細調可以實現知識的正向遷移;文獻[24]提出保留訓練好的模型基類信息編碼,可將其知識遷移到模型要學習的新類中;文獻[16]提出的LwF方法中,使用蒸餾損失來保存基類信息,進而使用保存的基類信息用于新數據的訓練;文獻[6]通過繼承之前任務所學的知識,完成對新任務的學習;LGM模型是基于學生-教師的雙重體系結構[25],教師的角色是保存過去的知識并幫助學生學習未來的知識,該模型通過優化一個增廣的ELBO目標函數很好地幫助完成師生知識的正向遷移;文獻[26]提出一種符號程序生成(symbolic program synthesis, SPS)的方法,來實現知識的正向遷移等.

3.3 知識的正向和反向遷移

知識在反向傳播過程中的正向遷移,即如何利用當前任務所學到的知識來幫助之前任務的學習是連續學習模型研究的重點之一.

在連續學習場景中提出的LwF模型或者具有更為復雜正則化項的EWC模型,雖然可以在一定程度上緩解災難性遺忘這一問題,然而卻無法實現利用當前任務知識來幫助之前任務的學習.Li等人[27]在2019年提出一種連續結構學習框架,當網絡進行結構搜索時,l層被選擇“重用”,即第l層能夠學習到一個與先前的某個任務非常相似的表示,這要求l層的2個學習任務之間存在語義相關,因此,在第l層上使用正則化項對模型進行相應的約束來幫助之前任務的學習,該模型的提出為解決利用當前任務知識來幫助之前任務的學習提供了思路;Lopez-Paz等人[20]提出梯度情景記憶模型,實現知識正向遷移到先前任務功能,進而提高模型對之前任務學習的學習能力.

Fig. 4 Venn graph of the approaches for continual learning圖4 連續學習方法Venn圖

3.4 可伸縮性能力

連續學習方法應該具有可伸縮性或擴展能力,也就是說,該方法既能完成小規模數據任務的訓練,也能夠可伸縮地實現大規模任務上的訓練學習,同時需要能夠保持足夠的能力來應付不斷增加的任務.

Schwarz等人[28]在2018年提出一種進步和壓縮框架(progress and compress framework, P&C)的連續學習模型,P&C模型是由知識庫(knowledge base)和活動列(active column)兩部分組成,這個由快速學習和整合組成的循環結構,使模型不需要結構的增長,也不需要訪問和存儲以前的任務或數據,也不需要特定的任務參數來完成對新任務的學習,此外,由于P&C模型使用了2個固定大小的列,所以可以擴展到大規模任務上;文獻[9]提出一種動態生成記憶模型(dynamic generative memory, DGM),在DGM模型中,利用一個生成對抗結構來替代之前模型的記憶模塊,來緩解災難性遺忘問題.其中,該模型中還結合一個動態網絡擴展機制,以確保有足夠的模型容量來適應不斷傳入的新任務;Yoon等人[29]在2018年提出了一種新型的面向終身連續學習的深度網絡結構,稱為動態可擴展網絡(dynamically expandable network, DEN),它可以在對一系列任務進行訓練的同時動態地確定其網絡容量,從而學習任務之間緊密重疊的知識共享結構,進而有效地對各任務間的共享和私有知識進行學習,不斷學習新任務的同時有效地緩解災難性遺忘.

4 連續學習方法研究進展

本節將具體介紹多個代表性的連續學習方法,本文將把目前的連續學習分為基于正則化方法、基于動態結構方法和基于情景記憶方法三大類,并闡明不同方法之間的關系,還比較了這些方法在減輕災難性遺忘性能的差異性.圖4是對近年來提出的一些流行的連續學習策略韋恩圖總結.

連續學習中各個子類的分類圖如圖5~7所示.圖中從模型引出到下一模型的箭頭,代表了下一模型是在上一模型的基礎上發展演變得來.

Fig. 5 Illustration of the classification for regularization model圖5 正則化模型分類示意圖

Fig. 6 Illustration of the classification for dynamic structural models圖6 動態結構模型分類示意圖

Fig. 7 Illustration of the classification for the memory replay and complementary learning methods圖7 基于記憶回放以及互補學習方法分類示意圖

4.1 正則化方法

在神經科學理論模型中,通過具有不同可塑性水平級聯狀態的觸突刺激,來保護鞏固學習的知識不被遺忘.受到這一機制的啟發,從計算系統的角度來看,可以通過對模型施加正則化約束來避免遺忘.通過正則化方法在模型權重更新時加強約束,以此在保持已有知識的前提下實現對新任務的學習,來緩解災難性遺忘這一問題.以下對近年來常見的基于正則化連續學習方法進行簡要概括總結.

4.1.1 動態的長期記憶網絡

在人工神經網絡中,當不同的任務被依次學習時,連續學習會受到干擾和遺忘.Furlanello等人[30]受到McClelland關于海馬開創性理論[31]啟發,在2016年提出一個新穎的基于知識蒸餾的主動長期記憶網絡模型(active long term memory network, A-LTM),它是一種順序多任務深度學習模型,能夠在獲取已知知識的同時,保持先前學習過的任務輸入和行為輸出之間的關聯,也就是不遺忘之前所學習的知識.

A-LTM模型主要由穩定的網絡模塊N(neo-cortex)、靈活的網絡模塊H(hippocampus)和雙重機制3部分組成.其中,模塊N用于保持對長期任務的記憶,當對新任務進行學習時,模塊H的權重首先由模塊N初始化,進而實現任務的學習,雙重機制則允許在不忽略新輸入的情況下保持模塊N的穩定性.

在模型訓練發展階段,首先對模塊N進行訓練,其中,模塊N在一個受控環境下進行訓練,也就是說,訓練樣例具有豐富的監督信息且服從一個穩定的概率分布.在進行訓練時,利用該包含監督信息的訓練樣例訓練網絡模型,導致模型收斂.當學習任務發生改變時,模塊H首先利用模塊N的知識信息直接初始化,進而可以有效地利用之前任務的知識.通過動態地對梯度下降過程施加約束,實現在新舊任務間的權衡,進而快速地達到局部最優,也即是說,模塊H具有快速適應新任務能力.

4.1.2 SI模型

為緩解連續學習過程中EWC算法對FIM的計算實現較為復雜的問題,Zenke等人[32]在2017年提出了一種在線計算權重重要性的方法,即訓練時根據各參數對損失貢獻的大小來動態地改變參數的權重,如果參數θi對損失的貢獻越大,則說明該參數越重要,該方法稱為SI(synaptic intellgence, SI)模型.權重的重要性計算為

(5)

4.1.3 AR1模型

4.1.4 Online-EWC模型

Schwarz等人[28]在2018年提出一種基于進步和壓縮框架(progress and compress framework, P&C)的Online-EWC模型.該模型是一種結構可伸縮的連續學習方法,主要由知識庫和活動列2部分組成,模型通過對這2部分進行交替優化,實現知識的正向遷移.這2部分可以被看作為網絡層的列,在監督學習的情況下用于預測類的概率,在強化學習的情況下用于產生策略或獎勵值(policies/values).圖8表示將P&C框架應用于強化學習時知識庫和活動列2個部分交替學習的過程.

Fig. 8 Illustration of P&C圖8 P&C學習過程示意圖

如圖8所示,在對新任務進行學習時,也就是在“progress”階段,首先固定知識庫(灰色背景)模塊,對活動列(網格背景)模塊參數進行優化,其中在該優化過程中沒有施加任何約束或者正則化項.值得注意的是,在該過程中可以通過一個面向知識庫的簡單分層適配器來實現對過去已學習到的知識(知識庫)進行重用.

在“compress”階段,模型需要進行知識蒸餾,也就是說,模型需要將新學習到的知識,正向地遷移到知識庫中.該階段的執行過程與經典的EWC相似,但是不同的是,該模型通過使用在線逼近算法來近似對角FIM,將克服EWC隨著任務個數的增加,計算量線性增加的問題.

4.1.5 R-EWC模型

Fig. 9 Illustration of R-EWC圖9 R-EWC示意圖

4.1.6 RWalk模型

連續學習模型在增量學習過程中,除了面臨遺忘問題之外,還容易遭受不妥協(intransigence)問題,即模型無法有效地對新任務學習的知識進行更新,Chaudhry等人[12]對此問題進行權衡,提出RWalk(Riemannian walk)模型.RWalk模型主要有3個關鍵的組成部分:1)基于KL-散度的條件似然正則化pθ(y|x),這是經典EWC模型[19]的改進版本,也稱其為EWC++;2)基于2個概率分布的KL散度大小實現對參數的重要性打分;3)記憶模塊,即從以前的任務中存儲一些有代表性的樣本策略.前2個組成部分緩解了模型災難性遺忘的問題,而第3個部分對模型不妥協問題,即模型無法有效地對新任務學習的知識進行更新處理.

首先,關于當前任務學習的參數,要求新的條件似然函數應該與之前任務所學習的條件似然函數盡可能相近,即兩者的KL散度盡可能小.為了實現該過程,在該模型中利用新舊任務分布的KL散度對新任務的條件似然分布pθ(y|x)引入正則化約束:

(6)

因此,給定模型對第k-1個任務學習后的參數,那么對第k個任務進行學習時的目標函數可以表示為

(7)

(8)

其中,m表示訓練迭代次數,α∈[0,1]是一個超參數.

因此,該模型利用對權重的重要性評分來實現對FIM的增強.該評分可以被定義為參數空間損失函數的改變率到每步的條件似然分布的距離,具體而言,對于參數從θi(m)~θi(m+1)的改變,把參數的重要性打分定義為損失的改變率對散度DKL(pθ(m)‖pθ(m+1))的影響.直觀而言,如果分布上一個小的改變可以對應于一個更優的損失改變,則說明該參數是更重要的.因此,該過程的權重重要性打分可以表述為

(9)

其中,Δθi(m)=θi(m+Δm)-θi(m),ε>0.

最后,考慮到模型的測試通常是在目前所學習的整個任務上進行測試,而當下的模型僅是完成第k個任務的訓練后的模型,因此為了進一步降低模型的困惑度,文獻[12]的作者選擇性地保存所有任務的部分代表性樣本進行再訓練.

RWalk模型最終的損失函數為

(10)

其中,Fθ∈P×P為參數θ的經驗費雪矩陣,(θi)表示從第1個任務訓練迭代m0到最后的任務訓練迭代mk-1的分數積累.由于分數是隨著時間累積的,正則化將變得越來越嚴格.為了緩解這種情況,并使任務能夠進行連續學習,在每項任務訓練完成后對分數進行平均:

(11)

4.1.7 無記憶學習

Dhar等人[36]提出一種基于注意力機制映射的無記憶學習方法(learning without memorizing, LwM),該方法通過約束教師-學生模型之間的差異來幫助模型去增量地學習新的類別,此外,該模型對新類進行學習時不需要任何之前的信息.與之前研究方法不同的是,LwM模型考慮了教師-學生模型的梯度流信息,并利用梯度流信息生成注意力機制映射來有效地提高模型的分類準確性.在進行任務t的學習時,基于注意力機制的信息知識保存項LAD可以有效防止學生模型與教師模型偏離太多.在學生模型進行學習時,為了有效利用教師模型中的“暗知識”,施加蒸餾損失LD懲罰項.LwM模型示意圖如圖10所示:

Fig. 10 Illustration of LwM圖10 LwM示意圖

LwM模型的損失函數為

LLwM=LC+βLD+γLAD,

(12)

其中,LAD表示基于注意力機制映射的信息保存懲罰項,LD表示蒸餾損失,LC表示分類損失,β和γ分別表示LD和LAD的權重因子.

4.1.8 SLNID模型

Aljundi等人[37]研究了利用具有固定容量的網絡進行序列學習的問題,在連續學習的背景下研究發現,相較于之前的網絡參數層,在表示層施加稀疏性約束,將更有利于序列任務的學習.因此,受哺乳動物大腦側抑制作用的啟發,提出了一種新的基于正則化手段,即通過局部神經抑制和折扣的稀疏編碼(sparse coding through local neural inhibition and discounting, SLNID),它通過抑制神經元來促進特征稀疏.施加該正則化的主要目的是對相同情況下的活躍神經元進行懲罰,進而產生一個更為稀疏和具有較低相關性的特征表示.同時考慮到,對于復雜任務的學習,一般在同一層需要多個活躍神經元來學習一個更強的特征表示,因此,只對局部的神經元進行懲罰.該模型通過局部神經抑制為未來的任務留出學習能力,進而有效地學習新任務,同時考慮到神經元的重要性來避免忘記以前的任務.

為了避免災難性遺忘,基于重要性權重的方法,例如EWC或MAS方法,通過在網絡中對每個參數θk引入重要權重Ωk,雖然這些方法在如何估計重要參數上有所不同,但是在學習新任務Tn時,所有這些方法都使用l2懲罰項對重要參數的變化進行懲罰,在局部神經抑制和折扣的稀疏編碼中,通過增加一個額外的正則項RSSL,在每層l的激活中對隱特征表示施加稀疏性約束.其優化的目標函數為

(13)

RSSLRSLNID(Hl)=

(14)

4.1.9 在線拉普拉斯近似

Ritter等人[38]為了緩解災難性遺忘,從貝葉斯理論的角度出發,提出一種Kronecker因子在線拉普拉斯近似(online Laplace approximation, Online-LA)方法.該方法是基于貝葉斯在線學習框架,在該框架中使用高斯函數遞歸逼近每個任務的后驗函數,從而產生有關權重變化的二次懲罰項.拉普拉斯近似要求計算每個模式周圍的海森矩陣,然而該種計算方式通常計算成本較高.因此,為了使該方法具有良好的伸縮性,引入塊對角Kronecker因子逼近曲率,將該復雜的計算問題進行了轉化.神經網絡模型最大后驗估計MAP形式為

(15)

其中,p(D|θ)是數據的似然函數,p(θ)代表先驗信息.MAP求解問題可以用損失函數加正則化項目標函數得到.例如,假設參數為零均值高斯先驗的MAP問題,對應于交叉熵損失函數加模型參數l2范數正則化項,使用標準的基于梯度的優化器可以很容易地找到該目標函數的局部最優形式.在某一模態附近,利用二階泰勒展開式對后驗函數進行局部逼近,得到以MAP參數為均值、負對數后驗函數的Hessian為精度的正態分布,MacKay[39]在神經網絡中使用拉普拉斯近似技術.因此,在Online-LA算法中,使用2個迭代步驟與貝葉斯在線學習類似,對于用高斯函數遞歸逼近每個任務的后驗函數,進而可求得相應的均值和精度矩陣.

4.1.10 分離變分推理

變分推理(variational inference, VI)已成為許多現代概率模型擬合的常用方法,因此,Bui等人[40]對此進行研究,提出一種分離變分推理算法(par-titioned variational inference, PVI),文獻[40]中的實驗結果證明,該方法也可以很好地應用在連續學習的場景中,在該場景下新數據以非獨立同分布的方式到達,任務可能隨著時間發生變化,并且可能出現全新的任務.在這種情況下,PVI框架既可以利用局部自由能不動點更新方法(local free-energy fix point update)來更新后驗分布q(θ),而且它也可以通過選擇性重新訪問舊數據來降低災難性遺忘.其模型的更新步驟如圖11所示:

Fig. 11 PVI algorithm step圖11 PVI算法步驟

4.1.11 分析比較

對于A-LTM模型在沒有外部監督的情況下,通過知識蒸餾和回放機制,在接觸了數百萬個新例子之后,仍然能夠保持之前對象的識別能力.然而,A-LTM模型僅使用了一個小的數據集,例如,PASCAL,進行舊任務的訓練,而使用較大數據集進行新任務的學習,例如ImageNet,這將降低模型的準確性;SI是在EWC基礎上,進行在線計算權重重要性的方法,計算Fk所需的全部數據在SGD期間是可用,不需要額外的計算,有效地降低了計算成本;AR1模型是對基于結構和正則化2種策略相結合,實驗結果表明,將產生更低的遺忘;Online-EWC模型是通過知識庫和活動列2部分來完成對連續任務的學習,這個由進步學習和整合學習組成的循環結構,使得模型不需要框架的增長,也不需要訪問和存儲以前的任務或數據,也不需要特定的任務參數來完成對新任務的學習,此外,由于Online-EWC模型使用了2個固定大小的列,所以可以擴展到大量任務.實驗驗證可得,該模型在最小化遺忘的同時實現知識的正向遷移,并且也可以直接應用到強化學習任務;R-EWC通過對參數空間的因式旋轉,更好地降低遺忘,然而,該方法為了實現對神經網絡參數空間進行旋轉,需要增加2個額外的卷積層,這將直接導致網絡容量的增加;RWalk相較于之前的基準模型具有更高的準確性,并且對于模型的遺忘和不妥協上有較好的權衡,此外,在訓練過程中,RWalk的空間復雜度是O(P),與任務的數量無關;LwM模型對新類進行學習時不需要任何之前的信息,降低內存空間;Online-LA從貝葉斯角度出發來降低遺忘,此外,模型也具有一定的伸縮性.

總之,正則化方法提供了一種在特定條件下減輕災難性遺忘的方法.然而,該方法包含了保護鞏固知識的額外損失項,這些損失項在資源有限的情況下,可能導致對舊新任務性能的權衡問題.

4.2 動態結構

基于動態結構的連續學習方法是通過動態地對網絡結構進行調整以適應不斷變化的環境,該訓練方法可以選擇性地訓練網絡,并在必要時擴展網絡以適應新任務的學習.例如,使用更多的神經元或網絡層進行再訓練,從而有效提取新任務信息.以下為針對近年來常見動態結構的連續學習方法所進行的概括總結.

4.2.1 重新初始化復制權重

Lomonaco等人[34]在2017年提出一種使用重新初始化復制權重(copy weights with re-init, CWR)的連續學習方法,該方法可以作為一種基準技術來實現對連續任務的識別.

為了不干擾對不同任務間權重的學習,CWR方法為輸出分類層設定了2組權重:θcw是用于進行長期記憶的穩定權重,θtw是對當前任務進行快速學習的臨時權重.其中,θcw在第1個任務進行訓練前初始化為0;而θtw在每個任務訓練前進行隨機重新初始化,例如高斯分布抽樣初始化.在多任務連續學習場景下,由于不同任務間存在一定差異,所以在每個任務訓練結束時,θtw中對應于當前任務的權重將會復制到θcw中.換句話說,θcw可以被看作是一種進行長期記憶學習的機制,而θtw則是一種短期工作記憶機制,用來學習新任務知識而不遺忘之前所學習的任務知識.

此外,為了避免對神經網絡較淺層連接邊的權值矩陣和偏置向量改變過于頻繁,在第1個任務訓練完成之后,所有神經網絡淺層級的權重將會被凍結.

4.2.2 CWR+方法

Maltoni等人[33]2019年在CWR方法的基礎上進行改進,提出一種CWR+的方法,該方法主要在CWR基礎上引入了均值偏移(mean-shift)和零初始化(zero initialization)技術.均值偏移是對每批權重wi進行自動補償,即用在每個任務中學習到的權重減去在所有任務上的全局平均值實現歸一化,這樣將不再需要對網絡權重進行重新歸一化,實驗發現,相較于其他形式的歸一化,該方法可以取得較好的實驗效果.此外,CWR+還引入了零初始化過程,即用0對權重進行初始化替代原來典型的高斯分布抽樣初始化或Xavier初始化.實驗結果證明,在連續學習的情況下,引入這些精細化的歸一化和初始化方法,即使是像零初始化這樣簡單方法,也能在一定程度上提高實驗效果.

4.2.3 漸進式網絡

Rusu等人[6]考慮通過分配具有固定容量的新子網絡來防止對已學習知識的遺忘,這種通過分配具有固定容量的新子網來擴展模型的結構,稱為漸進式網絡方法(progressive networks, PN),該方法保留了一個預先訓練的模型,也就是說,該模型為每個學習任務t都對應一個子模型.給定現有的T個任務時,當面對新的任務t+1時,模型將直接創建一個新的神經網絡并與學習的現有任務的模型進行橫向連接.為避免模型災難性的遺忘,當對新的任務t+1的參數θt+1進行學習時,將保持已經存在的任務t的參數θt不變.

實驗表明,在各種各樣的強化學習任務上都取得了良好的效果,優于常見的基準方法.直觀地說,這種方法可以防止災難性的遺忘,但是會導致體系結構的復雜性隨著學習任務的數量增加而線性增加.

4.2.4 動態擴展網絡

Yoon等人[29]在2018年提出了一種新的面向終身連續學習任務的深度網絡模型,稱為動態可擴展網絡(dynamically expandable network, DEN),它可以在對一系列任務進行訓練的同時動態地確定其網絡容量,從而學習任務之間共享的壓縮重疊知識.連續學習最主要的特征是,在對當前的任務t進行訓練時,前t-1個任務上所有的訓練樣例是不可用的,因此,在對任務t進行學習時,模型參數wt的求解將轉化為最優化問題:

(16)

對目標函數的求解過程,首先,DEN模型通過選擇性再訓練,以在線的方式對訓練樣例進行高效訓練;新的任務到達時,當已學的特征不能準確地表示新任務時,網絡模型將進行動態擴展,換句話說,模型將引進額外的必要神經元來對新的任務特征進行表示.相較于之前的網絡擴展模型,該模型能夠動態地對網絡容量進行擴展,進而使整個網絡擁有恰當合適的神經元數量,完成對不同任務的學習.

4.2.5 面向任務的硬注意力機制

通常情況下,任務的定義或者任務描述對網絡學習是至關重要的.如果對于2個任務訓練數據是相同的,那么一個重要的不同就是任務的描述.例如,2個同樣都是貓和狗的訓練數據集,第1個任務是區分貓和狗,第2個任務是區分毛的顏色.

Fig. 12 Illustration of the forward-back propagation for HAT圖12 HAT模型前向-反向傳播示意圖

(17)

(18)

其中,下標i,j分別表示第l層的輸入和第l-1層的輸出.通過式(18)創建的注意力機制模型,進而來避免對之前任務的重要參數的更新.這種方法在某種程度上與PathNet方法[45]類似,都是在不同層之間動態地創建路徑或損毀路徑達到不遺忘之前任務的知識,然而該方法的獨特之處在于,HAT不是基于模塊而是基于單個神經元.因此并不需要事先分配一個模塊大小或者為每個任務設置最大模塊容量.

4.2.6 連續的結構學習框架模型

盡管在連續學習過程中,不同的任務具有一定的相關性,然而,對于所有任務共享一個網絡結構,往往不是最優的.Li等人[27]在2019年提出一個連續的學習框架模型(a continual learning framework, ACLF),該模型主要是由網絡結構的優化和參數優化2部分組成,通過這2個部分能夠顯式地分離特定任務模型結構和模型參數的學習.該模型的損失函數為

(19)

其中,s(θ)表示任務t的網絡結構,式(19)中等號右邊的第1項表示單個任務的損失;β>0和λ≥0是正則化因子;Rshare和Rsplit分別表示任務共享網絡結構參數的正則化項和特定分離模型參數的正則化項.在訓練過程中,首先使用一個網絡搜索框架為每個連續任務找到當前的最優結構,從而進行當前任務的學習,當模型的結構確定以后,使用基于梯度的方法完成對模型的參數學習.實驗結果發現,相比于其他相同規模的網絡框架模型,該模型將顯著地降低災難性遺忘問題,但是算法復雜性很高.

4.2.7 分析比較

生物學習機制既不需要存儲流數據,也不需要以累積的方式學習知識,然而,生物卻能有效地處理增量學習任務,其中不斷學習和鞏固新的知識,只有無用的知識被遺忘.CWR方法的提出實現了對連續學習對象的識別,該方法作為一種基準方法為后續的研究開辟了道路.然而,CWR和CWR+方法的一個不足是:在每一個任務訓練完后,為了避免對所學知識的遺忘,部分權重將被凍結,因此無法實現知識的反向傳播,在一定程度上限制模型對新知識的學習能力;直觀地說,漸進網絡框架方法可以防止災難性的遺忘,但是會導致體系結構的復雜性隨著學習任務的數量增加而線性增加;DEN通過顯式地挖掘任務間的關聯性,針對舊任務訓練網絡進行部分再訓練,同時在需要時增加神經元個數以提高對新任務的解釋能力,有效防止語義漂移;HAT方法與PathNet[45]類似,當學習新任務時,通過動態地創建和刪除跨層路徑來保存新學的知識.然而,與PathNet不同,HAT中的路徑不是基于模塊的,而是在單個神經元的,因此,不需要預先分配模塊的大小,也不需要設置每個任務的最大神經元數量.當給定一個網絡框架后,HAT就可以學習并自動對單個神經元路徑進行選擇,進而影響單層的權重;為避免隨著學習任務的數量增加模型結構線性增加問題,ACLF方法使用一個網絡搜索框架為每個連續任務找到當前的最優結構,從而進行當前任務的學習,當模型的結構確定以后,使用基于梯度的方法完成對模型的參數學習,在相同結構容量的情況下,模型將顯著降低遺忘問題.然而,基于動態結構的方法,隨著任務數量的不斷增加,其模型結構也將不斷變大,因此,無法應用到大規模數據,這也將是該模型應用于實際的重要限制.

4.3 記憶回放以及互補學習系統

在生物學上,互補學習系統(complementary lear-ning systems, CLS)[46]主要包括海馬體和新皮質系統2部分,其中,海馬體表現出短期的適應性,并允許快速學習新知識,而這些新知識又會隨著時間的推移被放回到新皮質系統,以保持長期記憶.更具體地說,海馬體學習過程的主要特點是能夠進行快速學習,同時最小化知識間的干擾.相反,新大腦皮層的特點是學習速度慢,并建立了學習知識間的壓縮重疊表示.因此,海馬體和新皮質系統功能相互作用對于完成環境規律和情景記憶的學習至關重要.

如圖13所示,CLS包括用于快速學習情景信息的海馬體和用于緩慢學習結構化知識的新皮質2部分,即海馬體通常與近期記憶的即時回憶有關,例如短期記憶系統,新皮層通常與保存和回憶遙遠的記憶有關,例如長期記憶.CLS理論為記憶鞏固和檢索建模計算框架提供了重要的研究基礎.

Fig. 13 CLS theory圖13 CLS理論

受該理論的啟發,基于雙記憶系統的神經網絡模型的出現在一定程度上能夠有效緩解連續學習過程中的遺忘問題,因此,受此生物學習系統的啟發,基于情景記憶和生成模型等一系列連續學習模型相繼提出,下文將對該類模型進行詳細闡述.

4.3.1 BIIL模型

Gepperth等人[4]受生物學習過程啟發,在2015年提出了一種新的仿生增量學習框架模型(a bio-inspired incremental learning architecture, BIIL),當學習過程中數據具有非常高的維數(>1 000)時,仍然能有效地保持資源利用效率,同時在該模型中還增加一個短期記憶(STM)系統來提高模型性能,使其能夠在連續任務學習的場景下,保持良好的分類準確性.具體而言,該模型研究了如何在不進行再訓練的情況下將一個新的任務添加到一個經過訓練的體系結構中,同時緩解眾所周知的與此類場景相關的遺忘效應問題.該結構的核心是通過一種自組織的方法來對任務空間描述,進而在2維平面上近似估計該任務空間中的鄰里關系.通過這種近似方法,即使在非常高維的情況下,也允許通過有效的局部更新規則來進行增量學習.此外,增加的短期記憶系統還可以通過在特定的“睡眠”階段對先前存儲的樣本進行回放來防止遺忘.該模型的結構圖如圖14所示:

Fig. 14 Illustration of BIIL圖14 BIIL模型示意圖

如圖14所示,在該模型中使用了一個3層的神經網絡結構完成對連續任務的學習.其中,使用改進的自組織映射(self-organizing map, SOM)算法來訓練網絡隱層的拓撲組織原型,通過線性回歸完成從隱層到輸出層的決策和學習;此外,該結構中引入調制機制來控制和限制隱層和輸出層的學習.

4.3.2 增加的雙記憶學習結構(GDM)

Fig. 15 Illustration of GDM圖15 GDM模型示意圖

Parisi等人[7]在2018年提出了一種適用于連續學習場景的雙記憶自組織體系結構,將該方法稱為增量的雙記憶學習方法(growing dual-memory learning, GDM),該模型結構主要包括一個深度卷積特征提取模塊和2個分層排列的遞歸自組織網絡,模型原理示意圖如圖15所示:

如圖15所示,2個遞歸網絡是對Gamma-GWR(Gamma grow-when-required)模型[47]基礎上的擴展,該網絡可以對模型按任務順序輸入動態地創建新的神經元和連接.不斷增加的情景記憶(growing episodic memory, G-EM)以無監督的方式從任務中學習而來,其網絡結構也將根據網絡預測輸入的能力來進行相應調節.相反,不斷增加的語義記憶模塊(growing semantic memory, G-SM)接收來自G-EM的神經激活信號,并使用與該任務相關的信號來調節神經元并進行神經元的更新,因此,該模型通過情景嵌入的方式形成一種更為壓縮緊湊的知識統計表示.同時,情景記憶也將周期性地進行記憶回放,實現在沒有外部輸入情況下進行知識的鞏固,防止對之前任務所學知識的遺忘.

4.3.3 LGM模型

Ramapuram等人[25]在2017年提出一種終生學習的生成模型(lifelong generative modeling, LGM),在該模型中通過一個學生-教師變分自編碼器(student-teacher variational autoencoder, STVA)[48],不斷地將新學習到的分布合并到所學的模型中,而不需要保留過去的數據或者過去的模型結構,實現模型對連續任務分布的學習.

同時,受貝葉斯更新規則的啟發,在該模型中引入一種新的跨模型正則化(cross-model regularizer)方法,使得學生模型可以有效地利用教師模型的信息,此外,正則化器的使用還可以減少對分布序列學習過程中的災難性遺忘或干擾.LGM模型是一個基于學生-教師模型的雙重體系結構.其中,教師的角色是保存以前所學知識的分布記憶,并將這些知識傳遞給學生;學生的角色是有效利用從老師那里獲得的知識,進而有效地學習新輸入數據的分布.因此,基于學生-教師模型的雙重體系結構通過對教師模型和學生模型的聯合優化訓練,完成在學習新知識的同時不遺忘之前的知識.

4.3.4 CCL-GM模型

Lavda等人[49]在2018年提出一種基于生成模型的連續分類學習(continual classification learning using generative models, CCL-GM)方法,該方法是在LGM模型的基礎上給目標函數增加額外的KL-離差項,來保存之前所有任務的后驗表示,以便加快模型的訓練,加快來自關于教師模型中的隱表示和生成數據的負信息增益正則化項的收斂性.

4.3.5 平均梯度情景記憶

為了減輕經典GEM模型的計算負擔,Chaudhry等人[50]在2018年提出了平均梯度情景記憶模型(averaged gradient episodic memory, A-GEM).GEM模型的主要特征是確保在每個訓練步驟中,每一個先前任務的損失不會增加,而在A-GEM模型中,為了降低計算復雜性,試圖確保在每個訓練步驟中,相對于先前任務的平均記憶損失不會增加,有效降低計算成本.在學習任務t時,A-GEM的目標函數為

(20)

式(20)優化問題可轉化為

(21)

其中,gref表示之前所有記憶任務參數的梯度,從情景記憶中隨機抽取一批樣本計算平均梯度.換句話說,A-GEM用一個約束來替代GEM中的t-1個約束,gref表示從情景記憶的隨機子集計算出前一個任務梯度的平均值.因此,式(21)的約束優化問題可以更快地求解,更新規則為

(22)

4.3.6 情景記憶回放

4.3.7 嵌入對齊的EMR

在嵌入對齊的情景記憶回放方法中(embedding alignment-episodic memory replay, EA-EMR),對于每一個任務k,除了需要在記憶M中存儲原來的訓練樣本(x(k),y(k))之外,還需要存儲它的嵌入表示信息.模型在對一個新的任務進行訓練之后,模型參數將發生改變,因此,對于相同輸入(x(k),y(k)),嵌入表示包含的信息也將不同.直觀地說,連續學習算法應該允許這樣的參數變化,但要確保這些變化不會過多改變之前任務所學習的嵌入空間.

EA-EMR算法的提出是為了防止在嵌入空間上發生的過大失真,EA-EMR的想法為:如果在不同步驟中,嵌入空間并沒有太大失真,那么應該存在一個足夠簡單的變換a,例如線性變換,可以將新學習的嵌入空間變換為原始嵌入空間,而不會對之前任務存儲的嵌入空間造成太大變化.因此,建議在原始嵌入的基礎上增加一個變換a,并自動學習基本模型f和嵌入空間的變換a.具體而言,在第k個任務中,首先學習模型f(k-1)和變換a(k-1),f(k-1)和a(k-1)是由之前的k-1個任務訓練而來.進而,學習基本模型f和變換a,以此來優化模型處理新任務和存儲樣例的性能,而不會對前面的嵌入空間造成太大的影響.在關系檢測模型中加入嵌入對齊的方式如圖16所示.

Fig. 16 Add the alignment model to the basic relationship detection model圖16 基本關系檢測模型上添加對齊模型

圖16顯示了如何在一個基本的關系檢測模型上添加對齊模型的過程,在本例中為線性模型.其中,使用2個BiLSTMs模塊[52]來對文本和關系進行編碼,最后計算其嵌入對齊之間的余弦相似性進行打分.

最終,完成對模型的學習過程.通過最小化如式(23)所示的目標函數:

(23)

式(23)主要由2部分組成,前半部分是優化基本模型f,在該步驟主要學習新任務,且不會對存儲的樣例造成性能下降.后半部分是優化變換a,保持當前任務的嵌入空間,恢復之前存儲的樣本時的嵌入空間.

4.3.8 元經驗回放

Riemer等人[52]嘗試通過梯度對齊來權衡連續問題中知識的遷移(transform)和干擾(inter-ference)問題,因此提出一種元經驗回放方法(meta-experience replay, MER).該方法與之前的連續學習方法最主要的一個不同是,在該模型中不僅考慮當前知識對之前知識的遷移,而且考慮到當前知識動態地前向遷移過程.該算法將經驗回放與基于優化的元學習方法[53]相結合,使得該方法保持當前任務學習的參數對未來學習知識的干擾降到最小,而基于未來梯度的知識對當前任務知識的遷移更有可能發生,充分考慮了在連續任務學習場景中的遷移-干擾的平衡問題.

對于連續學習問題中遷移-干擾的平衡,即考慮在時間上的正向和逆向的權重共享和穩定性-可塑性平衡.在MER中,通過利用一個經驗回放模塊增強在線學習,實現了對到目前為止看到的所有樣例的平穩分布的近似優化.同時,對于損失梯度計算困難的問題,使用元學習算法間接地將目標近似為一階泰勒展開來解決這個問題.在線學習算法與元學習算法的結合,有效地實現知識的前向遷移.

4.3.9 小情景記憶回放

Chaudhry等人[54]在MER模型的基礎上進行研究,提出一種新的記憶回放方法,稱其為小情景記憶回放(MER-Tiny),相較于之前的在特定時間進行記憶回放,聯合訓練當前任務中的樣例和存儲在記憶模塊中的樣例將獲得更優的性能.此外,實驗驗證表明,對小情景記憶的重復學習并不會降低模型對過去任務的泛化能力.對于記憶內存的寫入方法,實驗驗證發現,水庫抽樣(reservoir sampling)可以取得較優的效果,但是該方法往往需要較大的內存開銷.然而,在內存非常小的情況下,犧牲隨機性保證所有類平衡,即為每個任務存儲特定個數的記憶樣例.因此,新的小記憶回放方法可以實現對兩者的權衡,提高模型性能.

與最簡單的基準模型相比,MER-Tiny模型主要有2個修改:1)它有一個小情景記憶,且每一步都會更新;2)通過將當前任務中的實際小批次記憶與從內存中隨機抽取的小批次記憶疊加起來,以實現梯度下降的參數更新.實驗結果表明:這2個簡單的修改將使模型具有了更好的泛化性能,并在很大程度上降低了災難性遺忘問題.

4.3.10 端到端增量學習

傳統的神經網絡體系結構要用到整個數據集,即之前類和新類的所有樣本來更新模型,然而隨著類的數量不斷增加,該模型將無法連續學習.Castro等人[55]在此研究基礎上,提出一種增量的深度神經網絡學習方法,稱為端到端增量學習(end-to-end incremental learning),即只使用新任務數據和舊任務樣例對應的小樣本集來解決該問題.

端到端增量學習方法使用交叉熵和蒸餾損失來訓練深度網絡,使用蒸餾損失來保留從舊類中獲得的知識,使用交叉熵作為損失函數來完成對新類的學習,由于該方法具有較好的通用性,所以網絡的選取可以是基于任何為分類而設計的深層模型結構.增量式訓練的整個框架是通過端到端的方式實現的,也就是,聯合學習數據表示和分類器.其典型的帶有分類層和分類損失的框架如圖17所示.

Fig. 17 An end-to-end learning framework with classification layers and classification losses圖17 帶有分類層和分類損失的端到端學習框架

在訓練階段,通過交叉熵蒸餾損失函數的對數計算梯度,更新網絡的權值.交叉蒸餾損失函數的定義為

(24)

4.3.11 分析比較

4.4 總 結

目前為緩解連續學習過程中的災難性遺忘問題,主要集中在引入正則化策略、動態結構策略和基于情景記憶策略這3個方向進行研究.正則化方法在模型更新時,通過對權重進行約束,實現在保持已有知識的前提下,完成對新任務的學習,從而緩解災難性遺忘這一問題,此外,這類方法通常不需要保存任何以前的數據,只需要對每個任務進行一次訓練.然而,該類方法克服災難性遺忘的能力是有限的,例如在類增量學習(class-incremental learning, Class-IL)場景下性能不佳,此外,隨著任務數目的不斷增加,對過去任務進行正則化處理,可能導致特征漂移.動態地改變模型結構以便在不干擾之前任務的學習知識的情況下學習新的任務,該類方法也可以成功地緩解災難性遺忘這一問題,然而,該類方法不能從任務之間的正向遷移中獲益,另外模型的大小隨著觀察到的任務數量的增加而急劇增長,這使得它在實際問題中往往不可行.基于情景記憶的方法,通過保存一些以前任務的樣例進行記憶回放來緩解對之前所學習知識的遺忘,該類方法在減輕災難性遺忘方面顯示出了巨大優勢,然而,計算成本卻隨著先前任務的數量增加而快速增長,并且該方法需要保存之前樣例,不利于數據安全保護.在基于情景記憶的方法中,為替代存儲所學任務的樣例數據,提出使用深層生成模型來記憶以前見過的數據分布,然而該類方法往往需要從頭開始重新訓練生成模型,訓練效率低,此外,在每次生成以前任務的新的真實樣本時,還極易造成“語義漂移”,且隨著時間推移,模型訓練準確性逐漸下降.

5 實驗數據集與評價準則

本節將對近年來連續學習實驗分析過程中常用的實驗數據集以及公認的評價準則進行詳細介紹.

5.1 實驗數據集介紹

表2和表3對連續學習過程中常用的分類數據集以及其主要特征進行總結.MNIST數據集[57]是對0~9這10個數字進行手寫樣本的數據集,其中每個樣本的輸入是一個圖像,標簽是圖像所代表的數字.為了在該數據集上進行連續學習問題的評估,提出3種用于連續學習場景下的MNIST數據集:1)排列的MNIST數據集[19],該數據集是參考某個固定的排列,通過重新排列像素來創建任務,即通過K個不同的排列來生成K個不同的任務;2)旋轉的MNIST數據集,其中每個任務都是通過對數字旋轉固定的角度創建的,即選擇K個角度來創建K個任務;3)分離的MNIST數據集,將原始的MNIST數據集分成5個訓練任務得到分離手寫字體數據集.此外,其他常見的連續學習數據集包括:Fashion-MNIST數據集由相同大小的灰度圖像組成[58];Traffic Signs數據集包含交通標志圖像,其中使用來自Udacity自動駕駛汽車github存儲庫的數據集[59];Bulatov等人[60]從公共可用字體中提取出的字形而創建的與MNIST類似的Not MNIST數據集;Netzer等人[61]在谷歌街景圖像中截取的房號創建了SVHN數據集;CIFAR10數據集和CIFAR100數據集[62]是由32×32像素的彩色圖像組成.

Table 2 Introduction of Distributions for Seven Classified Datasets表2 7種分類數據集屬性介紹

Table 3 Introduction of Distributions for Six Object Recognition Datasets表3 6種對象識別數據集屬性介紹

iCubWorld變換數據集(iCubWorld transfor-mation, iCub-T)[63]和CORe50數據集是連續學習對象識別實驗中最復雜,也是較為常用的2個數據集.這2個數據集是專為連續學習圖像而設計,是從某個人作為移動對象的一系列幀中生成的一系列圖像,例如,CORe50數據集包括在不同的條件下同一對象的多個視圖(不同的背景、對象的姿態和遮擋程度)的10個類別內的50個對象.數據集收集了11個具有不同背景和亮度的圖像,其中,對于在每個場景下的每個對象使用Kinect 2.0傳感器[64]錄制一個15 s的視頻(20 Hz).最終數據集是包含164 866張128×128 RGB-D的11個場景50個對象的圖像.因此,這2個數據集是評估連續學習的理想數據集,因為當學習算法識別該對象時,該流數據不是IID形式,因此,很好地滿足連續學習過程的要求.Wang等人[65]提出一個以自我為中心、手工的以及多圖像的數據集(egocentric,manual,multi-image, EMMI),EMMI中的圖像來自可穿戴式攝像機記錄的常見家用物品和玩具被手動操作以進行結構化轉換,如旋轉和平移等,該數據集收集的目的是,視覺體驗的外觀相關和分布特性如何影響學習的結果等.表3對常見的6個用于對象識別的數據集的主要特征進行總結[66-68].

5.2 評價準則

連續學習算法可以從一系列連續的流數據中不斷地學習,進而實現對模型增量式更新.對于連續學習算法的性能可以從多方面進行評估,目前大多集中于模型學習知識的準確性和對之前所學知識的遺忘程度2方面[41].Lopez-Paz等人[20]認為連續學習問題常涉及知識的正向以及反向遷移能力,因此,需要對模型的知識遷移性能進行評估;Díaz-Rodríguez等人[69]考慮到連續學習算法往往還涉及模型框架的大小、內存記憶的占用以及計算效率等問題,因此提出一系列更為全面的評價指標,從多個方面對連續學習算法性能進行評估.以下從模型學習的準確性、知識的遺忘、反向遷移、正向遷移、模型規模度量和計算效率這6個方面對近年來模型的學習性能評估進行總結.

5.2.1 準確性(accuracy)

(25)

Díaz-Rodríguez等人[69]給定訓練-測試樣本精度矩陣R∈T×T,其中包含每個條目Ri,j通過觀察任務i的最后一個樣本得到的模型在任務j上的測試分類精度[20].模型的準確性是通過考慮矩陣R的對角元素,對實現對訓練集Di和測試集Dj的平均精度進行考慮.準確性fA為

(26)

文獻[54]最初定義該準則是為了在最后一個任務結束時評估模型的性能而定義的,而在文獻[69]中,該準確性準則應該考慮到模型在每一時間點(every timestep)的性能的準確性指標,這樣能夠更好地考慮連續學習模型的動態性能.

5.2.2 遺忘

Joan等人[41]引入遺忘率來獲得對模型遺忘量的測量.首先,對任務進行權衡并統一隨機化它們的順序,在訓練任務t之后計算所有的測試任務集τ≤t的精度.

因此,對于分類問題,當模型已經被增量訓練至任務k(j≤k)之后,定義對于第j個任務的遺忘模型的量化形式為

(27)

(28)

5.2.3 反向遷移

反向遷移能力(backward transfer, BWT)是衡量模型學習了一個新的任務后對先前任務的影響.當需要在多任務或流數據背景下進行學習時,往往就需要模型對其反向遷移性能的評估.模型對之前任務學習能力的提高和不降低的性能對連續學習是至關重要,因此,在其學習的整個過程中都應該被評估.fBWT定義在學習了i之后,在同一測試集的最后一個任務結束時,對任務j(j

(29)

因為fBWT最初的取值規則是為后向遷移取正值,為災難性遺忘取負值,因此,為了將fBWT映射到區間[0,1],同時更好地區分這2個不同語義的概念.

5.2.4 正向遷移

知識正向遷移(forward transfer, FWT)是衡量學習任務對未來任務的影響.根據之前Lopez-Paz等人[20]對準確性的度量準則,Díaz-Rodríguez等人[69]進一步修改為訓練-測試準確度量,其中Ri,j的平均準確性高于準確率矩陣R的主對角線.因此定義fFWT為

(30)

5.2.5 模型規模度量

根據每個任務i的參數θ的數量來量化每個模型hi的存儲器的大小,記為fMem(θi),相對于第1個任務內存大小fMem(θ1),隨著時間推移,模型對任務不斷地學習,模型規模大小不應該增長過快.

因此,模型的規模(model size, MS)fMS定義為

(31)

5.2.6 計算效率

由于模型的計算效率(computational efficiency, CE)受訓練集Dt的乘法和加法運算總數的限制,因此,文獻[41]定義任務之間的平均計算效率fCE為

(32)

其中,Ops(Dt)是指學習Dt所需要的操作數;Ops↑↓(Dt)是指在Dt進行一次知識的正向和反向傳播所需要的運算次數;ε的默認值是大于1,該因子的使用使得fCE的計算更有意義,例如,避免了趨近于0的情況.

6 連續學習的應用

作為機器學習領域中的一個極具潛力的研究方向,連續學習方法已經受到學者的極大青睞.隨著人工智能及機器學習不斷的發展,基于連續學習的方法已經獲得了較多應用,例如圖像分類、目標識別以及自然語言處理等.以下將對近年來連續學習在各領域的主要應用進行介紹.

6.1 圖像分類

Li等人[16]在2017年提出了一種由卷積神經網絡組成的無遺忘學習方法,該方法將知識蒸餾與細調方法相結合,利用知識蒸餾的方法來加強與當前學習任務相關的已經學習過的知識,提高分類的準確性;Kim等人[70]提出基于DOS的最大熵正則化增量學習模型(maximum entropy regularization and dropout sample for incremental learning, MEDIL),該模型通過最大熵正則化來減少對不確定遷移知識的優化,以及利用DOS來通過從新任務中選擇性地刪除樣例減少對舊類的遺忘,以此減少記憶樣例中類的不平衡,有效地完成連續學習過程中的圖像分類;Smith等人[71]在2019年提出一種新穎的自學習聯想記憶框架(self-taught associative memory, STAM),有效解決在連續學習過程中的無監督學習分類問題;Aljundi等人[37]提出一種基于稀疏編碼的正則化方法,實現利用具有固定容量的網絡進行有序學習問題,在CIFAR100和MNIST數據集上進行分類的結果表明,該模型能夠有效地提高模型的分類能力;Rostami等人[72]考慮到基于自編碼器的生成模型能夠很好地對輸入樣例進行編碼,獲得較好的隱特征表示,同時受并行分布式處理學習和互補學習系統理論的啟發,提出一種新穎的計算模型,該模型能夠將新學習的概念與之前模型學習的概念經過統一編碼,進而形成一個統一的嵌入空間表示,實現了利用之前學習的概念知識來有效地幫助只有少量標簽樣例的新領域知識的學習,從而完成在連續學習背景下的樣例分類.

6.2 目標識別

Siam等人[73]提出一種新穎的教師-學生自適應框架,在無需人工標注的情況下,完成人機交互(human-computer interaction, HCI)背景下的視頻目標對象分割(video object segmentation);Parisi等人[7]提出了一種適用于終身學習場景的雙記憶自組織體系結構,該模型結構主要包括一個深度卷積特征提取模塊和2個分層排列的遞歸自組織網絡,進而實現在終身學習場景下的視頻序列中的目標對象的識別;Tessler等人[74]提出一種新穎的分層深度強化學習網絡(hierarchical deep reinforcement learning network, H-DRLN)框架,該模型在Minecraft游戲場景中,通過重用在之前任務中學習到的知識,進而完成對未來任務場景的目標對象學習,提高效率,同時,該模型的實驗結果也展示了在不需要額外學習的情況下在相關Minecraft任務之間遷移知識的潛力;Michiel等人[10]將當前的基于任務標識已知的序列學習方法推向了在線無任務標識的連續學習場景中,首先,假設有一個無限輸入的數據流,其中該數據流中包含現實場景中常見的逐漸或者突然的變化.文獻[10]中提出一種基于重要權重正則化的連續學習方法,與傳統的任務標識已知場景中不同,在該場景中,該模型需要有效地檢測何時、如何以及在哪些數據上執行重要性權重更新,進而有效地在無任務標識場景下進行在線連續學習.該文中在監督學習和自監督學習過程中都成功地驗證了該方法的有效性.其中,具體而言,相較于基準學習方法,在電視劇人臉識別和機器人碰撞等具體應用中,該方法的穩定性和學習性能都有所提高.Tahir等人[75]考慮到當下最先進的有關食物識別的深度學習模型不能實現數據的增量學習,經常在增量學習場景中出現災難性遺忘問題.因此,提出一種新的自適應簡化類增量核極值學習機方法(adaptive reduced class incremental kernel extreme learning machine, ARCIKELM),進而完成目標食物對象的識別,其中在多個標準的食物數據集的最終分類準確性證明了該模型可以有效地進行增量學習.

6.3 自然語言處理

d’Autume等人[76]介紹了一種連續學習背景下的自然語言學習模型,該模型實現了對在線文本數據的有效學習.在文獻[76]中介紹了一種基于稀疏經驗回放的方法有效地防止災難性遺忘,具體而言,對于每10 000個新的樣本隨機均勻選擇100個樣本在固定的時間間隔進行稀疏經驗回放,實驗表明,該模型在文本分類和問答系統等自然語言領域可以實現較好的應用.Li等人[77]考慮到現有的方法大多集中在對輸入和輸出大小固定的標簽預測連續學習任務上,因此,提出了一個新的連續學習場景,它處理自然語言學習中常見的序列到序列的學習任務.實驗結果表明,該方法比現有方法有明顯的改進,它能有效地促進知識正向遷移,防止災難性遺忘.Kruszewski等人[78]提出一種基于多語言和多領域背景下的語言建模基準,該基準可以將任何明確的訓練樣例劃分為不同的任務.與此同時,提出一種基于產品專家(product of experts, PoE)的多語言連續學習方法,Kruszewski等人的實驗結果證明,在進行多語言連續學習時,該模型可以有效地緩解災難性遺忘.Hu等人[79]對個性化在線語言學習問題(personalized online language learning, POLL)進行研究,涉及到適應個性化的語言模型以適應隨著時間發展的用戶群體.為了有效地對POLL問題進行研究,文獻[79]的作者收集了大量的微博帖子作為訓練數據集,進而對近年來流行的連續學習算法進行了嚴格評估,并在此基礎上提出一種簡單的連續梯度下降算法(continual gradient descent, ConGraD),實驗結果表明,該算法在Firehose數據集和早期基準測試數據集的實驗結果優于之前的連續學習方法.

7 未來的研究方向

作為機器學習領域中的一個新興方向,連續學習近幾年受到研究者們的極大關注,目前來看,連續學習在未來的研究中有10個潛在的方向:

1) 基于經驗回放(experience replay)的模型相較于其他連續學習模型有較好的性能,然而,容量的飽和是該類模型中所面臨的重要挑戰,因此如何在保持原有知識的同時,不斷提高模型的能力是未來重要的研究方向.

2) 對于任務不可知場景下的連續學習算法尚需進一步研究.目前,大多連續學習算法要求在任務邊界(task boundaries)已知的場景中來進行訓練和預測,即當需要學習一個新的任務時,模型需要被告知有新的學習任務,例如,改變損失函數中的參數等,以便系統能夠采取某些行動.然而,在任務之間沒有明顯邊界,即任務的轉變是逐漸的或者連續的,這些模型將不再適用.然而,在實際應用中,往往需面對的是任務邊界不可知場景學習問題.文獻[9]從貝葉斯的角度提出一種貝葉斯梯度下降算法(Bayes gradient desent, BGD),對沒有明確定義的任務邊界的連續學習問題提供一種解決思路,然而,基于此場景的連續學習算法仍相對缺乏,尚需進一步研究.

3) 利用多模態信息.現有的連續學習方法通常使用來自單一模態(如圖像或文本)的知識進行建模,然而,雖然當下訓練集有一些當前模態的樣例,但是,樣例可能還存在另一個模態.因此,來自多模態的知識可以為連續學習提供較為豐富的樣例信息,進而提高模型的建模能力.因此如何有效地利用這些多模態信息也是未來研究的重要方向.

4) 在未來可以對當下連續學習模型應用的靈活性進行進一步擴展研究,例如多感知領域的擴展.文獻[80]可以從視聽流中不斷學習任務的特征,使得連續學習的方法向更加廣泛的應用邁進一步.因此,可以通過將連續學習方法部署在具體的代理中,通過與環境的主動交互,在持續的時間內可以增量地獲取和提取知識,以此來更好地完成對對象的識別等任務.

5) 數據集太小也是連續學習過程所面臨的挑戰之一.例如,目前存在的iCub-T和CORe50數據集,只包含幾十個常見的家庭對象類,缺乏大規模和多樣性數據集.因此,創建一個更大的和更多樣化的數據集,即可以包括數百個或數千個類,也可以包括不同類型的識別,如人臉、場景以及活動等,對未來的研究工作是至關重要的.

6) 在實際分類問題中,數據的不平衡時常發生,易于導致數據的錯誤分類,因此如何從不平衡的數據集中進行正確分類,也是未來連續學習研究的一個重要方向.

7) 在線學習.當前的連續學習方法多集中于對每個單獨的任務進行離線訓練,然而,在實際應用中數據往往以數據流的形式存在[81].因此,如何對連續的數據流進行學習是未來的一個重要的研究方向.

8) 正向遷移.在連續學習方法中,正向遷移即知識的正向遷移能力,也就是對新任務進行學習時,如何有效地利用之前所學習的知識來有效地加快對當前任務的學習.近年來,元學習方法的出現,為進一步提高知識的正向遷移提供了前景.因此,如何有效地利用元學習技術來盡可能地加快對當前任務的學習是未來的一個重要的研究方向.

9) 權衡模型的穩定性與可塑性.模型的可塑性,即模型對學習新知識的能力.模型的穩定性,即模型對已經學習知識的保留能力.在連續學習過程中,如何有效地對模型的穩定性和可塑性進行權衡是一個值得研究的問題.

10) 應用領域擴展.大多實際應用場景都涉及連續學習的問題,計算機視覺中圖像分類是連續學習最常用的實驗平臺之一.連續學習最近在許多其他應用中也引起了廣泛關注,如機器人技術、自然語言處理和視頻信號處理.總之,連續學習還有很多值得探索的領域和應用.

8 總 結

連續學習是近年來機器學習領域的一個重要的研究方向.連續學習是模擬大腦學習的過程,按照一定的順序對連續的非獨立同分布的流數據進行增量學習.連續學習的意義在于高效地轉化和利用已經學過的知識來完成新任務的學習,并且能夠極大程度地降低遺忘帶來的問題.本文系統地對近年來提出的連續學習方法進行綜述,首先詳細闡述了連續學習的定義、學習場景以及其相關領域,然后詳細指出了各模型提出的原因以及具有的優缺點、常用的實驗數據集、評價指標以及近年來的應用,最后對未來的研究方向及其巨大的應用潛力進行了細致說明.總之,隨著對連續學習研究的不斷深入,未來勢必將發揮越來越重要的作用.

作者貢獻聲明:韓亞楠負責文獻調研、內容設計、論文撰寫和論文校對;劉建偉負責提出論文的整體研究和分析思路、指導寫作、修改論文以及最終審核;羅雄麟參與論文校對.

猜你喜歡
方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
學習方法
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 国产免费高清无需播放器| vvvv98国产成人综合青青| 亚洲欧美在线综合图区| 国产精品亚洲天堂| 巨熟乳波霸若妻中文观看免费 | 国产麻豆aⅴ精品无码| 亚洲中文无码av永久伊人| 孕妇高潮太爽了在线观看免费| 麻豆精品在线视频| 高潮爽到爆的喷水女主播视频| 色综合日本| 久久综合九九亚洲一区| 91精品国产一区自在线拍| 亚洲天堂网站在线| 国产日本一线在线观看免费| 综合久久久久久久综合网| 亚洲天堂精品在线| 97久久精品人人| 国产成人精品一区二区三区| 日韩精品一区二区深田咏美| 在线日韩日本国产亚洲| 国产亚洲精品在天天在线麻豆| 日韩色图区| 凹凸精品免费精品视频| 久久久精品国产SM调教网站| 亚洲精品另类| 亚洲精品动漫在线观看| 久久人妻系列无码一区| 国产成人精品第一区二区| 欧洲av毛片| 国产白浆在线观看| 国产精品美女网站| 最新国产你懂的在线网址| 伊人久久大香线蕉aⅴ色| 欧美成人日韩| 欧美啪啪一区| 国产高潮视频在线观看| 国产精品三级av及在线观看| 精品久久国产综合精麻豆| 亚洲人成网站在线观看播放不卡| 久久久久青草大香线综合精品 | 她的性爱视频| 婷婷亚洲天堂| 精品久久777| 91精品久久久久久无码人妻| 国产精品流白浆在线观看| 无码AV动漫| 巨熟乳波霸若妻中文观看免费| 五月天福利视频| 日本www色视频| 九色视频在线免费观看| 久久亚洲国产一区二区| 亚洲欧洲天堂色AV| 亚洲欧美不卡视频| AV不卡国产在线观看| 亚洲成人动漫在线| 国产成人a毛片在线| 在线看AV天堂| 97国产在线观看| 人禽伦免费交视频网页播放| 乱色熟女综合一区二区| 亚洲国产成人精品无码区性色| 综合网天天| 午夜福利免费视频| 色噜噜狠狠色综合网图区| 久久综合AV免费观看| 亚洲第一黄片大全| 2021精品国产自在现线看| 日韩精品高清自在线| 亚洲欧美不卡中文字幕| 岛国精品一区免费视频在线观看| 亚亚洲乱码一二三四区| 亚洲精品第一页不卡| 国产亚洲高清视频| 六月婷婷精品视频在线观看 | 国产精品黑色丝袜的老师| 中文字幕在线观看日本| 97成人在线视频| 欧美日本二区| 久久熟女AV| 日本五区在线不卡精品| 国产欧美视频一区二区三区|