李雪,蔣樹強
(1.山東科技大學 計算機科學與工程學院,山東 青島 266590; 2. 中國科學院計算技術研究所 智能信息處理重點實驗室,北京 100190)
智能交互的物體識別增量學習技術綜述
李雪1,2,蔣樹強2
(1.山東科技大學 計算機科學與工程學院,山東 青島 266590; 2. 中國科學院計算技術研究所 智能信息處理重點實驗室,北京 100190)
智能交互系統是研究人與計算機之間進行交流與通信,使計算機能夠在最大程度上完成交互者的某個指令的一個領域。其發展的目標是實現人機交互的自主性、安全性和友好性。增量學習是實現這個發展目標的一個途徑。本文對智能交互系統的任務、背景和獲取信息來源進行簡要介紹,主要對增量學習領域的已有工作進行綜述。增量學習是指一個學習系統能不斷地從新樣本中學習新的知識,非常類似于人類自身的學習模式。它使智能交互系統擁有自我學習,提高交互體驗的能力。文中對主要的增量學習算法的基本原理和特點進行了闡述,分析各自的優點和不足,并對進一步的研究方向進行展望。
人工智能;人機交互;計算機視覺;物體識別;機器學習;多模態;機器人;交互學習
智能交互系統最為重要的一項任務就是捕獲和理解外界環境信息,從而完成交互方任務。近年來,由于人工智能和機器人學等相關領域技術的進步,智能交互系統得到了廣泛的關注,高性能智能交互系統的實現也更加現實。智能交互系統感知外界環境比人類困難得多,而準確感知外界環境可以提高智能交互系統的交互性能,因此許多智能交互系統相關的工作探索了提高對外界環境感知性能的問題,主要的思想策略包括多模態信息融合和增量學習兩個方面。多模態的信息融合可以使智能系統增加對外界環境的確定性,同時,不斷變化的外界環境要求智能系統擁有不斷自我學習的能力。通過交互不斷學習外界信息也使智能系統的性能得以不斷提升。在計算機視覺、智能交互系統等領域,增量學習都已引起了廣泛的關注。本文基于智能交互系統的物體識別,對增量學習的進展進行綜述。首先,對智能交互系統的研究背景和現狀進行簡要介紹,在此基礎上,對增量學習主要算法進行綜合對比與分析。最后討論了增量學習可擴展和待解決的問題,以及進一步的研究方向。
對于人類來說,我們可以精確地感知周圍環境變化并作出相應的反應,但對于計算機來說,獲取并分析周圍環境信息,同時通過模仿人類行為來實現與人的交互,這是一個極具挑戰性的任務。它包括場景理解、活動分類、運動分析、物體識別、自然語言理解、語音合成等方面。每個方面都可作為一個獨立研究的任務。
準確感知外部環境可以使智能交互系統提高任務的完成度、完成的準確度和交互者對交互體驗的滿意度。多模態的外部信息,信息中較多的干擾和噪聲,外界環境的復雜多變,都對智能系統建立對外部環境的準確感知提出了挑戰。
為了增強交互系統對外部環境的感知性能,兩個方面的相關工作被廣泛研究:1)多模態信息融合;2)通過交互增量學習,自我改進。
人類為了精確感知周圍環境,往往會結合多種感知信息,如視覺、聽覺、觸覺等。認知科學的研究表明通過結合感官信息,人類可以增強對環境的感知。因此在多模態信息輸入的智能交互系統中,互補的輸入模式給系統提供了冗余的信息,而冗余輸入模式增加了系統融合信息的準確性,降低系統對外界環境的不確定性,增加對環境感知的可靠性,從嘈雜的信息中產生一個單一的整體狀態[1-3]。
2.1 自然語言理解
智能交互系統常常需要通過理解自然語言來對交互者的語言進行分析,從而獲取到對方的指令。自然語言處理是計算機科學領域與人工智能領域中的一個重要方向。它研究能實現人與計算機之間用自然語言進行有效通信的各種理論和方法。自然語言處理是一門融語言學、計算機科學、數學于一體的科學。其常用的方法有:1)關鍵詞匹配;2)使用有標注的語料庫;3)語義分析。在文獻[4]中,該系統使用關鍵詞匹配技術實現自然語言理解,并假設相應的單詞有某種特定的序列。文獻[5]和文獻[6]使用語義分析技術實現對自然語言的理解和分析。文獻[5]的語言模型從現有的語料庫[7]中訓練得到, 而文獻[6]通過系統與交互者對話的過程不斷獲得語料,并逐步學習,不斷改進其語言模型。
2.2 計算機視覺
由于獲取外界信息的另一個主要渠道是視覺,所以計算機視覺是當前人機交互中一個非常活躍的領域。這一學科的基本假設是:可以通過計算的方式來模擬人類的視覺機制。如圖1所示,智能系統模擬人類視覺機制的過程主要包括兩個方面:1)智能系統要有能力將外部視覺信息轉化為智能系統的內部表示;2)從外部環境獲取到的視覺信息到語義方面的文字需要一個可用的映射。

圖1 計算機模擬人類視覺機制Fig.1 Computer simulation of human visual mechanism
第1個方面主要要求智能系統可以從圖像中提取出有判別能力的特征。圖像特征基本包括兩種:手工設計的淺層特征和使用深度模型提取的深度特征。 SIFT[8]、FPFH (fast point features histogram)[9]和ensembles of shape features[10]等都屬于手工設計的淺層特征。這種特征對圖像變化如圖像旋轉、尺度變化等具有不變性。但是淺層特征只能捕捉到一部分圖像信息[11]。與此相反的是,由于近年來深度學習模型(如卷積神經網絡[12])方面的進步,由深度學習模型提取的深度特征可以捕獲圖像語義等更高層面的信息,具有更強的區分能力。因此,在計算機視覺方面,深度特征被廣泛使用。
智能系統模擬人類視覺機制的另一個要求是可以對圖像特征進行分類識別。在圖像識別方面存在一系列的分類、聚類算法,如決策樹、SVM、混合高斯模型等。
2.3 多模態信息融合
自然語言理解和計算機視覺是智能交互系統獲取外界信息的兩個主要途徑。單一模態信息使智能系統難以對外界環境產成一個準確的認識,多模態信息融合可以增加系統對環境信息的確認度,通過多模態信息融合,智能系統擺脫了單一模態的限制,使人機交互更加智能。當前已經有很多工作關注于多模態融合這一方面的研究[13-20]。
2.4 多模態信息融合與增量學習
多模態信息融合幫助智能交互系統最大程度上地利用了可獲取的外部信息,消除了單一模態中噪聲帶來的不一致性,從而可以準確地感知和理解外部環境。
對外部環境信息的準確感知使得智能交互系統在交互的過程中產生合情合理的語言或行為,這有助于提升系統的交互性能,得到更加良好的用戶體驗,如表1所示。

表1 智能交互系統主要交互方式
優秀的交互性能和良好的用戶體驗使得智能系統可以從交互者處得到正確并且及時的反饋,這為智能系統在交互中進行增量學習打下了堅實的基礎。
由于外界環境復雜多變,智能交互系統無法在訓練前獲取到所有可能情形的全部有效信息作為訓練數據(如圖2所示,應用環境中的“書籍”在訓練環境中出現過,屬于舊類別的新實例,而“香蕉”則未曾在訓練環境中出現,屬于新類別。智能系統無法識別這兩種未經學習的物體)。這就要求智能系統擁有自我學習的能力,可以在交互的過程中獲得新的信息,學習到新的知識。

圖2 實際環境的復雜多變和非增量方法的局限性Fig.2 The complex of environment and the limitation of constant model
多模態的交互引導多模態的學習,反過來多模態的學習又會改善多模態的交互。這是一個相互促進,共同提高的過程。
3.1 從交互中學習新知識的機器人
當前已經有許多相關工作展開了關于智能系統通過交互進行增量學習的研究[21-25]。
多方社交智能機器人在酒吧中使用自然語言與客人對話,根據客人的需要為他們提供相應的飲品[26]。它的學習任務在于引導一個多方互動對話,其目標為:當機器人的視野中同時出現多位客人時,以社會可接受的行為來盡可能為客人提供正確的飲品。
室內路線說明機器人[27]基于預定義的室內地圖通過語音和手勢向交互者提供方向引導他們到達相應的位置。它的學習任務是通過交互不斷學習進入,維持和解除與它面前的人進行交互的恰當時機。
移動機器人[28]被用來獲取物體和相關屬性的新知識。它的任務包括發現未知的物品,詢問物品的外形并獲取相關的新知識。其學習任務為通過交互者獲得新物品的物理外形描述,以此來擴充其知識庫。
3.2 智能交互系統自我學習的策略
智能交互系統自我學習的能力需要通過某種探索和學習新知識的策略來實現。
增量學習是近年來備受關注的一種學習新知識的策略,旨在利用新數據來不斷更新原有模型,使學習具有延續性,從而實現增量式的學習。
增量學習使智能交互系統可以進行持續性的學習,外部環境和交互者充當“老師”的角色,而系統則通過多模態的交互不斷獲得并學習新信息。
4.1 增量學習的背景
由于真實的交互環境是開放并且復雜多變的[29],在訓練模型之前無法獲取到所有可能情形的有效信息作為訓練數據。除此之外,數據標簽的獲取也需要耗費大量人力、物力、財力和時間。最為重要的一點是,新的物體類別不斷產生,已有物體類別的新實例不斷出現,甚至有的物體類別的意義不斷遷移變化,這都在數據方面要求智能系統需要具有不斷學習的能力。另一方面,自我學習的能力可以使智能系統在獲得新數據時隨時學習,不需要重新訓練全部數據[30]。這又在模型方面要求智能系統需要具有不斷學習的能力。
4.2 增量學習的現狀
學習新數據基本可以分為兩種策略:一種是拋棄原有模型,在現有數據上學習新知識;另一種是基于原有模型,在此基礎上繼續學習新知識。這兩種策略可以引出著名的穩定性-可塑性定理(stability-plasticity dilemma)[31]。
這個定理指出,一個完全穩定的模型可以保存已經學到的知識不忘記,但無法學習到新的知識;而一個完全可塑的模型可以學習新知識,但無法保存以前學到的知識(如圖3所示)。而優秀的增量學習方法就是在可塑性和穩定性之間尋找一個合理的權衡。

圖3 穩定性-可塑性定理Fig.3 Stability-plasticity dilemma
文獻[32]提出真正的增量學習應該滿足4個條件,如圖4。

圖4 增量學習的條件Fig.4 The conditions of incremental learning
1)可以學習舊類別的新數據。“書籍”概念在訓練環境已經出現過,應用環境中的“書籍”是舊類別的新實例。
2)可以學習新類別。“香蕉”概念在訓練環境未出現過,應用環境中的“香蕉”屬于新類別。
3)在學習新知識時,舊的訓練數據不是必須的。增量學習時只使用應用環境中的新數據(“書籍”)和新類別(“香蕉”)作為訓練數據,而不需要已經學過的“罐”、“蘋果”和“杯子”數據。
4)學習新知識后,不會忘記已經學到的舊知識。在應用環境中仍能識別以前在訓練環境中學到的舊概念:“罐”、“蘋果”、“杯子”和“書籍”概念的舊實例。
當前有許多增量學習方面的工作并不嚴格滿足以上4個條件。
4.3 拋棄原有模型
對于學習新數據的第1種策略:拋棄原有模型,在現有數據上學習新知識。這種完全可塑的策略面臨的最大問題是災難性的遺忘(catastrophic forgetting)。它在現有新數據上學習知識,可以學到新的數據和類別,并且可以不需要原來的訓練數據,滿足增量學習的前3個條件。但它拋棄原有模型,則會導致舊知識的遺忘,不能滿足第4個條件。神經網絡常常使用這種策略的模型,例如多層感知機、徑向基函數網絡,小波網絡和Kohonen網絡。
4.4 基于原有模型繼續學習
對于學習新數據的第2種策略:基于原有模型,在此基礎上繼續學習新知識。這種策略也常因關注于不同的方面而不能完全滿足增量學習的4個條件。
根據增量學習算法學習的內容來看,新數據主要來源于兩個方面:1)數據來源于已經學習過的類別,是舊類別的新實例;2)數據來源于沒有學習過的類別,是新類別的數據。
4.4.1 學習舊類別的新實例
學習舊類別的新實例這一任務在某種程度上與遷移學習有些相似之處但又有不同,如表2。
表2 增量學習與遷移學習的比較
Table 2 Comparison between transfer learning and incremental learning

類別相同點不同點遷移學習增量學習將已學習的知識轉移到新的任務訓練集領域與測試集領域不同;新領域的數據未經過學習訓練集領域與測試集領域相同;新數據經過學習
遷移學習的任務是將某一領域學到的特征或信息應用到另一個不同但相似的領域上,如文獻[33]。增量學習舊類別新實例的目標是利用現有的特征在相同任務(需要識別的類別不變)但規模擴大的數據集上學習新的知識。
文獻[34]修改了原SVM目標函數中的損失項,使修改后的SVM可以在原模型的基礎上修改分類面,實現增量學習舊類別新實例;文獻[35]提出了一個基于SVM框架增量學習的精確解,即每增加一個訓練樣本或減少一個樣本都會對Lagrange系數和支持向量產生影響,以此來調整分界面;文獻[36]介紹了HME(hierarchical mixture of experts)框架, 這種框架在特征空間的不同區域訓練了多個分類器,將各個分類器的輸出通過一個網絡進行加權得到最終結果,它利用線性最小二乘法(linear least squares)和加權線性最小二乘法(weighted linear least squares)通過遞歸來增量的更新每個數據點的參數,從而實現增量式的在線學習;文獻[37]每次從候選訓練數據集中選取一部分新的信息,并把選取出的新數據添加到當前數據集中;文獻[38]擴展了文獻[37]的增量學習方法,通過對候選訓練數據集進行無監督的聚類,每次選出最有信息量的一部分數據加入當前訓練數據中;文獻[39]提出了一種結構學習算法,它使用數據集中的一小部分作為訓練數據來建立一個具有最優隱藏層節點數目的前饋網絡,該方法以訓練數據集中較少的一部分數據作為初始的訓練數據,通過有效的選擇訓練數據,最終產生一個最少但對所有數據有效的訓練集。
這些增量學習方法更加關注于學習舊類別的新實例,它們都無法完全滿足增量學習的4個條件。首先,這些方法無法學習新類別的數據。其次,有些方法在增量學習的同時必須使用部分或全部原始數據。
4.4.2 學習新類別的數據
與學習舊類別的新實例相比,學習新類別明顯更加具有挑戰性。
這個任務的目標是利用現有的特征在更加復雜的任務(需要識別的類別增加)并且規模擴大的數據集上學習新的知識。
對遷移學習的關注使得更多的研究工作注重于使用更少的數據來學得泛化性能更好的模型。由此轉化到學習新類別方面的兩個較為典型的研究領域為:one-shot learning 和 zero-shot learning。文獻[40]提出了一種貝葉斯遷移學習方法,這種增量學習方法可以使用少量新數據學習到新類別。文獻[41]提出了一種基于多模型的知識遷移算法,這種增量學習方法可以依靠已經學習的類別使用少量新數據來有效的學習新類別。通過求解一個凸優化問題,該方法自動選擇利用哪一部分舊知識傳遞多少信息最為有效并確保在可用訓練集上達到最小誤差。文獻[42]通過使用屬性分類器來實現zero-shot learning的目標。
文獻[43]指出,在其之前的大多數增量學習的工作都專注于二分類問題,這篇文章提出了一個多類分類的方法,在保存已學到的知識的基礎上把當前的N類分類器轉化為一個N+1類分類器;文獻[44]提出了一種具有層級關系的增量學習模型NCMF(nearestclassmeanforestclassifier)。這種方法以層級關系來組織概念,使得學習新類別時可以更新局部節點來達到增量的目的。文獻[45]結合SVM算法最大分類間隔的策略和半監督學習算法低密度分隔符技術,來增加新的分界面以此識別新類別。
這些增量學習方法更加關注于學習新類別,它們對舊類別的新實例的學習效果尚未得到驗證,同時有些方法在學習新數據的同時必須使用部分或全部原始數據,無法完全滿足增量學習的4個條件。
表3 增量學習算法對比分析
Table 3 Comparative analysis of incremental learning algorithms

算法新類別舊類別新實例不需要原始數據實現技術文獻[32]√√√多模型組合文獻[34]√√調整模型參數文獻[35]√√調整模型參數文獻[36]√√多模型組合文獻[38]√選取有效數據文獻[39]√選取有效數據文獻[40]√√調整模型參數文獻[41]√√多模型組合文獻[42]√√多模型組合文獻[43]√調整模型參數文獻[44]√√調整模型參數文獻[45]√調整模型參數文獻[46]√√√多模型組合文獻[47]√√√調整模型參數文獻[48]√√調整模型參數文獻[49]√√調整模型參數文獻[50]√√調整模型參數文獻[51]√調整模型參數
4.4.3 實現增量學習的3種技術
總體來說增量學習算法使用的技術可以總結為3類[32](圖5):
1)選擇最有信息量的數據;
2)使用多模型集合實現模型的加強;
3)改變模型的參數或結構。

圖5 增量學習的3種技術Fig.5 Three techniques of incremental learning
其中第1類方法往往用于實現舊類別新實例的增量,并且需要使用部分或全部原始數據。其目的是在一段信息流中選取最有效的數據,使用最少的數據完成學習任務。這種方法無法實現真正的增量學習。而第2類方法可以實現完全的增量學習。文獻[46]提出了一種基于分類器集合的算法,該算法為與學習過的實例差別較大的新數據建立新的決策集群,每個集群以無監督的方式在特征空間中學習一個不同的超矩形部分,這個部分與要學習的目標類別相對應。但是這個方法對閾值的選取,訓練數據中的噪聲和訓練數據學習的順序都十分敏感;文獻[47]提出了一種基于再生希爾伯特空間的增量學習算法。但是它需要數據分布的一個先驗知識,這對于增量學習任務本身來說并不容易獲得;文獻[32]受Adaboost的啟發,提出了一個由分類器集合構成的增量模型。這個算法的核心在于維護一個訓練數據的分布,使得分類錯誤的數據更容易被采樣,以此學習一個新的分類器加入集合中,而在增量學習的過程中,錯誤率較高的數據則恰恰是尚未見過或學習過的數據。但第3類方法需要訓練多個模型進行組合,計算代價大大增加,而且隨著增量學習的進行,不斷增加的基模型也是一個未解決的問題。
4.4.4 通過改變模型參數實現增量學習
因此我們更為關注第3種方法:通過調整模型參數實現增量學習的單一模型。
文獻[34]修改了原SVM目標函數中的損失項,使修改后的SVM可以修改原模型的分類面,并且在不需要原始數據的前提下,近似實現全局數據(新數據和已經學習過的舊數據)上的損失最小化。SVM使用支撐向量來描述分界面,并將支撐向量作為參數存儲在模型中。該方法利用支撐向量來代替原始數據,同時通過權重使支撐向量可以更好的模擬原始數據。文獻[35]提出的C&P 算法實現了SVM框架下增量學習的一個精確解。訓練SVM相當于求解一個二次規劃,二次規劃的系數個數與訓練數據個數相同。增量學習時,每增加一個訓練數據,可以迭代求解一個新的系數。C&P算法的關鍵在于,每增加一個實例, 都要求學習過的所有數據全部滿足KKT條件,來求解一個確定的增量模型。此后,許多研究基于C&P 算法,逐漸展開了兩方面的工作:一方面的工作專注于算法本身,文獻[48]提出了該算法的擴展版本,每次迭代更新參數時可以同時處理多個數據;另一方面的工作使用C&P 算法解決其他問題。文獻[49]和文獻[50]使用該算法實現了單類SVM的增量學習問題。
與文獻[51]中修改損失項的方法相似的是,文獻[43]修改了SVM目標函數的正則項,在增加新的分界面的同時,控制已有分界面的變化。該方法通過建立新的分界面學習到新類別,同時通過控制已學到的分界面的變化,確保學到的知識不會受新類別的影響而丟失。文獻[45]借鑒SVM中最大分類間隔和半監督學習中低密度分隔符的思想,在所有低密度分隔符中選取一個分界面使得模型的經驗損失,結構損失和增廣損失(新類別的損失)整體最小。文獻[51]將卷積神經網絡組織成層級樹形結構,每個節點由一些相似類別的聚類構成,該方法通過樹形結構使得模型更新時只需要調整模型局部,并可以嚴格控制模型調整范圍,增添新節點時此方法通過克隆原有節點進行調整,使得已學到的知識不會被遺忘。
這些通過修改原模型參數而實現增量學習的算法也沒有完全滿足增量學習的4個條件,它們都解決了災難性遺忘的問題,但都更加側重于學習舊類別新實例或者新類別中的某一方面,有些方法也沒有解決需要原始數據的問題。
目前,增量學習在智能交互、物體識別等許多方面都得到了廣泛的研究,但由于應用環境遠比訓練環境更加復雜多變,離智能交互系統真正走出實驗室,進入真實應用場景還有一段距離。本文將對增量學習未來的研究方向進行展望。
5.1 面向大規模數據集的增量學習
近年來,隨著信息技術的發展,數據呈現爆炸式增長的趨勢,這使得模型的訓練和更新都變得更加困難并且耗時。
在面向大規模數據集時,增量學習的優點尤為突出。一方面,在訓練數據規模擴大的同時,訓練需要的時間和計算能力都隨之增加。當新數據或新類別出現時,非增量的離線方法需要重新訓練已經學習過的數據,這會導致資源的浪費。而增量學習方法則可以在原始模型的基礎上繼續學習,不需要重新訓練所有數據。另一方面,非增量方法重新訓練全部數據,這也就意味著全部的或絕大部分的數據或都必須保留,當數據量非常龐大時,數據的存儲也是一個問題。而增量學習不需要原始數據,所以不需要考慮數據存儲的問題。
5.2 面向深度學習的增量學習
深度學習技術被大量應用到圖像、視頻、文本等多媒體相關的任務上。一方面,深度網絡可以直接完成圖像分類,物體識別等任務。另一方面,這些任務所產生的標簽又可以應用到圖像檢索相關的任務中。深度網絡又可以間接地擴展到其他任務中去。所有這些任務的真實場景中,數據及其標記的總是以增量的方式進行收集的。因此在數據方面來說,面向深度學習的增量學習是合理的。
深度學習技術在圖像分類任務中的應用取得了快速的進步,它的性能迅速提升。當前限制深度神經網絡性能進一步提升的一個可能性是網絡容量。因此,一個可能的解決方案是增加網絡容量[51]。但是這個方案面臨著兩個困難:一方面,大網絡的訓練難度可能成倍增長;另一方面,如何增加網絡容量還不明確。因此,應該更加謹慎地增加網絡容量,提升網絡能力。而增量學習則為逐步的、增量的改善網絡提供了一種可能性,當前已經有一些相關的工作對這種可能性展開了一定的研究[39,52-54]。因此在模型方面來說,面向深度學習的增量學習也是合理的。
5.3 聲圖文融合的多模態增量學習
基于智能交互的增量學習系統通過多模態交互進行增量學習。由此看來,增量學習的內容也應當是多模態的。
智能系統通過多模態交互進行增量學習,反過來,增量學習的結果也會提升多模態交互的性能。
聽覺、視覺和文字是智能交互系統感知外界環境信息最主要的3種形式。通過聲圖文融合的增量學習方式,可以使智能交互系統逐步全面地適應不斷變化的外界環境。
5.4 知識條目和識別能力的增量學習
現在的大部分研究工作更加關注于獨立的視覺概念的識別或是單純知識條目的增加構建。但實際生活中不同的概念之間具有或隱性或顯性的關系,物體也擁有不同的屬性。這些概念和屬性可以構成關于交互物體、交互者和外界環境的知識條目。人類可以基于這些額外的關系或屬性信息學習到更多的知識。智能交互系統也應該利用這些信息進行更全面的學習,對周圍環境或任務目標得到一個更加全面的認識。
另一個值得關注的方面是,智能交互系統應該能夠系統并有效地組織已學習到的知識。文獻[55]指出,將小規模的信息加入到已經組織好的大規模信息中是人類感知,學習,和組織信息等過程中十分重要的部分。因此,智能交互系統應該擁有一個合理的學習機制,并可以自動在學習到的知識間建立合理有效的聯系。
目前,增量學習在智能交互、物體識別等許多方面都得到了廣泛的研究,由于應用環境遠比訓練環境更加復雜多變,它更加注重于解決自動學習,改善應用效果的問題。這說明智能交互系統從實驗環境逐漸開始走向真實的應用場景。
由于不同任務關注方面各不相同,大多數研究工作都無法完全滿足增量學習的定義。但真實場景的復雜多變是單一任務目標無法模擬的,若要智能交互系統真正走向現實,需要綜合解決增量學習4個方面的問題,這是增量學習算法本身的發展趨勢。
同時也應該結合不同的任務,實現適用于不同場景、不同側重點的智能增量學習系統。根據任務本身設計不同的策略實現個性化的應用。這是從應用場景來看的增量學習發展趨勢。
當這些發展趨勢真正變為現實的時候,智能交互系統有望真正走進人類社會,為我們的日常生活帶來更多幫助,安全、便捷和高效地輔助我們完成更多任務。
[1]ERNST M O, BüLTHOFF H H. Merging the senses into a robust percept[J]. Trends in cognitive sciences, 2004, 8(4): 162-169.
[2]CORRADINI A, MEHTA M, BERNSEN N O, et al. Multimodal input fusion in human-computer interaction[J]. NATO Science Series Sub Series III Computer and Systems Sciences, 2005, 198: 223.
[3]NODA K, ARIE H, SUGA Y, et al. Multimodal integration learning of robot behavior using deep neural networks[J]. Robotics and autonomous systems, 2014, 62(6): 721-736.
[4]MERI?LI C, KLEE S D, PAPARIAN J, et al. An interactive approach for situated task specification through verbal instructions[C]//Proceedings of the 2014 international conference on Autonomous agents and multi-agent systems. Paris, France: International Foundation for Autonomous Agents and Multiagent Systems, 2014: 1069-1076.
[5]CANTRELL R, BENTON J, TALAMADUPULA K, et al. Tell me when and why to do it! Run-time planner model updates via natural language instruction[C]//Proceedings of the 2012 IEEE International Conference on Human-Robot Interaction. Boston, MA: IEEE, 2012: 471-478.
[6]THOMASON J, ZHANG S Q, MOONEY R, et al. Learning to interpret natural language commands through human-robot dialog[C]//Proceedings of the 24th international conference on Artificial Intelligence. Buenos Aires, Argentina: AAAI Press, 2015.
[7]EBERHARD K M, NICHOLSON H, SANDRA K, et al. The Indiana “Cooperative Remote Search Task”(CReST) corpus[C]//Proceedings of the 2010 International Conference on Language Resources and Evaluation. Valletta, Malta: LREC, 2010.
[8]LOWE D G. Distinctive image features from scale-invariant keypoints[J]. International journal of computer vision, 2004, 60(2): 91-110.
[9]MORISSET B, RUSU R B, SUNDARESAN A, et al. Leaving flatland: toward real-time 3D navigation[C]//Proceedings of the 2009 IEEE International Conference on Robotics and Automation. Kobe: IEEE, 2009: 3786-3793.
[10]HINTERSTOISSER S, HOLZER S, CAGNIART C, et al. Multimodal templates for real-time detection of texture-less objects in heavily cluttered scenes[C]//Proceedings of the 2011 IEEE International Conference on Computer Vision. Barcelona: IEEE, 2011: 858-865.
[11]WANG Anran, LU Jiwen, CAI Jianfei, et al. Large-margin multi-modal deep learning for RGB-D object recognition[J]. IEEE transactions on multimedia, 2015, 17(11): 1887-1898.
[12]LECUN Y, BOSER B, DENKER J S, et al. Backpropagation applied to handwritten zip code recognition[J]. Neural computation, 1989, 1(4): 541-551.
[13]THOMASON J, SINAPOV J, SVETLIK M, et al. Learning multi-modal grounded linguistic semantics by playing I spy[C]//Proceedings of the 25th International Joint Conference on Artificial Intelligence. New York, 2016.
[14]LIU C S, CHAI J Y. Learning to mediate perceptual differences in situated human-robot dialogue[C]//Proceedings of the Twenty-Ninth American Association Conference on Artificial Intelligence. Austin, Texas: AAAI Press, 2015: 2288-2294.
[15]PARDE N, HAIR A, PAPAKOSTAS M, et al. Grounding the meaning of words through vision and interactive gameplay[J]. Proceedings of the 24th International Conference on Artificial Intelligence. Buenos Aires, Argentina: AAAI Press, 2015.
[16]MATUSZEK C, FITZGERALD N, ZETTLEMOYER L, et al. A joint model of language and perception for grounded attribute learning[C]//Proceedings of the 29th International Conference on Machine Learning. Edinburgh, Scotland, 2012.
[17]趙鵬, 陳浩, 劉慧婷, 等. 一種基于圖的多模態隨機游走重排序算法[J]. 哈爾濱工程大學學報, 2016, 37(10): 1387-1393. ZHAO Peng, CHEN Hao, LIU Huiting, et al. A multimodal graph-based re-ranking through random walk algrithm[J]. Journal of Harbin Engineering University, 2016, 37(10): 1387-1393.
[18]段喜萍, 劉家鋒, 王建華, 等. 多模態特征聯合稀疏表示的視頻目標跟蹤[J]. 哈爾濱工程大學學報, 2015, 36(12): 1609-1613. DUAN Xiping, LIU Jiafeng, WANG Jianhua, et al. Visual target tracking via multi-cue joint sparse representation[J]. Journal of Harbin Engineering University, 2015, 36(12): 1609-1613.
[19]FISHER J W, DARRELL T. Signal level fusion for multimodal perceptual user interface[C]//Proceedings of the 2001 Workshop on Perceptive User Interfaces. New York, NY, USA: ACM, 2001: 1-7.
[20]JOHNSTON M, BANGALORE S. Finite-state multimodal parsing and understanding[C]//Proceedings of the 18th conference on Computational linguistics. Saarbrücken, Germany: ACM, 2000: 369-375.
[21]BETTERIDGE J, CARLSON A, HONG S A, et al. Toward never ending language learning[C]//Proceedings of the American Association for Artificial Intelligence. 2009: 1-2.
[22]CHERNOVA S, THOMAZ A L. Robot learning from human teachers[M]. San Rafael, CA, USA: IEEE, 2014.
[23]MATUSZEK C, BO L F, ZETTLEMOYER L, et al. Learning from unscripted deictic gesture and language for human-robot interactions[C]//Proceedings of the 28th American Association Conference on Artificial Intelligence. Québec City, Québec, Canada: AAAI Press, 2014: 2556-2563.
[25]顧海巍, 樊紹巍, 金明河, 等. 基于靈巧手觸覺信息的未知物體類人探索策略[J]. 哈爾濱工程大學學報, 2016, 37(10): 1400-1407. GU Haiwei, FAN Shaowei, JIN Minghe, et al. An anthropomorphic exploration strategy of unknown object based on haptic information of dexterous robot hand[J]. Journal of Harbin Engineering University, 2016, 37(10): 1400-1407.
[26]KEIZER S, FOSTER M E, WANG Z R, et al. Machine learning for social multiparty human-robot interaction[J]. ACM transactions on interactive intelligent systems (TIIS), 2014, 4(3): 14.
[27]BOHUS D, SAW C W, HORVITZ E. Directions robot: In-the-wild experiences and lessons learned[C]//Proceedings of the 2014 International Conference on Autonomous Agents and Multi-agent Systems. Richland, SC, 2014: 637-644.
[28]KRAUSE E A, ZILLICH M, WILLIAMS T E, et al. Learning to recognize novel objects in one shot through human-robot interactions in natural language dialogues[C]//Proceedings of the 28th American Association Conference on Artificial Intelligence. Québec City, Québec, Canada: AAAI Press, 2014: 2796-2802.
[29]MENSINK T, VERBEEK J J, PERRONNIN F, et al. Distance-based image classification: generalizing to new classes at near-zero cost[J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(11): 2624-2637.
[30]IBA W, WOGULIS J, LANGLEY P A T. Trading off simplicity and coverage in incremental concept learning[C]//Proceedings of the Fifth International Conference on Machine Learning. Ann Arbor: University of Michigan, 1988: 73.
[31]GROSSBERG S. Nonlinear neural networks: Principles, mechanisms, and architectures[J]. Neural networks, 1988, 1(1): 17-61.
[32]POLIKAR R, UPDA L, UPDA S S, et al. Learn++: An incremental learning algorithm for supervised neural networks[J]. IEEE transactions on systems, man, and cybernetics, part C (Applications and reviews), 2001, 31(4): 497-508.
[33]賈剛, 王宗義. 混合遷移學習方法在醫學圖像檢索中的應用[J]. 哈爾濱工程大學學報, 2015, 36(7): 938-942. JIA Gang, WANG Zongyi. The application of mixed migration learning in medical image retrieval[J]. Journal of Harbin Engineering University, 2015, 36(7): 938-942.
[34]RüPING S. Incremental learning with support vector machines[C]//Proceedings of the 2011 IEEE International Conference on Data Mining. Washington, DC, USA: IEEE, 2001: 641.
[35]CAUWENBERGHS G, POGGIO T. Incremental and decremental support vector machine learning[C]//Proceedings of the 13th International Conference on Advances in neural information processing systems. Cambridge, MA, USA: MIT Press, 2000, 13: 409.
[36]JORDAN M I, JACOBS R A. Hierarchical mixtures of experts and the EM algorithm[J]. Neural computation, 1994, 6(2): 181-214.
[37]WANG E H C, KUH A. A smart algorithm for incremental learning[C]//Proceedings of the 1992 IEEE International Joint Conference on Neural Networks. Baltimore: IEEE, 1992, 3: 121-126.
[38]ENGELBRECHT A P, CLOETE I. Incremental learning using sensitivity analysis[C]//Proceedings of the 1999 International Joint Conference on Neural Networks. Washington DC: IEEE, 1999.
[39]ZHANG B T. An incremental learning algorithm that optimizes network size and sample size in one trial[C]//Proceedings of the 1994 IEEE World Congress on Computational Intelligence. Orlando, FL, USA: IEEE, 1994, 1: 215-220.
[40]LI F F, FERGUS R, PERONA P. One-shot learning of object categories[J]. IEEE transactions on pattern analysis and machine intelligence, 2006, 28(4): 594-611.
[41]TOMMASI T, ORABONA F, CAPUTO B. Learning categories from few examples with multi model knowledge transfer[J]. IEEE transactions on pattern analysis and machine intelligence, 2014, 36(5): 928-941.
[42]LAMPERT C H, NICKISCH H, HARMELING S. Learning to detect unseen object classes by between-class attribute transfer[C]//Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami, FL: IEEE, 2009: 951-958.
[43]KUZBORSKIJ I, ORABONA F, CAPUTO B. From N to N+1: Multiclass transfer incremental learning[C]//Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, OR: IEEE, 2013: 3358-3365.
[44]RISTIN M, GUILLAUMIN M, GALL J, et al. Incremental learning of NCM forests for large-scale image classification[C]//Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH: IEEE, 2014: 3654-3661.
[45]DA Qing, YU Yang, ZHOU Zhihua. Learning with augmented class by exploiting unlabeled data[C]//Proceedings of the 28th American Association Conference on Artificial Intelligence. Québec, Canada: AAAI Press, 2014: 1760-1766.
[46]CARPENTER G A, GROSSBERG S, REYNOLDS J H. ARTMAP: Supervised real-time learning and classification of nonstationary data by a self-organizing neural network[J]. Neural networks, 1991, 4(5): 565-588.
[47]VIJAYAKUMAR S, OGAWA H. RKHS-based functional analysis for exact incremental learning[J]. Neurocomputing, 1999, 29(1/2/3): 85-113.
[48]KARASUYAMA M, TAKEUCHI I. Multiple incremental decremental learning of support vector machines[J]. IEEE transactions on neural networks archive, 2010, 21(7): 1048-1059.
[49]GRETTON A, DESOBRY F. On-line one-class support vector machines. an application to signal segmentation[C]//Proceedings of the 2003 IEEE International Conference on Acoustics, Speech, and Signal Processing. Hong Kong, China: IEEE, 2003.
[50]LASKOV P, GEHL C, KRüGER S, et al. Incremental support vector learning: Analysis, implementation and applications[J]. The Journal of machine learning research archive, 2006, 7: 1909-1936.
[51]XIAO Tianjun, ZHANG Jiaxing, YANG Kuiyuan, et al. Error-driven incremental learning in deep convolutional neural network for large-scale image classification[C]//Proceedings of the 22nd ACM international conference on Multimedia. New York, NY: ACM, 2014: 177-186.
[52]LOMONACO V, MALTONI D. Comparing incremental learning strategies for convolutional neural networks[M]//SCHWENKER F, ABBAS H, EL GAYAR N, et al, eds. Artificial Neural Networks in Pattern Recognition. ANNPR 2016. Lecture Notes in Computer Science. Cham: Springer, 2016.
[53]GRIPPO L. Convergent on-line algorithms for supervised learning in neural networks[J]. IEEE transactions on neural networks, 2000, 11(6): 1284-1299.
[54]FU Limin, HSU H H, PRINCIPE J C. Incremental backpropagation learning networks[J]. IEEE transactions on neural networks, 1996, 7(3): 757-761.
[55]GOBET F, LANE P C R, CROKER S, et al. Chunking mechanisms in human learning[J]. Trends in cognitive sciences, 2001, 5(6): 236-243.

李雪,女,1992年生,碩士研究生,主要研究方向為智能信息處理與機器學習。

蔣樹強,男,1977年生,博士生導師,主要研究方向為圖像/視頻等多媒體信息的分析、理解與檢索技術。IEEE和CCF高級會員,獲得2008年度北京市科技新星計劃支持,2012年度中國科學院盧嘉錫青年人才獎,2012年度中國計算機學會科學技術獎,2013年度中國科學院青年科學家國際合作獎,獲2013年度國家自然科學基金優秀青年科學基金支持,入選2014年度中組部萬人計劃青年拔尖人才計劃。 發表學術論文100余篇,授權專利10項。
Incremental learning and object recognition systembased on intelligent HCI: a survey
LI Xue1, JIANG Shuqiang2
(1. College of Information Science and Engineering, Shandong University of Science and Technology, Qingdao 266590, China; 2. Key Laboratory of Intelligent Information Processing, Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190, China)
Intelligent HCI systems focus on the interaction between computers and humans and study whether computers are able to apprehend human instructions. Moreover, this study aims to make the interaction more independent and interactive. To some extent, incremental learning is a way to realize this goal. This study briefly introduces the tasks, background, and information source of intelligent HCI systems; in addition, it focuses on the summary of incremental learning. Similar to the learning mechanism of humans, incremental learning involves acquiring new knowledge on a continuous basis. This allows for the intelligent HCI systems to have the ability of self-growth. This study surveys the works that focus on incremental learning, including the mechanisms and their respective advantages and disadvantages, and highlights the future research directions.
artificial intelligence; human-computer interaction; computer vision; object recognition; machine learning; multimodality; robotics; interactive learning
2017-01-09.
日期:2017-04-19.
國家“973”計劃項目(2012CB316400).
蔣樹強.E-mail: :sqjiang@ict.ac.cn.
10.11992/tis.201701006
http://kns.cnki.net/kcms/detail/23.1538.TP.20170419.1448.002.html
TP391
A
1673-4785(2017)02-0140-10
李雪,蔣樹強. 智能交互的物體識別增量學習技術綜述[J]. 智能系統學報, 2017, 12(2): 140-149.
英文引用格式:LI Xue, JIANG Shuqiang. Incremental learning and object recognition system based on intelligent HCI: a survey[J]. CAAI transactions on intelligent systems, 2017, 12(2): 140-149.