王震宇,張雷,高文彬,權威銘
基于漸進式神經(jīng)網(wǎng)絡架構搜索的人體運動識別
王震宇,張雷*,高文彬,權威銘
(南京師范大學 電氣與自動化工程學院,南京 210023)( ? 通信作者電子郵箱leizhang@njnu.edu.cn)
為了解決基于傳感器數(shù)據(jù)的運動識別問題,利用深度卷積神經(jīng)網(wǎng)絡(CNN)在公開的OPPORTUNITY傳感器數(shù)據(jù)集上進行運動識別,提出了一種改進的漸進式神經(jīng)網(wǎng)絡架構搜索(PNAS)算法。首先,神經(jīng)網(wǎng)絡模型設計過程中不再依賴于合適拓撲結(jié)構的手動選擇,而是通過PNAS算法來設計最優(yōu)拓撲結(jié)構以最大化F1分數(shù);其次,使用基于序列模型的優(yōu)化(SMBO)策略,在該策略中將按照復雜度從低到高的順序搜索結(jié)構空間,同時學習一個代理函數(shù)以引導對結(jié)構空間的搜索;最后,將搜索過程中表現(xiàn)最好的20個模型在OPPORTUNIT數(shù)據(jù)集上進行完全訓練,并從中選出表現(xiàn)最好的模型作為搜索到的最優(yōu)架構。通過這種方式搜索到的最優(yōu)架構在OPPORTUNITY數(shù)據(jù)集上的F1分數(shù)達到了93.08%,與進化算法搜索到的最優(yōu)架構及DeepConvLSTM相比分別提升了1.34%和1.73%,證明該方法能夠改進以前手工設計的模型結(jié)構,且是可行有效的。
人體運動識別;深度學習;神經(jīng)網(wǎng)絡架構搜索;卷積神經(jīng)網(wǎng)絡;基于序列模型的優(yōu)化
移動智能設備的不斷普及給研究人員提供了一系列新的研究方向。由于在運動跟蹤[1]、健康監(jiān)測[2]和智能家居[3]中的廣泛應用,基于可穿戴傳感器數(shù)據(jù)的人體運動識別(Human Activity Recognition, HAR)已經(jīng)成為一個重要的研究領域。常見的傳感器包括加速度計、磁性傳感器和陀螺儀[4],它們被嵌入移動設備中收集佩戴者的活動數(shù)據(jù)。經(jīng)典的機器學習識別技術,如樸素貝葉斯、改進隨機森林和支持向量機(Support Vector Machine, SVM)等,通常都會從傳感器數(shù)據(jù)中人工提取特征。近年來,深度學習技術由于能夠從原始數(shù)據(jù)中自動學習特征而備受關注。深度學習技術在HAR中的有效性已經(jīng)在一些公開數(shù)據(jù)集中得到了驗證。
隨著傳感器數(shù)量的不斷增加,有關HAR的傳感器公開數(shù)據(jù)集也在不斷增加。OPPORTUNITY數(shù)據(jù)集被廣泛使用,其中包含了一組在布滿傳感器的環(huán)境中收集到的人類活動數(shù)據(jù)。該數(shù)據(jù)集已被用于公開的活動識別挑戰(zhàn)賽中,參賽者需要在運動模式識別和手勢識別兩種任務中比拼識別性能。
卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network, CNN)是目前流行的深度學習技術,具有充當特征提取器的能力。該模型可以自動學習多層次的特征結(jié)構,這項技術先前已在Ordó?ez等[5]和Hammerla等[6]工作中被應用于HAR和OPPORTUNITY數(shù)據(jù)集。盡管這些模型在HAR中表現(xiàn)良好,但設計出這些模型都是依賴于設計者的不斷嘗試和其豐富的先驗知識。神經(jīng)網(wǎng)絡的性能極易受到網(wǎng)絡拓撲結(jié)構的影響,在目前的HAR領域中如果想要獲得一個表現(xiàn)良好的架構,設計者就需要調(diào)整大量模型超參數(shù),手動嘗試不同的拓撲直到找到一個合適的網(wǎng)絡結(jié)構[7-9]。這種依靠人工不斷試錯的過程是極度耗時的,同時也使得深度學習技術的應用有較高的門檻,因為只有經(jīng)驗豐富的專家才能在有限的時間內(nèi)設計出良好的架構。基于這些HAR領域中普遍存在的問題,人們希望有一種更高效的方法來自動設計CNN的結(jié)構。
神經(jīng)網(wǎng)絡架構搜索(Neural Architecture Search, NAS)是自動機器學習的一部分,它采用一些搜索策略優(yōu)化神經(jīng)網(wǎng)絡超參數(shù)。搜索策略的最新進展大致可分為三類,分別是進化算法(Evolutionary Algorithm, EA)、強化學習(Reinforcement Learning, RL)和基于代理的優(yōu)化(Surrogate-based Optimization, SO)。當使用進化算法(EA)[10-13]時,每個神經(jīng)網(wǎng)絡結(jié)構被編碼為字符串,在搜索過程中執(zhí)行字符串的隨機突變和重組,每個字符串都將在驗證集上進行訓練和評估,表現(xiàn)最好的模型將會產(chǎn)生新的后代繼續(xù)重復這一過程;當使用強化學習(RL)[14-17]時,控制器產(chǎn)生一系列動作,該動作指定模型的結(jié)構,然后對該模型進行訓練,并返回其驗證集上的準確度作為獎勵,用于更新循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network, RNN)控制器。雖然EA和RL都能夠設計出優(yōu)于人工設計的體系結(jié)構的網(wǎng)絡結(jié)構,但它們需要大量的計算資源,不太適合于目前的HAR任務。
與進化算法和強化學習直接搜索完全指定的結(jié)構空間不同,基于代理的優(yōu)化(SO)方法可以按照復雜度從低到高的順序搜索結(jié)構空間。最近,漸進式神經(jīng)網(wǎng)絡架構搜索(Progressive Neural Architecture Search, PNAS)算法成功在多個圖像分類數(shù)據(jù)集上取得了最優(yōu)表現(xiàn)[18]。該算法能夠?qū)λ阉骺臻g進行漸進式掃描,在每一步中選擇最優(yōu)的個架構,并在數(shù)據(jù)集上對所選架構進行訓練和評估。評估結(jié)果將被用來訓練一個代理模型,它可以在不訓練神經(jīng)網(wǎng)絡架構的情況下預測架構的性能。代理模型通過減少實際訓練的神經(jīng)網(wǎng)絡數(shù)量,使得算法能夠更高效地探索搜索空間。雖然該算法的效率已經(jīng)比之前的方法要高得多,但是其計算代價仍然很高,需要在100個GPU上訓練兩天才能得到最佳效果。
為了能夠?qū)⑸窠?jīng)網(wǎng)絡架構搜索成功應用于HAR中,本文重新定義了PNAS方法中的搜索空間和CNN結(jié)構,提出了一種改進的漸進式神經(jīng)網(wǎng)絡架構搜索算法。得益于新的搜索空間和CNN結(jié)構,改進后的PNAS將不再依賴于上百個GPU耗時數(shù)天的并行計算,僅需單塊GPU即可完成神經(jīng)網(wǎng)絡架構搜索的任務。通過在OPPORTUNITY數(shù)據(jù)集上與神經(jīng)網(wǎng)絡進化算法以及手工設計模型的對比實驗,證明了該方法設計出的模型能夠達到目前最高分類精度。
在過去的數(shù)十年中,神經(jīng)網(wǎng)絡已經(jīng)解決了很多具有挑戰(zhàn)性的問題,然而,它們的性能很大程度上取決于其拓撲結(jié)構。目前使用的大多數(shù)神經(jīng)網(wǎng)絡架構都是由設計者通過反復實驗手工設計的,這需要設計者投入大量的時間和精力,因此,研究者對自動設計神經(jīng)網(wǎng)絡架構的算法越來越感興趣。
神經(jīng)網(wǎng)絡架構搜索可以采用多種不同的搜索策略,包括隨機搜索、貝葉斯優(yōu)化、進化算法、強化學習和基于代理的優(yōu)化。隨機搜索無法利用先驗知識來指導對超參數(shù)的選擇,當模型很復雜時會導致訓練成本很高,盡管隨機搜索最終能得到最優(yōu)解,但是其搜索時間過長,僅具有理論可行性,不具備實際實施的條件。貝葉斯優(yōu)化(Bayesian Optimization, BO)不同于隨機搜索,該方法會先建立目標函數(shù)的概率模型,之后再基于概率模型來選擇最有潛力的超參數(shù),最后利用目標函數(shù)對所選的超參數(shù)進行性能評估,同時依據(jù)之前的信息來不斷更新概率模型;然而,貝葉斯優(yōu)化不能處理可變大小和可變連接模型。
2002年,Stanley等[10]提出了一種可同時優(yōu)化模型結(jié)構及其權重的進化系統(tǒng)。然而,將具有數(shù)百萬權值的現(xiàn)代神經(jīng)網(wǎng)絡用于監(jiān)督學習任務上時,基于隨機梯度下降的權重優(yōu)化方法的表現(xiàn)會優(yōu)于進化算法。因此,近年來的工作[11-13]僅使用進化算法優(yōu)化神經(jīng)網(wǎng)絡結(jié)構本身,并使用基于梯度的方法來優(yōu)化權重。一種基于語法進化的神經(jīng)網(wǎng)絡進化算法已經(jīng)被應用于可穿戴傳感器數(shù)據(jù)的人體運動識別[19]。該算法被用于設計能夠最大化OPPORTUNITY數(shù)據(jù)集上F1分數(shù)的最優(yōu)架構,證明了進化算法能夠設計出在OPPORTUNITY數(shù)據(jù)集上表現(xiàn)優(yōu)異的分類模型。
許多研究者將神經(jīng)網(wǎng)絡架構搜索定義為強化學習問題,將網(wǎng)絡結(jié)構的生成過程看作是智能體選擇動作的過程,其動作空間與搜索空間相同,將網(wǎng)絡結(jié)構在測試集上的性能評估結(jié)果作為獎勵返還給智能體更新參數(shù)。不同的強化學習方法使用不同的策略來訓練智能體,包括策略梯度[14]、Q學習[15]和近端策略優(yōu)化方法[16]。Zoph等[17]提出了一種基于cell的搜索空間,最終的網(wǎng)絡結(jié)構由cell堆疊組成。由于cell的層數(shù)通常比整體結(jié)構的層數(shù)少很多,因此其搜索空間大大減小。
最近,基于代理的優(yōu)化方法因其高效的評估策略而受到人們的關注,核心是基于序列模型的優(yōu)化(Sequential Model-Based Optimization, SMBO),該方法需要學習一個能預測抽樣模型的驗證準確度的代理函數(shù)。每一步都只選擇預測性能最優(yōu)秀的個候選架構用于進一步的順序搜索。Negrinho等[20]首次將SMBO應用到神經(jīng)網(wǎng)絡架構搜索中,但是由于其扁平的CNN結(jié)構,最后搜索得到的網(wǎng)絡架構表現(xiàn)并不是很好。最近,Liu等[18]率先將SO方法和cell搜索空間結(jié)合并成功在多個圖像分類數(shù)據(jù)集上搜索到了性能優(yōu)異的網(wǎng)絡架構。
本文方法建立在Zoph等[17]提出的分層方法之上,首先在搜索空間中學習cell的結(jié)構,然后將得到的cell進行堆疊以生成最終的網(wǎng)絡。


所有的候選操作都是由2個卷積層堆疊而成,本文最終構建的CNN模型的層數(shù)相較于圖像識別模型的層數(shù)更少,相較于使用單個卷積層,堆疊的卷積層擁有更好的性能。
要評估1個cell的結(jié)構,首先得將其轉(zhuǎn)換為最終的CNN,為此將3個cell進行了堆疊形成最終的CNN,如圖1所示。3個cell的步長均為2,卷積核數(shù)量分別為16、32和64。網(wǎng)絡的最后兩層為全局平均池化層和softmax分類層,之后將在傳感器數(shù)據(jù)集上對堆疊好的模型進行訓練。

圖1 堆疊成的CNN結(jié)構
本文CNN的構造過程只使用了步長為2的cell而沒有使用步長為1的cell,這是因為傳感器數(shù)據(jù)的特征相對于圖像特征更容易提取,無需使用更深層的網(wǎng)絡即可完成特征提取;其次在于本文可選的操作和輸入更少,基于cell的搜索空間略小。
許多搜索算法直接探索基于cell的搜索空間,如NAS網(wǎng)絡[17]是由50步的長短期記憶(Long Short-Term Memory, LSTM)控制器直接生成的完整cell結(jié)構堆疊成的。然而在指數(shù)大的搜索空間中找對探索的方向是非常困難的,特別是在一開始控制器并不知道好的模型是什么樣時。

采用學習代理函數(shù)來預測候選結(jié)構已經(jīng)用于許多工作[21-23]中。由于循環(huán)神經(jīng)網(wǎng)絡非常適合處理漸進式搜索算法所產(chǎn)生的可變長度的序列結(jié)構,本文采用LSTM循環(huán)神經(jīng)網(wǎng)絡作為代理函數(shù)來處理長度為2的輸入序列,每一步都將2個操作的one-hot編碼經(jīng)過一個嵌入層的輸出作為循環(huán)神經(jīng)網(wǎng)絡的輸入。LSTM最后一步的隱藏狀態(tài)將傳入一層全連接層,全連接層的輸出經(jīng)過sigmoid激活函數(shù)轉(zhuǎn)換為對輸入的序列結(jié)構在驗證集上識別準確度的回歸預測。輸入的序列結(jié)構都會被存儲起來,每次訓練新的結(jié)構時都先與存儲的結(jié)構進行對比,以避免訓練重復的網(wǎng)絡結(jié)構。代理函數(shù)訓練時使用的優(yōu)化器為Adam,損失函數(shù)由網(wǎng)絡結(jié)構實際準確度和預測準確度之間的均方誤差加上L2正則項組成。

圖2 當最大塊數(shù)為B=3時PNAS過程說明
本文全部實驗都是在OPPORTUNITY數(shù)據(jù)集上進行的。OPPORTUNITY數(shù)據(jù)集[24]包含一組從布滿傳感器的環(huán)境中采集的人類日常活動(Activities of Daily Living, ADL)數(shù)據(jù)和按規(guī)定流程執(zhí)行的活動(drill)數(shù)據(jù),傳感器的采樣頻率為30 Hz。此數(shù)據(jù)集的一個子集還被用于OPPORTUNITY運動識別挑戰(zhàn)賽,該子集由5名受試者的運動記錄組成,傳感器設置方面只考慮了放置在受試者身上的傳感器。將每個傳感器軸都視為一個維度,數(shù)據(jù)尺寸一共有113個維度。
本文實驗部分集中解決挑戰(zhàn)賽中定義的對非周期性手勢進行識別的任務。本文對傳感器數(shù)據(jù)進行了預處理,先用線性插值填充缺失值,再對每個通道進行歸一化處理,最后利用固定寬度為2.13 s(窗口寬度為64)滑動窗口以50%重疊的滑動步長對數(shù)據(jù)進行了分割。表1統(tǒng)計了數(shù)據(jù)集中不同動作類型的具體數(shù)目。
本文將使用與挑戰(zhàn)賽相同的數(shù)據(jù)集設置,將第一個受試者的所有ADL和drill以及受試者2和3的ADL1、ADL2和drill用作模型訓練。使用由受試者2和3的ADL4和ADL5組成的測試集評估模型分類性能,受試者2和3的ADL3數(shù)據(jù)集被留下來作為驗證集搜索最優(yōu)架構。在全部21 144個樣本中,訓練集和驗證集共包含17 435個樣本,測試集包含3 709個樣本。每個候選CNN都會在訓練集上訓練5個epochs并在驗證集上進行分類驗證,驗證集上的分類準確率將被保存下來用于訓練代理函數(shù)。

表1 數(shù)據(jù)統(tǒng)計信息
本文采用基于LSTM的代理函數(shù)來預測候選網(wǎng)絡的表現(xiàn)。整個網(wǎng)絡由嵌入層、LSTM循環(huán)層和全連接層組成,其中嵌入層的作用是將不同的序列結(jié)構轉(zhuǎn)化成向量作為LSTM的輸入。嵌入層輸出維數(shù)和LSTM循環(huán)層神經(jīng)元個數(shù)都為100,嵌入層使用均勻分布初始化將參數(shù)初始化到區(qū)間[-1,1],LSTM循環(huán)層使用全零初始化將參數(shù)初始化為0。模型訓練時采用Adam優(yōu)化器,學習率設置為0.001。
按照cell結(jié)構復雜度的順序?qū)蜻xCNN模型進行訓練和評估。當cell只有一個block時,cell只有28種不同的結(jié)構,所以第一階段只評估這28個網(wǎng)絡,在其余階段將評估128個網(wǎng)絡。限定cell最多由=5塊block組成,每個子網(wǎng)絡都由3個cell串聯(lián)而成,訓練子網(wǎng)絡時的初始學習率為0.001,為使模型在訓練時更加穩(wěn)定,采用余弦衰減來動態(tài)調(diào)整學習率。本文的深度神經(jīng)網(wǎng)絡算法都是基于Python 語言的 TensorFlow2.0 神經(jīng)網(wǎng)絡框架實現(xiàn)的。所有的實驗都是在 Ubuntu linux 服務器上進行的,服務器上的 CPU 為 Intel Core i7-6850K,GPU 為 NVIDIA GTX 2080ti。
表2展示了整個搜索過程中表現(xiàn)最好的5個模型的識別準確度和它們的拓撲結(jié)構,后續(xù)將它們整體稱為top5模型。表現(xiàn)最優(yōu)的子網(wǎng)絡的識別準確度為0.943 8,這是在訓練集上訓練5個epochs后在驗證集上取得的識別準確度。此外,其余的子網(wǎng)絡也取得了與最優(yōu)子網(wǎng)絡相當?shù)谋憩F(xiàn),識別準確度都在0.94以上。需要注意的是表中展示的僅為驗證集上的準確度,并不代表模型的最終表現(xiàn)。

表2 排名前五的模型的拓撲結(jié)構和準確度
從表2中可以統(tǒng)計出不同操作組合被選擇的次數(shù),其中被選取次數(shù)最多的組合為(5×5-5×5, 3×3-3×3),總共被選取了10次;(3×5-5×3,5×5-5×5)位列第2,總共被選取了5次;(5×5-5×5,5×5-5×5)和(5×5-5×5,2×6-6×2)并列第3,都被選取了2次。Top5模型中只有一個模型是由包含4個block的cell構成的,其余4個模型的cell都包含5個block,這證明了多個block并聯(lián)的序列結(jié)構能夠有效提高模型識別準確度。識別準確度排在第1位的模型只包含4個block,而其中有3個block都是被選取次數(shù)最多的組合方式,這也是為什么該模型在少1個block的情況下還能排在第一位。同時沒有模型選擇1×5-5×1的操作,說明該操作在提升識別性能上效果并不顯著。
值得一提的是在評估只包含1個block的模型時,性能表現(xiàn)排在前5位的組合方式與top5模型中選取次數(shù)最多的組合方式是高度重合的,這意味著代理函數(shù)能夠根據(jù)現(xiàn)有子網(wǎng)絡的表現(xiàn)有效篩選出更有潛力的候選網(wǎng)絡。此外,還可以看到所有模型都至少選擇了四種選取次數(shù)最多的操作組合中的兩種,這種不同個體之間在結(jié)構上的一致性也證明了這些組合方式的優(yōu)越性。
在漸進式神經(jīng)網(wǎng)絡架構搜索完成對所有子網(wǎng)絡的評估之后,本文使用整個訓練集對表現(xiàn)最好的20個模型進行60個epoch的訓練,并在測試集上進行評估,當模型在20個epoch內(nèi)測試集準確度沒有提高就提前結(jié)束訓練,最后30個epoch的F1分數(shù)將用來計算統(tǒng)計值,最終統(tǒng)計結(jié)果見圖3和表3。

圖3 表現(xiàn)最好的20個模型的F1分數(shù)分布

表3 表現(xiàn)最好的20個模型的F1分數(shù)的統(tǒng)計信息
表3中模型F1分數(shù)最大值達到了0.930 8,高于現(xiàn)有記錄中手工設計模型的最高得分0.927[6],同時顯著高于由進化算法搜索得到的單個模型的最高得分0.918 5[19],模型得分對比見表4。其中:DeepConvLSTM是由卷積層和LSTM循環(huán)層組成的深度學習框架,b-LSTM-S是基于雙向LSTM的神經(jīng)網(wǎng)絡架構,EA-single-best是進化算法搜索到的最優(yōu)架構,EA-Ensemble-best是進化算法搜索到的表現(xiàn)最好的前20個模型組成的集成模型,PNASNet-best是漸進式神經(jīng)網(wǎng)絡架構搜索算法搜索到的最優(yōu)架構。
從表3中可以看到前20個模型的表現(xiàn)基本都與目前最優(yōu)秀的手工設計模型相當,這不僅依賴于模型本身的結(jié)構更依賴于搜索算法從成千上萬個模型中篩選出這些最具潛力的模型。表3中表現(xiàn)最好的兩個模型分別是13號和18號模型,兩個模型的F1分數(shù)最大值均達到了0.93,其中13號模型在均值、中位數(shù)以及最大值得分上均略高于18號模型,這說明13號模型的表現(xiàn)更加優(yōu)異,所以將13號模型作為搜索到的最優(yōu)架構,模型的cell結(jié)構見圖4。

表4 不同模型的最優(yōu)結(jié)果比較
圖5是最優(yōu)架構在OPPORTUNITY數(shù)據(jù)集上的混淆矩陣。混淆矩陣含有模型預測類別和實際類別的信息,可以確定分類錯誤的類別和數(shù)量,方便對分類錯誤的原因進行分析。由于類別數(shù)量分布不均衡,本文對每一個類別都進行了歸一化處理以便可視化。不足1%的情況都已經(jīng)被遮蓋,因此一行中的數(shù)字之和可能不等于1。大多數(shù)動作都或多或少地被歸類為“無動作”,這種情況在關閉抽屜1、擦桌子和撥開關這幾類中最為明顯。打開動作和關閉動作也非常容易混淆,然而這種混淆主要發(fā)生在開關門1時,另一扇門并沒有出現(xiàn)這種情況。系統(tǒng)有時無法區(qū)分抽屜1和抽屜2,唯一一個召回率低于50%的動作就是打開抽屜2(31%),有19%的該動作被錯誤地分類為打開抽屜1。這可能是因為不同的抽屜都是相鄰的。
模型對撥開關和擦桌子兩種行為識別也不夠準確。對撥開關識別不準確的原因可能是撥開關的動作幅度非常小,因此模型可能無法識別到受試者已經(jīng)執(zhí)行了一個動作;而對擦桌子識別不準確可能是因為沒有具體指定擦桌子的方式和范圍,導致不同受試者執(zhí)行該動作時行為存在差異。另一方面,模型在識別開關門和開關冰箱時擁有更高的準確性,這可能是因為不同受試者在執(zhí)行這些動作時行為非常相似。

圖4 漸進式神經(jīng)網(wǎng)絡架構搜索算法找到的最優(yōu)cell結(jié)構

圖5 OPPORTUNITY數(shù)據(jù)集上的混淆矩陣
在大多數(shù)情況下,打開某個對象總是容易和關閉某個對象混淆,反之亦然。例如59%的開門1被正確分類,但27%的該動作被錯誤分類為關門1;同樣地,77%的關門1被正確分類,23%的關門1被錯誤分類為開門1。這種錯誤在所有對象上都有不同程度的體現(xiàn)。然而,在對象為抽屜時行為間的混淆更為嚴重,錯誤的分類不僅僅發(fā)生在打開和關閉之間,同樣也出現(xiàn)在不同抽屜之間。例如,19%的關閉抽屜3被認為是關閉抽屜2,但是這些錯誤是可以被接受的,因為這三個抽屜是在同一個家具內(nèi)相互挨著的[24]。盡管抽屜和洗碗機并沒有彼此挨著,還是有17%的關閉抽屜2被錯誤地分類為關閉洗碗機。
本文的主要貢獻是通過實驗證明了在基于可穿戴傳感器的人體運動識別任務中應用漸進式神經(jīng)網(wǎng)絡架構搜索能夠取得良好的結(jié)果。與許多之前的方法相比,本文最終使用的神經(jīng)網(wǎng)絡的拓撲結(jié)構是自動設計的,避免了手工設計拓撲結(jié)構時需要大量時間和專家先驗知識的問題,這是大多數(shù)深度學習應用中的顯著缺陷。此外,OPPORTUNIY數(shù)據(jù)集上獲得的最優(yōu)架構在應用到其他具有不同傳感器設置或不同人類活動的識別任務上時可能無法正常工作,在這種情況下能夠自動搜索最優(yōu)拓撲的架構搜索算法可以更加便捷地將深度學習應用于各種領域和問題。
在未來的工作中,計劃將該方法應用于涉及更多傳感器的數(shù)據(jù)集或使用更常見的傳感器設置的人類運動識別任務中,如利用智能手機或其他可穿戴設備中的傳感器數(shù)據(jù);在傳感器通道數(shù)、傳感器設置等任務參數(shù)存在差異但整體相似的情況下,研究不同任務中學習到的最優(yōu)拓撲是否可以相互遷移。
[1] 鄭浦,白宏陽,李政茂,等. 抖動干擾下運動目標精準檢測與跟蹤算法設計[J]. 儀器儀表學報, 2019, 40(11):90-98.(ZHENG P, BAI H Y, LI Z M, et al. Design of accurate detection and tracking algorithm for moving target under jitter interference[J]. Chinese Journal of Scientific Instrument, 2019, 40(11): 90-98.)
[2] 吳天舒,陳蜀宇,吳朋. 全生命周期健康監(jiān)測診斷系統(tǒng)研究[J]. 儀器儀表學報, 2018, 39(8):204-211.(WU T S, CHEN S Y, WU P. Research on the life cycle health monitoring and diagnosis system[J]. Chinese Journal of Scientific Instrument, 2018, 39(8): 204-211.)
[3] ALAA M, ZAIDAN A A, ZAIDAN B B, et al. A review of smart home applications based on internet of things[J]. Journal of Network and Computer Applications, 2017, 97: 48-65.
[4] CORNACCHIA M, OZCAN K, ZHENG Y, et al. A survey on activity detection and classification using wearable sensors[J]. IEEE Sensors Journal, 2017, 17(2): 386-403.
[5] ORDó?EZ F J, ROGGEN D. Deep convolutional and LSTM recurrent neural networks for multimodal wearable activity recognition[J]. Sensors, 2016, 16(1): No.115.
[6] HAMMERLA N Y, HALLORAN S, PL?TZ T. Deep, convolutional, and recurrent models for human activity recognition using wearables[C]// Proceedings of the 25th International Joint Conference on Artificial Intelligence. California: IJCAI.org, 2016: 1533-1540.
[7] WANG K, HE J, ZHANG L. Attention-based convolutional neural network for weakly labeled human activities’ recognition with wearable sensors[J]. IEEE Sensors Journal, 2019, 19(17): 7598-7604.
[8] TENG Q, WANG K, ZHANG L, et al. The layer-wise training convolutional neural networks using local loss for sensor-based human activity recognition[J]. IEEE Sensors Journal, 2020, 20(13): 7265-7274.
[9] 鄭增威,杜俊杰,霍梅梅,等. 基于可穿戴傳感器的人體活動識別研究綜述[J]. 計算機應用, 2018, 38(5):1223-1229, 1238.(ZHENG Z W, DU J J, HUO M M, et al, Review of human activity recognition based on wearable sensors[J]. Journal of Computer Applications, 2018, 38(5): 1223-1229, 1238.)
[10] STANLEY K O, MIIKKULAINEN R. Evolving neural networks through augmenting topologies[J]. Evolutionary Computation, 2002, 10(2): 99-127.
[11] REAL E, MOORE S, SELLE A, et al. Large-scale evolution of image classifiers[C]// Proceedings of the 34th International Conference on Machine Learning. New York: JMLR.org, 2017: 2902-2911.
[12] SUGANUMA M, SHIRAKAWA S, NAGAO T. A genetic programming approach to designing convolutional neural network architectures[C]// Proceedings of the 2017 Genetic and Evolutionary Computation Conference. New York: ACM, 2017: 497-504.
[13] ELSKEN T, METZEN J H, HUTTER F. Efficient multi-objective neural architecture search via Lamarckian evolution[EB/OL]. (2019-02-26) [2021-05-17].https://arxiv.org/pdf/1804.09081.pdf.
[14] WILLIAMS R J. Simple statistical gradient-following algorithms for connectionist reinforcement learning[J]. Machine Learning, 1992, 8(3/4): 229-256.
[15] BAKER B, GUPTA O, NAIK N, et al. Designing neural network architectures using reinforcement learning[EB/OL]. (2017-03-22) [2021-05-17].https://arxiv.org/pdf/1611.02167.pdf.
[16] ZOPH B, LE QUOC V. Neural architecture search with reinforcement learning[EB/OL]. (2017-02-15) [2021-05-17].https://arxiv.org/pdf/1611.01578.pdf.
[17] ZOPH B, VASUDEVAN V, SHLENS J, et al. Learning transferable architectures for scalable image recognition[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 8697-8710.
[18] LIU C X, ZOPH B, NEUMANN M, et al. Progressive neural architecture search[C]// Proceedings of the 2018 European Conference on Computer Vision, LNCS 11205. Cham: Springer, 2018: 19-35.
[19] BALDOMINOS A, SAEZ Y, ISASI P. Evolutionary design of convolutional neural networks for human activity recognition in sensor-rich environments[J]. Sensors, 2018, 18(4): No.1288.
[20] NEGRINHO R, GORDON G. DeepArchitect: automatically designing and training deep architectures[EB/OL]. (2017-04-28) [2021-05-17].https://arxiv.org/pdf/1704.08792.pdf.
[21] BROCK A, LIM T, RITCHIE J M, et al. SMASH: one-shot model architecture search through HyperNetworks[EB/OL]. (2017-08-17) [2021-05-17].https://arxiv.org/pdf/1708.05344.pdf.
[22] DOMHAN T, SPRINGENBERG J T, HUTTER F. Speeding up automatic hyperparameter optimization of deep neural networks by extrapolation of learning curves[C]// Proceedings of the 24th International Joint Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2015: 3460-3468.
[23] BAKER B, GUPTA O, RASKAR R, et al. Accelerating neural architecture search using performance prediction[EB/OL]. (2017-11-08) [2021-05-17].https://arxiv.org/pdf/1705.10823.pdf.
[24] CHAVARRIAGA R, SAGHA H, CALATRONI A, et al. The opportunity challenge: a benchmark database for on-body sensor-based activity recognition[J]. Pattern Recognition Letters, 2013, 34(15): 2033-2042.
[25] YANG J B, NGUYEN M N, SAN P P, et al. Deep convolutional neural networks on multichannel time series for human activity recognition[C]// Proceedings of the 24th International Joint Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2015: 3995-4001.
WANG Zhenyu, born in 1996, M. S. candidate. His research interests include deep learning, pattern recognition, natural language processing.
ZHANG Lei, born in 1979, Ph. D., associate professor. Hisresearch interests include motion recognition, machine learning.
GAO Wenbin, born in 1996, M. S. candidate. His research interests include computer vision, signal processing, object detection.
QUAN Weiming, born in 1996, M. S. candidate. His research interests include artificial intelligence.
Human activity recognition based on progressive neural architecture search
WANG Zhenyu, ZHANG Lei*, GAO Wenbin, QUAN Weiming
(,,210023,)
Concerning the sensor data based activity recognition problem, deep Convolutional Neural Network (CNN) was used to perform activity recognition on public OPPORTUNITY sensor dataset, and an improved Progressive Neural Architecture Search (PNAS) algorithm was proposed. Firstly, in the process of neural network model design, without manual selection of suitable topology, PNAS algorithm was used to design the optimal topology in order to maximize the F1 score. Secondly, a Sequential Model-Based Optimization (SMBO) strategy was used, in which the structure space was searched in the order of low complexity to high complexity, while a surrogate function was learned to guide the search of the structure space. Finally, the top 20 models with the best performance in the search process were fully trained on OPPORTUNIT dataset, and the best performing model was selected as the optimal architecture searched. The F1 score of the optimal architecture searched in this way reaches 93.08% on OPPORTUNITY dataset, which is increased by 1.34% and 1.73% respectively compared with those of the optimal architecture searched by evolutionary algorithm and DeepConvlSTM, which indicates that the proposed method can improve previously manually-designed architectures and is feasible and effective.
Human Activity Recognition (HAR); deep learning; Neural Architecture Search (NAS); Convolutional Neural Network (CNN); Sequential Model-Based Optimization (SMBO)
This work is partially supported by National Natural Science Foundation of China (61971228), Natural Science Foundation of Jiangsu Province (BK20191371).
TP391.4
A
1001-9081(2022)07-2058-07
10.11772/j.issn.1001-9081.2021050798
2021?05?17;
2021?09?13;
2021?09?22。
國家自然科學基金資助項目(61971228);江蘇省自然科學基金資助項目(BK20191371)。
王震宇(1996—),男,江蘇揚州人,碩士研究生,主要研究方向:深度學習、模式識別、自然語言處理; 張雷(1979—),男,江蘇南京人,副教授,博士,主要研究方向:運動識別、機器學習; 高文彬(1996—),男,江蘇鹽城人,碩士研究生,主要研究方向:計算機視覺、信號處理、目標檢測; 權威銘(1996—),男,安徽宿州人,碩士研究生,主要研究方向:人工智能。