楊煜+張煒



摘要:隨著人體運(yùn)動(dòng)數(shù)據(jù)采集技術(shù)的發(fā)展,基于數(shù)據(jù)的人體運(yùn)動(dòng)的研究越來越受到人們的關(guān)注。人體運(yùn)動(dòng)的研究在醫(yī)療康復(fù)、運(yùn)動(dòng)訓(xùn)練、虛擬現(xiàn)實(shí)、以及影視和游戲等領(lǐng)域有著很大的應(yīng)用空間。人體動(dòng)作分類就是基于大量已標(biāo)注動(dòng)作名稱的人體動(dòng)作,對(duì)未標(biāo)注的人體動(dòng)作進(jìn)行分類標(biāo)注。在本文中,研究提出了一種基于長短時(shí)記憶網(wǎng)絡(luò)(LSTM)的人體動(dòng)作分類模型。首先,將人體動(dòng)作表示為時(shí)間序列的形式。然后,將人體動(dòng)作序列逐幀輸入到去掉輸出層的正向和反向LSTM中,并將隱藏層輸出依次送入Mean pooling層和邏輯回歸層得到最終的分類結(jié)果。最后,研究利用目前流行的深度學(xué)習(xí)平臺(tái)TensorFlow實(shí)現(xiàn)本次研發(fā)的分類模型并進(jìn)行訓(xùn)練。基于此,又進(jìn)一步利用人體動(dòng)捕數(shù)據(jù)庫HDM05的數(shù)據(jù)進(jìn)行實(shí)驗(yàn)來驗(yàn)證提出的分類模型,經(jīng)過訓(xùn)練,該模型在測(cè)試集上的分類準(zhǔn)確率達(dá)到了94.84%。
關(guān)鍵詞: 人體動(dòng)作分類; 長短時(shí)記憶網(wǎng)絡(luò); 時(shí)間序列; TensorFlow; HDM05
中圖分類號(hào): TP183
文獻(xiàn)標(biāo)志碼:A
文章編號(hào):2095-2163(2017)05-0041-05
Abstract:With the development of human motion data acquisition technology, the research of human motion based on data has attracted more and more attentions. The research of human motion has great application space in medical rehabilitation, sports training, virtual reality, film and television, games and so on. Human action classification aims to classify unlabeled human actions based on a large number of labeled human actions. This paper proposes a human action classification model based on Long Short-Term Memory network (LSTM). Firstly, represent human actions as a form of time series; then, input one human action by frame order into two LSTMs without output layer, one is forward LSTM and the other is backward LSTM, and pass the hidden layer outputs of LSTMs into the Mean pooling layer and the logical regression layer to get the final classification results; finally, implement the classification model and train it with the popular deep learning platform of TensorFlow. The research uses the data of human motion capture database HDM05 to validate the proposed classification model, and the accuracy rate of the classification model reaches 94.84% on test set.
Keywords: classification of human actions; LSTM; time series; TensorFlow; HDM05
收稿日期: 2017-06-06
1概述
隨著人體運(yùn)動(dòng)數(shù)據(jù)采集技術(shù)的發(fā)展,基于數(shù)據(jù)的人體運(yùn)動(dòng)的研究越來越受到人們的關(guān)注。人體運(yùn)動(dòng)的研究在醫(yī)療康復(fù)、運(yùn)動(dòng)訓(xùn)練、虛擬現(xiàn)實(shí)、人機(jī)交互、以及影視和游戲等有著很大的應(yīng)用空間。
人體運(yùn)動(dòng)可以表示為人體各部分在3D空間中的運(yùn)動(dòng)[1],而人體動(dòng)作可以看作是人體運(yùn)動(dòng)過程中的一個(gè)完整獨(dú)立的動(dòng)作片段,例如可以把屈膝、跳起、落地的這一段人體運(yùn)動(dòng)看作一個(gè)“跳躍”動(dòng)作。人體動(dòng)作的表示通常是基于各關(guān)節(jié)點(diǎn)的位置的[2]或基于身體各部分的旋轉(zhuǎn)姿態(tài)的[3-4]。在本文中,研究將利用人體各部分的旋轉(zhuǎn)姿態(tài)來表示人體動(dòng)作,人體動(dòng)作可以看作以一個(gè)時(shí)間序列[3,5-6],序列中每一幀為身體各部分用四元數(shù)表示的旋轉(zhuǎn)姿態(tài)。
人體動(dòng)作分類問題是人體運(yùn)動(dòng)研究的重要問題之一。人體動(dòng)作分類是基于大量已標(biāo)注動(dòng)作名稱的人體動(dòng)作,對(duì)未標(biāo)注的人體動(dòng)作進(jìn)行分類標(biāo)注。人們?yōu)榻鉀Q人體動(dòng)作分類問題應(yīng)用了許多分類算法。隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展,許多研究者嘗試用已經(jīng)構(gòu)建的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行人體動(dòng)作的分類并取得了很好的效果。譬如Du等[2]利用分層級(jí)聯(lián)的多個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)人體動(dòng)作進(jìn)行分類。Cho和Chen[7]將人體動(dòng)作序列的每一幀數(shù)據(jù)單獨(dú)拿出來訓(xùn)練神經(jīng)網(wǎng)絡(luò)并進(jìn)行分類,然后用投票法由各幀的分類結(jié)果得出序列分類的結(jié)果。Huang等[4]在將人體運(yùn)動(dòng)數(shù)據(jù)表示為李群的基礎(chǔ)上,應(yīng)用深度神經(jīng)網(wǎng)絡(luò)分類人體運(yùn)動(dòng)。
在本文中,研究構(gòu)建了由雙向LSTM神經(jīng)網(wǎng)絡(luò)和邏輯回歸層組成的人體動(dòng)作分類模型,并用TensorFlow平臺(tái)實(shí)現(xiàn)模型的搭建和訓(xùn)練過程。TensorFlow是谷歌開源的數(shù)值計(jì)算平臺(tái),其中集成了大量神經(jīng)網(wǎng)絡(luò)模型的代碼實(shí)現(xiàn),使其成為了一個(gè)強(qiáng)大的深度學(xué)習(xí)平臺(tái)。文獻(xiàn)[8]中就是用TensorFlow實(shí)現(xiàn)的基于BP神經(jīng)網(wǎng)絡(luò)的手寫字符識(shí)別方法。endprint
在接下來的部分,先介紹人體動(dòng)作分類的神經(jīng)網(wǎng)絡(luò)模型,再探討論述了其在TensorFlow平臺(tái)下的實(shí)現(xiàn)和訓(xùn)練,最后研究利用人體動(dòng)作捕獲數(shù)據(jù)庫HDM05[9]的數(shù)據(jù)進(jìn)行實(shí)驗(yàn)以驗(yàn)證模型的分類效果。
2分類模型
2.1人體動(dòng)作分類問題概述
本文中討論的人體動(dòng)作分類問題是基于分割好的人體動(dòng)作進(jìn)行的,每個(gè)人體動(dòng)作有唯一準(zhǔn)確的動(dòng)作類別標(biāo)簽。如前所述,人體動(dòng)作分類就是基于大量已標(biāo)注類別的動(dòng)作,對(duì)未標(biāo)注的動(dòng)作進(jìn)行分類標(biāo)注。人體動(dòng)作分類模型的訓(xùn)練和
對(duì)于分類問題,一般來說需要關(guān)注2個(gè)問題,即每條實(shí)例的數(shù)據(jù)形式,以及分類所用的算法或模型。在這里,首先介紹人體動(dòng)作的數(shù)據(jù)表示,在后面的章節(jié)中重點(diǎn)深度剖析本文提出的分類模型及其在TensorFlow平臺(tái)下的實(shí)現(xiàn)。
人體的結(jié)構(gòu)和形態(tài)十分復(fù)雜,不同人的體態(tài)差異也很大,因此則需要用人體骨骼模型來對(duì)人體進(jìn)行抽象。人體骨骼模型由抽象的骨頭和關(guān)節(jié)構(gòu)成,人體動(dòng)作可以看做是人體骨骼模型中所有骨頭的旋轉(zhuǎn)姿態(tài)構(gòu)成的一個(gè)時(shí)間序列。圖2所示的是一個(gè)簡單的包含17塊骨頭的人體骨骼模型,使用人體骨骼模型表示人體動(dòng)作使得對(duì)人體運(yùn)動(dòng)的研究可以方便地遷移到不同人或骨骼模型上去。
人體骨骼模型并不是人體分類問題研究的一個(gè)限制因素。對(duì)于具體的研究問題和人體動(dòng)作數(shù)據(jù)集,可以使用不同的人體骨骼模型進(jìn)行表示,比如有的數(shù)據(jù)采集包含了手指上的運(yùn)動(dòng),就要使用細(xì)化到手指的人體骨骼模型來替代用一個(gè)骨頭表示手部運(yùn)動(dòng)的模型。
可以看出這3個(gè)門的輸入都是xt和ht-1,同時(shí)每個(gè)門中有自己的權(quán)重和偏斜。這些參數(shù)隨著訓(xùn)練過程不斷調(diào)優(yōu),在狀態(tài)更新和隱藏層輸出值的計(jì)算上發(fā)揮作用。
TensorFlow是谷歌推出的第二代人工智能學(xué)習(xí)系統(tǒng),而且有著很多優(yōu)秀的特點(diǎn),對(duì)其闡釋如下:
1)高度的靈活性。TensorFlow不僅能夠用于搭建并訓(xùn)練各種神經(jīng)網(wǎng)絡(luò)模型,還可以完成很多其他計(jì)算任務(wù),用戶只需要將自己的計(jì)算模型設(shè)計(jì)成數(shù)據(jù)流圖的形式就可以應(yīng)用TensorFlow完成任務(wù)。
2)可移植性強(qiáng)。TensorFlow可以在CPU和GPU上運(yùn)行,這即使其能夠移植到臺(tái)式機(jī)、服務(wù)器和手機(jī)等許多設(shè)備上。
3)提供了大量機(jī)器學(xué)習(xí)的模型,使得科研和開發(fā)人員可以省去重寫底層實(shí)現(xiàn)的繁瑣工作。
4)自動(dòng)求微分。對(duì)于使用梯度下降法進(jìn)行訓(xùn)練的機(jī)器學(xué)習(xí)模型,用戶只需要定義損失函數(shù)以及模型中哪些參數(shù)是可訓(xùn)練的,TensorFlow就能夠自動(dòng)求微分導(dǎo)數(shù)并用梯度下降法訓(xùn)練模型參數(shù)。
5)性能優(yōu)化。對(duì)于多CPU和GPU的工作平臺(tái),TensorFlow能夠很好地支持多線程、隊(duì)列、異步操作等。
在TensorFlow下,可以使用python或C++的代碼來搭建數(shù)據(jù)流圖進(jìn)行計(jì)算。流圖中的節(jié)點(diǎn)表示數(shù)學(xué)操作,線表示在節(jié)點(diǎn)間傳遞的數(shù)據(jù)張量即多維數(shù)據(jù)數(shù)組。
用TensorFlow實(shí)現(xiàn)模型一般分為構(gòu)建數(shù)據(jù)流圖、訓(xùn)練模型、使用模型這3個(gè)階段。在TensorFlow中,可以用常量、變量、以及操作來構(gòu)建數(shù)據(jù)流圖。其中,變量包括輸入變量、可訓(xùn)練的變量以及其他變量。在流圖中加入輸入變量需要用占位符placeholder占位,之后在訓(xùn)練和使用模型時(shí)用feed操作將數(shù)據(jù)從placeholder輸入到模型中??捎?xùn)練的變量用來表示模型中的權(quán)重和偏移等參數(shù),在構(gòu)建這些變量時(shí)需要設(shè)置trainable = True。在訓(xùn)練階段,可以調(diào)用訓(xùn)練相關(guān)的操作使這些模型參數(shù)隨著訓(xùn)練數(shù)據(jù)得到訓(xùn)練。
3.2構(gòu)建TensorFlow流圖實(shí)現(xiàn)人體動(dòng)作分類模型
在TensorFlow中提供了LSTMCell操作來支持LSTM模型的搭建。LSTMCell相當(dāng)于LSTM模型的隱藏層,在內(nèi)部封裝了LSTM隱藏層包含的遺忘門、輸入門和輸出門等結(jié)構(gòu),同時(shí)還可根據(jù)研究需要設(shè)置隱藏層結(jié)點(diǎn)個(gè)數(shù)。
在用TensorFlow搭建神經(jīng)網(wǎng)絡(luò)的過程中,不再以神經(jīng)網(wǎng)絡(luò)中的節(jié)點(diǎn)為單位進(jìn)行布局,而是以層為基礎(chǔ)來考慮。因?yàn)橄馤STMCell這樣的TensorFlow操作直接代表了網(wǎng)絡(luò)中的一個(gè)隱藏層。因此包含多個(gè)節(jié)點(diǎn)的輸入層和輸出層也都用向量的形式來表示,向量長度即為該層節(jié)點(diǎn)的個(gè)數(shù)。
研究構(gòu)建的TensorFlow流圖如圖6所示。圖中膠囊形單元表示模型的輸入和輸出,矩形單元表示TensorFlow中的操作,圓形單元表示可訓(xùn)練的模型參數(shù)。在該數(shù)據(jù)流圖中,InputData是一個(gè)人體動(dòng)作實(shí)例,即一個(gè)多元時(shí)間序列。輸入數(shù)據(jù)InputData經(jīng)過dropout操作,dropout操作的目的是防止模型過于擬合。接下來,數(shù)據(jù)被傳入2個(gè)MultiRNNCell中,MultiRNNCell是TensorFlow提供的RNN的主要操作,相當(dāng)于RNN的整個(gè)隱藏層。圖中的MultiRNNCell中的內(nèi)容是其按時(shí)間展開圖,隱藏層用LSTMCell實(shí)現(xiàn),其中可以包含多個(gè)隱藏層。在圖中省略了反向MultiRNNCell的詳細(xì)內(nèi)容,因?yàn)?個(gè)MultiRNNCell的結(jié)構(gòu)相同,只是在輸入序列數(shù)據(jù)時(shí)一個(gè)按照正常順序輸入,另一個(gè)按照相反的順序進(jìn)行輸入。2個(gè)MultiRNNCell得到的輸出序列分別經(jīng)過ReduceMean操作得到與時(shí)間無關(guān)的平均向量h和hb,向量的長度即為隱藏層節(jié)點(diǎn)個(gè)數(shù)。最后,h和hb經(jīng)過一個(gè)手動(dòng)構(gòu)建的邏輯回歸層和softmax激活函數(shù),并用交叉熵?fù)p失函數(shù)來計(jì)算模型輸出與真實(shí)的類別標(biāo)簽的誤差。
以上就是本次研究利用TensorFlow搭建的基于LSTM的人體動(dòng)作分類模型。模型中的主要訓(xùn)練參數(shù)包括輸入層到隱藏層的權(quán)重和偏斜、LSTMCell中3個(gè)門的權(quán)重和偏斜、以及邏輯回歸層的權(quán)重和偏斜。給出損失函數(shù)Cost后,使用TensorFlow提供的訓(xùn)練操作可以自動(dòng)求Cost關(guān)于每個(gè)參數(shù)的微分導(dǎo)數(shù)并用梯度下降法對(duì)模型進(jìn)行訓(xùn)練。endprint
4實(shí)驗(yàn)
4.1實(shí)驗(yàn)數(shù)據(jù)
綜上研究論述后,即將用HDM05動(dòng)作捕獲數(shù)據(jù)庫[9]中的數(shù)據(jù)進(jìn)行實(shí)驗(yàn)以檢驗(yàn)分類模型的效果。HDM05中有2 337條切分好的人體動(dòng)作數(shù)據(jù),每個(gè)人體動(dòng)作都標(biāo)注了類別標(biāo)簽,共有130個(gè)類別。HDM05的人體動(dòng)作數(shù)據(jù)采集了人體31個(gè)部分的運(yùn)動(dòng)數(shù)據(jù),其網(wǎng)站上提供了將這些數(shù)據(jù)轉(zhuǎn)換成旋轉(zhuǎn)姿態(tài)四元數(shù)的代碼。
經(jīng)過觀察,進(jìn)一步發(fā)現(xiàn)HDM05數(shù)據(jù)庫中有些骨頭上的姿態(tài)四元數(shù)固定不變,比如左右肩的四元數(shù),為此選擇拋棄這些部分的數(shù)據(jù)不用,以免影響模型的效果。另外,由于這130個(gè)動(dòng)作類別都和頭頸的運(yùn)動(dòng)無關(guān),因此頭和脖子的數(shù)據(jù)也可以舍棄不用。最終,就實(shí)際確定了包括15個(gè)骨頭的數(shù)據(jù)進(jìn)行模型的訓(xùn)練和動(dòng)作的分類,具體來說則分別是: 左大腿、左小腿、左腳、右大腿、右小腿、右腳、腰下部、腰上部、胸、左大臂、左小臂、左手、右大臂、右小臂、右手。
對(duì)于HDM05中的130個(gè)類別標(biāo)簽有很多類別應(yīng)屬于相同的動(dòng)作,比如jogging starting from air和jogging starting from floor,jogging 2 steps和jogging 4 steps[2]。文獻(xiàn)[7]中將這130個(gè)類別合并成65個(gè)類別,在此基礎(chǔ)上文獻(xiàn)[2]指出有些類別仍難以區(qū)分,比如deposit和grab,這2個(gè)類別需要細(xì)化到手指的動(dòng)作才有可能區(qū)分,sitDownChair和sitDownTable在只有人體運(yùn)動(dòng)數(shù)據(jù)的情況下也難以識(shí)別桌子和椅子的不同。最終,本次研究就將文獻(xiàn)[7]中給出的65個(gè)類別合并成了54個(gè)類別進(jìn)行人體動(dòng)作的分類實(shí)驗(yàn),例如kickLFront和kickLSide合并,jogOnPlace和run合并,deposit和grab合并等。
由于每個(gè)人體動(dòng)作的時(shí)間長度不一,最長的動(dòng)作長度為901幀,還要將每個(gè)人體動(dòng)作放縮到統(tǒng)一長度為256幀。對(duì)于不足256幀的人體動(dòng)作,就需要在動(dòng)作的末尾用全零的幀將其補(bǔ)齊到256幀;對(duì)于長度超過256幀的人體動(dòng)作,將會(huì)在其中隨機(jī)不重復(fù)地選取256幀,并使其按照原來的順序構(gòu)成縮短后的序列。
4.2參數(shù)設(shè)置
輸入數(shù)據(jù)的每一幀包含15塊骨頭上的旋轉(zhuǎn)四元數(shù),因此模型的輸入節(jié)點(diǎn)可設(shè)置為60個(gè)。輸出層節(jié)點(diǎn)設(shè)置為54個(gè),與所有54個(gè)動(dòng)作類別相對(duì)應(yīng)。序列長度設(shè)為256,與研究規(guī)定的人體動(dòng)作統(tǒng)一長度一致。其他參數(shù)的設(shè)置將在表1中給出清晰呈現(xiàn)。
模型中的訓(xùn)練參數(shù)的初始化會(huì)對(duì)訓(xùn)練效果產(chǎn)生很大的影響,這里就選用TensorFlow提供的random_uniform_initializer對(duì)邏輯回歸層的訓(xùn)練參數(shù)進(jìn)行初始化,并用orthogonal_initializer方法對(duì)LSTMCell中的遺忘門、輸入門和輸出門的參數(shù)進(jìn)行初始化。此外,實(shí)踐證明在新建LSTMCell時(shí)將參數(shù)forget_bias從默認(rèn)的0調(diào)整為1.0會(huì)使模型的訓(xùn)練效果產(chǎn)生有所提升。研究將使用批量隨機(jī)梯度下降法進(jìn)行訓(xùn)練,也就是每次將4條訓(xùn)練實(shí)例一同輸入給模型對(duì)模型進(jìn)行訓(xùn)練。
4.3實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)過程中,將HDM05中的2 337個(gè)人體動(dòng)作按類別標(biāo)簽排序,然后在每相鄰的15個(gè)動(dòng)作中隨機(jī)選取1個(gè)人體動(dòng)作放入測(cè)試集,并將其他人體動(dòng)作放入訓(xùn)練集。這樣做保證了訓(xùn)練集和測(cè)試集的類別分布一致。而后,用訓(xùn)練集的全部動(dòng)作迭代訓(xùn)練模型50次,每次迭代會(huì)將訓(xùn)練集數(shù)據(jù)隨機(jī)重排列。為此,則記錄了每次迭代后模型的損失函數(shù)值以及模型在訓(xùn)練集和測(cè)試集上的分類準(zhǔn)確率,記錄結(jié)果如圖7和圖8所示。從圖中可以看出損失函數(shù)值隨著迭代而下降,而分類的準(zhǔn)確率隨著迭代而上升,最終兩者的變化都將趨于平穩(wěn),這也符合神經(jīng)網(wǎng)絡(luò)模型的一般訓(xùn)練過程。在50次迭代的過程中,模型在訓(xùn)練數(shù)據(jù)上的準(zhǔn)確率最高達(dá)到98.44%,在測(cè)試數(shù)據(jù)上的準(zhǔn)確率最高達(dá)到94.84%。
5結(jié)束語
在本文中,研究提出了一種基于LSTM神經(jīng)網(wǎng)絡(luò)的人體動(dòng)作分類模型。通過將人體動(dòng)作表示為時(shí)間序列的形式,序列上的每一幀由人體各部分的旋轉(zhuǎn)姿態(tài)四元數(shù)構(gòu)成。接著將人體動(dòng)作序列逐幀輸入到去掉輸入層的正向和反向LSTM中,并將隱藏層輸出送入Mean pooling層關(guān)于時(shí)間求平均,再將Mean pooling層的輸出送入邏輯回歸層得到最終的分類結(jié)果。
之后,又使用TensorFlow搭建了設(shè)計(jì)研發(fā)的分類模型,利用TensorFlow平臺(tái)提供的LSTMCell等操作將模型構(gòu)建成數(shù)據(jù)流圖的形式,并用TensforFlow自動(dòng)計(jì)算微分導(dǎo)數(shù)的功能選取梯度下降法訓(xùn)練模型。研究最后,則利用HDM05人體動(dòng)作捕獲數(shù)據(jù)庫的數(shù)據(jù)進(jìn)行實(shí)驗(yàn)驗(yàn)證了模型的分類效果,就是將HDM05的數(shù)據(jù)隨機(jī)劃分為訓(xùn)練集和測(cè)試集,用訓(xùn)練集訓(xùn)練模型后,該模型在測(cè)試集上的分類準(zhǔn)確率達(dá)到了94.84%.
YE M, ZHANG Q, WANG L, et al. A survey on human motion analysis from depth data[M]// GRZEGORZEK M, THEOBALT C, KOCH R, et al. Timeofflight and depth imaging. sensors, algorithms and applications.Lecture Notes in Computer Science. Berlin: Springer ,2013:149-187.
[2] DU Yong, WANG Wei, WANG Liang. Hierarchical recurrent neural network for skeleton based action recognition[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, MA, USA:IEEE,2015:1110-1118.endprint
[3] SEMPENA S, MAULIDEVI N U, ARYAN P R. Human action recognition using dynamic time warping[C]//International Conference on Electrical Engineering and Informatics, Iceei 2011. Bandung, Indonesia:IEEE, 2011:1-5.
[4] HUANG Zhiwu, WAN Chengde, PROBST T, et al. Deep learning on lie groups for skeleton-based action recognition[J]. arXiv preprint arXiv:1612.05877,2016.
[5] GONG Dian, MEDIONI G, ZHAO Xuemei. Structured time series analysis for human action segmentation and recognition[M]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014,36(7):1414-1427.
[6] LI Kang, FU Yun. Prediction of human activity by discovering temporal sequence patterns[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2014, 36(8):1644-1657.
[7] CHO K, CHEN X. Classifying and visualizing motion capture sequences using deep neural networks[C]// International Conference on Computer Vision Theory and Applications. Lisbon, Portugal:IEEE, 2014:122-130.
[8] 張俊, 李鑫. TensorFlow平臺(tái)下的手寫字符識(shí)別[J]. 電腦知識(shí)與技術(shù), 2016, 12(16):199-201.
[9] MLLER M, RDER T, CLAUSEN M, et al. Documentation mocap database HDM05[R]. Bonn:Universitt Bonn, 2007.
[10]GRAVES A. Supervised sequence labelling with recurrent neural networks[M]. Berlin: Springer, 2012.
[11]GRAVES A, MOHAMED A, HINTON G. Speech recognition with deep recurrent neural networks[C]//Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on. Vancouver, BC, Canada:IEEE, 2013, 38(2003):6645-6649.endprint