馬 永,洪 榛
1(浙江理工大學 機械與自動控制學院,杭州 310018)
2(浙江工業大學 信息工程學院,杭州 310023)
人口老齡化是世界性問題.預計到2050年,我國60 歲以上的老年人口將達4 億[1-4],相當于英國、法國、德國、意大利和日本人口的總和.因此,老人生活安全防護問題受到了社會各界的重視,老人日常生活護理設備也得到快速發展.同時,在現實生活中,老人們也常常因為一些其它的危險動作對身心健康造成損害.人們在享受數字生活,高效生活,智能生活的同時,安全生活成為新的需求[5-7].國家在“十三五”[8,9]中明確指出大力發展物聯網技術,將物聯網技術與工業生產以及人民生活結合起來.人體姿態勢識別技術將在人民的未來生活中扮演重要的角色.
為了精確識別人體姿態以及有效減少危險行為造成的危害,國內外學者進行了大量的研究工作.Ronao 等[10]提出了一種利用智能手機采集的加速度計和陀螺儀傳感器數據進行人體姿態識別的兩階段連續隱馬爾可夫模型(CHMM)方法.該方法由粗分類的一級CHMMs和精細分類的二級CHMMs 組成,利用隨機森林(RF)確定粗分類和細分類的最優特征子集.該方法中一級CHMMs 用于分離靜止的人體姿態和移動的人體姿態,二級CHMMs 用于對數據序列進行分類.該算法結合多級分類的思想進行姿態識別,算法復雜度較高.San-Segundo 等[11]提出了一種基于隱馬爾可夫模型的人類活動識別與分割系統.該系統利用智能手機的慣性信號來識別和分割六種不同的人體活動:走路、上樓、下樓、坐下、站立和躺下.實驗使用基于手機信號收集的公共人體行為數據集UCI;在UCI 數據集中取得了當時的最佳效果,分割錯誤率為2.1%.該算法基于公開數據集進行建模,算法的可移植性差且分類種類少.
在國內,雷玉超等[12]采用粘貼在羽毛球拍柄的單個加速度傳感器進行羽球動作的數據采集,使用滑動窗口進行擊球信號提取,提出了動作分幀結合K-means等無監督式學習算法進行聚類分析和矢量量化.通過建立HMM,改進訓練算法對羽球動作進行高效識別.識別率可達94%.該算法結合無監督聚類的思想對羽毛球動作進行多分類,算法穩定性較差.溫加睿等[13]提出了一種利用自學習特征及姿態組合規則進行有效動作識別的新方法.使用稀疏自編碼(SAE)網絡提取輪廓圖像的結構特征并構造姿態碼本.在識別階段,使用HMM 訓練不同動作類別的模型.設計了一種關鍵幀提取算法用于在訓練HMM 前降低長序列的冗余度.通過仿真實驗驗證了該方法的有效性.結合圖片信號的算法建模在一定程度上暴露了使用者的隱私.
針對現有的研究工作存在算法的移植性差,識別種類較少,且容易暴露使用者的隱私、算法耗時較長等問題.本文利用BWT901 傳感器對人體的八種姿態進行數據采集,構建高質量的數據集,在保護使用者隱私的前提下,使用GMM-HMM 算法對以下八種姿態進行建:前向跌倒(Fall front,Ff),后向跌倒(Fall backward,Fb),側向跌倒(Fall sideways,Fs),坐下 (Sit,Si),蹲下(Squat,Sq),上樓梯(Up the staris,Us),下樓梯(Down the staris,Ds),走路(Walk,Wk).
本文使用高精度的、高采樣頻率的BWT901 傳感器進行數據采集.其主要結構如圖1所示,該傳感器測量精度為0.01°,測量數據為三軸加速度,三軸角度,三軸角速度.

圖1 BWT901 傳感器結構
如圖1所示,模塊的軸向在圖中下角標示出來,向右為X 軸,向上為Y 軸,垂直與直面向外為Z 軸.旋轉的方向按照右手法則定義,即右手大拇指向軸向,四指彎曲的方向即為繞該軸旋轉的方向.
本章實驗人員為招募的志愿者,其中男性志愿者117 名,女性志愿者75 名.實驗過程每名志愿者根據動作要求,分別進行多組動作.每個實驗者結合自己的行為習慣重復上述的8 種行為10 次,累計每個動作收集有效數據1987 組.每一組數據記錄的是一個獨立的動作發生時段內的傳感器變化的原始值.實驗數據經過人工預處理后,排除因損失等原因造成的無效數據1356 條,獲得有效數據35 478 條.
本文中人體姿態數據采集實驗中在人體的以下部位(小腿、大腿)綁定BWT901 傳感器.如圖2所示,為實驗人員走路時人體小腿部位的傳感器數據的曲線變化.從數據曲線可以看出,人體走路姿態在的傳感器變化曲線存在明顯的周期.從傳感器的數據波形也可以看出每種動作的傳感器信號確實存在一定的周期性,但是每個周期信號又有差異.

圖2 小腿部位X 軸、Y 軸、Z 軸加速度傳感器曲線
如圖3所示,走路過程小腿部位X 軸的加速度特征曲線周期性明顯,每個周期可以劃分為4 個階段.對于人體的其它姿態的數據同樣如此,側向跌倒動作的其X 軸加速度階段之間非常明顯,但Z 軸和Y 軸加速度卻沒有隨著動作本身有一定周期性變化,這也符合人體幾種姿態的動作特點.

圖3 姿態階段劃分(X 軸)
人體各種姿態是一個連續的過程,整個動作對應的傳感器數據為一段連續的傳感器數據.滑動窗口提取特征的思想能夠有效的提取姿態序列的特征.不同姿態的傳感器數據序列的周期也不盡相同,前文中基于傳感器的曲線變化將人體姿態初步分為4 個不等長的階段,但每個階段的序列長度不等,且無法用一定規則進行計算,如圖4所示,滑動窗口提取特征非常適合本研究的方向,而且滑動窗口的跨度需要設定合理的數值.滑動窗口的跨度、相鄰窗口的位移幅度、以及窗口的重疊率等必須基于實際實驗數據和實際調參效果得到一個適用于本數據集的窗口值.

圖4 行走狀態小腿X 軸加速度及大腿Y 軸加速度滑窗處理
原始數據為連續的人體姿態九軸傳感器數據.直接原始數據用于隱馬爾可夫模型建模有可能導致模型過擬合,很難建立泛化能力強,魯棒性強的隱馬爾可夫模型.原始數據具有九個維度,本文將利用滑動窗口的方法在九個維度上提取人體姿態的特征,用于HMM建模.
對原始姿態傳感器特征序列可以從時域特征、頻域特征等角度進行特征提取.本文使用隱馬爾可夫模型作為人體姿態識別的基礎模型,這要求本文提取的特征需要具備馬爾可夫性.人體姿態傳感器數據序列是一組多維的隨著時間變化的物理信號數據,數據序列本身反用了人體姿態進行過程身體各個維度的變量的變化過程.為了能夠使人體動作序列的特征保持馬爾可夫性,本節將提取基于原始數據集的特定窗口的以下時域特征:窗數據均值、窗口數據相關系數、窗口過均值點數、窗口數據標準差、窗口數據最值.
本文將8 種人體姿態劃分為4 個階段,每個階段的觀測序列由多維傳感器數據的窗口特征得到.使用不同的密度函數將觀測序列和狀態序列進行擬合,得到兩者推理關系.人體姿態HMM 模型由以下3 個要素組成:每個階段初始狀態概率矩陣 π、狀態轉移概率矩陣A和觀測概率矩陣B.類似于經典的隱型馬爾可夫問題,設人體姿態的隱型馬爾可夫模型為 λ,則:

在人體姿態模型構造中,需要解決3 個基本問題[14-16]:狀態概率計算問題,模型學習問題,模型解碼問題.
假設當前狀態一定時,當前狀態發出的概率只與當前時刻有關,與之前和之后的狀態均沒有關系且下一步狀態轉移概率除了與當前狀態,與以前所有的狀態和發出觀測值無關.則如圖5所示,人體行為的4 個階段可以用1OHMM 建模.假設當前狀態與之前狀態受到前兩個狀態的影響,如圖6所示,則可以用2OHMM建模.

圖5 1OHMM 姿態識別模型

圖6 2OHMM 姿態識別模型
對于隱馬爾可夫人體姿態識別.HMM 的結構可以確定為左右歷經型.對于四階段人體姿態模型,其觀測值為連續的加速度數據,故人體姿態模型是連續隱馬爾可夫模型.對于人體姿態的4 個階段,每個階段之間的加速度數據差別較大,無法用一個統一的概率密度函數來描述這4 個階段,故本文對每個階段采取不同的高斯混合模型[17]來描述.
本文實驗共采集有效數據35 478 條.對于實驗數據窗口的設定本文對比了3 種窗口的大小,窗口大小和窗口重復率是根據人體姿態的不同階段來確定的.既要兼顧人體姿態的4 個階段的不同周期長度,不能完全覆蓋最小周期的階段,也要保證能夠較好的在各個階段之間跨度,以更好的提取人體姿態的階段的特征信息.具體實驗中,本文設置采樣頻率為20 Hz,窗口重復率為40%,訓練窗口數為900,則窗口大小分別為6,8,10 時,對應的測試窗口數分別為814,760,514.
表1,表2為窗口為6 時8 種人體姿態的性能指標數據表.根據實驗結果,表1的平均準確率為90.30%,平均召回率為89.34%.表2的二階模型平均準確率最高,達到了91.53%,平均召回率為91.96%.在測試集中,坐下(Si)在一階模型中召回率最高,達到了93.23%,同時精確率達到了91.76%.二階模型各方面性能最高,平均準確率達到了91.53%,所有姿態的召回率整體表現相比于一階模型較高.

表1 窗口為6 時1OHMM 性能

表2 窗口為6 時2OHMM 性能
如表3,表4所示,窗口為8 時8 種人體姿態的性能指標中可以看出,2OHMM 整體的性能優于其它模型.當窗口大小為8 時,1OHMM 的平均準確率為94.12%,平均召回率為94.25%.二階隱馬爾可夫模型的平均準確率最高,達到了95.23%,平均召回率為95.30%.一階模型在測試集中側向跌倒(Fs)的召回率最高,達到了96.77%.二階模型在測試集中走路(Wk)的召回率最高,達到了95.83%.

表3 窗口為8 時1OHMM 性能

表4 窗口為8 時2OHMM 性能
表5,表6為窗口為10 時8 種人體姿態的性能指標數據表.1OHMM 的平均準確率為93.06%,平均召回率為92.07%.二階模型的平均準確率最高,達到了94.31%,平均召回率為93.38%.向后跌倒(Fb)在一階模型中召回率最高,下蹲(Sq)召回率最低.二階模型整體的召回率較高,其中下蹲(Sq)的召回率最高,達到了94.36%.

表5 窗口為10 時1OHMM 性能

表6 窗口為10 時2OHMM 性能
本文試驗過窗口值選為12 時的模型性能,實驗結果相較于窗口值為10 時有所下降.因此,通過以上實驗對比可以得出以下結論:對于不同姿態加速度數據,不同的窗口大小下,2OHMM 識別效果較好,窗口大小為8 是最優參數值.如圖7所示,一階模型中大部分被誤判坐下的樣本被識別為后向跌倒;上樓梯中大部分被誤判的樣本被識別為蹲下;下樓梯中大部分被誤判的樣本被識別為坐下.如圖8所示,二階模型中大部分被誤判的下蹲樣本被識別為坐下;上樓梯中大部分被誤判的樣本被識別為前向跌倒;下樓梯中被誤判的樣本均被識別為側向跌倒.
如圖9所示,GMM-HMM 模型在數據集中的召回率和準確率均高于其他算法.其中KNN 算法選用的K 值為3 時,效果較好.SVM 采用高斯核函數表現最佳.在測試時間上,GMM-HMM 算法性能也相較于其他大多數算法耗時較少.

圖7 窗口數為8 時1OHMM 模型分類結果混淆矩陣

圖8 窗口數為8 時2OHMM 模型分類結果混淆矩陣

圖9 多種算法性能對比
本文采集了人體姿態傳感器序列,將人體姿態的常規動作劃分為4 個階段,使用滑動窗口的方法提取人體姿態序列的時域特征.探索高階隱馬爾可夫模型對人體姿態各個階段的狀態與前后狀態進行關聯.使用高斯混合模型擬合觀測序列的狀態分布.對模型的特征的敏感參數窗口大小,進行了不同長度的對比試驗.最終實現了對人體的8 種姿態的高精度識別,在本數據集上與其他算法進行了對比,證明了本文算法的在算法耗時較少的情況下,識別性能較好.基于便攜式傳感器的人體姿態識別能夠在保護使用者隱私的前提下進行工作,未來會成為研究熱點.該領域的發展也將推動國家的物聯網工程建設.