謝曉蘭,陳梓涵
(桂林理工大學 信息科學與工程學院,廣西 桂林 541004)
利用雷達開展人體動作特征的研究始于20世紀90年代,隨后發展較為迅速,但研究大多集中于人體目標的微動特征[1-2],且以微多普勒特征為主。人體微多普勒特征主要來自于人的肢體,部分來自于軀干。由于人體是一個復雜的介質體,在做動作時,軀干和肢體之間的相對運動與姿態變化形成的微多普勒特征十分復雜,不僅是時變的[3],而且有時比較微弱且不易穩定提取[3-4]。如軀干的雷達回波強度一般都明顯強于肢體,會造成軀干多普勒回波遮蔽肢體多普勒回波的現象,這對提取慢速動作的微多普勒特征十分不利,給基于微多普勒特征的人體動作識別帶來了挑戰。對于一些微多普勒特征較弱的人體動作,運動期間軀干或肢體的空間位置仍然會發生較顯著變化,如果能夠獲取人體這些位置相對于雷達的距離變化信息,將有助于提高人體動作的分類識別能力。Erol等[5]利用超寬帶雷達(ultra-wide band, UWB)獲取了老人摔倒動作的距離信息,降低了摔倒動作誤判的虛警率。
近幾年來,在雷達目標識別領域,深度學習方法也已得到研究者的關注:Feng等[6]利用堆棧校正自編碼器進行了基于高分辨距離像的雷達自動目標識別;Chen等[7]將改進后的深度卷積神經網絡(deep convolutional neural network, DCNN)成功應用于SAR圖像目標分類,克服了有限訓練集導致的低識別精度問題;Kim等[8]也使用DCNN對7種手勢的微多普勒特征進行識別,獲得了93.1%的識別精度。與傳統方法相比, 深度學習網絡可以逐層非線性組合低層特征,形成更加抽象的高層特征用于目標分類識別,在一定程度上避免或減輕了傳統方法因特征不穩定而導致識別精度下降的問題。
目前在人體動作雷達識別研究中, 應用深度學習方法的報道還比較少。 本文采用NVA6100單片沖激脈沖雷達, 對近距離人體動作進行了高距離分辨測量, 利用采集的人體動作回波數據構建了每個動作的時間-距離像, 然后通過DCNN對時間-距離像進行了分類識別處理。 設計了9種較典型的體育動作, 包括揮手、 打乒乓球、 拍籃球、 立定跳遠、 投保齡球 、踢足球、 墊排球、 投籃和拳擊等動作,并從3個不同人體目標錄取了5 000多組雷達回波數據。 數據經過DCNN處理, 9個動作獲得了96.67%的平均分類精度, 驗證了DCNN算法應用于人體動作雷達分類的可行性和有效性。
本文的實驗研究以人們熟知的若干體育動作為主, 開展人體動作的雷達分類識別研究。人體動作的雷達回波是研究人體動作散射特征提取和分類識別的基礎,在此首先分析人體目標雷達回波的獲取及其可能存在的特征。
大多數人體動作都存在肢體和/或軀干在空間位置上的較顯著變化,變化范圍通常在數厘米到數米。對于雷達來說,要獲取這些人體動作在空間位置的變化信息,必須采用寬帶雷達發射信號。眾所周知,雷達的測距能力與雷達發射信號帶寬有關,雷達的極限距離分辨率可表示為ΔR=c/2B(c為光速,B為雷達發射信號帶寬)。由此可見,要在距離上分辨小至厘米級的人體動作位置變化,雷達信號帶寬要達到幾GHz,甚至十幾GHz,在現有常用雷達工作頻段上,這種雷達一般都稱之超寬帶(UWB)雷達。
目前,較常用的UWB雷達發射波形有無載波沖激脈沖、線性調頻連續波、步進頻率連續波以及正交離散頻率編碼連續波等,其中無載波沖激脈沖是應用最多的一種UWB雷達信號,因受限于可產生的脈沖發射功率,該雷達的作用距離一般較近。無載波沖激脈沖UWB雷達由于具有超寬的信號頻譜和極高的距離分辨能力等優點,對于人體目標探測來說,能夠獲取豐富的人體動作位置信息和多普勒信息,對人體動作的分類識別十分有利。在本文的實驗研究中,采用了Novelda公司出品的NVA6100單片沖激脈沖雷達收發器,其發射波形為一階高斯脈沖,脈沖寬度約為300 ps,-10 dB發射頻譜覆蓋0.85~9.55 GHz,極限距離分辨率可達到2 cm,所以能夠滿足常規人體動作分類識別的要求。NVA6100單片雷達發射的時域波形和頻譜如圖1所示。
NVA6100雷達發射的一階高斯脈沖波形是基本高斯脈沖的一階微分形式,可表示為
(1)

圖1 NVA6100雷達的脈沖波形Fig.1 Pulse waveform of Radar NVA6100

沖的成形因子。若雷達目標是由M個靜止的理想點目標組成,點目標僅對波形的幅度和時延有影響,則沖激脈沖雷達接收信號(回波)可表示為
(2)
其中:Lp(i)是第i個點目標含衰減的幅度因子;GT(t)和GR(t)分別是發射和接收天線的增益系數;n為微分次數;τi為第i個點目標的雙程時延。沖激脈沖雷達的接收信號與發射信號之間呈現高階微分關系,是由收發天線對超寬帶沖激脈沖響應來決定的;n的取值與具體天線形式有關。
該式是理想目標沖激脈沖雷達回波的信號表達式,通常僅用于雷達回波的定性分析和仿真。而人體目標是一種多枝節柔性復雜介質目標,即使在靜止情況下,人體的電磁散射情況也是十分復雜的,要獲得較精確的人體目標雷達回波模型十分困難。不僅如此,對于運動中的人體目標,目前還沒有有效的雷達回波建模方法,所以在人體目標的雷達探測與分類識別中,實際測量還是經常采用實驗研究方式。
為了獲取人體目標的UWB雷達回波,開展人體動作的分類識別實驗研究,利用NVA6100單片沖激脈沖雷達搭建了一個室內實驗測量環境,UWB雷達實驗布局如圖2所示。雷達放置在高度約為0.8 m的測試臺上,人體面向雷達并相距1.5~2.0 m。為了降低對面墻壁的直接反射、地面和天花板的二次反射對人體回波測量的干擾,提高人體目標相對于背景環境的信雜比,在人體目標后面和左右兩側的2~4 m處設置了高度約為2.5 m的吸波材料墻。

圖2 UWB雷達實驗布局示意圖Fig.2 Experimental layouts of Radar UWB
在人體動作實驗中,選擇和設計了9種較具典型性的體育動作,可以覆蓋推、拉、鞭打、緩沖、蹬伸、擺動、扭動和相向運動等基本動作類型,包括揮手、打乒乓球、拍籃球、立定跳遠、投保齡球、踢足球、墊排球、投籃球和拳擊等動作,如圖3所示。除了立定跳遠需要在一定距離范圍進行以外,其余動作均在原地完成。在重復多次進行同一動作的過程中,UWB雷達進行連續探測,并作回波數據的錄取。
雷達每發射一個脈沖信號,與人體目標相互作用之后,都會有一部分電磁能量從人體反射回來,雷達接收后形成一次目標回波。由于人體各個部位相對雷達的距離不盡相同,因此它們分別反射回來的脈沖在到達雷達的延遲時間(即時延)上是存在差異的。對于具有很高時延分辨力的UWB雷達來說,時延差異會使得人體不同部位脈沖回波在疊加形成總的人體回波時呈現出沿時間(也即距離)的回波幅度擴展現象, 人們通常把這種擴展的回波稱為目標的高分辨距離像(high resolution range profile, HRRP)。
獲取一次目標距離像相當于對目標進行一次快速“照相”(俗稱快拍), 在近距離人體目標探測中,這種一次快拍通常可以在10 ns~1 ms以內完成,遠遠小于完成一次人體動作所需時間,所以可將一副距離像看成人體動作的一個時間切片,在切片的持續時間內可忽略人體動作的變化。由于人體動作一般都存在一定的持續時間,一次快拍得到的人體距離像不能完整體現動作的全過程,若僅使用一副距離像對人體動作進行分類識別,明顯是不可靠的,這就好比利用一張照片來判斷一個動作遠不如一段視頻更可靠。

圖3 9個體育動作的剪影(箭頭表示動作方向)Fig.3 Profiles of 9 typical sports actions
為了提高人體動作的分類識別能力,可以使用人體動作回波構成的時間-距離像。時間-距離像是由雷達等時間間隔獲取的多幀距離像按時間順序并行排列而成,類似于視頻是由多幀圖片按時間順序構成。圖4給出了9種體育動作在一個動作持續期上的時間-距離像,其中縱軸表示目標到雷達的距離;橫軸表示動作測量的持續時間; 灰度等級代表回波的(歸一化)幅度。NVA6100雷達對回波采取并行采樣方式,以39 GS/s采樣率對當前回波連續采樣512點,構成一幅目標的距離像,然后再間隔10 ms采集下一幅距離像,所以圖4橫軸的最小時間間隔為10 ms。每個時間間隔點上,沿縱軸方向都是當前時刻獲得的人體動作高分辨距離像。

圖4 9個體育動作的時間-距離像Fig.4 Time-range profiles of 9 typical sports actions
由于軀干是人體最主要的散射源,所以每張圖像中最強的回波幅度主要來自于軀干部分。立定跳遠動作存在較明顯的軀干運動,所以軀干回波在時間-距離像中呈現密集的傾斜亮線,而原地完成的其他動作的軀干回波大多呈現接近水平且有一定起伏的密集粗亮線。雖然上下肢相比軀干是較弱的散射源,但是在運動變化的幅度范圍和頻度上則要顯著于軀干,這從每張圖中變化范圍較大且較快起伏的細曲線上可見一斑。不僅如此, 在每種動作的時間-距離像中, 上下肢變化形成的細亮曲線形態都不相同,可以認為這代表了不同動作的差異化特征,是每種動作的專有屬性,為分類識別不同的人體動作提供了可能。
圖4h中還可以看到一些較為顯著的亮度較低的水平細線,這些水平細線在采集到的每個動作回波數據中都會隨即出現,這些脫離目標本體位置顯現出來的水平細線可能與周圍環境的隨機干擾有關。
在傳統的人體目標雷達分類識別技術中,大多采用基于回波統計特性或者設置人為先驗的特征提取與分類識別方法。目前的傳統特征提取技術在面對復雜的人體目標時,無論是在特征提取的穩定性上還是在目標變化的適應性上,都還難以滿足實用化的要求,給特征提取技術提出了更高的要求。由于人體目標的雷達散射特性十分復雜,人體動作和姿態也是千變萬化的。根據前述時間-距離像的圖像特征,借鑒圖像識別中已廣泛使用的深度卷積神經網絡算法,對獲取的人體動作時間-距離像進行直接處理,探究DCNN對人體目標特征提取的能力,初步驗證深度學習方法應用于人體動作分類的可行性和有效性。
深度卷積神經網絡是一種專門用來處理結構化數據的神經網絡,一般由卷積層、池化層、全連接層三部分組成。卷積層用以完成卷積核與輸入數據的卷積操作,該操作可以得到一系列特征映射。這里可將時間-距離像I作為輸入,在卷積核K的作用下,得到的卷積操作輸出為
S(i,j)=(I*K)(i,j)

(3)
其中: 卷積核K的大小被稱為感受野,其作用相當于一個濾波器,可看作對輸入數據做特征提取的窗口。相比于普通全連接網絡,卷積操作具有局部連接和權值共享的性質,這可以顯著減少網絡參數的個數,并能夠提取到更有效的特征。卷積操作的輸出結果通常需要經過一個激活函數,將線性映射轉換為非線性映射模式,這里選擇激活函數的形式為修正線性單元(rectified linear unit, ReLU),具體形式為f(i,j)=max(0,S(i,j))。ReLU具有分段線性特征,可以構建較好的經驗結果,同時可以減少網絡訓練時間,避免反向傳播中的梯度消失問題。
在每個卷積層之后都要進行特征提取的池化操作,池化可以理解為一個降采樣過程。假設上一層卷積非線性特征映射的輸出為f(i,j),則池化操作后的特征變為

(4)
式中:L代表池化尺度,s代表步長。式(4)是將一個鄰域內的像素值用一個最大值來代替,因而可進一步減少數據量,同時特征可以保持平移不變。上述卷積、池化操作可采取多層形式,其輸出為一系列抽象特征映射,將其向量化后形成樣本數據的特征向量,并與樣本標簽相匹配,可構成有監督訓練的學習模式。
在一系列的卷積池化操作后要添加了一個Dropout層[9],其作用是對隨機抽取特征進行組合,以避免過擬合問題。在Dropout之后,將特征進行向量化以得到特征向量。多個人體動作識別屬于多分類問題,這里使用多項Logistic回歸方法進行分類操作,使用的是softmax函數,它將訓練得到的特征向量作為函數的輸入,能夠得到判為各個類別的后驗概率結果,并選取概率最高的類別作為最終判別結果,從而完成動作的分類識別。對于給定的一組特征向量Vi(i=1,…,N),向量Vi的softmax值可表示為
(5)
優化得到的DCNN結構如圖5所示。該網絡有4個卷積層和最大池化層,卷積核的大小為5×5,池化尺度為2×2。另外,在算法中利用提取的特征向量與樣本標簽聯合構建了代價函數,使用了隨機梯度下降法(stochastic gradient descent, SGD)對網絡反向傳播更新網絡參數,使得代價函數達到最小,然后將測試樣本正向傳播就可得到分類的結果。

圖5 帶結構參數的DCNN示意圖Fig.5 DCNN diagram with structural parametrs
在圖2所示的實驗場景中, 對3個不同人徒手完成的9種體育動作回波進行了數據采集, 每人每個動作重復采集約200組, 總體數據達到5 000多組。每組動作的數據采集時間與動作的持續時間有關,約為2~3 s,因此每個動作的數據長短不一。按照圖4所示的時間-距離像構成方法,將每個動作的每組數據統一處理為一個100×100的數據矩陣,每個動作隨機抽取30組作為測試集,剩余作為訓練集。
在網絡訓練方面,采用的開源工具Keras是以谷歌公司開發的Tensorflow為后端的頂層API接口,具有易于訓練和配置等特點。整個DCNN網絡采用SGD進行訓練,相比于普通梯度下降方法,隨機梯度可以選取一個mini-batch為一組進行梯度更新,使得網絡具有更好的收斂性能,實驗中mini-batch值設為50,梯度更新學習率設為0.001。同時,在梯度更新過程中,加入了動量(momentum)因子,可以使得梯度更新方向更加平滑,其中動量權重取為0.9,衰減因子權重取為0.004。網絡中所有的初始化參數均設置為滿足均值為0、方差為0.01的高斯分布參數。
為了驗證網絡的收斂性和平均分類識別性能, 對網絡進行了400次循環更新迭代測試, DCNN對測試集的分類精度和收斂性如圖6所示。 經過50次迭代后, 網絡就已達到90%以上的分類精度, 隨著進一步迭代,分類精度快速趨于收斂,并最終達到96.67%。
為了分析錯誤分類樣本,表1給出了9種體育動作的測試混淆矩陣,其中(a—i)分別對應圖3中的9種動作?;煜仃嚨拿恳恍写韺嶋H動作,每一列代表網絡識別的動作??梢?揮手a、 打乒乓球b、 拍籃球c、 立定跳遠d、 投籃球h和拳擊i等6個動作都具有高于平均精度的分類效果, 而投保齡球e、 踢足球f和墊排球g等3個動作的分類精度則低于平均精度。從圖4的時間-距離像對比可見,這3種動作中的上下肢特征曲線與其他動作存在局部的相似性,這種相似性提高了動作錯誤分類的可能性。
為了驗證深度卷積神經網絡方法的有效性,選取了目前比較通用的隨機森林(random forest, RF)、 最近鄰(k-nearest neighbors, kNN)、 支持矢量機(support vector machine, SVM)等分類算法進行對比,對比實驗采用了相同的數據訓練集和測試集,對比結果如表2所示。

圖6 DCNN對測試集的分類精度隨迭代次數的變化Fig.6 Classification accuracy for test set changes with iterations of DCNN

表1 測試集混淆矩陣

表2 本文DCNN算法與3種傳統方法的對比
在缺乏有效的特征提取方法前提下,傳統分類方法對測試數據的分類會產生較高的誤判概率,而DCNN則通過多層特征提取可以有效識別動作中的關鍵性特征,并且通過大量數據的學習訓練,對人體動作分類具有更好的泛化能力,所以能夠獲得很高的測試精度和計算穩定性。因此,深度卷積神經網絡算法是有效的,在人體目標雷達識別中具有潛在的應用前景。
利用UWB雷達獲取了人體的高分辨距離信息,使用DCNN對人體動作進行了分類識別研究。將人體動作的時間-距離像作為DCNN的輸入數據,對9種典型體育動作進行了分類處理,取得了96.67%的高分類精度,DCNN對人體動作測試集的計算收斂性好,收斂速度也較快,這說明基于時間-距離像的DCNN具備潛在的分類識別人體動作的良好能力,特別是在穩定提取人體動作特征上存在十分明顯的優勢。由于未利用人體動作回波中所包含的多普勒信息,也沒有考慮不同觀測視角下同一動作回波存在的差異(僅采集了面向雷達的人體動作數據),亦未對其他深度學習算法進行有益的嘗試,這些都將在下一步工作中開展深入的研究。