黨小超, 殷 杰, 郝占軍, 喬志強
(1.西北師范大學 計算機科學與工程學院,甘肅 蘭州 730070; 2.甘肅省物聯網工程研究中心,甘肅 蘭州 730070)
隨著人工智能與虛擬現實技術的快速發展,人們的生活逐漸變得智能化,因而各類人機交互的需求也在不斷增加。相比于傳統的鼠標、 鍵盤等通過硬件建立的人機交互模式相比,手勢識別顯得更加便捷與自然。目前對手勢識別的研究方法主要包括有三種:1)基于傳感器的方法[1~4],有便攜性差、硬件設備昂貴等缺點;2)基于計算機視覺的方法[5~7]受環境影響及視距情況影響較大;3)基于WiFi信號的識別方法已成為人機交互領域重要的研究方向。
在以往基于WiFi信號的方法中大多使用接收信號強度(received signal strength,RSS) 進行研究,但由于RSS受多徑效應和窄帶干擾的影響較大導致實驗效果不佳。與之相比,信道狀態信息(channel state information,CSI)信號則具有穩定性高,受多徑效應影響小,對室內環境變化敏感等優勢[8],文獻[9]提出的WiFall系統通過CSI信號對人員進行跌倒檢測;文獻[10]提出的WiHear系統可使用WiFi信號檢測人員口語;文獻[11]研究了CSI與人體運動速度的關系。
收稿日期:2020—09—02
*基金項目:國家自然科學基金資助項目(61662070,61762079); 甘肅省科技重點研發資助項目(1604FKCA097,17YF1GA015); 甘肅省科技創新項目(17CX2JA037,17CX2JA039)
與手勢的識別相比,數字的多樣性與復雜性使得對其的識別更具有挑戰性。文獻[12]提出的WiKey方法通過CSI信號用戶手部輸入動作;文獻[13]使用到達角度(AOA)算法測量CSI信號的到達角識別手勢動作,但動作軌跡較相似時精度有明顯下降;文獻[14]提出的WiG方法設計識別前、后、左、右4種揮手手勢,選取4種統計特征進行區分,但SVM方法在多分類問題中效果較差且特征選取較為復雜;文獻[15]中WiGest模型通過離散小波變換(DTW)算法進行手勢識別。WiG方法與WiGest方法均只識別4種手勢且較為簡單。
本文提出一種空中手寫數字識別AirNum方法,研究數字0~9的空中書寫。實驗表明本文方法有效提高了空中手寫數字的識別率。
本文方法首先采集受試者的手寫動作的CSI原始信號,使用巴特沃斯低通濾波器和主成分分析算法對采集到的數據進行降噪處理后提取出基于時序信息的兩種特征值,將每個樣本的特征值重新排序,按照3︰1︰1的比例將所有樣本分為訓練集、測試集、交叉驗證集輸入引入注意力機制的雙向循環神經網絡(bidirectional recurrent neural network,BRNN)模型進行訓練。
1.1.1 巴特沃斯低通濾波器
巴特沃斯低通濾波器表達式如式(1)
(1)
式中G0為直流增益,ωf為截止頻率,N為濾波層級,其中,ωf=2π×f/F,f為信號頻率,F為采樣頻率,本文設置采樣頻率F為1 024 Hz,濾波層級N為5。
1.1.2 PCA
1)數據歸一化處理:將3條鏈路中每條鏈路的30條子載波的CSI數據組合成為一個90×N矩陣如式(2)所示,N為發送數據包的數量,設矩陣為C。使用式(3)對數據進行歸一化處理
(2)
Ci,j=(Ci,j-μi)/Si
(3)
式中Si為矩陣第i行的標準差,μi為矩陣第i行的均值。
2)計算協方差矩陣:協方差矩陣計算式(4)如下
(4)
由取得的CSI數據計算得出的協方差矩陣(5)如下
(5)
3)特征分解:對協方差矩陣H進行特征值分解,得到相關性由大到小排列的特征向量矩陣Q,Q中的特征向量互不相關。
4)矩陣重構:將歸一化后的CSI矩陣C與Q矩陣的前q列進行矩陣相乘得到矩陣C{1︰q},此時的矩陣C{1︰q}即為C的主成分矩陣。圖1(a)為CSI原始波形,圖1(b)為降噪后的CSI波形。

圖1 CSI波形
本文從包含寫入動作的去噪CSI時間序列中提取特征。每個手寫動作數據采集時間為5 s,受試人員靜止1 s后開始手寫動作,書寫完成后保持動作不變至時間結束,圖2、圖3為兩個受試人員書寫數字8和4時的CSI波形圖。從圖中易看出不同人員書寫相同數字時波形較為相像,同一人員書寫不同數字時波形有較大差別。故本文選用2個代表CSI波形形狀與趨勢的特征值:1)峰值因子,一個滑動窗口內的峰值與均方根值之比;2)自相關系數,描述波形前一時刻與后一時刻之間的關系,其變換反映波形的起伏狀態。

圖2 2名人員手寫數字8的CSI波形

圖3 2名人員手寫數字4的CSI波形
將預處理后的CSI數據以200 ms窗口大小的滑動窗口分割計算每個窗口的2個特征值,重新排列后組成新的特征值序列X={x1,x2,…,xn}。


圖4 引入注意力機制的 BRNN模型
計算分類概率識別過程如下:

(6)
Step2 反向傳播
計算Step1中算出的輸出層值o與實際的輸出值O的誤差,損失函數為J(o,O)
(7)
(8)
(9)
(10)
(11)
最后使用梯度下降方法更新權重U,V,U′和V′。
Step3 將兩個隱狀態的值拼接為一個隱狀態向量st
(12)
(13)
(14)
(15)

(16)
Step6 計算分類概率yt,Ws為注意力的隱含層變量的參數
(17)
實驗所用設備包括1對收發天線,2臺裝有Inter5300網卡的臺式電腦分別作為接收端和發射端,天線選擇1根發射天線和3根接收天線共3條傳輸鏈路,工作頻段選擇5 GHz以采集細粒度信息,收發天線相距1.5 m離地高度為1 m,采樣頻率設置為1 024 Hz。由于不同環境、不同人員以及不同收發端視距都會對手勢信息的采集造成影響,故本文設置了多組對照實驗驗證。在保持天線距離與離地高度不變的前提下,4名受試人員分別在實驗室與空曠教室采集30組數據,每組包含10個數字。圖5為實驗場景圖,圖6為實驗場景平面圖,圖5(a)為實驗室場景,實驗室大小為7 m×8 m,圖5(b)為空曠教室場景圖,空曠教室大小為7 m×6 m。

圖5 實驗場景

圖6 實驗場景平面
為驗證不同人員對實驗的影響,實驗挑選了4名受試人員(2男2女)分別在兩個場景,以離接收端和發射端0.5 m的視距距離,每個場景采集30組數據,訓練樣本為120組。表1是4名受試人員位于空曠教室、實驗室的手寫數字識別率。
由表1知空曠教室中手寫數字識別率明顯高于實驗室中的手寫數字識別率,這是由于多徑效應的影響,實驗室環境復雜,識別效果相比環境較簡單的空曠教室差。從表1中看出不同人員對同一數字的識別率有著較大差異,這是由于男女生間體態差異較大,且不同人員在空中手寫數字時書寫速度有差異。空曠教室中4名受試人員的識別率均在90 %以上,實驗室中識別率保持在84 %以上,對單個數字的識別率最高達到96.2 %。

表1 空曠教室和實驗室中不同人員識別率 %
4名受試人員分別在視距路徑為0.5,1,1.5,2 m處采集CSI數據,每個數字采集30組。圖7為不同視距鏈路下的平均識別率。

圖7 不同距離下的平均識別率
由圖7可知,當距離為0.5 m時,圖7(a)中平均識別率達到了93 %,圖7(b)中平均識別率達到了87 %,由于手寫動作較為細微,對WiFi信號的擾動會隨著與收發端視距距離增加而減弱,因此,AirNum方法的識別效果會隨著收發端視距距離的增大而變差,故在2 m時空曠教室中的平均識別率降至77 %,實驗室中的平均識別率降至69 %,得出實驗最佳的收發端視距距離為0.5 m。且由于實驗室中多徑效應影響大于空曠教室,實驗室中手寫數字識別效果相比空曠教室較差。
實驗選擇6名受試人員在離接收端和發射端0.5 m的視距距離、收發端間距1.5 m條件下,空曠教室中每人采集的30組CSI數據作為數據集,輸入AirNum方法進行識別,圖8為不同訓練集參與人數的平均識別率。

圖8 不同訓練集參與人數的平均識別率
從圖8中看出,隨著訓練集人數的增加AirNum方法的識別率在不斷上升,在人數達到4人時上升幅度趨于平緩,且在空曠教室中4人時的識別率達到93 %,實驗室中達到87 %。這是由于當訓練集人數較少時,深度學習模型的擬合效果并不好,在人數增加至4~6人時識別效果達到93 %以上。但隨著訓練集人數的上升訓練集的數據量會大大增加,AirNum方法的訓練時長也會隨之增加,而訓練效果并未有更大的提升,故本文選擇4名受試人員進行其他組實驗。
圖9為本文方法的混淆矩陣,顯示每個動作識別的結果均高于90 %,平均識別率達到93.7 %,證明AirNum方法對空中手寫數字0~9的識別有較好的效果且具有較強的魯棒性。

圖9 識別結果綜合混淆矩陣
本文選擇AirNum方法、CNN、決策樹與SVM方法進行交叉驗證,通過準確率和F1值來比較幾種方法的性能。準確率由真正率TP和假正率FP計算得出,是一種對方法穩定性的評估指標。F1值由精確率與召回率計算得出,是對系統整體性能的評估指標。表2中看出本文方法的準確率與F1值均高于另三種方法,證明本文具有較好的整體性能和識別效果。

表2 不同算法性能對比
本文選擇WiG方法與WiGest方法做了多組交叉驗證,數據集選擇多徑效應弱的空曠教室場景0.5 m視距距離4名人員采集的CSI數據。WiG模型使用SVM對CSI數據進行分類,WiGest模型通過離散小波變換降噪后用DTW算法進行手勢識別, WiGeR[16]模型通過小波變換提取CSI特征,后用動態時間規整算法手勢進行分類。本文選用準確率和F1值對三種方法性能進行評估結果如表3所示。

表3 不同模型性能對比
從表3可以看出:AirNum方法準確率與F1值均高于另三種方法,證明AirNum方法可有效提高空中手寫數字識別的精度,且相比于其他方法AirNum方法整體性能更好。
本文提出一種基于CSI的空中手寫數字識別AirNum方法,在實驗人員采集CSI手寫數據后通過巴特沃斯低通濾波器過濾高頻信號、PCA對數據降維,后提取特征值放入基于注意力機制的BRNN模型中訓練,訓練完成后導入測試集進行測試并給出識別概率。結果表明:本文方法具有較好的整體性能與識別效果。在后續工作中需要對本文方法進行進一步改進,以實現在通用環境下的良好識別效果。