999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于LSTM的智能手機3D手寫識別

2024-03-05 14:19:04包廣斌
蘭州理工大學學報 2024年1期
關鍵詞:特征提取智能手機特征

張 樂, 包廣斌, 郭 琳, 武 立

(1. 商洛學院 電子信息與電氣工程學院, 陜西 商洛 726000; 2. 蘭州理工大學 計算機與通信學院, 甘肅 蘭州 730050; 3. 陜西省商洛市體育運動中心, 陜西 商洛 726000)

近年來,隨著新型傳感器技術的不斷發展,如Leap Motion和Kinect的出現,3D交互技術成為人機交互領域的熱點研究課題之一[1-2].然而,該類傳感器往往需要在特定的空間區域內才能進行人機交互,極易受到外部環境因素的干擾[3-4].基于慣性傳感器的3D交互技術因不受外部條件的限制,被廣泛地應用于3D交互技術領域.此外,隨著微電子技術的日趨成熟,基于微機電系統(micro electro mechanical systems,MEMS)的新型傳感器因體積小、成本低廉和靈敏度高等優點,常被內置到智能手機上[5],如主流的陀螺儀慣性傳感器和加速度傳感器.移動智能手機因內置如此多的傳感器,使得機器具備越來越強大的感知能力.因此,研究基于智能手機的3D空間手寫識別,對于促進智能人機交互領域的發展具有重要的應用價值.

基于加速度傳感器的3D空間手寫識別的關鍵在于特征提取,現有研究大多從加速度信號中提取關鍵特征,并根據獲取到的特征實現手寫識別.在特征角度視域下,現有研究主要包括時域特征和頻域特征[6-7].如Yao等[8]利用PCA技術將提取到的時域和頻域特征進行融合,并用深度學習建模,實現了一種新型的基于智能手表的手寫感應系統且準確率高達92.42%.Du等[9]通過利用快速傅里葉(fast fourier transform,FFT)和離散余弦變換(discrete cosine transform,DCT)算法對基于智能手機的加速度傳感器采集到的加速度信號進行頻域變換,實現了17類手勢的精準識別.Patil等[10]提出一種基于無線慣性測量單元(WIMU)的手部運動分析技術,融合磁性、角速率和重力傳感器(MARG)數據,采用動態時間規整算法(DTW)實現了3D空間中的手寫識別.Du等[11]提出一種基于時域和頻域融合的多特征分類方法,首先通過從加速度傳感器采集的數據中提取短時能量特征和低頻分量;然后利用快速傅里葉變換提取頻域特征,并在此基礎上利用特征融合算法將時域特征和頻域特征進行尺度融合;最后采用支持向量機構造分類模型,實現運動軌跡的精確識別.張平等[12]提出一種基于MPU6050慣性傳感器的3D手勢識別方法,通過提取加速度和姿態角信號在手勢上的關鍵特征信息,利用決策樹對手勢進行預分類,結合加速度和姿態角的變化規律實現了手勢的具體識別.除提取時域和頻域特征外,薛洋等[13]從加速度傳感器中提取到了一種旋轉特征,比傳統的時域原始特征、峰值谷值特征和FFT特征的識別性能具有更高的有效性.

綜上,雖然傳統基于加速度傳感器的3D手寫識別方法取得了一定的成果,但大多數模型的分類性能主要依賴于人工提取的特征.近年來,深度學習方法在文本、圖像、音頻等領域取得了突破性進展.為此,本文基于長短時記憶神經網絡(long short-term memory,LSTM)構建模型,實現基于智能手機的3D空間手寫識別.

1 數據采集與預處理

目前,還沒有任何開源的基于加速度傳感器的3D空間手寫識別數據集,當前大多數工作僅利用少量的數據來研究3D空間手寫識別.為此,本文首先制作了一個高質量的3D空間手寫識別數據集,并對外開源.其次,利用LSTM構建一個3D空間手寫識別模型.圖1給出了本文模型的處理流程.

圖1 3D空間手寫數字識別流程Fig.1 Process of 3D handwritten digit recognition

1.1 數據采集

選擇55名年齡在18~30歲的青年男女,其中男性34人,女性21人,待采樣手機型號不一.首先,參與者通過手持移動智能手機,在空間中書寫數字0~9,每人每個數字書寫10遍,最終獲得5 500條數據.每個手寫數字的書寫筆畫示意圖如圖2所示,圖中箭頭方向表示書寫數字時的手部運動軌跡.其中,數字“0”、“1”和“8”允許兩種書寫軌跡.特別地,所有的數字均采用一筆完成.

圖2 手寫數字的書寫筆畫示意圖Fig.2 Schematic diagram of strokes of handwritten digits

智能手機加速度傳感器的采集頻率越高,表明單位時間內所采集的數據量越大.此外,考慮到移動智能手機的計算能力,同時讓機器盡可能多地獲得數據點.為了達到上述問題的平衡,本文模型選擇采集頻率為15 Hz,采集時間為3 s.

手寫數字的信號波形見圖3,其中,縱軸為軸加速度值,橫軸為采集時間.

圖3 手寫數字信號波形圖

1.2 數據預處理

基于3D加速度傳感器的手寫數字信號構成復雜,除了現有主流工作考慮到的傳感器材料特性和制作工藝,還應該考慮傳感器漂移、重力誤差、溫度、累計誤差和采樣者手抖動等多種因素造成的干擾噪聲.為了盡可能降低噪聲數據的干擾,本文通過如下方法對原始數據進行數據預處理.

1.2.1數據規整

所采集原始數據的列數為3列,分別對應x軸、y軸和z軸.因手機品牌不同,相同條件下采集的數據長度略有差別,此處選擇采集數據的行數不多于43行,43行表示所有參與者采用智能手機采集到的數據的最大長度.通過將采集到的數據進行可視化后,發現每條數據中的關鍵數據都均勻地分布在單位面積的中間部分.因此,為了實現數據的規整化,此處采用插值法在數據的開始或結尾進行插值,本文選擇在數據的末尾進行插值,即將最后一行數據作為插值數值.

1.2.2歸一化

由于在數據采集過程中,每個參與者因手部運動的速度和幅度不一,導致書寫的數字差異性較大.為了消除這些因素對模型整體識別的干擾,本文采用數值歸一化來預處理采集到的所有數據.利用下式對任意取值范圍的特征值轉化為[0,1]的標準值:

(1)

其中:oldValue和newValue分別表示原始數據和歸一化處理后的數值;max和min表示x軸、y軸或z軸中的任意一軸采集的數據的最大值和最小值.原始數據歸一化前、后的效果對比如圖4所示.

1.2.3去除重力加速度分量

智能手機采集的加速度數據主要包括重力加速度分量和運動感應加速度分量兩部分.重力分量由于不依賴用戶的手部運動,被視為噪聲,進行剔除.對于運動感應加速度分量,利用下面的公式計算對應的線性加速度,即去除重力分量干擾后的手部運動加速度:

gravity_x=alpha*gravity+
(1-alpha)*x_values

(2)

gravity_y=alpha*gravity+
(1-alpha)*y_values

(3)

gravity_z=alpha*gravity+
(1-alpha)*z_values

(4)

linear_(acceleration_x)=x_values-

gravity_x

(5)

linear_(acceleration_y)=y_values-gravity_y

(6)

linear_(acceleration_z)=z_values-gravity_z

(7)

其中:alpha=0.8;gravity=9.8 m2/s;*_values為原始數據;gravity_*為重力分量;linear_acceleration_*線性加速度;*指x、y或z軸.

2 模型構建

2.1 LSTM網絡

近年來,深度學習已經在語音識別、運動軌跡識別和相關文本序列處理等方面取得了突破性的進展.長短時記憶神經網絡(LSTM)作為一種時間遞歸神經網絡,非常適合本文研究的手寫數字識別的文本序列數據[14].特別地,與循環神經網絡(recurrent neural network,RNN)相比,長短時記憶神經網絡(LSTM)將RNN的隱含層用記憶單元來代替,可以實現文本的長距離依賴編碼,緩解了傳統循環神經網絡梯度消失的問題[15].循環神經網絡與長短時記憶神經網絡的對應關系如圖5所示.

圖5 RNN與LSTM的對應關系Fig.5 Corresponding relationship between RNN and LSTM

在長短時記憶神經網絡的記憶塊中,僅有一個記憶細胞的單個記憶塊結構如圖6所示.記憶細胞在記憶塊的中心,具有一條自連接的循環邊,并按恒等線性函數激活,即將前一時刻的記憶細胞內部狀態st-1與ft直接逐點乘積而不采用非線性激活.記憶細胞的狀態稱為記憶塊的內部狀態,當前時刻的更新表示為

圖6 記憶塊的結構Fig.6 Structure of memory block

st=st-1°ft+it°gt

(8)

其中:“°”表示逐點乘積.輸出門模塊的功能是將xt和ht—1的加權和按照sigmoid函數進行激活,產生值向量οt.輸出門擠壓模塊主要是對記憶細胞內部狀態st按照tanh函數進行激活,并產生值向量tanh(st).整個記憶塊的值向量計算是通過輸出門模塊的值向量οt和輸出擠壓模塊的值向量tanh(st)的逐點乘積.

長短時記憶網絡包含多個隱含層,每個隱含層包含多個記憶塊,而每個記憶塊包含一個或多個記憶細胞.對于具有Elman結構的長短時記憶網絡,其中一個記憶塊在t時刻的計算過程可以表示為

其中:wxg表示xt與輸入擠壓模塊之間的權重矩陣;whg表示t-1時刻記憶塊的輸出ht-1與輸出擠壓模塊之間的權重矩陣;wxi表示xt與輸入門模塊之間的權重矩陣;whi表示ht-1與輸入門模塊之間的權重矩陣;wxf表示xt與遺忘門模塊之間的權重矩陣;whf表示ht-1與遺忘門模塊之間的權重矩陣;wxo表示xt與輸出門模塊之間的權重矩陣;who表示ht-1與輸出門模塊之間的權重矩陣;bg、bi、bf和bo分別表示記憶塊、輸入門模塊、遺忘門模塊和輸出門模塊的偏置;σ(·)為Logistic函數.

2.2 模型的建立與訓練

本文基于LSTM建立的識別模型如圖7所示.在基于加速度傳感器的3D手寫識別任務中,采集到的加速度信號屬于典型的非平穩信號,該類信號的特征復雜、多樣,關鍵特征提取難度大,僅靠人工提取的特征往往難以對原始信號進行充分的表達.為此,本文通過將非平穩信號轉換為常見易處理的時間序列信號,利用長短時記憶神經網絡進行關鍵特征提取.此處,試圖建立一個多隱含層、多節點的深度學習模型來提取手勢動作加速度的關鍵特征,并且實現對手勢動作的分類.

圖7 3D手寫識別模型

利用堆疊的LSTM特征提取層對輸入數據進行深層特征提取后,在上述構建的LSTM網絡架構的后面再連接2層全連接網絡層(第2層全連接網絡層為輸出層),用于對提取的深層特征進行分類,計算如下式:

oi=softmax(wihit+bi)

(15)

其中:oi為輸出手寫數字的類別;wi為最后一層特征提取層與第一層全連接層之間的權重矩陣;hit為t時刻最后一層特征提取層的輸出矩陣;bi為第一層全連接層偏置.

3 實驗

3.1 實驗環境

本文所用操作系統為Windows11,借助Anaconda搭建TensorFlow1.14運行環境,使用Jupyter Notebook編寫代碼.計算機硬件配置為Intel i7處理器,NVIDIA RTX3060顯卡.

將采集的5 500條數據進行人工標注,其中訓練集為3 850條,用于模型的訓練;測試集為1 650條,用于模型的測試.

3.2 實驗評價指標

測試集上的評價指標采用分類任務中常用的準確率(Accuracy,A)、召回率(Recall,R)、精準率(Precision,P)以及F1分數(F1Score,F1)評分.相關評價指標的計算如下式:

(16)

其中:FN、TP、FP和TN分別是假陰性(false negative)、真陽性(ture positive)、假陽性(false positive)和真陰性(ture negative).相應的混淆矩陣如表1所列.

表1 混淆矩陣

3.3 實驗結果與分析

為了獲取分類性能最佳的模型參數,此處根據模型識別準確率來確定LSTM模型隱含層層數和每一層隱含層的節點數.模型參數對應的識別準確率見表2.

表2 特征提取層的參數和對應的識別準確率

由于決定模型性能的網絡層為特征提取層,因而可固定第一層全連接層的節點數,然后搜索特征提取層網絡結構參數.用于分類的全連接層節點數只有在過小和過大時才會對分類結果產生一定的影響,因而本文設定的第一層全連接層網絡節點數為200.輸出層的節點數由分類任務的類別數量決定,即為10.通過表2可知,當LSTM模型的特征提取層數(Layers)為4,每一層特征提取的節點數(Nodes)為80時,或者特征提取層數為4,每一層特征提取的節點數為90時,或者特征提取層數為7,每一層特征提取的節點數為60時,模型的分類準確率最高,達到了87.0%.綜合智能手機的算力資源和模型識別穩定性等因素的考慮,本文模型選擇特征提取層數Layers為4,每一層特征提取的節點數Nodes為80,并定義該模型為L4-80.此外,可以發現更多的特征提取和特征提取節點數并不能獲得更高的準確率,甚至當特征提取和特征提取節點數增大到一定數量后準確率反而呈現下降趨勢,這主要是因為當特征提取層數和節點數較大時會導致過擬合問題;相反,較少的特征提取和特征提取節點數也因為欠擬合而不能獲得較高的準確率.

L4-80模型的訓練過程如圖8所示,當訓練迭代次數到達1×106步時,模型的測試損失值趨于平穩,測試準確率達到最大值.

圖8 L4-80模型訓練過程Fig.8 Training process of L4-80 model

圖9給出了本文模型在測試集上的混淆矩陣,其中,橫坐標表示參與者手持智能手機在3D空間中的實際輸入數字,縱坐標表示本文模型識別的數字.可以看出,本文模型的整體識別性能較好,但也存在一些識別錯誤的結果,如數字1、4和7.也有一些手寫數字因為在三維空間中的運動軌跡很相似,導致識別出現混淆,如數字0和6.

圖9 測試集上的混淆矩陣Fig.9 Confusion matrix on test set

為進一步探究模型的性能,利用測試集數據分別對10個手寫數字的各項評價指標進行了計算,圖10分別給出了準確率、召回率、精準率和F1分數.其中,數字9的準確率超過90%;數字3、6和9的召回率超過90%;數字1、3、4、5、8和9的精準率超過90%;數字3、5、8和9的F1分數超過90%.整體的準確率為86.4%,召回率為88.1%,精確度為88.3%,F1分數為88.0%.

圖10 3D手寫數字的評價指標Fig.10 Evaluation Index of 3D handwritten digits

4 結論

本文利用LSTM深度學習模型實現了基于智能手機的3D空間手寫識別.首先,構建了一套基于智能手機的3D空間手寫數字識別數據集,數據多達5 500條.并利用自建的數據集構造了基于LSTM循環單元的深度神經網絡模型.通過在自建數據集上進行測試,本文模型在10個數字上取得了較好的分類效果,可以較好地提取手勢動作信號中的關鍵特征.本文工作可以為研究智能手機內置加速度傳感器的3D空間手寫識別提供一套開源數據集,為智能人機交互的發展提供參考.

本文當前工作主要基于加速度傳感器的手勢數據來訓練3D手寫識別模型,在未來工作中將嘗試引入三軸陀螺儀傳感器數據,進一步提升模型的訓練性能.

致謝:本文得到商洛學院科研項目(21SKY003)的資助,在此表示感謝.

猜你喜歡
特征提取智能手機特征
智能手機是座礦
智能手機臉
英語文摘(2020年5期)2020-09-21 09:26:30
如何表達“特征”
基于Gazebo仿真環境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
假如我是一部智能手機
趣味(語文)(2018年8期)2018-11-15 08:53:00
抓住特征巧觀察
一種基于LBP 特征提取和稀疏表示的肝病識別算法
基于MED和循環域解調的多故障特征提取
智能手機
小說月刊(2014年4期)2014-04-23 08:52:21
主站蜘蛛池模板: 在线播放91| 欧洲在线免费视频| 精品无码专区亚洲| 一级爱做片免费观看久久| www.国产福利| 久热中文字幕在线| 国产精品自在线拍国产电影| 亚洲性影院| 亚洲中文字幕手机在线第一页| 99热这里都是国产精品| aaa国产一级毛片| 国产精品免费福利久久播放| 国产精品成人啪精品视频| 国产一级在线播放| 亚洲精品视频网| 中文字幕亚洲精品2页| 亚洲av无码人妻| 国产成人一区在线播放| 亚洲毛片网站| 老司机aⅴ在线精品导航| 国产成人亚洲欧美激情| 中日无码在线观看| 国产全黄a一级毛片| 99久久这里只精品麻豆| 欧美国产视频| 一级香蕉视频在线观看| 婷婷激情亚洲| 免费在线a视频| 欧美另类图片视频无弹跳第一页| 92午夜福利影院一区二区三区| 伊人AV天堂| 五月天综合婷婷| 五月综合色婷婷| 欧美无专区| 亚洲成综合人影院在院播放| 国产视频欧美| 国产高清国内精品福利| 澳门av无码| 99精品热视频这里只有精品7| 久久99国产综合精品1| 狠狠色婷婷丁香综合久久韩国| 精品伊人久久久香线蕉 | 亚洲国产综合自在线另类| 国产成人亚洲综合A∨在线播放| 国产精品无码AV片在线观看播放| 国产69精品久久久久妇女| 亚洲国产黄色| 亚洲日本中文字幕天堂网| 免费看a毛片| 91福利在线看| 午夜福利视频一区| 亚洲无码一区在线观看| 国产成人亚洲无吗淙合青草| 久久精品免费国产大片| 国产视频a| 亚洲永久精品ww47国产| 亚洲天堂视频在线观看| 国产无人区一区二区三区| 国产精品一区二区不卡的视频| 精品国产成人高清在线| 老司机精品一区在线视频| 亚洲欧美天堂网| 91精品国产麻豆国产自产在线| 国产视频你懂得| 国产人成在线视频| 手机永久AV在线播放| 国产精品久久久久久搜索| 亚洲第一成年人网站| 亚洲丝袜中文字幕| 97久久人人超碰国产精品| 亚洲天堂精品在线观看| 免费jjzz在在线播放国产| 99九九成人免费视频精品| 日韩毛片免费观看| 无码中字出轨中文人妻中文中| 免费一级无码在线网站| 亚洲欧美激情小说另类| 亚洲乱码在线播放| 亚洲高清中文字幕| 国产精品极品美女自在线看免费一区二区| 国产福利在线观看精品| 国产屁屁影院|