張李軒,閆 坤,李慧慧,黃雪梅
(桂林電子科技大學衛(wèi)星導航定位與位置服務(wù)國家地方聯(lián)合工程研究中心,廣西 桂林541000)
智能手機正成為信息系統(tǒng)最重要的接口之一。最近,處理金融交易、健康維護、聯(lián)系人信息和手機照片信息等的智能手機應(yīng)用程序數(shù)量急劇增加,這些應(yīng)用程序生成越來越多的個人機密信息,這些信息的安全性不僅對應(yīng)用程序開發(fā)人員至關(guān)重要,用戶也非常關(guān)心。因此,智能手機的用戶身份認證和安全問題已經(jīng)成為具有根本性意義的問題。
近年來,研究人員針對智能手機提出了各種各樣的用戶識別技術(shù),包括傳統(tǒng)的基于密碼的識別[1,2]、指紋識別[3,4]到人臉識別[5,6],并設(shè)計了幾個集成了用戶識別技術(shù)的應(yīng)用程序,包括移動投票、銀行和在線交易。但是,這些應(yīng)用程序在使用之初都需要用戶的參與,而且也無法持續(xù)地對用戶進行身份驗證。
在智能手機中嵌入微機電系統(tǒng)(Microelectro Mechanical Systems,MEMS)傳感器的生物識別技術(shù)可以提高移動設(shè)備和用戶的安全性[7],其作為一種克服傳統(tǒng)用戶識別技術(shù)缺陷的潛在候選技術(shù),能夠在不中斷工作的情況下連續(xù)、可靠地識別用戶,并且在持續(xù)的驗證方式下,智能手機一旦被非法控制就能立馬偵測到,并阻止其通過智能手機或智能手機內(nèi)部訪問敏感數(shù)據(jù)或服務(wù)。基于步態(tài)的用戶識別最近提出一些研究,其中一些工作是Lee等人[8]和Ehatisham-ul-Haq等人的[9],Johnston等人在文獻[10]和[8]中,分別從時域序列(幅度、均值、方差)和頻域(離散傅里葉變換第一個峰值的振幅、頻率和第二個峰值的振幅)特征中收集統(tǒng)計特征向量,利用核脊回歸模型對不同用戶生成的特征向量進行分類。與文獻[8]不同的是,文獻[9]使用支持向量機(Support Vector Machine,SVM)作為分類器。在文獻[10]中,Johnston等人使用來自智能手機中加速度計數(shù)據(jù)的strawman模型被提出用于用戶識別,時域特征被用于生成特征向量進行識別,使用相應(yīng)的特征向量生成的數(shù)據(jù)集訓練WEKA的J48模型和神經(jīng)網(wǎng)絡(luò)模型。對于步行活動信號,基于神經(jīng)網(wǎng)絡(luò)的研究的準確率為90.9%,而J48模型的準確率為84.0%。
現(xiàn)有的工作大多是基于統(tǒng)計特征進行分析,然而,從傳感器或其它MEMS模塊獲得的時間序列數(shù)據(jù)具有“混沌”特性,其中的統(tǒng)計特征,如均值和方差、頻率等隨時間變化很大,在這種情況下,為了保持統(tǒng)計特征的穩(wěn)定,需要收集更多的數(shù)據(jù)。要解決這一問題,可以使用特定數(shù)據(jù)特征的個別分析方法,或者需要擴展傳統(tǒng)方法,但是兩者都需要特定功能的目標數(shù)據(jù)的詳細信息。本文提出了一種基于拓撲數(shù)據(jù)分析(Topological data analysis,TDA)的用戶識別算法,通過計算步態(tài)信號的持續(xù)同調(diào)可以獲得對常規(guī)統(tǒng)計分析丟失的關(guān)鍵信息的詳細理解,該算法利用持續(xù)同調(diào)圖(Persistence Diagram,PD)從步行記錄的加速度計數(shù)據(jù)中提取拓撲特征,計算拓撲特征的K-L散度來構(gòu)建適合于識別任務(wù)的特征向量。
在實驗中,使用了意大利熱那亞大學智能實驗室-非線性復雜系統(tǒng)實驗室提供的基于智能手機的人類活動識別數(shù)據(jù)集。傳感器信號(加速度計和陀螺儀)首先通過去噪和濾波等預處理,然后在2.56秒和50%重疊的固定寬度滑動窗口中采樣,利用巴特沃斯低通濾波器將具有重力和人體運動分量的傳感器加速度信號分離為人體加速度和人體重力分量,熱那亞大學智能實驗室假設(shè)信號只有低頻分量,因此使用了截止頻率為0.3Hz的濾波器,在每個窗口中,通過計算時域和頻域的變量得到特征向量,這些信號通過中值濾波和截止頻率為20Hz的三階低通巴特沃斯濾波器進行預處理以降低噪聲,這一速率足以捕捉人體運動,因為其99%的能量包含在15Hz以下[11]。
在實際生活中,便攜設(shè)備中的加速度計特定軸的測量值受其位置和方向影響,因此,本文將三軸加速度傳感器三個軸的信號合成一個標量信號,其過程如圖1所示,圖1(a)中,ax,ay,az分別是加速度傳感器x,y,z三個軸采集到的步態(tài)信號,圖1(b)是三個軸的量合成的標量信號[12]。

圖1 三軸信號合成
本文設(shè)計的系統(tǒng)框圖如圖2所示,其流程主要包括:對采集到的數(shù)據(jù)進行活動識別,對識別后的信號進行分段處理,計算分段后信號的持續(xù)同調(diào),提取信號持續(xù)同調(diào)的特征,最后使用持續(xù)同調(diào)特征進行用戶身份識別。

圖2 基于三軸加速度傳感器步行信號拓撲分析的身份識別的系統(tǒng)流程圖
首先,需要對采集到的三軸加速度傳感器信號做活動類型識別,在實際應(yīng)用中,一個時間段里手機用戶的運動狀態(tài)不確定,三軸加速度傳感器采集到的信號包含多種運動狀態(tài)。為提高識別的準確性、降低識別計算的復雜度,對三軸加速度傳感器采集到的信號先進行活動類型識別[13],然后針對不同運動狀態(tài)進行身份識別。本文研究基于用戶行走和下樓信號的身份識別。
針對行走與下樓狀態(tài)采集信號,為提升處理速度,對數(shù)據(jù)采用并行處理,將采集到的一段步態(tài)時間序列分為μ段,取N個連續(xù)采樣數(shù)據(jù)[14]為一段,設(shè)第段為
S=δ(n),n=1,2…,N
(1)
其次,并行計算每一段步態(tài)數(shù)據(jù)的拓撲特征,可以得到μ個PD,聯(lián)合μ個PD組成持續(xù)同調(diào)期望(Expected persistence diagram,EPD)[15]。實驗可知不同用戶EPD特征不同,本文以K-L散度度量EPD間的相異度,進而對特征分類,最終達到用戶識別的目的。
時間序列的相空間重構(gòu)是TDA的基礎(chǔ),以相空間為工具提取步態(tài)時間序列信號的隱含周期性。本文采用Packard與Takens等人提出的時滯嵌入(Time delay embedding)定理,對分段時間序列S進行相空間重構(gòu)[16,17],在此,將分段后的步態(tài)時間序列信號擴展到高維相空間中,得到相空間任一相點表示為k(α),定義為
k(α)=[δ(a),δ(α+τ),…,δ(α+(Υ-1)τ)],
α=1,2,…,Λ.
(2)
Λ為相點總數(shù)。定義相空間數(shù)據(jù)點集為
H={k(1),k(2),…,k(Λ)}.
(3)
相空間構(gòu)造的關(guān)鍵是選定合適的嵌入維數(shù)Υ和時延τ,重構(gòu)后的相空間數(shù)據(jù)點云集與原始一維非線性時間序列在拓撲意義上等價[17]。
時滯嵌入定理表明,若要相空間表現(xiàn)出一維非線性時間序列的隱含周期,必須選擇合適的延遲時間τ和嵌入維數(shù)Υ。如果Υ選的太小,重構(gòu)的相空間將是混疊的,在最極端的情況下,會發(fā)生自相交。如果Υ選擇的過大,將導致計算繁瑣,并且噪聲的影響也一起被放大,若延遲時間τ取值過小,則導致相空間延遲坐標之間過度相關(guān);如果延遲時間τ選取過大,相空間延遲坐標內(nèi)的相互關(guān)聯(lián)信息就有可能變成完全獨立的,則難以分析出數(shù)據(jù)之間的關(guān)聯(lián)性[17]。所以找到恰當?shù)难舆t時間τ和嵌入維數(shù)Υ是至關(guān)重要的。
常用的相空間重構(gòu)的方法有自相關(guān)法、互信息法和 C-C 法。自相關(guān)法不適用于非線性時間序列問題; 互信息法計算量大,不能同時求取嵌入維數(shù)Υ和時延τ。而步態(tài)時間序列為非線性序列,且采樣數(shù)據(jù)量大,因此,本文選擇 C-C 法[18]進行相空間重構(gòu),同時計算出延遲時間τ與嵌入維數(shù)Υ。
持續(xù)同調(diào)將相空間重構(gòu)生成的數(shù)據(jù)點云集構(gòu)造成一系列單純形與單純復形[19],從而表達數(shù)據(jù)點云集中點與點之間的關(guān)系,提供了一個不需要降維就能刻畫數(shù)據(jù)全貌的方法,以此測量點云數(shù)據(jù)集在歐式空間中的特征[19]。
在持續(xù)同調(diào)中,定義了歐式空間距離ε,若兩點之間的歐式距離小于或等于ε,則將該兩個數(shù)據(jù)點成對連接起來,點與點之間的連接構(gòu)成若干個單純形與單純復形,由單純形構(gòu)成的單純復形環(huán)繞構(gòu)成了點云數(shù)據(jù)集間的一個個“空洞”,而持續(xù)同調(diào)則是一個“數(shù)洞”的過程,或者說是對點云數(shù)據(jù)集特征(洞)的刻畫過程,因為“空洞”的大小、數(shù)量和位置代表著這個數(shù)據(jù)集的拓撲性質(zhì),就好比一支笛子發(fā)出的音調(diào)依賴于笛子上洞的數(shù)量,位置等性質(zhì),在持續(xù)同調(diào)中稱“洞”數(shù)為貝蒂數(shù)[19]。
以五點數(shù)據(jù)為例,當ε=d1時,如圖3(a)所示,五個數(shù)據(jù)點之間構(gòu)成五個一維單純形,其中由編號為2、3、4、5的四個數(shù)據(jù)點構(gòu)成的四個一維單純形圍成一個“空洞”,貝蒂數(shù)為1;當ε=d2時,如圖3(b)所示,編號為1、2、5的三個數(shù)據(jù)點連接構(gòu)成一個2維的單純形,標號為2、3、4、5構(gòu)成的“空洞”沒有消亡,貝蒂數(shù)為1;當ε=d3時,如圖3(c)所示,由于編號為3、5的兩個數(shù)據(jù)點之間構(gòu)成的一維單純形,原來由編號為2、3、4、5的四個數(shù)據(jù)點構(gòu)成的“空洞”被兩個單純形(編號2、3、5,編號3、4、5分別構(gòu)成兩個單純形)填滿,貝蒂數(shù)為0。ε從d1增長到d3的過程,表示出該五點數(shù)據(jù)中的空洞從誕生到消亡過程。

圖3 五點數(shù)據(jù)的持續(xù)同調(diào)

圖4 步態(tài)時間序列的持續(xù)同調(diào)。
在本文中,以構(gòu)造VR(Vietoris-Rips)復形[20]的方式計算步態(tài)信號相空間數(shù)據(jù)點集的持續(xù)同調(diào)。構(gòu)建VR復形的部分過程如圖4(b)~(d)所示。條形碼圖是持續(xù)同調(diào)的一種表達形式,如圖4(e)所示,條形碼圖記錄著點云數(shù)據(jù)貝蒂數(shù)與數(shù)據(jù)集中“空洞”的誕生與死亡時間。其中每一條形碼對應(yīng)著點云中的各個“空洞”,條形碼的長度表示著點云中“空洞”的“生存”時間,條形碼的出現(xiàn)表示“空洞”的誕生,條形碼的斷鏈表示“空洞”的消亡。
PD是持續(xù)同調(diào)的另一種表達形式。如圖4(f)所示,PD將條形碼圖中的條形碼以點集的形式表達出來。PD以條形碼圖中的誕生時間為橫坐標,死亡時間為縱坐標繪制,以描繪散點圖的方式等價地刻畫點云數(shù)據(jù)集的拓撲特征。給定數(shù)據(jù)點集H,計算得PD
=1,2,…,μ
(4)

特征選取是用戶識別的關(guān)鍵,不同特征,其表征能力不同。在特征提取過程,首先計算所有步態(tài)時間序列S的PD,得到PD集合
={Θ1,Θ2,…,Θμ}.
(5)
mj={Θj+1∪Θj+2∪…∪Θj+g},
j=1,2,…,J.
(6)
其中mj表示EPD,j表示EPD的序號。J表示EPD總數(shù)。EPD得到更多步數(shù)的持續(xù)同調(diào),步數(shù)增加能夠增強用戶步態(tài)中隱含的行為習慣在EPD持續(xù)同調(diào)期望中的表現(xiàn),從而提高用戶識別的準確性。EPD的計算過程如圖5所示。

圖5 EPD構(gòu)建過程

圖6 不同用戶EPD對比
不同的人擁有不同的走路風格與習慣,因此每個人的步態(tài)時間序列在相空間的拓撲結(jié)構(gòu)與拓撲特征也會不同,從而導致不同人的步態(tài)時間序列轉(zhuǎn)換所得到EPD也會有所差異。本文主要以K-L散度[21]比較不同測試人員的EPD之間的差異性,以此區(qū)分用戶。
首先,將每一個EPD,mj,順時針旋轉(zhuǎn)45°,得到旋轉(zhuǎn)后的EPD,定義為
j=1,2,…,J
(7)
式中

(8)


(9)
其中pj(i)表示Ωj第i段散點的頻數(shù),Γj(i)為Ωj第i段的散點總數(shù),Φj為Ωj的總散點數(shù)。
假設(shè)編號為e的用戶,共獲取其EPD頻數(shù)分布Ψe個,估算編號為e的用戶EPD頻數(shù)分布的統(tǒng)計模型

(10)
其中Me(i)表示編號為e的用戶模型。給出任一未知信號頻數(shù)分布p(x),用如下方法判定其所屬用戶

(11)
其中R為識別出來的EPD編號值。DKL(·)表示計算K-L散度,用來度量兩個頻數(shù)的相似程度,給出兩個頻數(shù)分布p(i)、Me(i),K-L散度定義為
某防護結(jié)構(gòu)墻體混凝土配合比優(yōu)化及溫度控制………………………………………… 曾鳴,仲新波,揭英強(6-3)

(12)
式中,p(i)和Me(i)相似度越高,K-L距離越小,并且當且僅當兩分布相同時,K-L散度等于0。

圖7 EPD的 K-L散度比較過程
為了驗證本文提出的基于三軸加速度同調(diào)的用戶識別的方法的優(yōu)勢和識別準確性,獲取更客觀的測試結(jié)果,從意大利熱那亞熱那亞大學提供的數(shù)據(jù)庫[11]采集大量數(shù)據(jù)進行了一系列實驗,數(shù)據(jù)集提供了人類行走,上樓,下樓等基于三軸加速度傳感器的步態(tài)信號。該數(shù)據(jù)集的實驗由30名年齡在19-48歲之間的志愿者參與,每一個人都將智能手機佩戴在腰間進行活動,利用三星Galaxy S2智能手機內(nèi)置的加速度計,以50Hz的恒速測量3軸線性加速度,以此來捕捉人體運動[22],本文使用該數(shù)據(jù)集中基于加速度傳感器行走和下樓狀態(tài)的信號。
實驗選取windows7操作系統(tǒng),128 GB內(nèi)存,56核處理器的硬件平臺,基于MATLABr2014a的軟件平臺,使用javaPlex[23]重構(gòu)VR復形得到步態(tài)時間序列的持續(xù)同調(diào)。實驗中共包含10個用戶的步態(tài)數(shù)據(jù)集,對每個用戶采集約300點步態(tài)時間序列,使用C-C法選取嵌入維數(shù)Υ=2與時延τ=4進行相空間重構(gòu),計算產(chǎn)生一個PD,選取g=15的疊加構(gòu)成一個EPD。針對不同用戶,分別構(gòu)造16個EPD作為先驗知識。基于式(10),為每一個用戶學習構(gòu)造一個EPD頻數(shù)分布的統(tǒng)計模型,以該模型為模板,對未知用戶數(shù)據(jù)進行判定。
針對本文中提出的用戶識別方法,采用了640個EPD進行測試。其中每個用戶EPD個數(shù)為64,通過比較未知EPD和10個已知用戶EPD頻數(shù)分布的統(tǒng)計模型,來完成用戶識別。對每個未知EPD,分別計算其與10個已知用戶EPD頻數(shù)分布的統(tǒng)計模型的K-L距離,判定未知EPD為K-L距離最小的用戶。
計算以下比率評估本文提出用戶識別方法的準確性,包括召回率(TPR,True Positive Rate),誤識率(FAR,false acceptance rate),拒識率(FRR,false rejection rate),定義為

(13)

(14)

(15)
其中TP是被分類為正確的次數(shù),F(xiàn)N是被分類為錯誤的次數(shù),NIRA是類間測試總次數(shù),NGRA類內(nèi)測試總次數(shù),NFA和NFR分別是錯誤接受次數(shù)和錯誤拒絕次數(shù)。
表1描述了K-L散度度量方式的結(jié)果,平均識別準確率達到95.3%。

表1 使用K-L散度對測試數(shù)據(jù)的分類結(jié)果表
為了進一步驗證本文方法的有效性,將本文方法與不同識別方法[5-7]進行對比,采用平均識別準確率為最后識別結(jié)果。方法KRR、J48、SVM通過提取步態(tài)數(shù)據(jù)時域和頻域的特征進行步態(tài)用戶識別達到了較高的準確率,分別為92.1%、84.0%、94.2%,但時域、頻域的特征隨時間增加變化很大,需要采集更多特征或者數(shù)據(jù),其中擁有較高準確率的方法SVM提取了多達8個特征,其中包括均值、方差、峰值、能量、熵等,多特征融合或者對特定特征分析都需要對目標數(shù)據(jù)進行詳細了解以獲得獨特特性,大大增加了算法的復雜度,而本文方法將步態(tài)時間數(shù)據(jù)進行相空間重構(gòu)進行拓撲分析,計算時間序列的持續(xù)同調(diào),可以獲取常規(guī)統(tǒng)計特征分析丟失的重要信息,選擇了一種新穎的特征進行用戶識別,與傳統(tǒng)的基于統(tǒng)計特征分析的用戶識別相比,有效提高了識別準確率,表明了本文方法的有效性。
本文提出了基于加速度傳感器同調(diào)分析的生物識別方法,計算各個測試人員EPD的K-L散度,比較之間的相異度。實驗表明,本文提出的方法有較高識別準確率,能夠基于步態(tài)時間序列有效進行身份識別。接下來,將測試各類步態(tài)數(shù)據(jù)集,如測試跑步,上樓等活動方式來進行身份識別,以進一步測試本文所提方法。除此以外,步態(tài)時間序列采集長度與構(gòu)成一個EPD的疊加個數(shù)g這兩個參數(shù)會直接影響實驗結(jié)果,序列采集長度與疊加個數(shù)g值的增加能夠提升識別準確率,但是同時也會降低識別效率。