























摘" 要: 隨著人口老齡化的加劇,老年人異常行為的識別技術(shù)已成為醫(yī)療保健領(lǐng)域亟需解決的關(guān)鍵問題。目前的異常行為識別算法面臨一個挑戰(zhàn),即無法確保在識別多種異常行為的同時提高模型的識別準(zhǔn)確率與計算效率。為解決此問題,提出一種FDS?ABPG?GoogLeNet模型。該模型采用了三種不同層級的改進(jìn)Inception模塊,并將這些模塊在網(wǎng)絡(luò)深層和淺層結(jié)構(gòu)中并行連接,在中層結(jié)構(gòu)中引入殘差結(jié)構(gòu),通過特征融合的方式顯著提高了網(wǎng)絡(luò)的計算效率和識別準(zhǔn)確率。同時,針對異常行為數(shù)據(jù)集中動作單一的問題,自建了包含多種異常動作的數(shù)據(jù)集,并通過將一維動作時序數(shù)據(jù)二維圖形化處理后使得行為動作特征更易于提取。實驗結(jié)果表明,所提FDS?ABPG?GoogLeNet模型的準(zhǔn)確率、靈敏度和特異性分別達(dá)到99.40%、99.49%和99.93%。
關(guān)鍵詞: 異常行為識別; Inception模塊; 殘差結(jié)構(gòu); 特征融合; 特征提取; 卷積神經(jīng)網(wǎng)絡(luò)
中圖分類號: TN925?34; TP391.9" " " " " " " " "文獻(xiàn)標(biāo)識碼: A" " " " " " " " " " " 文章編號: 1004?373X(2025)06?0136?11
Research on FDS?ABPG?GoogLeNet model for human abnormal behavior recognition
LI Yifan, LI Congcong, LI Yanan, WANG Bin
(College of Information Science and Technology, Hebei Agricultural University, Baoding 071001, China)
Abstract: With the exacerbation of population aging, the identification technology of abnormal behaviors in the elderly has become a critical issue urgently needing to be addressed in the healthcare field. The current abnormal behavior recognition algorithm is faced with a challenge, that is, it cannot ensure the recognition accuracy and computational efficiency of the model while recognizing various abnormal behaviors. To address this issue, the FDS?ABPG?GoogLeNet model is proposed. In this model, three improved Inception modules at different levels are incorporated, and they are connected in parallel in both deep and shallow network structures. The residual structure is introduced in the middle structure, which significantly improves the computational efficiency and recognition accuracy of the network by means of the feature fusion. In order to solve the problem of single action in abnormal behavior data set, a dataset containing multiple abnormal actions is self built. By graphically processing one?dimensional action time series data in two dimensions, it makes it easier to extract behavioral action features. The experimental results demonstrate that the proposed FDS?ABPG?GoogLeNet model can realize an accuracy, senstivity, and specificity of 99.40%, 99.49%, and 99.93%, respectively.
Keywords: abnormal behavior recognition; Inception module; residual structure; feature fusion; feature extraction; convolutional neural network
0" 引" 言
當(dāng)前全球正面臨著人口老齡化帶來的嚴(yán)峻挑戰(zhàn),隨著老齡化問題的加劇,醫(yī)療和社會服務(wù)行業(yè)將承受巨大的壓力。根據(jù)聯(lián)合國發(fā)布的《2023年世界社會報告》,2023年全球65歲以上的人口約為7.83億,占全球總?cè)丝诘?0%。預(yù)計到2050年,這一數(shù)字將增加至16億,而80歲以上人口的增長速度更為迅猛。隨著人口老齡化的不斷加劇和空巢老人比例的上升,社會對老年人健康安全問題的關(guān)注也在增加。其中,獨居老人的突發(fā)性異常行為是最令人擔(dān)憂的健康安全問題之一。
據(jù)世界衛(wèi)生組織(WHO)的相關(guān)報告統(tǒng)計,跌倒、癲癇抽搐、高血壓等導(dǎo)致的眩暈、嘔吐已成為危害程度最大且發(fā)生概率最高的突發(fā)性異常行為。全世界每年發(fā)生68.4萬例致命跌傷,其中一半以上是超過60歲的老年人;癲癇抽搐問題影響到全世界約5 000萬人,估計全球每年有500萬人被診斷為癲癇;老年人的眩暈、嘔吐問題大都由心腦血管疾病導(dǎo)致,在非傳染性疾病導(dǎo)致的1 700萬例死亡中,70歲以下人群中37%的病例歸因于心血管疾病。這些數(shù)據(jù)凸顯了這一人群面臨多樣而高危的健康風(fēng)險。針對這幾類典型異常行為,國內(nèi)外學(xué)者分別開展了異常行為識別算法的研究[1?3]。
1" 相關(guān)研究
目前進(jìn)行異常行為識別檢測的方法大致分為基于環(huán)境傳感器[4]、基于計算機視覺[5?6]、基于可穿戴設(shè)備[7?8]這三種。由于可穿戴設(shè)備不受環(huán)境影響,且能夠保護(hù)使用者隱私,因此本文選擇佩戴慣性傳感器IMU(Inertial Measurement Unit)進(jìn)行人體異常行為識別。
在基于可穿戴設(shè)備進(jìn)行異常行為識別檢測中,最常用的深度學(xué)習(xí)模型包括卷積神經(jīng)網(wǎng)絡(luò)(CNN)、長短期記憶(LSTM)網(wǎng)絡(luò)、CNN和LSTM相結(jié)合、Transformer以及圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)等,本文將根據(jù)以上幾種模型分類方式開展相關(guān)的研究工作。在基于卷積神經(jīng)網(wǎng)絡(luò)的檢測方法中,文獻(xiàn)[1]提出了一種基于IR?UWB慣性傳感器的CNN跌倒檢測算法,準(zhǔn)確率達(dá)到了96.65%。文獻(xiàn)[9]利用GoogLeNet?Inception?v3遷移學(xué)習(xí)方法來提高異常行為檢測的準(zhǔn)確性和效率,改進(jìn)后的模型準(zhǔn)確率達(dá)到88.10%。為了提高行為識別的準(zhǔn)確率和使用率,文獻(xiàn)[10]提出了一種基于向量注意力機制的GoogLeNet?GMP模型,通過添加向量注意力機制對目標(biāo)信息的多尺度區(qū)域進(jìn)行整合重構(gòu),獲得多個等級的可區(qū)分特性特征,識別準(zhǔn)確率達(dá)到了97.90%。在基于長短期記憶網(wǎng)絡(luò)的檢測方法中,文獻(xiàn)[11]設(shè)計了一個基于LSTM的模型架構(gòu),可以有效地檢測異常行為并通過可穿戴設(shè)備運行。文獻(xiàn)[12]創(chuàng)建了一個跌倒檢測系統(tǒng)(FDS),從傳感器中收集數(shù)據(jù),使用具有底層雙向長短期記憶(BiLSTM)堆棧的遞歸神經(jīng)網(wǎng)絡(luò)(RNN)將跌倒與其他行為區(qū)分開來,準(zhǔn)確率達(dá)到了97.21%。在基于卷積神經(jīng)網(wǎng)絡(luò)與長短期記憶網(wǎng)絡(luò)融合的檢測方法中,文獻(xiàn)[13]提出了CBAM?CNN?LSTM模型,實驗證明了LSTM、CNN和CBAM之間的協(xié)作可以提高建模能力和預(yù)測精度。文獻(xiàn)[2]將卷積神經(jīng)網(wǎng)絡(luò)(CNN)和長短期記憶(LSTM)網(wǎng)絡(luò)相結(jié)合來檢測老年癡呆患者的異常行為動作,準(zhǔn)確率達(dá)到了94.2%。文獻(xiàn)[14]提出了一種基于改進(jìn)注意力機制的CBAM?IAM?CNN?BiLSTM模型,將穿戴式傳感器采集到的加速度和角速度分別輸入到模型的卷積層和LSTM層中,通過特征融合后進(jìn)行識別分類,準(zhǔn)確率達(dá)到了97.37%。在基于Transformer網(wǎng)絡(luò)結(jié)構(gòu)的研究中,文獻(xiàn)[15]提出了兩種基于Transformer的癲癇檢測算法,實現(xiàn)了對癲癇行為的自動分析檢測,準(zhǔn)確率達(dá)到了97.52%。文獻(xiàn)[3]提出了一種基于Transformer的異常行為識別模型ST?TR,通過空間自注意力模塊(SSA)和時間自注意力模塊(TSA)分別對幀內(nèi)不同關(guān)節(jié)及連續(xù)幀間同一關(guān)節(jié)特征進(jìn)行建模,分類準(zhǔn)確率達(dá)到了87.1%。在基于人體拓?fù)浣Y(jié)構(gòu)的圖卷積神經(jīng)網(wǎng)絡(luò)的檢測方法中,文獻(xiàn)[16]通過定制的ST?GCN模型來進(jìn)行人體行為識別,該模型重點關(guān)注空間和時間特征,以便更好地進(jìn)行姿態(tài)估計,準(zhǔn)確率達(dá)到了98.10%。
本文經(jīng)基礎(chǔ)模型對比實驗結(jié)果得知,GoogLeNet網(wǎng)絡(luò)在ABPG(Abnormal Behavior Pixel Grid)數(shù)據(jù)集上表現(xiàn)最優(yōu),所以選用GoogLeNet網(wǎng)絡(luò)作為基礎(chǔ)模型并改進(jìn)后進(jìn)行異常行為識別檢測。
1) 針對GoogLeNet網(wǎng)絡(luò)引入Inception模塊后帶來的多參數(shù)以及高計算量的問題,改進(jìn)的FDS?ABPG?GoogLeNet網(wǎng)絡(luò)采用了三種不同層級的改進(jìn)Inception模塊,通過對不同Inception結(jié)構(gòu)的改進(jìn),減少了參數(shù)數(shù)量與冗余計算。
2) 針對GoogLeNet網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜性、并行計算能力較差的問題,本文選擇將改進(jìn)的不同Inception模塊在深層和淺層結(jié)構(gòu)中并行連接,從而釋放模型的并行計算能力,降低模型的復(fù)雜程度。
3) 針對異常行為數(shù)據(jù)集中僅關(guān)注某一種異常行為的問題,構(gòu)建了ABPG異常動作數(shù)據(jù)集。該數(shù)據(jù)集包含發(fā)生率最高的跌倒動作,還有抽搐、眩暈、嘔吐等異常行為和四種日常活動數(shù)據(jù)。通過對IMU采集到的各種動作三軸加速度和角速度數(shù)據(jù)進(jìn)行處理,將其轉(zhuǎn)換為RGB像素點陣圖。
最終通過自建ABPG數(shù)據(jù)集對FDS?ABPG?GoogLeNet網(wǎng)絡(luò)進(jìn)行訓(xùn)練與測試,并設(shè)計了消融實驗與對比實驗,證明了本文提出模型在識別準(zhǔn)確率和計算效率上都有較大的提升。
2" 數(shù)據(jù)集構(gòu)建
2.1" 實驗方案
構(gòu)建人體運動模型,用X、Y、Z軸來描述人體三維坐標(biāo),如圖1所示。其中,X、Y、Z軸分別代表人體的前后、左右和上下方向。將IMU傳感器分別佩戴在受試者的頸部和腰部。
因為異常行為檢測的特殊性,無法采集老年人真實的異常行為數(shù)據(jù),所以目前大多數(shù)的異常行為檢測研究都是用年輕的受試者在實驗室的環(huán)境中模仿老年人的異常行為動作所獲取的數(shù)據(jù)。
由于老年人身體機能和運動能力的下降,各種行為動作的幅度都要遠(yuǎn)小于年輕人,為了更接近真實數(shù)據(jù),實驗過程中要求受試者穿戴老年人生活模擬體驗服進(jìn)行異常行為數(shù)據(jù)采集。實驗在活動區(qū)域周圍墊上了海綿墊,防止受試者受傷。該實驗使用LPMS?B2姿態(tài)傳感器,設(shè)備的各種配置參數(shù)如表1所示。
圖2為跌倒、抽搐、眩暈、嘔吐等動作模擬圖。本實驗的受試者共為20人,其中男性16名,女性4名,年齡在20~25周歲。
如表2所示,實驗采集了跌倒、抽搐、眩暈、嘔吐等四種異常行為動作以及慢走、慢跑、坐、下蹲四種日常行為。
2.2" 數(shù)據(jù)預(yù)處理
實驗共采集了8種動作的原始數(shù)據(jù),但原始數(shù)據(jù)存在噪聲干擾,會影響模型分類結(jié)果的準(zhǔn)確率,因此選擇對原始數(shù)據(jù)進(jìn)行卡爾曼濾波、歸一化、時序化處理。
2.2.1" 卡爾曼濾波處理
鑒于采集到的傳感器數(shù)據(jù)會受到傳感器工作狀態(tài)、電磁感應(yīng)、溫度等因素的干擾,從而影響到最終異常行為識別的準(zhǔn)確率[17],本文使用Kalman[18]濾波對采集到的數(shù)據(jù)進(jìn)行降噪處理,如圖3所示。
2.2.2" 歸一化處理
經(jīng)過Kalman濾波處理的傳感器數(shù)據(jù)可能包含冗余或異常數(shù)據(jù),因此,需要對數(shù)據(jù)進(jìn)行歸一化處理。
采集的三軸加速度和角速度傳感器數(shù)據(jù)量程不同,分別為-ra~ra和-rg~rg,不能直接結(jié)合使用兩者數(shù)據(jù)。為此使用公式(1)對三軸加速度和角速度數(shù)據(jù)進(jìn)行歸一化處理,將兩個傳感器數(shù)據(jù)規(guī)范在0~255范圍內(nèi)。
式中:R代表歸一化數(shù)據(jù)結(jié)果;d為慣性傳感器采集的三軸數(shù)據(jù);r為數(shù)據(jù)量程最大值。
2.2.3" 時序化處理
直接使用歸一化處理后的三軸數(shù)據(jù)作為輸入需要解決時序信息丟失和數(shù)據(jù)維度不匹配的問題,本文將歸一化處理后的數(shù)據(jù)轉(zhuǎn)化為像素點陣圖,在增加數(shù)據(jù)維度的同時解決了以上問題,保證了數(shù)據(jù)在時間和空間特征上更全面的表達(dá)。由于人體完成大部分行為動作所需要的時間通常在2 s以內(nèi),因此每種行為動作選取2 s作為一個數(shù)據(jù)集合,采用50%重疊的滑動窗口截取數(shù)據(jù)。數(shù)據(jù)采集頻率為100 Hz,因此每個滑動窗口中分別包括200個三軸加速度和三軸角速度數(shù)據(jù),將X、Y、Z三軸數(shù)據(jù)與RGB圖像中的R、G、B通道相對應(yīng),將三軸加速度或三軸角速度數(shù)據(jù)轉(zhuǎn)換為一個RGB像素點。為了轉(zhuǎn)換后圖像數(shù)據(jù)的實用性,將每個數(shù)據(jù)個體統(tǒng)一設(shè)置成分布平均的10×10像素點圖像,每個圖像的前5列為三軸加速度,后5列為三軸角速度。這樣每個圖像中就包含了50份三軸加速度數(shù)據(jù)和50份三軸角速度數(shù)據(jù)。圖4描述異常行為與日常活動行為數(shù)據(jù)對應(yīng)的像素點陣圖,可發(fā)現(xiàn)異常行為與日常活動的像素點陣圖由于各種動作的差異性,在點陣圖上表現(xiàn)出不同的顏色分布。
2.3" 數(shù)據(jù)增強
為了模擬真實世界的各種環(huán)境變化,增加訓(xùn)練數(shù)據(jù)的多樣性以及提高模型的泛化能力,本文通過調(diào)整傳感器數(shù)據(jù)對像素點陣圖進(jìn)行數(shù)據(jù)增強。
通過將歸一化公式中的分母變?yōu)樵降腫12],在不改變轉(zhuǎn)換后像素點矩陣的分布情況下,R值擴大1倍,轉(zhuǎn)換后的圖像色彩更加鮮明,圖像特征更加明顯。圖5描述了增強后的圖像與原圖像的對比。
數(shù)據(jù)集增強后的各動作對應(yīng)數(shù)量如表3所示。
3" 模型的構(gòu)建與優(yōu)化
圖6為本文所描述的異常行為識別算法FDS?ABPG?GoogLeNet整體結(jié)構(gòu)圖。
3.1" 卷積替換
為了減少GoogLeNet模型初始輸入層的計算量和計算資源的使用,將初始輸入層7×7大卷積替換為兩個3×3小卷積。小卷積的替換可以使每個卷積核更專注于輸入數(shù)據(jù)的局部信息,從而有助于更好地捕捉輸入數(shù)據(jù)的細(xì)微特征和提取更高層次的抽象特征。替換前后對比如圖7所示。
3.2" Inception結(jié)構(gòu)設(shè)計
如圖8所示,本文根據(jù)數(shù)據(jù)在模型中遞進(jìn)的順序,設(shè)計了三種不同層級遞進(jìn)的Inception結(jié)構(gòu)。在特征提取的初始階段,模型需要使用較為復(fù)雜的淺層Inception提取更深層的特征。而隨著網(wǎng)絡(luò)的深入,后續(xù)的特征無需復(fù)雜的結(jié)構(gòu)進(jìn)行提取,所以對后續(xù)的Inception結(jié)構(gòu)采取裁剪和替換卷積操作,從而達(dá)到輕量化的效果。
3.2.1" Inception A、B、C設(shè)計
為了降低模型計算復(fù)雜度,文獻(xiàn)[19]在InceptionV3中對卷積進(jìn)行分解和替換等操作。因此,本文選擇將2個淺層Inception中5×5的大卷積分解為兩個3×3的小卷積,在保持感受野不變的同時,不僅減輕協(xié)同變量的數(shù)量還提高了模型的非線性能力。淺層結(jié)構(gòu)命名為Inception A。
在中層的5個Inception結(jié)構(gòu)中,為了降低模型的參數(shù)量,提高模型的收斂速度,本文選擇對一層3×3卷積分支進(jìn)行裁剪,并將5×5大卷積分解為兩個3×3的小卷積層。如圖9所示,在殘差結(jié)構(gòu)[20]中,通過1×1卷積處理淺層Inception A的輸出特征,并與中層Inception的輸出特征進(jìn)行特征融合,最終添加BN層等操作解決網(wǎng)絡(luò)退化、梯度爆炸和梯度消失等問題。中層結(jié)構(gòu)被命名為Inception B。
在Inception B的基礎(chǔ)上,為了提高模型的運算速度,本文將兩個深層Inception結(jié)構(gòu)中的一層3×3卷積分支和殘差結(jié)構(gòu)進(jìn)行裁剪,并將其命名為Inception C。
Inception結(jié)構(gòu)的多層遞進(jìn)使用可能導(dǎo)致數(shù)據(jù)發(fā)生內(nèi)部協(xié)方差偏移,增加訓(xùn)練難度。所以本文在每個Inception模塊的各分支末尾引入BN層,解決內(nèi)部協(xié)方差偏移和過擬合問題。最終在普通卷積核后使用ReLU,在Inception層中使用Leaky ReLU激活函數(shù),以此解決部分“神經(jīng)元死亡”問題。
3.2.2" Inception并行結(jié)構(gòu)
如圖10所示,Inception結(jié)構(gòu)的多層次串行連接限制了模型的并行計算能力,并導(dǎo)致模型的復(fù)雜度增加,所以本文選擇將兩個淺層Inception A模塊與兩個深層Inception C模塊改為并行連接,并進(jìn)行特征融合。
4" 實驗結(jié)果與分析
本實驗基于Linux操作系統(tǒng),Intel[?] CoreTM i9?7900X3.30 GHz CPU,GPU為GeForce RTX3090,Python 3.8.4版本,深度學(xué)習(xí)框架為PyTorch。并行計算框架和版本為CUDA 11.4,開發(fā)環(huán)境為PyCharm。
自建數(shù)據(jù)集按比例隨機劃分訓(xùn)練集與測試集,其中80%的數(shù)據(jù)用于模型訓(xùn)練,20%用于模型測試。模型優(yōu)化器選擇Adam,損失函數(shù)采用交叉熵,學(xué)習(xí)率設(shè)置為0.000 1,批量大小設(shè)置為16,Epoch設(shè)置為400。為了防止過擬合,將dropout設(shè)置為0.4。
4.1" 模型的評價指標(biāo)
為了進(jìn)一步驗證模型的有效性,本文以準(zhǔn)確率(Accuracy)、靈敏度(Sensitivity)、特異性(Specificity)、收斂速度(即Epoch收斂層數(shù))為評價標(biāo)準(zhǔn),指標(biāo)公式如下:
式中:TP、TN、FP和FN分別代表真陽性、真陰性、假陽性和假陰性;N是樣本的總數(shù);i是第i類;n是動作類別的數(shù)量。模型的收斂速度快慢由模型收斂所需的迭代次數(shù)來評判。
4.2" 基礎(chǔ)模型對比實驗
本文用5種主流的卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行了基礎(chǔ)模型對比實驗,5種傳統(tǒng)的基本模型為CNN、LSTM、CNN?LSTM、GCN以及GoogLeNet,圖11顯示了各基礎(chǔ)模型的對比結(jié)果。
由圖可以很直觀地看到,GoogLeNet的準(zhǔn)確率最高,同時收斂速度也最快。因此,本文選擇GoogLeNet作為基本模型進(jìn)行改進(jìn)。
4.3" 傳感器不同放置位置對比
設(shè)置實驗方案時,本文選擇將可穿戴傳感器分別放置在頸部和腰部。最終將頸部、腰部和兩位置融合的數(shù)據(jù)進(jìn)行橫向?qū)Ρ龋x出最優(yōu)位置。傳感器放置位置結(jié)果對比圖如圖12所示。
隨著Epoch的增加,訓(xùn)練精度曲線呈現(xiàn)了三種不同傳感器放置位置數(shù)據(jù)預(yù)測準(zhǔn)確率的變化趨勢。經(jīng)對比實驗得知,腰部數(shù)據(jù)的預(yù)測準(zhǔn)確率最高,為95.62%,同時考慮到傳感器佩戴需考慮佩戴者的隱私性以及舒適性,所以選擇腰部為傳感器最優(yōu)放置位置。因此,本文所有的數(shù)據(jù)分析都是針對腰部傳感器數(shù)據(jù)進(jìn)行的。
4.4" 消融實驗
本文設(shè)計了消融實驗[21]來驗證FDS?ABPG?GoogLeNet中所做的改進(jìn)對模型性能的提升效果。本次消融實驗重點關(guān)注三種改進(jìn)Inception結(jié)構(gòu)(串行連接)的設(shè)計、ReLU與Leaky ReLU的結(jié)合,以及各類注意力機制的使用。表4顯示了7組實驗(編號為1~7)的設(shè)計。Inception A、B、C在表中用I?A、I?B、I?C表示。
表5顯示了從每組實驗中得到的結(jié)果。
實驗1~實驗3為三種不同Inception模塊的使用,引入Inception A結(jié)構(gòu)時,兩個3×3的小卷積為模型引入了更多的非線性關(guān)系,提高了計算效率;引入Inception B模塊時,相較于原模型準(zhǔn)確率(95.62%)提升了2.24%,且大幅提升了收斂速度,表明Inception B模塊通過疊加殘差結(jié)構(gòu)拓寬了網(wǎng)絡(luò),適應(yīng)了數(shù)據(jù)集,為模型收斂提供了更短的路徑;Inception C模塊的精簡化使其引入模型時準(zhǔn)確率相較原模型提升了2.43%,模型收斂速度大幅提升。
實驗4~實驗6分別引入SE、CA、CBAM注意力模塊,與實驗3相比模型準(zhǔn)確率不增反降,原因可能為引入注意力模塊增加了模型復(fù)雜度,導(dǎo)致過擬合。
實驗7在三種改進(jìn)的Inception中引入BN模塊和Leaky ReLU激活函數(shù)時,準(zhǔn)確率相較原模型提升了2.61%,說明其解決了模型內(nèi)部協(xié)方差偏移、過擬合以及“神經(jīng)元死亡”等問題,是一種有效的改進(jìn)策略。
4.5" Inception并行結(jié)構(gòu)對比實驗
如表6所示,為了驗證并行Inception結(jié)構(gòu)帶來的性能提升,本文在消融實驗基礎(chǔ)上設(shè)計了4組對比實驗。
表7顯示了當(dāng)Inception A與Inception C結(jié)構(gòu)都處于并行連接時,模型的識別準(zhǔn)確率、靈敏度、特異性以及收斂輪次均達(dá)到了峰值,分別為99.40%、99.49%、99.93%、90。相比于串行連接時準(zhǔn)確率高出了1.17%,收斂速度也提升了近1倍,說明并行結(jié)構(gòu)的存在釋放了模型的并行計算能力,提高了計算效率。
4.6" 模型對比實驗
如表8所示,本文提出的FDS?ABPG?GoogLeNet模型與其他異常行為識別模型在本文自建ABPG數(shù)據(jù)集上進(jìn)行了比較,包括CNN、LSTM、CNN?LSTM、GCN以及GoogLeNet。在對比實驗中所有的模型都是從頭開始訓(xùn)練的,但FDS?ABPG?GoogLeNet總能夠以更快的速度達(dá)到99.40%的最高準(zhǔn)確率。
FDS?ABPG?GoogLeNet與其他模型相比的優(yōu)勢如下。
1) 與傳統(tǒng)CNN模型相比,F(xiàn)DS?ABPG?GoogLeNet引入了多種不同的Inception模塊,通過并行連接,使用不同尺度的卷積核與池化層解決了CNN模型使用串聯(lián)的卷積層與池化層導(dǎo)致的在不同尺度上的信息缺失問題。
2) 與Adapted RNN、NT?FDS和CBAM?IAM?CNN?BiLSTM相比,所提模型通過引入不同層級Inception模塊串并行混合連接,降低了模型計算復(fù)雜度,解決了這兩類模型參數(shù)量快速增加、計算復(fù)雜度變大的問題。
3) ST?GCN與FDS?ABPG?GoogLeNet都可以很好地捕獲數(shù)據(jù)的多尺度信息,但是ST?GCN在ABPG這種靜態(tài)數(shù)據(jù)集上的表現(xiàn)效果較差,其更適用于處理視頻數(shù)據(jù)轉(zhuǎn)換為圖結(jié)構(gòu)的時間關(guān)系。
4) 與GoogLeNet原模型和GoogLeNet?GMP相比,F(xiàn)DS?ABPG?GoogLeNet成功地解決了深度神經(jīng)網(wǎng)絡(luò)模型在并行計算能力方面不足的問題,并在此基礎(chǔ)上大幅提高了識別準(zhǔn)確率。
4.7" 混淆矩陣
本文將FDS?ABPG?GoogLeNet模型應(yīng)用于自建ABPG數(shù)據(jù)集,得到的混淆矩陣如圖13所示。
在混淆矩陣中,主對角線上的數(shù)值表示被正確預(yù)測的樣本數(shù)量,而其他位置的數(shù)值表示被錯誤預(yù)測的樣本數(shù)量。混淆矩陣圖顯示有兩個跌倒行為被錯誤地預(yù)測為下蹲。這是因為跌倒和下蹲在Y軸數(shù)據(jù)上的波動幅度都比較大,而且跌倒的訓(xùn)練樣本相對較少,這可能導(dǎo)致模型在學(xué)習(xí)特征時效果相對較低,容易產(chǎn)生誤判。另外,抽搐和嘔吐兩個行為都包含了俯身的動作。因此,一組抽搐被錯誤地預(yù)測為嘔吐,一組嘔吐被錯誤地預(yù)測為抽搐。
通常,模型在訓(xùn)練過的數(shù)據(jù)中表現(xiàn)較好,在真實數(shù)據(jù)中表現(xiàn)欠佳。因此,本文使用了未經(jīng)過訓(xùn)練的測試集圖像對FDS?ABPG?GoogLeNet模型進(jìn)行了性能測試。表9給出了FDS?ABPG?GoogLeNet模型在準(zhǔn)確率、靈敏度以及特異性方面的測試結(jié)果。表中顯示,該模型可以很好地識別測試集中的各類動作。對8種行為的識別準(zhǔn)確率均高于98.29%,靈敏度高于97.67%,特異性高于99.74%,說明本模型對單個行為達(dá)到了顯著的識別效果,并能較好地區(qū)分8種動作。對慢走、慢跑、跌倒、眩暈4種動作的識別準(zhǔn)確率、靈敏度以及特異性都達(dá)到了100%,說明本模型在這4種動作的識別任務(wù)中達(dá)到了準(zhǔn)確無誤的識別。
5" 結(jié)" 論
本文提出一種新的異常行為識別方法FDS?ABPG?GoogLeNet,旨在識別多種異常行為的同時提高模型的識別準(zhǔn)確率與計算效率。基于自建ABPG異常行為數(shù)據(jù)集,將人體行為序列信息通過RGB像素點進(jìn)行轉(zhuǎn)換,并壓縮在二維圖像中,利用三層改進(jìn)的Inception模塊并行遞進(jìn)連接將復(fù)雜問題分解為多個簡單的子問題,令特征提取過程更加簡單有效。
實驗結(jié)果表明,本文提出的人體異常行為識別模型的準(zhǔn)確率達(dá)到了99.40%。與其他網(wǎng)絡(luò)模型相對比,該模型具有更高的準(zhǔn)確率和更快的收斂速度。該模型的提出極大地提高了異常動作識別的速度及準(zhǔn)確率,從而可以使更多行動不便的使用者在發(fā)生危險異常行為動作時得到更加及時的救助。
但是本研究仍存在局限性,即真實的異常行為數(shù)據(jù)集構(gòu)建是困難的。即使本研究在數(shù)據(jù)采集時令實驗人員穿戴老年生活體驗服去模仿各種不同情況下的各種異常行為,但與真實數(shù)據(jù)之間仍存在一定的差異性。在未來的研究中會更新數(shù)據(jù)集,增加更多不同的動作來驗證該模型的性能,持續(xù)改進(jìn)模型,縮短模型收斂時間,減少誤判數(shù)量,為使用者提供更加便捷且高效的異常行為識別技術(shù)。
參考文獻(xiàn)
[1] HAN T, KANG W, CHOI G. IR?UWB sensor based fall detection method using CNN algorithm [J]. Sensors, 2020, 20: 5948.
[2] ARIFOGLU D, BOUCHACHIA A. Detection of abnormal behavior for dementia sufferers using convolutional neural networks [J]. Artificial intelligence in medicine, 2019, 94: 88?95.
[3] PLIZZARI C, CANNICI M, MATTEUCCI M. Spatial temporal transformer network for skeleton?based action recognition [J]. Pattern recognition ICPR international workshops and challenges, 2021(2): 694?701.
[4] 劉峰,徐壯,干宗良,等.一種基于時序運動特征的RGB?D視頻跌倒行為檢測算法[J].南京郵電大學(xué)學(xué)報(自然科學(xué)版),2020,40(5):117?124.
[5] TARAMASCO C, RODENAS T, MARTINEZ F, et al. A novel monitoring system for fall detection in older people [J]. IEEE access 2018, 6: 43563?43574.
[6] GARCíA E, VILLAR M, Fá?EZ M, et al. Towards effective detection of elderly falls with CNN?LSTM neural networks [J]. Neurocomputing, 2022, 500: 231?240.
[7] 薛源,高向陽.基于多傳感器信息融合的跌倒監(jiān)測系統(tǒng)設(shè)計[J].武漢理工大學(xué)學(xué)報(信息與管理工程版),2011,33(5):712?716.
[8] MUBASHIR M, SHAO L, SEED L. A survey on fall detection: principles and approaches [J]. Neurocomputing, 2013, 100: 144?152.
[9] JEBUR S A, HUSSEIN K A, HOOMOD H K. Abnormal behavior detection in video surveillance using inception?v3 transfer learning approaches [J]. IRAQI journal of computers, communications, control and systems engineering, 2023, 23(2): 210?221.
[10] 孟月波,穆思蓉,劉光輝,等.基于向量注意力機制GoogLeNet?GMP的行人重識別方法[J].計算機科學(xué),2022,49(7):142?147.
[11] MUSCI M, MARTINI D D, BLAGO N, et al. Online fall detection using recurrent neural networks on smart wearable devices [J]. Emerging topics in computing IEEE transactions on, 2020, 9: 1276?1289.
[12] WAHEED M, AFZAL H, MEHMOOD K. NT?FDS?a noise tolerant fall detection system using deep learning on wearable devices [J]. Sensors, 2021, 21: 2006.
[13] LIANG Y, LIN Y, LU Q. Forecasting gold price using a novel hybrid model with ICEEMDAN and LSTM?CNN?CBAM [J]. Expert systems with applications, 2022, 206: 117847.
[14] LI C C, LIU M H, YAN X S, et al. Research on CNN?BiLSTM fall detection algorithm based on improved attention mechanism [J]. Applied sciences, 2022, 12(19): 9671.
[15] 褚登雨.基于Transformer的癲癇發(fā)作自動檢測研究[D].濟南:山東師范大學(xué),2023.
[16] LOVANSHI M, TIWARI V. Human skeleton pose and spatio?temporal feature?based activity recognition using ST?GCN [J]. Multimedia tools and applications, 2024, 83(5): 12705.
[17] 何堅,周明我,王曉懿.基于卡爾曼濾波與k?NN算法的可穿戴跌倒檢測技術(shù)研究[J].電子與信息學(xué)報,2017,39(11):2627?2634.
[18] KALMAN R. A new approach to linear filtering and prediction problems [J]. Journal of basics engineering, 1960, 82: 35?45.
[19] SZEGEDY C, VANHOUCKE V, IOFFE S, et al. Rethinking the inception architecture for computer vision [C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). [S.l.]: IEEE, 2016: 2818?2826.
[20] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA: IEEE, 2016: 770?778.
[21] PENG S, JIANG W, PI H, et al. Deep snake for real?time instance segmentation [C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, WA, USA: IEEE, 2020: 8530?8539.
[22] 王瑜琳,錢欣麗,徐曉靈,等.基于圖卷積神經(jīng)網(wǎng)絡(luò)的人體行為識別方法研究[J].河南科技,2023,42(11):18?23.
[23]" 孟彩霞,薛洪秋,石磊,等.融合注意力機制的Open Pose人體跌倒檢測算法[J].計算機輔助設(shè)計與圖形學(xué)學(xué)報,2024,36(12):2040?2050.
[24] 王鑫,鄭曉巖,高煥兵,等.基于卷積神經(jīng)網(wǎng)絡(luò)和多判別特征的跌倒檢測算法[J].計算機輔助設(shè)計與圖形學(xué)學(xué)報,2023,35(3):452?462.
作者簡介:李一帆(2001—),男,河北保定人,碩士研究生,研究方向為智能信息檢測與處理、計算機視覺、深度學(xué)習(xí)。
李聰聰(1983—),女,河北保定人,博士研究生,副教授,研究方向為智能信息檢測與處理、計算機視覺、步態(tài)識別、深度學(xué)習(xí)等。
李亞南(1984—),女,河北保定人,博士研究生,講師,研究方向為智能信息檢測與處理、計算機視覺、物聯(lián)網(wǎng)通信和控制技術(shù)等。
王" 斌(1999—),男,河北唐山人,碩士研究生,研究方向為智能信息檢測與處理、計算機視覺、深度學(xué)習(xí)。
收稿日期:2024?06?08" " " " " "修回日期:2024?07?18
基金項目:河北省教育廳科學(xué)研究重點項目(ZD2021056);河北省高等學(xué)校科學(xué)研究項目(203777119D);2023河北省引進(jìn)海外留學(xué)人員計劃(C20230333)