999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于YOLOv5與背景優化的靜態手勢識別算法

2025-01-24 00:00:00李書嫻王宇翔趙雪峰仲兆滿
山西大學學報(自然科學版) 2025年1期

摘要:手勢識別是人機交互中的關鍵技術。傳統實時手勢識別模型對光照變化、復雜背景等干擾因素適應性不強,所用分類數據集僅包含特定手勢,在實際應用中泛化能力不足。針對以上問題,提出背景優化的二階段靜態手勢識別算法。在檢測階段,采用YOLOv5s(You Only Look Once version 5 small)作為檢測網絡,利用其定位能力快速檢測手部位置。在識別階段,首先,利用背景與傳感器熱噪聲對分類數據集進行增強,設計背景優化預處理算法,提升模型對復雜背景的適應性;然后,將VGG-16(Visual Geometry Group-16)作為識別網絡的原型,增加歸一化層并替換激活函數以加速收斂并防止過擬合。實驗中,模型可以在多種干擾下提取圖像特征,準確率達到97.9%,F1 值達到92.3%。實驗結果表明,模型對復雜場景的適應能力高于經原始分類數據集訓練后的傳統模型,具有更高的實際應用價值。

關鍵詞:手勢識別;YOLOv5;復雜背景;實時識別

中圖分類號:TP391.4 文獻標志碼:A 文章編號:0253-2395(2025)01-0180-12

0 引言

在全球數字化與智能化的背景下,高效的人機交互需求日益迫切。手勢識別技術通過機器感知和解析手勢動作,已成為智能設備、虛擬現實、智能家居及自動駕駛等領域的關鍵技術。隨著數字圖像處理技術的進步,基于計算機視覺的手勢識別成為主流,因其簡單易維護而優于數據手套等設備。然而,傳統方法依賴圖像分割、特征提取和先驗知識,容易出現擬合問題并受手勢與背景分割難題的影響,導致對復雜背景的適應性差,限制了其實際應用。

自深度學習理論體系構建以來,將其應用于手勢識別的研究和應用能夠顯著提升手勢識別的準確度與實時響應能力,并有效地提高對復雜背景的適應性。現階段基于深度學習的手勢識別方法按照其處理流程和模型結構,主要分為單階段方法和兩階段方法。單階段方法在一次網絡前向傳播過程中同時完成手勢識別的所有任務,包括候選框生成、手勢分類和位置精確定位,例如單次多框檢測器(Single ShotMultiBox Detector,SSD)[1] 、YOLO(You OnlyLook Once)系列[2]、高效網絡(EfficientNet)[3]等單階段方法。楊晨奕等[1]在SSD 目標檢測的基礎上結合MobileNetv3 網絡進行優化,提出面向嵌入式平臺手勢識別方法達到平均準確率99.61%,且識別速度達到每秒50 幀以上;Muja?hid 等[4]基于YOLOv3 構建的輕量級模型,在簡單背景數據集上達到了97.68% 的準確率;Hus?sain 等[5]提出一種使用微調的Inception-v3 和Efficientnet-Bo 網絡的手勢識別系統,在手勢識別(Hand Gesture Recognition,HGR)數據集識上取得了90% 的準確率和93% 的準確率。基于單階段方法的模型結構緊湊、計算效率高且推理速度快,但直接在全圖尺度的特征圖上預測,可能導致精細特征表達不足,從而影響定位精度和分類準確性。在復雜背景環境下,尤其當目標與背景差異較小時,易產生較多假陽性(背景被誤判為目標)。

兩階段方法將目標檢測分為兩個獨立的階段,第一階段生成一組可能包含目標的候選框,第二階段對候選框進行精細的分類和邊界框坐標微調,例如區域卷積神經網絡(Region-basedConvolutional Neural Network Features,R-CNN)系列,包括快速區域卷積神經網絡(Fast RCNN)、更快的區域卷積神經網絡(Faster RCNN),以及帶掩膜的區域卷積神經網絡(MaskR-CNN)等擴展模型。Soe 等[6]使用Faster RCNN構建的手勢識別模型,可以在復雜背景下正常識別,但特征提取能力較弱,部分手勢識別準確率較低,且無法識別小于圖像尺寸1/10 的目標。在此基礎上,吳曉鳳等[7]提出為FasterRCNN增加擾動IoU(Intersection over Union)算法,有效改善訓練模型的過擬合問題,提高了手勢檢測和識別的準確率,但未對復雜背景與光照條件進行優化。類似地,胡宗承等[8]通過向MobileNetV2 中引入注意力機制與多層特征融合方法,增強了網絡表征能力,提高了手勢識別的分類精度,但模型的泛化能力仍存在不足。相較于單階段方法,兩階段方法通過在第二階段對第一階段生成的候選框進行局部特征提取,有助于捕捉目標的細節和周圍環境的上下文信息,因此往往能獲得更高的檢測精度,尤其在處理復雜背景時表現優秀。

為了進一步增強兩階段手勢識別方法的穩健性和準確性,本文結合YOLOv5s、VGG-16(Visual Geometry Group-16)[9],提出一種新的兩階段手勢識別方法。在第一階段即檢測階段,充分利用YOLOv5s 的速度與精度優勢,構建出高效的檢測網絡,并通過公開數據集進行充分的訓練,以確保其能夠準確快速地定位出可能的手勢候選框。在第二階段,即識別階段,針對靜態背景問題,設計了專門的背景優化算法,用于處理靜態背景并抑制非隨機噪聲,以降低環境干擾,提升算法穩健性。基于VGG-16 進行改進,精簡全連接層以減少計算量,替換激活函數以抑制過擬合,優化后的模型更適合手勢識別任務。通過自建分類數據集進行訓練,改進后的網絡能精準區分不同手勢,并對背景噪聲具有高度免疫力。

本文的主要貢獻有3 個方面:

1)基于YOLOv5s 構建高效的檢測網絡,在檢測階段能夠快速準確地定位手部,提高了模型檢測的速度和精度。

2)針對常見的靜態背景問題,在識別階段設計專門的背景優化算法,利用熱噪聲對背景進行增強,增強了模型的抗干擾能力,并針對VGG-16 進行改進,在精簡計算量的同時抑制過擬合現象,使其更適合于手勢識別任務,進一步增強了模型的穩健性。

3)提出一種新的兩階段手勢識別方法,充分結合YOLOv5s、VGG-16 模型各自優勢,并設計背景優化算法,能夠精確區分在不同背景下不同手勢的類別,對背景噪聲具有較強的免疫力,有效提高了模型的準確性和可行性。

1 相關技術

1.1 YOLOv5

YOLO 是一種基于深度學習的目標檢測算法,具有識別快、精度高的特點。與上一代相比,YOLOv5 的網絡結構更深、更寬,同時加入了自適應錨框計算與Focus 結構,從而提高了檢測精度和速度。YOLOv5s 是YOLOv5 的輕量級版本,在保證檢測效果的同時精簡了網絡參數,相較于其他版本具有更高的識別速度,其具體結構分為三個部分:主干網絡、頸部網絡、頭部網絡。主干網絡采用CSPNet(Cross Stage Par?tial Network)[10]結構,利用分支連接的方式減少計算量,提高了特征的表達能力。頸部網絡由特征金字塔網絡(Feature Pyramid Network,FPN)構成,將主干網絡中的特征圖分為不同尺度,能更好地處理不同大小的目標。頭部網絡是對特征圖進行分類和回歸的模塊,包括三個分支,分別用于檢測大、中、小目標,并通過融合不同尺度的特征,提高檢測的準確性。

YOLOv5 常被看作單階段目標檢測算法的代表,其設計初衷是實現高速且相對準確的目標檢測。但YOLOv5s 具有實時、較強的特征提取能力、可擴展性和靈活性等特性,使其同樣適用于基于兩階段檢測的手勢識別。將YO?LOv5s 直接輸出的邊界框集合視為潛在的候選框,作為第二階段的輸入,挑選出置信度較高的邊界框作為候選框。這樣能最大程度利用YOLOv5s 的快速檢測能力來確保在第一階段有較少的時間開銷,同時相對較高的精度也能保證篩選出的候選框質量。盡管如此,考慮到將YOLOv5s 用于兩階段檢測可能增加結構復雜性和計算開銷,本文在權衡算法性能和復雜性后進行了改進,以更好地實現手勢識別的快速性和準確率。

1.2 VGG-16

VGG-16 由牛津大學視覺幾何小組實驗室的Karen Simonyan 和Andrew Zisserman 在2014年提出[9],在ImageNet 數據集上取得了92.7%的Top5 測試準確率。該網絡由5 個卷積堆棧和3 個全連接層組成,能夠提取更多、更復雜的特征。卷積堆棧包括2 到3 個卷積層與1 個池化層,卷積層采用相對較小的3×3 卷積核,步長為1,使網絡獲得更深的層數與更強的特征提取能力,池化核的尺寸為2×2,步長為2,用于降低數據的維度。網絡的最后三層是全連接層,前兩層分別具有4 096 個神經元,以確保分類準確性,第三層接收1 000 種不同的分類結果,并輸出至最后的softmax 層,以獲得1 000 個分類對應的概率。所有卷積層和全連接層都采用ReLU 激活函數,以增強網絡的非線性特性,提升其泛化能力。

VGG-16 作為一種深度卷積神經網絡,具有很強的特征提取能力與泛化能力。因此,在兩階段檢測方法中,VGG-16 的深度和復雜性使得它能夠充分利用候選框的信息,并提取出對于分類和識別任務至關重要的特征。基于此,考慮將VGG-16 用于兩階段手勢識別方法的第二階段精細識別手勢,能夠充分發揮其強大的特征提取和分類能力,提高整個識別方法的準確性和效率。但VGG-16 體量較大且推理速度較慢,故本文基于VGG-16 作為識別網絡原型,并進行改進,實現對檢測到的手部區域進行分類。

2 本文的手勢識別算法

2.1 算法整體結構

基于深度學習的兩階段手勢識別算法中,第一,二階段具有明確的分工和相互依賴的關系。第一階段的主要目標是快速而準確地從輸入圖像中篩選出可能包含手勢的候選框,生成一系列候選邊界框;所以應盡可能涵蓋所有可能的手勢位置,并減少無效的背景區域干擾,以便在第二階段進行更精細的處理。第二階段的目標即在前一階段篩選出的候選框基礎上,針對每一個候選框進行更為詳細的特征提取和分析,判斷其是否包含手勢以及手勢的具體類別,并對手勢的邊界框進行精確校正,以提高識別的準確度和定位精度。其中,YOLOv5s 采用跨階段部分網絡(Cross Stage Partial Net?work,CSPNet)結構,結合空間金字塔池化(Spatial Pyramid Pooling,SPP-Block)等技術有效地提取了多尺度特征,提高了對不同大小手勢的檢測能力;并通過錨框(anchor boxes)機制可以根據不同尺度的手勢自適應地生成邊界框,能快速定位圖像中的潛在手勢區域,較好地滿足第一階段快速而準確地獲取候選框的目標。而VGG-16 網絡的深層結構有助于提取高層次、抽象的特征,通過RoI Pooling 或RoI Align等技術將前一階段所得候選框的特征映射到固定尺寸,連接到VGG-16 的后面幾層或全連接層進行分類,能較好地區分不同手勢類別;另外,VGG-16 預訓練在ImageNet 等大型數據集上的權重,遷移至手勢識別任務時能提供良好的初始化,有助于模型快速收斂和提高識別精度,使其在第二階段精細分類和定位中發揮重要作用。基于上述分析,以YOLOv5s、VGG-16兩種算法為主,所提出兩階段手勢識別算法的整體框架如圖1 所示。

算法整體架構分為目標檢測、手勢分類兩個階段。實時手勢識別任務需要在實時性的要求下對手部位置、手勢動作等信息進行準確識別。因此,首先將輸入的RGB 視頻流切分為幀,利用YOLOv5s 構成的檢測模塊快速獲取手部位置信息,通過非極大值抑制(Non-Maxi?mum Suppression,NMS)得到目標框,并切分出手部區域。接著,手部區域被送入預處理模塊進行處理,而預處理模塊將手部區域與背景圖像進行相減,弱化環境因素的影響,得到差分圖像。然后,對差分圖像進行增強,獲取增強后的熱噪聲圖像,以增強手部特征,提高識別準確率。最后,處理完成的熱噪聲圖像被輸入改進VGG-16 構成的分類模塊,利用其自身的學習能力和泛化能力,快速準確地提取圖像特征并進行分類識別,輸出手勢類別信息。該架構設計能夠有效提高手勢識別的精度和實時性,使之適用于實際場景。

2.2 目標檢測

本文采用YOLOv5s 作為檢測模塊,一方面可以避免在復雜場景下手勢區域無法準確獲取的問題,另一方面能夠提高模型的識別速度,減少計算資源的開銷。

首先,為適應網絡結構,獲取更精細的特征,輸入圖片尺寸被調整為1 280×736 的固定大小;然后,為檢測出不同尺寸和位置的目標物體,將圖片劃分成Sh×Sw 個網格,若目標的中心落在某一網格中,則此網格負責預測該目標。這樣的設計使網絡可以處理具有不同大小和長寬比的目標。同時,還可以減少目標與邊界框之間的冗余信息,提高運算效率。需要預測的參數包括B 個目標框的位置(x,y,w,h)、置信度 C(i Conference)共 B×5 個值。置信度的計算方式為:

Ci = P ( Ni|O )× P ( O )× IoU = P ( Ni )× IoU,(1)

其中i 為類別數,O 表示存在物體,IoU 為預測框與目標框的相交面積與相并面積的比值,用于確定兩個框的相似程度,比值越大相似度越高。此外,網格還要預測N 個類別,因此輸出尺寸為Sh×Sw×B×(5+N)。最后通過NMS 排除置信度較低的候選框,確定最終目標框。

原始YOLOv5s 算法采用COCO(CommonObjects in Context)數據集進行訓練,共包括80種不同類別,一般用于一階段識別。但同一個網絡同時承擔檢測與識別的任務會導致分類性能的下降,以及訓練難度的增大。這是因為將網絡設計成同時具有檢測和識別功能會引入額外的復雜性和不確定性,從而增加了網絡的訓練難度。在訓練過程中,網絡需要學習識別目標的同時還需要學習檢測目標的位置和邊界框,這可能會導致網絡在處理兩個任務時出現相互干擾或權衡的情況,從而降低了分類性能。于是,為了獲得更好的分類性能和更高的泛化能力,通常會選擇將檢測和識別任務分解為單獨的模塊或網絡來處理,以便更好地專注于每個任務,并避免兩個任務之間的相互干擾。因此,本文將其類別數設置為1,僅用于手部位置的檢測,不參與識別。

2.3 手勢分類

在手勢識別任務中,手勢動作的表現形式可能有很大差異,且易受到光線、背景等環境因素的影響。因此,本文設計預處理算法以增強手部特征,提高識別準確率,再利用改進VGG-16 實現分類模型用于手部區域分類。

2.3.1 背景優化預處理算法

在實際應用中,手勢數據集的獲取較為不便。例如,在同一場景、光照下錄制、制作的數據集訓練出的模型,當場景或光照變換后,其識別準確率大幅下降。此外,含有多種復雜背景的數據集如新加坡國立大學手勢數據集 II(National University of Singapore Hand GestureDataset II,NUS-II)[11]等往往無法滿足具體手勢類別的需求,如果需要數據集以外的手勢,必須重新制作,工作量較大。

在手勢識別任務中,形態特征和膚色特征是最重要的特征。膚色特征由于受到光照條件和用戶個體差異的影響較大,且易與背景混淆。因此,其可靠性相對較低。相比之下,形態特征對于每一種手勢來說都較為固定,且易于提取。因此,本文在預處理過程中,選擇突出形態特征,以降低噪聲的影響,以達到先進的識別性能。

噪聲在實際應用中是不可避免的,但是,不同類型的噪聲對模型訓練產生的影響也有所不同。如圖2 所示,非隨機的噪聲(如重復的背景)會被模型學習并導致過擬合;而隨機的噪聲(如來自攝像頭傳感器的噪聲)則不會被模型學習到。因此,在進行分類模塊的訓練前,選擇對分類數據集進行增強,以模擬實際應用中的噪聲,并訓練出對噪聲具有穩健性的模型,能夠提高識別效果。

針對光照不均勻、背景明暗、色彩變化等干擾,以及手勢信息集中于手部區域的特點,提出一種預處理算法,用于處理靜態背景并壓制非隨機噪聲,以提升模型對復雜背景的適應能力。該算法利用攝像頭通用目標理解數據集(Common Objects in Context,COCO)傳感器產生的熱噪聲填充手部區域之外的部分,優化分類數據集中的背景,模擬實際識別中可能遇到的干擾,進一步提升模型對復雜背景的適應性。具體預處理流程如圖3 所示。

考慮到RGB 圖像包含了紅、綠、藍三個通道的信息,數據量較大。灰度圖像僅有一個通道,數據量小,計算速度更快,更適用于實時性手勢識別場景。故將RGB 圖像轉為灰度圖像。此外,本文并不依賴于膚色特征,而是著重于手勢的形態特征,這進一步強調了灰度圖像在手勢識別中的優勢。具體計算公式如下:

IGray = 0.229 × IRed +0.587 × IGreen + 0.114 × IBlue (2)

其中IRed、IGreen、IBlue 分別代表彩色圖片的紅、綠、藍分量。

在實時手勢識別任務中,由于復雜場景下噪聲的存在,對原始圖像進行預處理可以降低噪聲對模型的干擾,提高模型的穩健性。故將目標圖像與背景圖像進行相減取絕對值,以消除背景對手部特征的影響,并將相減后的差值映射到正數范圍內,作為后續圖像增強操作的基礎。具體計算公式如下:

其中Iout 為輸出圖像,Iin 為輸入圖像,Ibg(k)為未檢測到手部時捕獲的圖像,n 為堆棧高度。通過模擬相機的長曝光,對一定時間范圍內捕獲的不包含手部的圖像進行堆棧,不斷更新背景圖像并平滑其熱噪聲,可以獲得相對穩定的背景圖像,使算法在一定程度上適應動態背景,以及環境中的光線變化和噪聲干擾。而對于靜態背景,該操作可以捕獲圖像中動態的手部。

一般地,攝像頭傳感器產生的噪聲數值很小,會被有效信號所淹沒。而絕對值圖像含有大量人眼不可見的微小灰度波動。故基于上一步操作,利用小閾值對絕對值圖像進行處理,放大其中的灰度波動(即熱噪聲),使隨機噪聲淹沒背景但不對手勢部分產生影響,達到區分手勢與背景的目的。計算公式如下:

模型采用交叉熵損失函數:

其中y(i)為第i 類樣本的真實分布,y?( i ) 為模型輸出的樣本分布,N 為類別數。

3 實驗與結果分析

3.1 實驗環境與訓練參數設置

實驗用計算機的硬件環境配置為Intel i7-8750H CPU,NVIDIA GTX 1060 GPU 6 GB 顯存。軟件環境配置為Windows 1064 位操作系統,Python 3.9,PyTorch 1.10.1,為加速訓練,安裝Cuda 11.6 利用GPU 對計算進行加速。軟件調試環境為Visual Studio Code。檢測模塊采用Adam[12]算法進行優化,初始學習率設置為0.001,動量參數為0.937,權重衰減參數0.000 5,批處理大小為30,訓練100 輪,為增強模型泛化能力,采用隨機翻轉和調整對比度的數據增強方法。分類模塊的輸入圖像尺寸為224×224×3(像素),批處理大小為30,初始學習率設置為0.000 1,每訓練10 輪下降90%,loss不再下降時結束訓練。

3.2 數據集

本文采用的數據集分為兩個部分,公開數據集與自建數據集,旨在充分利用不同數據源的優勢,以提升所提算法的性能和泛化能力。其中,公開數據集用于訓練檢測模塊,該數據集通常覆蓋了廣泛且復雜的場景和變化,能夠較好地幫助算法學習通用的特征和手勢識別能力;而自建數據集則用于訓練分類模塊,從具體的應用場景和需求出發,設計了特定的手勢識別圖像集合,涵蓋了多樣化的姿勢和不同視角,有助于算法在特定任務上進行更為深入的優化和調整,以提升分類準確性和模型的穩健性。

公開數據集包括TV-Hand、COCO-Hand[13]以及Handpose_x[14]數據集。這三個數據集中的大部分樣本僅包含手部位置標簽,因此,僅用于檢測模塊的訓練。其中,TV-Hand 包含從ActionThread 數據集中提取的9 500 圖像幀的手部注釋。COCO-Hand 包含微軟COCO 數據集中約25 000 幅圖像的注釋。Handpose_x 包括14類手勢,共2 850 張圖像,由來自網絡、相機采集、kinect_leap_dataset 數據集的圖像組成,其手部占比較大。本研究在實驗中發現,前兩種公開數據集中的目標尺寸較小,訓練出的檢測網絡難以檢測較大的手勢目標。因此,挑選出Handpose_x 數據集中的800 張圖像進行標注后加入檢測數據集作為補充,用于檢測模塊的訓練任務。其中,公開數據集手部目標尺寸分布如圖6 所示。

為了證明在改進后,利用簡單背景數據集訓練出的模型能夠對環境干擾具有較強的適應能力,進一步驗證所提出的算法對模型泛化能力的有效提升,采用自建手勢識別數據集對分類模塊進行訓練與評估。具體的,在構建過程中,特意選擇簡單背景下,由筆記本電腦攝像頭以每秒20 幀的速度采集了共計15 000 張PNG 格式的RGB 靜態圖像,這些圖像完整地涵蓋了10 類不同的手勢。考慮到實際環境下手勢姿態的復雜性,且識別過程中易存在目標手部無法持續保持正對攝像頭的問題,為最大程度模擬真實世界中手勢姿態的多樣性,在自建數據集中引入了在三維空間中進行不同程度平移與旋轉的手勢圖像,該設計旨在有效地探究算法在不同視角和位置下的穩健性,以驗證其對手勢姿態變化的泛化能力。部分自建數據集中的原始圖像如圖7 所示。

3.3 實驗結果與分析

3.3.1 實時識別實驗

為驗證預處理算法對于模型識別性能的提升,本文對改進的VGG-16 模型,分別采用預處理分類數據集與原始數據集進行訓練。訓練完成后,選取1 類簡單背景與4 類干擾場景分別進行測試。每個測試場景的錄制時長為6 秒,檢測模塊檢測到手部時開始計時,并記錄識別結果。

實驗結果如圖8 所示。圖8(a)為YO?LOv5s+ 背景優化+ 改進VGG-16 模型的識別效果,圖8(b)為YOLOv5s+ 無預處理+ 改進VGG-16 模型的識別效果。結果顯示,在簡單背景下,模型均能正常識別,但背景出現干擾、光照發生變化時,使用原始數據集訓練出的模型效果較差,甚至在干擾嚴重的情況下完全無法識別。在復雜背景及各種干擾下,改進的二階段模型都能正確識別手勢,表明經本文預處理算法處理后,單一場景下以較小工作量獲取的手勢數據集可以滿足復雜場景下的識別需要。

3.3.2 預處理方法對比實驗

為客觀評價預處理方法的效果,將3.2 節中自建數據集經膚色提取、高斯掩模、背景優化等不同方法處理后,與未經處理的原始圖像分別送入改進VGG-16 模型,使用相同超參數進行訓練,并在驗證集上進行驗證。采用準確率(Accuracy)、F1 值(F1-score)、識別時間共3 個指標對模型效果進行評價。設TP、TN、FP、FN 分別代表:真陽性、真陰性、假陽性、假陰性的數量,則準確率與F1 值可表示為式(11)—(12),具體實驗結構如表2 所示。

其中A、P、R 分別代表準確率(Accuracy)、精確率(Precision)和召開率(Recall)。

表2 中,train_Acc 與val_Acc 分別代表訓練準確率與驗證準確率。表中可見,未經預處理的分類數據集訓練出的模型,過擬合嚴重,對不同場景的泛化能力很差,幾乎不能正常識別。膚色提取方法將原始圖像轉換至色相- 飽和度- 明度顏色空間(Hue-Saturation-Value,HSV)色域,在HSV 通道中通過閾值的方式提取出判定為膚色的像素,但時間復雜度高,對光照變化敏感,且不適合手部與背景顏色相似的場景,導致識別效果不理想。高斯掩模的方法通過高斯函數生成與原始圖像相同尺寸的遮罩(掩模),像素值在0—1 之間,由中心向四周衰減,將掩模與原始圖像逐元素相乘以弱化邊緣背景在圖像中的權重,本文自建數據集中手部占圖像比例較大,因此該方法的背景弱化效果不理想,且會弱化帶有重要特征的手勢局部,導致識別性能提升不明顯。而采用背景優化方法處理后,模型對于實時識別場景的穩健性得到了顯著提升。

3.3.3 識別模型對比實驗

為充分評估改進后的VGG-16 網絡相對于原網絡,以及其他分類識別算法的識別效果,采用方向梯度直方圖(Histogram of OrientedGradients, HOG)+ 支持向量機(Support VectorMachine, SVM)分類器、AlexNet、無修改的VGG-16 與本文算法在實時識別場景下進行對比,實驗結果如表3 所示。

表中可見,SVM 算法簡單準確,識別迅速,但容易過擬合且泛化能力較差,難以用于復雜場景下的實時識別。AlexNet 的網絡表達能力不如VGG-16,而VGG-16 的參數量過多,因此,在本文做出改進后,模型體量有所下降,且識別速度與準確率有所提升。ResNet-18 采用了殘差連接,訓練、識別迅速,但是出現了輕微的過擬合現象,測試準確度不及本文模型。因此,改進VGG-16 在泛化能力、識別精度等方面綜合優于其他分類識別算法。

4 結語

本文針對傳統實時手勢識別模型在復雜環境下適應性差、泛化能力有限的情況,提出了一種基于YOLOv5 與背景優化的二階段靜態手勢識別算法。選用YOLOv5s 網絡作為檢測階段的核心,確保手部位置的快速而精準定位。在識別階段,首先算法進行背景優化預處理,顯著提升了模型對復雜多變背景的適應能力;隨后,以VGG-16 為基礎進行改進,構建出更為簡潔且計算高效的識別網絡。在實時識別實驗中,提出的模型在復雜背景、光照變化、膚色干擾及暗光環境下,能保持穩定的識別能力,達到了97.9% 的準確率與92.3% 的F1 值。與單獨使用YOLOv5,以及其他主流模型如Efficient?Net、Faster R-CNN 等進行手勢識別的對比實驗顯示,本文算法具有更強的泛化能力。本文算法為手勢識別技術提供了一種高效的解決方案,不僅能提升人機交互系統的用戶體驗,還為虛擬現實、智能家居控制等多種應用場景中手勢操作的推廣應用增加了可行性。在后續的工作中,擬在此基礎上進一步融入時間序列信息,研究適用于連續動態手勢識別的算法。

參考文獻:

[1] 楊晨奕, 何玉青, 趙俊媛, 等. 面向嵌入式平臺的輕量化神經網絡手勢識別方法[J]. 強激光與粒子束, 2022, 34(3): 210335. DOI: 10.11884/HPLPB202234.210335.

YANG C Y, HE Y Q, ZHAO J Y, et al. Lightweight NeuralNetwork Hand Gesture Recognition Method for EmbeddedPlatforms[J]. High Power Laser Part Beams, 2022, 34(3):210335. DOI: 10.11884/HPLPB202234.210335.

[2] REDMON J, DIVVALA S, GIRSHICK R, et al. Youonly Look Once: Unified, Real-time Object Detection[C]//2016 IEEE Conference on Computer Vision and PatternRecognition (CVPR). New York: IEEE, 2016: 779-788. DOI: 10.1109/CVPR.2016.91.

[3] LI X L, ZHOU Y F, HUANG L, et al. Efficientnet ModelBased Gesture Recognition Method Research[C]//2021 4thInternational Conference on Artificial Intelligence andPattern Recognition. New York: ACM, 2021: 10.1145/3488933.3489024. DOI: 10.1145/3488933.3489024.

[4] MUJAHID A, AWAN M J, YASIN A, et al. Real-time HandGesture Recognition Based on Deep Learning YOLOv3Model[J]. Appl Sci, 2021, 11(9): 4164. DOI: 10.3390/app11094164.

[5] HUSSAIN A, UL AMIN S, FAYAZ M, et al. An Efficientand Robust Hand Gesture Recognition System ofSign Language Employing Finetuned Inception-V3 andEfficientnet-B0 Network[J]. Comput Syst Sci Eng, 2023,46(3): 3509-3525. DOI: 10.32604/csse.2023.037258.

[6] SOE H M, NAING T M. Real-time Hand Pose RecognitionUsing Faster Region-based Convolutional NeuralNetwork[M]//Advances in Intelligent Systems and Computing.Singapore: Springer Singapore, 2018: 104-112.DOI: 10.1007/978-981-13-0869-7_12.

[7] 吳曉鳳, 張江鑫, 徐欣晨. 基于Faster R-CNN的手勢識別算法[J]. 計算機輔助設計與圖形學學報, 2018, 30(3): 468-476. DOI: 10.3724/SP.J.1089.2018.16435.

WU X F, ZHANG J X, XU X C. Hand Gesture RecognitionAlgorithm Based on Faster R-CNN[J]. J ComputAided Des Comput Graph, 2018, 30(3): 468-476. DOI:10.3724/SP.J.1089.2018.16435.

[8] 胡宗承, 周亞同, 史寶軍等. 結合注意力機制與特征融合的靜態手勢識別算法[J]. 計算機工程, 2022, 48(04):240-246, DOI: 10.19678/j.issn.1000-3428.0060912.

HU Z C, ZHOU Y T, SHI B J, et al. Static Gesture RecognitionAlgorithm Based on Attention Mechanism andFeature Fusion[J]. Comput Eng, 2022, 48(4): 240-246.DOI: 10.19678/j.issn.1000-3428.0060912.

[9] SIMONYAN K, ZISSERMAN A. Very Deep ConvolutionalNetworks for Large-Scale Image Recognition[EB/OL]. (2015-04-10) [2024-02-10]. https://arxiv. org/abs/1409.1556.

[10] WANG C Y, MARK LIAO H Y, WU Y H, et al.CSPNet: a New Backbone that can Enhance LearningCapability of CNN[C]//2020 IEEE/CVF Conference onComputer Vision and Pattern Recognition Workshops(CVPRW). New York: IEEE, 2020: 1571-1580. DOI:10.1109/CVPRW50498.2020.00203.

[11] PISHARADY P K, VADAKKEPAT P, LOH A P. AttentionBased Detection and Recognition of Hand PosturesAgainst Complex Backgrounds[J]. Int J Comput Vis, 2013,101(3): 403-419. DOI: 10.1007/s11263-012-0560-5.

[12] KINGMA D P, BA J. Adam: a Method for StochasticOptimization[EB/OL]. (2014-12-22) [2024-03-09].https://arxiv.org/abs/1412.6980.

[13] NARASIMHASWAMY S, WEI Z W, WANG Y, et al.Contextual Attention for Hand Detection in the Wild[C]//2019 IEEE/CVF International Conference on ComputerVision (ICCV). New York: IEEE, 2019: 9566-9575. DOI: 10.1109/ICCV.2019.00966.

[14] ERICLEE.HANDPOSE_X[DB/OL].(2021-02-21)[2022-02-15]. https://codechina.csdn.net/ericlee/handpose_x.

[15] AITHAL C N, ISHWARYA P, SNEHA S, et al. HandGesture Recognition in Complex Background[M]//Communicationsin Computer and Information Science.Cham: Springer Nature Switzerland, 2022: 243-257.DOI: 10.1007/978-3-031-22405-8_19.

[16] SHEENA C V, NARAYANAN N K. Static GestureClassification and Recognition Using HOG Feature Parametersand K-NN and SVM-based Machine LearningAlgorithms[C]//Machine Vision and Augmented Intelligence:Theory and Applications. Singapore: Springer,2021: 157-166. DOI: 10.1007/978-981-16-5078-9_14.

[17] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNetClassification with Deep Convolutional NeuralNetworks[J]. Commun ACM, 2017, 60(6): 84-90. DOI:10.1145/3065386.

[18] HE K M, ZHANG X Y, REN S Q, et al. Deep ResidualLearning for Image Recognition[C]//2016 IEEE Conferenceon Computer Vision and Pattern Recognition(CVPR). New York: IEEE, 2016: 770-778. DOI:10.1109/CVPR.2016.90.

基金項目:國家自然科學基金(72174079);江蘇省“青藍工程”優秀教學團隊項目(2022-29);江蘇海洋大學“研究生科研與實踐創新計劃項目”(KYCX2023-79)

主站蜘蛛池模板: 日韩激情成人| 欧美激情视频在线观看一区| 99久久精品国产精品亚洲| 亚洲丝袜中文字幕| 精品国产成人a在线观看| 九九九久久国产精品| 97国产成人无码精品久久久| jizz国产视频| 国产成年女人特黄特色大片免费| 欧美三級片黃色三級片黃色1| 思思热在线视频精品| 婷婷在线网站| 国产网站免费| 国产成人资源| 一本久道热中字伊人| 在线欧美a| 制服丝袜无码每日更新| 国产制服丝袜无码视频| 亚洲永久免费网站| a级毛片一区二区免费视频| 国产系列在线| 制服丝袜一区| 精品视频一区在线观看| 国产欧美日韩在线一区| 亚洲日本中文综合在线| 日韩高清无码免费| a色毛片免费视频| 五月婷婷欧美| 久久永久视频| 国产在线精彩视频二区| 色香蕉网站| 午夜人性色福利无码视频在线观看| 热99re99首页精品亚洲五月天| 国产一二三区视频| 色哟哟精品无码网站在线播放视频| 美女裸体18禁网站| 99久视频| 99re精彩视频| 亚洲国产无码有码| 亚洲色图在线观看| 18禁黄无遮挡免费动漫网站| 特黄日韩免费一区二区三区| 亚洲一级色| 最新精品久久精品| 国产你懂得| 国产精品尹人在线观看| 亚洲不卡网| 国产AV无码专区亚洲A∨毛片| 精品久久久久久成人AV| 亚洲精品国产综合99久久夜夜嗨| 2022精品国偷自产免费观看| 亚洲爱婷婷色69堂| 欧美高清国产| 亚洲精品无码抽插日韩| 国产成人精品无码一区二| 久操中文在线| 999国内精品久久免费视频| 日韩精品成人网页视频在线| 999福利激情视频| 亚洲三级片在线看| 综合久久五月天| 欧美成a人片在线观看| 女人爽到高潮免费视频大全| 久久久久国产一区二区| 国产成人综合日韩精品无码不卡| 老司机午夜精品视频你懂的| 亚洲中文字幕国产av| av午夜福利一片免费看| 久热99这里只有精品视频6| 99这里只有精品6| 国产亚洲视频中文字幕视频| 国产精品成人观看视频国产| 人与鲁专区| 在线播放国产99re| 久久性妇女精品免费| 国产乱视频网站| 国产精品xxx| 日本久久久久久免费网络| 欧洲高清无码在线| 亚洲成人一区二区| 91黄视频在线观看| 99免费视频观看|