999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于輕量級網絡的實時人體關鍵點檢測算法

2021-04-29 03:21:28胡江顥王紅雨喬文超馬靖煊
計算機工程 2021年4期
關鍵詞:關鍵點特征融合

胡江顥,王紅雨,喬文超,馬靖煊

(上海交通大學儀器科學與工程系,上海 200240)

0 概述

人體關鍵點檢測是計算機視覺領域的重要研究方向,通過檢測人體頭頂、四肢關節和頸部等關節部位得到關節點信息,并將其應用于人體行為識別[1-2]、人機交互[3]和步態識別[4]等任務中,主要包括單人關鍵點檢測、多人關鍵點檢測[5-7]、視頻關鍵點檢測[8]和關鍵點跟蹤[9]等相關技術。近幾年,移動終端設備快速普及,但目前較先進的關鍵點檢測算法仍需較大的GPU 算力,并不能很好地滿足手機、平板、航拍無人機等日常聯網設備的實時檢測需求,這使得其難以在日常生活中得到廣泛應用。

近年來,研究人員將深度學習與人體關鍵點檢測技術相結合并取得了一定的進展。現有的關鍵點檢測算法多數是使用反卷積將具有高分辨率的高層特征與具有強語義信息的低層特征進行融合,提高預測特征圖的分辨率后進行關鍵點檢測。2016 年,NEWELL 等人提出Hourglass 算法[10],該算法使用沙漏模型融合高低層特征,采用中間監督技術進行關鍵點預測,并在MPII多人數據集上取得重大突破。同年,WEI等人提出CPM算法[11],該算法使用多個階段的網絡對人體關鍵點進行檢測,并將前一個階段的預測輸出加入下一階段的輸入中,隨著階段數目的增加,檢測結果不斷得到精煉。2017 年,曠世科技的CHEN 等人提出CPN 算法[12],該算法為COCO 人體關鍵點檢測冠軍算法,分為全局網絡和精煉網絡兩部分,創新性地提出先對容易關鍵點進行檢測,再在精煉網絡中使用在線難例挖掘學習難檢測的關鍵點。2019 年,SUN 等人提出一個始終保持高分辨率的網絡[13],該網絡可以多次重復融合高低層特征圖,進一步提升關鍵點檢測性能。

為在算力有限的移動平臺上實現實時檢測任務,首要的是解決移動終端的算力瓶頸問題,因此眾多研究人員致力于輕量級[14-16]主干網絡的研究,這些輕量級主干網絡在減少計算量的同時仍具有較優的特征提取性能,并且便于實時檢測、產品安裝以及后續版本升級等環節的實現。對于Hourglass 等多階段預測算法,雖然在對人體關鍵點的不斷優化過程中可有效提高檢測精度,但是重復的編碼與解碼過程導致了巨大的計算量和參數量。此外,目前多階段檢測算法通常將最后階段的預測結果作為最終預測輸出,但是將性能指標具體量化到每一個關節點上時,最后階段的預測結果并非在每個關鍵點上都具有最優性能,因此僅將最后階段預測結果作為網絡最終預測輸出的檢測算法并未有效利用多階段的預測結果。本文提出基于輕量級網絡的實時人體關鍵點檢測算法LWPE,使用MobileNetV2[17]作為主干網絡,利用編解碼過程控制網絡模型規模,提升LWPE 算法運行速度,在精煉網絡中使用特征金字塔網絡(Feature Pyramid Network,FPN)[18]實現特征融合,提高LWPE 算法關鍵點檢測精度。

1 LWPE 主干網絡和卷積模塊選取

當前卷積神經網絡模型的設計趨勢是通過增加網絡深度和寬度并加大網絡計算量來提升網絡性能,但由此產生的龐大計算量遠超移動設備和嵌入式設備的承載能力,使得此類網絡模型難以應用于日常生活中。MobileNetV2 使用深度可分離卷積模塊大幅減少了網絡模型規模,提高了運行速度,具有良好的網絡性能。表1 為MobileNetV2、ShuffleNet(1.5)[19]和MobileNetV1[20]在ImageNet 上的性能對比結果。可以看出,MobileNetV2 在Top-1 準確率和模型規模上都具有顯著優勢,因此LWPE 網絡模型采用MobileNetV2 作為主干網絡并對其通道數進行調整,使用MobileNetV2_S 表示調整后的網絡。

表1 3 種網絡在ImageNet 上的性能對比Table 1 Performance comparison of three networks on ImageNet

深度可分離卷積是MobileNetV2 的核心。如圖1所示,將傳統卷積操作分為深度可分離卷積操作和逐點卷積操作兩層因式運算。深度可分離卷積大幅減少了參數量和運算量。假設輸入的特征圖大小為D×D×M,卷積核大小為K×K×M×N,卷積步長為1 并將特征圖擴充為1,傳統卷積操作的運算量Otc和參數量Ptc為:

深度可分離卷積操作的運算量Odc和參數量Pdc為:

兩者運算量CO和參數量CP的比值為:

圖1 傳統卷積、深度可分離卷積和逐點卷積示意圖Fig.1 Schematic diagram of traditional convolution,depthwise separable convolution and point-wise convolution

由于卷積核大小一般為3 或者5,隨著網絡加深,特征圖的通道數不斷增加甚至可達到幾百,因此傳統卷積核的運算量和參數量約為深度可分離卷積的9倍或者25倍。

MobileNetV2 使用具有線性瓶頸的反向殘差模塊,其分為卷積步長為1 和2 兩種模式,如圖2 所示,其中,Conv 1×1 表示卷積核大小為1×1 的卷積操作,Dwise 3×3 表示卷積核大小為3×3 的深度可分離卷積操作,Linear 表示該卷積層之后不加非線性激活函數,stride=2 表示卷積步長為2。當卷積步長為2時進行降采樣,模塊輸入不經過跳連加入模塊輸出中。當卷積步長為1 時,模塊輸入加入模塊輸出中。卷積步長為2 時的具有線性瓶頸的反向殘差模塊結構與殘差模塊結構相似,與殘差模塊不同的是:該模塊首先通過1×1 的卷積核對輸入特征進行卷積操作,使其通道數上升;然后通過激活函數Relu6 增加模型非線性;最后使用1×1 的卷積結合線性激活函數將特征通道數降低為輸入通道數。在精煉網絡中,LWPE 使用一系列具有線性瓶頸的反向殘差模塊對點加操作后的特征圖進行特征提取。

圖2 反向殘差模塊Fig.2 Reverse residual module

2 LWPE 算法

人體關鍵點檢測即通過檢測人體頭頂、四肢關節和頸部等主要關節部位得到關節點信息。對于一個具有k個關節點的檢測任務,假設Pk∈M,其中,Pk代表第k個關節點的位置,M表示分辨率為ω×h的圖片位置。LWPE 是一種適用于移動終端的實時人體姿態檢測算法,采用輕量級主干網絡提取圖片特征,并在后續網絡中使用深度可分離卷積進一步減少網絡權重并實現網絡加速。LWPE 的主要任務是從圖片中找出所有關節點{P1,P2,…,Pk}的位置。如圖3所示,LWPE由三部分組成:1)用于提取特征的輕量級主干網絡MobileNetV2_S;2)對預測結果不斷優化迭代的精煉網絡;3)將預測結果進行融合的融合網絡。在精煉網絡中,首先使用FPN將多尺度的特征進行融合,高倍降采樣的特征圖通過上采樣疊加到相鄰的低倍降采樣特征圖上,如32 倍降采樣特征圖通過上采樣與16 倍降采樣的特征圖進行融合,并在每個特征圖上對關鍵點進行預測,所得的預測結果加入相鄰的更高分辨率的特征圖上,如在16 倍降采樣上的預測結果加入8 倍降采樣的特征圖上,從而不斷優化預測結果。在融合網絡中,將精煉網絡中不同尺度下的預測結果f1、f2、f3進行融合,得到最終的網絡輸出f。

圖3 LWPE 算法結構Fig.3 Structure of LWPE algorithm

2.1 LWPE 網絡結構

LWPE 網絡結構如圖4 所示,其中Bi/j表示網絡的第i個block,該block 內的特征圖大小為原圖的j倍降采樣。該網絡由提取特征的主干網絡、對預測結果不斷優化的精煉網絡和融合多尺度預測結果的融合網絡組成。特征網絡提取特征后,LWPE 在多尺度上對人體關鍵點部位進行檢測,在16 倍降采樣的特征圖上對身體關鍵點的位置進行粗略預測,得到一個粗略的人體關鍵點熱力圖。在得到第1 個熱力圖后不斷優化關鍵點位置預測。為進一步提升關鍵點預測精度,LWPE 通過融合網絡將最后多個尺度的預測結果進行整合,得到最終的預測輸出。LWPE 網絡參數設置如圖5 所示,其中,IR blocks 表示具有線性瓶頸的反向殘差模塊,t表示通道膨脹因子,c表示輸出通道數,n表示重復模塊數,s表示步長,K表示卷積核大小;IR blocks_f 表示1 個卷積核大小為3×3、膨脹因子為3、步長為1 且輸出通道數與輸入通道數相同的具有線性瓶頸的反向殘差模塊;Dwise_set 表示3 個7×7 的深度卷積;Deconv,×S表示S倍的反卷積操作;Conv2di×i,j表示使用大小為i×i的卷積核對特征圖進行卷積,輸出的特征圖的通道數為j;Add 表示對特征圖進行點加操作。

圖4 LWPE 網絡結構Fig.4 Network structure of LWPE

圖5 LWPE 網絡參數設置Fig.5 Network parameters setting of LWPE

2.1.1 精煉網絡

主流關鍵點檢測算法一般采用多個級聯的編解碼流程,如文獻[21]提出的CFA 算法由多個連續的級聯沙漏模型組成。CFA 算法在MPII 數據集的多級精煉階段的性能指標中,單個階段的沙漏模型僅比4 個階段的沙漏模型的檢測精度低0.69,但卻增加了巨大的計算量,對于移動終端的關鍵點檢測算法而言,為在多階段預測的同時提升實時性,需要進一步縮小提取特征的主干網絡,但是這樣可能會降低特征提取性能及算法精度,因此LWPE 在一個編解碼流程中完成所有精煉過程。

隨著卷積神經網絡的不斷加深,多數學者采用不斷減少特征圖及增加通道數的設計模式。在該模式中,網絡所提取特征的語義信息不斷增加,與此同時紋理信息卻不斷丟失。LWPE 使用FPN 將高層信息與底層信息相融合,從而獲取不同尺度的特征信息并提高特征表達能力。對于主干網絡為MobileNetV2_S 的LWPE,需要通過訓練學習實現關鍵點的精準預測。將輸入圖片用x表示,其中x∈?3,代表圖片的所有像素信息。對于檢測n個關鍵點的任務,使用高斯核將圖片中的n個關鍵點表示為n個二維熱力圖,所有關鍵點信息用y表示,其中y∈?3,y的每個通道代表一個關鍵點的熱力圖,因此人體關鍵點估計即尋找映射函數f:y=f()。圖6為精煉網絡結構,其中:IR blocks 表示具有線性瓶頸的反向殘差模塊;Dconv 表示反卷積操作;Convi×i表示大小為i×i的卷積核;Heat Map 表示網絡預測的人體關鍵點熱力圖。

圖6 精煉網絡結構Fig.6 Structure of refining network

假設fi,i∈{4,8,16}表示每個預測尺度上的映射函數,gi,i∈{4,8,16}表示每個尺度上特征融合的映射函數,各尺度上的映射關系如式(7)所示:

其中:ai,i∈{4,8,16,32}表示主干網絡在i倍降采樣上的特征圖;pi,i∈{4,8,16}表示網絡上采樣過程中在i倍降采樣上的特征圖。

在整個精煉網絡檢測流程中,首先使用低分辨率特征圖檢測容易的關鍵點,然后將得到的關鍵點信息通過熱力圖的形式輸入到下一個尺度的關鍵點檢測中,對檢測出的容易關鍵點進行優化并繼續找出未檢測出的困難關鍵點,這樣不斷迭代優化檢測結果,最后從最高分辨率的特征圖上可得到最優的關鍵點信息。

2.1.2 融合網絡

目前,多階段關鍵點檢測算法多數是直接將最后一階段的預測結果作為最終的預測輸出,本文借鑒CFA 算法思想,為結合不同階段的結果進一步提高關鍵點的預測精度,將多階段檢測的關鍵點熱力圖進行融合,計算公式為:

其中,σN-n,σN-n-1,???,σN表示最后多個階段預測的關鍵點熱力圖,在CFA 算法的檢測結果中,不同階段預測總體結果間的差距較小,在某些具體部位的預測中,低階段的預測結果甚至優于高階段的預測結果,如第二階段的肘部、肩部和膝蓋均是所有階段中最優的結果,而對于其他部位,不同階段間的結果差異較小,但融合后可有效提高預測精度。因此,本文在LPEW 中設計針對多尺度關鍵點預測結果的融合網絡。

融合網絡結構如圖7 所示。對于3 個尺度上的預測輸出yi通過3 個7×7 的深度卷積操作,深度可分離卷積可單獨在熱力圖的每個通道上單獨操作,點加操作可保證不同部位關節點預測結果的融合。對于每個深度可分離卷積操作的輸出使用非線性激活函數sigmoid 增加融合函數的復雜度,得到最終的預測輸出Y,如式(9)、式(10)所示:

其中:N表示關鍵點預測的尺度總數,(N?n)~N表示關鍵點預測的最后n層;表示第i個預測尺度對第k個關鍵點的預測結果;zk表示在3 個預測尺度上第k個關鍵點的擬合函數;Yk表示融合網絡對第k個關鍵點的預測結果。

圖7 融合網絡結構Fig.7 Structure of fusion network

2.2 LWPE 損失函數

在訓練階段,網絡通過損失函數進行反向傳播,學習映射關系獲得關鍵點預測輸出的最優解,在多個尺度上LWPE 重復生成關鍵點熱力圖yi。融合網絡將得到的多尺度預測的熱力圖進行融合得到輸出Y。在每個輸出處定義一個損失函數,該函數最小化該處輸出與真實關鍵點熱力圖之間的L2 距離。Gk∈M表示k個關鍵點的真實位置,M表示輸入分辨率為w×h的圖片所有位置,以每個關鍵點位置為中心使用高斯函數生成一個該關鍵點的熱力圖bk∈?2。因此,結合精煉網絡的損失函數Lms與融合網絡的損失函數Lfuse得到LWPE 的損失函數L,如式(11)~式(13)所示:

其中,(m)表示在第i個預測尺度上預測的第k個通道的熱力圖m位置上的預測值,Yk(m)表示融合階段預測的第k個通道的熱力圖m位置上的預測值,bk(m)為第k個關鍵點熱力圖m位置上的真實值。

3 實驗與結果分析

實驗采用Tensorflow 深度學習開發平臺、i7-5930K CPU、RTX2080 GPU、8 GB 顯存和Ubuntu16.04 操作系統。實驗輸入圖片分辨率為192 像素×192 像素,隨機使用旋轉、翻轉、縮放、裁剪、亮度調整、對比度調整和飽和度調整等圖片處理策略對輸入的訓練圖片進行數據增強。在此基礎上,使用Adam 對網絡模型迭代220 000 次,批次大小為32,初始學習率為0.001,每萬個迭代輪次的學習率衰減為之前的95%。

3.1 數據集和評價指標

本文算法面向手機終端實現實時人體關鍵點檢測,與自然場景拍攝下密集且小的目標特點不同,手機自拍視頻具有一定的目的性與針對性。實驗數據集由來自AI Challenger 數據集的23 946 張單人圖片組成,其中隨機選取22 446 張圖片作為訓練樣本,剩下1 500 張作為測試樣本。標簽使用Json 格式存儲,標簽存儲目標人體的14 個關節點信息,其中?1 表示圖片中不存在該關節點。實驗使用關鍵點正確估計的比例(Percentage of Correct Keypoints,PCK)中以頭部長度(head length)作為歸一化參考的PCKh 評價關鍵點預測精度。實驗結果均為PCKh@0.5 結果,即使用頭部長度的50%作為匹配閾值。每個關鍵點的預測位置為預測的熱力圖上相應通道最大響應點的位置。

3.2 多尺度預測及其結果融合實驗

3.2.1 多尺度預測實驗

LWPE 算法采用輕量級的主干網絡進行特征提取,在不同分辨率的特征圖上將多尺度預測結果進行不斷精煉最終輸出預測結果。本文通過實驗研究網絡模型的預測尺度對關鍵點預測精度的影響,如表2 所示,可以看出三尺度網絡模型的關鍵點預測精度整體最優,四尺度網絡模型的關鍵點預測精度整體最差。由于LWPE 算法特征提取能力不強,四尺度網絡模型使用32 倍降采樣進行關鍵點檢測并將預測結果加入后續預測網絡中,預測結果的特征圖不僅分辨率極低且特征表現能力不夠,導致預測結果的誤差極大,其全身PCKh@0.5 僅為53.5%。主要原因為在32 倍降采樣上的損失函數在數值較大時就已達到飽和狀態,使后續尺度上的訓練難度增大,并且由于32 倍降采樣所得的結果誤差較大,因此會影響后續網絡的預測性能。三尺度網絡模型的全身PCKh@0.5 從16 倍降采樣上85.9%的預測精度逐漸提升到4 倍降采樣上的89.3%,可見使用三尺度網絡模型在不斷對預測結果進行精煉的同時可有效提升網絡的檢測性能。

表2 多尺度網絡模型的PCKh@0.5 對比Table 2 Comparison of PCKh@0.5 of multi-scale network models %

3.2.2 多尺度預測結果融合實驗

對于三尺度預測的LWPE 算法,其不同尺度的檢測性能相差較小,在某些部位的關鍵點預測中,低尺度的預測結果甚至優于高尺度的檢測結構,如在8 倍降采樣上的肩部、胯部和膝蓋都是所有尺度中最優的結果。將不同尺度上的預測結果進行融合可有效提高預測精度。如表3 所示,多尺度預測融合后的全身PCKh@0.5 較4 倍降采樣上提高了0.4 個百分點,與表2 中不加融合網絡的三尺度模型在4 倍降采樣上的預測結果相比全身PCKh@0.5 提高了0.5 個百分點。融合網絡對不同尺度之間的預測結果通過函數擬合,在不同尺度上找出各部位上的最優關鍵點預測結果,然后融合得出綜合性能最佳的預測輸出,有效地提升了網絡檢測性能。圖8 為LWPE 算法在測試集圖片上的檢測結果,可見當人體關鍵點遮擋較少時,可以精準地檢測出所有關鍵點,但當人體姿態變形或遮擋嚴重時,部分關鍵點檢測效果不佳。

表3 多尺度預測結果融合的PCKh@0.5 對比Table 3 Comparison of PCKh@0.5 of the fusion of multi-scale prediction results %

圖8 LWPE 算法檢測結果Fig.8 Detection results of LWPE algorithm

3.3 不同算法性能對比

為驗證LWPE 算法的可行性,將其與CPM 和CPN算法進行比較。CPM 和CPN 算法網絡模型較大,無法部署在移動終端,而LWPE 算法基于輕量級關鍵點提取網絡,因此將CPM 和CPN 算法的主干網絡換成與LWPE 相同的MobileNetV2_S,并將深度可分離卷積替換標準卷積后進行對比實驗。在數據集上3 種算法的PCKh@0.5 對比結果如表4 所示。在使用相同主干網絡的條件下,LWPE 算法的參數量和浮點運算量分別為CPN 算法的64.3%和37.5%,PCKh@0.5 提升了1.5個百分點,單幀運行時間減少了22 ms,LWPE 算法參數量和浮點運算量分別為CPM 算法的37.1%和15%,但在單幀運行時間是其3.4 倍的情況下PCKh@0.5 僅下降了0.1 個百分點,其中單幀運行時間是網絡模型在華為榮耀20pro 手機上所測得數據。

表4 3 種算法的PCKh@0.5 對比Table 4 PCKh@0.5 comparison of three algorithms

4 結束語

本文提出一種基于輕量級網絡的實時關鍵點檢測算法,使用深度可分離卷積減少模型參數量并提升模型運行速度,并通過精煉網絡和融合網絡不斷優化算法檢測性能。實驗結果表明,在同時使用MobileNetV2_S作為主干網絡的情況下,LWPE 算法相比傳統CPM 和CPN 算法參數量和浮點運算量均明顯減少,并具有較高的檢測精度和較好的實時性能。后續將對該輕量級網絡模型做進一步優化,解決人體姿態遮擋或變形時的關鍵點檢測問題,并將其應用于移動終端的多人關鍵點檢測中,提升其適用性與實用性。

猜你喜歡
關鍵點特征融合
聚焦金屬關鍵點
村企黨建聯建融合共贏
今日農業(2021年19期)2022-01-12 06:16:36
肉兔育肥抓好七個關鍵點
今日農業(2021年8期)2021-11-28 05:07:50
融合菜
從創新出發,與高考數列相遇、融合
《融合》
現代出版(2020年3期)2020-06-20 07:10:34
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
醫聯體要把握三個關鍵點
中國衛生(2014年2期)2014-11-12 13:00:16
主站蜘蛛池模板: 麻豆精品在线| 久久美女精品| 中文字幕人妻av一区二区| 欧美午夜理伦三级在线观看| 欧美日韩午夜视频在线观看| 国产欧美亚洲精品第3页在线| 免费A级毛片无码免费视频| 日本三级欧美三级| 国产精品尤物铁牛tv| 97青青青国产在线播放| 狠狠亚洲婷婷综合色香| 毛片网站在线播放| 99精品视频播放| 欧美日韩午夜| 久久人妻系列无码一区| 国产一区在线视频观看| 日本在线视频免费| 国产91高跟丝袜| 国产精品亚洲专区一区| 免费观看亚洲人成网站| 欧美日韩精品一区二区在线线| 国产精品欧美日本韩免费一区二区三区不卡| 国产精品深爱在线| 久久青草精品一区二区三区 | 欧美性精品| 国产精品无码作爱| 国产福利免费视频| 韩国v欧美v亚洲v日本v| 亚洲中文字幕手机在线第一页| 在线国产欧美| 全部无卡免费的毛片在线看| 国产黄色片在线看| 免费欧美一级| 亚洲最大情网站在线观看| 亚洲无线视频| 免费人成网站在线观看欧美| 欧美国产日韩在线观看| 亚洲婷婷六月| 欧美国产日产一区二区| 毛片网站观看| 精品人妻无码中字系列| 丰满人妻中出白浆| 91九色国产在线| 国产一区二区三区夜色| 中文字幕亚洲电影| swag国产精品| 无码视频国产精品一区二区 | 国产乱肥老妇精品视频| 99re经典视频在线| 欧美无遮挡国产欧美另类| 国产极品美女在线观看| 成人日韩精品| av一区二区无码在线| 欧美亚洲国产日韩电影在线| 欧美黄色网站在线看| 99re这里只有国产中文精品国产精品 | 成人午夜网址| 99精品视频在线观看免费播放 | 国产精品自在线天天看片| 四虎精品国产AV二区| 欧美翘臀一区二区三区| 在线无码九区| 欧美日韩在线第一页| 国产女人18毛片水真多1| 亚洲免费福利视频| 久久精品国产亚洲AV忘忧草18| 日韩黄色在线| 国产成人亚洲综合A∨在线播放| 亚洲国产精品成人久久综合影院| 国产综合精品一区二区| 久久99精品国产麻豆宅宅| 男女男精品视频| 免费a级毛片18以上观看精品| 日韩午夜片| 国产av一码二码三码无码| 88av在线看| 国产SUV精品一区二区6| 毛片视频网址| 欧美中文字幕无线码视频| 国产中文一区二区苍井空| 国产成人h在线观看网站站| av天堂最新版在线|