




摘要:本研究聚焦于計(jì)算機(jī)視覺領(lǐng)域的遮擋姿態(tài)估計(jì)問題,采用結(jié)構(gòu)化建模方法,深入分析遮擋條件下的姿態(tài)特征。通過構(gòu)建遮擋魯棒性模型,優(yōu)化姿態(tài)估計(jì)算法,有效提升了在復(fù)雜遮擋環(huán)境下的姿態(tài)估計(jì)精度與魯棒性,為計(jì)算機(jī)視覺技術(shù)的發(fā)展與應(yīng)用提供了有力支持。
關(guān)鍵詞:結(jié)構(gòu)化建模;計(jì)算機(jī)視覺;姿態(tài)估計(jì);數(shù)據(jù)增強(qiáng);圖像裁剪
doi:10.3969/J.ISSN.1672-7274.2025.01.019
中圖分類號:TP 391" " " " " " " " "文獻(xiàn)標(biāo)志碼:A" " " " " " 文章編碼:1672-7274(2025)01-00-03
Research on Occluded Pose Estimation in Computer Vision Based on
Structured Modeling Approach
LIN Ziyao
(North China University of Technology, Beijing 100144, China)
Abstract: This study focuses on the problem of pose estimation with occlusion in the field of computer vision. By adopting a structured modeling approach, it deeply analyzes pose features under occlusion conditions. Through the construction of an occlusion-robust model and the optimization of pose estimation algorithms, the accuracy and robustness of pose estimation in complex occlusion environments are effectively improved, providing strong support for the development and application of computer vision technologies.
Keywords: structured modeling; computer vision; pose estimation; data augmentation; image cropping.
0" "引言
本文致力于深入挖掘基于結(jié)構(gòu)化建模方法的遮擋姿態(tài)估計(jì)技術(shù),通過創(chuàng)新模型架構(gòu)、優(yōu)化求解策略及遮擋感知機(jī)制,旨在全面提升姿態(tài)估計(jì)的準(zhǔn)確性與魯棒性,推動相關(guān)領(lǐng)域技術(shù)邁向新的高度。
1" "計(jì)算機(jī)視覺遮擋姿態(tài)估計(jì)方法
1.1 結(jié)構(gòu)化建模算法
遮擋姿態(tài)估計(jì)的目標(biāo)是在遮擋的情況下,從單個或多個人體中準(zhǔn)確估計(jì)人體關(guān)節(jié)的定位。通過對人體進(jìn)行結(jié)構(gòu)建模,定義人體內(nèi)部的關(guān)節(jié)結(jié)構(gòu)和連接關(guān)系。假設(shè)目標(biāo)物體由N個關(guān)節(jié)連接而成,每個關(guān)節(jié)用一個三維坐標(biāo)表示,整個物體的結(jié)構(gòu)可以表示為一個三維坐標(biāo)的集合,記為S={J1,J2,...,JN}。為了估計(jì)目標(biāo)物體的姿態(tài),生成一系列可能的姿態(tài)假設(shè)[1]。每個姿態(tài)假設(shè)都表示了物體在三維空間中的位置和旋轉(zhuǎn)。這可以通過對每個關(guān)節(jié)進(jìn)行旋轉(zhuǎn)和平移操作得到。假設(shè)第i個關(guān)節(jié)的旋轉(zhuǎn)矩陣為Ri,平移向量為Ti,則整個物體的姿態(tài)可以表示為T={R2,T2,R2,T2,...,RN,TN}。對于每個姿態(tài)假設(shè),將結(jié)構(gòu)模型投影到圖像平面上,生成模擬的二維關(guān)節(jié)坐標(biāo)。這可以通過使用相機(jī)投影模型來實(shí)現(xiàn),具體公式如下:
Pi=K(Ri,Ji+Ti)" " " " " " " " " " " (1)
式中,Pi是第i個關(guān)節(jié)在圖像上的投影坐標(biāo);K是相機(jī)內(nèi)參矩陣;Ri和Ti是第i個關(guān)節(jié)的旋轉(zhuǎn)矩陣和平移向量;Ji是第i個關(guān)節(jié)在結(jié)構(gòu)模型中的三維坐標(biāo)。計(jì)算其在圖像上的投影與實(shí)際觀測到的關(guān)節(jié)坐標(biāo)之間的誤差。通過優(yōu)化得分最小化的方式,選擇得分最低的姿態(tài)作為最終的姿態(tài)估計(jì)。基于結(jié)構(gòu)化建模的遮擋姿態(tài)估計(jì)算法,通過建立物體的結(jié)構(gòu)模型并在二維圖像中進(jìn)行投影和優(yōu)化,在遮擋的情況下能準(zhǔn)確地估計(jì)人體的姿態(tài)。算法的關(guān)鍵在于結(jié)構(gòu)模型的建立和姿態(tài)的優(yōu)化過程,通過考慮多個關(guān)節(jié)的信息,提高對遮擋情況的準(zhǔn)確性。
1.2 遮擋姿態(tài)估計(jì)模塊
深度卷積神經(jīng)網(wǎng)絡(luò)的一種創(chuàng)新應(yīng)用在于其融入了一種迭代的誤差反饋機(jī)制,該機(jī)制展現(xiàn)了自頂向下的信息回流邏輯。該技術(shù)利用層次化特征提取器的強(qiáng)大潛力,不僅深入挖掘了輸入與輸出空間之間的深層聯(lián)系,還實(shí)現(xiàn)了對當(dāng)前姿態(tài)預(yù)測與真實(shí)狀態(tài)間微小偏差的高精度預(yù)測。通過多輪迭代調(diào)整,逐步收斂至更為精確的結(jié)果。該技術(shù)并未局限于簡單的誤差校正,而是深入探索并構(gòu)建了人體復(fù)雜結(jié)構(gòu)關(guān)系的深度模型。這一策略有效應(yīng)對了遮擋場景下關(guān)節(jié)點(diǎn)信息缺失的挑戰(zhàn),提升了網(wǎng)絡(luò)在復(fù)雜遮擋環(huán)境中的姿態(tài)估計(jì)魯棒性[2]。通過這一系列精心策劃的技術(shù)革新,迭代網(wǎng)絡(luò)方法不僅大幅提高了姿態(tài)估計(jì)的準(zhǔn)確性,還為解決遮擋問題開辟了全新的視角與解決路徑,展現(xiàn)了深度學(xué)習(xí)與迭代優(yōu)化相結(jié)合的強(qiáng)大潛力。
區(qū)別于傳統(tǒng)的順序卷積結(jié)構(gòu)在姿態(tài)估計(jì)中的應(yīng)用,一種革新的堆疊沙漏卷積網(wǎng)絡(luò)架構(gòu)應(yīng)運(yùn)而生了。該架構(gòu)融合了編碼器與解碼器的設(shè)計(jì)理念,以全卷積網(wǎng)絡(luò)為基石,創(chuàng)新性地融入了多個殘差模型,不僅增強(qiáng)了網(wǎng)絡(luò)的深度與復(fù)雜度,還整合了多尺度的空間信息,為節(jié)點(diǎn)的精準(zhǔn)預(yù)測提供了有力支撐[3]。在此基礎(chǔ)上,通過對多個沙漏層進(jìn)行細(xì)致的迭代處理,并將前序沙漏層的輸出作為后續(xù)層的輸入,構(gòu)建了一個從高分辨率到低分辨率,再回歸高分辨率的精細(xì)特征流轉(zhuǎn)過程。這一系列設(shè)計(jì),不僅極大地提升了網(wǎng)絡(luò)的特征提取與融合能力,還增強(qiáng)了其在姿態(tài)估計(jì)中的整體性能,展現(xiàn)了堆疊沙漏網(wǎng)絡(luò)架構(gòu)的獨(dú)特魅力與廣闊應(yīng)用前景。
2" "實(shí)驗(yàn)結(jié)果與分析
2.1 模擬遮擋與評價指標(biāo)
我們精心選取了MPII數(shù)據(jù)集作為研究基礎(chǔ),該數(shù)據(jù)集以其豐富的人體姿態(tài)信息而著稱。然而,在實(shí)際應(yīng)用中,發(fā)現(xiàn)MPII數(shù)據(jù)集中的遮擋樣本在數(shù)量和多樣性上存在一定的局限性。為了克服這一難題,我們創(chuàng)新性地引入了數(shù)據(jù)增強(qiáng)技術(shù),旨在模擬出更加真實(shí)、多樣的遮擋場景。通過借鑒數(shù)據(jù)增強(qiáng)與圖像剪切的前沿理念,隨機(jī)選取圖像中的矩形區(qū)域,并使用隨機(jī)像素值進(jìn)行覆蓋,以此模擬不同程度的遮擋情況,從而有效提升模型的泛化能力。同時采用關(guān)鍵點(diǎn)掩碼技術(shù),該技術(shù)能夠精確地從關(guān)節(jié)點(diǎn)周圍的背景中裁剪出正方形區(qū)域,并將其精準(zhǔn)地貼合到關(guān)節(jié)點(diǎn)位置,以更加細(xì)膩地模擬關(guān)鍵點(diǎn)被遮擋的實(shí)際情況,為模型在復(fù)雜遮擋環(huán)境下的穩(wěn)健表現(xiàn)提供了有力支撐[4]。
為了更加貼近真實(shí)應(yīng)用場景中的遮擋場景,我們精心設(shè)計(jì)了一種在裁剪后的人體框圖上進(jìn)行遮擋模擬的創(chuàng)新方法。具體而言,首先將人體框圖精細(xì)地劃分為若干個遮擋子區(qū)域,這一步驟確保了遮擋模擬過程嚴(yán)格限定在人體范圍內(nèi),從而提高了模擬的準(zhǔn)確性和針對性。隨后,通過隨機(jī)選取某一子區(qū)域,并在其內(nèi)部添加固定大小的遮擋物,我們實(shí)現(xiàn)了對遮擋情況的精細(xì)化模擬。這種將遮擋嚴(yán)格限制在人體范圍內(nèi)的策略,不僅提升了遮擋模擬的真實(shí)性和有效性,還為我們準(zhǔn)確評估遮擋對姿態(tài)估計(jì)性能的具體影響提供了有力的支撐,有助于我們更深入地理解遮擋問題,并探索出更具魯棒場景的姿態(tài)估計(jì)解決方案[5]。
2.2 模型測試與分析
本實(shí)驗(yàn)依托PyTorch這一強(qiáng)大而靈活的深度學(xué)習(xí)框架進(jìn)行開發(fā),以確保模型構(gòu)建與訓(xùn)練的高效性。在硬件配置方面,我們選用了性能卓越的GTX 1080Ti GPU,為實(shí)驗(yàn)的順利進(jìn)行提供了堅(jiān)實(shí)的算力保障。在實(shí)驗(yàn)過程中,將訓(xùn)練輪次精心設(shè)定為200次,以確保模型能夠充分學(xué)習(xí)并收斂。在數(shù)據(jù)準(zhǔn)備方面,采用了MPII這一權(quán)威的人體姿態(tài)數(shù)據(jù)集,并將輸入圖像的尺寸統(tǒng)一調(diào)整為256×192,以兼顧計(jì)算效率與模型性能。同時,為了優(yōu)化訓(xùn)練過程,將批處理大小合理設(shè)置為32,既保證了內(nèi)存的高效利用,又避免了過擬合的風(fēng)險。在優(yōu)化器選擇上,我們采用了廣泛認(rèn)可的Adam優(yōu)化器,其自適應(yīng)的學(xué)習(xí)率調(diào)整機(jī)制有助于模型更快更穩(wěn)地收斂。此外,將學(xué)習(xí)率精細(xì)設(shè)定為0.001,以期在訓(xùn)練過程中找到最佳的參數(shù)更新步長,從而助力模型達(dá)到更優(yōu)的性能表現(xiàn)。
2.2.1 消融實(shí)驗(yàn)
為了驗(yàn)證不同結(jié)構(gòu)化建模方法的有效性,我們在Crowd Pose數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)采用32通道寬度的骨干網(wǎng)絡(luò)。在基于結(jié)構(gòu)化建模方法的遮擋姿態(tài)估計(jì)研究中,我們進(jìn)行了模塊作用實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果顯示,當(dāng)單獨(dú)使用反卷積和注意力機(jī)制時,在遮擋情況下關(guān)節(jié)點(diǎn)定位不準(zhǔn);當(dāng)使用反卷積和生成對抗模塊時,在遮擋情況下準(zhǔn)確率為89.1%,表明注意力機(jī)制在補(bǔ)全圖像信息時存在不足;在僅使用注意力機(jī)制和生成對抗模塊時,能預(yù)測缺失關(guān)節(jié)點(diǎn),準(zhǔn)確率為89.6%。所有模塊結(jié)合后,性能顯著提升,最終準(zhǔn)確率達(dá)90.3%。實(shí)驗(yàn)結(jié)果驗(yàn)證了本文方法的有效性。
2.2.2 結(jié)構(gòu)化建模實(shí)驗(yàn)數(shù)據(jù)對比分析
在研究中,我們采用了Crowd Pose這一具有挑戰(zhàn)性的數(shù)據(jù)集,該數(shù)據(jù)集以其復(fù)雜多變的場景和密集人群中的姿態(tài)估計(jì)問題而著稱。為了更加貼近實(shí)際應(yīng)用中的遮擋情況,數(shù)據(jù)集中的每張圖像均被精心設(shè)計(jì),以隨機(jī)遮擋0至25%的人體關(guān)節(jié)點(diǎn),從而有效提升了數(shù)據(jù)集的真實(shí)性和難度。在后續(xù)的測試階段,嚴(yán)格遵循統(tǒng)一的輸入標(biāo)準(zhǔn),將所有圖像的尺寸規(guī)范化為256×192,以確保實(shí)驗(yàn)結(jié)果的準(zhǔn)確性和可比性。通過在這一經(jīng)過精心處理的數(shù)據(jù)集上進(jìn)行全面的測試,得到了如表1所示的詳細(xì)結(jié)果。這些結(jié)果不僅充分展示了模型在復(fù)雜遮擋環(huán)境下的性能表現(xiàn),還為我們后續(xù)的研究提供了寶貴的參考和依據(jù)。
針對遮擋姿態(tài)估計(jì)這一復(fù)雜且富有挑戰(zhàn)性的任務(wù),本文將所提方法與當(dāng)前幾種主流算法在權(quán)威數(shù)據(jù)集上進(jìn)行了全面而細(xì)致的性能對比。實(shí)驗(yàn)結(jié)果表明,盡管本文方法在模型參數(shù)量上有所增加,但這一微小的犧牲卻換來了在平均精確度(AP)指標(biāo)上的顯著提升,充分驗(yàn)證了本文方法的有效性與先進(jìn)性。這一優(yōu)異表現(xiàn)主要得益于我們創(chuàng)新性地引入了注意力機(jī)制與生成對抗模塊。注意力機(jī)制的融入使得網(wǎng)絡(luò)能夠更加聚焦于關(guān)鍵信息,有效提升了模型對遮擋關(guān)節(jié)點(diǎn)的感知能力;而生成對抗模塊的加入,則通過對抗訓(xùn)練的方式,進(jìn)一步增強(qiáng)了模型對遮擋情況的適應(yīng)性和魯棒性,從而在面對復(fù)雜遮擋場景時,依然能夠保持出色的姿態(tài)估計(jì)性能。
2.3 遮擋姿態(tài)估計(jì)可視化結(jié)果對比
圖8的原圖預(yù)測結(jié)果對比了不同網(wǎng)絡(luò)在姿態(tài)估計(jì)任務(wù)上的表現(xiàn),在多人姿態(tài)估計(jì)中,本文方法在處理遮擋情況時展現(xiàn)出顯著優(yōu)勢。對于第2個人像,其他方法無法預(yù)測左膝和右膝位置,而本文方法準(zhǔn)確預(yù)測并連接。對于第4個人像失誤導(dǎo)致右腕連接缺失,而本文方法預(yù)測準(zhǔn)確。在處理第7個人像時,第二與第三方法在左腕預(yù)測上出現(xiàn)問題,而本文方法仍能準(zhǔn)確預(yù)測并連接。第8個人像中,僅本文方法能預(yù)測左髖位置,避免關(guān)鍵連接丟失。驗(yàn)證了本文方法的有效性。
3" "結(jié)束語
數(shù)據(jù)集上的訓(xùn)練和測試結(jié)果表明,本文方法展現(xiàn)出了強(qiáng)大的魯棒性,能夠有效解決遮擋場景中的關(guān)節(jié)點(diǎn)缺失問題。證明了本文提出的基于結(jié)構(gòu)化建模方法的遮擋姿態(tài)估計(jì)的有效性。隨著深度學(xué)習(xí)技術(shù)的進(jìn)一步發(fā)展,可以探索更加高效和強(qiáng)大的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),進(jìn)一步提升結(jié)構(gòu)化建模的準(zhǔn)確性和效率。■
參考文獻(xiàn)
[1] 楊靜,張燦龍,李志欣,等.集成空間注意力和姿態(tài)估計(jì)的遮擋行人再辨識[J].計(jì)算機(jī)研究與發(fā)展,2022,59(07):1522-1532.
[2] 黃靖敏,李萬益,林浩翔,等.基于張量與姿態(tài)回歸網(wǎng)絡(luò)的多視角多人姿態(tài)估計(jì)[J].現(xiàn)代計(jì)算機(jī),2022,28(11):74-79,111.
[3] 王琦,劉志剛,王淼,等.姿態(tài)驅(qū)動的局部特征對齊的行人重識別[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2023,32(04):268-273.
[4] A. D. Abadi, Y. Gu, I. Goncharenko and S. Kamijo. Detection of Cyclist’s Crossing Intention Based on Posture Estimation for Autonomous Driving [J].IEEE Sensors Journal, 2023(23): 11274-11284.
[5] X. Cheng, W. Tian, F. Shi, M. Zhao, S. Chen and H. Wang, A Blockchain-Empowered Cluster-Based Federated Learning Model for Blade Icing Estimation on IoT-Enabled Wind Turbine [J].IEEE Transactions on Industrial Informatics, 2022(18): 9184-9195.
作者簡介:林子堯(1996—),男,漢族,浙江杭州人,碩士,助理工程師,研究方向?yàn)樽藨B(tài)估計(jì)。