999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

人類動作識別的特征提取方法綜述

2022-09-06 13:16:54甘臣權張祖凡
計算機應用與軟件 2022年8期
關鍵詞:特征提取動作特征

彭 月 甘臣權 張祖凡

(重慶郵電大學通信與信息工程學院 重慶 400065)

0 引 言

近年來隨著數碼相機、智能手機等視頻拍攝設備的普及以及視頻應用軟件的大幅推廣,網絡視頻業務呈現出指數級增長的發展趨勢,視頻載體已經成為人們日常生產生活中傳播信息的重要媒介。視頻中隱藏著巨大的信息,網絡視頻市場龐大的用戶量、高速增長的市場規模給網絡視頻的管理、存儲、識別帶來了極大的挑戰,因此網絡視頻業務日益受到各方的重視[1]。在以人為焦點的計算機視覺(Computer Vision,CV)研究領域中,如手勢識別[2](Hand Gesture Recognition)、人體姿態估計[3](Human Pose Estimation)、步態識別[4](Gait Recognition)等任務,人類動作識別(Human Action Recognition,HAR)任務因其在人機交互、智能家居、自動駕駛、虛擬現實等諸多領域中應用廣泛,日益成為計算機視覺領域中一個重要的研究課題。視頻中的人類動作識別的主要任務是幫助計算機自主識別出視頻中的人體動作,通過解析視頻內容來推理人體的運動模式,從而建立視頻信息和人體動作類別之間的映射關系。準確地識別出視頻中的人體動作,有利于互聯網平臺對海量相關視頻數據進行統一分類管理,有助于營造和諧的網絡環境。此外,HAR技術的發展也促使了視頻異常監控業務的成熟,在公共場合中能輔助社會治安管理人員迅速對危機事件做出預測,在家庭生活中能及時監控用戶的異常行為(如暈倒、摔跤等)以便及時就醫[5]。因此,對視頻中的人類動作識別這一任務進行深入研究,具有重要的學術意義和應用價值。

動作識別任務的實現過程一般可分為兩個步驟:動作表示和動作分類,動作表示又被稱為特征提取,被認為是動作識別的最主要任務。本文主要將人類動作識別相關特征提取算法分為基于傳統手工特征的方法和基于深度學習的方法,分別從視頻中提取手工設計的特征和可訓練的特征[6]。傳統的特征提取方法依賴于相關領域的專業知識,往往需要根據不同的任務進行特定的特征設計,識別算法的性能嚴重依賴于數據庫本身,增加了不同數據集上處理過程的復雜度,泛化能力和通用性較差。并且,在現如今信息爆炸的時代背景下,視頻數據的爆炸式增長無疑給手工特征的制作帶來了巨大的挑戰,因此人們更傾向于采用非人工的方法提取更具有一般性的特征表示以滿足現實任務需求。深度學習(Deep Learning,DP)在語音、圖像識別等領域中的重大突破鼓勵了其在計算機視覺領域中的應用。隨著海量數據的爆發與GPU等硬件設備的快速發展,深度學習更能契合時代特點,提升了從大規模視頻數據中迅速挖掘出有用信息的可能性,在HAR任務中逐漸成為一種不可或缺的研究方法。基于深度學習的方法通過構建一個層級的學習訓練模式,借助模型與標簽在輸入與輸出數據之間建立層層遞進的學習機制,自主獲取原始視頻數據的動作表征,從而克服了手工特征設計的缺陷,是一種更為高效且泛化性能更好的特征提取方式。

本文從基于傳統手工特征的方法和基于深度學習的特征提取方法兩方面對人類動作識別領域中的特征提取方法進行了分類與總結,如圖1所示,最后概括了動作識別領域中所面臨的困難和挑戰,并總結了未來可能的研究方向。

圖1 人類動作識別特征提取方法總結

1 傳統手工特征提取方法

大多數傳統動作識別算法都依賴于人工設計特征的方法,其目的是從原始視頻輸入中剖析人體的運動模式并提取對應的底層特征,將視頻數據信息轉化為可以被分類模型所理解的特征向量,以便將原始的視頻數據映射為相應的動作類別標簽。視頻數據不僅包括了靜態的場景信息,還蘊含了豐富的動態變化,因此針對視頻分類,穩健的視頻特征表示除滿足區分性與有效性兩個基本特性之外,還需要包含大量的時間信息和空間信息,增加了手工設計特征的難度。傳統的手工特征主要分為全局特征和局部特征,其對應特征提取算法優缺點總結如表1所示,接下來將從這兩方面出發對相關算法進行總結與對比。

表1 傳統手工特征提取方法總結

1.1 全局特征提取

動作的全局特征表示是出于對運動目標的整體描述,通常需要先用背景相減法或目標跟蹤法將視頻中的人體分割出來,再進行全局特征的提取。常用的全局特征包括基于人體輪廓的特征、基于骨架的特征與基于光流的特征。

(1) 基于人體輪廓的特征。早期的動作識別研究大多數都依賴于人體輪廓特征,通過特定的算法設計在時域中反映出人類動作序列的排列組合情況,通常需要預先建立各個動作類別的樣本模板,在分類過程中將待測動作模板與所建立的標準模板進行比對,然后選擇相似性最大的模板作為其最終分類結果。較為常見的人體輪廓特征有運動能量圖[7](Motion Energy Images,MEI)和運動歷史圖[8](Motion History Images,MHI),通過從特定的方向來觀察與給定動作相關聯的粗粒度圖像運動,從而保存人體動作信息。其中,MEI通過描述人體在空間中的位置移動及其能量的空間分布情況,反映了運動的輪廓以及動作發生強度;MHI通過觀測視頻幀中人體在某一時間段內同一位置的圖像亮度變化情況,反映了運動發生的時間及其在時域上的變化情況。文獻[9]在捕捉到運動片段的MEI的基礎上提取其增強的Gabor張量特征,最后進行子空間投影得到有效的運動描述符。文獻[10]在圖像序列的MHI特征的基礎上利用不同的幾何矩對其進行特征編碼,在不損失信息量的前提下提升了計算效率。基于人體輪廓的特征提取方法計算成本低且具有較強的魯棒性,得到了廣泛使用[11]。

人體輪廓特征是一種基于視覺的描述方法,在觀察方向以及相機位置發生改變時容易受到影響,導致識別結果不準確。此外,該方法對分類過程中所需要的標準模板的精度要求較高,而模板的精確度高低依賴于數據庫的樣本容量大小以作為其計算的支撐。

(2) 基于人體模型的特征。由于人類的運動模式可以抽象成簡單幾何結構所表示的骨架的移動情況,基于人體模型的相關研究也成為了HAR領域中的一個重要方向,它通過視頻幀之間人體關節點的變化來直觀地描述人體動作,可以劃分為二維表現形式[12]與三維表現形式[13-14]。二維模型利用二維幾何形狀(如:矩形、橢圓形、不規則形狀)表征人體各部分,然后通過從圖像中提取到的底層表觀特征來估計相應模型參數與對應模型進行匹配,以區分頭部、身軀與四肢等不同的身體區域,通過各幾何圖形的移動變形來描述具體的運動模式。文獻[15]利用不規則的二維剪影圖像來近似人體運動輪廓,并從中抽取圖形節點的直方圖以得到分類特征向量,該方法不需要精確定位人體關節信息,節省了計算開支。但二維模型不能表征運動過程中的人體距離信息,因此當運動過程中出現自遮擋、碰撞等情況時,估計到的運動模式會存在較大誤差。為緩解上述問題,文獻[16]利用深度相機估計不同人體骨骼關節的位置,并使用關節之間的夾角變化序列來刻畫人體動作。文獻[17]通過定位每一視頻幀中人體的關節位置坐標來提取相應的姿態特征。文獻[18]通過三維掃描設備獲取靜態的人體模型數據,然后利用蒙皮算法實現骨骼數據的綁定,從而重構實時運動模式。骨架特征精確地表征了靜態人體姿態,但弱化了動作的時間演變,因此文獻[19]將骨架特征與RGB數據相結合,基于RGB數據構造時間圖像以表征動作的動態變化。當人體部位出現遮擋情況時,會嚴重影響基于骨骼數據的動作識別精度,而深度信息包含豐富的距離信息,緩解了骨骼數據的遮擋問題,因此文獻[20]結合了深度信息與骨骼數據兩種模態的優勢,避免了單一輸入模式的缺陷。三維模型利用圓柱或圓錐等幾何模型來與人體構造模式相對應,通過結合人體運動學等先驗信息與深度信息完成相關數據的估計,克服了二維模型在處理自遮擋與運動碰撞等問題時的缺陷。

基于人體模型的方法通過套用統一的人體模型來代表任意個體,一定程度上緩解了個體變化所導致的類內差異性,但是將復雜人體動作粗略地簡化成一種僵化的幾何模式,單純地利用關節點變化來進行動作識別會產生較大誤差。此外,三維模型所需的深度信息需要通過昂貴的攝像設備進行采集,模型的構建也將更加復雜。

(3) 基于光流的特征。光流一般由前景目標自身的運動、相機拍攝視角的移位或者兩種現象同時發生的情況所產生,其計算依據建立于圖像的亮度變化僅僅來源物體的移動這一假設之上,通過利用相鄰幀上的像素點在時域上的亮度變化情況來反映人體的運動情況。文獻[21]通過一個基于計算光流的描述符來描述遠距離人類運動,通過追蹤每個穩定的人類圖像軌跡并計算其模糊形式的光流而非精確的像素位移來近似人類運動的平滑軌跡。文獻[22]利用光流場中興趣點的密集程度追蹤運動過程的人體位置,并利用水平方向和垂直方向的平均差值與標準差值對其定位進行進一步的評估。文獻[23]為減少光流提取過程中所需的計算量,利用光流的關鍵點軌跡在頻域的多尺度表征來推理人體的運動情況。文獻[24]將光流特征與MHI相結合以準確跟蹤運動對象在某一段時間內的運動狀態。光流特征因其在時間維度上良好的運動表征能力,在動作識別領域得到了大面積的應用,但光流特征易受到光照和遮擋的影響,且采用光流數據作為輸入的模型內存需求大、計算成本高昂。

總體而言,基于全局特征的表示方法受限于相機運動、光照變化等因素,且需要去除背景、前景提取、人體定位與追蹤等預處理操作,因此在復雜動態背景情況下對于運動的表征能力效果不佳。

1.2 局部特征提取

為避免預處理操作,局部特征表示方法側重于視頻中的感興趣點的檢測,并將人體動作局部表示進一步編碼為用于分類階段的特征向量,在特定的動作識別任務中分類效果良好。常見的局部特征包括基于時空興趣點的特征和基于軌跡的特征。

(1) 基于時空興趣點的特征。基于時空興趣點的特征提取方法可分為興趣點檢測與特征點描述兩部分。首先通過檢測器檢測出時空興趣點,即時空中突然發生變化的點,利用時空興趣點構成的點集來表示人體動作,然后利用描述子將興趣點編碼為分類器能理解的特征向量,從而描述動作信息,因其容易采集且對視覺變化不敏感等優點在復雜背景下的動作識別任務中備受推崇。Harris3D特征檢測器[25]將空間域上的角點檢測擴展到了時空域,通過融合梯度直方圖(Histogram of Oriented Gradients,HOG)特征和光流直方圖(Histogram of Optical Flow,HOF)特征以得到局部描述子,進而描述局部運動。在此基礎上,文獻[26]利用哈希方法和稀疏編碼方法對最終的特征編碼進行了改進,但是該方法產生的描述子對噪聲、尺度和角度變化敏感。為克服上述缺點,文獻[27]利用一種尺度不變特征變換(Scale-Invariant Feature Transform,SIFT)算法來檢測幀序列中的關鍵點,但該方法僅考慮空間維度上的外觀信息,忽略了人體動作在時間維度上的演變。因此3D SIFT算子[28]在時間維度上對SIFT算子進行了擴展,以期準確地描述視頻數據的時空特性,得到了良好的局部時空特征描述符。但是對于模糊圖像和邊緣平滑的圖像而言,其檢測出的特征點較少,增加了動作識別的難度。為克服視覺變化敏感問題,文獻[29]將時空興趣點特征與局部光流特征結合起來,通過提取不同興趣區域的光流直方圖與視頻片段詞袋直方圖來構成混合特征,緩解了遮擋問題。文獻[30]將HOG與三維空間里的散射變換系數相結合,提出了一種魯棒性更強的局部描述子。針對視覺范圍的局限性問題,文獻[31]將3D時空興趣點擴展到了四維空間,以強調動作隨時間的變化。為克服Harris興趣點檢測算法缺乏尺度信息的缺陷,文獻[32]將其與Laplace尺度空間相結合,提出了改進的Harris-Laplace檢測算法。但時空興趣點的篩選條件較為苛刻從而導致選中的興趣點個數較少,進而影響識別精度,因此文獻[33]提出一種基于光流場旋度的興趣點檢測方法,降低了篩選難度。

基于時空興趣點的特征檢測得益于角點檢測器的發展而容易提取且得到了普遍采用,但是它利用一些不關聯的點的集合形式來描述人體動作信息,局限于現實場景中人體運動的復雜性,因此該技術很難得到實際應用。

(2) 基于軌跡的特征。人類的運動軌跡中蘊含著豐富的運動信息,且軌跡速度、方向的突變點的區別表征著不同類別運動,基于軌跡的特征提取方法主要包括對特征點進行密集采樣與追蹤、基于軌跡進行特征提取、特征編碼三個步驟。為有效地捕獲運動信息,文獻[34]通過以不同的尺度來采樣每一幀的局部模塊的稠密點,并在密集光流場中對其進行追蹤,以提取運動物體的稠密軌跡,同時從圖像的底層特征入手,通過組合每個稠密點上的HOG和HOF等特征進一步提升了性能。文獻[35]定義了軌跡運動相關性,以確定分類過程中不同軌跡的相應權值,用以權衡與目標動作更為相關的運動軌跡。為提取優質的軌跡特征,文獻[36]通過補償相機運動對稠密軌跡特征進行了改進,在追蹤視頻中的人體運動軌跡時,沿著光流場中的運動軌跡提取HOG、HOF、MBH和密集軌跡等特征,并采用特征詞袋(Bag of Word,BoW)或費舍爾向量(Fisher Vector,FV)兩種方法分別對特征進行編碼,得到最終的視頻特征表示,再使用支持向量機將提取到的特征表示編碼到固定尺寸用于最終的分類識別。文獻[37]結合顯著性檢測方法與改進稠密軌跡特征以期緩解相機運動對識別結果帶來的影響。但無效的運動軌跡會影響模型判別能力,因此文獻[38]在提取密集軌跡前利用運動邊界策略進行采樣以保存更有意義的軌跡特征。為減小相機運動的干擾,文獻[39]利用動態高斯金字塔對快速魯棒性特征進行了改進,并與IDT特征相結合從而減少了背景信息的干擾。為提高分類精度,需要確保人體的運動軌跡精確,但獲取準確的軌跡本身就是一個研究難點。

與全局特征相比,局部特征不需要精確地定位出人體,對視角變化、復雜場景、遮擋等干擾不敏感,穩定性好,抗干擾能力強,且避免了預處理操作,但手工特征編碼時需要的內存開銷較大,而且局部特征缺乏外觀上的細節信息,并需要額外的專業知識以進行特定領域的特征設計,具有領域局限性,難以泛化。

1.3 性能對比分析

為便于直觀比較,表2給出了不同的傳統手工特征提取方法在其對應數據集上的分類精確度對比,表2中數據直接來源于相應的原文獻。由于多數傳統方法并未采用統一的數據集進行實驗分析,因此文中并未對涉及到的數據集進行詳細介紹,僅在表2中給出了各數據集名稱及其所包含的動作類別個數。

表2 傳統手工特征提取方法的識別準確率對比

可以看出,多數傳統的特征提取方法是在不同的數據集上進行實驗,這是因為針對不同的分類任務需要進行特定的特征設計,從側面印證了傳統方法的領域局限性。而且利用傳統的手工特征進行動作分類均需要分類器的參與(表2中LDA、KNN、SVM等均為常用的分類器模型),這種做法將特征提取與分類預測剝離為兩個單獨的步驟,得到的分類解不一定是全局最優結果。此外,大多數傳統方法受限于計算復雜度,僅能對少數動作類別進行分類預測,表2中所涉及到的數據集多數都未超過20個類別,這并不滿足實際應用需求。雖然文獻[36]利用IDT等手工特征在HMDB51數據集上實現了對51個動作類別的識別,但其準確率較低,僅為57.2%,因此僅依賴傳統的手工特征提取方法進行動作識別無疑是不現實的。

2 基于深度學習的特征提取方法

基于深度學習的特征提取方法從輸入視頻數據中自動學習可訓練特征,克服了傳統方法需要人工參與特征設計的缺陷,其識別性能更為高效,應用領域更加廣泛,在HAR研究領域中掀起了一輪新的浪潮。根據神經網絡結構設計的不同,基于深度學習的特征提取算法主要可分為:基于雙流卷積網絡的特征提取、基于多流卷積網絡的特征提取、基于三維卷積網絡的特征提取與基于長短時期記憶網絡的特征提取。上述方法的優缺點總結如表3所示,接下來將從這四個方面對其相關工作進行討論與總結。

表3 基于深度學習的特征提取方法總結

2.1 雙流卷積網絡

RGB數據具有豐富的外觀信息,能直觀地表示出人體形狀與物體外觀,補償了傳統方法中表觀特征缺乏的不足,在動作識別領域中得到了大面積的應用。但僅采用單一視頻幀作為模型輸入只能表征單一時間節點的空間信息,因此為挖掘視頻流的時間信息,文獻[40]提出了基于RGB視頻幀的后期融合(Late Fusion)、早期融合(Early Fusion)、緩慢融合(Slow Fusion)三種方法,但其識別效果與傳統的手工模型相比還相差較遠。為解決RGB單模態輸入模型的識別性能受限于動態特征信息缺乏的問題,研究逐漸進入對多模態輸入結構的探索。文獻[41]將RGB與RGB-D兩種模式共同作為模型輸入,并探討了不同數據類型的融合方式對分類器性能的影響。文獻[42]將RGB與Depth Frames兩種數據相結合用于連續手勢的分割與識別任務中。由于骨骼信息可通過RGB-D數據進行快速準確的估計,因此也有文獻嘗試將RGB-D與人體骨骼信息相結合以表示動作[43],但RGB-D數據采集困難,且帶有額外的噪聲信息干擾識別效果。

光流+RGB數據形式為使用范圍最廣的雙流輸入模式,文獻[44]提出了著名的雙流假設,即視覺信息可以被加工成兩條路徑:用于形狀感知的腹側流和用于運動感知的背側流。源于此線索,文獻[45]首次將雙通道方法運用到動作識別領域中,將視頻信息劃分為空間信息與時間信息兩個部分,其基本思路為先計算相鄰視頻幀之間的密集光流,然后將RGB視頻幀與光流特征分別輸入到Two-Stream結構中,分別訓練雙流CNN識別模型,最后融合兩個網絡的預測結果,其精度超過了傳統動作識別方法,驗證了光流信號對時間信息的補償,證明了采取深度學習的特征提取方法替代傳統手工設計特征的可能性。但該文獻僅采用均值融合與線性SVM融合兩種簡單的方式來融合雙流網絡的識別結果,未考慮到兩個卷積流之間的信息交互。為更好地融合雙流網絡的兩路特征,文獻[46]利用殘差連接方式在時空卷積流之間建立起信息連接,以促進其信息交互。此外,文獻[47]基于遠程時間結構建模的思想構造了時域分割網絡(Temporal Segment Networks,TSN),以RGB+光流兩種輸入模式分別作為不同網絡流的輸入,提出一種稀疏采樣策略從給定視頻中稀疏地采樣一系列視頻剪輯,不同于原始的雙流網絡結構采用相對較淺的網絡,ClarifaiNet[48]作為卷積流的基礎模型,該文獻采取BN-Inception[49]網絡分別進行特征提取,以實現準確率與模型效率之間的良好折中,然后對每一片段進行初步推斷,通過各預測結果的“共識”來確定其最終所屬類別,而且作者還提出了一種加權融合方法,讓深度模型自適應地分配時間流特征與空間流特征在最終識別結果中所占的不同權重。為捕捉長時動態信息,文獻[50]將雙流網絡與LSTM網絡相結合以捕捉全局時空信息。文獻[51]利用分段采樣策略進行采樣,并構建了時空異構雙流網絡,以實現長范圍時序建模。文獻[52]將TSN網絡與時間金字塔池化方式相結合,通過構建多尺度時間特征建模長距離視頻幀之間的依賴性。文獻[53]構建了一種深度殘差LSTM網絡,并與雙流網絡相結合以提取全局信息。不同于傳統時空雙流網絡采用并行排列的方式,文獻[54]利用串行連接結合時空流網絡,節省了硬件資源。為避免手動計算光流特征,文獻[55]提出了一種多任務學習模型ActionFlowNet,從原始像素點出發,分別訓練兩個卷積流網絡,在模型自動估計光流值的同時進行動作識別,模型不需要額外地進行手工設計,而是在帶有真實光流值標簽的數據集上訓練模型使其自適應地學習連續視頻幀之間的光流信息,在提取運動信息的同時降低了計算量。

雙流模型利用兩個卷積網絡分別對時間信息和空間信息進行建模,一定程度上緩解了基于RGB數據的單流識別網絡所面臨的動態特征缺乏問題,但是以光流為代表的動態特征僅能表示部分時間信息,并且在視頻中準確有效地提取光流本身就是一個亟待解決的難題。

2.2 多流卷積網絡

為提高模型的描述能力,部分研究者豐富了模型的輸入模式,將雙流網絡模型擴展到三流網絡甚至多流網絡,對不同的輸入模式分別進行處理后再加以融合,用于后續的分類識別以期得到更具判別力的人體動作表征。

文獻[47]在光流+RGB輸入模式的基礎上提出了扭曲光流(Warped Optical Flow)作為額外的輸入模式,將這三種模式分別輸入到TSN網絡中,以探索多輸入模式對模型判別力的影響。文獻[56]將骨架序列特征按照不同的方向映射為RGB圖像特征,并將其分別作為三流網絡的輸入,實現了多特征之間的信息交互。文獻[57]提出了一個三流卷積網絡,在光流+RGB數據的基礎上提出了堆疊的運動差分圖像(Motion Stacked Difference Image,MSDI)構成三模式輸入,MSDI通過融合每個局部動作特征來建立用以表征全局動作的時間特征,將三種數據形式分別通過相同設置的卷積神經網絡(即五個卷積層與兩個全連接層的順序堆疊)進行特征學習,以捕捉空間表觀信息、局部時間特征、全局時間表示。文獻[58]提出了動態圖像的概念,使用排序池化和近似排序池化對RGB圖像和光流進行編碼,經訓練后得到RGB動態圖像流網絡和動態光流網絡,結合原始RGB網絡和光流網絡形成四流網絡結構,利用其輸出得分的均值來預測動作類。文獻[59]利用RGB數據、光流和深度信息的多模態輸入形式結合了多種特征類型的優勢以提升模型識別效果。為提高有限訓練樣本情況下模型的學習能力,文獻[60]在水平與垂直兩個方向上提取原始視頻幀的光流與梯度信息分別送入多流卷積網絡通道,增加了訓練樣本數量。與上述文獻對于不同的輸入模式均采用相同設計的卷積流做法不同,文獻[61]將深度MHI、骨架數據分別輸入ResNet101與ST-GCN中提取對應的全局運動與局部運動信息,并結合RGB圖像構成了三模態輸入,考慮了目標與動作之間的依賴關系。文獻[62]從特征級的光流正交空間出發,通過直接計算深度特征圖的時空梯度,定義了光流引導特征(Optical Flow Guided Feature,OFF),該方法設計了三種子網絡:特征生成子網絡、OFF子網絡與分類子網絡,其中特征生成子網絡由BN-Inception網絡構成,并以RGB視頻幀與堆疊的光流作為模型輸入,分別提取對應特征,然后將其分別送入OFF子網絡,得到OFF(RGB)與OFF(Optical Flow)兩種新的輸入模式,分別表征經OFF子網絡處理后的兩種數據類型,OFF子網絡得到的特征通過堆疊的殘差塊進行細化,最后對四種模式輸入到分類子網絡分別進行分類預測,將融合結果作為最終的判別依據,獲得了明顯的性能增益。

基于多流卷積網絡的動作識別方法雖然能夠有效捕捉圖像的空間特征,且更全面地補償了單一視頻幀所缺乏的時間信息,但輸入模式種類越多意味著深度模型所需訓練的參數量越多,這使模型的有效性大打折扣。此外,輸入模式的增多也意味著對特征融合模塊設計的要求也更高,增加了多流模型的復雜性。

2.3 三維卷積網絡

基于三維卷積網絡的特征提取算法的一般做法為將少量連續的視頻幀堆疊而成的時空立方體作為模型輸入,然后在給定動作類別標簽的監督下通過層級訓練機制自適應地學習視頻信息的時空表征。三維卷積網絡在時空兩個維度上直接從視頻數據中同時捕獲具有區分性的視頻特征,無須刻意設計時空特征融合模塊,能有效地處理短期時空信息的融合問題,更好地促進了時空特征在識別判斷過程中的相互交互。

(1) 基于標準三維卷積的模型。文獻[63]將二維卷積網絡擴展到三維空間,同時從時空維度提取視頻特征。在此基礎上,提出了多種3DCNN的變形,如C3D[64]、I3D[65]、Res3D[66]等。得益于GPU的發展,基于3DCNN的方法逐漸成為視頻動作識別領域的主流方法。文獻[67]利用多視圖學習提取多個局部形狀描述符,然后與3DCNN相結合將多個視圖描述符進行融合,以提高分類特征的描述能力。文獻[68]在C3D網絡之前添加了一個緩沖區,實現了模型在視頻流輸入的同時執行實時分類預測。針對C3D網絡層數較淺不利于學習深度特征的問題,文獻[69]將殘差思想與深度C3D網絡相結合,在其中引入短路連接,避免了深度C3D網絡會導致其學習能力退化的缺陷。但3DCNN較之于2DCNN倍增的參數量使得其相應模型在小數據集上進行訓練易導致過擬合效應,因此文獻[70]將密集連接方式應用到3DCNN中,并結合空間金字塔池化方式,減小了模型的訓練難度。此外,研究者們采用遷移學習方法,在公共大型數據集對模型進行預訓練后,再利用小數據集對模型進行微調。文獻[71]受2DCNN在ImageNet[72]數據集上進行預訓練后極大地促進了通用特征表示的獲取的啟發,針對3DCNN的巨大參數量是否會引起訓練過程中的過擬合問題進行了研究,首次提出在Kinetics[73]數據集上從零開始訓練多種3DCNNs模型(ResNet[74]、Pre-activation ResNet[75]、Wide ResNet[76]、ResNeXt[77]、DenseNet[78]),通過由淺(18層)到深(200層)的網絡結構研究了在不導致過擬合的情況下該數據集可訓練的深層結構的層數上限,證明使用Kinetics數據集訓練深度3D CNN將追溯2D CNN和Image Net的成功歷史。預訓練緩解了常用小數據集的過擬合效應,是一種有效的初始化方式,能夠加快模型的收斂速度。但在大型視頻數據集上進行預訓練操作需要昂貴的時間成本,因此文獻[79]利用在圖像數據集ImageNet上進行預訓練后的2DCNN模型來構建3DCNN,其沿著時間維度堆疊相同大小的二維卷積核來重構三維濾波器,并且通過在幀序列上同時進行二維卷積來模仿視頻流中的三維卷積操作,避免了在大型視頻數據集中進行繁瑣的預訓練過程。但是視頻數據包含許多無用信息,若對所有特征同等對待,會導致特征提取過程中包含大量不必要的特征,從而干擾識別結果并增加多余的計算量。

文獻[80]表明人類在觀察周遭環境時并非關注全部內容,而是將注意力集中在環境的顯著性區域。部分學者受此啟發,在特征提取算法的設計中引入了注意力機制,幫助模型在特征學習的過程中為目標區域分配更多的注意力資源,進而抑制冗余信息,在復雜的視頻內容中快速篩選出關鍵信息。文獻[81]提出了一種卷積注意模塊(Convolutional Block Attention Module,CBAM),在二維殘差網絡結構的基礎上構建了層級雙重注意機制,將通道注意力與空間注意力依序添加到每一殘差塊中,但該網絡結構忽略了對動作識別任務來說至關重要的時間信息。文獻[82]在其基礎上將二維殘差注意結構擴展到三維空間,提出了一種三維殘差注意網絡(3D Residual Attention Networks,3DRAN),根據信道和空間注意機制子模塊在每個三維殘差塊中依次推斷所提取到的特征的信道注意映射和空間注意映射,使中層卷積特征序列性地在通道域和空間域中學習關鍵線索。文獻[83]以殘差網絡為基礎構建了一種雙流殘差時空注意(Residual Spatial-Temporal Attention Network,R-STAN)網絡,該網絡分支由集成時空注意力的殘差塊(R-STAB)堆疊而成,從而使R-STAN具有沿時間維和空間維生成注意力感知特征的能力,引導網絡更加注重為具有不同判別力的時空特征分配相應權重,大大減少了冗余信息。文獻[84]為克服3×3×3卷積核在時空域上感受野較小未考慮到整個特征圖以及整個幀序列中的全局信息,提出了一種帶有注意力機制的時空可變形三維卷積模塊(Spatio-Temporal Deformable 3D ConvNets with Attention,STDA),沿時空維度同時執行幀間變形操作和幀內變形操作,自主學習在時空維度上的偏移量以自適應擬合視頻中發生的即時復雜動作,從而產生更具區分度的視頻表征,補償全局信息缺失問題,更好地捕捉時空領域內的長期依賴性和視頻中不規則的運動信息。

基于標準三維卷積結構的模型因其固有的內在結構在提取局部時空融合特征時具有先天的優勢,但同時也存在很多局限性。基于標準三維卷積結構的模型所需訓練的模型參數量十分巨大,增加了模型的計算復雜度與存儲開銷且不利于模型的迭代優化,導致模型難以迅速收斂到最優解。

(2) 基于三維卷積結構變形的模型。為減少模型的訓練參數、提升計算速度、減小內存消耗,多種基于標準三維卷積網絡的結構變形被提出。在早期的相關研究中,研究者將一層卷積核大小為3×3×3的標準三維卷積層近似為三個級聯的卷積層,它們的濾波器大小分別為1×3×1、1×1×3與3×1×1,提升了模型的有效性[85],但這種做法相當于將模型的深度加深了三倍,導致模型難以訓練。為解決上述問題,文獻[86]提出了一種非對稱三維卷積來近似傳統三維卷積以改進傳統3D CNN的計算復雜問題,通過將兩層卷積核大小為3×3×3卷積層近似為一層卷積核大小為1×5×1、1×1×5與3×1×1的非對稱三維卷積層,然后再堆疊多個不同的微網來構建非對稱3D卷積深層模型,提高了非對稱三維卷積層的特征學習能力且不增加計算成本。

此外,分解的時空卷積網絡[87](Factorized spatio-temporal Convolutional Networks,FstCN)與偽三維網絡[88](Pseudo-3D network,P3D)也被提出用于緩解三維卷積網絡計算復雜的問題。文獻[89]提出了一種基于三維殘差網絡的時空分解方法,將標準三維卷積操作解耦為級聯的二維空間卷積與一維時間卷積,以更為緊湊的結構取得了良好的結果。隨后,該團隊又基于分組卷積從通道分離這一全新視角提出了一種通道分離卷積網絡(Channel-Separated Convolutional Networks,CSN),將標準三維卷積分解為通道交互層(濾波器大小為1×1×1)與局部時空信息交互層(濾波器大小為3×3×3),前者通過減少或增加通道維度以加強不同通道之間的信息交流,后者利用深度可分離卷積的思想,摒棄了通道之間的信息傳輸而著重于局部時空信息之間的交互,降低了模型的計算量[90]。文獻[91]將二維空間卷積核與一維時間卷積核按照三種不同的方式進行連接,然后將三種網絡串接起來構造偽三維殘差網絡,降低了模型訓練難度。文獻[92]利用張量低秩分解理論提出了Fake-3D模塊,選取C3D網絡作為其基礎架構并結合殘差連接的思想,降低了C3D模型的參數規模且提升了識別性能。文獻[93]證明了I3D較之于I2D的性能增益,同時對該模型中全3D卷積模塊的冗余度提出了疑問,進而提出一種輕量級模型S3D-G,在底層網絡中采用2DCNN提取空間特征,在頂層3DCNN模塊中利用深度可分卷積構造分離的3D時空卷積,結合了2DCNN與分解的3DCNN以實現在計算速度以及識別精度上的更好折中。但上述模型受限于輸入數據的時間維度僅能表征局部時空信息。

計算復雜度與內存消耗量限制了輸入視頻數據的長度,因此基于三維卷積網絡的特征提取模型僅能表征短期時間范圍內的人體動作,很難處理具有長時間跨度的視頻數據信息,從而影響模型性能,因此長期時空序列信息能否獲得充分的分析是提升視頻動作分類準確性的關鍵。

2.4 長短時期記憶網絡

為捕捉具有長時間跨度的動作信息,文獻[94]設計了具有長期時間卷積核(Long-term Temporal Convolutions,LTC)的神經網絡,通過同時卷積更多的視頻幀獲取更長的時間特征,但其參數量巨大,訓練十分困難。文獻[95]提出了一種Timeception模塊,利用深度可分卷積構造temporal-only卷積核(T×1×1×1),通過堆疊多個Timeception模塊以對視頻進行長時序建模,但該模塊選擇犧牲空間信息來交換時序信息,在長期時序建模過程中可能會導致上下文語義信息被壓縮,甚至丟失。基于長短時期記憶網絡(Long Short-Term Memory,LSTM)的模型具體指在卷積神經網絡的末端添加LSTM或者與之對應的變體結構,得益于其強大的序列建模能力,該方法也逐漸成為動作識別領域中的一個研究熱點。

(1) 基于標準LSTM的模型。LSTM的引入不僅解放了輸入長度,而且能更好地捕獲長期視頻數據之間的依賴性,文獻[96]先使用卷積神經網絡捕捉各個獨立視頻幀的特征,然后將CNN的特征按視頻中的時間順序依次送入LSTM中以獲得時間相關性特征,以補償CNN所缺乏的時間動態。除了探索視頻幀之間的關聯,LSTM還可用于建模不同視頻片段之間的語義關系,文獻[97]在經過kinetics數據集上預訓練的I3D模型上引入了LSTM,利用I3D網絡提取不同時刻的輸入視頻剪輯的局部時空特征,然后使用LSTM建模不同剪輯片段之間的時序依賴性,實現了高級時間特征與局部時空融合特征的結合。與上述方法類似,文獻[98]將視頻幀和光流兩種模式送入3DCNN網絡與特征融合模塊,得到兩種模式的融合特征,最后利用深層LSTM對序列性的融合特征進行時序建模,以強調模型表征連貫性動作的能力。文獻[99]在3DCNN與LSTM網絡的基礎上引入了多任務學習,在建模視頻幀之間的時序關系的同時強調了相關任務中所包含的豐富信息。為解決隨著LSTM網絡層數加深所引起的過擬合問題,文獻[100]在遞歸網絡中引入了殘差連接構建偽遞歸殘差神經網絡用以提取時空特征。LSTM除了用于時序建模,還可用作編碼-解碼網絡,文獻[101]提出一種基于3DCNN的運動圖網絡結構(Motion Map Network,MMN),通過迭代的方式將整個視頻所包含的運動信息集成到運動圖中,然后LSTM編碼網絡將提取到的特征圖編碼為對應的隱藏激活形式,再通過輸入層的解碼網絡重構近似輸出,以探索視頻序列之間的隱藏模式。

盡管LSTM具有強大的序列建模能力,但依然存有各種不足。標準LSTM僅考慮了單一方向上的序列信息,且采用向量化后的一維數據作為模型輸入,易導致關鍵信息的丟失問題,因此CNN與LSTM變體結構的組合也開始受到研究者的青睞。

(2) 基于LSTM變體結構的模型。單向LSTM僅考慮了過去的序列信息,利用其對相似性較大的動作(例如跑步與三級跳)進行分類識別易產生混淆,所以預知運動的結果信息也至關重要。受此啟發,研究者們采用Bi-LSTM網絡對時間信息進行建模[102-103]。雙向LSTM由兩個不同方向的標準LSTM網絡堆疊而成,具有前向、后向兩條通路,將卷積神經網絡所提取的特征送入后續的深層Bi-LSTM網絡中進行依賴性探索,能幫助模型有效地提取動作發生的過去與未來的上下文語義信息,從而更有效地區分相似運動。文獻[104]將雙流3DCNN網絡與雙向LSTM相結合以期在視頻流前后兩個方向上對長期依賴性進行建模。但是將卷積層特征向量化后直接輸入到LSTM中會破壞特征平面之間固有的空間位置相關性,從而干擾識別效果。

為保留特征圖的空間拓撲結構,文獻[105]結合了3DCNN和ConvLSTM,并將這兩個網絡所捕獲到的二維特征送入2DCNN用于學習更深層次的特征,以實現任意長視頻序列的動作識別。文獻[106]結合多層密集雙向Conv-LSTM后產生具有豐富時空信息的相應采樣幀的特征圖,然后與原始采樣幀一起送入3D DenseNet網絡,在考慮不同視頻剪輯相關性的同時保留了卷積層特征平面的空間拓撲結構。文獻[107]設計了一種僅使用RGB圖像數據的輕量級架構,通過ConvLSTM和FC-LSTM在不同視覺感知層分別建模時序信息,有利于更好地融合局部空間細節特征與全局語義特征,增強了模型的綜合表征能力。但是ConvLSTM結構在輸入-狀態以及狀態-狀態轉換過程中利用其內部卷積結構顯式地編碼輸入空間位置的相關關系與長期時間依賴性關系,其參數量較大,在小數據集上難以得到充分訓練從而導致模型過擬合。針對上述問題,文獻[108]提出了一種結合3DCNN和ConvGRU結構的深度自編碼網絡用于學習視頻的時空維度特征,其性能與ConvLSTM相當,但前者參數量更少且更容易訓練。文獻[109]借助計算分解以及稀疏連接的思想,利用深度可分離卷積、分組卷積與混疊卷積替換ConvLSTM中的傳統卷積結構,以獲取冗余性分析。

基于CNN與LSTM網絡相結合的動作識別算法能最大程度地利用兩種模型的優點,在不均勻的時間跨度內將表觀信息、運動信息和長短期時空信息關聯起來,為后續的分類判別階段提供了一個較為全面的時空表征,但是上述模型仍然需要大量的視頻數據用于模型訓練,這對用于訓練的數據集要求較高,且訓練過程中的時間成本較大,增加了模型的訓練難度。

2.5 性能對比分析

在基于深度學習的特征提取方法的相關實驗中,UCF101與HMDB51是使用范圍最為廣泛的數據集。UCF101是收集自YouTube的真實動作視頻數據集,囊括101個動作類別,共13 320個視頻,包羅了人與物的交互運動、身體運動、人與人的交互運動、彈奏樂器和各類運動五種動作類型。HMDB51數據集包括從各種電影片段以及公共數據庫中收集的大量真實視頻剪輯的集合。該數據集包含6 849個剪輯,涵蓋51個動作類別。動作類別可分為五種類型:一般面部動作、含對象交互的面部動作、一般肢體動作、人物交互肢體動作和人與人交互肢體動作。該數據集來源于現實場景,含有復雜的背景信息且在不同類別的運動中含相似場景,因此相較于UCF101更具挑戰性。表4羅列出了不同的深度學習特征提取方法在上述數據集上的識別準確率對比。為便于描述,光流(Optical Flow)、扭曲光流(Warped Optical Flow)、堆疊的運動差分圖像(Motion Stacked Difference Image)、動態圖像(Dynamic Image)、動態光流(Dynamic Optical Flow)等輸入數據類型分別簡化為OF、WOF、MSDI、DI、DOF。此外,OFF(RGB)與OFF(OF)分別表示經OFF子網絡處理后的RGB和光流數據。

表4 基于深度學習的特征提取方法識別準確率對比(%)

可以看出,相較于文獻[40]利用2DCNN與單一RGB輸入模式相結合的方式,雙流網絡得益于光流數據在時間流信息上的補償,其平均識別精確度相較于單流網絡在UCF101數據集上提升了25.84百分點,證明了雙流卷積網絡的有效性。在基于雙流卷積網絡的特征提取方法中,文獻[51]利用時空異構雙流網絡在UCF101數據集上達到了94.40%的準確率,文獻[47]利用加權法融合TSN雙流網絡,在HMDB51數據集上達到了68.50%的準確率,實現了最優的識別結果。

在基于多流卷積網絡的特征提取方法中,文獻[57]利用三流卷積網絡結合SVM模型,在UCF101和HMDB51數據集上達到了89.70%與61.30%的準確率,與文獻[45]中利用雙流網絡結合SVM模型的方法相比較,分別提升了1.7百分點與1.9百分點。文獻[62]利用OFF子網絡構建四流卷積網絡,在兩個數據集上均取得了最優結果,在UCF101和HMDB51數據集上分別實現了96.00%與74.20%的準確率。與單流網絡相比,其平均準確率在UCF101數據集上增加了28.33百分點,但是多流卷積網絡中精確度的提升需要以巨大的計算量為代價。

在基于三維卷積網絡的特征提取方法中,僅采用RGB輸入模式也能達到與雙流甚至多流卷積網絡相當的識別效果,避免了復雜的預處理過程。與其他模型相比,C3D[64]與I3D[65]模型并未在大型數據集上進行預訓練,因此識別效果不是很理想,證明了3DCNN在小數據集上容易引起過擬合的問題。在UCF101和HMDB51數據集中,文獻[71]利用3DResNeXt-101分別實現了94.50%與70.20%的準確率,文獻[89]利用三維卷積的結構變形構造R(2+1)D網絡,分別實現了96.80%與74.50%的準確率。與文獻[71]相比,文獻[89]利用更少的卷積層(34 vs 101)實現了更高的精確度,證明了基于三維卷積結構變型模型的有效性。文獻[93]利用S3D-G模型取得了96.80%與75.90%的準確率,在表4所有方法中識別精度最高,但是該方法在Kinetics與ImageNet數據集上同時進行了預訓練,訓練過程中的時間成本十分高昂。

在基于LSTM的特征提取方法中,文獻[97]與文獻[98]通過LSTM模型的引入,明顯提升了C3D[64]與I3D[65]模型的識別效果。此外,文獻[53]通過在雙流網絡中引入LSTM變體模型,在UCF101和HMDB51數據集上取得了良好的識別效果,分別實現了96.10%與74.20%的準確率,證明了LSTM強大的序列建模能力在特征提取過程中的性能增益。該方法適用于任意長度的視頻幀輸入,在復雜度與精確度之間取得了良好折中,但是仍然要求昂貴的訓練成本。

3 未來可能的研究方向

基于傳統手工特征提取的方法需要巨大的內存開銷與計算成本,且依賴于領域專家的先驗知識,具有較強的主觀性,在很多情況下基于深度學習的方法表現更為優越。基于深度學習的特征提取方法得益于神經網絡的層級訓練模式,通過層層遞進的特征提取機制自動從原始視頻數據中抽取高維特征,充分捕獲視頻數據的上下文語義信息,從而增加了模型的描述能力,有利于最后的識別判斷。特征提取直接關系到視頻內容是否能夠得到準確且充分的表達,進而影響分類結果。但面對爆炸式增長的視頻數據量,日趨復雜的視頻內容以及實時性分析的現實需求,視頻特征提取方法也對有效性、魯棒性與時效性提出了更高的要求。現將視頻特征提取方法中存在的挑戰及未來可能的研究方向總結如下:

1) 多特征融合。不同形式的輸入通過特征提取模型處理后會得到不同類別的特征,從不同方面描述了視頻中的人體運動模式。各特征側重點不同,僅利用單一特征進行后續的識別判斷容易導致錯誤的分類結果。很多模型直接基于RGB數據進行特征提取,隨著攝像設備的應用與發展,RGB數據具有便于采集且細粒度信息豐富的優點,其對應特征能直觀地反映物體表觀與細節紋理信息。但由于視頻采集過程中攝像頭的抖動、環境光照與遮擋等因素,RGB數據通常會帶有大量的背景噪聲,造成視頻數據時空維度上的復雜性與多變性,從而導致不同個體的相同動作之間會出現較大的類內差距,進而影響分類特征的視頻表征能力。融合不同類別的特征能結合各特征的優勢,以規避單特征分類任務的缺陷。目前部分研究者通過結合視頻數據中的深度信息來克服RGB數據對背景噪聲敏感的缺陷[110],但深度信息的采集成本較高且識別精度不理想。因此設計更為簡單有效的額外的輸入模式以產生不同類型的特征,通過多種特征相融合的方式來表征人體的運動模式更加值得討論,利用不同特征之間的互補性實現對多種特征的優勢進行綜合。

2) 動態信息的表征。動態的運動信息是視頻數據中的多幀差分所包含的內容,用以描述運動歷史,如何設計特征提取機制以期準確地描述人體動作在時間維度上的動態演變,對視頻中人體動作的正確區分而言意義重大。部分研究者利用視頻中的光流特征表征人體動態信息,在補償時間信息的同時消除了無關背景因素的影響,雖然帶來了精度提升,但光流計算的復雜度較高且內存開銷較大,極大地降低了模型的有效性與實用性。此外,光流特征往往需要預先計算,且光流視頻的生成需要耗費大量時間成本,不能達到實時分類預測的效果。因此,為滿足實用性要求,尋求一種簡單高效的動態表征以代替復雜的光流計算從而減小內存消耗,具有重要的現實意義;為滿足實時性要求,將動態特征提取過程融入到動作識別網絡中以便進行實時預測分析,也是一個亟待解決的問題。

3) 特征篩選。視頻數據包含許多冗余信息,若對所有特征同等對待,會導致特征提取過程中包含大量不必要的特征,從而干擾識別結果并增加多余的計算量。注意力機制能夠模仿人類觀察世界時所采用的視覺注意機制,著重觀察空間區域中的核心目標以及時間維度上的動作發生片段。近年來,研究者們設計了不同的時空注意力機制,趨向于將目光集中在幀級時空注意力的相關研究上,以輔助模型自動篩選重要的視頻幀以及其對應的突出空間區域,然而相鄰幀所包含的動作信息幾乎等同以至于難以區分其重要性,部分學者試圖通過添加復雜的正則化來解決上述問題,但模型的計算量與復雜度也隨之上升,因此將研究重點從幀級注意力轉向剪輯級注意力,為不同的視頻剪輯片段分配不同的重要性分數也是一個值得研究的方向。此外不同的卷積核對應著不同的通道以提取不同類別的特征,因此不同通道所對應的特征也應該被區別性對待。綜上所述,如何調整注意力機制,以輔助模型靈活篩選關鍵性特征,是提升最終分類特征的判別能力的關鍵。

4) 多模態特征挖掘。目前大多數人類動作識別任務的研究僅考慮了視頻中的視覺特征,基于直觀感受到的視頻畫面進行人體動作的分類判別。然而現實生活中的視頻數據不僅僅包含圖像特征,還含有大量的語音信息與文本信息,對這些數據類型的充分利用能輔助模型進一步挖掘深層次特征,進而理解視頻內容。如何結合視頻中不同屬性的數據類型,對各類數據所包含的信息進行顯示挖掘,協同利用多模態特征之間的互補特性,是輔助模型確定動作類別以提升識別精度的關鍵。多模態數據的引入雖然增加了不同數據類型之間的聯系,但是多模態特征的挖掘需要模型在不同數據集上進行訓練,以及需要分別對各個模態分別進行特征提取與類別預測,這也意味著模型復雜度與模型訓練成本的增加,因此設計一個易于訓練優化的模型以生成簡單有效的多模態表征也是一個值得探究的方向。

4 結 語

近年來,人類動作識別技術的應用領域愈加廣泛,涵蓋自動駕駛、機器人與智能監控等多個領域,具有重要的現實意義。本文對視頻中的人類動作識別領域中所涉及到的特征提取方法進行了全面的概述,從傳統的手工特征提取方法與基于深度學習的特征提取方法兩方面對其研究現狀進行了歸納并分析了各類方法的優點與不足,最后總結了人類動作識別領域中現存的挑戰及未來可能的研究方向,以期幫助后續科研人員更加清晰明確地了解人類動作識別任務中的特征提取算法的相關研究現狀。

猜你喜歡
特征提取動作特征
如何表達“特征”
基于Gazebo仿真環境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
動作描寫要具體
抓住特征巧觀察
畫動作
動作描寫不可少
一種基于LBP 特征提取和稀疏表示的肝病識別算法
非同一般的吃飯動作
基于MED和循環域解調的多故障特征提取
主站蜘蛛池模板: 中文字幕在线永久在线视频2020| 亚洲最大看欧美片网站地址| 在线精品视频成人网| 日韩成人在线网站| 久久精品无码国产一区二区三区| 999国内精品久久免费视频| 国产69精品久久久久孕妇大杂乱| 日韩大片免费观看视频播放| 极品国产一区二区三区| 青草视频久久| 综合久久五月天| 亚洲第一在线播放| 亚洲三级影院| 无码在线激情片| 囯产av无码片毛片一级| www欧美在线观看| 午夜激情婷婷| 国产一区二区免费播放| 久久精品视频一| 91香蕉视频下载网站| 欧美激情综合| 色色中文字幕| 欧美亚洲另类在线观看| 国产成人免费观看在线视频| 国产精品浪潮Av| 亚洲欧美日韩成人在线| 中文字幕1区2区| 国产精品三区四区| 日本一区高清| 亚洲AV无码乱码在线观看代蜜桃 | 国内精品手机在线观看视频| 国产精品主播| 精品少妇人妻无码久久| 国产一级妓女av网站| 无码AV日韩一二三区| 亚洲日韩每日更新| 日韩区欧美国产区在线观看| 露脸一二三区国语对白| 国产日韩欧美中文| 国产男女XX00免费观看| 亚洲国产清纯| 亚洲欧美自拍一区| 成人国产精品2021| 国产在线第二页| 五月婷婷综合网| 伊人色在线视频| 婷婷综合在线观看丁香| 欧美日韩高清| 国产激情在线视频| 国产正在播放| 亚洲AV无码久久精品色欲| 国产99在线观看| 国产综合在线观看视频| 91精品视频在线播放| 97视频免费在线观看| 福利片91| AV老司机AV天堂| 沈阳少妇高潮在线| 成人一级黄色毛片| 欧美日韩国产高清一区二区三区| 四虎国产在线观看| 日韩视频免费| 波多野结衣中文字幕一区二区 | 国产亚洲精品97AA片在线播放| 国产亚洲精品在天天在线麻豆| 制服丝袜在线视频香蕉| 国产欧美亚洲精品第3页在线| 国产区免费| 性欧美在线| 久久人人爽人人爽人人片aV东京热| 狠狠色综合久久狠狠色综合| 色婷婷综合激情视频免费看 | 高潮毛片免费观看| 成人综合在线观看| 婷婷六月天激情| 亚洲欧美综合精品久久成人网| 亚洲男人的天堂久久香蕉网| 亚洲中文字幕23页在线| 国产亚洲精品无码专| 免费国产好深啊好涨好硬视频| 国产成人乱码一区二区三区在线| 91网红精品在线观看|