999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度強化學習的端到端無人機避障決策

2022-11-08 09:07:02張云燕魏瑤劉昊楊堯
西北工業大學學報 2022年5期
關鍵詞:深度動作環境

張云燕, 魏瑤, 劉昊, 楊堯

(1.西北工業大學 電子信息學院, 陜西 西安 710072; 2.西北工業大學 航天學院, 陜西 西安 710072;3.西北工業大學 無人系統技術研究院, 陜西 西安 710072)

小型多旋翼無人機因為其體積小、動作靈活、適宜在復雜環境下完成機動,從而廣泛應用于各種軍用以及民用領域。科學技術的發展,也使得針對無人機的導航指導與控制技術得到了更大提升。然而,在陌生環境中實時進行自主導航卻是極具挑戰性的問題。在結構不能確定、光線條件多變的未知三維環境中,實現自主規避障礙物仍然是亟待解決的問題[1]。

傳統的無人機避障算法[2-6]需要構建離線三維地圖,在全局地圖的基礎上以障礙點為約束,采用路徑搜索算法計算出最優路徑。有的避障算法[7-8]雖然避免了繁雜的地圖構建工作,但是需要手動調整大量的參數且機器人在避障的過程中不能利用避障經驗進行自我迭代。隨著機器學習的發展,研究人員將有監督學習引入無人機的避障之中,將避障看作是一個基于監督學習[9]的分類問題,但需要對每個樣本標簽進行標注,這樣無疑費時費力。在無人機避障過程中,如何能夠充分利用無人機三維空間信息,避免環境構建工作,簡化算法模型,提升無人機自主避障能力以及無人機避障效率,最終實現無人機更加安全高效地到達指定目的地仍然是目前需要解決的問題。

隨著機器學習的發展,強化學習[10]被科研人員應用于無人機的控制之中。強化學習主要通過與外界交互來優化自身的行為,它比傳統機器學習更具優勢:①訓練前不需要對數據進行標注處理,能更有效地解決環境中存在的特殊情況;②可把整個系統作為一個整體,實現端到端輸入輸出,從而使其中的一些模塊具有更強的魯棒性;③強化學習與其他機器學習方法相比較更容易學習到一系列行為。 因此,使用強化學習算法的優勢在于不依賴于傳統非機器學習所需要的離線地圖,以及監督學習所需要的人工標注的數據集,通過深度學習模型學習輸入數據和輸出動作的映射關系,使智能體具備處理高維連續空間下的決策問題的能力,避免復雜離線地圖構建工作。

基于此,本文以三維環境下無人機避障問題為研究對象,研究了在含有建筑、樹木、車輛等靜態障礙物的陌生環境下,通過實時感知周圍環境信息實現端到端的避障決策控制。本文的主要貢獻在于:根據無人機探測能力、場景復雜度和障礙物的幾何特性等因素,設計了 3DVFH[11]算法,利用無人機的探測視場角來約束速度范圍,在三維環境內直接進行無人機路徑規劃,避免三維空間信息的缺失問題;針對3DVFH算法中速度控制不連續和速度方向選擇受限的問題設計了DDPG[12]網絡處理連續狀態空間并輸出連續控制變量。其中狀態空間僅為深度圖像數據和位置信息,易遷移至實際場景中,并且根據深度圖像數據和無人機通過窗口定義價值函數提升算法收斂率,避免算法產生冗余陷入局部最優;最后,分別在仿真環境及實際環境中對2組避障算法進行測試。測試結果表明2組避障算法均可實現避障功能,并且DDPG算法優化了飛行軌跡,縮短了飛行距離,提高飛行的安全性,具有一定的應用價值。

1 算法原理

1.1 基于3DVFH的無人機避障

3DVFH算法由Vanneste等于2014年提出,該算法將二維向量場直方圖應用于無人機三維飛行場景之中。算法假設無人機探測范圍是以無人機中心為球心,直徑為du的球面,以方位角α和俯仰角β作為橫縱坐標,單位角δ為間隔,將球體內的障礙物信息轉換為二值化的二維極坐標直方圖,如圖1所示,二值化結果用于判斷區域能否通過。算法以與目標點夾角、最小避障角度以及與當前速度夾角作為權重,最終確定無人機避障方向。

圖1 二維極坐標直方圖轉換

3DVFH算法以柵格化的形式將無人機周圍空間的障礙物信息進行降維處理,適合在復雜場景中應用,算法實現較為簡單。但在實際應用中存在以下2個問題:

1) 根據3DVFH的原理和步驟可以看出,算法以建立在無人機中心的三維極坐標系為基礎,輸出下一步的運動方向,由當前運動姿態轉換到該運動方向的線速度、角速度等這類動態信息均無法給出,速度連續性較差,會導致軌跡不夠平滑,且難以進行軌跡優化。

2) 3DVFH使用了障礙物柵格相對無人機中心的方位來直接限定運動方向,使用了障礙物柵格距無人機中心的距離計算權重,間接反映距離對運動的影響程度。但由于極坐標直方圖的二值化過程受閾值影響極大,會損失完整的距離信息。這導致閾值難以調參,使得無人機難以接近靠近障礙物的位置,因為這些方向被提前排除。減小直方圖通過窗口可以在一定程度緩解該問題,但同時也會降低無人機避障安全性。

1.2 基于DDPG的無人機避障

為了解決1.1節中3DVFH算法使得無人機速度連續性差、避障軌跡不平滑問題,引入基于無人機視覺輸入的、具有連續動作輸出的深度強化學習方法來優化無人機避障軌跡,提高避障安全性。無人機的避障決策問題可以認為是在連續動作空間中的控制問題。DDPG采用了DQN(deep q-network深度Q網絡)的思想和基于行動者-評論家[13](Actor-Critic)的算法結構,可以用來處理連續動作空間中的決策訓練問題,其基于深度學習的部分使深度強化學習中的網絡參數通過深度神經網絡進行擬合與泛化,其策略梯度算法可以使智能體在連續的動作空間里依照學習結果選擇合適的機動策略,并以確定性來避免策略梯度隨機選擇動作策略。

傳統的DQN強化學習算法,盡管解決了高維的環境觀察空間問題,卻只能處理離散和低維的動作空間。因為它依賴于尋找使動作值函數最大化的動作,在連續值的情況下,需要在每一步進行迭代優化,從而導致離散動作數量爆炸。在連續的動作場景下,即需要智能體(無人機)的動作進行連續變化時,DDPG采用 Actor-Critic網絡結構,并在Actor網絡最后的輸出層加入tanh激活層使得動作輸出限制在[-1,1]之間,并根據需要進行縮放,保證輸出為一個具體的浮點數,從而對智能體進行連續動作控制。在確定性策略的情況下沒有概率的影響,當神經網絡的參數固定下來的情況下,對于輸入的同一個狀態,必然只會輸出同樣的動作。

因此,本文將深度確定性策略梯度強化學習算法應用于無人機避障決策過程,以提高無人機動作連續性,平滑運動軌跡,實現避障決策優化。

1.2.1 DDPG算法原理

本文中,將無人機的觀察信息即當前時刻無人機得到的深度圖片以及無人機與目標之間的距離共同組合成為該時刻的狀態信息st輸入至神經網絡。Actor網絡根據無人機此時狀態向無人機提供相應的動作at,無人機執行該動作與環境進行交互并根據此時得到的下一個狀態s′獲得獎勵。無人機的目標便是通過學習最優策略π:S→A,來最大化累積折扣獎勵Rt。

(1)

式中:rt為當前時刻無人機做出動作at與環境交互后得到的獎勵值;γ為折扣因子。

DDPG采用具有連續動作空間的Actor-Critic網絡結構,網絡部分由Actor網絡μ(s|θμ)、Actor網絡對應的Actor目標網絡μ′(s|θμ′)、Critic網絡Q(s,a|θQ)、Critic網絡對應的Critic目標網絡Q′(s,a|θQ′),其中θμ,θμ′,θQ,θQ′分別為對應網絡的網絡參數。

Critic網絡根據當前狀態動作來逼近計算動作極值函數,其更新方式與DQN相似,通過最小化損失函數學習最優動作價值函數。如公式(2)所示,為Critic網絡的損失函數計算方法

(2)

Actor網絡確定性地將狀態st映射到動作at,即基于當前環境狀態給出無人機確定性動作策略。Actor網絡依賴于Critic網絡所給出的Q值估計,通過梯度上升對其網絡參數θμ′進行更新。

為了避免自舉算法過高估計價值函數,DDPG采用軟目標更新策略,利用Actor目標網絡μ′(s|θμ′)和Critic目標網絡Q′(s,a|θQ′)來計算目標價值。Actor目標網絡、Critic目標網絡的更新方式為如公式(4)所示,其中τ為滑動平均系數,其取值通常小于1。

(4)

1.2.2 網絡結構設計

DDPG所采用的Actor-Critic結構如圖2所示,2個網絡的交互過程為:智能體感知得到所處環境的狀態信息,Actor網絡根據此時的狀態信息通過策略梯度計算出動作策略,智能體執行動作通過環境得到獎勵以及下一個狀態信息,該過程是與環境的一次完整交互過程。Critic網絡根據獎勵值計算當前狀態、下一狀態的動作價值函數并根據ΔTD error(ΔTD error為Critic網絡所估計當前狀態Q值與目標Q址網線所估計下一狀態Q值之差)進行更新,然后行動者網絡沿著最大化Critic網絡計算的Q值方向進行更新。該網絡結構能夠在單步更新參數的同時控制連續變量,并借鑒了DQN算法的經驗回放(experience replay)機制,從經驗回放池中隨機采樣,打亂狀態之間的相關性,加快收斂速度,提高數據利用率。

圖2 Actor-Critic架構

本文采用的Actor和Critic網絡具體結構如圖3所示。Actor網絡通過輸入此時無人機狀態信息 ,從而給出無人機基于該狀態的動作 。其中Actor網絡由2個全連接層搭建形成,每層神經元個數分別為300,600。各隱藏層間使用ReLU激活函數,輸出層使用tanh激活函數規范無人機速度和旋轉角速度,輸出范圍為(-1,1)從而保證輸出的無人機動作為一個連續變化值。Actor目標網絡結構與此相同。

Critic網絡分為兩部分,分別為對狀態信息的處理以及對動作信息進行處理,輸出為該時刻無人機的狀態動作價值函數Q(st,at),用來評價無人機基于此時狀態給出動作的好壞。Q(st,at)動作價值函數越高表明在在該狀態下Actor網絡所選取的動作越好。其中狀態信息st經過2個全連接層后得到特征,與動作at通過一個隱藏層后得到的特征逐級相加,通過最后的全連接層輸出Q值。

整個DDPG算法網絡結構如圖4所示,DDPG算法包括4個網絡,分別是Actor網絡、Actor目標網絡、Critic網絡、Critic目標網絡。其中Actor具體網絡結構、Critic網絡結構如圖3a)~3b)所示,Actor目標網絡、Critic目標網絡分別與Actor網絡、Critic網絡結構保持一致,但網絡參數由超參數τ和Actor網絡、Critic網絡參數共同實現更新。

圖3 Actor-Critic結構圖

圖4 DDPG算法結構圖

·Actor網絡:基于目前的狀態s選擇合適的動作a,更新策略網絡參數θμ,從而生成與環境相關的(s′,r);

·Actor目標網絡:基于從經驗池中抽取的下一個狀態s′,選擇下一個合適的動作a′并保證其為最優,θμ′則每隔一段時間從θμ更新;

·Critic網絡:負責價值網絡參數θQ的迭代更新,負責計算當前Q值Q(s,a|θQ)。對于第i次迭代,目標Q值Q∧=r+rQ′(s′,a′|θQ′);

·Critic目標網絡:負責計算目標Q值中的Q′(s′,a′|θQ′)部分。網絡參數θQ′定期從θQ復制。

1.2.3 DDPG算法設計

1) 圖像預處理

本文選用深度攝像機成像分辨率為640×480,FOV約為80°×60°,取特征向量大小為16×16,去除圖像邊緣八像素寬度以定位圖像中心,并將深度圖像縮放處理,最終得到39×29分辨率的處理后圖像(如圖 5所示),其單個像素對應2°×2°的視場角。為保留距無人機最近的障礙物信息,每個像素點灰度取縮小前對應區域內的最小值。

圖5 深度圖像處理示意圖

深度攝像機的有效探測范圍為10 m,取7 m為避障響應距離,該距離對應灰度值約為178。圖像二值化過程與3DVFH算法一致,對于處理后圖像,灰度值低于178的像素點Hb=1,高于178的像素點Hb=0。

對于通過窗口的確定,根據本文所選無人機尺寸和深度探測范圍,選擇距無人機中心7 m,寬×高為2 m×1 m的區域作為通過窗口范圍,根據視場角換算并縮小處理,得到像素大小約為9×5的區域,如圖6所示。

圖6 圖像處理結果

2) 狀態空間建模

狀態空間S中包含了環境中智能體的屬性和信息, 并以此為依據來選取要執行的動作。為了實現無人機的避障,需要獲取的信息分別為:無人機采集得到深度圖像二值化結果Hb(i,j)、與目標點的距離Dt{dx,dy,dz}和碰撞標記Scol,具體內容見表1。

表1 狀態空間表

3) 動作空間設計

DDPG算法可以處理動作連續情況下的決策問題,此處選擇無人機的2個狀態:速度v(m/s)以及偏航角速度ωz(rad/s)作為主要動作,以避免利用位置信息需要全局定位的問題,具體內容見表2。在此,把速度和角速度進行映射處理,再進行計算,使它們的值更適用于神經網絡。

表2 動作空間表

4) 獎勵函數設計

表3 獎勵函數表

1.2.4 算法實現步驟

算法實現步驟如下:

輸入:Actor網絡、Actor目標網絡、Critic網絡、Critic目標網絡參數(θμ,θμ′,θQ,θQ ′),折扣因子γ、軟更新系數τ、批量梯度下降的樣本數m、目標網絡參數更新頻率C、最大迭代次數T、隨機噪聲函數N。

輸出:最優Actor網絡參數θμ,Critic網絡參數θQ。

步驟1 隨機初始化θμ,θQ′=θQ,θQ,θμ′=θμ。清空經驗回放集合D;

步驟2 對i從1到T,循環執行以下步驟:

①初始化S為當前狀態序列的第一個狀態,得到其特征向量φ(S)。

②在Actor網絡基于狀態S得到動作A=μ(φ(S)|θμ)+N。

③執行動作A,得到新狀態S′,獎勵R,終止狀態標志is-end。

④將五元組{φ(S),A,R,φ(S′),is-end}存入經驗回放集合D。

⑤令S=S′。

⑦更新Critic網絡參數θQ。

⑧更新Actor網絡參數θμ。

⑨若T%C=1(表明此時C能夠被T整除,網絡按照該頻率更新Critic目標網絡和Actor目標網絡參數),更新Critic目標網絡和Actor目標網絡參數。

⑩若S′為終止狀態,本輪循環結束,否則轉到步驟②繼續訓練。

表4 參數配置表

2 仿真及實驗研究

2.1 仿真實驗場景

微軟公司開源了一個用于無人機模擬測試的高仿真軟件AirSim[14]。該軟件依賴于虛幻引擎可以提供逼真的測試場景,并模擬其動力傳感(如圖7所示)。AirSim支持開源和跨平臺開發,因此本文選用AirSim作為仿真系統的基礎,開展無人機避障算法研究。

圖7 AirSim仿真效果圖

仿真場景試驗在仿真計算機中完成,計算機軟件配置:Window10CUDA10.1,tensorflow2.3.0,Python3.7。

仿真場景的復雜度較高,俯視圖方向能較為直觀地展現無人機飛行軌跡(圖8為本次仿真場景左透視圖)。同時為保留障礙物高度信息,本文對仿真場景俯視圖進行深度化處理,令障礙物高度對應障礙物投影的灰度值,灰度值越低,表示障礙物越高,效果如圖9b)所示。同時,為提升DDPG算法訓練速度,將仿真場景約束為圖9a)所示的100m×100m范圍內,當無人機飛出該范圍視為發生碰撞。

圖8 仿真場景左透視圖

圖9 俯視圖處理效果

2.2 仿真場景測試

DDPG的算法實驗過程如圖10所示,當無人機獲取的深度圖像信息為圖10b)時,經由算法處理得到的二值化極性直方圖為圖10c),根據當前速度方向對應的通過窗口區域進行獎勵函數區域計算。對于圖10c)的二值化結果,若當前速度指向正前方,則當前深度圖像代表狀態的獎勵由圖10d)的紅框區域確定,此時,無人機處于sfree狀態。

圖10 DDPG算法狀態獎勵計算過程

無人機訓練過程如圖11所示,其中Cumreward為每一訓練回合的累積獎勵值,Meanreward為趨勢線,表明每十個回合獎勵值的平均值擬合曲線。本次訓練共計9 000次,從圖中可以看出隨著訓練次數增加,累積獎勵和平均獎勵都在逐漸增加,并且保持相對穩定。在前2 000次訓練過程中,無人機處于探索狀態因此其平均獎勵均小于0,但隨著后期神經網絡開始訓練,其累積獎勵在逐步提升并保持在100左右附近,表明此時無人機已經能夠躲避障礙物并且安全到達指定地點。需要注意的是,可能在訓練過程中出現無人機無法到達目標點的現象,由于無人機的探索率是隨著訓練次數遞減的,因此,該現象是正常的,并不影響最終無人機躲避障礙物到達指定目標點的能力。并且由于探索階段無人機只進行探索,其對應的神經網絡并不進行梯度更新,此時網絡輸出的策略動作可能會在相鄰的2個控制周期內出現突變。自由探索階段是為了將更多的訓練信息存入經驗回放池中,從而保證在后續的網絡訓練階段,神經網絡可以更快學習得到好的策略。此時的動作突變并不會對無人機的訓練產生影響。當神經網絡開始訓練時,Actor網絡會沿著使Critic網絡給出更高Q值的方向進行梯度更新。隨著網絡的訓練收斂,策略所輸出動作在2個相鄰的控制周期中出現突變的可能性會越來越小。在神經網絡參數固定情況下,對于輸入的同一個狀態,必然只會輸出同樣的動作,在相鄰的2個周期內所輸出的動作便不會發生異常突變。

圖11 DDPG算法訓練過程

圖12 DDPG算法測試結果

為更好地展現所提出的算法性能,首先將訓練得到的算法在同樣的環境下進行了100次測試,測試結果如圖 12所示。由于獎勵函數設置為當無人機產生碰撞時獎勵值為-50,因此當累積獎勵大于0時表明無人機均可以躲避掉障礙物。當無人機的累積獎勵值大于100時表明此時無人機能夠躲避掉所有障礙物并到達指定位置。綜上所述,在100次測試結果中,有90次均為成功,無人機躲避障礙物成功率高達90%,同時本次測試的平均獎勵值為95。

在此基礎上,將DDPG算法在測試環境中無人機的運動軌跡與基于3DVFH的避障算法在同樣的仿真場景中軌跡進行對比,2種算法試驗結果的俯視圖如圖13所示。2種算法起始點與目標點位置設置相同,各試驗5次,其中,圖13a)為DDPG算法9 000次迭代后效果。對比結果明顯展現出DDPG算法飛行軌跡的平滑度高于3DVFH算法,這同時縮短了飛行距離,提高了避障效率。

圖13 仿真結果對比

2.3 真實場景測試

針對無人機避障需求,本文確定以“大疆M600pro六旋翼無人機+RealSenseD435i深度攝像機+妙算Manifold2機載計算機”組合成完整硬件系統進行試驗測試。其中試驗無人機和深度攝像機如分別圖14~15所示。

圖14 試驗所用無人機 圖15 Intel D435i 深度攝像頭

在真實場景試驗前,為了保證測試效果,提高試驗安全性,需完成以下幾個步驟:首先,測試無人機飛控在Onboard模式下的坐標系及飛行速度誤差,以修正算法的控制效果,提高控制精度,縮小控制效果與仿真場景的差異;其次,確定結合RealSenseD435i深度攝像機實測時的試驗保險措施。真實環境往往比仿真環境更為復雜,當傳感器發生異常,輸出錯誤的探測信息可能導致無人機發生撞擊。應設置緊急懸停功能防止這類事故發生;最后,將避障系統與無人機平臺相結合,觀察算法在實際飛行中的過程,并進行適當調整,以達到預期效果。

2.3.1 3DVFH算法實際驗證

在實測環境中,無人機根據3DVFH算法實現避障的過程如圖16所示。由于3DVFH算法對速度控制的不連續性,因此當避開障礙物后,速度的突變會導致無人機產生擺動,表現為圖16d)~16e)過程。從圖16a)~16f)為發現障礙物、調整前進方向以躲避障礙物并最終避開障礙物的部分過程。

圖16 3DVFH算法實際避障過程

2.3.2DDPG算法實際驗證

經過實測表明本文所設計算法其網絡計算效率滿足實時控制要求,避障算法生成避障控制指令的控制周期為55ms。圖17為在實測環境中,無人機根據DDPG算法實現避障的過程。在DDPG算法中,無人機避障時所采取的避障策略均來自仿真環境的訓練結果。在該算法中,可明顯看出當發現障礙物時,無人機會放慢前進速度進行避障,當避開障礙物后繼續高速向前飛行。圖17a)~17f)為發現障礙物、調整前進方向以躲避障礙物并最終避開障礙物的部分過程。

圖17 DDPG算法實際避障過程

2.3.3 試驗結果對比

為直觀展現2種算法在實測中的效果,試驗設置了高空無人機視角拍攝完整飛行過程,2種算法的避障過程如圖18所示。試驗表明,網絡的計算效率滿足實際控制要求。其中,藍色為3DVFH算法飛行軌跡,在避障結束段有明顯擺動痕跡;紅色為DDPG算法飛行軌跡,整體較為平滑。

圖18 高空視角下的無人機避障過程

3 結 論

本文以無人機在未知三維環境中對靜態障礙物的智能規避為研究背景,使用六旋翼無人機,在無全局地圖信息的條件下,采用深度圖像感知方案,對無人機避障硬件平臺、無人機避障仿真系統、深度強化學習避障算法和傳統無人機避障算法進行了研究。

本文根據無人機探測能力、場景復雜度和障礙物的幾何特性等因素,結合無人機探測視場角約束速度范圍設計了3DVFH算法,在三維環境直接進行無人機路徑規劃。針對3DVFH這類傳統算法速度連續性差、避障軌跡不平滑問題本文引入深度強化學習中的DDPG算法,建立了基于DDPG算法的端到端決策控制模型。通過訓練表明,在進行了4 000個episode后算法收斂,無人機學習得到了避障能力。在此基礎上,將訓練收斂的DDPG算法模型在仿真環境中進行測試,測試表明無人機躲避障礙物成功率高達90%。

分別將3DVFH算法和DDPG算法避障軌跡在仿真環境和實際環境中進行測試,實踐表明3DVFH算法在避障結束階段有明顯擺動痕跡,DDPG算法優化平滑了飛行軌跡,縮短了飛行距離,提高飛行的安全性,具有一定的應用價值。

猜你喜歡
深度動作環境
長期鍛煉創造體內抑癌環境
一種用于自主學習的虛擬仿真環境
深度理解一元一次方程
孕期遠離容易致畸的環境
深度觀察
深度觀察
環境
深度觀察
動作描寫要具體
畫動作
主站蜘蛛池模板: 91精品国产丝袜| 91无码人妻精品一区| 久久国产亚洲欧美日韩精品| 欧美在线一二区| 中文字幕亚洲精品2页| 亚洲中文字幕久久无码精品A| 色天天综合| 一区二区三区在线不卡免费| 免费国产不卡午夜福在线观看| 黄色网站不卡无码| 欧美国产日韩在线播放| 国产免费好大好硬视频| 性视频久久| 国内丰满少妇猛烈精品播 | 日本免费一区视频| 亚洲色欲色欲www在线观看| 欧美在线三级| 中国国产高清免费AV片| 毛片a级毛片免费观看免下载| 干中文字幕| 欧美成人午夜影院| 啪啪啪亚洲无码| 91精品国产丝袜| 亚洲精品无码在线播放网站| 视频二区中文无码| 午夜精品福利影院| 极品国产在线| 国产簧片免费在线播放| 欧美日韩国产在线播放| 九九视频免费看| 97视频精品全国在线观看 | 国产成人h在线观看网站站| 国产精品任我爽爆在线播放6080| 国产最新无码专区在线| 亚洲色图另类| 在线免费不卡视频| 国产视频自拍一区| 国产女人爽到高潮的免费视频 | 波多野衣结在线精品二区| 国产91av在线| 久久久久九九精品影院 | 精品国产成人a在线观看| 99偷拍视频精品一区二区| 91在线免费公开视频| 99在线国产| 欧美色图第一页| 欧美另类精品一区二区三区| 欧美在线中文字幕| 亚洲乱码视频| 欧美午夜理伦三级在线观看| 亚洲电影天堂在线国语对白| 欧美啪啪精品| 色欲色欲久久综合网| 精品欧美日韩国产日漫一区不卡| 99热这里只有精品免费| 国产成人亚洲无吗淙合青草| 福利一区在线| 国产日韩欧美一区二区三区在线 | 色老二精品视频在线观看| 亚洲成在人线av品善网好看| 99资源在线| 国产办公室秘书无码精品| 国产日韩欧美精品区性色| 91人妻在线视频| 欧美激情视频在线观看一区| 亚洲国产精品日韩av专区| 第一区免费在线观看| 日韩无码黄色网站| 91久久国产综合精品| 国产成年无码AⅤ片在线| 国产制服丝袜91在线| 91日本在线观看亚洲精品| 伊人久久福利中文字幕| 国产成人精品在线| 国产 在线视频无码| 免费一级毛片| 2021国产乱人伦在线播放| 在线观看91精品国产剧情免费| 国产熟女一级毛片| 亚洲视屏在线观看| 亚洲色图欧美视频| 97在线国产视频|