999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向說(shuō)話(huà)人日志的多原型驅(qū)動(dòng)圖神經(jīng)網(wǎng)絡(luò)方法

2025-08-03 00:00:00毛青青賈洪杰朱必松
關(guān)鍵詞:集上日志原型

Multi-prototype driven graph neural network for speaker diarization

Abstract:Recently,theutilizationof graphneuralnetwork forsesson-levelmodelinghasdemonstrateditseficacyforspeakerdiarization.However,mostof existing variantssolelyrelyonlocalstructure information,gnoringtheimportanceof global speakerinformation,whichcannotfullycompensateforthelackof speakerinformationinthespeakerdiarizationtask.This paper proposedamulti-prototypedriven graphneuralnetwork(MPGNN)forrepresentationlearning,whichefectivelycombined local and global speaker information within each session and simultaneously remaps X -vector to a new embedding space that was moresuitableforclustering.Specifically,,the designof prototypelearning withadynamicandadaptive approach wasacritical component,where more accurateglobal speaker informationcould becaptured.Experimentalresultsshowthatthe proposed MPGNN approach significantly outperforms the baseline systems,achieving diarization error rates(DER)of 3.33% , 3.52% , (204號(hào) 5.66% ,and 6.52% on the AMI_SDM and CALLHOME datasets respectively.

Keywords:speakerdiarization;graphneural network;local structure information;global speaker information;multiprototype learning

0 引言

說(shuō)話(huà)人日志(speakerdiarization,SD)的目標(biāo)是解決“誰(shuí)在何時(shí)說(shuō)話(huà)”的問(wèn)題,即在給定的包含多個(gè)說(shuō)話(huà)人交流的長(zhǎng)音頻信號(hào)中,同時(shí)實(shí)現(xiàn)說(shuō)話(huà)人識(shí)別和說(shuō)話(huà)人定位。近年來(lái),說(shuō)話(huà)人日志技術(shù)的有效研究已經(jīng)廣泛應(yīng)用于多個(gè)場(chǎng)合,如會(huì)議記錄、來(lái)電角色劃分、語(yǔ)音搜索引擎、在線視頻特定說(shuō)話(huà)人檢索等。

縱觀說(shuō)話(huà)人日志領(lǐng)域多篇綜述性論文[1.2],主流的研究方向大致可以分成兩大類(lèi),即基于聚類(lèi)的多模塊級(jí)聯(lián)學(xué)習(xí)方法和端到端的神經(jīng)網(wǎng)絡(luò)方法。2018年深度學(xué)習(xí)技術(shù)的興起,給予端到端的說(shuō)話(huà)人日志方法極大的發(fā)展,使其在某些條件受限的情況下表現(xiàn)出較為優(yōu)越的性能。但隨著CHiME-5/6、DIHARD-1/2/3、VoxSRC-20/21/22/23等挑戰(zhàn)賽的發(fā)布,說(shuō)話(huà)人日志領(lǐng)域的研究開(kāi)始著力于解決真實(shí)的場(chǎng)景問(wèn)題。而基于聚類(lèi)的多模塊級(jí)聯(lián)學(xué)習(xí)方法相比端到端方法,能更好地處理復(fù)雜場(chǎng)景下的長(zhǎng)音頻和未知說(shuō)話(huà)人情況,是當(dāng)下比較熱門(mén)的研究方向。

基于聚類(lèi)的說(shuō)話(huà)人日志方法旨在將每個(gè)會(huì)話(huà)中的多個(gè)說(shuō)話(huà)人精確地定位并識(shí)別。其處理流程通常包括一系列步驟:語(yǔ)音活動(dòng)檢測(cè)[3.4]、語(yǔ)音段分割[5.6]、說(shuō)話(huà)人嵌入提取[7.8]、聚類(lèi)[9,10]和后處理[11]。基于聚類(lèi)的說(shuō)話(huà)人日志方法作為級(jí)聯(lián)學(xué)習(xí)方法的一種,好的短切分說(shuō)話(huà)人表征直接影響最后的聚類(lèi)效果,因此目前研究熱點(diǎn)主要集中在基于固定短切分的說(shuō)話(huà)人嵌入優(yōu)化上。說(shuō)話(huà)人嵌入特征的提取通常依賴(lài)于預(yù)訓(xùn)練模型,將語(yǔ)音片段轉(zhuǎn)換為固定維度的特征空間,如i-vector或X-vector[8]。然而,在說(shuō)話(huà)人日志任務(wù)中使用這些預(yù)訓(xùn)練的說(shuō)話(huà)人模型存在兩個(gè)主要問(wèn)題。一方面,預(yù)訓(xùn)練模型特征設(shè)計(jì)不同于說(shuō)話(huà)人日志任務(wù),很可能引入冗余和不相關(guān)的信息。另一方面,說(shuō)話(huà)人日志需要較短的片段(0.5\~2.0s)以準(zhǔn)確定位說(shuō)話(huà)人變化點(diǎn),預(yù)訓(xùn)練的說(shuō)話(huà)人模型可能無(wú)法提供足夠的說(shuō)話(huà)人特定信息。因此,基于聚類(lèi)的說(shuō)話(huà)人日志體系最為關(guān)鍵的組成部分就是在固定短切分框架下,對(duì)說(shuō)話(huà)人嵌入進(jìn)行優(yōu)化。

近年來(lái),圖神經(jīng)網(wǎng)絡(luò)(graphneuralnetwork,GNN)在會(huì)話(huà)級(jí)別建模中的應(yīng)用已顯示出其在說(shuō)話(huà)人嵌入優(yōu)化方面的有效性,例如使用圖神經(jīng)網(wǎng)絡(luò)進(jìn)行會(huì)話(huà)級(jí)別的說(shuō)話(huà)人嵌入細(xì)化方法[12]、基于多尺度說(shuō)話(huà)人嵌入的圖注意力網(wǎng)絡(luò)方法[13]以及基于圖神經(jīng)網(wǎng)絡(luò)對(duì)說(shuō)話(huà)人嵌入和聚類(lèi)進(jìn)行聯(lián)合優(yōu)化的基于社區(qū)檢測(cè)的圖卷積網(wǎng)絡(luò)方法(communitydetectiongraphconvolutionalnetwork,CDGCN)[14]、有監(jiān)督層次圖聚類(lèi)方法(supervised hierar-chical graph clustering,SHARC)[15]。這些方法的主要思想是先為每個(gè)片段提取固定維度的嵌人,然后利用親和度矩陣來(lái)迭代學(xué)習(xí)每個(gè)會(huì)話(huà)內(nèi)相鄰片段之間的局部特征。盡管這些方法提升了特定會(huì)話(huà)的理解能力,但它們僅僅依賴(lài)于局部結(jié)構(gòu)信息而忽略全局說(shuō)話(huà)人信息的重要性,最終限制了其整體性能的有效性。之后,基于圖注意力的深度嵌入聚類(lèi)(graphattentionbaseddeep embedded clustering,GADEC)[16]打破了上述局限,它利用高階鄰居來(lái)探索全局信息。然而,這種方法受到圖注意力層數(shù)的限制,不僅增加了計(jì)算開(kāi)銷(xiāo),同時(shí)引入了無(wú)法避免的鄰居噪聲。

最近一種使用多原型學(xué)習(xí)的圖像聚類(lèi)方法[1突破了上述問(wèn)題的限制。類(lèi)原型在圖形結(jié)構(gòu)上學(xué)習(xí)節(jié)點(diǎn)表示可以促進(jìn)來(lái)自遠(yuǎn)程節(jié)點(diǎn)的信息交流,從而有效捕獲全局相關(guān)性。受此啟發(fā),本文提出了一種面向說(shuō)話(huà)人日志的多原型驅(qū)動(dòng)圖神經(jīng)網(wǎng)絡(luò)方法(multi-prototype driven graph neural network for speaker dia-rization,MPGNN)。該方法在擴(kuò)展說(shuō)話(huà)人原型概念的基礎(chǔ)上,提出了一種全新的基于圖神經(jīng)網(wǎng)絡(luò)的動(dòng)態(tài)自適應(yīng)多原型學(xué)習(xí)過(guò)程。該過(guò)程既能避免GADEC方法中高階鄰居帶來(lái)的計(jì)算開(kāi)銷(xiāo)和噪聲影響,還能有效引入全局說(shuō)話(huà)人信息,彌補(bǔ)說(shuō)話(huà)人日志任務(wù)中固定短切分框架下說(shuō)話(huà)人嵌入信息不足等問(wèn)題。

本文的主要貢獻(xiàn)概括如下:

a)提出一個(gè)基于圖神經(jīng)網(wǎng)絡(luò)的動(dòng)態(tài)自適應(yīng)多原型學(xué)習(xí)模塊,在避免多層圖神經(jīng)網(wǎng)絡(luò)帶來(lái)計(jì)算開(kāi)銷(xiāo)和噪聲影響的同時(shí),能有效獲取全局說(shuō)話(huà)人信息。b)提出一種基于注意力機(jī)制的特征融合方法,有助于探索局部相關(guān)性和說(shuō)話(huà)人全局信息之間的相互交互,以實(shí)現(xiàn)針對(duì)特定會(huì)話(huà)的說(shuō)話(huà)人表征學(xué)習(xí)。c)提出的MPGNN方法在AMI_SDM和CALLHOME數(shù)據(jù)集上分別達(dá)到了 3.33%.3.52%.5.66% 和 6.52% 的說(shuō)話(huà)人日志錯(cuò)誤率。該方法顯著優(yōu)于基線系統(tǒng),并且在大部分情況下,甚至超過(guò)了最先進(jìn)(SOTA)方法。

1本文方法

本章將詳細(xì)介紹所提出的面向說(shuō)話(huà)人日志的多原型驅(qū)動(dòng)圖神經(jīng)網(wǎng)絡(luò)方法MPGNN,具體實(shí)現(xiàn)方法如算法1所示。給定一個(gè)會(huì)話(huà)音頻,通過(guò)語(yǔ)音活動(dòng)檢測(cè)過(guò)濾非語(yǔ)音片段后,將語(yǔ)音片段固定切分成1.5s長(zhǎng),0.75s重疊的短片段。隨后,利用預(yù)訓(xùn)練模型作為說(shuō)話(huà)人編碼器來(lái)提取固定維度的說(shuō)話(huà)人嵌入X={x1,x2,…,xN|xi∈RD} ,其中 N 表示每個(gè)會(huì)話(huà)中音頻片段的數(shù)量, xi 表示第 i 個(gè)音頻片段的聲紋嵌入, D 表示嵌入空間的維度。最后,這些嵌人作為輸入應(yīng)用于MPGNN模型對(duì)說(shuō)話(huà)人表征進(jìn)行優(yōu)化,并輸出重構(gòu)親和矩陣進(jìn)行無(wú)監(jiān)督說(shuō)話(huà)人聚類(lèi)。

算法1 MPGNN

輸入:說(shuō)話(huà)人嵌入 X ;會(huì)議數(shù),最近鄰數(shù),說(shuō)話(huà)人數(shù)和原性數(shù) M,k c*,p* ;超參數(shù) μ,λ 。

輸出:預(yù)估的親和矩陣

while m=0 to M-1 do圖構(gòu)建: (204多原型學(xué)習(xí) (24號(hào)信息融合: (204號(hào)

endwhile

output:使用 σ(Hm,Hm) 預(yù)測(cè)

MPGNN的主要思想是為了探索特定會(huì)話(huà)下局部相關(guān)性和說(shuō)話(huà)人全局信息之間的有效交互,總體流程如圖1所示。其主要包括以下幾個(gè)關(guān)鍵模塊:圖構(gòu)建模塊、多原型學(xué)習(xí)模塊、信息融合與聯(lián)合優(yōu)化模塊。

圖1MPGNN框架Fig.1FrameworkofMPGNN

1.1語(yǔ)音片段關(guān)系圖構(gòu)建

參考近期說(shuō)話(huà)人日志領(lǐng)域中利用圖神經(jīng)網(wǎng)絡(luò)進(jìn)行會(huì)話(huà)級(jí)建模方法[12-16],根據(jù)聲紋嵌入間的余弦相似度或概率線性判別分析(probabilisticlineardiscriminantanalysis,PLDA)相似度[18構(gòu)建圖結(jié)構(gòu),將非結(jié)構(gòu)化嵌入轉(zhuǎn)換為結(jié)構(gòu)化圖形數(shù)據(jù)。考慮到初始圖結(jié)構(gòu)直接影響圖神經(jīng)網(wǎng)絡(luò)對(duì)于說(shuō)話(huà)人局部結(jié)構(gòu)信息的學(xué)習(xí)效果,本文對(duì)初始圖結(jié)構(gòu)進(jìn)行校準(zhǔn)。

1.1.1語(yǔ)音片段關(guān)系圖結(jié)構(gòu)初始化

首先,利用預(yù)訓(xùn)練編碼器提取每個(gè)會(huì)話(huà)中對(duì)應(yīng)語(yǔ)音片段的說(shuō)話(huà)人嵌入 X={x1,x2,…,xN|xi∈RD} 。將每一條語(yǔ)音片段作為圖節(jié)點(diǎn),語(yǔ)音片段對(duì)應(yīng)的說(shuō)話(huà)人嵌入作為節(jié)點(diǎn)嵌入,得到節(jié)點(diǎn)表示 V={vi|i=1,2,…,N} 。其中 N 表示特定會(huì)話(huà)中的語(yǔ)音片段數(shù), vi 表示第 i 條語(yǔ)音片段對(duì)應(yīng)的節(jié)點(diǎn)表示。然后,利用說(shuō)話(huà)人嵌入間的相似性建立節(jié)點(diǎn)間的關(guān)系表示 E={eij|i,j=1 ∣2,…,N} ,其中 eij 表示第 i 條語(yǔ)音片段和第 j 條語(yǔ)音片段之間對(duì)應(yīng)節(jié)點(diǎn)的相關(guān)性,其權(quán)重表示由親和矩陣 A∈RN×N 確定。

1.1.2語(yǔ)音片段關(guān)系圖結(jié)構(gòu)校準(zhǔn)

不同于基于余弦相似度或PLDA相似度構(gòu)建親和矩陣方法,本文受文獻(xiàn)[14]啟發(fā),舍棄了需要單獨(dú)訓(xùn)練的PLDA模型,本文在簡(jiǎn)單的余弦相似度基礎(chǔ)上,參考對(duì)領(lǐng)域信息進(jìn)行整合的相關(guān)工作[19],提出一個(gè)多步驟初始圖結(jié)構(gòu)校準(zhǔn)方法。

a)余弦相似度矩陣構(gòu)建。本文利用余弦相似度,構(gòu)造一個(gè) N×N 的相似度矩陣 s

其中: Sijcos 表示聲紋嵌入 xi 和 xj 之間的余弦相似度。

b)最近鄰選擇。通過(guò)近似最近鄰算法(approximatenearestneighbor,ANN)挑選與節(jié)點(diǎn) vi 最相近的 k 個(gè)最近鄰 N(vi,k)= {vi1,vi2,…,vik} 。為提升節(jié)點(diǎn) vi 和 N(vi,k) 中的元素同屬于一類(lèi)的可能性,將最近鄰集合 N(vi,k) 拓展為 vi 和 N(vi,k) 中的元素互為鄰居的新集合 R(vi,k) :

R(xi,k)={xj∣(xj∈N(xi,k))∧(xi∈N(xj,k))}

為避免一些特征空間上相似性較小的相同說(shuō)話(huà)人被排除在 K 近鄰之外,對(duì)集合 R(xi,k) 進(jìn)行擴(kuò)充:

?vj∈R(vi,k)

其中: 1?1 表示集合中的元素?cái)?shù)量; R*(vi,k) 表示包含更多同一說(shuō)話(huà)人語(yǔ)音節(jié)點(diǎn)的集合。

c)相似度重定義。本文重新定義了節(jié)點(diǎn) vi 和每個(gè)候選節(jié)點(diǎn) vj 之間的相似性度量,利用杰卡德相似性 Sijjac 來(lái)校準(zhǔn)簡(jiǎn)單余弦相似性 Sijcos 帶來(lái)的噪聲邊影響:

其中: λ 是一個(gè)平衡系數(shù),用于調(diào)整杰卡德相似度 Sijjac 和余弦相似度 Sijcos 的權(quán)重。

d)閾值過(guò)濾。參考前人工作[1,利用特征空間計(jì)算得到的相似度矩陣 s 往往包含大量弱連接邊,使用閾值過(guò)濾能獲得一個(gè)更有益于說(shuō)話(huà)人區(qū)分的圖結(jié)構(gòu)。

1.2動(dòng)態(tài)說(shuō)話(huà)人多原型學(xué)習(xí)

盡管好的圖結(jié)構(gòu)表示能為當(dāng)前表征帶來(lái)有效的局部結(jié)構(gòu)信息,但若依賴(lài)圖神經(jīng)網(wǎng)絡(luò)層數(shù)的增加來(lái)獲取全局信息,往往伴隨著鄰居噪聲點(diǎn)的干擾。MPGNN在擴(kuò)展說(shuō)話(huà)人原型概念的基礎(chǔ)上,提出了一種動(dòng)態(tài)自適應(yīng)多原型學(xué)習(xí)方法,在避免多層圖神經(jīng)網(wǎng)絡(luò)帶來(lái)的噪聲干擾同時(shí),以說(shuō)話(huà)人原型為導(dǎo)向,有效引入全局說(shuō)話(huà)人信息。整個(gè)多原型學(xué)習(xí)的過(guò)程主要包含多原型初始化和多原型更新,具體步驟如圖2所示。

圖2多原型學(xué)習(xí)過(guò)程 Fig.2Learning process of multi-prototype

1.2.1動(dòng)態(tài)說(shuō)話(huà)人多原型初始化

為解決預(yù)訓(xùn)練模型任務(wù)不匹配帶來(lái)的高維度信息冗余問(wèn)題,本文首先使用多層感知機(jī)(multilayerperceptron,MLP)將特定會(huì)話(huà)的節(jié)點(diǎn)表示 ,即初始的說(shuō)話(huà)人嵌入表示 X0 轉(zhuǎn)換到一個(gè)低維潛在空間并表示為 。接著,在給定說(shuō)話(huà)人類(lèi)別數(shù) c* 和說(shuō)話(huà)人原型數(shù) p* 的情況下,利用K-means無(wú)監(jiān)督聚類(lèi)算法來(lái)獲取初始的聚類(lèi)分布 C={Cc|c=1,2,… c* }。其中 c* 表示特定會(huì)話(huà)中的說(shuō)話(huà)人數(shù)量,即聚類(lèi)數(shù),而Cc∈RN′×D′ 表示包含 N' 個(gè)節(jié)點(diǎn)數(shù)和 p 特征維度的說(shuō)話(huà)人類(lèi)別c 最后,通過(guò)對(duì)每個(gè)說(shuō)話(huà)人類(lèi)別執(zhí)行平均池化操作,獲取每個(gè)類(lèi)別的初始說(shuō)話(huà)人中心表征 Xc'

由于單說(shuō)話(huà)人原型往往無(wú)法有效表示復(fù)雜的數(shù)據(jù)結(jié)構(gòu)[17],MPGNN以聚類(lèi)為指引進(jìn)行多原型的設(shè)計(jì),捕捉更加豐富的類(lèi)內(nèi)多樣性特征。在多原型學(xué)習(xí)初始化過(guò)程中,本文利用高斯分布 N(η,Σ) 進(jìn)行隨機(jī)采樣,其中 η 表示由說(shuō)話(huà)人中心表征 Xc 進(jìn)行初始化得到的均值, Σ 表示為隨機(jī)初始化得到的協(xié)方差。

1.2.2動(dòng)態(tài)說(shuō)話(huà)人多原型自適應(yīng)更新

在設(shè)計(jì)的特定聯(lián)合損失約束下,多原型 Pc={Pcp|p=1 2,…,p*} 伴隨著槽注意力機(jī)制的學(xué)習(xí)過(guò)程而不斷更新。其中p* 表示說(shuō)話(huà)人類(lèi)別 c 中的原型數(shù)量。公式化描述如下:

其中:l表示多原型迭代學(xué)習(xí)次數(shù); WQ ,WK, WV∈RD′×D′ 為參數(shù)矩陣; 分別表示在說(shuō)話(huà)人類(lèi)別 ∣c∣ 中映射所得查詢(xún)(queries)、鍵(keys)和值(values)。

原始的槽注意力機(jī)制通過(guò)學(xué)習(xí)固定數(shù)量的槽來(lái)表示計(jì)算機(jī)視覺(jué)任務(wù)中的不同對(duì)象。在MPGNN中,本文擴(kuò)展了槽注意力機(jī)制來(lái)學(xué)習(xí)每個(gè)類(lèi)中多原型的節(jié)點(diǎn)特征。利用高斯分布所得的初始化多原型 pc 在槽注意力機(jī)制經(jīng)過(guò) l+1 次迭代后,學(xué)習(xí)得到符合數(shù)據(jù)分布的新多原型 (Pcl+1

其中: Λω 表示一個(gè)用于數(shù)值穩(wěn)定性的小系數(shù),其值被設(shè)置為 1E-8

1.3特征融合和聯(lián)合優(yōu)化

初始說(shuō)話(huà)人嵌入 X∈RN×D 在局部分支中,經(jīng)由兩層圖卷積網(wǎng)絡(luò)層[20]得到新的節(jié)點(diǎn)輸出 G∈RN×D' ,鑒于模型的復(fù)雜度,本文簡(jiǎn)單地利用點(diǎn)積注意力機(jī)制,將局部相關(guān)性信息與說(shuō)話(huà)人感知的全局信息進(jìn)行融合:

其中: ω 表示一個(gè)用于數(shù)值穩(wěn)定性的小系數(shù),其值被設(shè)置為 1E-8

為有效探索局部和全局信息之間的交互過(guò)程,本文引入單分支的獨(dú)立優(yōu)化和雙分支的一致性?xún)?yōu)化來(lái)對(duì)MPGNN進(jìn)行聯(lián)合訓(xùn)練。對(duì)于全局分支,在給定說(shuō)話(huà)人嵌入 X∈RN×D 和說(shuō)話(huà)人類(lèi)別數(shù) c* 的情況下,MPGNN為確保每個(gè)類(lèi)別中不同說(shuō)話(huà)人原型間的多樣性,引入正交損失:

其中: F 表示L2范數(shù): ;I 表示單位矩陣,以實(shí)現(xiàn)軟正交約束。對(duì)于雙分支的一致性?xún)?yōu)化,引人均方誤差(mean squared error,MSE) :

其中: Y 表示真實(shí)標(biāo)簽; 表示局部分支輸出節(jié)點(diǎn)在與全局信息進(jìn)行交互時(shí)對(duì)應(yīng)的最相似說(shuō)話(huà)人原型標(biāo)簽。最后,將常用的有監(jiān)督說(shuō)話(huà)人日志損失 lbce 與本文提出的兩個(gè)新的損失函數(shù)進(jìn)行有效結(jié)合:

L=αlortho+βlcom+lbce

其中: α 和 β 分別表示全局分支的獨(dú)立優(yōu)化和雙分支一致性?xún)?yōu)化在總損失函數(shù)中的固定權(quán)重。

2 實(shí)驗(yàn)與結(jié)果分析

2.1 數(shù)據(jù)集

為驗(yàn)證MPGNN方法的有效性,本文選用說(shuō)話(huà)人日志領(lǐng)域最常用的兩個(gè)公開(kāi)數(shù)據(jù)集AMI和CALLHOME進(jìn)行相關(guān)實(shí)驗(yàn)。兩個(gè)數(shù)據(jù)集的統(tǒng)計(jì)描述如表1所示。

AMI數(shù)據(jù)集[21是一個(gè)全面的多模態(tài)英語(yǔ)數(shù)據(jù)集,共包含171個(gè)會(huì)議記錄,總對(duì)話(huà)時(shí)長(zhǎng)高達(dá) 100h 。每場(chǎng)會(huì)議都以16kHz 的頻率進(jìn)行采樣,每個(gè)對(duì)話(huà)最多有五個(gè)說(shuō)話(huà)人參與。本文選用通用的AMISDM條件下的驗(yàn)證集和測(cè)試集用于實(shí)驗(yàn)。

NISTSRE2000(Disk8)也被稱(chēng)為CALLHOME數(shù)據(jù)庫(kù)。該數(shù)據(jù)集是一個(gè)會(huì)話(huà)式多語(yǔ)言庫(kù),總時(shí)長(zhǎng)為 20h 。每個(gè)對(duì)話(huà)最多涉及七個(gè)說(shuō)話(huà)人。作者通常采用5折交叉驗(yàn)證方法[12.22]來(lái)評(píng)估其模型的性能。

表1數(shù)據(jù)集的統(tǒng)計(jì)描述Tab.1Statistics of datasets

2.2 評(píng)價(jià)指標(biāo)

根據(jù)說(shuō)話(huà)人日志任務(wù)需求,基于固定短切分的級(jí)聯(lián)學(xué)習(xí)方法更看重說(shuō)話(huà)人識(shí)別的準(zhǔn)確性。因此,本文選用當(dāng)前使用頻率最高的說(shuō)話(huà)人日志錯(cuò)誤率(diarizationerrorrate,DER)作為評(píng)估指標(biāo)來(lái)衡量不同方法的性能。其計(jì)算方式如下:

DER=FA+MS+SC

其中: FA (1alarm)表示語(yǔ)音的誤報(bào)率; MS (missed speech)表示語(yǔ)音的漏檢率; sc (speakerconfusion)表示說(shuō)話(huà)人標(biāo)簽的誤報(bào)率。前兩者主要用來(lái)評(píng)判語(yǔ)音檢測(cè)或語(yǔ)音分割的優(yōu)劣,后者用來(lái)評(píng)判說(shuō)話(huà)人識(shí)別的準(zhǔn)確性。

2.3 實(shí)驗(yàn)設(shè)置

實(shí)驗(yàn)服務(wù)器配置為 4316 CPU,GPU采用GeForce RTX 3080Ti 。操作系統(tǒng)為Ubuntu20.04.4,使用Python3.9.17,CUDA11.3和PyTorch1.10.0作為開(kāi)發(fā)環(huán)境。

參考前人工作[12.16],本文采用與主流方法一致的前端工作,將長(zhǎng)語(yǔ)音片段切分成1.5s固定長(zhǎng)度的短片段,相鄰片段的重疊時(shí)長(zhǎng)為 0.75s 。針對(duì)不同的數(shù)據(jù)集,利用Kaldi官方[23]提供的聲紋特征提取器分別提取512維和128維的X-vector[8],兩個(gè)數(shù)據(jù)集的X-vector的訓(xùn)練配置如表2所示。

表2X-vector的訓(xùn)練配置

GNN預(yù)訓(xùn)練:為驗(yàn)證圖結(jié)構(gòu)校準(zhǔn)過(guò)程的有效性,本文新增了最近鄰選擇、相似度重定義、閾值過(guò)濾的消融實(shí)驗(yàn)。實(shí)驗(yàn)在AMISDM數(shù)據(jù)集上,最近鄰數(shù)量 k 、平衡系數(shù) λ 和相似度分過(guò)濾閾值 μ 最佳取值分別為 300.0.1 和0.3,由于CALLHOME數(shù)據(jù)集中錄音記錄相對(duì)較短,所以鄰居數(shù) k 的最佳取值為30,平衡系數(shù) λ 和相似度得分過(guò)濾閾值 μ 最佳取值分別為0.1和0.3。在整個(gè)實(shí)驗(yàn)過(guò)程中,本文延續(xù)了前人工作[1的相同設(shè)置,采用兩層圖編碼器(GNN)并將其維度分別設(shè)置為 32,16 (24為更好地進(jìn)行比較,本文使用了兩種當(dāng)下主流的無(wú)監(jiān)督聚類(lèi)方法:凝聚層次聚類(lèi)(agglomerativehierarchicalclustering,AHC)[6.24]和譜聚類(lèi)(spectral clustering,SC)[25-27],其中凝聚層次聚類(lèi)的學(xué)習(xí)過(guò)程與工作[28]一致,新增一個(gè)用于全局主成分分析(principalcomponentsanalysis,PCA)的線性層。而譜聚類(lèi)中針對(duì)說(shuō)話(huà)人未知的情況,本文同文獻(xiàn)[27]一致,將余弦相似度矩陣進(jìn)行特征間隙分析,預(yù)估說(shuō)話(huà)人數(shù)量。

MPGNN訓(xùn)練:為驗(yàn)證多原型學(xué)習(xí)過(guò)程的有效性,本文新增了三個(gè)損失函數(shù)的消融實(shí)驗(yàn)。將上述GNN預(yù)訓(xùn)練的網(wǎng)絡(luò)作為編碼器,在多原型學(xué)習(xí)分支下,分別使用不同的損失函數(shù)組合對(duì)其進(jìn)行微調(diào)。學(xué)習(xí)過(guò)程中,本文使用隨機(jī)梯度下降(stochasticgradientdescent,SGD)優(yōu)化器對(duì)MPGNN進(jìn)行了100個(gè)epochs的訓(xùn)練,并將實(shí)驗(yàn)重復(fù)10次取平均以避免極端值。其中,初始學(xué)習(xí)率為0.01,在第90個(gè)epoch后學(xué)習(xí)率設(shè)置為0.001。實(shí)驗(yàn)在AMISDM數(shù)據(jù)集上,超參數(shù) α?β 和原型數(shù) p* 最佳取值分別為 0.01,0.1 和10,CALLHOME數(shù)據(jù)集上超參數(shù)分別選擇為0.05、0.1和7。

本文使用dscore工具分別計(jì)算說(shuō)話(huà)人已知和未知情況下,包含0.25s語(yǔ)音邊界不計(jì)分區(qū)域的SC說(shuō)話(huà)人標(biāo)簽誤報(bào)率以及不包含0.25s語(yǔ)音邊界不計(jì)分區(qū)域的DER總錯(cuò)誤率,從而更好地與說(shuō)話(huà)人日志領(lǐng)域特定數(shù)據(jù)集下主流方法進(jìn)行比較。

2.4對(duì)比實(shí)驗(yàn)

為充分驗(yàn)證MPGNN的有效性,本節(jié)選擇當(dāng)前主流的一些基于固定段切分的模塊化方法:ClusterGAN[29]、SSC-PIC[28]、SHARC[15]、GADEC[16]] GNN[12] 與本文方法進(jìn)行比較。表3給出了相關(guān)方法在AMISDM和CALLHOME數(shù)據(jù)集上DER指標(biāo)的評(píng)估結(jié)果。為了更好地與主流方法進(jìn)行比較,本文在計(jì)算DER的過(guò)程中與上述方法保持一致,選擇 Δw/outOVP+COL 這種去除重疊語(yǔ)音和增加 0.25s 語(yǔ)音邊界不計(jì)分區(qū)域的DER計(jì)算。其中,在AMISDM數(shù)據(jù)集上,本文方法延續(xù)了公開(kāi)文獻(xiàn)中說(shuō)話(huà)人未知情況下DER的錯(cuò)誤率,而在CALLHOME數(shù)據(jù)集上,本文方法在實(shí)驗(yàn)結(jié)果上保留了說(shuō)話(huà)人已知和未知情況下的DER錯(cuò)誤率。

表3在AMISDM和CALLHOME數(shù)據(jù)集上和其他公開(kāi)工作的DER 對(duì)比Tab.3DER comparison on the AMI SDM and CALLHOME datasets/%
注:橫線“—”表示對(duì)應(yīng)指標(biāo)未公布。最優(yōu)結(jié)果加黑加下畫(huà)線表示,次優(yōu)結(jié)果加黑表示。

結(jié)合表3中的實(shí)驗(yàn)數(shù)據(jù),可以觀察到主流方法在AMISDM數(shù)據(jù)集上往往表現(xiàn)更佳,這是由于該數(shù)據(jù)集相對(duì)而言語(yǔ)音較長(zhǎng),模型能夠捕獲更多有利的說(shuō)話(huà)人信息。在AMISDM和CALLHOME數(shù)據(jù)集上,MPGNN的DER和SOTA方法(例如GADEC)相比分別降低了 5.9%10.2%.36.6%.7.8% 。實(shí)驗(yàn)結(jié)果表明,通過(guò)多原型驅(qū)動(dòng)圖神經(jīng)網(wǎng)絡(luò)以感知全局說(shuō)話(huà)人特征的MPGNN方法,相較于利用高階鄰居來(lái)探索全局信息的GADEC方法,不僅能突破圖注意力層數(shù)的限制,減少額外的計(jì)算開(kāi)銷(xiāo),還能有效避免鄰居噪聲,降低說(shuō)話(huà)人識(shí)別錯(cuò)誤率。

2.5 消融實(shí)驗(yàn)

為驗(yàn)證提出的圖構(gòu)建策略和原型驅(qū)動(dòng)策略的有效性,本節(jié)在CALLHOME數(shù)據(jù)集上選擇 和 x-vec+cos+SC 作為基線方法并對(duì)所提方法進(jìn)行消融實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果分別如表4和5所示,表4中的策略1、2分別表示最近鄰選擇策略,相似度重定義 + 閾值過(guò)濾策略,表5中的L1、L2、L3分別表示有監(jiān)督說(shuō)話(huà)人日志損失、探索局部和全局信息交互的均方誤差損失 lcomp 以及確保類(lèi)別原型多樣性的正交損失 lortho

表4在CALLHOME數(shù)據(jù)集上圖構(gòu)建策略的消融實(shí)驗(yàn)

圖構(gòu)建策略的有效性:通過(guò)在基線模型上增加多步驟圖構(gòu)建策略,如表4所示的 GNN+SC-l ,可以看出相較于基線模型x-vec+cos+SC ,以往公開(kāi)文獻(xiàn)[16]中常用的最近鄰圖構(gòu)建策略在CALLHOME數(shù)據(jù)集上并不奏效。鑒于本文使用的X-vector[8]聲紋信息汲取能力略遜于文獻(xiàn)[16],但又為了能與主流方法更好地進(jìn)行比較,本文在普通聲紋特征模型X-vector[8]的基礎(chǔ)上,增加相似度重定義 + 閾值過(guò)濾策略,實(shí)驗(yàn)結(jié)果顯示GNN?SC-2 相比基線模型 μX-vec+cos+SC 在性能上有了明顯的提升,這也表明了該圖構(gòu)建策略的有效性。

表5在CALLHOME數(shù)據(jù)集上原型驅(qū)動(dòng)策略的消融實(shí)驗(yàn) Tab.5Ablation experiments of prototype-driven strategies on

原型驅(qū)動(dòng)策略的有效性:通過(guò)在基線模型上增加不同原型驅(qū)動(dòng)策略,如表5所示的MPGNN +SC-1 ,可以看出相較于基線模型 x-vec+cos+SC ,公開(kāi)文獻(xiàn)[12\~16]中常用的 lbce 在多原型學(xué)習(xí)過(guò)程中并不奏效。這是由于本文在探索全局說(shuō)話(huà)人信息的同時(shí),說(shuō)話(huà)人多原型又引入了噪聲。為此本文新增均方誤差損失 lcomp 原型驅(qū)動(dòng)策略以及正交損失 lortho 原型驅(qū)動(dòng)策略,實(shí)驗(yàn)結(jié)果表明,MPGNN +SC-2 、MPGNN +SC.3 相比基線均有所下降,這證明了使用原型驅(qū)動(dòng)策略在有效減輕多原型學(xué)習(xí)過(guò)程中說(shuō)話(huà)人不匹配帶來(lái)的噪聲干擾影響的同時(shí),能夠有效提升模型性能。

2.6 超參分析

本節(jié)將對(duì)所提方法引入的參數(shù)進(jìn)行分析,包括圖構(gòu)建策略中的過(guò)濾閾值 μ 和平衡系數(shù) λ ,以及原型驅(qū)動(dòng)策略中的超參數(shù)原型數(shù) p* 。實(shí)驗(yàn)在AMI_SDM數(shù)據(jù)集上進(jìn)行,結(jié)果如圖3所示。

在沒(méi)有原型學(xué)習(xí)時(shí),過(guò)濾閾值 μ 和平衡系數(shù) λ 對(duì)DER的影響如圖3(a)所示。在圖構(gòu)建過(guò)程中用于平衡余弦相似度和杰卡德相似度重要性的參數(shù) λ ,當(dāng) λ 為0時(shí),僅考慮余弦相似度作為最終相似度;而當(dāng) λ 為1時(shí),則僅使用杰卡德相似度。DER會(huì)先隨著 λ 的增大而降低,然后在超過(guò)閾值0.1后開(kāi)始快速升高。在 λ 值過(guò)小時(shí),少量的杰卡德相似度可以補(bǔ)充余弦相似度在說(shuō)話(huà)人嵌入上的細(xì)微不足。而在 λ 值過(guò)大時(shí),杰卡德相似度占比過(guò)大,不利于捕捉說(shuō)話(huà)人嵌人之間的潛在關(guān)系。

此外,在圖構(gòu)建過(guò)程中用于過(guò)濾較小相似度的閾值 μ DER會(huì)先隨著 μ 增加而降低,而當(dāng)為 μ 分配一個(gè)較大的值時(shí)可能會(huì)過(guò)濾掉相關(guān)說(shuō)話(huà)人嵌入導(dǎo)致的性能下降。由此,當(dāng)設(shè)置平衡系數(shù) λ=0.1 和閾值 μ=0.3 時(shí),在說(shuō)話(huà)人未知時(shí)獲得最佳測(cè)試集結(jié)果,即 4.17% 的識(shí)別錯(cuò)誤率。可以觀察到,所提方法明顯優(yōu)于基線 的 5.97% 的識(shí)別錯(cuò)誤率,表明使用圖構(gòu)建策略是有效的。在增加多原型學(xué)習(xí)時(shí),超參數(shù)原型數(shù)p* 對(duì)DER的影響如圖3(b)所示,DER隨著 p* 在一個(gè)合理范圍的增加而降低。當(dāng) p* 過(guò)小時(shí),類(lèi)原型太少無(wú)法提供完整的全局說(shuō)話(huà)人信息,而在 p* 過(guò)大時(shí),類(lèi)原型過(guò)多導(dǎo)致不同說(shuō)話(huà)人區(qū)分性較差。但本文方法在不同的 p* 值上始終優(yōu)于基線。這表明了使用多原型學(xué)習(xí)策略來(lái)捕獲全局說(shuō)話(huà)人信息是有效的。

2.7 可視化分析

為了評(píng)估AMI_SDM數(shù)據(jù)集上MPGNN方法的有效性,本節(jié)選取開(kāi)發(fā)集中一個(gè)會(huì)議樣本進(jìn)行親和矩陣的可視化分析。如圖4所示,可以觀察到本文方法MPGNN在圖4(b)所示的親和矩陣可視化分析上,區(qū)分性明顯優(yōu)于圖4(a)所示的基線模型 的親和矩陣。這表明相比基線模型,MPGNN能使不同的說(shuō)話(huà)人嵌人之間區(qū)別更加明顯,更有助于不同說(shuō)話(huà)人之間的區(qū)分,這也充分說(shuō)明了本文所提多原型驅(qū)動(dòng)圖神經(jīng)網(wǎng)絡(luò)在說(shuō)話(huà)人日志領(lǐng)域的有效性。

圖4在AMI_SDM數(shù)據(jù)集上親和矩陣的可視化分析Fig.4Visual analysis ofaffinitymatrix on AMI_SDMdataset

3結(jié)束語(yǔ)

本文致力于解決說(shuō)話(huà)人日志任務(wù)中基于固定短切分導(dǎo)致說(shuō)話(huà)人信息不足的問(wèn)題,提出了一種面向說(shuō)話(huà)人日志的多原型驅(qū)動(dòng)圖神經(jīng)網(wǎng)絡(luò)方法MPGNN。相較于現(xiàn)有技術(shù),MPGNN通過(guò)精心設(shè)計(jì)的四大核心模塊一圖構(gòu)建、原型學(xué)習(xí)、信息融合及聯(lián)合優(yōu)化,實(shí)現(xiàn)了對(duì)全局信息的深度捕捉與局部相關(guān)性的精細(xì)整合。盡管本文方法有效削弱了說(shuō)話(huà)人信息不足對(duì)聚類(lèi)效果的負(fù)面影響,但還存在一定的改進(jìn)空間。后續(xù)工作中,將進(jìn)一步考慮如何自適應(yīng)地確定最近鄰數(shù)量 k 值以及如何將本文所提方法與聚類(lèi)進(jìn)行聯(lián)合學(xué)習(xí)等問(wèn)題。

參考文獻(xiàn):

[1]TranterSE,ReynoldsDA.An overview ofautomatic speaker diarizationsystems[J].IEEETrans on Audio,Speech,and LanguageProcessing,2006,14(5):1557-1565

[2]Park TJ,KandaN,DimitriadisD,et al.Areview of speaker diarization:recent advances with deep learning[J].Computer Speech amp; Language,2022,72:101317.

[3]Zazo R,Sainath TN,Simko G,et al.Feature learning with rawwaveform CLDNNs forvoiceactivity detection[C]//Proc of InterSpeech. 2016:3668-3672.

[4]Chang S Y,LiBo, Simko G,et al. Temporal modeling using dilated convolutionand gating forvoice-activity-detection[C]//Procof IEEE International Conference on Acoustics,Speech and Signal Processing. Piscataway,NJ:IEEEPress,2018:5549-5553.

[5]YinRuiqing,Bredin H,Barras C. Speaker change detection in broadcast TV using bidirectional long short-term memory networks[C]// Proc of InterSpeech.2017.

[6]Sell G,Garcia-Romero D.Speaker diarization with PLDA i-vector scoringand unsupervised calibration [C]//Proc of IEEE Spoken Language TechnologyWorkshop.Piscataway,NJ:IEEEPress,2014: 413-417.

[7]Dehak N,KennyPJ,Dehak R,et al.Front-end factor analysis for speaker verification [J]. IEEE Trans on Audio,Speech,and LanguageProcessing,2011,19(4):788-798.

[8]Snyder D,Garcia-Romero D,Sell G,et al.X-vectors:robust DNN embeddingsfor speakerrecognition[C]//Proc of IEEEInternational Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ:IEEE Press,2018:5329-5333.

[9]Han KJ,Kim S,Narayanan S S. Strategies to improve the robustness of agglomerative hierarchical clustering under data source variation for speaker diarization[J].IEEE TransonAudio,Speech,and Language Processing,2008,16(8):1590-1601.

[10]Luxburg U.A tutorial on spectral clustering[J].Statistics and Computing,2007,17(4):395-416.

[11]LandiniF,ProfantJ,Diez M,et al.Bayesian HMMclustering of (204號(hào) X -vector sequences(VBx)in speaker diarization:theory,implementation and analysis on standard tasks [J].Computer Speech amp; Language,2022,71:101254.

[12]Wang Jixuan,Xiao Xiong,Wu Jian,etal.Speaker diarization with session-level speaker embedding refinement using graph neural networks[C]//Proc of IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway,NJ:IEEE Press,2020: 7109-7113.

[13]KwonY,HeoHS,JungJW,et al.Multi-scale speaker embeddingbased graph attention networks for speaker diarization [C]/Proc of IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway,NJ:IEEE Press,2022:8367-8371.

[14]Wang Jie,Chen Zhicong,Zhou Haodong,et al.Community detection graph convolutional network for overlap-aware speaker diarization [C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing. Piscataway,NJ:IEEE Press,2O23:1-5.

[15] Singh P,Kaul A,Ganapathy S. Supervised hierarchical clustering usinggraph neural networks for speaker diarization[C]//Proc of IEEE International Conference on Acoustics, Speech and Signal Processing.Piscataway,NJ:IEEE Press,2O23:1-5.

[16]Wei Yi,GuoHaiyan,Ge Zirui,etal.Graph attention-based deep embedded clustering for speaker diarization [J]. Speech Communication,2023,155:102991.

[17]Zeng Shan,Duan Xiangjun,Bai Jun,et al.Soft multiprototype clusteringalgorithmviatwo-layersemi-NMF[J].IEEETrans on Fuzzy Systems,2024,32(4):1615-1629.

[18]IoffeS.Probabilistic lineardiscriminantanalysis[C]//Procofthe 9th European Conference on Computer Vision.Berlin:Springer, 2006:531-542.

[19]朱必松,毛啟容,高利劍,等.基于時(shí)間分段和重組聚類(lèi)的說(shuō)話(huà) 人日志方法[J].計(jì)算機(jī)應(yīng)用研究,2024,41(9):2649-2654. (ZhuBisong,MaoQirong,Gao Lijian,etal.Temporal-segment-andregroup clustering for speaker diarization [J].Application ResearchofComputers,2024,41(9):2649-2654.)

[20]Kipf TN,Welling M. Semi-supervised classfication with graph convolutional networks[EB/OL].(2016-09-09).htps://arxiv.org/ abs/1609.02907.

[21]Kraaij W,HainT,LincolnM,etal.TheAMImeetingcorpus[C]// Proc of International Conference on Methods and Techniques in Behavioral Research.2005:1-4.

[22]Lin Qingjian,Yin Ruiqing,LiMing,et al.LSTM based similarity measurement with spectral clustering for speaker diarization [EB/ OL].(2019-07-23). https://arxiv.org/abs/1907.10393.

[23]PoveyD,Ghoshal A,BoulianneG,etal.TheKaldispeech recognition toolkit[C]//Proc of IEEE Workshop on Automatic Speech Recognition and Understanding. Piscataway,NJ:IEEE Press,2011.

[24]SellG,Snyder D,McCree A,et al.Diarization is hard:some experiences andlessonslearned for the JHU team in the inaugural DIHARD challenge [C]//Proc of InterSpeech.2018:2808-2812.

[25]Ning Huazhong,Liu Ming,Tang Hao,et al.A spectral clustering approach to speaker diarization [C]//Proc of InterSpeech.2006: 2178-2181.

[26]Wang Quan,Downey C,Wan Li,et al.Speaker diarization with LSTM[C]//Proc of IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway,NJ:IEEE Press,2018: 5239-5243.

[27]Park TJ, Han K J,Kumar M,et al. Auto-tuning spectral clustering forspeaker diarization using normalized maximum eigengap[J]. IEEESignal Processing Letters,2019,27:381-385.

[28]Singh P,Ganapathy S. Self-supervised representation learning with pathintegral clustering for speaker diarization[J].IEEE/ACM Trans on Audio,Speech,and Language Processng,2021, 29:1639-1649.

[29]Pal M,KumarM,Peri R,et al.Speaker diarizationusing latent space clustering in generative adversarial network[C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing. Piscataway,NJ:IEEE Press,2020:6504-6508.

猜你喜歡
集上日志原型
云計(jì)算技術(shù)在計(jì)算機(jī)網(wǎng)絡(luò)安全防御系統(tǒng)中的應(yīng)用
基于英語(yǔ)日志和同伴互助的大學(xué)英語(yǔ)學(xué)習(xí)共同體的建構(gòu)研究
基于圖神經(jīng)網(wǎng)絡(luò)驅(qū)動(dòng)的APT攻擊瀕源與檢測(cè)機(jī)制研究
創(chuàng)作談:我們寫(xiě)小說(shuō),寫(xiě)個(gè)什么勁兒?
牡丹(2025年13期)2025-08-13 00:00:00
以設(shè)計(jì)思維促進(jìn)教學(xué)創(chuàng)新
基于位置掩碼引導(dǎo)的換裝行人重識(shí)別模型
基于Transformer與權(quán)重令牌引導(dǎo)的雙分支無(wú)參考圖像質(zhì)量評(píng)價(jià)網(wǎng)絡(luò)
《滾滾紅塵》中沈韶華形象創(chuàng)作原型探源
基于多層特征融合與增強(qiáng)的對(duì)比圖聚類(lèi)
面向視覺(jué)-語(yǔ)言模型的遞進(jìn)互提示學(xué)習(xí)
主站蜘蛛池模板: 久久一本精品久久久ー99| 久久国产精品电影| 91丝袜乱伦| 91久久青青草原精品国产| 无码免费视频| 久久性妇女精品免费| 色AV色 综合网站| 四虎免费视频网站| 一本综合久久| 国模视频一区二区| 亚洲欧美另类久久久精品播放的| www.91在线播放| 国产精品分类视频分类一区| 人妻精品久久久无码区色视| 91麻豆精品国产高清在线| 国产理论精品| 久久亚洲AⅤ无码精品午夜麻豆| 99精品视频在线观看免费播放| 亚洲日韩图片专区第1页| 亚洲综合色婷婷中文字幕| 91久久偷偷做嫩草影院| 全部毛片免费看| 欧美日韩国产一级| 国模极品一区二区三区| 日韩黄色精品| 无码日韩视频| 欧美日韩成人在线观看| 狠狠色香婷婷久久亚洲精品| 国产精品七七在线播放| 久久这里只精品国产99热8| 亚洲天堂日韩在线| 国产玖玖玖精品视频| 亚洲熟妇AV日韩熟妇在线| 免费视频在线2021入口| 欧美亚洲一区二区三区导航| 九九视频免费看| 99精品伊人久久久大香线蕉| 亚洲一级毛片在线播放| 亚洲无码视频图片| 欧美三级不卡在线观看视频| 成人中文在线| 亚洲第一成年网| 亚洲一道AV无码午夜福利| 亚洲美女AV免费一区| 国产无码在线调教| 欧美激情视频一区| 精品一区二区三区自慰喷水| 色老二精品视频在线观看| 欧美伦理一区| 色AV色 综合网站| 国产精品亚洲片在线va| 在线精品亚洲国产| 久久久久无码精品| 日韩av电影一区二区三区四区| 九九热视频在线免费观看| 不卡视频国产| 91视频精品| 国产综合另类小说色区色噜噜 | 性激烈欧美三级在线播放| 精品综合久久久久久97超人该| 嫩草在线视频| 青青青草国产| 97在线公开视频| 久久99久久无码毛片一区二区| 亚洲人成网站18禁动漫无码| 99色亚洲国产精品11p| 亚洲成人在线免费观看| 99久久亚洲综合精品TS| 无码内射中文字幕岛国片| 污网站免费在线观看| 久久久久久久久亚洲精品| 国产一级裸网站| 欧美亚洲日韩不卡在线在线观看| 国产永久免费视频m3u8| 伊人婷婷色香五月综合缴缴情| 日韩av高清无码一区二区三区| 精品国产91爱| 亚洲人人视频| 波多野结衣的av一区二区三区| 国产高颜值露脸在线观看| 欧美人与牲动交a欧美精品| 亚洲国产综合精品一区|