999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于圖神經網絡與多特征融合的說話人驗證模型

2023-02-21 04:28:52曹嘉玲陳寧
計算機應用研究 2023年12期

曹嘉玲 陳寧

摘 要:近期研究表明,基于大量無標簽語音樣本訓練的預訓練模型所提取的特征在說話人驗證(SV)任務中表現突出。然而,現有模型尚無法利用幀級特征間的拓撲結構特性對幀級特征進行有效的優化和聚合,并且網絡復雜度較高不利于實現實時性;同時,現有模型尚無法充分利用多種輸入特征之間的互補性以進一步提升模型的性能。為此,一方面引入圖神經網絡,利用幀級特征間的拓撲結構特性對幀級特征進行優化;另一方面,構造基于多損失的多特征融合機制以充分利用不同特征之間的互補性進一步提升模型的性能。在VoxCeleb上的實驗結果表明,與現有模型相比,該模型GACNPF實現了更低的錯誤率和時間復雜度;更重要的是,該模型具有很好的靈活性,能夠融合任意多種特征,且可被應用于其他基于預訓練特征提取的分類任務。

關鍵詞:說話人驗證;圖神經網絡;預訓練;特征融合

中圖分類號:TP391?? 文獻標志碼:A??? 文章編號:1001-3695(2023)12-024-3678-05doi: 10.19734/j.issn.1001-3695.2022.09.0544

Speaker verification based on graph neural networks and multifeature fusion

Abstract:Recent research shows that features extracted from pretrained models trained on large unlabeled speech samples have excelled in SV tasks. However, the existing models can not effectively optimize and aggregate framelevel features by using the topological structure characteristics between framelevel features, and the high network complexity is not conducive to realtime performance. At the same time, the existing models can not make full use of complementarity between multiple input features to further improve the performance of the model. To this end, on the one hand, this paper introduced graph neural networks to optimize framelevel features by using the topological structure between framelevel features. On the other hand, it constructed a multifeature fusion mechanism based on multiple losses to make full use of the complementarity between different features to further improve the performance of the model. Experimental results on VoxCeleb show that the proposed model GACNPF achieves lower error rates and time complexity compared to existing models. More importantly, the model has good flexibility. It can fuse any kind of features, and it can apply to other classification tasks based on pretrained feature extraction.

Key words:speaker verification(SV); graph neural network; pretraining; feature fusion

0 引言

開放集說話人驗證(SV)是在測試說話人語音不在訓練集中的情況下,驗證測試說話人是否與注冊說話人為同一個人。本文研究內容無關的開放集說話人驗證方法。

近年來,基于深度學習的SV模型相較于傳統基于機器學習的SV模型,如ivector[1],性能有了較大的提升。其中,xvector模型[2]是最早提出的基于深度學習的SV模型。它利用時延神經網絡(timedelay neural Network,TDNN)和統計池化層聚合每段音頻信號的輸出特征,從而達到了較高的識別準確率。為了進一步提升特征的聚合能力,研究者將特征擠壓與激勵模塊、Res2Net結構、MFA等引入TDNN[3, 4]。另外,將卷積層與Transformer結合的Conformer結構也在SV任務上有很好的表現[5]。除此以外,已經成功應用于計算機視覺的深度殘差網絡 (residual network,ResNet)[6]及其變體[7, 8]也被應用于SV任務。研究表明,在從幀級的特征向句子級的特征聚合的過程中,通過引入自注意力池化(selfattention pooling,SAP)[9]、mSAP[10]、注意力統計池化(attentive statistics pooling,ASP)[11]、多頭自注意力池化[12]、序列化多層多頭注意力[13]等可進一步提升模型的性能。

以上模型均采用手工特征,如梅爾倒譜系數(Melfrequency cepstral coefficients,MFCCs),作為模型的輸入。近期,隨著神經網絡規模和訓練樣本規模的大幅提升,利用海量無標簽數據通過自監督學習(selfsupervised learning,SSL)構造的音頻特征提取模型[14~16]體現出比傳統手工特征提取方法更好的泛化能力,并被應用于包括SV在內的各種語音信號處理任務。

盡管引入基于SSL的特征提取模型可有效提升SV模型的性能,然而還存在如下問題:a)SSL模型提取的特征維度過大不利于后續分類模型的訓練;b)為了適應輸入特征的高維度,分類模型必須具備較深的結構,這進一步加大了模型的復雜度;c)音頻幀之間的拓撲結構特性沒有得到充分的利用,且傳統卷積結構受到感受野的限制,可能造成對時間間隔較遠信息的忽略,不利于分類任務的實施;d)針對多特征輸入,簡單的融合方式,比如求和、拼接等,無法充分利用特征的互補性,不能最大限度提升模型的性能。

近期,研究者將圖神經網絡引入聲紋識別相關任務,文獻[17,18]使用圖注意力網絡(graph attention network,GAT)[19]實現段級別或幀級別特征的聚合。文獻[18]使用圖池化進一步對特征進行篩選。然而,僅使用GAT無法像基于頻域的圖卷積網絡(graph convolutional network,GCN)[20]那樣利用鄰接矩陣包含的拓撲信息對節點特征進行優化,不利于提取語音長時時序特性。

考慮到基于海量無標簽數據訓練的WavLM模型[21]在各種語音分類任務中的突出表現,本文采用WavLM模型提取的特征作為模型輸入,分別在特征提取、特征優化以及多特征融合三個方面進行了如下改進,以提升本文模型(GACNPF)的性能。

a)特征提取階段。為了利用不同特征在獲取聲紋特性方面的優勢,同時兼顧模型的復雜性,采用WavLM Base+第四和第五層提取的特征作為本文模型的輸入。

b)特征優化階段。針對傳統網絡無法充分利用時間尺度上特征間的拓撲關系以優化特征的問題,構造由nGAT、GCN,以及圖池化層組成的特征優化模塊GACNP。首先,GAT層可充分聚合當前節點的鄰接節點包含的上下文信息對當前節點特征進行全局優化,同時本文將原始GAT中激活函數之后的softmax層刪除,并在激活函數之前加入歸一化層構造nGAT以提升模型收斂速度;其次,在GAT層之后引入GCN層,借助鄰接矩陣包含的拓撲信息對節點特征進行進一步優化;最后,為了降低語音片段所包含的靜音幀或噪聲片段對特征提取的影響,借助圖池化對GCN輸出的節點進行篩選。

c)多特征融合階段。為了充分利用不同的輸入特征在表現語音所包含的聲紋信息中的互補性,本文引入基于不同特征以及融合特征的多損失融合的訓練方法,以提升模型的訓練性能。

1 算法模型

如圖1所示,本文提出的說話人驗證模型GACNPF由特征提取模塊、基于GACNP的特征優化模塊以及多特征融合模塊三個模塊組成。

1.1 特征提取

為了保證模型的泛化能力,直接采用文獻[21]提出的經過預訓練的WavLM模型作為特征提取模型。根據預訓練數據量的不同以及模型規模的不同,WavLM模型可分為WavLM Base、WavLM Base+和WavLM Large三種。本文選用了WavLM Base+模型。此模型包含12個編碼器輸出層,其輸出特征維度為768維。文獻[21]將以上12層的輸出加權求和,作為分類器的輸入,并提供了在SV任務中編碼器輸出的12層特征各自所占的權重,證明了中下層的特征對聲紋任務更有效。與文獻[12]不同的是,為了降低訓練的難度和時間復雜度,進一步簡化實驗設置,本文選取權重最大的第四、五層特征進行分析,既減少冗余特征,又考慮不同層之間特征的互補性。受實驗設備的限制,將預訓練模型作為特征提取器,其參數在整個模型訓練過程中固定不變,模型的訓練只針對后續分類模型展開。

1.2 基于GACNP的特征優化

1.2.1 圖的構造和稀疏化

本文模型在構造圖時,節點對應幀,節點特征為采用Wav

1.2.2 基于GACNP的節點特征優化

為了充分利用由幀級特征構造的圖中所有節點的信息及其拓撲結構特性對幀級特征進行優化和篩選,本文構造了如圖1所示的GACNP節點特征優化模塊,其由一層nGAT、一層GCN以及圖池化層所構成,優勢體現在如下幾個方面:a)作為典型的空域圖神經網絡,GAT可利用圖中所有節點的特征構造注意力系數矩陣以便對節點特征進行全局優化;b)在傳統GAT(圖2)結構的基礎上刪除激活函數之后的softmax層,并在激活函數之前加入歸一化層,構造了如圖3所示的nGAT結構,這一改進有助于提升模型的訓練效率;c)GCN(圖4)的引入可利于圖的鄰接矩陣所表現的拓撲結構特性對節點特征進行二次優化;d)與兩層GAT或兩層GCN構成的模塊相比,GAT與GCN的結合可以有效避免過平滑問題;e)如圖5所示的圖池化的引入可以在時間維度上進行特征的篩選,選出與SV任務高度相關的節點,以降低語音片段中所包含的靜音幀和噪聲幀對模型性能的影響。

應于特征向量ht∈HAC的得分,記為yt;然后,對yt(t=1,2,…,T)進行降序排列并保留得分最高的前T′個節點;最后,利用各保留節點對應的得分對其加權獲得經篩選后的節點特征,所構成的特征矩陣記為HACP∈Euclid ExtraaBpT′×F2。注意,算法1中·表示向量點乘,⊙表示元素級別的乘法。

GACNP模塊的算法流程如算法1所示。

算法1 GACNP算法流程

1.3 多特征融合

當輸入為提取的第四層特征時,構造一個batch內所有說話人語音之間的相似度矩陣,記為S(1)={S(1)(i1,i2)|i1,i2=1,2,…,B/2},其中S(1)(i1,i2)為兩個說話人i1和i2語音之間的相似度,可由式(2)獲得,其中,w>0和b為可學習的參數:

S(1)(i1,i2)=w·cos(x(1)i1,1,x(1)i2,2)+b(2)

因此基于第四層特征的損失函數記為Euclid Math OneLAp1,如式(3)所示。

同理,可以得到相同batch中基于提取的第五層特征和融合特征的損失,分別記為Euclid Math OneLAp2和Euclid Math OneLAp3。最終,如式(4)所示,整個模型的融合損失函數Euclid Math OneLAp,可由三個損失的加權求和獲得,即:

Euclid Math OneLAp=λ1×Euclid Math OneLAp1+λ2×Euclid Math OneLAp2+λ3×Euclid Math OneLAp3(4)

其中:λ1和λ2分別對兩個局部特征的損失加權,作用是為了保留局部特征的特性;λ3是對融合特征的損失加權,目的是提升特征融合的性能,滿足λ1+λ2+λ3=1。設置這三個權重為動態權重并經過網絡的學習觀察權重的趨勢,以此為依據將這三個權重固定為λ1=0.1,λ2=0.1,λ3=0.8,此時模型可以獲得最好的性能。

2 實驗

2.1 數據集及評價指標

實驗采用VoxCeleb2[22]的開發集為訓練集,并采用VoxCeleb1[23]提供的三個測試集(O,E,H)為測試集。因此,訓練集和測試集之間不存在說話人重疊,數據集詳細信息如表1所示。其中,VoxCeleb1O是VoxCeleb1的原始測試集;VoxCeleb1E是對原始測試集的擴展,使用整個VoxCeleb1(包含訓練集與測試集)對模型評估;VoxCeleb1H是最具有挑戰性的,其注冊說話人和測試說話人具有相同的性別、國籍以及身份。

實驗采用等錯誤率(equal error rate,EER)和最小歸一化檢測代價函數(minimum of normalized detection cost function,minDCF)衡量模型性能。在minDCF中,錯誤接受一個冒認者和拒絕一個真實說話人的代價均設為1,即CFA=CFR=1,冒認者出現的先驗概率設為P=0.05。

2.2 實驗設置

實驗采用的硬件環境為包含兩塊NVIDIA RTX 3090Ti顯卡的戴爾工作站,編程采用PyTorch架構。

在訓練過程中輸入音頻的長度為3 s,采樣率為16 kHz,batch size和初始學習率分別取100和0.000 1,將原始的音頻直接輸入WavLM base+模型提取特征。采用Adam優化器,使學習率每5個epoch降至其0.95倍。在對鄰接矩陣進行稀疏化時參數r%設為50%。模型所有的dropout層中隨機丟棄的節點比例都設置為0.2;圖池化層中的topk算法保留節點比例為0.8,最終獲得的融合說話人嵌入特征維度為256。

在測試的過程中使用測試時間增強策略(test time augmentation,TTA)[23]來提升測試性能。測試過程中,以負距離度量樣本間的相似度。傳統的測試方式,隨機在測試音頻上截取一段音頻測試。TTA的具體過程為:對每一個測試音頻進行隨機采樣,隨機采樣若干段可能存在重疊的固定長度的音頻,每段都代表這個測試音頻計算相似度,最后將所有的得分求平均得到最終的相似度得分,這樣可以避免在測試的過程中采樣到測試音頻信息量比較少的部分,有效地進行測試數據的增強。在本文的實驗中,隨機采樣的長度設置為4 s,段數設置為10。

為了驗證本文所使用的測試方法TTA的作用,圖6和7分別展示了測試集中一對正樣本和一對負樣本的梅爾譜圖,針對兩對樣本使用傳統的測試方式和TTA的測試方式樣本間的負距離如表2所示。圖6的兩條音頻來自同一說話人id10209,但是除了說話人自身外,還存在紅框中所示的另一說話人的背景聲。使用傳統的測試方式,隨機在測試音頻上截取一段音頻測試,當選取的片段正好包括這些噪聲時,會減小音頻之間的相似度,若判斷的閾值選取在-0.832~-0.468,會引起誤判。圖7的兩條音頻來自兩個不同的說話人,但是存在紅框中所示的靜音片段。使用傳統的測試方式若選取的音頻片段包含較多靜音片段時,會增加兩段音頻之間的相似度,若判斷的閾值選取在-0.912~-1.246,會引起誤判。綜上所述,TTA測試方式有助于緩解噪聲或者靜音片段帶來的測試誤差。

2.3 實驗結果

該部分首先介紹了基線系統;其次,考慮到多特征提取、多損失融合中權重的選擇和圖池化層保留節點的比例可能對模型的性能造成影響,對其進行了實驗研究;再次,進行了消融實驗研究;最后,對本文算法和基線系統在識別準確率和時間復雜度兩方面以及不同測試方式進行了對比研究。

2.3.1 基線模型

為了驗證本文SV模型相較于傳統模型在識別準確率和算法復雜度方面的優勢,實驗涉及以下三類基線模型:

a)SV任務中的經典模型,包括專為預訓練模型提供分類模型的基準SUPERB[24]所列出的SV任務的官方下游模型xvector[2]和在SV任務上有較好表現的ResNet34L模型[8]。實驗中,考慮到預訓練模型輸出特征維度較大,為768維,受實驗設備的限制,在輸入ResNet34L前對特征采用全連接層降維到256維。

b)基于注意力機制的模型,即對預訓練模型提取出的特征直接使用注意力機制以及池化操作得到說話人嵌入,包括SAP[9]和ASP[11]注意力機制。

c)基于圖神經網絡的模型,采用文獻[18]提出的GAT與圖池化的模型。

2.3.2 多特征的提取與多損失的動態融合

文獻[21]采用SUPERB基準[24]提出的對預訓練模型的各層輸出的特征進行加權求和實現融合,達到了較好的實驗結果。然而,這不可避免地增加了模型訓練的時間復雜度。本文通過實驗研究發現WavLM Base+模型的第四、五兩層的輸出在SV任務中表現突出。表3比較了當采用xvector為分類模型時,在對WavLM Base+的所有層的輸出進行加權融合以及僅對第四、五層的輸出進行融合所達到的SV識別準確率的結果。可以看出僅第四、五層輸出的融合效果明顯優于對各層輸出進行融合的效果。因此,本文模型采用WavLM Base+模型的第四、五層的輸出作為輸入特征。

為了對基于不同特征構造的損失進行更有效的融合以提升模型的性能,實驗構造了如圖1所示的動態權重獲取模型。圖8為不同權重隨迭代次數的變化趨勢。可以看出,三個權值初始化值一樣,網絡傾向于增加融合特征的權重λ3的值,并降低局部特征對應權重λ1和λ2的值以實現更好的模型性能。為此,本文在實驗中選取λ1=0.1,λ2=0.1,λ3=0.8進行多損失融合,并且此后的實驗結果均是在此權重配比下得到的。

2.3.3 圖池化層保留節點比例對模型性能的影響

為了研究圖池化層保留節點比例對模型性能的影響,以VoxCeleb1O測試集為例比較了在不同節點保留比例下模型所獲得的EER情況。結果如圖9所示,考慮到EER指標是越小越好,因此將保留比例取值為0.8,使得模型達到最優的結果。

2.3.4 消融實驗

為證明本文所提出的改進部分(nGAT、GCN、圖池化pool以及多損失Mloss)對模型性能提升的作用,進行了消融實驗,實驗結果如表4所示,表中黑體數字為所在列的最優值。表4第1~4行列出了缺少其中任一模塊條件下,模型在三個測試集上得到的EER和minDCF。其中,對Mloss的消融是僅采用融合特征的損失Euclid Math OneLAp3進行模型訓練時獲得的。可以看出,總體上,所提GACNP模型中減少任意一改進部分都會造成模型性能的下降。GCN模塊雖然在VoxCeleb1E測試集上表現出輕微異常,但在其余兩個測試集上均對模型性能的提升有幫助,特別是在最具有挑戰性的測試集VoxCeleb1H上對性能的提升幅度比較明顯。這表明模型各部分改進是合理的、有效的。另外,為了證明特征之間的互補性,表4的第5、6行分別列出了只使用WavLM編碼器輸出的第四、五層特征(分別記為X(4)和X(5))的情況下模型的性能。可以看出,在三個測試集上,本文模型均取得了比使用一種特征時的模型更好的性能。這表明,所采用的兩種特征在SV任務中具有很好的互補性,并且本文提出的特征融合方法可以充分利用這一互補性。

2.3.5 模型性能對比

為了驗證本文SV模型相較于基線模型在識別準確率和時間復雜度方面的優勢,本實驗在三個測試集上對模型的性能進行了比較。

a)識別準確率的對比。

結果如表5所示,其中黑體數字為最優值。可以看出,在三個測試數據集上,兩種衡量指標下本文模型均優于所有的基線模型。其中,在O、E和H上EER相較于WavLM Base+中給定的官方下游模型xvector分別降低了24.9%、22.6%和26.1%,而minDCF相較于xvector分別降低了28.3%、26.9%和28.5%。除此以外,相較于SV任務中效果較好的ResNet34L模型以及SAP、ASP兩種基于注意力機制的模型也有較大的性能提升。相較于結合GAT和圖池化的圖神經網絡模型[18],本文模型實現了更高的識別準確率。

相較于文獻[18]提出的結合GAT和圖池化網絡的SV模型,本文模型性能提升的主要原因包括采用了基于GACNP的節點特征優化以及基于多損失融合的分類方法兩個方面。為了進一步驗證GACNP中結合nGAT和GCN的節點特征優化方法的有效性,表6比較了在相同特征輸入條件下,本文模型分別采用兩層GCN、兩層nGAT以及nGAT和GCN融合進行節點特征優化時所得的SV性能,其中黑體數字為最優值。可以看出,本文采用基于nGAT和GCN融合的GACNP特征優化的模型性能最優。可能的原因有GCN的引入可充分利用節點間的拓撲結構對特征實現優化,并且nGAT與GCN的結合一定程度上緩解了多層圖神經網絡帶來的過平滑問題,以此提升模型的性能。

b)訓練時間復雜度的對比。

為了驗證本文模型在訓練效率方面的優勢,圖10對比了不同模型的訓練時間復雜度。其中圖10的第1列為對WavLM Base+模型所有層輸出進行加權融合后采用xvector分類器時模型的訓練時間復雜度;圖10的第2~6列為對WavLM Base+模型的第四、五層輸出進行相加融合的結果作為特征,并采用相應文獻提出的分類器進行分類條件下模型的訓練時間復雜度;圖10中第7列為本文模型將nGAT替換為GAT條件下模型的訓練時間復雜度。

實驗結果表明:(a)在采用相同分類器條件下,特征的選擇可大幅度降低模型的訓練時間復雜度;(b)在輸入特征一致的條件下,本文模型取得了比所有基線系統更低的時間復雜度;(c)通過對比GACNPF_GAT與GACNPF模型的性能可以看出,nGAT的引入可有效降低模型訓練的時間復雜度。

c)測試方法性能對比。

為了驗證本文所使用的TTA測試方法的優勢,在VoxCeleb1O測試集上比較了TTA測試方法和傳統測試方法下獲得的EER。使用TTA測試得到的EER為2.831,而使用簡單的測試方式得到的EER為3.743。使用TTA測試方式的EER明顯低于使用簡單的測試方式得到的EER。這表明TTA與傳統測試方法相比具有明顯的優勢。

3 結束語

本文提出了一種基于圖神經網絡與多特征融合的說話人驗證模型GACNPF。一方面,圖神經網絡的引入可充分利用幀之間的上下文信息對幀級特征進行優化,同時可有效降低模型訓練的時間復雜度;另一方面,多特征的融合有利于提升語音特征的表征能力,因此可進一步提升模型的性能。模型通過改進并結合GCN、GAT、以及圖池化的優勢提升了識別性能和訓練效率。該模型可與各種特征提取預訓練模型進行結合實現更高的SV識別準確率,同時它具有很好的靈活性,可融合任意多種特征以進一步提升模型的性能。該模型還可被擴展到基于多模態特征融合的分類任務。

參考文獻:

[1]Dehak N P,Kenny J,Dehak R,et al. Frontend factor analysis for speaker verification [J]. IEEE Trans on Audio,Speech,and Language Processing,2010,19(4): 788-798.

[2]Snyder D,GarciaRomero D,Sell G,et al. Xvectors: robust DNN embeddings for speaker recognition [C]// Proc of IEEE International Conference on Acoustics,Speech and Signal Processing. Piscataway,NJ: IEEE Press,2018: 5329-5333.

[3]Desplanques B,Thienpondt J,Demuynck K. ECAPATDNN: emphasized channel attention,propagation and aggregation in TDNN based speaker verification [C]// Proc of Annual Conference of the International Speech Communication Association. 2020: 3830-3834.

[4]Liu Tianchi,Das R K,Lee K A,et al. MFA: TDNN with multiscale frequencychannel attention for textindependent speaker verification with short utterances [C]// Proc of IEEE International Conference on Acoustics,Speech and Signal Processing. Piscataway,NJ: IEEE Press,2022: 7517-7521.

[5]Zhang Yang,Lyu Zhiqiang,Wu Haibin,et al. MFAconformer: multiscale feature aggregation conformer for automatic speaker verification [C]// Proc of Annual Conference of the International Speech Communication Association. 2022: 306-310.

[6]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al. Deep residual learning for image recognition [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2016: 770-778.

[7]Chung J S,Huh J,Mun S. Delving into VoxCeleb: environment invariant speaker recognition[C]//Proc of Odyssey 2020 the Speaker and Language Recognition Workshop. 2020: 349-356.

[8]Chung J S,Huh J,Mun S,et al. In defence of metric learning for speaker recognition [C]// Proc of Annual Conference of the International Speech Communication Association. 2020: 2977-2981.

[9]Zhu Yingke,Ko T,Snyder D,et al. Self-attentive speaker embeddings for textindependent speaker verification [C]// Proc of Annual Conference of the International Speech Communication Association. 2018: 3573-3577.

[10]鄧飛,鄧力洪,胡文藝,等. 說話人身份識別深度網絡中的聚合模型研究[J]. 計算機應用研究,2022,39(3): 721-725. (Deng Fei,Deng Lihong,Hu Wenyi,et al. Research on aggregation model in speaker recognition deep network[J]. Application Research of Computers,2022,39(3): 721-725.)

[11]Okabe K,Koshinaka T,Shinoda K. Attentive statistics pooling for deep speaker embedding [C]// Proc of Annual Conference of the International Speech Communication Association. 2018: 2252-2256.

[12]India M,Safari P,Hernando J. Double multihead attention for speaker verification [C]//Proc of IEEE International Conference on Acoustics Speech and Signal Processing. Piscataway,NJ: IEEE Press,2021: 6144-6148.

[13]Zhu Hongning,Lee K A,Li Haizhou. Serialized multilayer multihead attention for neural speaker embedding [C]// Proc of Annual Conference of the International Speech Communication Association. 2021: 106-110.

[14]Baevski A,Zhou Yuhao,Mohamed A,et al. wav2vec 2.0: a framework for selfsupervised learning of speech representations [J]. Advances in Neural Information Processing Systems,2020,33: 12449-12460.

[15]Hsu W N,Bolte B,Tsai Y H,et al. HuBERT: selfsupervised speech representation learning by masked prediction of hidden units [J]. IEEE/ACM Trans on Audio,Speech,and Language Processing,2021,29: 3451-3460.

[16]Wang Chengyi,Wu Yu,Qian Yao,et al. UniSpeech: unified speech representation learning with labeled and unlabeled data [C]// Proc of International Conference on Machine Learning. New York: ACM Press,2021: 10937-10947.

[17]Jung J,Heo H S,Yu H J,et al. Graph attention networks for speaker verification [C]// Proc of IEEE International Conference on Acoustics,Speech and Signal Processing. Piscataway,NJ: IEEE Press,2021: 6149-6153.

[18]Shim H,Heo J,Park J,et al. Graph attentive feature aggregation for textindependent speaker verification [C]// Proc of IEEE International Conference on Acoustics,Speech and Signal Processing. Piscataway,NJ: IEEE Press,2022: 7972-7976.

[19]Velickovi P,Cucurull G,Casanova A,et al. Graph attention networks [C]// Proc of the 6th International Conference on Learning Representations. 2018.

[20]Kipf T N,Welling M. Semisupervised classification with graph convolutional networks [C]// Proc of the 5th International Conference on Learning Representations. 2017.

[21]Chen Sanyuan,Wang Chengyi,Chen Zhengyang,et al. WavLM: largescale selfsupervised pretraining for full stack speech processing [J]. IEEE Journal of Selected Topics in Signal Processing,2022,16(6): 1505-1518.

[22]Chung J S,Nagrani A,Zisserman A. VoxCeleb2: deep speaker recognition [C]// Proc of Annual Conference of the International Speech Communication Association. 2018: 1086-1090.

[23]Nagrani A,Chung J S,Zisserman A. VoxCeleb: a largescale speaker identification dataset [C]// Proc of Annual Conference of the International Speech Communication Association. 2017: 2616-2620.

[24]Yang Shuwen,Chi Pohan,Chuang Yungsung,et al. SUPERB: speech processing universal performance benchmark [C]// Proc of Annual Conference of the International Speech Communication Association. 2021: 1194-1198.

[25]Tak H,Jung J,Patino J,et al. Endtoend spectrotemporal graph attention networks for speaker verification antispoofing and speech deepfake detection [C]// Proc of Automatic Speaker Verification and Spoofing Countermeasures Challenge. 2021.

主站蜘蛛池模板: 中文字幕久久亚洲一区| 亚洲天堂成人在线观看| 久久香蕉国产线| aa级毛片毛片免费观看久| 久久亚洲综合伊人| 中文字幕亚洲第一| 中文字幕免费播放| 91色国产在线| 亚洲综合片| 亚洲美女一级毛片| 国产精品成人一区二区| 久久午夜夜伦鲁鲁片无码免费| 国产va在线观看免费| 亚洲无线一二三四区男男| 精品国产91爱| 亚洲AV一二三区无码AV蜜桃| 久久免费观看视频| 亚洲一级无毛片无码在线免费视频 | 亚洲av无码牛牛影视在线二区| 国产又粗又爽视频| 高清色本在线www| 国产欧美专区在线观看| 丁香婷婷在线视频| 久久久久久尹人网香蕉| 国产www网站| 国产日韩欧美视频| 97超级碰碰碰碰精品| 一级毛片在线播放免费观看| 日本国产一区在线观看| 国产成人精品免费视频大全五级| 欧美不卡二区| 国产va免费精品| 天堂中文在线资源| 国产精品99一区不卡| 国产亚洲欧美日韩在线观看一区二区| 日本一区二区不卡视频| 亚洲精品不卡午夜精品| 亚洲中文字幕久久无码精品A| 国产午夜人做人免费视频中文 | 国产成人一区免费观看| 一本大道香蕉中文日本不卡高清二区| 亚洲欧美人成电影在线观看| 国产欧美在线| 最新午夜男女福利片视频| 18禁影院亚洲专区| 在线观看亚洲天堂| 精品成人一区二区三区电影| AV不卡无码免费一区二区三区| 久久精品人人做人人综合试看| 91精品国产麻豆国产自产在线| 中国黄色一级视频| 日韩黄色精品| 亚洲日韩AV无码一区二区三区人 | 四虎精品国产AV二区| 国产av剧情无码精品色午夜| 在线观看网站国产| 不卡无码网| 无码日韩精品91超碰| 热re99久久精品国99热| 亚洲中文字幕97久久精品少妇| 国产在线观看91精品| 亚洲首页在线观看| 免费观看国产小粉嫩喷水| 99精品视频九九精品| AV无码无在线观看免费| 久久精品无码一区二区国产区| 最新加勒比隔壁人妻| 国产农村妇女精品一二区| 午夜少妇精品视频小电影| 亚洲欧洲日韩国产综合在线二区| 亚洲精品va| 国产成人综合网在线观看| 日韩中文字幕亚洲无线码| 91国内视频在线观看| 亚洲综合狠狠| 国产91视频观看| 欧美成人二区| 欧美成a人片在线观看| 欧美乱妇高清无乱码免费| 国产精品私拍99pans大尺度 | 午夜视频日本| 免费人成视网站在线不卡|