面向說話人日志的多原型驅動圖神經網絡方法

2025-08-03 00:00:00毛青青賈洪杰朱必松

計算機應用研究 2025年6期

Multi-prototype driven graph neural network for speaker diarization

Abstract：Recently，theutilizationof graphneuralnetwork forsesson-levelmodelinghasdemonstrateditseficacyforspeakerdiarization.However，mostof existing variantssolelyrelyonlocalstructure information，gnoringtheimportanceof global speakerinformation，whichcannotfullycompensateforthelackof speakerinformationinthespeakerdiarizationtask.This paper proposedamulti-prototypedriven graphneuralnetwork（MPGNN）forrepresentationlearning，whichefectivelycombined local and global speaker information within each session and simultaneously remaps X -vector to a new embedding space that was moresuitableforclustering.Specifically，，the designof prototypelearning withadynamicandadaptive approach wasacritical component，where more accurateglobal speaker informationcould becaptured.Experimentalresultsshowthatthe proposed MPGNN approach significantly outperforms the baseline systems，achieving diarization error rates（DER）of 3.33% ， 3.52% ，（204號 5.66% ，and 6.52% on the AMI_SDM and CALLHOME datasets respectively.

Keywords：speakerdiarization；graphneural network；local structure information；global speaker information；multiprototype learning

0 引言

說話人日志（speakerdiarization，SD）的目標是解決“誰在何時說話”的問題，即在給定的包含多個說話人交流的長音頻信號中，同時實現說話人識別和說話人定位。近年來，說話人日志技術的有效研究已經廣泛應用于多個場合，如會議記錄、來電角色劃分、語音搜索引擎、在線視頻特定說話人檢索等。

縱觀說話人日志領域多篇綜述性論文[1.2]，主流的研究方向大致可以分成兩大類，即基于聚類的多模塊級聯學習方法和端到端的神經網絡方法。2018年深度學習技術的興起，給予端到端的說話人日志方法極大的發展，使其在某些條件受限的情況下表現出較為優越的性能。但隨著CHiME-5/6、DIHARD-1/2/3、VoxSRC-20/21/22/23等挑戰賽的發布，說話人日志領域的研究開始著力于解決真實的場景問題。而基于聚類的多模塊級聯學習方法相比端到端方法，能更好地處理復雜場景下的長音頻和未知說話人情況，是當下比較熱門的研究方向。

基于聚類的說話人日志方法旨在將每個會話中的多個說話人精確地定位并識別。其處理流程通常包括一系列步驟：語音活動檢測[3.4]、語音段分割[5.6]、說話人嵌入提取[7.8]、聚類[9，10]和后處理[11]。基于聚類的說話人日志方法作為級聯學習方法的一種，好的短切分說話人表征直接影響最后的聚類效果，因此目前研究熱點主要集中在基于固定短切分的說話人嵌入優化上。說話人嵌入特征的提取通常依賴于預訓練模型，將語音片段轉換為固定維度的特征空間，如i-vector或X-vector[8]。然而，在說話人日志任務中使用這些預訓練的說話人模型存在兩個主要問題。一方面，預訓練模型特征設計不同于說話人日志任務，很可能引入冗余和不相關的信息。另一方面，說話人日志需要較短的片段（0.5＼～2.0s）以準確定位說話人變化點，預訓練的說話人模型可能無法提供足夠的說話人特定信息。因此，基于聚類的說話人日志體系最為關鍵的組成部分就是在固定短切分框架下，對說話人嵌入進行優化。

近年來，圖神經網絡（graphneuralnetwork，GNN）在會話級別建模中的應用已顯示出其在說話人嵌入優化方面的有效性，例如使用圖神經網絡進行會話級別的說話人嵌入細化方法[12]、基于多尺度說話人嵌入的圖注意力網絡方法[13]以及基于圖神經網絡對說話人嵌入和聚類進行聯合優化的基于社區檢測的圖卷積網絡方法（communitydetectiongraphconvolutionalnetwork，CDGCN）[14]、有監督層次圖聚類方法（supervised hierar-chical graph clustering，SHARC）[15]。這些方法的主要思想是先為每個片段提取固定維度的嵌人，然后利用親和度矩陣來迭代學習每個會話內相鄰片段之間的局部特征。盡管這些方法提升了特定會話的理解能力，但它們僅僅依賴于局部結構信息而忽略全局說話人信息的重要性，最終限制了其整體性能的有效性。之后，基于圖注意力的深度嵌入聚類（graphattentionbaseddeep embedded clustering，GADEC）[16]打破了上述局限，它利用高階鄰居來探索全局信息。然而，這種方法受到圖注意力層數的限制，不僅增加了計算開銷，同時引入了無法避免的鄰居噪聲。

最近一種使用多原型學習的圖像聚類方法[1突破了上述問題的限制。類原型在圖形結構上學習節點表示可以促進來自遠程節點的信息交流，從而有效捕獲全局相關性。受此啟發，本文提出了一種面向說話人日志的多原型驅動圖神經網絡方法（multi-prototype driven graph neural network for speaker dia-rization，MPGNN）。該方法在擴展說話人原型概念的基礎上，提出了一種全新的基于圖神經網絡的動態自適應多原型學習過程。該過程既能避免GADEC方法中高階鄰居帶來的計算開銷和噪聲影響，還能有效引入全局說話人信息，彌補說話人日志任務中固定短切分框架下說話人嵌入信息不足等問題。

本文的主要貢獻概括如下：

a）提出一個基于圖神經網絡的動態自適應多原型學習模塊，在避免多層圖神經網絡帶來計算開銷和噪聲影響的同時，能有效獲取全局說話人信息。b）提出一種基于注意力機制的特征融合方法，有助于探索局部相關性和說話人全局信息之間的相互交互，以實現針對特定會話的說話人表征學習。c）提出的MPGNN方法在AMI_SDM和CALLHOME數據集上分別達到了 3.33%.3.52%.5.66% 和 6.52% 的說話人日志錯誤率。該方法顯著優于基線系統，并且在大部分情況下，甚至超過了最先進（SOTA）方法。

1本文方法

本章將詳細介紹所提出的面向說話人日志的多原型驅動圖神經網絡方法MPGNN，具體實現方法如算法1所示。給定一個會話音頻，通過語音活動檢測過濾非語音片段后，將語音片段固定切分成1.5s長，0.75s重疊的短片段。隨后，利用預訓練模型作為說話人編碼器來提取固定維度的說話人嵌入X={x₁，x₂，…，x_N|x_i∈R^D} ，其中 N 表示每個會話中音頻片段的數量， x_i 表示第 i 個音頻片段的聲紋嵌入， D 表示嵌入空間的維度。最后，這些嵌人作為輸入應用于MPGNN模型對說話人表征進行優化，并輸出重構親和矩陣進行無監督說話人聚類。

算法1 MPGNN

輸入：說話人嵌入 X ；會議數，最近鄰數，說話人數和原性數 ^M，k c^*，p^* ；超參數 μ，λ 。

輸出：預估的親和矩陣。

while m=0 to M-1 do圖構建：（204多原型學習（24號信息融合：（204號

endwhile

output：使用 σ（H^m，H^m^′）預測

MPGNN的主要思想是為了探索特定會話下局部相關性和說話人全局信息之間的有效交互，總體流程如圖1所示。其主要包括以下幾個關鍵模塊：圖構建模塊、多原型學習模塊、信息融合與聯合優化模塊。

1.1語音片段關系圖構建

參考近期說話人日志領域中利用圖神經網絡進行會話級建模方法[12-16]，根據聲紋嵌入間的余弦相似度或概率線性判別分析（probabilisticlineardiscriminantanalysis，PLDA）相似度[18構建圖結構，將非結構化嵌入轉換為結構化圖形數據。考慮到初始圖結構直接影響圖神經網絡對于說話人局部結構信息的學習效果，本文對初始圖結構進行校準。

1.1.1語音片段關系圖結構初始化

首先，利用預訓練編碼器提取每個會話中對應語音片段的說話人嵌入 X={x₁，x₂，…，x_N|x_i∈R^D} 。將每一條語音片段作為圖節點，語音片段對應的說話人嵌入作為節點嵌入，得到節點表示 V={v_i|i=1，2，…，N} 。其中 N 表示特定會話中的語音片段數， v_i 表示第 i 條語音片段對應的節點表示。然后，利用說話人嵌入間的相似性建立節點間的關系表示 E={e_ij|i，j=1 ∣2，…，N} ，其中 e_ij 表示第 i 條語音片段和第 j 條語音片段之間對應節點的相關性，其權重表示由親和矩陣 A∈R^N×N 確定。

1.1.2語音片段關系圖結構校準

不同于基于余弦相似度或PLDA相似度構建親和矩陣方法，本文受文獻［14]啟發，舍棄了需要單獨訓練的PLDA模型，本文在簡單的余弦相似度基礎上，參考對領域信息進行整合的相關工作[19]，提出一個多步驟初始圖結構校準方法。

a）余弦相似度矩陣構建。本文利用余弦相似度，構造一個 N×N 的相似度矩陣 s

其中： S_ij^cos 表示聲紋嵌入 x_i 和 x_j 之間的余弦相似度。

b）最近鄰選擇。通過近似最近鄰算法（approximatenearestneighbor，ANN）挑選與節點 v_i 最相近的 k 個最近鄰 N（v_i，k）= {v_i¹，v_i²，…，v_i^k} 。為提升節點 v_i 和 N（v_i，k）中的元素同屬于一類的可能性，將最近鄰集合 N（v_i，k）拓展為 v_i 和 N（v_i，k）中的元素互為鄰居的新集合 R（v_i，k）：

R（x_i，k）={x_j∣（x_j∈N（x_i，k））∧（x_i∈N（x_j，k））}

為避免一些特征空間上相似性較小的相同說話人被排除在 K 近鄰之外，對集合 R（x_i，k）進行擴充：

?v_j∈R（v_i，k）

其中： 1?1 表示集合中的元素數量； R^*（v_i，k）表示包含更多同一說話人語音節點的集合。

c）相似度重定義。本文重新定義了節點 v_i 和每個候選節點 v_j 之間的相似性度量，利用杰卡德相似性 S_ij^jac 來校準簡單余弦相似性 S_ij^cos 帶來的噪聲邊影響：

其中： λ 是一個平衡系數，用于調整杰卡德相似度 S_ij^jac 和余弦相似度 S_ij^cos 的權重。

d）閾值過濾。參考前人工作[1，利用特征空間計算得到的相似度矩陣 s 往往包含大量弱連接邊，使用閾值過濾能獲得一個更有益于說話人區分的圖結構。

1.2動態說話人多原型學習

盡管好的圖結構表示能為當前表征帶來有效的局部結構信息，但若依賴圖神經網絡層數的增加來獲取全局信息，往往伴隨著鄰居噪聲點的干擾。MPGNN在擴展說話人原型概念的基礎上，提出了一種動態自適應多原型學習方法，在避免多層圖神經網絡帶來的噪聲干擾同時，以說話人原型為導向，有效引入全局說話人信息。整個多原型學習的過程主要包含多原型初始化和多原型更新，具體步驟如圖2所示。

圖2多原型學習過程 Fig.2Learning process of multi-prototype

1.2.1動態說話人多原型初始化

為解決預訓練模型任務不匹配帶來的高維度信息冗余問題，本文首先使用多層感知機（multilayerperceptron，MLP）將特定會話的節點表示，即初始的說話人嵌入表示 X⁰ 轉換到一個低維潛在空間并表示為。接著，在給定說話人類別數 c^* 和說話人原型數 p^* 的情況下，利用K-means無監督聚類算法來獲取初始的聚類分布 C={C_c|c=1，2，… c^* }。其中 c^* 表示特定會話中的說話人數量，即聚類數，而C_c∈R^N′×D′ 表示包含 N^' 個節點數和 p^′ 特征維度的說話人類別c 最后，通過對每個說話人類別執行平均池化操作，獲取每個類別的初始說話人中心表征 X_c^'

由于單說話人原型往往無法有效表示復雜的數據結構[17]，MPGNN以聚類為指引進行多原型的設計，捕捉更加豐富的類內多樣性特征。在多原型學習初始化過程中，本文利用高斯分布 N（η，Σ）進行隨機采樣，其中 η 表示由說話人中心表征 X_c 進行初始化得到的均值， Σ 表示為隨機初始化得到的協方差。

1.2.2動態說話人多原型自適應更新

在設計的特定聯合損失約束下，多原型 P_c={P_c^p|p=1 2，…，p^*} 伴隨著槽注意力機制的學習過程而不斷更新。其中p^* 表示說話人類別 c 中的原型數量。公式化描述如下：

其中：l表示多原型迭代學習次數； W^Q ，WK， W^V∈R^D′×D′ 為參數矩陣；分別表示在說話人類別 ∣c∣ 中映射所得查詢（queries）、鍵（keys）和值（values）。

原始的槽注意力機制通過學習固定數量的槽來表示計算機視覺任務中的不同對象。在MPGNN中，本文擴展了槽注意力機制來學習每個類中多原型的節點特征。利用高斯分布所得的初始化多原型 p_c 在槽注意力機制經過 l+1 次迭代后，學習得到符合數據分布的新多原型（P_c）^l+1 ：

其中： Λ_ω 表示一個用于數值穩定性的小系數，其值被設置為 1E-8

1.3特征融合和聯合優化

初始說話人嵌入 X∈R^N×D 在局部分支中，經由兩層圖卷積網絡層[20]得到新的節點輸出 G∈R^N×D' ，鑒于模型的復雜度，本文簡單地利用點積注意力機制，將局部相關性信息與說話人感知的全局信息進行融合：

其中： ω 表示一個用于數值穩定性的小系數，其值被設置為 1E-8

為有效探索局部和全局信息之間的交互過程，本文引入單分支的獨立優化和雙分支的一致性優化來對MPGNN進行聯合訓練。對于全局分支，在給定說話人嵌入 X∈R^N×D 和說話人類別數 c^* 的情況下，MPGNN為確保每個類別中不同說話人原型間的多樣性，引入正交損失：

其中： F 表示L2范數： _;I 表示單位矩陣，以實現軟正交約束。對于雙分支的一致性優化，引人均方誤差（mean squared error，MSE）：

其中： Y 表示真實標簽；表示局部分支輸出節點在與全局信息進行交互時對應的最相似說話人原型標簽。最后，將常用的有監督說話人日志損失 l_bce 與本文提出的兩個新的損失函數進行有效結合：

L=αl_ortho+βl_com+l_bce

其中： α 和 β 分別表示全局分支的獨立優化和雙分支一致性優化在總損失函數中的固定權重。

2 實驗與結果分析

2.1 數據集

為驗證MPGNN方法的有效性，本文選用說話人日志領域最常用的兩個公開數據集AMI和CALLHOME進行相關實驗。兩個數據集的統計描述如表1所示。

AMI數據集[21是一個全面的多模態英語數據集，共包含171個會議記錄，總對話時長高達 ^100h 。每場會議都以16kHz 的頻率進行采樣，每個對話最多有五個說話人參與。本文選用通用的AMISDM條件下的驗證集和測試集用于實驗。

NISTSRE2000（Disk8）也被稱為CALLHOME數據庫。該數據集是一個會話式多語言庫，總時長為 20h 。每個對話最多涉及七個說話人。作者通常采用5折交叉驗證方法[12.22]來評估其模型的性能。

2.2 評價指標

根據說話人日志任務需求，基于固定短切分的級聯學習方法更看重說話人識別的準確性。因此，本文選用當前使用頻率最高的說話人日志錯誤率（diarizationerrorrate，DER）作為評估指標來衡量不同方法的性能。其計算方式如下：

DER=FA+MS+SC

其中： FA （1alarm）表示語音的誤報率； MS （missed speech）表示語音的漏檢率； sc （speakerconfusion）表示說話人標簽的誤報率。前兩者主要用來評判語音檢測或語音分割的優劣，后者用來評判說話人識別的準確性。

2.3 實驗設置

實驗服務器配置為 4316 CPU，GPU采用GeForce RTX 3080Ti 。操作系統為Ubuntu20.04.4，使用Python3.9.17，CUDA11.3和PyTorch1.10.0作為開發環境。

參考前人工作[12.16]，本文采用與主流方法一致的前端工作，將長語音片段切分成1.5s固定長度的短片段，相鄰片段的重疊時長為 0.75s 。針對不同的數據集，利用Kaldi官方[23]提供的聲紋特征提取器分別提取512維和128維的X-vector[8]，兩個數據集的X-vector的訓練配置如表2所示。

GNN預訓練：為驗證圖結構校準過程的有效性，本文新增了最近鄰選擇、相似度重定義、閾值過濾的消融實驗。實驗在AMISDM數據集上，最近鄰數量 k 、平衡系數 λ 和相似度分過濾閾值 μ 最佳取值分別為 300.0.1 和0.3，由于CALLHOME數據集中錄音記錄相對較短，所以鄰居數 k 的最佳取值為30，平衡系數 λ 和相似度得分過濾閾值 μ 最佳取值分別為0.1和0.3。在整個實驗過程中，本文延續了前人工作[1的相同設置，采用兩層圖編碼器（GNN）并將其維度分別設置為 32，16 （24為更好地進行比較，本文使用了兩種當下主流的無監督聚類方法：凝聚層次聚類（agglomerativehierarchicalclustering，AHC）[6.24]和譜聚類（spectral clustering，SC）[25-27]，其中凝聚層次聚類的學習過程與工作[28]一致，新增一個用于全局主成分分析（principalcomponentsanalysis，PCA）的線性層。而譜聚類中針對說話人未知的情況，本文同文獻[27]一致，將余弦相似度矩陣進行特征間隙分析，預估說話人數量。

MPGNN訓練：為驗證多原型學習過程的有效性，本文新增了三個損失函數的消融實驗。將上述GNN預訓練的網絡作為編碼器，在多原型學習分支下，分別使用不同的損失函數組合對其進行微調。學習過程中，本文使用隨機梯度下降（stochasticgradientdescent，SGD）優化器對MPGNN進行了100個epochs的訓練，并將實驗重復10次取平均以避免極端值。其中，初始學習率為0.01，在第90個epoch后學習率設置為0.001。實驗在AMISDM數據集上，超參數 α?β 和原型數 p^* 最佳取值分別為 0.01，0.1 和10，CALLHOME數據集上超參數分別選擇為0.05、0.1和7。

本文使用dscore工具分別計算說話人已知和未知情況下，包含0.25s語音邊界不計分區域的SC說話人標簽誤報率以及不包含0.25s語音邊界不計分區域的DER總錯誤率，從而更好地與說話人日志領域特定數據集下主流方法進行比較。

2.4對比實驗

為充分驗證MPGNN的有效性，本節選擇當前主流的一些基于固定段切分的模塊化方法：ClusterGAN[29]、SSC-PIC[28]、SHARC[15]、GADEC[16]] GNN^[12] 與本文方法進行比較。表3給出了相關方法在AMISDM和CALLHOME數據集上DER指標的評估結果。為了更好地與主流方法進行比較，本文在計算DER的過程中與上述方法保持一致，選擇 Δw/outOVP+COL 這種去除重疊語音和增加 0.25s 語音邊界不計分區域的DER計算。其中，在AMISDM數據集上，本文方法延續了公開文獻中說話人未知情況下DER的錯誤率，而在CALLHOME數據集上，本文方法在實驗結果上保留了說話人已知和未知情況下的DER錯誤率。

表3在AMISDM和CALLHOME數據集上和其他公開工作的DER 對比Tab.3DER comparison on the AMI SDM and CALLHOME datasets/%

結合表3中的實驗數據，可以觀察到主流方法在AMISDM數據集上往往表現更佳，這是由于該數據集相對而言語音較長，模型能夠捕獲更多有利的說話人信息。在AMISDM和CALLHOME數據集上，MPGNN的DER和SOTA方法（例如GADEC）相比分別降低了 5.9%10.2%.36.6%.7.8% 。實驗結果表明，通過多原型驅動圖神經網絡以感知全局說話人特征的MPGNN方法，相較于利用高階鄰居來探索全局信息的GADEC方法，不僅能突破圖注意力層數的限制，減少額外的計算開銷，還能有效避免鄰居噪聲，降低說話人識別錯誤率。

2.5 消融實驗

為驗證提出的圖構建策略和原型驅動策略的有效性，本節在CALLHOME數據集上選擇和 x-vec+cos+SC 作為基線方法并對所提方法進行消融實驗。實驗結果分別如表4和5所示，表4中的策略1、2分別表示最近鄰選擇策略，相似度重定義 + 閾值過濾策略，表5中的L1、L2、L3分別表示有監督說話人日志損失、探索局部和全局信息交互的均方誤差損失 l_comp 以及確保類別原型多樣性的正交損失 l_ortho 。

圖構建策略的有效性：通過在基線模型上增加多步驟圖構建策略，如表4所示的 GNN+SC-l ，可以看出相較于基線模型x-vec+cos+SC ，以往公開文獻[16]中常用的最近鄰圖構建策略在CALLHOME數據集上并不奏效。鑒于本文使用的X-vector[8]聲紋信息汲取能力略遜于文獻[16]，但又為了能與主流方法更好地進行比較，本文在普通聲紋特征模型X-vector[8]的基礎上，增加相似度重定義 + 閾值過濾策略，實驗結果顯示GNN?SC-2 相比基線模型 μ_X-vec+cos+SC 在性能上有了明顯的提升，這也表明了該圖構建策略的有效性。

表5在CALLHOME數據集上原型驅動策略的消融實驗 Tab.5Ablation experiments of prototype-driven strategies on

原型驅動策略的有效性：通過在基線模型上增加不同原型驅動策略，如表5所示的MPGNN +SC-1 ，可以看出相較于基線模型 x-vec+cos+SC ，公開文獻[12＼～16]中常用的 l_bce 在多原型學習過程中并不奏效。這是由于本文在探索全局說話人信息的同時，說話人多原型又引入了噪聲。為此本文新增均方誤差損失 l_comp 原型驅動策略以及正交損失 l_ortho 原型驅動策略，實驗結果表明，MPGNN +SC-2 、MPGNN +SC.3 相比基線均有所下降，這證明了使用原型驅動策略在有效減輕多原型學習過程中說話人不匹配帶來的噪聲干擾影響的同時，能夠有效提升模型性能。

2.6 超參分析

本節將對所提方法引入的參數進行分析，包括圖構建策略中的過濾閾值 μ 和平衡系數 λ ，以及原型驅動策略中的超參數原型數 p^* 。實驗在AMI_SDM數據集上進行，結果如圖3所示。

在沒有原型學習時，過濾閾值 μ 和平衡系數 λ 對DER的影響如圖3（a）所示。在圖構建過程中用于平衡余弦相似度和杰卡德相似度重要性的參數 λ ，當 λ 為0時，僅考慮余弦相似度作為最終相似度；而當 λ 為1時，則僅使用杰卡德相似度。DER會先隨著 λ 的增大而降低，然后在超過閾值0.1后開始快速升高。在 λ 值過小時，少量的杰卡德相似度可以補充余弦相似度在說話人嵌入上的細微不足。而在 λ 值過大時，杰卡德相似度占比過大，不利于捕捉說話人嵌人之間的潛在關系。

此外，在圖構建過程中用于過濾較小相似度的閾值 μ DER會先隨著 μ 增加而降低，而當為 μ 分配一個較大的值時可能會過濾掉相關說話人嵌入導致的性能下降。由此，當設置平衡系數 λ=0.1 和閾值 μ=0.3 時，在說話人未知時獲得最佳測試集結果，即 4.17% 的識別錯誤率?？梢杂^察到，所提方法明顯優于基線的 5.97% 的識別錯誤率，表明使用圖構建策略是有效的。在增加多原型學習時，超參數原型數p^* 對DER的影響如圖3（b）所示，DER隨著 p^* 在一個合理范圍的增加而降低。當 p^* 過小時，類原型太少無法提供完整的全局說話人信息，而在 p^* 過大時，類原型過多導致不同說話人區分性較差。但本文方法在不同的 p^* 值上始終優于基線。這表明了使用多原型學習策略來捕獲全局說話人信息是有效的。

2.7 可視化分析

為了評估AMI_SDM數據集上MPGNN方法的有效性，本節選取開發集中一個會議樣本進行親和矩陣的可視化分析。如圖4所示，可以觀察到本文方法MPGNN在圖4（b）所示的親和矩陣可視化分析上，區分性明顯優于圖4（a）所示的基線模型的親和矩陣。這表明相比基線模型，MPGNN能使不同的說話人嵌人之間區別更加明顯，更有助于不同說話人之間的區分，這也充分說明了本文所提多原型驅動圖神經網絡在說話人日志領域的有效性。

圖4在AMI_SDM數據集上親和矩陣的可視化分析Fig.4Visual analysis ofaffinitymatrix on AMI_SDMdataset

3結束語

本文致力于解決說話人日志任務中基于固定短切分導致說話人信息不足的問題，提出了一種面向說話人日志的多原型驅動圖神經網絡方法MPGNN。相較于現有技術，MPGNN通過精心設計的四大核心模塊一圖構建、原型學習、信息融合及聯合優化，實現了對全局信息的深度捕捉與局部相關性的精細整合。盡管本文方法有效削弱了說話人信息不足對聚類效果的負面影響，但還存在一定的改進空間。后續工作中，將進一步考慮如何自適應地確定最近鄰數量 k 值以及如何將本文所提方法與聚類進行聯合學習等問題。

參考文獻：

[1]TranterSE，ReynoldsDA.An overview ofautomatic speaker diarizationsystems[J].IEEETrans on Audio，Speech，and LanguageProcessing，2006，14（5）：1557-1565

[2]Park TJ，KandaN，DimitriadisD，et al.Areview of speaker diarization：recent advances with deep learning[J].Computer Speech amp; Language，2022，72：101317.

[3]Zazo R，Sainath TN，Simko G，et al.Feature learning with rawwaveform CLDNNs forvoiceactivity detection[C]//Proc of InterSpeech. 2016：3668-3672.

[4]Chang S Y，LiBo， Simko G，et al. Temporal modeling using dilated convolutionand gating forvoice-activity-detection[C]//Procof IEEE International Conference on Acoustics，Speech and Signal Processing. Piscataway，NJ：IEEEPress，2018：5549-5553.

[5]YinRuiqing，Bredin H，Barras C. Speaker change detection in broadcast TV using bidirectional long short-term memory networks[C]// Proc of InterSpeech.2017.

[6]Sell G，Garcia-Romero D.Speaker diarization with PLDA i-vector scoringand unsupervised calibration [C]//Proc of IEEE Spoken Language TechnologyWorkshop.Piscataway，NJ：IEEEPress，2014： 413-417.

[7]Dehak N，KennyPJ，Dehak R，et al．Front-end factor analysis for speaker verification [J]. IEEE Trans on Audio，Speech，and LanguageProcessing，2011，19（4）：788-798.

[8]Snyder D，Garcia-Romero D，Sell G，et al.X-vectors：robust DNN embeddingsfor speakerrecognition[C]//Proc of IEEEInternational Conference on Acoustics， Speech and Signal Processing. Piscataway， NJ：IEEE Press，2018：5329-5333.

[9]Han KJ，Kim S，Narayanan S S. Strategies to improve the robustness of agglomerative hierarchical clustering under data source variation for speaker diarization[J]．IEEE TransonAudio，Speech，and Language Processing，2008，16（8）：1590-1601.

[10]Luxburg U.A tutorial on spectral clustering［J]．Statistics and Computing，2007，17（4）：395-416.

[11]LandiniF，ProfantJ，Diez M，et al.Bayesian HMMclustering of （204號 X -vector sequences（VBx）in speaker diarization：theory，implementation and analysis on standard tasks [J].Computer Speech amp; Language，2022，71：101254.

[12]Wang Jixuan，Xiao Xiong，Wu Jian，etal.Speaker diarization with session-level speaker embedding refinement using graph neural networks[C]//Proc of IEEE International Conference on Acoustics， Speech and Signal Processing. Piscataway，NJ：IEEE Press，2020： 7109-7113.

[13]KwonY，HeoHS，JungJW，et al.Multi-scale speaker embeddingbased graph attention networks for speaker diarization [C]/Proc of IEEE International Conference on Acoustics，Speech and Signal Processing.Piscataway，NJ：IEEE Press，2022：8367-8371.

[14]Wang Jie，Chen Zhicong，Zhou Haodong，et al.Community detection graph convolutional network for overlap-aware speaker diarization [C]//Proc of IEEE International Conference on Acoustics，Speech and Signal Processing. Piscataway，NJ：IEEE Press，2O23：1-5.

[15] Singh P，Kaul A，Ganapathy S. Supervised hierarchical clustering usinggraph neural networks for speaker diarization[C]//Proc of IEEE International Conference on Acoustics， Speech and Signal Processing.Piscataway，NJ：IEEE Press，2O23：1-5.

[16]Wei Yi，GuoHaiyan，Ge Zirui，etal.Graph attention-based deep embedded clustering for speaker diarization [J]. Speech Communication，2023，155：102991.

[17]Zeng Shan，Duan Xiangjun，Bai Jun，et al.Soft multiprototype clusteringalgorithmviatwo-layersemi-NMF[J].IEEETrans on Fuzzy Systems，2024，32（4）：1615-1629.

[18]IoffeS.Probabilistic lineardiscriminantanalysis[C]//Procofthe 9th European Conference on Computer Vision.Berlin：Springer， 2006：531-542.

[19］朱必松，毛啟容，高利劍，等．基于時間分段和重組聚類的說話人日志方法[J]．計算機應用研究，2024，41（9）：2649-2654. （ZhuBisong，MaoQirong，Gao Lijian，etal.Temporal-segment-andregroup clustering for speaker diarization [J].Application ResearchofComputers，2024，41（9）：2649-2654.）

[20]Kipf TN，Welling M. Semi-supervised classfication with graph convolutional networks[EB/OL].（2016-09-09）．htps：//arxiv.org/ abs/1609.02907.

[21]Kraaij W，HainT，LincolnM，etal.TheAMImeetingcorpus[C]// Proc of International Conference on Methods and Techniques in Behavioral Research.2005：1-4.

[22]Lin Qingjian，Yin Ruiqing，LiMing，et al．LSTM based similarity measurement with spectral clustering for speaker diarization [EB/ OL].（2019-07-23）. https：//arxiv.org/abs/1907.10393.

[23]PoveyD，Ghoshal A，BoulianneG，etal.TheKaldispeech recognition toolkit[C]//Proc of IEEE Workshop on Automatic Speech Recognition and Understanding. Piscataway，NJ：IEEE Press，2011.

[24]SellG，Snyder D，McCree A，et al.Diarization is hard：some experiences andlessonslearned for the JHU team in the inaugural DIHARD challenge [C]//Proc of InterSpeech.2018：2808-2812.

[25]Ning Huazhong，Liu Ming，Tang Hao，et al.A spectral clustering approach to speaker diarization [C]//Proc of InterSpeech．2006： 2178-2181.

[26]Wang Quan，Downey C，Wan Li，et al.Speaker diarization with LSTM[C]//Proc of IEEE International Conference on Acoustics， Speech and Signal Processing. Piscataway，NJ：IEEE Press，2018： 5239-5243.

[27]Park TJ， Han K J，Kumar M，et al. Auto-tuning spectral clustering forspeaker diarization using normalized maximum eigengap[J]. IEEESignal Processing Letters，2019，27：381-385.

[28]Singh P，Ganapathy S. Self-supervised representation learning with pathintegral clustering for speaker diarization[J].IEEE/ACM Trans on Audio，Speech，and Language Processng，2021， 29：1639-1649.

[29]Pal M，KumarM，Peri R，et al．Speaker diarizationusing latent space clustering in generative adversarial network[C]//Proc of IEEE International Conference on Acoustics，Speech and Signal Processing. Piscataway，NJ：IEEE Press，2020：6504-6508.