楊小虎 程 錦 朱蒼璐
(1.安徽醫學高等專科學校公共基礎學院;2.安徽三聯學院計算機工程學院 安徽合肥 230601)
零資源語音處理領域的發展旨在開發無監督的方法,在轉錄、詞匯和語言建模文本不可用的情況下,可以直接從原始語音音頻中學習。這些方法對于在轉錄數據難以收集的語言中提供語音技術是至關重要的,例如,一些不成文或瀕危的語言[1]。此外,這些方法的發展可能會揭示人類是如何進行語言的學習[2,3]。現有的幾個零資源學習任務主要包括聲學單元發現[4-6],無監督表示學習[7-9],示例查詢搜索[10,11]和主題建模[12,13]。早期的工作主要集中在無監督的術語發現上,目標是在一組語音中自動找到重復的單詞或短語模式[14-16]。雖然有用,但發現的模式通常是分散在數據上的孤立片段,留下許多語音作為背景。這促使了一些關于全覆蓋方法的研究,其中整個語音輸入被分割并聚集成類似單詞的單元[17-21]。兩種典型應用在零資源語音挑戰中賽上的全覆蓋系統提供了一個有用的對比基準:1、貝葉斯嵌入的分段高斯混合模型[22]:一種概率模型,它將潛在的詞段表示為固定維的聲學詞嵌入,然后在這個嵌入空間中構建一個全詞聲學模型,同時共同進行分割。2、循環音節單元分割器[23]:這是一種認知驅動的快速啟發式方法,它應用無監督音節分段和聚類,然后預測作為單詞的循環音節序列。這兩個模型代表了零資源系統中常見的兩個方法論極端,即要么使用具有收斂保證的概率貝葉斯模型[6,19],要么在管線方法中使用啟發式技術[18]。
針對該問題,本文提出了一個介于這兩個極端之間的高斯混合模型近似,即嵌入式分段K-Means模型,使用硬聚類和分段,而不是完全基于貝葉斯的推理過程。然而,與啟發式方法不同的是,它有一個明確的目標函數。與貝葉斯嵌入分段的高斯混合模型相比,由于不需要概率抽樣,因此嵌入式分段K-Means方法超參數少,優化算法簡單,效率更高。從監督語音識別發展以來,就一直使用硬近似法進行概率建模,因此本文也遵循使用這種方法。然而,所有這些研究都將其應用到逐幀建模方法中,而本文的方法是對整個語音片段的嵌入式表示進行操作。人們越來越關注這種聲學單詞嵌入方法[11],因為它們使得在固定維度空間中容易且有效地比較可變長度的語音片段成為可能。本文分析了相對于原始的貝葉斯嵌入分段高斯混合模型等方法,嵌入式分段KMeans方法的硬近似是如何影響速度和精度的。在英語和聰加語數據上,我們表明嵌入式分段K-Means在分詞方面優于循環音節單位分割器,并給出與貝葉斯嵌入分段高斯混合模型相似的分數,同時速度快5倍。然而,嵌入式分段K-Means的聚類純度落后于其他兩種模型,貝葉斯嵌入分段高斯混合模型的高純度是因為它傾向于產生更小的聚類,這種聚類不同于嵌入式分段K-Means,也可以使用超參數來改變。
從標準的K-Means方法出發,本節描述了嵌入式分段K-Means算法的優化目標和具體算法實現。
(一)從K-Means到嵌入式分段K-Means目標函數。給定一個由聲學幀組成的語音y1:m=y1,y2,…,yM(例如MFCC),我們的目標是將序列分解成類似單詞的片段,并將這些片段聚類成假設的單詞類型。如果已知分段(即在單詞邊界出現的地方),數據將由幾個不同持續時間的段組成,如圖1的底部所示。為了對這些數據進行聚類,我們需要一種方法來比較可變長度的向量序列。一種選擇是使用基于對準的距離測量,例如動態時間扭曲。這里我們采用聲學單詞嵌入方法[11]:嵌入函數fe用于將可變長度的語音段映射到固定維度空間中的單個嵌入向量x∈RD,即將段yt1:t2映射到一個向量xi=fe(yt1:t2),用水平向量表示。其基于的思想和假設是,聲學上相似的語音片段應該在RD中緊密地放在一起,允許片段在嵌入空間中直接有效地比較,而無需先進行對齊。目前已經存在各種各樣的嵌入方法,從基于圖的方法到無監督的遞歸神經方法。我們對每個片段進行均勻的下采樣,使其成為相同固定數量的向量表示,然后對其進行展開,以獲得嵌入的特征向量。嵌入式分段K-Means對嵌入的方法是不可知的,所以后續可以直接合并對嵌入的改進。
將數據集中所有的片段進行嵌入會得到一組向量,可以使用K-Means將其聚類成K個假設的詞類,如圖1頂部所示。標準的K-Means方法旨在最小化每個聚類均值的平方歐幾里德距離之和。在將向量重新分配給最接近的聚類均值,然后更新均值,并反復交替迭代。
如果分段是已知的,則常規的K-Means方法是比較合適的,但在零資源設置中則相反,嵌入X可以根據當前的分段而變化。對于一個話語的數據集S,我們把分段表示為Q={qi}Si=1,其中qi表示話語i的邊界。X(Q)用于表示當前分段下的嵌入。我們的目標是聯合優化聚類分配z和分段Q。
其中Xc∩X(Q)是分段Q下分配給聚類c的嵌入。但這是有問題的,我們不是為每個片段指定一個分數,而是為每個幀指定一個分數。該分數由該幀所屬的片段獲得的分數統一給出,這意味著片段分數由持續時間的加權獲得:

其中len(x)是序列中用于計算嵌入x的幀數。
整個嵌入式分段K-Means算法隨機初始化單詞的邊界,然后通過在保持聚類分配z和均值{μc}Kc=1固定的同時利用公式1來交替優化分段Q (圖1中從上到下所示),然后在保持分段固定的情況下優化聚類分配和均值(圖中從下到上)。

圖1 用于語音無監督分段和聚類的嵌入式分段K-Means模型
(二)分段。在固定的聚類z的情況下,目標(1)變為:

公式2可以針對每個話語分別進行優化。我們希望找到每個話語的分段q,并給出該分段下的嵌入分數總和的最小值。這正是最短路徑算法(Viterbi)使用動態規劃來解決的問題。
假設qt是在假設的以幀t結束的分段(詞)中的幀數:如果qt=j,那么yt-j+1:t是一個詞。我們將前向變量γ[t]定義為直到邊界位置的最優得分,其中q:t是直到t的分段決策序列。可以通過如下公式進行遞歸計算:

具體來說,從γ[0]=0開始,我們對1≤t≤M-1分別遞歸計算公式3。我們跟蹤每個γ[t]的最佳選擇,然后通過從最終位置t=M開始并向后移動,重復選擇最佳邊界來給出整體最佳分段。
(三)聚類分配和均值更新。對于固定的分段Q,目標(1)變為:


最后,我們修正分配的聚類中心z并更新其均值:

公式6是分配給聚類c中所有向量的平均值,由持續時間進行加權,保證公式1的正向優化。我們使用近似值,即如果所有分段具有相同的持續時間,該近似值也是準確的,以再次進行K-Means方法的匹配過程,Nc是當前分配給聚類c的嵌入數量。
(四)貝葉斯嵌入分段高斯混合模型。貝葉斯高斯混合模型將其混合權重π和分量均值作為隨機變量,而不是點估計,就像常規高斯混合模型的做法一樣。我們使用共軛先驗:π上的狄利克雷先驗和μc上的球協方差高斯先驗。所有分量共享相同的固定協方差矩陣σ2I。模型定義為:

在這個模型下,組件分配和分段可以使用折疊吉布斯采樣器進行聯合推斷。然而,對于貝葉斯嵌入分段高斯混合模型,組件分配和分段是遵循的概率抽樣。當方差接近零時,標準的K-Means由高斯混合模型產生。以類似的方式,可以證明貝葉斯嵌入高斯混合模型方法中的分段和分量分配過程分別和(3)和(5)步驟相似,當所有其他超參數都固定時,σ2趨近0。
本文分別進行兩組實驗。首先,我們在零資源語音挑戰賽2015的數據上比較嵌入式分段K-Means與循環音節單元分割器以及貝葉斯嵌入分段高斯混合模型。后兩個方法都曾應用于該較小的語料庫,是用于方法比較分析的理想選擇。
(一)實驗設置和評估。正如在[20,22]中一樣,我們使用幾個指標來進行方法評估。通過將每個發現的單詞標記映射到與其重疊最多的真實標記,然后將每個聚類映射到其最常見的單詞,可以計算平均聚類純度和無監督單詞錯誤率(WER)。相反,通過將每個標記映射到與其重疊最多的真實音素序列,可以計算同一聚類中所有片段之間的歸一化編輯距離(NED);NED越低越好,分數從0到1。而詞邊界精度、召回率和F-score通過比較提出的和真實的詞邊界來評估切分性能;同樣,單詞標記精度、召回率和F-score衡量提出的單詞標記間隔的準確性。單詞類型精度、召回率和F-score將唯一音素映射的集合與真實詞典中的集合進行比較。在該數據集中不考慮聚類(簇)純度和WER指標,因此對于某些方法并沒有報告這些指標。
本文嵌入分段K-Means方法的實現盡可能遵循[22]中的貝葉斯嵌入分段高斯混合模型的實現。兩者都使用均勻下采樣作為嵌入函數fe:一個段由10個等間距的MFCCs通過適當的插值來表示。兩種模型都使用無監督音節預切分[23]來限制單詞邊界。對于貝葉斯嵌入分段高斯混合模型,我們使用模擬退火,一個全零矢量的和σ2=0.001。
(二)與其他方法的比較和分析。在第一組實驗中,我們使用了兩個數據集:一個是來自12個說話者的大約5個小時的英語語料庫,一個是來自24個說話者的2.5個小時的聰加語料庫。我們還使用一套單獨的6小時英語語料庫進行開發。為了與以前方法的結果[22,23]進行比較,這里的所有系統都應用于與說話者相關的設置,并且結果在不同說話者之間進行平均。如[22]中所述,對于嵌入式分段KMeans和貝葉斯嵌入式分段高斯混合模型,K被設置為首過分段音節數的20%。候選單詞最多只能跨越6個音節,并且持續時間必須至少為200毫秒。
表1顯示了三種模型在英語和聰加語料庫上的表現。循環音節單元分割器的一些分數是未知的,因為這些分數不是該挑戰賽中評估的一部分[23]。與貝葉斯嵌入分段高斯混合模型相比,嵌入分段KMeans的純度、WER以及NED指標更差,但邊界、標記和F-score相似。這帶來了5倍的運行時間提升。同時,其NED指標也比循環音節單元分割器差,但單詞邊界、標記和F-score要好得多,然而循環音節單元分割器的速度是它的兩倍。

表1 模型在兩個測試語料庫上的表現
因此,在分詞分數(邊界分數、標記分數)和詞匯質量(類型分數)方面,嵌入分段K-Means是有競爭力的,但在基于純度的度量標準(純度、WER、NED)方面落后。與貝葉斯嵌入分段高斯混合模型的區別特別有趣,因為σ2被設置得相當小,而嵌入分段K-Means是在σ2趨于0的限制下從貝葉斯嵌入分段高斯混合模型得到的結果。為了理解純度上的差異,我們在一個英語說話者身上分析對比了這兩種方法。
圖2顯示了兩種模型的5個最大聚類(簇)。與嵌入分段K-Means相比,貝葉斯嵌入分段高斯混合模型輸出更多更小的具有更高純度的團簇(通常在不同的團簇上分離相同的詞)。通過觀察嵌入分段K-Means分配給同一個聚類的標記,發現盡管標記與不同的真實標簽重疊,聚類分配在質量上是可感知的。例如圖3顯示了分配給圖2中“be”簇標記的光譜圖,也顯示了具有最大重疊的真實單詞標簽。對于“seventy”和“already”標記,這些段只覆蓋了一部分真實單詞(粗體),而“that you”標記實際上在上下文中發音為[dh uw]。因此,盡管映射到不同的真實標簽,這些片段形成一個合理的聲學組。

圖2 嵌入分段K-Means和貝葉斯嵌入分段高斯混合模型的最大5個簇(聚類)(圓半徑根據簇的大小;陰影表示純度。還顯示了聚類到真實單詞的映射)

圖3 圖2中映射為“be”的嵌入分段K-Means群的隨機標記的光譜圖。每個真實單詞中被該段覆蓋的部分以粗體顯示
通過將發現的令牌更均勻地分布在聚類上(圖2),貝葉斯嵌入分段高斯混合模型產生了一個聚類,可以更好地匹配評價指標,雖然嵌入分段K-Means的聚類可能主觀上是更加合理的。貝葉斯嵌入分段高斯混合模型的這種擴展(或稀疏性)可以通過固定的球形協方差參數σ2來控制,該參數影響嵌入到聚類的軟分配和分段。表2顯示了σ2變化時開發集上的性能。當σ2太大時,大部分標記被大量的大無關簇吸上來;當σ2較小時,更多的標記被分配給單獨的簇。相比之下,嵌入分段K-Means方法沒有σ2參數,只考慮單個最接近的聚類。

表2 隨著方差的變化,在英語開發集上的表現(%)
本文提出了一種嵌入式分段K-Means模型,這是一種介于完全貝葉斯嵌入分段高斯混合模型和認知驅動啟發式方法之間的方法。其分詞性能與貝葉斯嵌入式分段高斯混合模型不相上下,優于循環音節單位分割器,但聚類純度比其他兩種方法都差。就效率而言,它比貝葉斯嵌入式分段高斯混合模型快5倍,但只有循環音節單位分割器的一半。盡管使用了硬聚類和分段,嵌入式分段K-Means仍然有一個明確的目標函數,保證了到局部最優解的收斂。由于其效率的顯著提高,我們還能夠將嵌入式分段K-Means應用于更大的語料庫,并展現出更好的性能。