999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于對抗不變性解散的說話人識別*

2022-05-10 07:28:16黃多林鄭智燊
計算機與數字工程 2022年4期
關鍵詞:特征實驗模型

黃多林 劉 棟 鄭智燊

(江蘇大學計算機科學與通信工程學院 鎮江 212013)

1 引言

近幾年,眾多研究表明深度學習在說話人識別領域的特征學習中取得了巨大的成功,許多研究人員開發出利用深度神經網絡結構來生成說話人特定表征形式[1~2]的模型。深度學習模型是進行復雜數據分析的一種強大工具,這些模型對于文本相關[3]和文本無關[4~5]的說話人識別任務表現出優異的識別性能,逐漸成為語音領域的主流框架。

本文探索一種在說話人特征中引入魯棒性的方法,以應對復雜的聲學環境。采用最近在視覺領域中提出的無監督對抗不變性(UAI)框架[6]作為基準模型進行改進,提出基于對抗不變性解散的說話人識別方法(Speaker Recognition Based on Adversarial Invariance Disentangled,SR-AID)。該方法將i-vector[7]映射到兩個低維的嵌入空間中解散出兩個潛在特征,第一個潛在特征通過注意力機制和解散模塊的訓練,只包含說話人相關的可區分性信息,而所有其他說話人無關信息則被提取到第二個潛在特征中。實驗結果證明,注意力機制和解散模塊能夠提高說話人識別準確率,即幫助第一個潛在特征學習到說話人相關信息。

SR-AID與文獻[6,8]中提出的無監督對抗不變性技術的改進之處在于本文的方法利用注意力機制分離出第一個潛在特征的干擾因素,通過解散模塊重構出第二個潛在特征,使干擾因素流入到第二個潛在特征以學習到說話人無關信息用于重構i-vector,從而使第一個潛在特征只包含與說話人識別相關的信息來提高說話人識別性能。

2 對抗不變性解散網絡

2.1 i-vector特征提取

i-vector特征顯示出對說話人識別任務較好的魯棒性,并且與PLDA[9]一起實現了最先進的性能。因此,本文使用i-vector作為模型的輸入特征。在實驗中,語音信號以16kHz的采樣率采樣,并以25ms的漢明窗(以10ms的偏移)進行分幀。采用隱馬爾可夫模型工具包(HTK)[10]提取MFCCs聲學特征,然后采用MSR工具箱[11]構建GMM-UBM系統來提取i-vector。

2.2 無關信息特征選擇

編碼器將所有預提取好的i-vector映射到兩個低維嵌入空間,得到A1和A2潛在特征用于不同的任務,即A1只包含與說話人相關的信息,而所有其他的干擾因素被A2捕獲。本文使用注意力機制從A1中選擇出說話人無關信息A'1,再與A2拼接后重構輸入i-vector,計算方式如式(1)所示:

其中θ表示注意力層的輸出權重向量,通過將潛在特征A1與注意力權重θ相乘來選擇所有其他說話人無關信息。權重向量θ可以通過式(2~3)計算:

其中f(·)表示多層感知機,ω代表中間變量。

2.3 對抗不變性說話人識別

本文采用對抗不變性解散技術的目的是進一步消除i-vector中干擾信息的影響,數據集中所有說話人的語音信號都已經被預提取為i-vector特征向量,一條語音被提取為一個i-vector向量。

SR-AID的對抗思想主要體現在包含編碼器、解碼器以及分類器的主模型與包含兩個解散模塊的對抗模型之間形成了極小極大游戲。主模型的目標是最大化潛在特征A1對說話人預測的分類能力,并使用A2對其進行重構,而對抗模型則最小化A1和A2的分類能力,因此,這種對抗訓練使兩個潛在特征解散開來,該方法的總目標函數如式(4)所示:

式(4)中解碼器和分類器之間形成一種競爭關系,分類器希望提取與說話人y相關的信息到A1中,而解碼器嘗試將所有關于i-vector(X)的信息提取到A2中,通過注意力層從A1中提取說話人無關信息和A2拼接在一起重構X。這種競爭關系使X的信息分別流入到A1和A2中,A1傾向于包含更多與說話人y相關的信息,而A2傾向于包含更多與識別任務無關的信息。但是,這種競爭并不能夠保證A1和A2之間形成完全互補關系,A2中可能包含說話人相關信息,更嚴重的是A1中可能包含無關信息的干擾因素,進而影響模型識別性能。因此,式(4)中的Ldis1和Ldis2兩個解散模塊嘗試對潛在特征A1和A2進行“清理”。其中,編碼器、解碼器、分類器和兩個解散模塊的參數分別用?e、?d、?p、?d1和?d2表示,本算法通過反向傳播的方式進行端到端訓練,采用式(5)中的極大極小策略優化。

SR-AID使用交叉熵損失函數優化分類器,而解碼器和兩個解散模塊使用均方誤差損失函數。在多分類任務中,交叉熵損失可以衡量真實說話人標簽y與模型預測標簽y^的相似性,通過反向傳播算法,最小化二者的誤差來更新網絡,對于一個訓練樣本的交叉熵計算方式如式(7),首先通過式(6)的分類器計算出樣本的預測標簽y^,再和真實標簽一起計算損失。

在重構任務中,均方誤差常被用來評價重構的數據序列與真實值的偏離程度,解碼器和兩個解散模塊的損失計算如式(8)。

其中Z表示真實數據,例如代表解碼器中的i-vector或解散1中的A2以及解散2中的A1。Z^分別表示不同模塊重構出的數據序列,N表示數據的維數。

在實驗中,編碼器、解碼器分別包含3個隱藏層,每層的節點數為256、512和256,分類器包含一個節點數為512的隱藏層,而兩個解散模塊分別包含1個節點數為256的隱藏層,潛在特征A1和A2的尺寸分別為256和128。基于文獻[6]中的分析,在α遠大于β的情況下,通過遞增β的值來觀察分類器的性能選擇β。最后,將分類器的損失權重值α設置為100,編碼器的損失權重值β設置為4,以及解散模塊的損失權重γ設置為2時,模型的性能最好。對模型進行了2500次迭代訓練,批量樣本大小為128。將編碼器、解碼器和分類器看作是主模型,將解散模塊1和解散模塊2看作是對抗模型。在每個迭代期間,每進行一次批量的主模型更新時,使用5次批量的對抗模型更新訓練。使用Adam優化器優化主模型和對抗模型,學習率分別設置為1e-2和1e-3,并且兩者的權重衰減因子均為1e-4。對抗不變性解散訓練的步驟如下。

3 實驗

3.1 實驗環境

本文所有實驗的環境都是基于Ubuntu16.04LST操作系統,GPU為NVIDIA TIITAN X,編程語言為Python3.5,深度學習開發框架為PyTorch。

3.2 實驗數據

實驗采用TIMIT[12]數據集來評估本文方法的性能。該數據集是由麻省理工學院(MIT),SRI International(SRI)和Texas Instruments,Inc.共同設計,在TI(Texas Instruments)錄制,并由美國麻省理工學院(MIT)轉錄,國家標準與技術研究所(NIST)對CD-ROM的生產進行了驗證和準備。TIMIT包含美國8個主要方言地區的630位演講者的寬帶錄音,每位演講者被要求朗讀10個語音豐富的句子。數據集包含時間對齊的字形,豐富的語音內容和單詞轉錄,以及每個發音為16kHz語音.wav格式的波形文件,該數據集常用于說話人識別和語音識別模型好壞評判的基準數據集。

3.3 TIMIT數據集上不同方法準確率對比

為評估SR-AID的識別性能,在兩類數據劃分設置下與其他幾種公認的說話人識別方法進行比較:GMM-UBM[13~14]、i-vector/PLDA[14]、EML[15]和VAE[14]。兩類不同的數據劃分統計如表1和表2所示,而ELM[15]和VAE[14]方法分別是這兩類數據劃分下目前準確率最高的方法,GMM-UBM和i-vector/PLDA是TIMIT數據集上的基準方法。

表1 TIMIT上120個說話人樣本的訓練集和測試集的實驗設置

表2 TIMIT上630個說話人樣本的訓練集和測試集的實驗設置

表3展示了TIMIT數據集上說話人數量為120時不同方法的識別準確率。在相同GMM混合物數量(256)和i-vector維度(100)的條件下,SR-AID比基準方法的準確率提高了4.41%,比最好的方法ELM高2.74%。

表3 TIMIT上120個說話人的準確率對比

為了評估SR-AID對比VAE的性能,采用所有說話人(630位說話人)的語音數據訓練,實驗設置如表2。從表4的實驗結果觀察可知,SR-AID的識別準確率比基準方法GMM-UBM和i-vector/PLDA分別提高了8.58%和8.42%,比最好的方法VAE提高了2.86%。

表4 TIMIT上630個說話人的準確率對比

表4和表5的結果清楚地表明本文方法在TIMTI數據集上,相對于最好的說話人識別方法,準確率有明顯地提升。

3.4 解散層與注意力機制對模型的影響

本小節在測試集損失和測試集準確率兩個方面上,分析解散層、注意力機制和編碼器分別對SR-AID的影響。在損失對比實驗中,本文只在630人的數據設置下進行實驗。準確率的對比實驗是在120人和630人兩種數據設置下實現。

3.4.1 測試集損失的對比實驗

圖2直觀地展示了移除注意力機制的方法與SR-AID對測試集損失的影響。有注意力機制和無注意力機制兩種情況下,有注意力機制時損失值下降更低。并且隨著迭代次數增加,無注意力機制的損失值出現往上輕微波動,而有注意力機制的本文方法表現穩定,甚至有繼續下降的趨勢。

圖2 注意力機制對測試集損失的影響

同樣從圖3中觀察可知,有解散層的SR-AID比無解散層的損失值更低。不斷訓練的過程中,有解散層的SR-AID使損失值繼續下降,與無解散層的損失值拉開距離。

圖3 解散模塊對測試集損失的影響

從圖4可知,無編碼器的SR-AID損失在訓練初期下降較快,這是由于編碼器相對于注意力層和解散模塊,擁有更多的參數需要訓練,因此無編碼器的SR-AID對比上述兩種情況下的SR-AID,模型參數量更少,所以圖1和圖2中的訓練前期,有無注意力機制和有無解散層的對比損失的下降速率十分接近。但是隨著迭代次數的不斷增加,無編碼器的SR-AID損失幾乎沒有變化,而有解碼器的SR-AID下降明顯。

圖1 基于對抗不變性解散的說話人識別方法

圖4 解碼器對測試集損失的影響

3.4.2 測試集上的識別準確率對比實驗

為了驗證SR-AID的注意力機制是否能夠有助于提高說話人識別準確率,做了如下對比實驗,用Dropout代替注意力層選擇潛在特征A1中說話人無關信息到解碼器中,結果如表5所示。

表5 有無注意力層的說話人識別準確率對比

從表5可知,在120人和630人數據劃分下,有注意力層的準確率比無注意力層的準確率分別提高了1.99%和2.27%。結果驗證了本文方法的注意力層能夠幫助潛在特征A1捕獲更多說話人相關信息以及分離其他干擾因素來提高模型識別性能。

從圖3可知,在模型訓練時,有解散層使測試集的損失更低,但是否能夠提高說話人識別準確率,卻有待驗證。因此,表6展示了有解散層與無解散層兩種情況下的準確率對比結果。

表6 有無解散層的說話人識別準確率對比

表6顯示,在120人和630人數據劃分下,有解散層的本文方法的準確率比無解散層的準確率分別提高了1.04%和1.11%。結果驗證了本文方法中的解散層確實解散出說話人相關特征,提高說話人識別任務的準確率。通過對比圖2和圖3以及表5和表6可知,注意力機制比解散層對SR-AID的作用更大。

為了驗證編碼器是否對SR-AID起到積極作用,表7展示了在120人情況下,有編碼器的SR-AID比無編碼器時提高0.78%,在630人情況下提高0.81%,實驗結果表明解碼器對本文方法的有效性。

表7 有無解碼器的說話人識別準確率對比

5 結語

本文提出一種對抗不變性解散的說話人識別方法,通過對抗不變性解散訓練和注意力機制,從語音信號包含的所有其他干擾因素中學習到說話人相關信息,得到說話人魯棒性特征,并將這些說話人特征用于說話人識別任務。在TIMIT數據集上的實驗結果驗證了本文方法的有效性,在兩類數據設置下均取得了最高的識別準確率,并且通過實驗分析了注意力機制、解散層和編碼器對本文方法的影響。在未來的工作中,我們將關注于使用低維的聲學特征通過該方法獲得說話人嵌入特征,進一步提高在其他復雜場景下的說話人識別魯棒性。

猜你喜歡
特征實驗模型
一半模型
記一次有趣的實驗
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
做個怪怪長實驗
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
NO與NO2相互轉化實驗的改進
主站蜘蛛池模板: 九色91在线视频| 国产麻豆永久视频| 亚洲一区二区三区中文字幕5566| 婷婷色婷婷| 欧美日韩亚洲国产| 亚洲成aⅴ人在线观看| 狠狠五月天中文字幕| 色偷偷一区| 91麻豆久久久| 国产精品高清国产三级囯产AV| 伦伦影院精品一区| aaa国产一级毛片| 国产啪在线| 亚洲香蕉久久| 国产成人三级| 5555国产在线观看| 亚洲一区二区精品无码久久久| 免费视频在线2021入口| 久久国产精品77777| 一本大道视频精品人妻| 色国产视频| 国产一区三区二区中文在线| 日韩成人免费网站| 黄色片中文字幕| 88av在线| 人妻无码中文字幕一区二区三区| 无码粉嫩虎白一线天在线观看| 午夜无码一区二区三区在线app| 色妞www精品视频一级下载| 美女国产在线| 国产日韩精品一区在线不卡| 国产午夜看片| 99热国产这里只有精品无卡顿"| 久久精品娱乐亚洲领先| 91青青草视频在线观看的| 久久久久亚洲Av片无码观看| 99资源在线| 精品国产中文一级毛片在线看 | 国产视频你懂得| 国产人成在线观看| 色综合a怡红院怡红院首页| 欧美国产日本高清不卡| 97无码免费人妻超级碰碰碰| 亚洲黄网视频| 欧美一级大片在线观看| 黄色网页在线观看| 成人一级黄色毛片| 色综合五月婷婷| 四虎国产在线观看| 国产精品视频观看裸模| 免费人成网站在线观看欧美| 丁香五月激情图片| 91无码人妻精品一区| 婷婷五月在线视频| 色有码无码视频| 5555国产在线观看| 成人在线天堂| 黄色网址免费在线| 亚洲AV免费一区二区三区| 日韩在线影院| 精品视频免费在线| 一区二区在线视频免费观看| 亚洲一区二区三区国产精品| 国产精品v欧美| 亚洲第一极品精品无码| 欧美有码在线| 一级成人a做片免费| 亚洲天堂2014| 伊人久久久大香线蕉综合直播| 久久亚洲AⅤ无码精品午夜麻豆| 在线另类稀缺国产呦| 国产欧美精品一区二区| 亚洲欧洲日韩综合| 中文字幕日韩丝袜一区| 伊人久久大香线蕉aⅴ色| 蜜桃视频一区| 精品福利一区二区免费视频| 亚洲一区二区三区在线视频| 亚洲男人天堂久久| 国产精品久久久久久久久| 九色视频最新网址| 色综合中文字幕|