999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

盲源分離技術研究:有監督與無監督

2022-11-10 06:40:00朱炎民
計算機時代 2022年11期
關鍵詞:深度監督信號

馬 昊,鄭 翔,張 煜,陳 敏,朱炎民

(1.陸軍工程大學通信工程學院,江蘇 南京 210007;2.解放軍32125部隊;3.解放軍31101部隊)

0 引言

盲源分離是指從接收到的混合信號中分離出未知源信號的過程,即對于系統中測得的傳感器信號x(t)=[x1(t),x2(t),…,xm(t)]T(m為接收端陣元數),要求找到一個逆系統以重構原始的源信號s(t)=[s1(t),s2(t),…,sn(t)]T(n為發射端陣元數)[1]。由于源信號s(t)未知,源信號如何混合得到觀測信號也未知,這體現了求解問題的“盲”。盲源分離技術根據源信號與觀測信號數目關系分為欠定(m<n)、正定(m=n)和超定(m>n)[2]盲源分離。隨著盲源分離技術的研究和運用越來越深入,盲源分離在醫學信號處理、機械故障檢測、圖像處理識別、雷達及通信信號處理等方面都發揮著重要的作用[3-5]。

1 盲源分離類型

盲源分離問題根據關注點的不同存在不同的劃分方式。根據混合方式不同,主要分為線性混合和非線性混合,而線性混合又包括線性瞬時混合和線性卷積混合兩種。具體描述如下:

1.1 線性瞬時混合

線性瞬時混合是最理想的一種混合方式,也是研究另外兩種類型的基礎。線性瞬時混合模型如下:

其中,v(t)為噪聲,A是未知的混合矩陣。如圖1 所示,在s(t)和混合矩陣A均未知的情況下,源信號y(t)可通過盲源分離算法只根據觀測信號x(t)恢復出來。

圖1 線性瞬時混合信號分離示意圖

1.2 線性卷積混合

由于在實際的信號傳播過程中,多徑和時延幾乎是無法避免的。因此線性卷積混合將多徑和時延因素納入到模型中,其表達式如下:

其中,Q表示無線傳播路徑數,Aq表示第q個傳播路徑下的混合矩陣,δ(·)表示脈沖響應,和別為第i個源信號通過第q個路徑到第k個傳感器的振幅衰減和時延。卷積混合的盲源分離本質是通過解卷積運算進而估計源信號。

1.3 非線性混合

非線性混合主要應用于圖像處理中。一般非線性混合模型如下:

其中,f(·)是可逆非線性映射,一般非線性盲源分離就是在s(t)及f(·)未知情況下求得一個映射g:y(t)=g[x(t) ]。

2 盲源分離算法

截止目前,盲源分離算法可分為兩大類:一類是無監督分離算法,此類算法主要是以信號的某種特性或者先驗知識作為分離準則,比如信號的獨立性、非高斯性、稀疏性、非負性、有界性等,由此衍生出獨立成分分析(Independent Component Analysis,ICA)[6]、稀疏分量分析(Sparse Component Analysis,SCA)[7]、非負矩陣分解(Non-negative Matrix Factorization,NMF)[8]、有界成分分析(Bounded Component Analysis,BCA)[9]等經典的分離算法;另一類是有監督分離算法,即通過搭建深度學習框架,利用大規模的已知信號對其進行訓練,得到映射函數或掩碼矩陣,以此對未知混合信號進行分離[10],此類算法在語音分離領域得到了成功應用。

2.1 無監督分離

一般的盲源分離算法主要分為兩步:首先估計分離矩陣,然后對混合信號進行分離。分離矩陣的估計算法主要由代價函數和優化算法兩部分組成。通過構建代價函數,將盲源分離問題轉換為最優化問題,通過選擇合適的優化算法尋求目標函數的最值,以此估計分離矩陣;分離算法的核心在于根據源信號特性構建優化目標函數。利用混合矩陣和源信號的不同特性,發展出不同的BSS 理論,即:①如果源信號S是統計獨立的,則可以通過ICA方法進行信號分離;②如果源信號S在源域或變換域是稀疏的,則可以采用SCA方法進行源分離;③假如X、A、S元素均為非負元素,則可采用NMF 方法進行源分離;④如果A和S有界,可以利用BCA方法分離源信號。

2.1.1 ICA算法

ICA 算法是根據源信號的統計獨立性原則建立代價函數,然后通過優化算法從線性混合信號中分離出源信號。為了實現有效分離,ICA 算法需要滿足獨立性、非高斯性以及混合矩陣可逆等假設。根據對統計獨立性的不同度量方法,可建立不同的代價函數:互信息最小化、信息傳輸最大化或負熵最大化、最大似然估計等。在建立代價函數后需要尋優算法來求解。尋優算法主要分為在線算法和離線算法,前者屬于實時的方法,如隨機梯度法等,但自適應算法存在算法收斂問題,后者是對接收到的數據進行批量處理,典型的有FastICA[11-12]。

2.1.2 SCA算法

雖然ICA 算法在盲信號分離領域應用廣泛,但在實際中的信號混合模型并不能滿足信號的非高斯性或者非欠定條件下混合的假設。近年來,越來越多的學者開始利用信號的稀疏性來分離混合信號。這種利用信號稀疏性分離混合信號的方法稱為稀疏分量分析,即SCA算法。

SCA 算法在時域的稀疏性體現在源信號S在某一時刻包含盡可能多的0元素。SCA 算法的唯一解總是假設S有m-n+1 個0 元素或有n-1 個非0 元素,即n-1個稀疏元素。如果源信號在時域沒有稀疏性,可以通過短時傅里葉變換、小波變換等變換將信號轉換到具有稀疏性的域上實現分離。稀疏域的轉換同樣需要根據信號的特性來做選擇,這要求一定的先驗知識作為基礎。稀疏性的度量通常采用L0范數度量,在保證恢復信號準確性的基礎上,代價函數可表示為:

在數學中,S的L0范數的最小化是一個NP難問題。特別是隨著m的增大,L0范數最小化在計算上變得不可行,而且L0范數最小化對噪聲或近似誤差很敏感。因此,L1通常被作為L0范數的替代,因為L1范數是凸的,并且可以提供唯一解。

2.1.3 NMF算法

NMF 是基于非負約束獲取源信號的基本BSS 方法。在處理機制上,基于NMF的BSS注重源分量的非負條件,即將混合信號分解為兩個非負矩陣:基矩陣和系數矩陣,從而將矩陣分解問題轉化為兩個非負矩陣誤差最小化問題。衡量兩個非負矩陣之間的誤差函數有歐式距離[14]、KL 散度[14]、IS 散度[15]、β 散度等[16]。通過不斷優化目標函數即可得到目標源信號矩陣。與傳統方法相比,NMF 在實現復雜性、全面的分解解決方案和較少的存儲需求等方面具有許多優勢。

NMF 算法應用在BSS 領域的核心思想是在一定約束條件下將混合信號矩陣分解為源信號矩陣和混合矩陣,從而求出重構信號的近似最優解。數學模型描述如下:

其中,l表示信號長度。NMF 的求解過程較為復雜,總體上可分為三大類:乘性迭代法、投影梯度法和交替非負最小二乘法,其中應用最為廣泛的是乘性迭代算法。在原有的非負矩陣分解問題中,同時求解矩陣A和S是非凸問題,求解較為困難。乘性迭代算法原理是在固定A或S的情況下更新求解另一矩陣,此時為凸優化問題。在預設迭代次數時,可完成對矩陣A、S的近似求解。矩陣A和S的更新公式如下:

其中,?表示哈達瑪積。

2.1.4 BCA算法

BCA 算法以源信號的幾何有界性作為基本原則,對觀測到的混合信號進行線性分解。在BCA 算法中,笛卡兒分解和凸支撐緊致是提取源信號的基本假設。應用BCA算法一般需要滿足以下條件:

⑴源信號和噪聲具有有界屬性;

⑵源信號S=(S1,…,Sm)T的凸支撐是邊緣凸支撐集的笛卡爾積;

⑶混合矩陣A為列滿秩矩陣;

⑷高斯噪聲的臨界統計量(如凸支撐或協方差矩陣)已知或者可以從觀測到的混合噪聲中得到。

在BCA 算法中,代價函數的選擇可以有多種,比如常見的代價函數有周長最小化、體積比最大化以及最小化風險準則等。在優化算法方面,主要采用經典的優化算法如梯度下降法、梯度投影法等。

2.2 有監督分離

區別于模型驅動型的傳統盲源分離算法,應用于信號分離的深度學習算法是一種數據驅動型的有監督學習算法,即通過輸入混合信號和已知的源信號對深度模型進行訓練。模型根據已知源信號學習混合信號的特征,以及特征到分離目標的映射函數,訓練完成后對未知的混合信號進行分離。從輸入信號的形式劃分,基于深度學習的語音分離技術可分為基于頻域和時域兩大類。

2.2.1 基于頻域上的深度學習方法

基于頻域上的深度學習方法是指通過短時傅里葉變換(STFT)將原始波形變換到時頻域進行處理。

深度聚類(Deep Clustering,DPCL)[17-18]是MERL實驗室在2016年提出的一種語音分離算法。DPCL算法主要是利用神經網絡將混合信號的時頻表示投影到高維的嵌入空間中,然后對嵌入空間進行聚類,得到時頻掩碼(TF Mask),并用得到的掩碼分離混合信號。DPCL 算法很好地解決了說話者排列不匹配問題,但是由于該方法的目標函數是嵌入空間內的源信號之間的關聯關系,而不是關于分離信號本身,所以存在不能有效地進行端到端訓練的缺點。

文獻[19]在深度聚類的基礎上,提出深度吸引子網絡(Deep Attractor Network,DAN),它也學習了TF單元的高維嵌入。與深度聚類不同,此深度網絡會創建類似于聚類中心的吸引點,以將由不同說話者主導的TF 單元拉到其對應的吸引子。然后通過比較嵌入點和每個吸引子的相似性得到掩膜,實現端到端的訓練與測試,文獻[19]的結果表明,深吸引子網絡比深度聚類產生更好的結果。

文獻[20-21]提出了PIT(Permutation Invariant Training)算法以及其改進算法uPIT(Utterance-level PIT),與DPCL 以及DAN 不同,PIT 算法直接使用最小化分離誤差,有效的實現了端到端的映射。PIT 首先確定最佳的輸出目標分配組合,然后通過排列組合,計算所有可能出現的分配組合的誤差,選擇其中最小分離誤差的分配組合并以此來優化模型,其中所有輸出目標組合就是參考源信號和估計源信號之間的所有可能存在的排列組合。該策略直接在網絡結構中實現,很好地解決了長期困擾基于深度學習的盲源分離技術發展的標簽置換問題。由于PIT 每一次要計算所有可能存在的排序組合的分離誤差,當源數量變大時就會導致計算成本成倍增長。

2.2.2 基于時域上的深度學習方法

與基于信號頻域上的深度學習方法不同,在文獻[25]中首次提出基于時域上的學習方法,即直接將信號波形送入模型進行學習。羅藝在文獻中指出,基于頻域上的深度學習方法有三個不足:一是STFT 是一種通用的信號變換方法,應用于語音分離不一定是最佳的;二是相位信息無法學習,利用混合信號的相位進行信號重構會產生分離性能的上界;三是STFT 需要較高的頻率分辨率,導致較長的時間延遲,限制了在低延遲場景下的應用。基于此,羅藝提出了一種Tasnet(Time-Domain Audio Separation Network)模型。Tasnet 模型包括編碼器、分離器、解碼器三部分。其中編碼器通過一維卷積學習信號特征,分離器通過堆疊長短期記憶網絡(LSTM)生成掩碼,分離器通過轉置卷積將信號還原為時域波形形式。此后,研究者基于編碼器—分離器—解碼器架構改進學習模型,使得分離性能不斷提高。

在分離器改進方面,文獻[24]在Tasnet 模型基礎上提出Conv-Tasnet 模型。由于使用堆疊LSTM 作為分離模塊,使得Tasnet模型存在模型訓練難以管理、大量參數導致的計算成本過高以及分離精度不一致的問題,在Conv-Tasnet 模型中將分離模塊替換為堆疊一維空洞卷積模塊,模塊使用空洞卷積增加了模型的感受野,大大減少了模型復雜度,使得延遲更短同時分離精度更高。針對傳統模型對超長序列建模困難的問題,文獻[25]又提出了dual-path RNN (DPRNN)模型,模型首先對編碼向量進行分割堆疊形成三維張量塊,然后通過塊遞歸神經網絡(RNN)獨立處理局部塊,塊間RNN將所有塊的信息聚合起來進行話語級處理,通過塊內和塊間的交錯處理實現了對信號的局部建模和全局建模,不僅能夠達到長序列建模要求,模型也更加簡單。DPRNN 為長序列建模問題提供了有效的解決思路。由于RNN無法進行串行計算,對長序列建模時會導致計算效率下降。為解決這一問題,文獻[26]在DPRNN 模型基礎上提出了Dual-Path Transformer Network,即將LSTM 網絡替換為Transformer,利用Transformer 的自注意力機制獲取上下文信息,實現長序列建模。為進一步提高分離性能,在文獻[27]中基于Conv-Tasnet 模型提出多種改進方式:一是將一個分離模塊擴展為多個模塊并行連接,每個模塊包含不同數量的子模塊,另外通過設計權重模塊控制不同模塊的權重,以此實現對序列的不同尺度建模;二是對一維空洞卷積模塊進行并行集成,通過對所有不同分支的輸出進行平均,得到每個并行內卷積分量的總輸出,從而減小性能方差,提高分離穩定性;三是在一維空洞卷積模塊的輸入端和輸出端引入門控機制,控制信息的流入和流出。以上改進均不同程度地提高了分離精度。

在編解碼器改進方面,文獻[28]提出用一個由聽覺特征驅動的確定性的Gammtone 濾波器組代替網絡中的可學習編碼器,他認為對于訓練數據有限的條件下,替換后的濾波器組更能有效地提取語音信號的特征;相反,在文獻[29]中作者認為使用單層一維卷積不能完整有效地表示信號特征,并提出了深度編碼器/解碼器。深度編碼器/解碼器使用四層一維空洞卷積作為編碼器,同時使用門控線性單元(GLUs)取代深度編碼器/解碼器中的帶參整流線性單元(PReLU),解碼器采取與編碼器對稱結構,通過加深編解碼器網絡提高信號的表征能力。

在訓練方式改進方面,文獻[30]提出兩階段的訓練模式。第一階段保持分離器參數不變,預先訓練編碼器和解碼器,以學習合適的潛在表示。在第二階段,保持編解碼器參數不變訓練分離模塊。這種兩步訓練法在多個語音分離任務中獲得了一致的性能改進。

3 總結和展望

3.1 總結

本文主要從盲源分離模型分類以及無監督和有監督兩類算法對盲源分離算法進行了總結。根據混合方式的不同將盲源分離模型分為線性瞬時混合、線性卷積混合以及非線性混合三類。然后分別討論了無監督和有監督條件下的分離算法。無監督條件下的分離算法主要包括ICA、SCA、NMF、BCA 等經典的算法。不同的算法是在不同的場景以及假設條件提出并完善起來的。在對具體某個問題使用時需預先對該問題的前提條件進行分析,然后選擇合適的分離算法。有監督條件下的分離算法是深度學習和神經網絡在語音分離領域的典型應用,本文從基于頻域和時域兩大類方法上進行總結。隨著深度學習的興起,深層模型開始廣泛應用到語音分離中,目前已經成為監督性語音分離最主流的學習模型。深層模型具有強大的建模能力,能夠挖掘數據中的深層結構,相對于淺層模型,深層模型分離的語音不僅在感知質量和可懂度方面都有巨大的提升,而且隨著數據的增大,其泛化性能和分離性能得到不斷的提高。

3.2 展望

盲源分離技術自提出以來,在理論和應用方面不斷豐富和發展,取得了豐碩的成果,但也應當看到還存在一些難題尚未得到良好的解決。對于無監督算法,需進一步研究的問題主要有低信噪比條件下的盲信號分離、欠定條件下特別是單通道的盲源分離、更加符合實際應用的卷積混合和非線性混合模型的盲源分離。對于有監督算法,隨著深度學習技術的進一步應用,盲源分離技術在以下幾方面可能會有所突破:一是有監督分離技術在通信信號等領域的拓展,雖然有監督分離技術在語音分離領域取得了成功,但在其他領域如通信信號等尚未有深入的研究;二是泛化性能的提高,盡管監督性語音分離取得了很好的分離性能,特別是深度學習的應用,極大地促進了監督性語音分離的發展,但在聽覺條件或者訓練數據不匹配的情況下,例如噪音不匹配和信噪比不匹配的情況下,分離性能會急劇下降;三是深度學習框架的改進完善。近年來,新的具有更強表征能力如多模態變分自編碼器(MVAE)、GAN等深度模型不斷涌現,推動深度學習技術的發展,同時隨著在語音分離領域的廣泛應用,語音分離性能也將不斷提高。

猜你喜歡
深度監督信號
信號
鴨綠江(2021年35期)2021-04-19 12:24:18
深度理解一元一次方程
完形填空二則
突出“四個注重” 預算監督顯實效
人大建設(2020年4期)2020-09-21 03:39:12
深度觀察
深度觀察
深度觀察
基于FPGA的多功能信號發生器的設計
電子制作(2018年11期)2018-08-04 03:25:42
監督見成效 舊貌換新顏
人大建設(2017年2期)2017-07-21 10:59:25
夯實監督之基
人大建設(2017年9期)2017-02-03 02:53:31
主站蜘蛛池模板: 欧美日本中文| 多人乱p欧美在线观看| 久久香蕉国产线| 日韩欧美国产成人| 高清大学生毛片一级| 伊人久久精品亚洲午夜| 亚洲国产一区在线观看| 国产91无码福利在线| 欧美第一页在线| 国产成人综合久久| 国产精品无码AⅤ在线观看播放| 欧美日韩免费在线视频| 97se亚洲综合不卡| 国产簧片免费在线播放| 中国国产A一级毛片| 国产精品夜夜嗨视频免费视频| 日韩av高清无码一区二区三区| 无码啪啪精品天堂浪潮av| 欧美成人精品高清在线下载| 欧美精品一区二区三区中文字幕| 欧美不卡视频在线观看| 一本大道视频精品人妻| 九九这里只有精品视频| 成人小视频网| 国产欧美在线| 国产精品天干天干在线观看| av大片在线无码免费| 人妻21p大胆| 亚洲香蕉在线| 麻豆精品久久久久久久99蜜桃| 在线观看亚洲国产| 91成人在线观看| 老色鬼久久亚洲AV综合| 四虎免费视频网站| 亚洲国产精品一区二区第一页免| 精品福利网| 欧美啪啪网| 国产毛片不卡| WWW丫丫国产成人精品| 91国内视频在线观看| 成人国产精品视频频| 欧美一级99在线观看国产| 在线亚洲精品福利网址导航| 另类专区亚洲| 欧洲免费精品视频在线| 久久精品国产精品青草app| 97国内精品久久久久不卡| 亚洲女人在线| 国产精品手机在线观看你懂的| 亚洲欧美综合另类图片小说区| 国产成人精品免费视频大全五级 | 婷婷综合色| 亚洲一区二区日韩欧美gif| 5555国产在线观看| 色视频国产| 午夜日b视频| 中文毛片无遮挡播放免费| 国产福利微拍精品一区二区| 伊人久综合| 中文字幕一区二区人妻电影| 欧美中文字幕第一页线路一| 久草热视频在线| 国产成a人片在线播放| 野花国产精品入口| 欧洲高清无码在线| 88av在线| 国产最爽的乱婬视频国语对白| 国产精品福利在线观看无码卡| 欧美一级高清片欧美国产欧美| 日韩在线播放欧美字幕| 91原创视频在线| 亚洲午夜片| 欧美日韩成人| 五月婷婷综合网| 亚洲最大福利网站| 国产超薄肉色丝袜网站| 免费高清a毛片| 在线视频97| 天天爽免费视频| 99er这里只有精品| 午夜视频日本| 亚洲二区视频|