999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

語音信源的語義編碼傳輸方法研究

2023-05-13 08:44:36牛凱NIUKai姚圣時YAOShengshi戴金晟DAIJincheng
中興通訊技術 2023年2期
關鍵詞:語義信號模型

牛凱/NIU Kai,姚圣時/YAO Shengshi,戴金晟/DAI Jincheng

( 北京郵電大學泛網無線通信教育部重點實驗室,中國 北京100876)

過去70年,通信技術取得了突飛猛進的發展。基于經典信息理論[1],先進的編碼技術包括信源編碼、信道編碼,已經逼近了信源熵/率失真函數以及信道容量。然而,經典信息論只研究語法信息,致力于信息傳輸的有效性和可靠性。從認識論觀點看,信息分為3個層次:語法、語義和語用[1]。C. E. SHANNON 和W. WEAVER[2]指出了通信的另一層面,即通信的語義問題以及有效性問題。得益于人工智能技術的發展,之前未能被解決的信息的語義及語用層次重新得到了研究人員的關注。北京郵電大學張平院士深入分析語義信息特征,提出語義基(Seb)模型[2],指出語義信息可以用Seb 進行表征。張平院士提出“智簡(Intellicise)”理念[4],進一步提出模型驅動的語義通信框架,實現通信系統由傳輸比特演進為傳輸經語義處理得到的新特征,例如Seb等。牛凱等深入研究了從經典通信到語義通信的范式轉變,提出了語義通信系統的基本框架[5-7]。其他團隊也對語義通信開展了多項研究工作:石光明等提出了語義通信的基本框架[8],秦志金等針對語義通信系統探討了深度學習賦能的語義通信理論、框架和系統模型[9],北京交通大學、帝國理工大學團隊分析了信源信道聯合編碼在語義通信中的應用[10]。本文總結并回顧已有的面向語音信源的語義編碼傳輸方法,并指出未來的研究方向。

語音編碼一直是移動通信中的基礎問題,其目的是獲得語音信號的緊湊表征,從而實現高效傳輸。波形編碼和參量編碼是傳統語音編碼的兩大主流方法。波形編碼旨在編碼端對波形信號進行數字化,并在解碼端盡可能重構波形,以脈沖編碼調制(PCM)、差分脈沖編碼調制(DPCM)和自適應差分脈沖編碼調制(ADPCM)[11]為代表。通過傳輸聲學模型的系數,參數編碼以低比特率成本提供了可比較的重建質量。線性預測編碼(LPC)引入了信源-濾波器模型,它的參數通過線性來預測,并根據語音樣本來確定。碼激勵線性預測(CELP)[12]是一種結合波形編碼和LPC 模型的混合編碼方法,適用于窄頻帶和中頻帶語音編碼。Opus 是近幾年性能較好的開源音頻編碼器[13],支持動態可調速率以及從窄帶到全帶寬的音頻編碼。其中,語音編碼采用了基于LPC的SILK和能量約束重疊變換(CELT)編碼器。

現有的通信系統采用傳統的音頻編碼器級聯信道編碼的方法,但其編碼信息與語義無關,且易出現差錯傳播的情況。從語義信息傳輸的角度來設計傳輸方法,可以在語義空間內糾正信道傳輸引起的偏差。這種方法的針對性更強,最終可以提升端到端的編碼傳輸效率。基于神經網絡的語音編碼方法已經有了初步研究,引入線性預測和基于變分自編碼器的矢量量化(VQ-VAE)[14],可以將語音特征以低速率傳輸。這些方法對語音信號的語義編碼傳輸起到了指導作用。傳統語音評價指標的不可微的性質導致無法直接用于語義編碼模型優化,因此尋找合適的語音信號的語義傳輸的感知優化函數至關重要。

1 語義通信系統簡介

語義通信系統的模型[5]如圖1 所示,參照C. E.SHANNON 和W. WEAVER 的思想[2],該模型分為Level A 技術級通信與Level B 語義級通信兩個層級,具體由信源、語義知識庫、語義發射機、信號發射機、信道、信號接收機、語義接收機、信宿8個部分組成。

其中,語義知識庫包括信道環境特征、信源及任務特征,可以對語義發射機/接收機、信號發射機/接收機起到指導作用。語義編碼傳輸問題即如何在語義知識庫的指導下進行語義發射機/接收機和信號發射機/接收機的編譯碼設計問題。

▲圖1 語義通信的系統模型

語音信源的語義傳輸任務通常分為兩大類:1)面向聽覺的語音信號傳輸;2)傳遞內涵文本信息的語音信號傳輸。兩類任務的語義編碼優化設計準則也不同:面向語音文本內容的傳輸以誤詞率、文本重合度為語義傳輸性能的主要評價指標;面向人的聽覺的語義傳輸主要考慮的是人的主觀感受。針對如何提高人的主觀感受(或稱為感知編碼),研究者提出了客觀語音質量評估(PESQ)[15]、ViSQOL[16]等語音感知質量評價指標。在語音質量的主觀評價方面,除平均主觀意見分(MOS)外,常見的還有多激勵隱藏參考基準測試(MUSHRA)[17]方法。

2 面向語音的語義編碼傳輸方法

語音信源的語義編碼傳輸一般包括兩類方法:基于波形的語義編碼傳輸和生成式的語義編碼傳輸。

2.1 基于波形的語義編碼傳輸

基于時域波形信號的語義編碼傳輸方法直接從語音波形信號中提取語義特征并映射為信道中的傳輸符號。此類方法屬于信源信道聯合編碼范疇。利用深度神經網絡的信源信道聯合編碼,重建質量隨信噪比的降低而柔和降低,不存在懸崖效應。QIN Z. J.等針對語音信源,構建了一種面向語音信源的深度語義通信網絡(DeepSC-S)[18],提高了語音信號的重建質量。該方法主要利用卷積神經網絡與“壓縮-激勵”模塊提取語音信源語義特征,實現從信源數據到信道中傳輸符號的映射。該編碼過程與信道條件有關,達到信源信道聯合編碼的效果。

語音信源向量s ∈Rm經過編碼神經網絡fe映射,得到語義編碼向量x ∈Rk,滿足編碼約束x = fe(s; ?e)。其中,?f為DeepSC-S 編碼器模型參數。經過加性高斯白噪聲(AWGN)信道后,解碼器輸入語義向量為y = x + n。其中,n ~N(0,Ik)是獨立同分布的高斯噪聲向量,是噪聲方差,Ik是單位陣。接收端譯碼器由卷積神經網絡構成,經過解碼,得到輸出向量x?= fd(y; ?d)。最后,整個模型聯合進行端到端聯合訓練,損失函數為:

DeepSC-S的PESQ-SNR曲線如圖2所示,在不同信道中的相同信噪比下,DeepSC-S(紅色)的性能優于傳統分離式編碼PCM+Turbo碼的性能。

▲圖2 DeepSC-S的PESQ-SNR曲線[18]

然而,DeepSC-S 對不同幀語音信號的編碼速率是相同的,且提取的語義特征不明確,無法區分不同語音幀上的內容差異、語義差異,即無法從細粒度上刻畫語義信息量的多少,因此難以獲得接近于熵編碼的壓縮增益。這導致傳輸帶寬較高,且編碼效率較低。

為了進一步提高語音信號的語義傳輸效率,我們借鑒了非線性變換編碼的思想[19-21],設計了基于非線性變換的語音語義信源編碼方案[22]和語義編碼傳輸方案[23]。下面我們簡要介紹兩種方案的基本原理。

基于信源變換編碼的流程如圖3所示。首先,語音經過分幀預加重等預處理后再經波形分析變換就可得到語義特征向量y = ga,?g(x),其中?g為波形分析網絡的模型參數。其次,一對超先驗編譯碼器將語義特征向量y變分建模為簡單的高斯分布,從而使用算數編碼器根據概率值對語義向量y進行熵編碼。在收端,波形綜合變換網絡將恢復的語義特征向量yˉ重構為語音波形信號?= gs,ψg(),其中ψg為波形綜合網絡的模型參數。

▲圖3 基于非線性變換的語音信源語義編碼流程圖

在端到端優化時,為解決量化不可導的問題,引入了取值范圍為的均勻噪聲,得到語義特征向量的近似量化形式。類似地,超先驗向量z 也可近似量化為?,從而得到了熵模型:

其中,z = ha,?h(y),?h為超先驗編碼器的參數集合,N(μ,σ2)表示均值為μ,方差為σ2的高斯分布,*表示卷積。

變換編碼的優化問題是一個有損信源編碼問題。若語音語義傳輸是面向人主觀聽覺感知質量的,那么優化語音的主觀感知質量比波形失真更加重要。總的來說,該問題可以轉變為最小化真實的聯合后驗概率與實際概率密度分布的KL散度,即:

其中,等式后大括號內第1、2 項刻畫了y 和z 的編碼速率,第3項刻畫了失真度量,第4項為求均值后為常數。

基于非線性變換的語義編碼的率失真性能曲線如圖4所示。我們可以發現,在低速率時,相較于自適應多速率寬帶語音編碼(AMR-WB)[23]以及基于變分自編碼器的矢量量化(VQ-VAE)神經網絡編碼,基于非線性變換的語義編碼的感知質量優勢明顯;在高速率時,PESQ 也與Opus 性能相近。

▲圖4 基于非線性變換的語音語義編碼PESQ分數(取值為1.0~4.5)

在非線性變換語義信源編碼的基礎上,語音信源的語義-信源信道聯合變換編碼不用對語義特征向量量化并熵編碼,而是將其映射為信道傳輸符號,其流程如圖5所示。一方面,語義特征向量y需要通過超先驗編解碼器將其變分建模為高斯分布。此步驟是為了用語義特征向量的概率分布及概率值來衡量該語音幀的內容復雜度,從而決定編碼所需要的符號數。另一方面,利用Transformer[24]網絡構成的信源信道聯合編碼器,可以將N 幀的語義特征向量y1,…,yN映射為信道中傳輸符號序列s = fe,?f(y1,…,yN)。其中,?f為信源信道聯合編碼器的參數集合。每個語義特征向量最終的編碼長度由熵模型給出。

▲圖5 基于非線性變換的語音語義信源信道聯合編碼系統結構

對于傳輸問題,其優化函數轉變為端到端的率失真優化問題,速率此時定義為傳輸帶寬,訓練的損失函數如公式(4):

圖5中基于Transformer網絡的信源信道聯合編/譯碼器包括4層8頭注意力層,維度為1 024。語音數據來自于TIMIT(英文語音數據集)[25],采樣率為16 kHz。圖6 給出了不同信道下基于非線性變換的語義編碼傳輸方法的仿真結果。圖6(a)為AWGN信道在傳輸帶寬為4 kHz的條件下,不同編碼傳輸方法在PESQ評估指標下的端到端率失真曲線圖以及主觀得分箱線圖;圖6(b)為COST2100衰落信道[26]在傳輸帶寬10 kHz、平均信噪比為2 dB 的條件下,不同編碼方案的PESQ評估指標下的端到端率失真曲線圖及MUSHRA主觀得分箱線圖。其中,紅色線為非線性變換語義編碼傳輸方法的曲線,藍色線和綠色線為傳統分離式編碼方法曲線。我們可以發現,在相同主觀/客觀感知質量指標下,相較于傳統語音編碼的AMR-WB、Opus編碼器級聯5G LDPC信道編碼,以及DeepSC-S,基于變換編碼的語音語義傳輸所需帶寬更少,且在衰落信道中也表現出更加出色的魯棒性。

▲圖6 基于非線性變換的語音語義編碼傳輸重建語音質量性能

2.2 生成式語音語義編碼傳輸

生成式語音語義編碼傳輸的研究工作目前還較少,HAN T. X.等研究了上述所說的兩種語音語義傳輸的范式[27]。在語音傳輸范式中,HAN T. X.等將卷積神經網絡級聯雙向長短期記憶網絡(LSTM)作為語義編碼器,對語音幀的40 組頻率濾波器系數進行語義特征提取。同時, 他們還借鑒了FastSpeech2[28]的做法,通過對齊模塊預測每幀對應的子單詞,并計算每個音素的音高、功率等聲學特征。在接收側,文本特征、聲學特征向量經對齊級聯,由文本-語音綜合器恢復語音頻譜,最后聲碼器根據頻譜重新生成語音波形,生成效果如圖7 所示。重建語音的MOS 在AWGN 信道中的各個信噪比下都優于DeepSC-S。

▲圖7 生成式語音語義編碼傳輸效果[27]

生成式語音語義編碼傳輸的優勢在于所需帶寬少,無須將語音波形信號的全部信息編碼,利用人的聽覺特性用少量的濾波器組在編碼前就可將高采樣率的波形信號轉化為低采樣率的聲學特征信號,這樣可以降低數據量。但根據數據處理定理,對語音信號的處理會導致部分信息的損失。如果接收側關注編碼語音特征以外的信息,則會導致語義傳輸的效果變差。另外,生成式的語義編碼傳輸方法通過生成模型來重建語音波形,生成過程的復雜度、編譯碼器模型的訓練難度都將給生成式語義編碼傳輸方法的設計和實際應用帶來挑戰。

近兩年,生成模型正在快速發展,人工智能生成內容(AIGC)的質量及自然度逼近人類。可以預見,基于生成式的語音編碼傳輸也將對語音信號的語義編碼設計帶來重要影響。

3 結束語

本文中,我們對語音信源的語義編碼傳輸方法進行了整理與總結:首先回顧了現有的傳統語音編碼技術,分析了語音語義編碼傳輸的優化目標,具體而言,在面向人的感知體驗的情境下,優化目標主要為提高人的感知質量;而在面向文本任務的情境下,優化目標主要為提升文本識別正確率。其次,我們將現有的語音語義編碼傳輸方法分為兩大類:一類為直接對語音信號樣值序列進行編碼,一類為對傳輸語音信號的聲學特征進行編碼和傳輸,在接收側通過生成式聲碼器重建語音。最后,我們展望了未來生成模型應用于語音語義編碼傳輸的優勢及挑戰。

猜你喜歡
語義信號模型
一半模型
信號
鴨綠江(2021年35期)2021-04-19 12:24:18
重要模型『一線三等角』
完形填空二則
重尾非線性自回歸模型自加權M-估計的漸近分布
語言與語義
基于FPGA的多功能信號發生器的設計
電子制作(2018年11期)2018-08-04 03:25:42
3D打印中的模型分割與打包
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
基于LabVIEW的力加載信號采集與PID控制
主站蜘蛛池模板: 亚洲va欧美va国产综合下载| 人妻丰满熟妇αv无码| 国产91麻豆视频| 久久久亚洲色| 免费可以看的无遮挡av无码| 国产另类视频| 亚洲三级a| 国产日本一线在线观看免费| 亚洲精品欧美重口| 亚洲欧美精品日韩欧美| 亚洲日韩高清在线亚洲专区| 不卡无码网| 欧美激情,国产精品| 成人福利在线视频| 欧美精品亚洲精品日韩专区| 精品人妻无码中字系列| 中文国产成人精品久久一| swag国产精品| 久久久久青草线综合超碰| A级毛片高清免费视频就| 一区二区三区四区日韩| 日本精品αv中文字幕| 精品久久久久久成人AV| 国产美女91视频| 午夜无码一区二区三区在线app| 激情无码字幕综合| 高清久久精品亚洲日韩Av| 少妇人妻无码首页| 精品国产自| 国产丝袜无码一区二区视频| 久久综合五月| 波多野结衣无码中文字幕在线观看一区二区| 久久久久久尹人网香蕉| 日本一区二区三区精品国产| 国产成人艳妇AA视频在线| 国产人前露出系列视频| 国产视频久久久久| 久久亚洲国产视频| 99热这里只有精品免费国产| 亚洲精品在线观看91| 亚洲色图欧美| 亚洲日韩精品综合在线一区二区 | 亚洲欧美自拍中文| 国产熟女一级毛片| 亚洲av中文无码乱人伦在线r| 亚洲国产综合精品一区| 日本免费精品| 国产成人做受免费视频| 婷婷午夜天| 国产麻豆aⅴ精品无码| 一级毛片基地| 亚洲精品无码久久久久苍井空| 国产女人在线视频| 99久久婷婷国产综合精| 欧美日韩在线成人| 久久77777| 人妻无码中文字幕第一区| 夜色爽爽影院18禁妓女影院| 中文字幕久久波多野结衣| 一本大道无码日韩精品影视| 波多野结衣在线se| 四虎在线高清无码| 99久久国产综合精品2020| 91无码人妻精品一区| 久久福利片| 色欲国产一区二区日韩欧美| 日韩福利在线视频| 婷婷六月色| 天天操精品| 爽爽影院十八禁在线观看| 欧美日韩国产系列在线观看| 免费观看三级毛片| 在线观看热码亚洲av每日更新| 中日无码在线观看| 国产欧美高清| 精品无码国产自产野外拍在线| 国产精品爽爽va在线无码观看 | 亚洲精品大秀视频| 中文字幕资源站| 国产成人91精品免费网址在线| 一级做a爰片久久毛片毛片| 国产极品美女在线观看|