999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于注意力機制的音頻隱寫算法研究

2023-12-15 08:35:52李宗佑
無線電工程 2023年12期
關鍵詞:模型

李宗佑,高 勇

(四川大學 電子信息學院,四川 成都 610065)

0 引言

隱寫術是一門將秘密信息隱藏在載體中的技術,除了通信雙方外,第三方很難察覺到除載體外隱藏信息的存在。音頻的隱寫術最先興起的是將文本隱藏在音頻文件中并進行端對端傳播,隨著需求的不斷增加,語音作為秘密信息進行傳輸逐漸進入人們的視野。

音頻隱寫系統主要有3個評價指標,分別是透明性、魯棒性以及隱寫容量[1-3],這三者相互制約,很難同時達到最優效果。文獻[4-5]通過改變音頻相位編碼來進行數據隱寫,雖然結果表明其具有較好的抗攻擊能力,但是隱寫容量僅有20 b/s。文 獻[6-10]是在音頻的時域中去尋找隱寫空間,其中最為流行的技術是修改最低有效位(Least Significant Bit,LSB)來進行秘密信息的嵌入。文 獻[11-12]提出了一種基于離散小波變換特征值量化的語音隱藏技術,首先通過應用離散小波變換將數字語音的每一幀變換到小波域,然后利用奇異值分解計算系數的特征值,最后對特征值進行量化處理來嵌入信息,結果表明透明性和魯棒性均有了不錯的提升,但是隱寫容量仍然很低。

針對傳統隱寫算法的不足,Kreuk等[13]首次提出使用神經網絡進行音頻隱寫,雖然透明性一般,但是將隱寫容量提升至一個新高度;Chen等[14]提出了一種基于生成對抗網絡的音頻隱寫算法,目的是利用對抗訓練來進行數據增強,從而提升含密音頻的透明性。為了在隱寫容量與透明性上都能有較出色表現,本文提出一種基于注意力機制的音頻隱寫算法,將音頻信號的短時傅里葉變換(Short-Time Fourier Transform,STFT)和短時傅里葉逆變換(Inverse Short-Time Fourier Transform,ISTFT)作為網絡的輸入,在編解碼器不同位置加入卷積注意力模塊(Convolutional Block Attention Module ,CBAM)[15]來提高網絡對有效特征的敏感程度,使得整個系統具有較高透明性、魯棒性以及較大隱寫容量。

1 注意力機制

注意力機制是在神經網絡計算能力有限的情況下,通過分配權重將計算資源分配給更重要的特征任務,過濾了絕大部分無關特征信息,從而解決信息過載的問題。

本文采取的CBAM是用于前饋卷積神經網絡的簡單有效的注意力,給定一個中間特征圖F∈RC×H×W作為輸入,CBAM按照順序推導一維的通道注意力圖MC∈RC×1×1和二維空間注意力圖MS∈R1×H×W。CBAM的整個注意力機制流程如圖1所示,整個過程用式(1)表示:

(1)

式中:?表示基于元素的乘法,F′表示通道注意力模塊對輸入信號進行處理后提取到的通道維度特征。空間注意力模塊對F′進行空間維度的特征提取后得到最終輸出特征F″。

圖1 CBAM注意力機制流程Fig.1 Flowchart of CBAM attention mechanism

(2)

(3)

式中:σ表示sigmoid激活函數,A′表示AvgPool(F),M′表示MaxPool(F),W0∈RC/r×C,W1∈RC×C/r,W0和W1是2個輸入的共享權重。

(4)

(5)

式中:f7×7表示卷積運算中濾波器的大小為7×7。

2 隱寫術

2.1 隱寫方案

本文以端對端的方式提出了一個基于CBAM的隱寫方案。方案提出的模型在頻域工作,但為了將音頻作為時域信號傳輸,本節參考文獻[16]在模型訓練過程中將音頻信號的STFT和ISTFT作為可微層應用,從而對網絡輸出施加另一個重要約束。流程如圖2所示。

整個模型由3個關鍵模塊組成:①Ec學習從原始音頻信號中提取潛在冗余的映射,并將秘密信息“塞入”進去,從而使載體受到的影響最小;②Dc解碼含密音頻;③Dm從含密音頻中提取隱藏消息。

(6)

(7)

(8)

式中:Lc和Lm分別表示含密音頻和重構音頻對應的MSE,λc和λm的加入是為了平衡含密音頻和秘密音頻的重構。

圖2 隱寫方案流程Fig.2 Flowchart of the proposed steganography scheme

2.2 網絡模型

本文采用了深層注意力網絡,為了簡化展示,Ec、Dc、Dm可以視為由子模塊1和子模塊2組成。子模塊2借鑒了ResNet網絡的殘差架構,引入殘差邊的目的是為了加速網絡的收斂以及防止出現深層網絡梯度爆炸的情況。網絡結構如圖3~圖7所示。

圖3 子模塊1Fig.3 Sub-module 1

圖4 子模塊2Fig.4 Sub-module 2

圖5 Ec模型Fig.5 Ec model

圖7 Dc模型Fig.7 Dc model

3 實驗結果及討論

本次實驗采用了TIMIT[17]和DiDiSpeech[18]2類語言(中、英文)的數據集對模型進行評測,按照7∶2∶1的標準比例分割數據集作為訓練、驗證和測試集。2種音頻信號數據的采樣率均為16 kHz。為了提升模型效率,STFT中傅里葉采樣點數設置為512,段間重疊采樣點數設置為256,可以保證獲取到的特征數據寬度和高度是2的冪次。通過隨機選擇一條音頻作為載體信息、任意一條其他音頻作為秘密信息來獲取一組訓練數據,并以1∶1的形式完成嵌入,實驗中對載體和秘密音頻的選擇是隨意的。

模型采用經典的Adam優化器,初始學習率設置為0.001,并采用每隔15個epoch學習率下降50%的策略進行訓練,網絡以Loss連續3個epoch不下降作為停止訓練的條件,給出模型在通用數據集上的臨界值。在損失函數的設計中,λc設置為 3.0,λm設置為1.0,以權衡載體音頻與含密音頻、秘密音頻與重構音頻之間的損失。

3.1 透明性測試

本節給出了音頻透明性基本評價指標SNRs′(含密音頻信噪比)、SNRc′(重構音頻信噪比)以及MSEs′(含密音頻的均方誤差)、MSEc′(重構音頻的均方誤差)的計算如下:

(9)

(10)

(11)

(12)

表1和表2給出了本文模型在中、英文數據集上進行隱寫實驗后的透明性測試結果。在DiDiSpeech數據集下,含密音頻的MSE最低為1.82× 10-3,信噪比最高可達26.69 dB;重構音頻的MSE最低為 2.71×10-2,信噪比最高可達14.41 dB。在TIMIT數據集下,含密音頻的MSE最低為1.07×10-4,信噪比最高可達26.79 dB;重構音頻的MSE最低為 1.71×10-3,信噪比最高可達14.05 dB。

表1 DiDiSpeech數據集透明性分析Tab.1 Transparency analysis of DiDiSpeech dataset

表2 TIMIT數據集透明性分析Tab.2 Transparency analysis of TIMIT dataset

為了能夠更加客觀地評價音頻的聽覺質量,除了網絡訓練過程中的4個基礎指標外,還引入了客觀語音質量評估(Perceptual Evluation of Speech Quality,PESQ)。PESQ是ITU-T P.862建議書中提供的客觀語音質量感知評估方法,能將客觀的語音質量評估映射到主觀MOS刻度范圍,得分在1.0~4.5,得分越高,音頻質量越好。

表3表明了不同語種的音頻在通過本文模型進行隱藏后,含密音頻的PSEQ在3.7以上,人耳主觀不能發現異樣;重構音頻的PSEQ在2.7左右,可以清楚理解秘密信息的語義。表4給出本文方案與一些研究結果的含密音頻信噪比的比較結果,可以看出本文隱寫模型生成的含密音頻具有更好的透明性。

表3 含密音頻和重構音頻PESQ Tab.3 Objective aural quality PESQ of steganographic audio and reconstructed audio

表4 與其他隱寫方案的信噪比對比Tab.4 Comparison of SNR with other steganography schemes 單位:dB

3.2 魯棒性測試

本節對模型抗干擾的能力進行測試。在訓練過程中,樣本分別添加了“Gaussion”和“Speckle”兩種噪聲,定義δ為噪聲系數,其計算如下:

(13)

表5給出的魯棒性分析結果表明在帶噪環境下,模型隱寫后的含密音頻信噪比不會發生較大變化,重構出的秘密信息也和原來的效果無差,且高度可理解。實驗說明本文提出的隱寫方案具有良好的魯棒性。

表5 魯棒性分析Tab.5 Robustness analysis

3.3 嵌入容量

嵌入容量表示在一定時間內可以嵌入的秘密信息比特數,用每秒比特數(b/s)來衡量,計算如下:

(14)

式中:T為含密音頻時間長度,B為嵌入到含密音頻中總的秘密信息比特數。

本文采取的隱寫算法嵌入容量為4 001.833 b/s,大小是傳統隱寫方法[6-9]的20倍左右。由此可以看出神經網絡的訓練使模型具有自適應嵌入秘密信息的能力,大大提升了隱寫方案的嵌入容量,彌補了傳統隱寫方法隱寫容量小的缺陷。

4 結束語

本文提出了一種將注意力機制運用到深度神經網絡的音頻隱寫方法,該方法利用深度學習優勢實現了對音頻的自適應編解碼,在透明性、魯棒性以及隱寫容量這3個指標中做到了較好的平衡。實驗結果表明:① 該隱寫方法相較于多種傳統隱寫術[7-9],含密音頻信噪比提升2~8 dB,嵌入容量提高20倍左右;相較于對比神經網絡,生成的含密音頻信噪比提高了4 dB左右。② 網絡重構出的秘密信息PSEQ值在2.7左右,可以清楚理解重構的秘密信息的語義。③ 模型具有較好的魯棒性,在訓練過程中分別引入δ為0.01和0.001的噪聲,網絡生成的含密音頻質量幾乎不受影響。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 九九热免费在线视频| 亚洲首页在线观看| 日韩成人免费网站| 日韩欧美91| 欧美精品xx| 国产精品第一区| a国产精品| 国产免费福利网站| 91免费国产高清观看| 亚洲高清在线播放| 国产十八禁在线观看免费| 欧美一级高清免费a| 日本成人福利视频| 国产精品9| 狠狠做深爱婷婷久久一区| 久久综合色天堂av| 婷婷综合在线观看丁香| 欧美啪啪网| 91欧美在线| 欧美一级夜夜爽| 国产三级毛片| 精品伊人久久久久7777人| 亚洲国产精品不卡在线| 人妻中文字幕无码久久一区| 77777亚洲午夜久久多人| 久久久受www免费人成| 精品国产污污免费网站| 欧美日韩国产系列在线观看| 精品無碼一區在線觀看 | 91无码国产视频| 亚洲无码视频图片| 91麻豆国产精品91久久久| 亚洲成人高清在线观看| 夜夜高潮夜夜爽国产伦精品| 国产制服丝袜无码视频| 日本三区视频| 久久亚洲日本不卡一区二区| 国产免费福利网站| 2020最新国产精品视频| 国产欧美又粗又猛又爽老| 欧美成人一区午夜福利在线| 国产日韩精品欧美一区灰| 19国产精品麻豆免费观看| 有专无码视频| 九色视频线上播放| 波多野结衣视频一区二区| 91久草视频| 亚洲另类第一页| 国产麻豆aⅴ精品无码| 91午夜福利在线观看| 欧美成人h精品网站| 亚洲三级电影在线播放| 欧美激情综合一区二区| 91年精品国产福利线观看久久| 欧美a在线| 高清精品美女在线播放| 青青网在线国产| 激情综合激情| 亚洲AV电影不卡在线观看| 久久五月视频| 精品人妻一区二区三区蜜桃AⅤ| 久久视精品| 亚洲人成色77777在线观看| 国产视频入口| 香蕉eeww99国产在线观看| 无码视频国产精品一区二区| 亚洲欧美精品在线| 五月激情婷婷综合| 亚洲精品无码不卡在线播放| 国产精品视频第一专区| 亚洲国产亚综合在线区| 国产精品无码制服丝袜| 巨熟乳波霸若妻中文观看免费| 伊人无码视屏| 五月婷婷伊人网| 国产精品蜜芽在线观看| 亚洲高清免费在线观看| 国产鲁鲁视频在线观看| 女人天堂av免费| 中文字幕有乳无码| 久久亚洲AⅤ无码精品午夜麻豆| 亚洲第一成年免费网站|