999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于生成模型的三維波束形成圖像壓縮方法

2025-08-29 00:00:00趙昀杰賀巖松張志飛徐中明
中國機械工程 2025年7期

關鍵詞:波束形成;數據壓縮;深度學習;改進向量量化變分自編碼器;三維空間 中圖分類號:TP391;TN912 DOI:10.3969/j.issn.1004-132X.2025.07.015 開放科學(資源服務)標識碼(OSID):

3D Beamforming Map Compression Method Based on Generative Model

ZHAO Yunjie HE Yansong*ZHANG Zhifei XU Zhongming College of Mechanical and Vehicle Engineering,Chongqing University,Chongqing,400044

Abstract: To address the significant degradation in localization performance of DenseNet model under high compression ratios caused by channel compression method,a 3D beamforming map compression(3D-BFMC) method was proposed based on VQ-VAE-2 model. The hierarchical encoder of the VQ-VAE-2 model was used to compress 3D beamforming maps into vectorized local feature matrices,and then the matrices were input into the DenseNet model to perform 3D localization. Simulation results show that DenseNet models trained on compressed data by the 3D-BFMC method have better localization accuracy,frequency generalization and noise robustness than those of outperform channel compression approaches.A single-source experiment confirms the effectiveness and feasibility of 3DBFMC in real-world environments.

Key words: beamforming; data compression; deep learning;vector quantized-variational autoencoder-2(VQ-VAE-2);three-dimensional space

0 引言

波束形成作為一種基于傳感器陣列的信號處理技術,被廣泛用于無線電波[]、地震波[2]、聲波[]領域。聲源定位場景中,傳統波束形成(con-ventionalbeamforming,CBF)通過對麥克風陣列信號的濾波計算感興趣區域(regionofinter-est,ROI內的聲源分布,通常的輸出為二維聲學圖像[4]。然而,一些實際應用需借助成像手段獲取聲源的三維表示[5-6]。因此,探索在三維空間中計算波束形成結果的可能性引起學者的廣泛關注。

為提高成像分辨率,有學者提出了替代CBF的反卷積波束形成(deconvolution beamforming,DBF)。作為DBF的一種方法,反卷積聲源成像方法(deconvolution approach for the mapping ofacousticsources,DAMAS)應用范圍從二維拓展至三維[]。BROOKS等[發現,盡管大尺寸陣列具有更好的縱向聚焦能力,但縱向波束在波束形成結果中仍比橫向波束寬,且DAMAS受限于較低的計算效率。為進一步提高三維波束形成圖像的分辨率,XENAKI等[8]在改進反卷積聲源成像方法(deconvolution approach for the mapping ofacousticsources2,DAMAS2)的基礎上引人坐標系變換,增強了點擴散函數的平移不變性,并結合替代掃描技術改善了近場條件下的三維成像結果,但該方法仍存在計算成本較高的問題。為降低三維DBF的計算成本,ZAN等9提出變尺度計算網格法,通過壓縮網格降低數據維度,并針對關鍵區域實施網格加密,在一定程度上提高了定位精度。上述研究表明,盡管DBF具有提供高分辨率波束形成結果的潛力,但在三維成像中仍存在縱向分辨率不足、計算效率較低的問題。

近年來,結合深度學習技術進行聲源定位逐漸成為研究熱點。MA等10]為獲取兼顧精度和速度的聲源定位算法,設計了以二維聲源分布圖像為輸出的卷積神經網絡(convolutionalneuralnetwork,CNN),并在高頻條件下實現了高精度定位。KUJAWSKI等[1]提出一種使用殘差神經網絡(residualneuralnetwork,ResNet)的無網格方法,并將其用于直接估計聲源坐標和強度。XU等[12]通過密集卷積神經網絡(denselycon-nectedconvolutional networks,DenseNet)模型,在特定頻率下獲得了超過瑞利分辨率的成像結果。LEE等[13]構建一個目標函數來表示目標圖中多個聲源的位置和強度,并使用具有編碼器-解碼器結構的全卷積神經網絡(fullyconvolutionalnetwork,FCN)定位平面中的多個聲源。該方法不僅具有較高的分辨率,而且顯著縮短了計算時間。上述研究表明,基于深度學習的聲源定位方法在提高定位精度和計算效率方面具有較大潛力,但現有方法只能提供聲源位置的二維表示。

為克服傳統三維DBF的局限性,獲取具有高精度和計算效率的三維聲源定位算法,提出一種基于深度學習的三維無網格(three-dimensionalgrid-free,3DGF)方法[14]。然而,隨著波束形成圖從二維拓展至三維,圖像的參數成倍增加,導致模型在訓練時占用的內存顯著增多。因此,在3DGF的基礎上引入一種通道壓縮方法,將三維圖像的多個通道分組求和,可有效減少內存使用量,但不同通道之間的線性疊加會丟失大量特征信息,嚴重的信息損失會導致3DGF方法中DenseNet模型的定位性能顯著下降。

近年來,深度生成模型(deepgenerativemodel)在數據處理領域取得顯著進展[15-16],其中,變分自編碼器(variationalautoencoder,VAE)[17]在圖像數據壓縮中表現突出。受此啟發,本研究提出一種基于改進向量量化變分自編碼器(vector quantized-variational autoencoder-2,VQ-VAE-2)模型的三維波束形成圖像壓縮(three-dimensional beamforming map compres-sion,3D-BFMC)方法來應對通道壓縮中信息損失的問題,提高以壓縮數據為輸人的DenseNet模型的聲源定位性能。該方法首先訓練VQ-VAE-2模型對三維波束形成圖進行編碼壓縮,再將編碼結果作為新特征輸人訓練DenseNet-121模型,實現三維空間中聲源的高效定位。需要注意的是,與傳統圖像壓縮不同,3D-BFMC方法關注的是壓縮特征的可學習性而非視覺質量。

1 理論方法

1.1 三維波束形成

聲源定位過程中,波束形成首先對ROI進行離散化處理,形成一系列間隔為 ΔL 的網格點。隨后利用相控麥克風陣列(phasedmicrophonearray,PMA)采集的聲壓信號對各個離散網格點進行反向聚焦,獲得ROI中的聲源位置。三維波束形成的實現原理如圖1所示。圖1包含1個擁有 I 個通道的平面PMA和1個含有 s 個 ?S=l× l×n ,其中,為三維ROI在 X,Y 方向的網格點數, n 為三維ROI在 Z 方向的網格點數)計算網格的三維ROI。由一系列平行于PMA平面的橫截面構成的三維ROI中,網格點和PMA平面的距離記為 z(za?z?zb ,其中, za,zb 分別為ROI內所有網格點到PMA平面的最小距離和最大距離)。三維波束形成的關鍵參數及其數值如表1所示。

圖1 三維波束形成示意圖

Fig.1The schematic of 3D beamforming

表1三維波束形成參數

Tab.1 The parameters of 3D beamforming

假設聲源為單極子源,其實際位置為 As(s= 1,2,…,S) ,強度為 qs 。PMA中的第 i 個麥克風在 Ai(i=1,2,…,I) 處測量得到的聲壓

??i=qsh(Ai,A0,As

式中: ?h(Ai,A0,As) 為聲音信號從 A, 到 Ai 的傳遞函數;

A0 為參考麥克風位置。

h(Ai,A0,As) 描述了聲音信號在傳播過程中受到的各種影響。將式(1)寫成矢量形式:

p=Gq

式中: 為傳遞矩陣,又稱格林函數(Green's function); q

為波束形成在ROI中輸出的聲源強度。

波束形成將ROI中的網格點視為假定聲源位置 σAt(t=1,2,…,S) ,則波束形成在 At 處的輸出為

b(At)=νH(At)Cν(At)/I2

其中, ?νv(At) 為轉向向量,用于將PMA采集的聲壓信號反向聚焦至 At 處; c 為互譜矩陣, c= ppH ,上標H表示共軛轉置。文獻[18]詳細分析了4種不同轉向向量的性能,發現FormulationI和Formulation IV 更適合三維波束形成的實際應用。本研究強調聲源定位的精確性,所以將Formulation IV 作為轉向向量。Formulation IV 的數學表達式為

式中: ?vi(At) 為第 i 個麥克風對應的轉向向量; rt,i?rt,0 分別為 At 到 Ai 和 A0 的歐氏距離, ?rt,i=∣At-Ai∣, rt,0= ∣At-A0∣;kBF 表示波束, kBF=2πf/c;f 為分析頻率; c 為聲速,一般取 340m/s 。

根據式(4)計算波束形成在所有網格點上的輸出,即得到聲源分布圖像。本研究將CBF方法獲得的聲源分布圖像稱為傳統波束形成圖(conventional beamforming map,CB Map)。

1.2 3DGF方法

作為一種基于深度學習的聲源定位方法,3DGF的關鍵在于利用DenseNet模型[19」,以預處理后的三維CBMap為輸入,在不依賴網格的情況下給出聲源位置的三維表示。相較于CNN,DenseNet通過密集連接(denseconnection)機制有效增強了特征信息的跨層級流動,從而緩解深層神經網絡中的梯度消失問題[20]。假設密集塊第 k 層 ?k 表示層索引)生成的特征圖為 x?k ,則密集連接可表示為

xk=F([x0,x1,…,xk-1])

其中, 為密集塊中第 0.1,…,k-1 層生成的特征圖; [*] 表示將各個特征圖串聯。復合函數 F(×Φ) 表示依次執行批量歸一化(batchnormalization,BN)、修正線性單元(ReLU)激活和 3×3 卷積(Conv)操作。表2描述了用于三維定位的DenseNet模型的具體結構,其中,增長率κ=24,Conv* 表示BN-ReLU-Conv 操作。該模型包含4個密集塊和3個過渡層,并使用步長為1的 3×3 卷積核對輸入圖像進行預處理。預處理層的輸人通道數應根據輸人CBMap的通道數調整。回歸層中,自適應平均池化層將特征圖的尺寸壓縮為 1×1 ,然后通過全連接層輸出神經網絡的預測值。

表2DenseNet-121模型的層結構

Tab.2The layer structure of the DenseNet-121

3DGF方法的主要框架如圖2所示。首先對三維ROI進行網格劃分 (l×l×n) ,CBF方法利用PMA采集到的聲壓信號,獲得含有 Ωn (由三維ROI在 Z 向的切片數決定)個通道的三維CBMap 矩陣 Ml×l×n 。壓縮 Ml×l×n ,并對壓縮后的矩陣應用最大-最小值歸一化預處理,得到輸入數據Nin 。最后將 Nin 輸入已完成訓練的DenseNet模型,獲得聲源在笛卡兒坐標系的位置坐標 ,)。訓練采用Pytorch[21]中的隨機梯度下降(stochasticgradientdescent,SGD)優化器更新網絡參數,并以均方誤差(meansquarederror,MSE)作為損失函數。

圖23DGF方法框架Fig.2 Theframework of 3DGF

神經網絡的訓練依賴規模龐大的數據集。為高效獲取高質量的訓練數據,使用聲學軟件Acoular[22]生成指定位置處聲源的時域信號,并結合AcouPipe[23]工具箱和數據預處理過程,構建包括訓練數據、驗證數據和測試數據的完整數據集。表3展示了數據集構建的關鍵參數,其中,原始CBMap的尺寸為 41×41×16 ,其中,41為

CBMap在 X-Y 平面的高度和寬度,16為通道數(深度)。所有樣本數據中,訓練數據、驗證數據和測試數據的比例為 8:1:1 。這3個數據集各自獨立生成,不存在包含關系。后續針對VQ-VAE-2模型的訓練數據生成方式與3DGF一致,但訓練數據規模減少為50000個樣本(每個頻率10000個樣本,共5個頻率),以控制VQ-VAE-2模型在訓練過程中所需的計算資源。

表3數據集構建參數

Tab.3 Theparametersof the dataset construction

1.3 通道壓縮方法

作為3DGF方法中的輔助技術,通道壓縮方法有效減小模型在訓練過程中的內存占用量[14]。矩陣 Ml×l×n 可表示為

Ml×l×n=[Ml×l(1)Ml×l(2)…Ml×l(n)]

其中, Ml×l(i) 代表矩陣 Ml×l×n 的第 i(i=1,2,…,n) 個通道。將矩陣 Ml×l×n 的 n 個通道按位置順序劃分為 Σm 個小組,每個小組包含 ε 個通道,則 n= εm 。對每個小組內的 ε 個通道執行疊加運算,可將通道數從 n 壓縮至 m 。因此,將 ε 定義為壓縮率, ε 越大表示壓縮程度越高。壓縮后的矩陣Ml×l×m 可表示為

Ml×l×m=[Ml×l(1)Ml×l(2)…Ml×l(m)]

ε=1 時, Ml×l×m=Ml×l×n ,原始CBMap 矩陣沒有壓縮。

1.4 3D-BFMC方法

VQ-VAE是一種基于離散隱變量的生成模型,可無監督捕獲數據的關鍵特征[24]。VQ-VAE能將圖像轉換為離散的潛在向量(latentvector),具有強大的特征提取能力。VQ-VAE-2作為VQ-VAE的改進形式,采用多尺度層級結構進一步增強模型的表達能力[25]。因此,將VQ-VAE-2模型作為3D-BFMC方法的基礎,對原始CBMap樣本 Ml×l×n 進行特征提取,以獲取具有更少元素的矩陣 Nvq ,從而實現數據壓縮。

本研究將VQ-VAE-2拆分為層級編碼 Evq 和解碼 Dvq 兩個部分。 Evq 首先將輸人的CBMap矩陣 Ml×l×n 映射到局部特征 bm 和全局特征 tm 上。隨后,通過2個向量量化層(每個向量量化層的碼本含有2048個原型向量)將 量化為離散特征 。設置向量維度為1的目的是將特征提取后的矩陣通道數減少至1。最后, Dvq 根據離散特征 重構 CBMap 矩陣 。基于重構矩陣 和輸人矩陣 Ml×l×n ,定義VQ-VAE-2的重構損失:

LI2 能衡量 與 Ml×l×n 的差異,評估模型的重構性能。使用編碼器輸出的指數移動平均(exponential movingaverage,EMA)更新碼本中的原型向量,并引入局部特征的承諾損失 Lbc 和全局特征的承諾損失 Ltc

其中, sg(W) 代表stop-gradient運算,即在前向傳播時保持 W 不變,在反向傳播時將 W 的梯度強制歸零,從而阻止梯度通過 W 反向傳播[24]

使用承諾損失的目的是約束編碼器的輸出,使其趨近于所選碼本中的原型向量,減少量化過程中的信息丟失,提高模型在訓練過程中的穩定性。

綜上,VQ-VAE-2的總損失定義為

LvqI2LI2cLc

Lc=Lbc+Ltc

其中, β12、βc 為重構損失 LI2 和承諾損失 L 的權重,本研究設定 βI2c=1 。

3D-BFMC方法的主要框架如圖3所示。首先將16通道的原始CBMap作為輸入數據訓練VQ-VAE-2模型。為確保VQ-VAE-2模型的正常運行,在輸入前必須裁剪尺寸 41×41×16 的原始CBMap,將其邊長從41調整為偶數,裁剪后的尺寸為 40×40×16 。訓練完成后,提取VQVAE-2模型的層級編碼部分 Evq ,使用 Evq 將20萬個原始CB Map 樣本 M41×41×16 全部提取為向量化局部特征 ,并作為新的輸人數據 Nvq (通道數為1)訓練DenseNet模型。最后依次利用VQ-VAE-2模型的 Evq 和DenseNet模型,從原始CBMap中獲取聲源位置 。輸人數據Nvq 中的元素顯著少于原始CBMap,減少了模型在訓練過程中的內存消耗,節省了數據存儲空間,提高了數據的便攜性和傳輸效率。因此,將3D

BFMC稱為三維圖像數據壓縮方法。值得注意的是,3D-BFMC的圖像壓縮質量取決于下游

DenseNet模型的定位性能,而非重構損失 LI2 的大小。

圖33D-BFMC方法框架

Fig.3 Theframeworkof3D-BFMC

為研究不同壓縮程度的輸人數據 Nvq 對DenseNet模型性能的影響,選取具有不同尺寸向量化局部特征 的VQ-VAE-2模型 VQ-α 和VQ- ?β 進行訓練。 VQ-α 的編碼器1采用 1×1 卷積將輸出特征圖的通道數壓縮為1,該特征圖的尺寸為 40×40 ,與輸人CBMap在 X-Y 平面的投影相同。 VQ-β 的編碼器1采用一個轉置卷積,輸出特征圖的尺寸擴大為 80×80 。將 VQ-α 、VQ- ?β 的層級編碼部分記為 Evq-α 和 Evq-β ,所提取的向量化局部特征記為 (對應尺寸分別為 40×40 和 80×80? )。與原始CB Map相比, $\bar { \pmb { b } } _ { \mathrm { m } } { - } 4 0 \llangle \bar { \pmb { b } } _ { \mathrm { m } } { - } 8 0$ 中的元素數量分別減小 94% 和 76% 。

VQ-VAE-2模型的訓練采用Pytorch[21]中的Adam[26] 優化器更新網絡參數,設置初始學習率為0.001,批量大小為16,以節省內存使用量。為確保模型充分收斂,設置epoch為20O。使用余弦退火學習率調度策略[27],使學習率在epoch 范圍內按照余弦曲線逐步衰減至0。下游DenseNet模型的網絡結構和參數設置與3DGF方法相同。

2仿真結果與對比分析

上述研究表明,3D-BFMC方法和通道壓縮方法均能顯著減少訓練樣本的參數。為展示3DBFMC方法在數據壓縮的優越性,仿真分別使用3D-BFMC和通道壓縮方法進行數據壓縮,并對比下游DenseNet模型的定位誤差和噪聲魯棒性。數據壓縮的首要目的是降低訓練內存消耗,因此仿真首先分析上游VQ-VAE-2模型的計算資源使用情況,再對比下游DenseNet模型的資源使用情況,最后選擇內存占用相似的DenseNet模型進一步比較三維定位性能。

2.1 計算資源

訓練時,VQ-VAE-2與DenseNet模型沒有關聯,因此,需分別評估VQ-VAE-2和DenseNet模型在訓練過程中的計算資源消耗。本研究的所有工作均在配備Inteli7-14700KF和GeForce4070Ti顯卡的計算機上完成。表4展示了VQ-α 和VQ ?β 在訓練期間所占用的內存 Mc 和顯存MG 。模型在顯卡上訓練,結果表明, VQ-α 和VQ- ?β 的內存占用量與顯存占用量都在可接受范圍內。 VQ-β 擁有更大尺寸的特征,導致模型參數比 VQ-α 多,因此顯存消耗更多,但二者的內存使用量均為 3.2GB 。這是因為除編碼器1的第一層和解碼器1的最后一層存在差別外,其他結構完全一致,且采用相同的訓練數據和參數設置,這使得二者在內存消耗上并無顯著差異。

表4VQ- σ?a 和VQ-" 在訓練期間的內存和顯存消耗

Tab.4The CPU memory and GPU memoryusage of VQ- σ?a and VQ- ?β during training

將由 組成的訓練數據集分別記為 T?40 和 T?80 ,使用 T-40,T-80 訓練的DenseNet模型分別記為BFMC-4O 和BFMC-80。通道壓縮方法中, ε=1 時,CBMap未壓縮,訓練數據為原始CBMap; ε=4 時,壓縮后的矩陣元素數量為6724,與 的元素數量相當; ε=16 時,壓縮后的矩陣元素數量為1681,與 的元素數量相當。因此,選取 ε=1,4,16 的數據訓練DenseNet模型。將 ε=1,4,16 訓練得到的模型分別記為3DGFM-1、3DGFM-4和3DGFM-16。3DGFM-1在訓練時使用未壓縮數據,因此其性能用作參照。BFMC-80的訓練數據尺寸為80×80 ,導致訓練模型所需的計算資源增多,訓練效率顯著下降,因此將BFMC-8O的預處理層替換為步長為2、填充為3的 7×7 卷積核,從而將80×80 的輸入數據縮小至 40×40 。除此之外,模型其余部分結構完全相同,僅輸人數據存在差異。

表5展示了5種DenseNet模型在訓練期間所占用的 Mc 和 MG 。3D-BFMC和通道壓縮方法均能有效減少模型訓練時的內存占用量。BFMC-40和3DGFM-16的內存占用量基本一致,約為3DGFM-1的 19% ;BFMC-80和3DGFM-4的內存占用量基本一致,約為3DGFM-1的 35% 。訓練采用小批量數據,且不同樣本之間的數據大小相差不到 100kB ,因此含有不同數量參數的樣本在訓練時并不會對顯存占用量產生較大影響。這5種模型的參數數量非常接近,最終的顯存占用量大致相同。后續討論中,對比具有相似內存占用量的BFMC-4O和3DGFM-16模型,以及BFMC-80和3DGFM-4模型的性能,以進一步分析3D-BFMC的優越性。

表5五種DenseNet模型在訓練期間的內存和顯存消耗

Tab.5The CPU memory and GPU memory usage of five DenseNet models during training

2.2 定位誤差

本研究采用均方根誤差

式中: N 為測試數據集中的樣本總數; 為模型對第 i 個樣本的預測結果; (xi,yi,zi) 為第 i 個樣本的實際位置坐標。

作為衡量DenseNet模型定位精度的指標。 RMSE 越小,模型的定位精度越高。在評價時, RMSE 四舍五入保留至小數點后四位。

定義“已知”頻率為模型訓練使用的頻率,“未知\"頻率為其他頻率。表6展示了5種DenseNet模型在“已知”頻率上的定位誤差。BFMC-40的平均定位誤差比3DGFM-16小 7.3% 。BFMC-80的平均定位誤差比3DGFM-4僅小 2.5% ,但經接近3DGFM-1,二者在5個“已知\"頻率上的平均差值僅為 0.1mm 。

表6五種DenseNet模型在“已知\"頻率上的定位誤差

Tab.6Localization errors of fiveDenseNetmodelsat \"known\"frequencies

為進一步評估模型在“未知\"頻率上的泛化性能,在 1~8kHz 范圍內隨機選取10個“未知\"頻率作為測試頻率,其中, 6.4,7.0,8.0kHz 不在訓練頻率范圍 (1~6kHz) 內。5種DenseNet模型在這些“未知\"頻率上的定位誤差如圖4所示。在頻率泛化性能方面,相較于3DGFM-16,BFMC-40在10個“未知”頻率上的平均定位誤差減小35% ;相較于3DGFM-4,BFMC-80的平均定位誤差減小 3.1% 。

圖4五種DenseNet模型在“未知\"頻率上的定位誤差 Fig.4Localization errors of five DenseNet models at \"unknown” frequencies

綜上所述,無論是“已知”頻率還是“未知”頻率,BFMC-4O和BFMC-80均表現出更高的定位精度。BFMC-4O的提升效果更顯著;BFMC-80的定位性能更接近使用原始數據為輸入的DenseNet模型3DGFM-1。因此,利用3D-BFMC壓縮得到的數據能在較低維度上保留更多原始數據的特征信息,這更利于下游DenseNet模型的學習,獲得更高的定位精度。使用3D-BFMC和通道壓縮方法對原始數據進行壓縮,訓練得到的DenseNet模型在預測結果上的 RMSE 隨頻率變化的趨勢基本一致,即使用不同壓縮方法獲得的數據訓練模型,不會改變模型誤差在不同頻率下的變化趨勢,這說明影響DenseNet模型精度的主要因素仍是聲源頻率。頻率相同時,數據壓縮程度的增加導致DenseNet模型的定位精度顯著下降。

2.3 噪聲魯棒性

為評估外部噪聲干擾下,壓縮方法對下游DenseNet模型定位精度的影響,在每個麥克風采集的聲壓信號中添加不同信噪比 SNR 的隨機噪聲。圖5所示為不同DenseNet模型的噪聲魯棒性表現。表7展示了5種DenseNet模型在不同SNR (特定 SNR 下,模型在5個測試頻率上的 R?MSE 均值)。結合圖 5a 、圖5b和表7可知,在抵抗外部噪聲干擾方面,BFMC-40優于3DGFM-16,BFMC-80 優于3DGFM-4; SNR 在 5~15dB 范圍內,BFMC-4O、BFMC-80的 分別減小 5.2% 和 18.4% 。這是因為VQ-VAE-2模型是在無噪聲的“干凈\"數據上訓練得到的,因此在對含噪聲的數據進行特征提取時,VQ-VAE-2的編碼器傾向于抑制噪聲干擾,提取更接近原始“干凈\"數據的潛在特征。這使得3D-BFMC更能為下游DenseNet模型提供“干凈”的輸人數據,減小DenseNet模型的定位誤差。BFMC-80的抗噪性能比BFMC-4O更優,這表明在3D-BFMC方法中,擁有大尺寸( 80×80) 特征信息的VQ β 模型在處理含噪聲數據時比特征尺寸較小 (40×40) 的VQ-α 模型更具優勢。

由圖5c可知, 1~4kHz 內, SNR 較小 (5~15 dB)時,BFMC-80的定位誤差明顯小于3DGFM-1。這是因為,盡管壓縮會損失原始數據中的部分特征信息,但噪聲對模型精度的影響“掩蓋”了信息損失的影響。VQ-VAE-2在數據壓縮時能過濾部分噪聲,使下游DenseNet模型具備更高的精度。隨著 SNR 的增大,噪聲對模型精度的影響逐漸減弱,信息損失導致的額外誤差逐漸凸顯。由于模型的抗噪性能隨聲源頻率的升高逐漸增強,因此頻率達到 6kHz 時,數據壓縮產生的誤差占主導地位,導致此時 BFMC-8O 的定位誤差大于 3DGFM-1。

"

表75種DenseNet模型的

Tab.7The of5DenseNet models

綜上所述,與通道壓縮方法相比,使用3DBFMC壓縮數據訓練的DenseNet模型能在較小SNR 下有效提高模型的定位精度;在內存和顯存消耗可接受的范圍內,選擇具有較大特征尺寸的VQ-VAE-2模型更利于抵抗外部噪聲干擾,減弱噪聲對下游DenseNet模型精度的影響。

3試驗驗證

為進一步驗證3D-BFMC方法的有效性和可行性,在普通室內環境中進行試驗。試驗設備包括Bamp;K公司的18通道扇形輪形麥克風陣列

WA-1558-W-021和LAN-XI數據采集器。以陣列面中心為坐標原點,揚聲器布置于 (0.2,-0.1 ,0.4)m 處。聲源類型為隨機白噪聲,總采樣時間為5s,采樣頻率為 32768Hz 。試驗布局如圖6所示。

圖6普通室內環境中的試驗布局

Fig.6The experimental layout in an indoor environment

選取“已知”頻率 1kHz?6kHz 和“未知”頻率 2.4kHz?4.2kHz 作為分析頻率。使用3D-BFMC方法對CBMap進行壓縮,并將不同壓縮程度的數據分別提交給BFMC-4O和BFMC-80,定位試驗環境中的聲源。定位結果如圖7所示,其中,云圖為使用CBF方法計算得到的CBMap,綠色“★”代表聲源的實際位置,紅色“ × 代表BFMC-80的定位結果,灰色“ + \"代表BFMC-40的定位結果。每個分圖中,左上、右上和左下的子圖分別對應波束形成結果在 X-Y,Z-Y,X-Z 平面上的投影。模型在試驗環境中的預測結果四舍五入保留至小數點后三位。

圖7BFMC-80和BFMC-40在試驗中的定位結果

Fig.7 The localizationresults of BFMC-80 and BFMC-40 in the experiment

從圖7中可以看出,BFMC-80、BFMC-40均能較準確地預測出聲源的坐標,但BFMC-80的定位精度明顯高于BFMC-4O。盡管BFMC-40在“未知”頻率 2.4kHz 上出現較大的縱向誤差,但仍在可接受范圍內。為進一步對比3D-BFMC和通道壓縮方法在試驗環境中的性能,表8展示了5種DenseNet模型在全部試驗頻率下的平均定位誤差 。與3DGFM-4相比,BFMC-80的定位精度顯著提升, 減小 14% ;與3DGFM-16相比,BFMC-40的 減小 22% ,同樣展現出更優的定位性能。此外,BFMC-80的定位精度相當接近使用未壓縮數據訓練的模型3DGFM-1。

表85種DenseNet模型的平均定位誤差Tab.8Average localization error of 5DenseNet models

mm

3D-BFMC使用VQ-VAE-2模型特征提取會產生額外的計算時間,為評估不同VQ-VAE-2模型的計算效率,分別測試了 VQ-α,VQ-β 在試驗數據上的特征提取時間。 VQ?α,VQ?β 在4個試驗頻率上的平均特征提取時間分別約為 15ms 和52ms ,都具有較高的計算效率。因此,使用3DBFMC方法壓縮數據不會顯著影響整個定位流程的計算效率。

綜上所述,3D-BFMC方法能在試驗環境中對CBMap進行有效壓縮,并擁有較高的計算效率,在實際應用中具有一定可行性。與通道壓縮方法相比,使用3D-BFMC壓縮數據訓練的DenseNet模型能獲得更高的定位精度,這與仿真結果一致。

4結論

1)提出的3D-BFMC方法能顯著減少下游DenseNet模型在訓練時占用的內存。相較于原始CBMap,將BFMC-4O、BFMC-80壓縮的數據作為輸人進行訓練時,DenseNet模型的內存消耗分別減少 81% 和 65% 。上游VQ-VAE-2模型的訓練僅需消耗較少的計算資源,占用的內存和顯存均在 4.7GB 以內。

2)在3D-BFMC方法中,與 VQ-α 相比,具有更大特征尺寸( 180×80) 的 VQ-β 在訓練時會占用更多顯存。輸入數據尺寸較大的DenseNet模型BFMC-80在訓練時的內存消耗大于BFMC-40,但BFMC-80在定位精度、頻率泛化性能、噪聲魯棒性上顯著優于BFMC-4O。因此,在實際應用中,應根據任務需求選擇最合適的壓縮數據尺寸。

3)3D-BFMC方法具有較高的計算效率。壓縮單個CBMap 樣本時, VQ-α,VQ-β 平均處理時間僅為 15ms 和 52ms 。仿真和試驗驗證了3D-BFMC方法的有效性和可行性,有助于進一步提升3DGF在實際場景中的應用潛力。

參考文獻:

[1] ABDELREHEEMA,MOHAMEDEM,ESMAIEL H. Location-based Millimeter Wave Multi-level Beamforming Using Compressive Sensing[J]. IEEE CommunicationsLetters,2018,22(1):185-188.

[2] van den ENDE MP A,AMPUERO JP. Evaluating Seismic Beamforming Capabilities of Distributed Acoustic Sensing Arrays[J]. Solid Earth,2021,12 (4):915-934.

[3]MALGOEZAR A,SNELLEN M,SIJTSMA P,et al. Improving Beamforming by Optimization of Acoustic Array Microphone Positions[C]// 6th Berlin Beamforming Conference. Berlin,2O16:BeBeC2016-S5.

[4]CHIARIOTTIP,MARTARELLIM,CASTELLINI P.Acoustic Beamforming for Noise Source Localization—Reviews,Methodology and Applications [J]. Mechanical Systems and Signal Processing, 2019,120:422-448.

[5]DOBLER D,OCKER J,PUHLE C.On 3D-Beamforming in The Wind Tunnel[C]//6th Berlin Beamforming Conference.Berlin,2016:BeBeC-2016-S10.

[6] MERINO-MARTINEZ R,VON DEN HOFF B, MORATA D,et al. Three-Dimensional Acoustic Imaging Using Asynchronous Microphone Array Measurements[C] // 9th Berlin Beamforming Conference.Berlin,2022:S8.

[7]BROOKS T,HUMPHREYS W. Three-dimensional Applications of DAMAS Methodologyfor Aeroacoustic Noise Source Definition[C] // 11th AIAA/CEAS Aeroacoustics Conference. Reston, 2005:2960.

「8] XENAKI A, JACOBSEN F, FERNANDEZ

GRANDE E. Improving the Resolution of Three-dimensional Acoustic Imaging with Planar Phased Arrays[J]. Journal of Sound and Vibration,2o12,331 (8):1939-1950.

[9] ZAN Ming,XU Zhongming,TANG Zhonghua,et al.Three-dimensional Deconvolution Beamforming Based on the Variable-scale Compressed Computing Grid[J].Measurement,2022,205:112211.

[10]MA Wei, LIU Xun. Phased Microphone Array for Sound Source Localization with Deep Learning[J]. Aerospace Systems,2019,2(2):71-81.

[11]KUJAWSKI A,HEROLD G,SARRADJ E. A Deep Learning Method for Grid-free Localization and Quantification of Sound Sources[J]. The Journal of the Acoustical Society of America,2019, 146(3) :EL225.

[12] XU Pengwei,ARCONDOULIS E J G,LIU Yu. Acoustic Source Imaging Using Densely Connected Convolutional Networks[J]. Mechanical Systems and Signal Processing,2021,151:107370.

[13]LEE S Y,CHANG J,LEE S. Deep Learningbased Method for Multiple Sound Source Localization with High Resolution and Accuracy[J]. Mechanical Systems and Signal Processing, 2021, 161:107959.

[14]ZHAO Yunjie,HE Yansong,CHEN Hao,et al. Three-dimensional Grid-free Sound Source Localization Method Based on Deep Learning[J]. Applied Acoustics,2025,227:110261.

[15]陳昱,項薇,林文文,等.基于半監督學習雙模型 結構的注塑產品異常檢測[J].中國機械工程, 2025,36(3):576-583. CHEN Yu,XIANG Wei,LIN Wenwen,et al. Abnormal Detection of Injection Molding Products Based on Semi-supervised Learning Dual-model Structure [J]. China Mechanical Engieering, 2025,36(3):576-583.

[16]楊光友,劉浪,習晨博.自適應輔助分類器生成式 對抗網絡樣本生成模型及軸承故障診斷[J].中國 機械工程,2022,33(13):1613-1621. YANG Guangyou,LIU Lang,XI Chenbo. Bearing Fault Diagnosis Based on SA-ACGAN Data Generation Model[J]. China Mechanical Engineering, 2022,33(13):1613-1621.

[17]KINGMA D P, WELLING M. Auto-Encoding Variational Bayes[J]. arXiv Preprint arXiv,2013: 1312.6114.

[18]SARRADJ E. Three-dimensional Acoustic Source Mapping with Different Beamforming Steering Vector Formulations [J]. Advances in Acoustics and Vibration,2012,2012(1):292695.

LI9」 HUANG Gao,LIU Zhuang,van der MAAIEN L,et al. Densely Connected Convolutional Networks[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu,2017:2261-2269.

[20]ALZUBAIDI L, ZHANGJinglan,HUMAIDI A J, et al. Review of Deep Learning: Concepts,CNN Architectures,Challenges,Applications,Future Directions[J].Journal of Big Data,2021,8(1): 53.

[21] PASZKE A,GROSS S,MASSA F,et al. PyTorch:An Imperative Style,High-Performance Deep Learning Library[J]. Advances in Neural Information Processing Systems, 2019,32.

[21] PASZKE A,GROSS S,MASSA F,et al. PyTorch:an Imperative Style, High-performance Deep Learning Library[J].arXiv,2O19:1912. 01703vl.

[22]SARRADJ E,HEROLD G. A Python Framework for Microphone Array Data Processing[J]. Applied Acoustics,2017,116:50-58.

[23] KUJAWSKI A,PELLING AJR,JEKOSCH S, et al.A Framework for Generating Large-scale Microphone Array Data for Machine Learning[J]. Multimedia Tools and Applications, 2024,83 (11):31211-31231.

[24]VAN DEN OORD A,VINYALS O. Neural Discrete Representation Learning[J]. arXiv,2017: 1711.00937.

[25] RAZAVI A,VAN DEN OORD A,VINYALS O. Generating Diverse High-Fidelity Images with VQVAE-2[J]. arXiv,2019:1906.00446.

[26] KINGMA D P,BA J. Adam:a Method for Stochastic Optimization[J].arXiv,2014:1412.6980.

[27]LOSHCHILOV I, HUTTER F. SGDR:Stochastic Gradient Descent with Warm Restarts[J].arXiv, 2016:1608.03983.

(編輯張洋)

作者簡介:趙昀杰,男,1999年生,碩士研究生。研究方向為振動與噪聲控制。發表論文1篇。E-mail:202207131152t@stu.cqu.edu.cn。賀巖松*(通信作者),男,1968年生,教授、博士研究生導師。研究方向為汽車振動與噪聲控制、車輛系統動力學與智能控制、車輛舒適性主/客觀評價等。發表論文80余篇。E-mail:hys68@cqu.edu.cn。

本文引用格式:

趙昀杰,賀巖松,張志飛,等.基于生成模型的三維波束形成圖像壓縮方法[J].中國機械工程,2025,36(7):1520-1529.ZHAO Yunjie,HE Yansong,ZHANG Zhifei,etal.3D Beamforming Map Compression Method Based on Generative Model[J].ChinaMechanical Engineering,2025,36(7):1520-1529.

主站蜘蛛池模板: 黄色a一级视频| 精品视频一区二区观看| 欧美亚洲欧美区| 亚洲AV无码精品无码久久蜜桃| 最新国产精品鲁鲁免费视频| AV无码一区二区三区四区| 青青极品在线| 国产簧片免费在线播放| 无码电影在线观看| 成年人久久黄色网站| AV无码无在线观看免费| 亚洲欧美在线看片AI| 国产精品久线在线观看| 色天堂无毒不卡| 成人国产一区二区三区| 国产中文一区二区苍井空| 久久国产精品麻豆系列| 情侣午夜国产在线一区无码| 亚洲精品成人片在线观看| 美女视频黄又黄又免费高清| 最近最新中文字幕在线第一页| 亚洲视频无码| 国产在线一区视频| 在线免费观看AV| 欧美精品另类| 欧美中出一区二区| 国产视频你懂得| 91人妻在线视频| 国产成人综合欧美精品久久| 国产浮力第一页永久地址| 亚洲 日韩 激情 无码 中出| 国产高清国内精品福利| 国禁国产you女视频网站| 色综合狠狠操| 综合色在线| 国产色网站| 免费一级成人毛片| 伦伦影院精品一区| aaa国产一级毛片| 中国一级毛片免费观看| 亚洲精品视频免费看| 3p叠罗汉国产精品久久| 好紧好深好大乳无码中文字幕| 亚洲Aⅴ无码专区在线观看q| 97狠狠操| 岛国精品一区免费视频在线观看| 精品人妻一区二区三区蜜桃AⅤ| 五月婷婷丁香色| 国产成人资源| 亚洲成人黄色在线| 国产精品手机在线播放| 亚洲欧洲日韩综合色天使| 亚洲大尺码专区影院| 欧美色视频日本| 五月婷婷亚洲综合| 无码aⅴ精品一区二区三区| 91福利一区二区三区| 专干老肥熟女视频网站| 精品久久久无码专区中文字幕| 中文字幕在线不卡视频| 高潮毛片无遮挡高清视频播放| 欧美日韩v| 色婷婷电影网| 四虎永久在线精品国产免费| 国产成+人+综合+亚洲欧美| 亚洲 日韩 激情 无码 中出| 国产福利免费视频| 亚洲成aⅴ人在线观看| 欧美精品影院| 亚洲视频色图| 色综合热无码热国产| 视频一区亚洲| 免费国产一级 片内射老| 久久77777| a天堂视频| 国产一级毛片yw| 91久久精品国产| 538国产视频| 日韩成人在线一区二区| 啪啪永久免费av| 东京热一区二区三区无码视频| 亚洲AⅤ永久无码精品毛片|