999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

針對圖像指代分割的訓練后量化策略

2025-07-28 00:00:00楊航姜曉燕
計算機應用研究 2025年7期
關鍵詞:深度學習

關鍵詞:圖像指代分割;訓練后量化;跨模態融合;深度學習

中圖分類號:TP391.41;TP183 文獻標志碼:A 文章編號:1001-3695(2025)07-014-2025-07

doi:10.19734/j. issn.1001-3695.2024.10.0437

Abstract:RISaims tosegmentobjectsdescribedbysentencesinanimagebyintegratingvisualandlinguisticinformation. This technique has strong appication prospects ininteractiveimage editingandlanguage-guided human-machine interaction. However,existing solutions tendtoexplore high-performance models,neglecting practicalapplicationsonedgedeviceswith limited esources.ThepaperproposedaneficientPQframework toaddressthischallenge.Specifically,theanalysisdentifiedtherotcauseofperformancecollpsecausedbyusingtheround-to-nearest(RTN)quantization method.Thentheframework proposedatwo-regionbalancedquantizationstrategytosolvethenon-normaldistributionofactivationvaluesaftersoftmax and GELUoperations inthevisual encoder,andintroducedareordered groupingquantization strategytotacklethequantizationproblemscausedbyoutliersinthelinearlayersactivationof the textencoder.Extensiveexperimentsexploringdierent quantization bitwidthsonthreebenchmark datasetsdemonstratetheclearadvantages ofthe proposed methodover existing PTQ methods.AsthefirstquantizationschemespecificallfortheRIStask,itconfirmsthefeasibilityofeficientlydeployingthe RIS model to edge devices using the PTQ method.

Key words: referring image segmentation(RIS); post-training quantization(PTQ);cross-model fusion; deep learning

0引言

深度學習極大程度提高了視覺算法在許多圖像分割任務上的性能,如語義分割[1]實例分割[2]等。這些任務需要將圖像像素分組在一組固定的預定義類別下,主要是分組語義的粒度不同。區別于這些單模態的分割任務,圖像指代分割3是一項具有挑戰性的多模態任務:給定圖像和目標對象的描述語句,輸出所指代對象的分割掩碼。該任務需要算法同時理解細粒度的自然語言表達,并與指代對象進行正確的像素級別對應,在語言引導的人機交互[4]和高級駕駛系統[5]等領域具有巨大的發展潛力。

然而為了提升性能,現有的RIS任務模型采用了復雜的多模態融合機制以及多尺度圖像信息,使得模型規模龐大,參數計算也相對復雜。例如,VLT模型參數量約為452M,FLOPs為142.6G,使用高性能的NVIDIAA100GPU集群推理時間大約為 42ms ,這就需要高顯存的硬件來存儲和處理這些數據。而在實際應用,尤其是在需要實時響應的場景中,長時間的推理會嚴重影響用戶體驗和系統效率。在邊緣設備、手機等資源受限的環境中,這些硬件配置往往難以滿足要求,即便是可以利用強大的計算資源云端部署,也面臨高昂的成本和數據傳輸延遲的問題。因此,RIS的應用面臨著巨大的部署挑戰。

作為模型壓縮的一種有效手段,量化技術將權重和激活值從32位浮點數轉換為8位或者更低的整數定點表示,可以顯著減小模型尺寸并提高推理速度,便于在資源受限的邊緣設備上部署。模型量化技術主要分為量化感知訓練(quantizationaware training,QAT)[8]和訓練后量化(post-trainingquanti-zation,PTQ)兩類。QAT需要訪問完整訓練數據集和大量計算資源,而PTQ只需要一小部分未標記樣本數據進行校準,避免了使用大量可用標記數據重新訓練網絡的需要,更適用于快速高效的工業應用場景。因此選擇使用PTQ方式對現有的圖像指代分割模型進行量化以解決部署難題。但目前的先進PTQ分別針對圖像分類任務和語言理解任務提出,將其直接應用在RIS這類多模態任務上會由于圖像和文本數據的分布差異導致性能驟降。

為解決這一難題,本文提出了一種針對圖像指代分割任務的定制化訓練后量化方案,旨在為端側部署該類多模態大模型提供一種可參考的執行方案。主要貢獻如下:

a)作為該領域的首次研究,揭示了圖像指代分割模型量化后性能崩潰的根本原因,即視覺編碼器的獨特激活分布和文本編碼器的線性層激活異常值問題。

b)提出了雙區域均衡量化和重排序分組量化策略解決上述問題,并基于此構建了專門為圖像指代分割任務設計的完整的模塊化后訓練量化策略。

c)在三個基準數據集上設置8bit、6bit和4bit的權重和激活量化,與現有的量化方法進行廣泛對比實驗,驗證了本文方法的有效性與優越性,值得一提的是,int8量化后的模型性能在部分數據集上與全精度模型幾乎持平。

1相關研究

1.1 圖像指代分割

Hu等人[3從語義分割任務中得到啟發,提出圖像指代分割任務并給出CNN-LSTM分別提取特征,以及跨模態特征簡單級聯的簡單框架。在此基礎上,文獻[10,11]通過改進特征提取的網絡來提高分割質量,文獻[12,13]設計注意力模塊或雙向融合模塊等來捕獲模態之間的關系。隨著Transformer[14]在自然語言處理和計算機視覺領域愈發成熟,最近的研究[15,16]采用編碼器-解碼器結構來增強全局上下文信息,即使用編碼器提取特征,解碼器中對齊跨模態信息的結構。Ding等人提出VLT模型,通過多角度理解文本內容生成多個查詢;Wang 等人[17]利用預訓練模型CLIP[18]提取和融合兩種模態特征,增強了模態一致性;Yang等人[19則充分利用編碼器中豐富的多尺度信息,可以有效挖掘多模態上下文,因此在編碼器階段進行跨模態交互;文獻[20]利用參數高效微調技術,使用跨模態橋連接和凍結模型,在減少骨干網絡訓練參數量的同時,保持了強大的性能。RIS任務研究領域不斷進步,但其龐大參數量和對計算資源的高需求仍是實際落地使用的難題。

1.2 訓練后量化技術

早期的訓練后量化技術如AdaRound[21]、BRECQ[22]QDrop[23] 等方法主要針對CNN架構,采用了自適應舍人、逐模塊重建和激活值誤差修正等技術有效改善量化后模型精度下降的問題。然而,這些方法并不適用于Transformer架構,這促使研究人員將研究重心偏向開發針對Transformer架構的高效量化策略。對于視覺Transformer[24], PIQ-ViT[25] 利用注意力圖的核范數自適應調整位寬,保證量化前后特征映射的相似性;在此基礎上, FQ-ViT[26] 引人了二次冪因子和Log-Int-softmax技術,實現了模型全量化。 PTQ4ViT[27] 有效解決了由于softmax和GELU后激活值的異常分布導致的量化后模型擬合效果差的問題; RepQ-ViT[28] 則將量化和推理過程解耦合以簡化操作。此外還有一些專門針對純文本Transformer設計的量化方法,例如I-BERT[29]采用純整數算法量化整個推理過程,BiBERT[30]則提出了僅利用一位權重值和激活值的完全二值化BERT模型,顯著降低了計算成本和內存使用。盡管視覺和文本模態的量化技術不斷發展,但并沒有研究專門針對多模態任務的量化策略,使得像圖像指代分割這一類的任務無法通過量化技術得到有效部署和應用。

2 背景知識

2.1全精度基線模型

圖像指代分割任務的輸入是圖像 I∈RH×W×3 和描述圖像中對象的自然語言表達式 E ,最終需要輸出像素級別的分割掩碼 M∈RH×W 。該任務的核心挑戰是模型需要理解視覺和文本兩種模態的信息,同時準確地對齊視覺和語言特征實現精確的目標定位和分割。由于語言感知的visualTransformer模型(language-awarevisual Transformer,LAVT)[19]結構明確且性能優異,所以將其作為圖像指代分割量化工作的全精度基線模型,如圖1所示。

圖1全精度基線模型

LAVT[19]由以下四個部分組成:

a)視覺編碼器。對于輸入的圖像 I∈RH×W×3 ,使用分層視覺Transformer提取多尺度的視覺特征映射,表示為 i∈{1,2,3,4} ,用于在每個階段與語言特征進行特征融合和聯合編碼。其中 Ci、Hi、Wi 分別為第 i 階段特征圖的通道數、高度和寬度。

b)文本編碼器。使用深度語言表示模型,將輸入的自然語言表達式 E 嵌人到高維詞向量中,得到語言特征表示 L∈ ,其中 Ct 和 T 分別表示通道數和單詞數。

c)跨模態融合模塊。由多模態特征融合注意力機制和一個可學習的門控單元組成,如圖2所示。在此過程中進行跨模態信息交互,生成和改進語言感知的視覺特征。在多模態特征融合模塊,將視覺特征映射 Vi 和語言特征 L 相結合,生成一組多模態特征映射 。然后使用可學習門控單元對 Fi 中的每個元素進行加權,再添加到 Vi 中產生一組嵌入語言信息的增強視覺特征,記為 ,然后將 Ei 重新送回到下一階段的 Transformer 層中編碼產生新的視覺特征映射 Vi+1

圖2跨模態融合模塊Fig.2Cross-modal fusion module

d)解碼器。使用輕量級的掩碼預測器得到最終結果,將多模態特征映射 Fi 以自上而下的方式結合起來,利用多尺度語義進行最終的分割,解碼過程如下:

其中: i∈{1,2,3,4} 表示解碼器四個階段的特征圖;[;]表示沿通道維度進行特征拼接;表示通過雙線性插值方式進行上采樣; ξi 是通過批處理歸一化和ReLU非線性激活函數連接兩個 3×3 卷積實現的投影函數。最后的特征圖

D1 通過 1×1 的卷積投影為二分類分數圖。

2.2 權重和激活量化

模型量化是神經網絡壓縮的關鍵技術之一,在不改變模型結構的基礎上,通過將權重值和激活值從float32轉換為較低位寬的整數表示的方式顯著降低內存消耗與計算量。通過以下公式,將浮點張量映射到整數網絡。

xq=s?(xint-z)≈x

其中:round函數將值映射為整數,在量化過程中引人舍入誤差;量化比例因子 s 由張量的最大值和最小值以及位寬 b 決定,反映了浮點數和整數之間的比例關系;clamp函數將輸出范圍限定為可以由 b 位整數表示的范圍,裁剪超過范圍的值并引入裁剪誤差; z 定義為零點的偏移量,在對稱量化中規定為 0

在訓練后量化策略中,權重量化直接從預訓練模型的權重文件中獲取數據用于待量化層,而激活值量化需要使用少量校準數據收集激活值統計數據,優化量化方案以有效平衡裁剪誤差和舍人誤差。

3方法設計

3.1 整體分析

將現有樸素訓練后量化方案直接應用于全精度圖像指代分割模型,觀察到量化后模型性能顯著下降,對每個模塊分別進行深入分析后,總結原因如下:

a)多模態的CNN-Transformer混合架構。現有的PTQ方法是針對單模態CNN或Transformer架構設計的,沒有考慮混合架構不同層的參數分布以及跨模態特征的數據分布特性。這種方法與模型結構之間的不匹配,導致了量化后RIS模型精度大幅下降。

b)softmax和GELU后激活值的非正態分布。單獨分析發現,視覺編碼器性能下降特別明顯,是由于softmax和GELU后激活值表現出與高斯分布截然不同的分布特性。這些激活值對于引導自注意機制中patch之間的相關性至關重要,不能簡單地將其進行裁剪與舍棄。

c)文本編碼器中不可忽視的異常激活值。文本編碼器所提取的語義特征作為圖像指代分割任務的關鍵輸人,其任何量化錯誤都影響下一階段的編碼情況并不斷累積影響整體性能。而這些異常激活值隨著輸人數據的不同呈現不規則變化且對量化十分敏感,由于其中包含重要的文本信息,將異常值直接剔除的策略并不可行。

為了解決以上問題,本文提出了一種針對圖像指代分割任務的訓練后量化方案,主要包含針對視覺編碼器的雙區域均衡量化策略和針對文本編碼器的重排序分組量化策略。

3.2 雙區域均衡量化策略

大多數的訓練后量化方案都是基于高斯分布設計的,然而對視覺編碼器使用常規均衡量化策略后,量化后的圖像指代分割模型性能下降十分嚴重,已不能滿足實際應用的精度需求。分析其視覺編碼器可視化后發現,這兩類分布極其特殊,常規量化策略無法擬合數據分布情況,如圖3所示。

如圖3(a)所示,經過softmax后的激活值分布在(0,1),大部分的值聚集在0附近,少量大值接近1。在自注意力機制中,值越大表示塊之間的相關性越高,對結果影響便越大。常規方法中,使用同一個量化比例因子 s 量化整個層或者張量的方式,無法準確建模:使用較大的比例因子可以減少大值的量化誤差,但會將很大一部分小值直接量化為0,使用小比例因子則會顯著降低塊之間的相關性。如圖3(b)所示,經過GeLU函數后激活值的正負區間分布具有高度不對稱性。正值分布范圍非常大,但負值更多的是聚集在0附近,使得對稱量化很難擬合這種分布。雖然非均衡量化可以有效解決這一問題,但由于硬件不友好的原因,并不適用于廣泛應用部署。

圖3Post-softmax和Post-GeLU激活值分布Fig.3Activation value distribution of Post-softmax and Post-GeLU

本文針對上述視覺編碼器的量化難題,提出雙區域均衡量化策略:

對于softmax后的激活值,本文定義兩個區域分別為

對于GeLU后的激活值,則定義兩個區域分別為

為了覆蓋整個數據范圍,保持 sR2s=1/2b-1 ,以確保所有softmax后的大值都可以被 R2s 覆蓋。同時固定 sR1g ,使得 R1g 可以覆蓋所有GELU后激活值的負數范圍。

在校準過程中,通過尋找最佳的尺度因子 sR2s 和 sR2g 來量化激活值。以int8量化為例,最終數據格式采用無符號整數,其中第一位是區域索引,用來劃分校準數據的范圍( R1 是 0,R2 是1),后七位則是量化值。同時,使用 在兩個區域之間建立約束,使用移動 m 位操作代替 2m 乘法,促進比例因子的快速對齊,降低計算成本。

視覺編碼器的整體量化策略如圖4所示。

自注意力機制中的矩陣乘法是Transformer架構中的關鍵計算,主要包括兩個乘法計算操作: QKT 和 PV ,其中 P=soft. 新 dk 表示鍵向量維度。為統一標準,本文將矩陣乘法統一表示為 K=AB 。將搜索空間線性劃分為 N 個候選區域得到比例因子搜索空間,在這兩個搜索空間內交替優化搜索最佳比例因子:固定 sA 搜索 sB ;再固定 sB 搜索 sA

為了實現高精度和快速量化,視覺編碼器部分使用分層并行量化模式,在校準過程中使用Hessian引導度量來逐層或逐矩陣確定比例因子。通過泰勒級數展開來分析量化對任務損失的影響,目標是找到使得量化前后輸出差距最小的比例因子,基于文獻[22,27]中逐層重建方法,優化可以近似為

其中: E 表示損失的期望; 和 ?ι 分別代表第 l 層量化前后的輸出。建立比例因子的搜索空間,計算每個比例因子對層輸出的影響,然后根據公式選擇最優的比例因子,當對權重進行量化時,輸出的梯度值不會改變,實現預計算,顯著提高了量化效率。

3.3重排序分組量化策略

文本編碼器線性層的激活分布存在顯著異常值,如圖5所示,使得單個比例因子 s 實現量化時會引入嚴重的量化誤差,同時作為模型輸人的重要語言編碼信息,這部分異常值無法簡單剔除。

圖4視覺編碼器的量化策略(包括雙區域均衡量化策略)
圖5文本編碼器線性層激活值可視化 Fig.5Visualization of linearlayerabnormal activations圖6重排序分組量化策略Fig.6Reordered grouping quantization strategy

出于效率和精度的雙重考慮,本文提出了重排序分組量化策略。在校準過程中迭代選擇離群點進行分組并計算不同組別的量化參數,通過這種分組計算的方式來提高量化精度。該策略具體步驟如圖6所示。

首先,統計激活值絕對值數據,根據經驗法則使用以下公式計算閾值 τ ,將離群點劃分出來:

τ=μ+3σ

其中 σ:μ 是數據分布的均值; σ 是標準差,表示數據與均值的離散度,使用 3σ 捕獲 99.7% 的數據,使得識別異常值的過程更加穩健。據此得到根據閾值劃分的組別:內點集合(小于等于閾值的數據)和離群點集合(大于閾值的數據)。

然后,采用均勻量化器的網格搜索技術確定當前內點集合的最優量化參數,并存儲好對應的索引分組和參數值。再次計算當前離群點集合的閾值進行更新,并根據新的閾值將離群點集合再次分組,對新的內點集合計算參數。重復上述過程直到離群點集合為空或者達到預定義的最大迭代次數。使用該方法可以自適應地實現動態分組,靈活建模激活值的實際分布,顯著減少文本編碼的量化誤差,進而提高量化模型性能。

3.4 整體框架

除使用上述策略外,本文對整體模型的卷積層、全連接層以及自注意力機制中矩陣乘法運算的所有輸入矩陣都進行了權重和激活值的量化操作(除了第一個投影層和最后一個預測卷積層)。對于卷積層和全連接層,使用分層比例因子 sweight 量化權重,使用 sact 量化激活值;對于乘法運算,分別使用 sA 和sB 進行矩陣 A 和 B 的量化。

算法針對圖像指代分割的訓練后量化策略 輸入:全精度基線RIS模型,校準數據。

輸出:量化后模型。

foreachlayer li :if li in visual encoder:forward:compute oι backward: compute 301

for li in visual encoder:if“softmax”or“GELU”in layer_name:定義激活值的兩個區域 R1 和 R2 根據式 (5)~(8) 搜索 sR2s 和 sR2g (2elseif“matmul”in layer_name:初始化尺度因子 sA 和 sB 的搜索空間for r in range (1,#round+1 ):固定 sB ,搜索最優 sA 固定 sA ,搜索最優 sB

for li in text encoder:if“linear”in layer_name:收集該層激活值并置為絕對值for i in range(1,11) :使用式(9) ~ (11)計算閥值 τi ,將數據進行分組式(2)計算對應量化參數,得到 (τi,si,zi

for li in fusion_module + other_encoder_layers:使用式(2)計算( sweight,zweight, 和 (sact,zact) (2

for li in decoder:將BN層吸收到相鄰線性層中實現高效計算,使用channel-wise 的量化器計算 (sweight,zweight) 和 (sact,zact) (20

4 實驗與分析

4.1數據集

為驗證所提策略的有效性,在三個公開的圖像指代分割數據集上進行了大量實驗,分別為 RefCOCO[31] 、 RefCOCO+[31] 和G-Ref[32] 。三個數據集都基于 MSCOCO[33]構建,其中,Ref

COcO和 RefCOCO+ 數據集采用二人博弈(two-player game)[34]方法構造,G-Ref則是在亞馬遜的MechanicalTurk平臺上由同一個人同時完成目標描述和像素級分割任務。每個數據集都由原始圖像、引用表達式和像素級別的標注三部分組成,具體的數據統計情況如表1所示。

表1基準數據集的數據統計Tab.1Data statistics of the benchmark datasets

與RefCOCO相比, RefCOCO+ 的引用表達式不包括描述目標絕對位置的單詞,只描述目標對象的外觀。而對于G-Ref數據集,由于在非交互情況下收集產生,對于對象的描述更為豐富,引用表達式的平均長度達到了8.4,所以也帶來了更大的挑戰。同時,G-Ref包含UMD和Google兩個分區。

4.2實驗環境及設置

本文實驗的操作系統為Ubuntu22.04,基于PyTorch深度學習框架,使用NVIDIAGeForceRTX3090 GPU(24GB)。

初始圖像尺寸規定為(3,480,480),引用表達式規定單詞長度上限為20。細節設置:視覺編碼器使用Swin-Transformer,四階段共24個Transformer層,注意力頭數量依次為4、8、16、32,不使用絕對位置編碼且dropout概率為0.3。語言編碼器使用12層BERT,隱藏層尺寸為768。參數設置:校準數據集大小設置為32,雙區域均衡量化參數設置為 alpha=0.01 , beta= 1.2, N=100 ,搜索輪次#Round設置為3,重排序分組量化的最大迭代次數設置為10。

4.3 評價指標

圖像指代分割常用的評價指標與圖像語義分割任務類似,包括全局交并比、平均交并比和精度百分比,具體定義如下:

全局交并比(overallintersectionoverunion,OIoU)是所有測試樣本的交集區域與并集區域之比,每個測試樣本包含一個語言表達和一個圖像,適合用于大目標對象。

其中: N 是測試樣本總數; Pi 表示第 i 個樣本預測結果; Gi 表示第 i 個樣本的掩碼標注圖。

平均交并比(meanintersectionoverunion,MIoU)是所有測試樣本中預測值和真實值之間的交并比。

精度百分比( precision@X. )表示在測試集中預測結果與真實值的交并比超過閾值 X 的樣本數目占總樣本數的百分比。在圖本實驗中,將閾值 X 按照從易到難設置為{0.5,0.6,0.7,0.8,0.9

4.4定量對比實驗

由于沒有專門針對RIS任務設置的PTQ方法,且全精度模型是Transformer和CNN的混合架構,所以本文設計了一個RTN方法,對標混合架構。同時,對比先進的圖像分類的PTQ方法進行了重新實現,即 PTQ4ViT[27] 、 RepQ-ViT[28] PD-Quant[35]。在三個基準數據集上進行了不同位寬的廣泛實驗,實驗結果如表2所示。

表2本文與其他量化策略的OIoU實驗結果對比Tab.2Experiment results of the OIoU,and comparison with other quantization strategies/%

a)RTN。本文根據RIS任務的架構使用最近鄰舍入(round-to-nearest,RTN)的樸素逐層量化方式進行實現的。round函數使用簡單的四舍五入。

b)PTQ4ViT。針對Transformer架構提出的圖像分類任務量化框架,本文將其在RIS任務上進行重寫,將視覺編碼器和文本編碼器的Transformer和矩陣乘法部分用此法量化。

c) RepQ-ViT 。將量化和推理過程解耦,針對layernorm激活和softmax后激活使用了分層逐通道量化和 量化策略。本文將這兩種方法應用在對應的Transformer層和矩陣量化。

d)PD-Quant。通過考慮全局信息來解決量化噪聲問題,利用預測量化前后的差異信息來確定量化參數。考慮該方法僅針對CNN架構設計,本文使用全局信息思想結合Transformer

架構的改進進行重實現。

表2展示了本文方法在RefCOCO、 RefCOCO+ 和G-Ref三個數據集上進行不同位寬量化后(如W8A8,表示將權重值和激活值都從浮點 32bit 量化到8bit)的表現,其中FP32對應結果表示全精度模型 LAVT[19] 在各數據集上的基準實驗結果。同時與使用其他四種方式進行量化后的模型性能進行對比,通過OIoU評判量化后效果,性能越接近全精度模型證明,量化策略越優良。

通過對表2進行縱向分析不難得出結論:不論在哪個數據集上,本文方法(Quant-RIS)都優于其他方法,尤其是在int4量化情形下,當其他方法都面臨性能崩潰的情況下,本文方法性能僅下降了約 4% ,在減少模型尺寸和計算量的同時,維持了相當的模型性能。

4.5消融實驗

為驗證雙區域均衡量化策略以及重排序分組量化策略對模型量化后性能損失恢復的真實影響,本文在RefCOCO的驗證集上進行了以下消融實驗:

a)使用RTN方法對全精度模型進行int4量化操作得到表3實驗結果1,發現模型幾乎喪失性能。然后使用本文提出的完整訓練后量化策略得到的結果進行比較,即對表3中實驗1和6的數據作對比,MIoU提升了63.65百分點,OIoU提升了60.53百分點。同時,對所提各模塊的三個量化策略進行消融,進一步驗證了本文針對視覺編碼器提出的雙區域均衡量化、針對文本編碼器提出的重排序分組策略以及使用細粒度量化方式處理融合和解碼器部分,對模型精度恢復起到了促進作用。

b)針對重排序分組量化的分組方式進行消融實驗,首先使用現存的逐張量(per-tensor)和逐通道(per-channel)方法與本文的重排序分組策略進行比較,實驗設置為僅對文本編碼器進行量化,控制唯一變量為線性層量化策略。同時,為探究閥值選取方式的優越性,控制唯一變量為閾值計算方式,包括平均值(meandivision)、中位數加中位數絕對偏差(median + me-dianabsolutedeviation,median +MAD )、置信度水平(confidencelevel)以及均值加三倍標準差(mean + threestandard deviations,mean +3SD )。通過表4實驗結果可以看出,本文策略優于粗粒度量化方式,且 mean+3SD 是目前效果最佳的閾值選擇方式,同時確保了在降低計算量和硬件需求的基礎上,重排序分組量化策略的性能略優于逐通道量化。

4.6 定性分析

通過應用本文方法對不同位寬下的模型進行量化,統計了量化后的模型尺寸和推理時間,如圖7所示。圖中結果表明,隨著量化位寬的降低,模型尺寸和推理時間均顯著減小,驗證了該方法在減小模型尺寸和加快推理速度方面的有效性。

表3各組件消融實驗數據對比Tab.3Comparison of ablation experiment data of each component/%表4重排序分組方式消融實驗數據對比

同時,圖8展示了本文實驗中不同量化方法在 RefCOCO+ testA數據集上的OIoU對比結果。從圖中可以明顯看出,隨著量化位寬的降低,模型性能普遍有所下降。然而,本文方法在4bit量化情況下,OIoU僅下降4.47,仍保持較高的性能,顯示了其在低位寬量化下的優越性。

圖8不同量化方法的OIoU性能對比Fig.8Comparisonof OIoU performance acrossdifferent quantization method

將使用本方法進行8bit量化后的模型與全精度模型的結果可視化進行比較,如圖9所示,可以發現使用本文方法實現int8量化后模型性能表現良好,能夠準確分割出語句所指代的對象。盡管在邊緣細節上呈現些許不足,但并沒有出現較為嚴重的分割錯誤。

圖9全精度模型與量化后模型部分輸出可視化 Fig.9Visualization of full-precision model and quantified model outputs

5結束語

本文提出了一種專門為圖像指代分割任務設計的新型訓練后量化策略,旨在實現邊緣設備上部署多模態大模型。本文首先分析了各個模塊的數據分布和網絡結構,針對不同模塊量身定制了量化策略。具體而言,提出了用于視覺編碼器的雙區域均衡量化策略以及用于文本編碼器的重排序分組策略。所提量化策略在int8量化甚至int6和int4設置下均呈現優越性能,在處理多模態混合模型量化問題上明顯優于當前一些著名方法。未來將會探索更低比特量化方案,進一步探索多模態任務在端側設備的實際應用潛力。

參考文獻:

[1]王燕,范向輝,王麗康.預指導的多階段特征融合的圖像語義分 割網絡[J].計算機應用研究,2024,41(3):951-955.(Wang Yan,Fan Xianghui,Wang Likang.Segmentation from natural language expressions [J]. Application Research of Computers, 2024,41(3):951-955.)

[2]吳仕科,梁宇琦.基于偽標簽自細化的弱監督實例分割[J].計 算機應用研究,2023,40(6):1882-1887.(Wu Shike,LiangYuqi.PLSR:weakly super-vised instance segmentation via pseudo-label self-refinement[J].Application Research of Computers,2023, 40(6): 1882-1887.)

[3]Hu Ronghang,Rohrbach M,Darrell T. Segmentation from natural language expressions[C]//Proc of European Conference on Computer Vision.Cham:Springer,2016:108-124.

[4]Guhur PL,Chen S,Pinel RG,et al. Instruction-driven historyaware policies for robotic manipulations [C]// Proc of Conference on Robot Learning.[S.1.]: PMLR,2023:175-187.

[5]An Dong,Qi Yuankai,Li Yangguang,et al.BEVBert:multimodal map pre-training for language-guided navigation[C]//Proc of IEEE/ CVF International Conference on Computer Vision. 2O23:2737- 2748.

[6]Ding Henghui,Liu Chang,Wang Suchen,et al.VLT:visionlanguage Transformer and query generation for referring segmentation [J].iEEE Trans on Pattern Analysis and Machine Intelligence, 2023,45(6):7900-7916.

[7]Jacob B,Kligys S,Chen Bo,et al. Quantization and training of neural networks for eficient integer-arithmetic-only inference [C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:2704-2713.

[8]Sakr C, Dai S, Venkatesan R,et al. Optimal clipping and magnitude-aware differentiation for improved quantization-aware training [C]//Proc of International Conference on Machine Learning.[S. 1.]:PMLR, 2022: 19123-19138.

[9]Nahshan Y,Chmiel B,Baskin C,et al.Loss aware post-training quantization[J].Machine Learning,2021,110(11):3245- 3262.

[10]Liu Chenxi,Lin Zhe,Shen Xiaohui,et al.Recurent multimodal interaction for referring image segmentation [C]// Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017:1280-1289.

[11]Margffoy-TuayE,Pérez JC,Botero E,et al.Dynamic multimodal instance segmentation guided by natural language queries [C]// Proc of European Conference on Computer Vision. Cham: Springer,2018 : 656-672.

[12]Yu Licheng,Lin Zhe,Shen Xiaohui,et al. MAuNet:modular atention network for referring expression comprehension [C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2018:1307-1315.

[13]Hu Zhiwei,Feng Guang,Sun Jiayu,et al.Bi-directional relationship inferring network for referring image segmentation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2020:4423-4432.

[14]Vaswani A. Attention is all you need[C]// Proc of the 31st International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc., 2017:6000-6010.

[15]Yang Zhao,Wang Jiaqi,Tang Yansong,et al. Semantics-aware dynamic localization and refinement for referring image segmentation [C]//Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA:AAAI Press,2023: 3222-3230.

[16]Tang Jiajin, Zheng Ge, Shi Cheng,et al. Contrastive grouping with transformer for referring image segmentation[C]//Proc of IEEE/ CVF Conference on Computer Vision and Pattern Recognition. Pisca

[17]Wang Zhaoqing,Lu Yu,Li Qiang,et al.CRIS: clip-driven refeing image segmentation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press, 2022:11676-11685.

[18]Radford A,Kim JW,Hallacy C,et al.Learning transferable visual models from natural language supervision [C]//Proc of International Conference on Machine Learning. [S.1.]: PMLR,2021:8748- 8763.

[19]Yang Zhao,Wang Jiaqi,Tang Yansong,et al.LAVT: languageaware vision transformer for referring image segmentation [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2022:18134-18144.

[20]Xu Zunnan, Chen Zhihong,Zhang Yong,et al.Bridging vision and language encoders:parameter-efficient tuning for referring image segmentation [C ]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ: IEEE Press,2023:17457-17466.

[21]NagelM,AmjadRA,VanBaalenM,etal.Upordown?Adaptive rounding for post-training quantization[C]//Proc of International Conference on Machine Learning.[S.1.]:PMLR,2020:7197- 7206.

[22]Li Yuhang,Gong Ruihao,Tan Xu,et al.BRECQ:pushing the limit ofpost-training quantization by block reconstruction [EB/OL]. (2021-07-25). https://arxiv.org/abs/2102.05426.

[23]Wei Xiuying,Gong Ruihao,Li Yuhang,et al. QDrop:randomly droppingquantization for extremely low-bit post-training quantization [EB/OL].(2023-02-21).https://arxiv.org/abs/2203.05740.

[24]Dosovitskiy A.An image is worth 16×16 words:Transformers for image recognition at scale[EB/OL]. (2021-06-03). https://arxiv. org/abs/2010.11929.

[25]Liu Zhenhua,Wang Yunhe,Han Kai,et al. Post-training quantization for vision Transformer[J].Advances in Neural Information Processing Systems,2021,34: 28092-28103.

[26]Lin Yang,Zhang Tianyu,Sun Peiqin,et al.FQ-ViT:post-training quantization for fully quantized vision transformer[EB/OL]. (2023- 02-17).https://arxiv.org/abs/2111.13824.

[27]Yuan Zhihang,Xue Chenhao,Chen Yiqi,et al. PTQ4ViT:posttraining quantization for vision transformers with twin uniform quantization[C]// Proc of European Conference on Computer Vision. Cham:Springer,2022:191-207.

[28]Li Zhikai, Xiao Junrui, Yang Lianwei,et al. RepQ-ViT:scale reparameterization for post-training quantization of vision Transformers [C]//Proc of IEEE/CVF Intermational Conference on Computer Vision.Piscataway,NJ:IEEE Press,2023:17181-17190.

[29]Kim S, Gholami A, Yao Zhewei,et al. I-BERT: integer-only BERT quantization[C]//Proc of International Conference on Machine Learning.[S.1.]:PMLR,2021: 5506-5518.

[30]Qin Haotong,Ding Yifu,Zhang Mingyuan,et al.BiBERT:accurate fullybinarized BERT[C]//Proc ofInternational Conferenceon Learning Representations. 2022

[31]YuLicheng,Poirson P,Yang Shan,et al.Modeling context inreferring expressions[C]//Proc of European Conference on Computer Vision.Cham:Springer,2016:69-85.

[32]Kazemzadeh S, Ordonez V,Matten M,et al.ReferItGame:referring to objects in photographs of natural scenes[C]//Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA:Association for Computational Linguistics,2014:787-798.

[33]Lin TY,Maire M,Belongie S,et al.Microsoft COCO:common objects in context[C]//Proc of European Conference on Computer Vision. Cham: Springer,2014:740-755.

[34]Mao Junhua,Huang J, Toshev A,et al. Generation and comprehension of unambiguous object descriptions [C]// Proc of IEEE Conference on Computer Vision and Pattrn Recognition.Piscataway,NJ: IEEE Press,,2016:11-20.

[35]Liu Jiawei,Niu Lin,Yuan Zhihang,et al.PD-Quant:post-training quantization based on prediction difference metric [C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscatawav NI. IEEF Pres2023. 24427-24437

猜你喜歡
深度學習
從合坐走向合學:淺議新學習模式的構建
面向大數據遠程開放實驗平臺構建研究
基于自動智能分類器的圖書館亂架圖書檢測
搭建深度學習的三級階梯
有體驗的學習才是有意義的學習
電子商務中基于深度學習的虛假交易識別研究
現代情報(2016年10期)2016-12-15 11:50:53
利用網絡技術促進學生深度學習的幾大策略
考試周刊(2016年94期)2016-12-12 12:15:04
MOOC與翻轉課堂融合的深度學習場域建構
大數據技術在反恐怖主義中的應用展望
深度學習算法應用于巖石圖像處理的可行性研究
軟件導刊(2016年9期)2016-11-07 22:20:49
主站蜘蛛池模板: 思思99热精品在线| av无码一区二区三区在线| 国产成人麻豆精品| 伊人激情综合网| …亚洲 欧洲 另类 春色| 精品第一国产综合精品Aⅴ| 日本福利视频网站| 国产在线八区| 国产精品污污在线观看网站| 亚洲国产成人久久精品软件| 亚洲,国产,日韩,综合一区| 久久精品嫩草研究院| 97青草最新免费精品视频| 热伊人99re久久精品最新地| 亚洲精品天堂自在久久77| 国产地址二永久伊甸园| 国产99视频在线| 2020亚洲精品无码| 91小视频在线观看免费版高清| 99免费在线观看视频| 亚洲男人的天堂在线观看| a欧美在线| 97超爽成人免费视频在线播放| 亚洲欧美成aⅴ人在线观看| 欧美黄色网站在线看| 日本午夜在线视频| 久久一级电影| 国产三区二区| 国产精品性| 亚洲aaa视频| 精品福利一区二区免费视频| 在线观看国产精品一区| 69综合网| 美女亚洲一区| 久久特级毛片| 亚洲日本韩在线观看| 国产亚洲精品97在线观看| 精品国产一区91在线| 成人毛片免费观看| 免费播放毛片| 人妻中文字幕无码久久一区| 极品尤物av美乳在线观看| 国产精品香蕉在线观看不卡| 国产亚洲欧美另类一区二区| 亚洲青涩在线| 国产一级在线播放| 国产美女丝袜高潮| 久久精品只有这里有| 久久www视频| 日韩色图区| 亚洲精品麻豆| 久久精品免费国产大片| 无码丝袜人妻| 国产精品v欧美| 国产精品香蕉在线| 婷婷开心中文字幕| 国内精品久久久久久久久久影视 | 日韩免费毛片视频| 91娇喘视频| 99ri国产在线| 亚洲精品桃花岛av在线| 91精品国产情侣高潮露脸| 午夜色综合| 97色婷婷成人综合在线观看| 国产综合另类小说色区色噜噜 | 国产麻豆aⅴ精品无码| 好吊色妇女免费视频免费| 一本大道无码日韩精品影视| 国产精品yjizz视频网一二区| 一级毛片中文字幕| 国产91熟女高潮一区二区| 在线欧美国产| 欧美日韩精品综合在线一区| 制服丝袜亚洲| 无码国内精品人妻少妇蜜桃视频| 99在线国产| 久久狠狠色噜噜狠狠狠狠97视色| 亚洲一区二区日韩欧美gif| 性69交片免费看| 五月婷婷综合色| 久久精品中文字幕免费| 91丝袜乱伦|