趙海萌

前言
圖像壓縮自編碼器CAE,亦即編碼器E及解碼器D,其訓(xùn)練過程可以轉(zhuǎn)化為一個(gè)優(yōu)化問題,即對圖像失真率及圖像編碼比特?cái)?shù)的最小化。有損圖像壓縮面臨著失真率及壓縮率的權(quán)衡問題,因此可以將上述優(yōu)化問題表述為:
minE,Dd+βR
其中d表示重構(gòu)圖像與原圖像之間的差距,R表示圖像編碼比特?cái)?shù),而β>0則控制上述兩個(gè)因素之間的平衡。解決這個(gè)優(yōu)化問題的過程中會遇到許多困難,其中最為重要的一個(gè)是如何表征圖像編碼比特?cái)?shù)R。因此,本項(xiàng)目針對R的優(yōu)化,提出利用ADMM(AlternatingDirectionMethodofMultipliers)算法對CAE的表示層進(jìn)行剪枝,即直接減小R,避開了額外訓(xùn)練信息熵估計(jì)器的麻煩,并遵循訓(xùn)練、剪枝、重訓(xùn)練的順序,迭代地對CAE進(jìn)行訓(xùn)練(優(yōu)化d)和剪枝(優(yōu)化R),直至達(dá)到目標(biāo)要求。
本文提出了CAE-P(CompressiveAutoEncoderwithPruning)模型,相較于現(xiàn)有的CAE模型,CAE-P模型顯得更為簡單直接,更易實(shí)現(xiàn)且參數(shù)量更小。實(shí)驗(yàn)中,CAE-P模型在MS-SSIM(Multi-scaleStructuralSimilarityIndex)、SSIM等指標(biāo)下均超越了現(xiàn)有的圖像壓縮算法。
CAE-P模型
一個(gè)基本的圖像壓縮自編碼器CAE由3部分組成:編碼器E、解碼器D和量化器Q。圖1為CAE-P的詳細(xì)模型架構(gòu),“Convk/spP”表示卷積核大小為k×k、步長為s,并采用大小為P的鏡像Padding的卷積層,“ConvDown”表示將寬和高減半的卷積層。
在對編碼器E、解碼器D、量化器Q進(jìn)行選擇及構(gòu)造,并解決優(yōu)化問題后,我們便得到了基于ADMM剪枝的圖像壓縮自編碼器CAE-P,它的基本結(jié)構(gòu)及運(yùn)作方式如圖2所示。
原始圖像x經(jīng)過由卷積殘差塊構(gòu)成的編碼器E編碼,轉(zhuǎn)化為一組潛在表示形式z。在ADMM訓(xùn)練階段,黑色和綠色通路激活,特征圖z經(jīng)量化器Q量化后得到,輸入同樣由卷積殘差塊構(gòu)成的解碼器D,解碼器D從中重構(gòu)出圖像,ADMM算法迭代地最小化重構(gòu)失真率d(x,),并對z剪枝,迫使其稀疏化。……