(成都理工大學 四川 成都 610059)
自動編碼器有潛力解決日益增長的有損壓縮算法的需求。根據不同的情況,需要不同計算復雜度的編碼器和解碼器。開發一種新的編解碼器可能需要數年時間,但基于神經網絡的更通用的壓縮框架可能能夠更快地適應這些不斷變化的任務和環境。不幸的是,有損壓縮本質上是一個不可微的問題。我們的目標是直接優化自動編碼器產生的速率失真權衡。通過提出了一種簡單而有效的方法來處理基于四舍五入的量化的不可微性,并逼近生成系數編碼的不可微代價。
通過使用這種方法,我們可以獲得與jpeg2000相似或更好的性能。然而,與jpeg2000不同的是,我們的框架可以針對特定的內容(例如縮略圖或非自然圖像)、任意指標進行優化,并且易于推廣到其他方面。
定義一個壓縮自編碼器(CAE)有三個組件:編碼器f,解碼器g和概率模型Q,
f:N→M,g:M→N,Q:M→[0,1].
(1)
由Q定義的離散概率分布用于根據比特數的頻率將比特數賦給表示,即熵編碼。這三個組件可能都有參數,我們的目標是優化使用少量比特和具有較小失真之間的權衡,

(2)
這里,β控制的權衡,方括號表示量化舍入到最接近的整數,和d措施引入失真編碼和解碼。編碼器的量化輸出是用于表示圖像并無損存儲的代碼。遺憾的是,我們不能使用基于梯度的技術直接優化方程(2),因為Q和[·]是不可微的。下面兩部分提出了解決這個問題的方法。
(3)
重要的是,并沒有完全用光滑的近似來代替舍入函數,而只是用它的導數來代替,這意味著在前向傳遞中仍然像往常一樣進行量化。從經驗上看,發現等式r(y)=y和更復雜的選擇一樣有效。這使得該操作易于實現,因為我們只需將梯度傳遞給編碼器,而無需修改解碼器。注意,如果d是可微的,那么相對于解碼器s參數的梯度可以不用近似計算。與相關方法相比,我們的方法的優點是不改變解碼器的梯度,因為前向傳遞保持不變。
接下來,將討論其他作者提出的替代方法。受抖動理論聯系的啟發,Ballé等(2016)提出用加性均勻噪聲代替量化,
[f(X)]≈f(X)+u.
(4)
另一方面,Toderici等人(2016a)使用了隨機形式的二值化(Williams,1992)。將這一思想推廣到整數,我們定義了以下隨機四舍五入操作:
{y}≈?y」+ε,ε∈{0,1},P(ε=1)=y-?y」,
(5)
其中?.」為樓層操作員。在向后傳遞過程中,導數被期望的導數代替,
(6)
(7)
上界由:
(8)
其中第二步是從Jensen ‘s不等式推導而來(參見Theis等人,2016)。上界的無偏估計是通過從單位立方體中采樣u得到的[-.5,.5[M。如果我們使用可微密度,這個估計在z上是可微的,因此可以用來訓練編碼器。
-log2q([f(x)°λ]+u)+β·d(x,g([f(x)°λ]/λ)).
(9)
這里,°表示點乘和除法也按點乘執行。為了減少可訓練比例尺的數量,它們可以進一步跨維度共享。例如,當f和g是卷積的時候,我們共享跨空間維度的尺度參數,但不共享跨通道的尺度參數。
與這樣的做法最密切相關的是Ballé等人(2016)的工作。主要的區別在于處理量化和熵率估計的方式。Ballé等人(2016)所使用的變換由單一線性層和一種對比度增益控制形式組成,而本文的框架依賴于更標準的深度卷積神經網絡。
Toderici等(2016a)提出使用遞歸神經網絡(RNNs)進行壓縮。與本文工作中的熵編碼不同,網絡試圖將給定比特數的失真最小化。圖像以迭代方式編碼,并在每個步驟中執行解碼,以便能夠在下一次迭代中考慮殘差。這種設計的一個優點是它允許圖像的漸進編碼。缺點是它的壓縮比本文的方法耗費更多的時間,因為本文使用高效的卷積神經網絡,并且在編碼階段不需要解碼。
Gregor等人(2016)探索了使用變分自編碼器與循環編碼器和解碼器對小圖像進行壓縮。這種類型的自動編碼器被訓練成最大化對數可能性的下界,或者等價地最小化
(10)
其中p(y|x)為編碼器,q(x|y)為解碼器。而Gregor等人(2016)使用編碼器的高斯分布,我們可以聯系他們的工作方法Ballé等人(2016)通過假設它是制服,p(y|x)=f(x)+u。果我們還假設固定方差的高斯可能性,q(x|y)=Ν(x|g(y),σ2Ι),目標函數可以寫
(11)
這里C是一個常數,它包含編碼器的負熵和高斯似然的歸一化常數。注意,這個方程是相同的率失真的權衡與β=σ-2/2和量化取代添加劑均勻噪聲。然而,并不是所有的失真都有一個等價的公式作為一個變分自動編碼器(Kingma & Welling,2014)。只有當e-d(x,y)在x中可歸一化且歸一化常數不依賴于y時,這才成立,否則C就不是常數。
在未來的工作中,希望探索不同指標下壓縮自編碼器的優化方法。Bruna 等人(2016)提出了一個很有前景的方向,他使用基于訓練的用于圖像分類的神經網絡的度量獲得了有趣的超分辨率結果。Gatys等人(2016)使用了類似的表示方法,在感知意義風格轉移方面實現了突破。感知度量的另一種選擇可能是使用生成的對抗網絡(GANs;Goodfellow等,2014)。基于Bruna等人(2016)和Dosovitskiy & Brox等人(2016)的工作,Ledig等人(2016)最近將GANs和基于特征的度量標準結合起來,展示了令人印象深刻的超分辨率結果。