林成創,單 純,趙淦森+,楊志榮,彭 璟,陳少潔,黃潤樺,李壯偉,易序晟,杜嘉華,李雙印,羅浩宇,樊小毛,陳冰川
1.華南師范大學計算機學院,廣州 510631
2.廣東技術師范大學電子與信息學院,廣州 510665
3.挪威科技大學,挪威特隆赫姆17491
4.廣州市云計算安全與測評技術重點實驗室,廣州 510631
5.華南師范大學唯鏈區塊鏈技術與應用聯合實驗室,廣州 510631
6.廣東財經大學統計與數學學院,廣州 510320
機器視覺中的圖像處理是人工智能的一個重要的研究領域,包括圖像分類、語義分割、對象分割和目標檢測等應用[1-3]。現階段,隨著硬件設施的不斷完善和深度學習[4]技術的提出以及不斷發展,基于深度學習的圖像分類方法也日新月異。自Alex 等學者將深度卷積網絡AlexNet[5]應用在圖像分類中并取得遠比其他傳統圖像分類方法更低的錯誤率后,基于深度學習的圖像處理解決方案成為主流。隨后,新的深度學習網絡結構,如NiN[6]、VGG[7]、ReNet[8]、GoogLeNet[9]、ResNet[10]、InceptionNet[11-12]、MobileNet[13-15]、DenseNet[16]、EfficientNet[17]、ResNeXt[18]和ResNeSt[19]等網絡結構被不斷地提出并在不同的圖像應用場景大放異彩。
深度學習在計算機視覺領域取得的巨大成功,主要歸功于三大因素[1,20-21]:(1)強大的深度學習模型的表達容量;(2)不斷增大的可獲得算力;(3)大規模可獲得的標注數據集。為了促進深度學習在不同的圖像處理領域的發展,數以萬計的不同類型的圖像數據被收集、標注和公開應用,其中最著名的是ImageNet[22]。按照圖像應用場景和圖像類型進行劃分,現有數據集可以從圖像的類型上分成2D 數據集、2.5D 數據集和3D 數據集[22-40],覆蓋了圖像分類、語義切割、對象分割和自動駕駛等各個應用,極大地促進了深度學習圖像技術的發展。盡管如此,對于各種專業領域的深度學習圖像應用,缺少合格的領域圖像數據仍然是一個不爭的事實,尤其是在醫療圖像處理[41-42]、AI農業[43-44]等領域。
He等學者[45]指出自2012 年AlexNet[5]首次使用深度神經網絡進行圖像分類并獲得比其他傳統圖像處理方法更好的效果以來到NASNet-A[46]的提出,Image-Net 的Top-1 分類準確率已經從62.5%提升到82.7%。同時作者也指出這些成就的取得,不僅僅歸功于網絡模型的設計和優化,包括圖像增廣在內的多種優化方案和訓練技巧也同樣非常重要。
圖像增廣是在有效訓練數據受限的情況下解決深度學習模型訓練問題的一種有效方法。大量的增廣技術和方法被提出來豐富和增廣訓練數據集,提升神經網絡的泛化能力。常見的圖像增廣方法主要基于圖像變換,例如光度變化、翻轉、旋轉、抖動和模糊等[1,41,47-48]。隨著深度學習中神經網絡的層數不斷擴大,表達能力的不斷提升,為了能夠更好防止模型過擬合,出現了以mixup[49]為代表的合成樣本圖像增廣方法[50-57]和使用生成對抗網絡(generative adversarial nets,GANs)[58]為代表的虛擬圖像樣本生成的圖像增廣方法[59-63]等。在不同應用數據集和應用場景下,圖像增廣的策略和方法也不盡相同。因此,為了在特定的圖像數據集和應用場景中找到最佳的圖像增廣策略,出現了基于算法或模型進行增廣策略搜索的智能圖像增廣相關研究。例如,Fawzi 等學者[64]提出了自適應圖像增廣,Cubuk 等學者[47]提出了基于循環神經網絡的自動增廣框架。除此以外,還有更多的研究[65-71]在探索智能或者自動化的圖像增廣技術。
當前,圖像增廣的研究層出不窮,各種新方法和新思路不斷地被提出來用于增廣訓練圖像數據集。在層出不窮的圖像增廣研究中把握住圖像增廣的范式,對現有圖像增廣研究進行分門別類,對于引導研究人員針對不同的視覺應用找到合適的圖像增廣方法以及啟發新的圖像增廣研究是非常重要的。
本文從圖像增廣的對象、操作的空間、圖像標簽的處理方式和圖像增廣策略的調優方式四個維度出發,歸納出現有圖像增廣研究的主要內容,如圖1所示。

Fig.1 Main research contents of image augmentation under deep learning圖1 深度學習下圖像增廣的主要研究內容
首先,本文根據圖像增廣的對象不同分成引入外部圖像的半監督增廣,從噪聲生成虛擬圖像樣本的虛擬圖像生成增廣,以及面向圖像訓練數據集操作的圖像增廣。其次,本文從增廣操作的空間上,區別直接在圖像空間(raw image)進行增廣以及在圖像通過模型轉換到隱空間(latent space)增廣。根據圖像增廣過程中是否需要考慮圖像標注信息以及增廣后產生的新樣本或者新樣本特征的標簽是否出現擾動,本文進一步將圖像增廣分成標簽保留增廣和標簽擾動增廣。最后,本文對使用算法或者模型確定圖像增廣的參數或者方法的研究歸為智能圖像增廣,用于區別研究人員制定圖像數據增廣方法和具體策略的傳統圖像增廣研究。
本文的主要研究內容和貢獻可以總結為:
(1)系統性梳理圖像增廣領域的相關研究,提出圖像增廣的研究范式和分類體系,并對現有相關研究工作進行分類。
(2)依據本文提出的圖像增廣分類體系對每個類別中的代表性研究工作及其衍生研究進行客觀的分析對比,并指出這些研究的創新點、適用場景和局限性。
(3)討論并總結目前圖像增廣研究領域的發展現狀、研究挑戰及其未來的發展方向。
本文的內容將按照圖2 所示的內容進行展開。
本文首先對基本圖像變換增廣進行回顧。基本圖像變換增廣的主要特征是面向訓練數據集的圖像樣本執行特定的圖像變換操作(例如幾何變換、光照變換等),產生新的圖像樣本的標簽信息與原始圖像樣本的標簽信息保持一致。可以通過以下形式化描述來定義基本圖像變換增廣的范式。

根據具體不同的圖像增廣原理,可以從幾何變換、光學變換、紋理變換和統計的角度對基本圖像變換進行歸類分析。
幾何圖像變換和紋理變換是在圖像的幾何空間所進行的增廣操作。主要的增廣方法如表1 所列,包括圖像翻轉、噪聲、模糊、縮放、隨機裁剪、仿射變換等。

Fig.2 Organization of this paper圖2 文章結構安排
1.1.1 翻轉增廣
圖像的翻轉是指沿著X軸或者Y軸進行旋轉,使用I′表示翻轉后的圖像。當沿著y軸進行翻轉時,I′表示左右翻轉(也有文獻稱為水平鏡像)后的圖像樣本。當X軸進行翻轉時,I′表示上下翻轉(垂直鏡像)后的圖像樣本。翻轉圖像增廣示例如圖3 所示。其中,左邊子圖是原始圖像,中間子圖是在原始圖像上通過水平翻轉后的圖像,右邊子圖是在原始圖像上通過垂直翻轉獲得的圖像。
1.1.2 噪聲增廣
圖像的噪聲增廣是通過往原始圖像中每個像素加入額外的隨機信息,從而獲得有別于原始圖像的增廣圖像。為了方便起見,使用M表示噪聲矩陣,其中M與原圖像樣本I具有相同的尺寸。當M中的每個元素由高斯分布N(μ,σ2)產生時,稱為高斯圖像噪聲增廣。
圖4 為噪聲增廣的示例。左邊子圖為原始圖I,中間子圖為高斯分布產生的隨機數所填充的噪聲矩陣M,最右邊子圖為原始圖像I與噪聲矩陣M相加后生成的噪聲增廣圖像I′。

Fig.3 Examples of flipping augmentation圖3 圖像翻轉增廣示例

Fig.4 Examples of noise augmentation圖4 噪聲圖像增廣示例
1.1.3 模糊增廣
圖像模糊的原理是將圖像中的每一個像素的取值重置為與周邊像素相關的取值,例如周邊像素的均值、中位值等。決定該像素取值與周邊像素的范圍稱為模糊半徑,常用γ表示。當γ=1 時,像素xi,j的取值相關范圍包括{xi±1,j±1},當γ=2 時,像素xi,j的取值相關范圍包括{xi±2,j±2}。γ越大,圖像失真越嚴重,對應的視覺效果越模糊[75]。
給定圖像模糊半徑γ,計算區域內每個像素的取值方法不同決定了圖像模糊方法的不同。例如,使用高斯分布計算區域內的每個像素的取值,稱為高斯圖像模糊,使用直方圖均值方法計算區域的每個像素的圖像模糊方法,稱為直方圖模糊[75]。如圖5 所示,左側是原始圖像I,右側是經過模糊半徑為2(γ=2)的高斯模糊(σ=1.5)增廣后形成的圖像樣本I′。

Fig.5 Examples of image blur augmentation圖5 圖像模糊增廣示例
1.1.4 縮放增廣
圖像縮放包括圖像的放大和圖像的縮小。數據集的每張圖像的長寬往往不一致,但是深度學習的輸入往往需要一致的圖像尺寸。例如224×224,因此圖像縮放增廣在深度學習中經常作為預處理操作。
給定圖像樣本I,其任意圖像像素xi,j∈I,0 ≤i,j<N,N稱為最大的像素坐標。則圖像的縮放可以理解為任意的圖像像素點xi,j沿著坐標軸X和Y軸上進行縮放,如式(2)所示。其中(i,j)為像素的原始坐標,(u,v)為經過縮放后的新坐標,kx和ky為X軸和Y軸方向的縮放比例。

如圖6 所示,左側子圖是379×379 的原始圖像樣本,中間子圖是縮小到224×224 的樣本圖像,最右邊子圖是放大到500×500 的樣本圖像。
1.1.5 仿射變換增廣
仿射變換是圖像樣本I旋轉θ角度后,并按照向量b進行平移的過程。當向量時,該仿射變換增廣等價于旋轉。仿射變換增廣過程可以形式化為式(3),其中A(θ)為旋轉矩陣,如等式(4)所示。

圖7 是仿射變換圖像增廣示例。左邊是原始圖像樣本,中間子圖是經過θ=45°,時,仿射變換增廣的圖像樣本。右邊子圖是經過θ=45°,時仿射變換增廣的圖像樣本。
1.1.6 隨機裁剪增廣
隨機裁剪是對圖像I進行截取,獲取圖像I的子集Is,Is放大到圖像I的尺寸得到隨機裁剪后的圖像I′。如圖8 所示,左圖是原始圖像樣本,右圖是經過隨機裁剪獲得的圖像樣本。
1.1.7 圖像擦除增廣
圖像擦除是對圖像樣本I的部分信息進行消除,使得消除后的圖像樣本I′僅僅包含I的部分信息。圖像擦除增廣的思想是模擬圖像應用場景中的圖像遮擋現象,通過人為地以一定概率對訓練圖像進行“損壞”,并將“損壞”的圖像樣本數據輸入給神經網絡圖像分類模型,引導模型學習圖像的殘余信息,防止模型過擬合從而最終提升模型在測試樣本的泛化性能。

Fig.6 Example of scaling augmentation圖6 縮放圖像增廣示例

Fig.7 Examples of affine transformation augmentation圖7 仿射變換增廣示例

Fig.8 Examples of random cropping image augmentation圖8 隨機裁剪圖像增廣示例
Zhong 等學者[76]提出隨機圖像擦除的方法實現對深度學習的訓練圖像集增廣。該方法的主要實現方式是在一個小批次(mini-batch)中,每個圖像樣本I以p的概率決定是否需要擦除,在需要擦除的圖像樣本I中隨機選擇一個矩形區域R((r1,c1),(r2,c2)),其中(r1,c1)為左上角坐標,(r2,c2)為右下角坐標,并且保證所選的矩形區域R的面積占比總面積在設置的閾值范圍內。約束條件如式(5)所示,其中Sl和Sh為矩形面積與圖像樣本I總面積的最小和最大占比,W和H分別是圖像樣本I的寬度和高度。使用隨機分布函數,將矩形區域R內的像素替換成隨機值?pi,j∈R,pi,j←rand(0,255)。隨機擦除圖像增廣的示例如圖9 所示。

根據圖像應用的場景不同隨機擦除還有更多細分擦除的方法,如目標檢測應用場景下的圖像感知隨機擦除(image-aware random erasing,IRE)、目標感知隨機擦除(object-aware random erasing,ORE)和圖像及目標感知的隨機擦除(image and object-aware random erasing,I+ORE)[76]。

Fig.9 Examples of random erasing image augmentation圖9 隨機擦除圖像增廣示例
與隨機擦除[76]思路相似的研究還有Cutout[72]。與隨機擦除[76]不同的是,Cutout[72]認為擦除圖像的面積比形狀更重要,擦除的區域不要求是矩形或者其他規則化形狀。同時,對于擦除部分填充,Cutout 提倡使用0 掩膜進行填充而不是使用隨機噪聲。其他類似的研究思路還有應用在中文字符識別應用的DropRegion[74]數據增廣。
光學空間變換增廣是通過調整圖像的光學空間進行的增廣操作。主要的光學空間變換增廣包括光照變化和顏色空間轉換。其中,光學變換包括圖像亮度變換、對比度和圖像銳化,顏色空間變換主要包括RGB 顏色空間與CMY 顏色空間、XYZ 顏色空間、HSV 顏色空間、YIQ 顏色空間、YU 顏色空間和LAB顏色空間之間的轉化[77]。常見的光學變換增廣方法如表2 所示。
1.2.1 光照變換增廣
光照變化增廣包括亮度變化、對比度和圖像銳化增廣等。圖像的亮度變化是直接對圖像樣本I的每個像素點進行線性變換操作[78]。使用λ表示圖像亮度變換系數,則經過亮度變化增廣的圖像樣本I′可以通過等式(6)表示,其中0 <λ<1 圖像變暗,λ>1時圖像樣本變亮。

Table 2 Common optical transformation image augmentation methods表2 基于光學變換的常見圖像增廣方法

圖像對比度增廣是對圖像樣本I的細節進行增廣,使得增廣后的圖像樣本I′的細節更加突出的過程。圖像對比度增廣使用的變換算法有多種,因此圖像對比度增廣方法包括:線性對比度增廣、平方對比度增廣、冪對比度增廣、指數對比度增廣、對數對比度增廣等。使用pi,j表示I中的第i行第j列像素,使用pi,j′表示I′中的第i行第j列像素。以線性增廣為例,圖像樣本I的灰度范圍為[m,M],若需要得到增廣后的圖像樣本I′的灰度范圍為[n,N],則I′可由式(7)獲得。

圖像銳化增廣的目的是增廣圖像樣本I的邊緣、輪廓以及圖像細節,使得增廣后的圖像樣本I′的邊緣、輪廓線以及圖像細節更加清晰。
圖10 是圖像光照變換增廣示例。左上角是原始圖像樣本,右上角是經過亮度提升λ=1.5 后的圖像樣本,左下角是對比度提升后的圖像樣本,右下角是圖像銳化后的樣本。

Fig.10 Examples of illumination variation augmentation圖10 光照變換增廣示例
1.2.2 顏色空間變換增廣
彩色圖像中,常用的顏色空間主要有RGB顏色空間、CMY 顏色空間、XYZ 顏色空間、HSV 顏色空間、YIQ 顏色空間、YU 顏色空間和Lab 顏色空間等[77]。RGB 顏色空間是彩色圖像樣本中最常使用的顏色空間。在圖像樣本中使用三個通道表示,每個通道分別表示一種顏色。RGB 顏色模型的紅綠藍三種基色的波長分別是λR=700.0 nm,λG=700.0 nm 和λB=700.0 nm[77]。RGB 顏色空間的特點在視覺上非常均勻,任意一種顏色可以通過三種顏色混合而成。
CMY 顏色空間由青(C)、品紅(M)和黃(Y)三種顏色構成顏色的三種基色。各種顏色可以由這三種基色加權混合而成。CMY 和RGB 兩種顏色空間的轉換如等式(8)所示。

XYZ 顏色空間把彩色光表示為C=WxX+WyY+WzZ,其中X、Y和Z分別表示顏色模型的基色量,Wx、Wy和Wz分別為X、Y和Z對應的權重系數。RGB顏色空間域XYZ 顏色空間轉換關系如等式(9)所示。

在計算機視覺處理任務中,經常會遇到不同顏色空間描述的圖像樣本。因此,樣本的顏色空間轉換是非常常見的一種預處理和增廣步驟。YUV 顏色空間是歐洲PAL 采用的顏色空間,YUV 顏色空間和RGB 顏色空間的轉換關系如等式(10)。

其他顏色空間與RGB 的顏色空間的轉換關系可查閱文獻[77]。圖11 為不同顏色空間增廣的圖像示例。第一排從左往右分別為原始RGB 圖像樣本、HSV 顏色空間樣本和XYZ 顏色空間樣本,第二排從左往右分別是YUV 顏色空間樣本、Lab 顏色空間樣本和CMY 顏色空間樣本。
基于統計的圖像增廣方法通過引入統計學原理對圖像進行建模,通過對統計變量進行變換,達到增廣圖像中關鍵信息的目標。基于統計的圖像增廣算法包括直方圖均衡化增廣、小波變換增廣、偏微分方程增廣和Retinex 圖像增廣等方法。其中,直方圖均衡化增廣和小波變換增廣兩種方法最為常見[79]。
1.3.1 直方圖均衡化增廣
直方圖均衡化增廣是對圖像樣本I的輸入灰度映射為增廣后圖像樣本I′的灰度級,使得I′的灰度級具有近似均勻分布的概率密度函數并最終使得I′比I具有更高的對比度和更寬的動態范圍的過程[79]。
王浩等學者[79]將直方圖均衡化描述為以下過程。原始圖像I中的任意像素xi,j∈I代表圖像樣本I中坐標為(i,j)的像素,其中所有像素的灰度值h均在[0,L-1]之間(?xi,j∈I,h(xi,j)∈[0,L-1])。圖像I灰度標準概率函數可以描述為等式(11)。


Fig.11 Examples of color variation augmentation圖11 顏色空間變換增廣示例
其中,N為圖像樣本I中的像素總數,nk表示灰度級為k的像素點的個數,則圖像樣本I的灰度級的累計分布函數可以表示為式(12)。

直方圖均衡化生成的圖像樣本I′的灰度分布f(I)可以如式(13)所示。

1.3.2 小波變換增廣
小波變換增廣是基于數學統計變換的一種圖像增廣方法。小波變換將圖像看作是一個離散的二維信號f(x,y)進行分解與重構。原始的圖像樣本I被分解用于描述圖像中低頻信息的低通子圖和用于描述圖像中的水平細節、垂直細節以及對角細節的高通子圖像。其增廣過程包括三個主要步驟。
小波變換增廣的過程如下,首先加載原始圖像樣本將其分解成低通圖像信息和高通圖像信息。其次,對小波系數進行非線性增廣,其增廣的過程如式(14)所示[79]。最后將增廣后的小波系數進行小波逆變換得到增廣圖像。

在式(14)中,G為小波變換的增廣倍數,T為小波系數閾值,Wi為圖像分解后的小波系數,W′為增廣的后小波系數。小波圖像增廣以凸顯圖像中的細節信息,但是也有可能會放大圖像中的噪聲。
其他基于統計的圖像增廣還包括偏微分方程圖像增廣、Retinex 圖像增廣等方法。但由于這些方法在面向深度學習的數據增廣中較少用到,感興趣的讀者請參考這些相關文獻[79-85]。
基本圖像增廣從傳統圖像增廣中衍化而來,并且被廣泛地應用到各種場景的圖像識別應用中作為基礎的數據預處理操作。因此,上述基本圖像增廣的方法被集成在面向深度學習應用的機器學習庫中,例如ImgAug[86]和Albumentations[87]。
基本圖像增廣主要的特點可以總結為:
(1)圖像語義信息不變,面向訓練數據集中的圖像樣本,在原始圖像空間上進行操作產生的增廣后的樣本語義信息與原始圖像一致。
(2)多個不同基本圖像增廣方法經常根據應用場景需求串聯使用。
(3)作為基本的圖像預處理,廣泛地應用在各種應用場合中作為數據預處理的一個步驟。
圖像混合增廣方法通過使用訓練集中的多個圖像樣本進行混合以合成新的圖像樣本。圖像混合增廣方法具備以下特點:(1)增廣過程中需要兩個或兩個以上圖像樣本參與;(2)混合增廣后生成的新的圖像樣本,其語義信息取決于多個參與增廣樣本的語義;(3)增廣后生成的圖像樣本往往不具備人眼視覺理解特性。圖像混合增廣方法如表3 所示。
不失一般性,本文使用Mx(?)表示圖像混合增廣算法,使用My(?)表示圖像語義混合算法。圖像混合增廣范式描述為Ik′=,表示由t個圖像樣本混合生成的圖像樣本Ik′。使用yk′=表示Ik′的語義標簽。該語義標簽通過上述參與增廣操作的圖像的標簽混合計算生成。圖像混合增廣研究在于研究Mx(?)和My(?)內部算法。圖像混合增廣的典型研究包括像素混合圖像增廣、混合匹配增廣、樣本配對增廣、剪切與粘貼增廣以及上述方法的變種。

Table 3 Methods of mix sample augmentation表3 圖像混合增廣方法
Tokozume 等學者[94]提出將兩段不同類別的聲音片段簡單地線性混合BC Learning(between-class learning),用于深度學習模型進行語音的識別。BC Learning 的方法使得模型對語音識別的泛化能力大大提高,并在語音識別的準確率上超越人類。鑒于BC Learning 在語音識別任務的成功應用,原作者Tokozume 等學者將BC Learning 的思想引入到圖像分類應用的圖像增廣中[53]。
BC Learning 圖像增廣的思想是將任意兩個不同類別的圖像樣本Ii和Ij(Ii≠Ij)進行隨機比例λ比例混合,產生新的圖像樣本和新的圖像樣本的混合標簽。然后將所有的混合樣本代替純類別樣本作為訓練數據集,用于基于深度學習的圖像分類模型訓練。混合過程如等式組(15)所示。

BC Learning,從視覺上看由兩張圖像樣本混合而成一個新樣本是沒有任何意義的,但是從卷積神經網絡的角度看,圖像的像素值可以通過傅里葉變換變成二維的波形圖。兩張圖片的混合可以等價于是兩個波形的混合,因此卷積神經網絡可以從圖像轉成的頻率數據中把圖像識別當成語音識別任務。受到這種思想的啟發,由于圖像轉成的頻率波形圖的均值并不等于0,作者提出了BC Learning 的升級版本BC+[51],將圖像Ii看作是均值μi和波形成分σi的相加Ii=μi+σi。BC+[53]的混合方法如式(16)所示。

其中,p如等式(17)所示,(μi,σi)和(μj,σj)分別為圖像樣本Ii和Ij的均值和標準差。

BC Learning[94]和BC+[53]將圖像像素線性混合的增廣方式引入到圖像分類中并在CIFAR-10/100[23]數據集上驗證。BC Learning[94]可以將現有深度學習模型在CIFAR-10 上的SOTA(state-of-the-art)的錯誤率從6.07%降到5.17%,BC+[53]可以將現有深度學習在CIFAR-100的SOTA 的錯誤率從26.68%降到23.68%。
BC Learning 在CIFAR 數據集增廣示例如圖12所示。Ii為語義為狗的照片,Ij為語義為貓的照片,按照λ=0.5 的比例混合。

Fig.12 Example of BC Learning augmentation圖12 BC Learning 圖像增廣示例
mixup[49]與BC Learning[94]的思路如出一轍,且均在同時期提出。不同的是,mixup 的核心思想是基于經驗風險和臨近風險最小化的原則。mixup 通過將傳統圖像標簽的單熱向量編碼加權得到多熱向量編碼。同時在不增加模型復雜度的情況下,讓神經網絡學習到復雜度更低的函數來降低泛化誤差。mixup的做法是將任意兩個圖像樣本Ii和Ij及其對應的語義標簽yi和yj通過權重參數λ進行加權相加,產生新的圖像I=λIi+(1-λ)Ij和對應的的標簽(1-λ)yj。
由于mixup 圖像合成是通過兩個圖像樣本進行逐像素線性相加,因此具有非常高效的特點。同時,由于合成圖像的標簽不再是獨熱形式,起到了標簽平滑的效果,有效地提升了模型魯棒性。mixup 在ImageNet-2012[22]和CIFAR 數據集上進行驗證,均進一步降低了SOTA 中的Top-1 和Top-5 的錯誤率。
Guo 等學者[88]認為,盡管目前有大量的研究[57,66,95]對mixup 的整體有效性進行研究和解釋。然而,截止到文獻[88]發表時為止,mixup 等像素混合圖像增廣的有效性都沒有完全被證明,只能依靠經驗在給定的數據集上反復實驗調整超參數λ。為此,Guo 等學者提出了自適應版本的AdaMixup[88]。在AdaMixup研究中,作者將2 個樣本混合擴展到k(2 ≤k≤kmax)個樣本混合,并將該方法視為一種神經網絡外的正則化技術進行自適應學習mixup 的混合策略。
Sample Pairing[50]是IBM日本研究中心研究員Inoue等學者提出的混合圖像增廣框架。Sample Pairing 的核心思想是在包含N張圖像的數據集D中,任意選定一張圖像數據Ii,經過基本的圖像增廣后分別將其與數據集D中剩余的N-1 張圖像(同樣經過基本的圖像增廣)進行混合。最終產生N-1 張新圖像樣本,這些樣本的語義標簽仍然為yi。使用Sample Pairing圖像增廣框架,可以在樣本數量為N的數據集D上產生樣本數量為N2的新數據集。Sample Pairing 的增廣流程如圖13 所示。

Fig.13 Procedure of SamplePairing augmentation圖13 SamplePairing 增廣流程圖
SamplePairing圖像增廣框架,在CIFAR-10、CIFAR-100、SVHN 和ILSVRC 公開數據集上進行驗證,能夠顯著地降低分類錯誤率。其中,在ILSVRC2012 數據集中,使用SamplePairing 數據增廣框架分類錯誤率從33.50%降低到29.00%,在CIFAR-10 數據集上,分類錯誤率從8.22%降低到6.93%。
mixup 作為一種圖像混合增廣方法能夠降低模型在訓練過程中的過擬合,但是至于為什么會起作用以及有沒有比以λ作為比例進行線性混合更有效的方法,仍然吸引著大家的關注[93]。為了能夠進一步提升混合樣本圖像增廣的性能,Summers 等學者[93]提出噪聲混合、垂直連接混合、水平連接混合、混合連接、隨機2×2 混合、垂直跨類別混合和隨機矩形混合等在內的多種非線性混合的方法。作者在數據集CIFAR-10/100 上進行測試,實驗結果表明垂直跨類別混合增廣最為有效,在兩個數據集的錯誤率分別為3.80%和19.70%。但是,作為圖像混合的關鍵性問題,如何從理論上回答為什么這樣混合是有效的,目前仍然是一個開放性問題。其他mixup的衍生研究還包括mixup 訓練過程解析[57]、特征層混合[96]、Manifold Mixup[54,97]和FMix[89]等。
塊混合是將圖像樣本分成若干個圖像塊(patch),然后使用不同的塊進行組合的圖像增廣技術。隨機圖像剪切合成增廣方法(random image cropping and patching,RICAP)[90]是Takahashi 等學者在ACML(Asian Conference on Machine Learning)提出的新穎圖像增廣方法。RICAP 的思想非常簡單,隨機從訓練數據集中選出4 個圖像樣本Ii、Ij、Ik和Il,然后從4 個樣本中各隨機裁剪一部分,湊在一起合成一份新的樣本I′。如圖14 所示,合成的樣本I′的語義標簽y′由4張圖像樣本按照像素貢獻總數占比進行合成。作者在CIFAR10/100 數據集上驗證RICAP。實驗表明,RICAP 在CIFAR-10 的錯誤率從Baseline 的3.89%降低到2.94%,達到當時新的SOTA;在CIFAR-100 的錯誤率,從Baseline的18.85%降低到17.44%。

Fig.14 Illustration of RICAP data augmentation圖14 RICAP 圖像增廣示意圖
RICAP 的具體操作方法如下:
(1)使用隨機函數從數據集X中進行無放回抽樣選出4 個基圖像樣本,分別命名為Ii、Ij、Ik和Il。
(2)隨機生成合成位置坐標(xw,yh),其中xw∈(0,W),yh∈(0,H),W和H分別表示圖像的寬度和高度。則位置坐標(xw,yh)將需要合成的圖像劃分成4份,左上角的面積為Si=w×h,右上角面積為Sj=(W-w)×h,左下角的面積為Sk=w×(H-h),右下角的面積為Sl=(W-w)×(H-h)。
(3)依次從第1 個圖像樣本Ii中隨機剪切出左上角面積的圖像部分,從第2 個圖像樣本Ij剪切出右上角的面積,從第3 個圖像樣本Ik剪切出左下角的面積,從第4 個圖像樣本Il剪切出右下角的面積。并根據面積計算合成圖像I′的標簽y′,如式(18)所示。

受到Cutout[72]圖像遮擋和mixup[49]圖像混合思想的啟發,Yun 等學者提出了一種剪切混合的圖像增廣思路CutMix[91]。CutMix 增廣策略的思路是從一張圖像樣本中隨機移除一個塊(patch)。同時,從另外一個類別的樣本中切出相同大小的塊替換掉移除的塊,合成一個新的樣本。該樣本的標簽按照兩個類別樣本所占的像素比例確定多熱向量編碼。
CutMix 具體的思路如下,給定圖像樣本I?RW×H×C,W、H和C表示圖像樣本的寬度、高度和通道數。CutMix 的目標是給定兩個圖像樣本(IA,yA)和(IB,yB)合成一個新的樣本(I′,y′)。其中合成過程如方程組(19)所示。

其中,M∈{0,1}W×H表示二進制掩膜矩陣。?表示像素級乘法操作。λ服從Beta(α,α)分布,其中α=1 進行采樣。為了生成掩膜矩陣,首先需要生成候選框B,B=(rx,ry,rw,rh)表示兩個圖像樣本中的取景區域。其中rx和ry表示區域左上角的坐標,rw和rh表示寬度和高度,如方程組(20)所示。對于M中坐標在B區域內的賦值為0,其他值賦值為1。

CutMix 在ImageNet 上使用ResNeXt-101[18]模型Top-1 和Top-5 的準確率分別提升2.4 個百分點和1.05 個百分點,在CIFAR-100 數據集上分別提升2.64個百分點和1.4 個百分點。
剪切、粘貼與學習圖像增廣[92]是卡內基·梅隆大學研究員Dwibedi 等學者提出的在目標檢測應用場景下的有效圖像增廣方法。其方法是為了在有限的數據集合成足夠多的標簽數據進行圖像示例切割模型的訓練。該方法的增廣思路是從樣本中切出實例像素區域作為實例元素庫,隨機選擇不同的背景圖像,隨機從實例元素庫中選取實例元素并將其隨機覆蓋到背景圖像中。由于圖像樣本通過算法進行控制合成而來,因此在合成的過程中可以直接生成切割標注。剪切、粘貼與學習圖像增廣有效地解決了實例切割中需要大量標注圖像的問題。實例示意圖如圖15 所示。

Fig.15 Example of cut,paste and learn augmentation圖15 剪切、粘貼與學習圖像增廣示意圖
圖像混合增廣的最大創新之處就是改變圖像樣本標簽的獨熱標注信息。訓練樣本數據集的標簽信息更加平滑,在一定程度上能夠提升網絡的泛化容量。盡管目前有很多不同類型的圖像混合的方式,但是圖像混合研究目前還主要處于實驗科學階段,缺乏完備的科學理論對其進行解釋。
特征空間增廣是面向訓練樣本的特征進行增廣,達到提升模型泛化性能的目標。特征空間增廣區別于傳統圖像空間增廣,增廣操作在樣本經過若干個神經網絡層所產生的隱向量上進行。使用Zi=F(Ii)表示圖像樣本Ii經過特征編碼函數F(?)獲得其隱空間的特征Zi的過程。與圖像空間增廣類似,特征空間增廣可以依據特征增廣后的特征標簽是否出現擾動進一步分類成特征變換和特征增廣。
特征變換增廣可以表示為等式組(21),其中Zj′表示執行增廣操作T(Zi)輸出的增廣隱特征。

特征混合增廣范式可以形式化表示為等式組(22)。其中,Mz(?)表示特征的混合算法函數,My(?)表示對應的標簽混合算法函數。

特征空間增廣研究匯總如表4 所示。Devries和Taylor 兩位學者在2017 年ICLR(The International Conference on Learning Representations)中提出了在數據集特征空間實現數據增廣的方案[102]。該方案由三個步驟構成:首先,使用一個序列自動編碼器從無標簽的數據X中學習該樣本不同序列的表達,并形成該樣本的特征向量集合C。然后,將樣本通過編碼器生成樣本的特征,再對特征進行增廣。例如增加噪聲、插值等。最后,經過增廣后的特征將可以用于訓練靜態的特征分類器或者用于訓練序列分類器。該方法用于阿拉伯數字識別中進行評估,可在基線測試中將錯誤率從1.53%降至1.28%。該方法的創新之處是將在樣本空間中的增廣方法遷移到特征空間中,能夠在少量訓練樣本中學習到更強的表達邏輯,從而降低模型的誤差。
Liu 等學者認為諸如翻轉、變形、噪聲、裁剪等圖像空間的數據增廣方法產生的合理數據非常有限,因此Liu 等學者提出了在特征空間進行線性插值的對抗自動編碼(adversarial autoencoder,AAE)[100]圖像增廣方法。AAE 是自動變分編碼器(variational autoencoder,VAE)和生成對抗網絡GANs 的結合體。AAE 將自動變分編碼器中的KL 散度損失替換成生成對抗網絡的判別器損失。
AAE 與標準的VAE 一樣,從圖像樣本I經過編碼器轉換成隱空間中的特征變量Z,在隱空間中對Z進行線性插值后再通過解碼器生成增廣樣本I′。不同的是引入對抗網絡從Z中進行采樣P(Z)作為其中的一個輸入,同時將隱空間中插值后的Z作為另外一個輸入,計算兩路輸入之間的對抗損失。AAE 在CIFAR 數據集中進行評估后獲得了最優的結果。
特征空間增廣將在圖像層(raw image layer)的增廣操作泛化到特征隱藏層(latent layer),使得圖像增廣的范疇更加廣泛和圖像增廣研究的思路更加開闊。同時,研究[96]表明在特征空間增廣相對于在圖像空間增廣效果更加顯著。未來,更多在圖像空間增廣的研究成果可以在特征空間上進行應用、檢驗和改善。
半監督圖像增廣的思路是將訓練數據集外的其他未標注數據通過半監督技術使其加入到訓練數據集中,以此達到擴充訓練數據集的效果。使用U=表示具有K個樣本的無標簽數據集,使用Φ(?)表示通過使用已有訓練數據集X進行預訓練的模型。使用yk′=Φ(uk)表示無標簽樣本uk的偽標簽,并將(uk,yk′)加入到訓練數據集X中,以此達到擴充訓練數據集的目標。

Table 4 Methods of feature augmentation表4 特征空間增廣研究匯總
Han 等[103]學者提出了基于Web 的數據增廣的方法用于提升圖像分類的效果。增廣的思路總結如下:(1)將相同類別的訓練樣本放入同一個有序列表中,排在越前的樣本代表該類的可信度越大。然后從每個類別的列表中隨機選擇圖像樣本作為種子上傳到Google 進行以圖搜圖。(2)下載所有的搜索結果,計算所下載圖像樣本與列表中圖像樣本的相似度。滿足相似度閾值的圖像樣本將加入到候選集中,其樣本標簽與種子標簽一致。(3)每個圖像列表中選擇Top-K個最高相似度的下載圖像樣本,加入到訓練數據集中。該方法的有效性易受到諸如網絡和圖像提供方等外在因素的影響。該方法適合在缺乏額外圖像樣本的情景下作為一種可選的訓練集增廣方法。
Berthelot 等學者[51]提出MixMatch 的半監督數據增廣方法。首先,MixMatch 使用半監督的技術預測K個經過隨機數據增廣后的無標簽樣本的標簽。然后,將K個標簽經過算法最終確定給出該無標簽樣本的預測標簽。最后使用mixup 技術隨機從半監督增廣獲得數據集和已有標簽數據集中選擇圖像樣本進行混合形成最終增廣后的訓練數據集。
MixMatch 的半監督過程如圖16 所示。對于任意給定的一張沒有標簽的圖像數據I,分別使用K種不同的數據增廣方法對其進行增廣K次,產生K個增廣后圖像樣本{I0′,I1′,…,IK-1′}。然后將K個樣本輸入分類器獲取K個輸出{y0′,y1′,…,yK-1′},并對K個輸出進行求平均后銳化得到y′。使用y′作為無標簽樣本I的標簽。

Fig.16 Overview workflow of MixMatch augmentation圖16 MixMatch 增廣的核心思想流程圖
作者在CIFAR-10 數據集上,使用MixMatch 對沒有標簽的數據進行半監督學習,使得模型的分類錯誤率降低4 倍。然而,由于CIFAR 數據集的分辨率太低以及MixMatch 方法僅在CIFAR 數據集上進行評估,因此該方法在高分辨率的數據集上的效果有待評估。
獲取大量的標簽數據集是一個昂貴且費時的過程,然而獲取無標簽的原始數據集是一個相對容易的事情。而半監督數據增廣方法能夠將無標簽的數據集利用起來提升模型的性能。因此,半監督數據增廣是圖像增廣的一個重要研究方向。
虛擬圖像生成增廣是通過生成模型(主要以生成對抗網絡為主)直接生成圖像樣本,并將生成的樣本加入到訓練集中,從而達到數據集增廣的目標。使用I′=G(Z,y)表示以噪聲信號Z為種子,通過模型G(?)生成標簽為y的虛擬樣本。虛擬圖像生成增廣通常使用生成對抗網絡及其衍生網絡作為圖像樣本的生成模型。
Goodfellow 等學者[58]提出生成對抗網絡的模式,讓網絡模型之間通過對抗學習的方式不斷地提升生成網絡的生成質量和判別網絡的判別能力,隨即掀起了一股對抗學習的熱潮。后續GANs 模型的改善主要是為了解決對抗學習過程中存在的模式坍塌和訓練困難的問題。
研究[62,104]表明GANs 是一種有效的無監督的圖像數據增廣方法。基于GANs 的圖像增廣是使用GANs 及其衍生模型作為工具在已有數據集上產生更豐富的圖像樣本,以此達到豐富訓練數據樣本提升應用模型在測試集性能的目標。
5.1.1 樸素生成對抗網絡
將Goodfellow 等學者[58]提出的生成對抗模型稱為樸素生成對抗網絡。該模型首次將兩個相互對抗的圖像樣本生成網絡和真假鑒別網絡融合在同一個模型,使用異步訓練的方式相互提高兩個模型的性能。使用圖17(a)來描述樸素生成對抗網絡的模型。
5.1.2 條件生成對抗網絡

Fig.17 Model illustrations of different GANs圖17 不同生成對抗網絡模型圖
由于樸素生成對抗網絡[58]缺少外部類別信息作為指導,訓練過程非常困難,為了給生成器和判別器添加額外信息加快收斂速度,條件生成對抗網絡技術(conditional generative adversarial networks,CGANs)[105]在生成器的輸入端將待生成樣本的類別信息作為監督信號傳入到生成模型中作為約束,如圖17(b)所示。可以根據輸入的條件信息生成符合條件的圖像樣本,尤其適合在圖像增廣方面應用[106]。
5.1.3 輔助分類條件對抗網絡
為了能夠提供更多的輔助信息進行半監督訓練,Odena 等學者提出在條件生成對抗網絡的判別器中加入一個額外分類任務,便于在訓練過程中利用原始任務以及分類任務的優化對模型進行調優,這個方法稱為分類輔助生成對抗網絡(auxiliary classifier generative adversarial networks,ACGAN)[107]。
在ACGAN 中,除了隨機噪聲圖像Z外,每個生成的樣本具有對應的標簽。生成器G同時接受噪聲圖像Z和待生成的樣本的標簽C,產生虛擬圖像Xfake=G(C,Z)。判別器接收真實圖像樣本Xreal和虛擬圖像樣本Xfake的數據分布,判斷出樣本是否為真,如果為真則預測出該樣本的類別。ACGAN 的模式可以簡化描述為圖17(c),額外的分類任務的加入可以生成更加清晰的圖像并且加入輔助分類器有效緩解了模型崩塌問題。實驗結果表明ACGAN 在CIFAR-10 數據集上分類準確性達到同期研究的最好效果。
由于ACGAN 圖像增廣的研究框架的適用性,ACGAN被應用到多個領域的視覺處理任務相關研究中。例如:Mariani 等學者為了解決圖像分類中數據集標簽不平衡的問題提出了數據平衡生成對抗網絡(balancing generative adversarial networks,BAGAN)[108]。作者以ACGAN 為基礎,將ACGAN 中的“真假”輸出和“類別”輸出合成為一個輸出,解決了在訓練過程中遇到少數類時兩個損失函數相互沖突的問題。實驗結果表明BAGAN 在MNIST、CIFAR-10、Flowers和GTSRB 四個數據集中,分類準確性表現比ACGAN更優秀。
Huang 等學者[109]基于ACGAN 模型提出了Actor-Critic GAN 解決圖像分類應用在中類內數據不平衡的問題。使用ACGAN 模型對類內不平衡的樣本進行有差別的增廣,擴大類內圖像的差異性。實驗結果表明相比原始圖像,作者的方案能提高大約2 個百分點的準確率。
Singh 等學者提出基于ACGAN 模型的惡意軟件圖像增廣框架(malware image synthesis using GANs,MIGAN)[110]。作者使用MIGAN 解決了在惡意軟件分析過程中帶標簽的惡意軟件圖像數據缺乏的問題。
5.1.4 其他生成對抗網絡變種
Antoniou 等學者提出了基于GANs 的數據增廣對抗網絡(data augmentation generative adversarial networks,DAGAN)[63],并在多個數據集中應用DAGAN進行數據增廣驗證。
DAGANs 的架構如圖18 所示。左邊是圖像生成網絡,右邊是判別器網絡。生成網絡分成兩部分:一部分是線性投射網絡,接收由高斯分布產生的隨機噪聲圖像zi,并通過線性投射到新的zi;另外一部分是接收一個真實的圖像樣本xi,并對該樣本進行初始特征編碼生成ri。解碼器接收xi和zi生成虛擬圖像xg。判別器網絡接收真實圖像樣本的數據分布(xi,xj)和生成器生成的虛擬圖像分布(xi,xg),輸出標量識別虛擬圖像是否為假。DAGANs 與CGANs 最大的不同是監督信號直接是訓練數據集的圖像樣本本身而非樣本的標簽。

Fig.18 Architecture illustration of data augmentation GANs圖18 數據增廣對抗網絡示意圖
實驗結果表明,在字體分類應用場景中,Omniglot[111]數據集中準確率從69%提升到82%,準確率提升幅度為13個百分點,在EMNIST[112]數據集準確率從73.9%提升到76%,累計提升幅度為2.1個百分點。在字體匹配場景中,Omniglot 數據集中準確率從96.9%提升了0.5個百分點到97.4%,在EMNIST數據集準確率從59.5%提升到了61.3%,累計提升1.8 個百分點。
Tran 等學者[67]提出了一種基于生成對抗網絡的貝葉斯的圖像數據增廣方法,稱其為BDAA(Bayesian data augmentation approach),如圖19 所示。在現有圖像數據集D的基礎上,訓練一個圖像生成網絡G,使用生成網絡G生成虛擬圖像樣本集D′,通過訓練集合成的方式將虛擬圖像樣本集D′合成到現有圖像數據集D,D=D?D′。再使用新的D重新訓練G,直到D的數據集達到預設的條件后,使用D訓練圖像分類網絡C。BDAA 的亮點是提出了數據增廣的框架,對于樣本生成模塊可以靈活替換成不同的生成網絡模型。為了能夠更好地理解虛擬圖像生成增廣的方法及其研究,本文通過表5 回顧生成對抗網絡(GANs)及其衍生變種。表6 總結了其他相關的生成對抗網絡模型,受限于篇幅,本文不再展開分析。

Fig.19 Architecture illustration of Bayesian data augmentation approach圖19 BDAA 數據增廣方法示意圖
Frid-Adar等學者[131]使用DCGANs(deep convolutional generative adversarial networks)[115]模型對肝部CT 掃描圖像進行增廣,解決了肝部腫塊等異常圖像數據標注困難的問題。作者使用DCGANs 在少量標準的樣本數據集中合成大量的帶標注圖像,能夠有效地擴大肝部異常檢測的訓練數據集。實驗表明,訓練數據集中加入DCGANs 合成的圖像樣本,應用模型在測試數據集中靈敏度和特異度分別提升7.1個百分點和4 個百分點。

Table 5 Review of GANs model表5 GANs模型的回顧

Table 6 Summary of GANs-based augmentation methods and corresponding improvements表6 基于GANs的圖像增廣方法及其效果匯總
Shin 等學者使用GANs 進行阿爾茲海默癥圖像和多模態腦腫瘤圖像的增廣和去隱私[132]。作者使用不存在任何關系的公開腦部標簽圖像數據集和私有的病人腫瘤標簽圖像數據集,其中公有的腦部標簽數據集的數據遠遠大于私有的腫瘤標簽圖像數據集。使用GANs 生成腦部的標注后和已經切割出來的腫瘤圖像進行合并生成腦部腫瘤圖像及其標簽,并以此作為訓練數據集。
Lai 等學者[133]提出了一種條件臉部合成框架,該框架將變分自動編碼器與條件生成對抗網絡相結合,以合成具有特定身份的臉部圖像。作者通過大量的定量和定性實驗表明,使用作者的方法生成的面部圖像更具有多樣性和真實性,可用于數據增廣和訓練高級人臉識別模型。
Han 等學者[134]以PG-GANs(progressive growing of generative adversarial networks)[118]為基礎提出了腦部CT 影像的腫瘤檢測圖像增廣框架,該框架針對腦部的囊腫、轉移腫瘤和血管瘤進行針對性增廣。作者使用YOLOv3[135]目標檢測框架進行訓練和驗證。實驗結果表明,在多種訓練技巧結合的情況下,mAP指標提高了3 個百分點,靈敏度指標提高了10 個百分點。
基于GANs 的數據增廣相關的研究還包括Zhu等學者[60]提出使用CycleGANs 技術做表情圖像數據的增廣。Frid-Adar 等學者[61]使用DCGANs 實現肝臟數據的增廣。其他基于GANs 圖像增廣的相關研究讀者可以更近一步閱讀原文獻[65-66,103,136-139]。
基于GANs 生成接近真實的虛擬圖像樣本的方式進行訓練集圖像增廣,為圖像增廣提供了新的思路。更重要的是,虛擬圖像從噪聲圖像中生成,比真實的圖像更具有隨機性和多樣性。在訓練數據不足的場景下能夠有效地提升圖像分類等應用的效果。有效地解決了樣本不足、提取特征困難、生成圖像質量差等機器視覺應用中經常遇到的問題。表6 匯總了當前基于GANs 圖像增廣的具有代表性的研究及其效果。盡管如此,基于GANs 的圖像增廣方法仍然需要面對以下挑戰:
(1)模式坍塌。由于GANs 的訓練過程缺乏監督信息的指導,擬合過程的隨機性很大。同時由于生成對抗網絡的學習能力有限,導致其只模擬出真實數據的一部分或者完全無法模擬真實的樣本數據,產生模式上的缺陷,即模式坍塌(mode collapse)。模式坍塌生成的樣本冗余度大,質量低和樣本的差異性小,難以達到訓練數據增廣的目標。雖然WGANs(Wasserstein GANs)[123]及其后續優化研究WGANGP(WGAN with gradient penalty)[124]能夠在一定程度上抑制模式坍塌,但并沒有從根本上解決這個問題。
(2)訓練困難。GANs 的訓練過程存在梯度突變和梯度消失的問題,訓練過程極其不穩定,雖然目前已有部分研究能夠緩解該問題,但仍需要結合大量的訓練技巧才能獲得理想的訓練結果[58,115,140-141]。
(3)龐大的計算量。由于GAN 的訓練過程極其復雜且需要龐大的計算量,限制了其在大尺寸圖像數據集上廣泛應用。以目前的硬件計算速度而言,僅僅在小分辨率的圖像增廣上適用,例如28×28 或者64×64,但是超過256×256 或更高分辨率的圖像,計算代價較高[103]。
(4)實用性有待驗證。盡管已有研究表明使用基于GANs 的圖像增廣方法能夠有效地提升模型的性能,然而作為圖像增廣而言,GANs 及其衍生模型相對復雜,甚至模型的復雜度已經超過了應用模型的復雜度。因此,復雜的模型和訓練過程限制了基于GANs 的圖像增廣方法不能和基本圖像變換增廣方法一樣作為預處理應用。
由于圖像增廣需要大量的專家知識作為業務指導,在一個場景適用的圖像增廣方法和策略到另外一個場景卻不一定適用[62,142]。因此促進了大量的智能化、自動化圖像增廣策略的相關研究[47,62,64-66,69,71,143-144]。智能圖像增廣研究是在此背景中產生。在給定具體的圖像應用任務和訓練數據集中,智能圖像增廣算法或者模型通過訓練學習的方式獲取最優的圖像增廣策略。使得在其他條件不變的前提下,機器視覺相關的任務得到最大的性能提升。將智能圖像增廣分成策略搜索和策略調度兩個大類的方法,其中策略搜索方法解決給定增廣方法的策略參數的搜索,策略調度解決給定的應用場景,確定圖像的增廣方法。
Fawzi等學者[64]提出了自適應圖像增廣方法。該方法使用仿射變換作為基本的數據增廣操作算子。已經訓練好分類器中,自適應算法使得基于仿射變換后的增廣圖像在已有的網絡中獲得最大分類誤差。增廣后的圖像在現有網絡表現最差意味著增廣后的圖像樣本I′與原始樣本I在現有網絡C中的差異度最大。使用增廣后的圖像樣本重新訓練分類器網絡,而獲得分類準確性的提升。作者在MNIST-500[145]和Small-NORB[146]兩個數據集上分別測試了該方法。在MNIST-500 數據集上,沒有增廣算法的前提下錯誤率為1.84%,使用隨機仿射變換增廣算法錯誤率為1.58%,使用作者提出的自適應增廣的方法錯誤率為1.03%。在Small-NORB 數據集上,不做數據增廣錯誤率為6.80%,隨機仿射變換增廣的錯誤率為6.49%,使用作者提出的增廣方法,錯誤率為4.02%。實驗結果表明,自適應圖像增廣算法在兩個數據集上都表現得比隨機仿射變換增廣方法好。
Ratner 等學者[66]提出智能轉換序列元學習增廣的方法。將每一種傳統的數據增廣技術(旋轉、鏡像、縮放、對比度調整等)作為一個操作單元T,將多個操作組合在一起變成增廣序列(transformation functions,TFs)。使用生成模型G從無標簽的數據集D0中通過增廣序列產生生成數據集D′并合并到已有標簽的訓練數據集D中,作為目標數據集對目標網絡進行訓練。增廣過程如圖20 所示。
序列學習增廣[66]在自適應增廣方法[64]的基礎上,將搜索空間限定在有限范圍之內,使得策略的搜索更加高效。
Lemley 等學者[65]針對如何在訓練數據集不足以訓練目標網絡的情況下,提出智能增廣(smart augmentation)技術。智能增廣的目標是給定一個類別的訓練樣本,在訓練過程中找到最佳的增廣策略。智能增廣過程如圖21 所示。該方法合并兩個或者多個相同類別的圖像樣本,合并后生成的樣本用于目標網絡的訓練。目標網絡的損失函數用于反饋到增廣網絡中進行增廣策略的調整。該方法基于Feret[147]數據集的人臉圖像性別分類任務測試,其準確率從83.52%提升到88.45%。

Fig.20 High-level diagram of domain-specific transformations augmentation圖20 指定領域智能轉換序列增廣的頂層范式

Fig.21 Illustration of smart augmentation圖21 智能增廣數據流圖
基于學習的增廣策略的優點是設計好增廣網絡及目標網絡后,在不需要人為干預的情況下通過不斷的訓練能夠找到最優增廣策略使得目標網絡的錯誤率最低。但智能增廣存在以下弊端:首先是增廣網絡和目標網絡同時訓練,GPU 計算代價龐大;其次訓練及復現困難。迭代1 000 多次仍未收斂,獲得的數據增廣策略未必是全局最優。
Cubuk 等學者[47]提出了基于自動機器學習的圖像數據增廣方法AutoAugment。如圖22 所示,Auto-Augment的工作流程如下:首先預設圖像增廣策略集合,通過搜索算法從增廣策略S中產生一個子策略Si,Si∈S。使用遞歸神經網絡作為控制器,使用經過Si策略增廣的訓練集進行訓練,把獲得的模型在測試集的模型性能作為R的反饋,進行搜索策略的更新。AutoAugment 在應用過程中的主要問題是龐大的計算量,即便是在CIFAR 數據集上進行增廣都需要超過5 000個GPU 小時。AutoAugment在對每一個增廣策略的搜索過程中,直接對增廣策略的連續參數空間進行學習搜索,因此龐大的連續搜索空間也是其巨大的計算量的原因之一。
Lim 等學者意識到盡管AutoAugment[47]方法能夠顯著地提高許多圖像識別任務的性能,然而數千GPU小時的計算量大大地限制了該方法的可用性[148]。因此,Lim 等學者使用圖像樣本的密度分布進行增廣策略的匹配從而提出了快速自動增廣方法(Fast Auto-Augment)。首先,Fast AutoAugment[148]將任意一個給定的訓練數據集等比例劃分成K份,其中每一份訓練數據集都包含一個用于訓練的數據集和一個用于評估的驗證集。然后,使用k個并行訓練視覺模型的參數θ。當完成視覺模型的參數θ已經訓練完成后,Fast AutoAugment[148]算法在k個評估的驗證集DA上評估不同的圖像增廣策略,并獲得k組top-N個策略,加入到最終的增廣策略列表中,用于最終重新訓練視覺模型參數θ。Fast AutoAugment[148]能夠大幅度降低AutoAugment[47]算法的GPU 時間。
Lin 等學者在AutoAugment 的基礎上,提出在線超參數優化技術(online hyper-parameter learning for auto-augmentation,OHL-Auto-Aug)[69],該方法將每種增廣策略劃分成不同的增廣幅度,強、中、弱,從而將策略的連續搜索空間變成離散搜索空間。該方法極大地降低了搜索空間,從而加速了智能增廣策略的訓練效率。而Ho 等學者[70]則從搜索算法的角度對AutoAugment 的搜索過程進行改進,提出了基于種群的搜索方法(population based augmentation,PBA),該方法通過生成靈活的增廣策略調度方法改變Auto-Augment 的固定搜索策略的方法。在同等測試準確率的前提下,AutoAugment 在CIFAR 數據集上需要5 000 個GPU 訓練小時,PBA 僅需要5 個GPU 小時。
使用智能圖像增廣的研究還包括Wang 等學者[62]使用神經網絡學習多種數據增廣的方法,并找到最適合當前分類器的最優增廣策略。更多智能圖像增廣研究請讀者查閱參考文獻[68,70,149-154]。使用智能圖像增廣方法根據特定的圖像應用任務,自動搜索出最佳的圖像增廣策略是目前圖像研究一個趨勢。其最大優勢是可以降低對專家經驗依賴,最大的問題是計算代價較大。表7 匯總了不同智能圖像增廣算法所需要的運算代價。
圖像增廣技術能夠有效地緩解由于訓練標簽數據不足帶來的過擬合問題,因此圖像增廣技術的研究近年來受到越來越多的關注和學者的持續投入。本文以圖像增廣的對象、操作空間、圖像標簽處理方式以及增廣的策略的制定方式為依據,提出了圖像增廣研究的分類框架。依據該分類框架,本文提煉出每類圖像增廣的研究范式,并系統性地梳理了每類研究范式下的最新圖像增廣研究工作。
(1)從圖像的增廣對象上,本文將增廣對象分成三大類:分別是訓練數據集外的其他無標簽圖像樣本,訓練數據集已有標簽樣本以及從噪聲空間進行隨機采樣虛擬圖像樣本。其中針對訓練數據集外的其他無標簽圖像樣本,主要通過半監督學習技術確定無標簽圖像的偽標簽,并將偽標簽作為無標簽樣本的標簽加入到已有訓練數據集,達到擴充訓練數據集目標。針對噪聲空間中的虛擬圖像樣本,通過以生成對抗網絡及其衍生網絡為主的技術直接生成圖像樣本,達到擴充訓練數據集的目標。面向已有的訓練集圖像樣本的增廣研究則相對復雜需要進一步進行區分。
(2)在圖像增廣的操作空間上,本文對現有的增廣研究分成兩類:分別是原始圖像空間上進行操作和在經過若干層卷積網絡后產生的特征空間上進行增廣操作。
(3)在圖像標簽的處理上,本文將現有圖像增廣的研究分成標簽保留和標簽擾動兩大類。標簽保留是指經過圖像增廣后圖像樣本其標簽與增廣前保持一致,反之將增廣標簽產生變化的增廣稱為標簽擾動。
(4)面對特定應用場景,本文依據增廣策略的生成方式分成三類:默認是由專家或者學者依據經驗和探索人工制定增廣的策略和參數;其次由專家或者學者制定增廣策略,通過算法搜索出最優的增廣參數組合;最后一類是直接交給系統進行元學習,通過深度學習網絡生成恰當的增廣策略和參數。
通過系統性梳理當前圖像增廣的研究,當前的研究現狀可以總結為:
(1)自2017 年以mixup 為代表的標簽擾動研究提出,掀起了圖像混合增廣的研究熱潮。盡管圖像混合增廣研究能夠提高模型的在測試集的誤差,但是仍然存在著作用機制不明確的問題。
(2)隨著生成對抗網絡提出和不斷完善,基于生成對抗網絡及其變種的圖像增廣研究百花齊放。然而,由于增廣過程中需要進行大量的模型訓練和優化,增廣過程操作復雜程度甚至超過了目標模型本身,因此,實際的應用價值還存在爭議。

Table 7 Cost comparisons of different smart augmentation methods表7 不同智能圖像增廣算法成本比較
(3)隨著自動機器學習和智能圖像增廣發展,現有圖像增廣研究已經開始采用元學習的方式探索最優圖像增廣參數或者圖像增廣策略。通過引入學習的機制代替專家制定增廣策略逐漸成為圖像增廣研究的一個重要分支。
通過對現有圖像增廣研究的系統性分析和分類,圖像增廣研究在未來將呈現以下趨勢:
(1)圖像增廣的研究范式出現交叉融合。不同的增廣對象之間出現融合,例如在無標簽圖像樣本中引入噪聲生成虛擬圖像樣本。虛擬圖像生成增廣中引入學習機制等。
(2)半監督圖像增廣有望成為重要分支。隨著自監督學習和半監督學習技術的推進,無標簽圖像樣本的數據價值將會得到進一步的釋放。
(3)特征空間圖像增廣有望成為主流。當前已有大量的研究探索在圖像空間進行增廣,并取得了大量的進展。當前研究人員在圖像空間進行數據增廣已經取得了不錯的成果,未來在圖像空間增廣的研究思路有望在特征空間上進行應用和改良。
致謝本文在撰寫過程中獲得了華南理工大學金連文教授、中國科技大學俞能海教授和拉卡拉集團王欣明博士的指導,在此表示衷心的感謝。