結合Cannikin’s Law的離線數據增廣方法研究

2023-01-13 11:58:20梅菠萍

計算機工程與應用 2023年1期

鄧雪，趙皓，2，張靜，2，梅菠萍，張華

1.西南科技大學信息工程學院，四川綿陽 621010

2.中國科學技術大學信息科學技術學院，合肥 230026

卷積神經網絡（convolution neural network，CNN）在計算機視覺領域中的目標檢測、語意分割、姿態估計等具有挑戰性的任務上展現出強大性能[1]。目前，用于提升模型性能的方法主要分為三類：（1）加深網絡結構。例如GGNET[2]、Inception-v4[3]等，更深的網絡具有足夠的復雜度和特征內部變化，隨著網絡層數增加，CNN分層次提取更精細的特征，從而高效進行學習。（2）優化損失函數。例如Momentum[4]、RMSprop[5]等以更有效的損失函數找到模型最優參數，加快訓練速度，提高學習效率。（3）數據增廣。數據作為深度學習的驅動力，對模型訓練至關重要。數據增廣主要用于解決樣本尺寸不平衡、類別不平衡以及遮擋問題。尺寸不平衡是指小樣本的檢測性能總是比尺寸大的樣本差。在文獻[6-7]中，采用copy-paste機制和過采樣來提高小目標檢測精度。在文獻[8-12]中，通過提高原始圖片分辨率并融合來自不同分辨率級別特征以提高小目標的特征表達能力。類別不平衡，即，數量不平衡，可能導致模型過擬合，幾何變換是最常用的數據增廣方法，通過隨機裁剪、翻轉、鏡像等幾何變換能有效提升模型的泛化能力。對于遮擋問題，信息丟失可以顯著提升模型對遮擋的魯棒性，在文獻[13-14]中，隨機截取樣本區域并使用隨機值或均值填充，迫使模型學習圖像中更寬廣的具有描述性質的特征，從而防止模型過擬合于特定的視覺特征。CutMix為避免圖片本身區域特征信息丟失[15]，結合Mixup和Cutout將剪切區域與訓練集中其他圖片區域像素進行線性插值。相比于前兩類方法，數據增廣更具有通用性和易操作性。

上述方法均能有效提升模型的檢測精度和效率，但是在其不是影響檢測性能的主要因素時，始終存在某些類別的檢測性能遠低于平均檢測水平，如圖1所示（chair、potted-plant），將此現象定義為檢測性能不平衡問題。受Cannikin’s Law啟發，木桶的總容量會隨著最短板提高而顯著增加，因此，最低mAP類別的檢測性能提升，整體檢測性能將顯著提升。推測其主要原因是其特征表達能力不平衡，遵循copy-paste機制，對特定類別實例進行分割并隨機放入增廣樣本中，通過相似性度量機制選擇需要增廣的樣本。由于隨機粘貼導致大量目標遮擋問題以及數據集本身存在的遮擋現象，進一步采用cut-replace進行自遮擋增廣，選擇圖像特征表達能力最顯著的區域，并根據中心先驗使用同一張圖像左上角相同大小的區域進行替換，該步驟沒有引入額外的特征信息。

圖1 不同檢測器對Pascal VOC數據集的檢測性能對比Fig.1 Comparison of detection performance of different detectors on Pascal VOC dataset

1 數據增廣的動機

在FCOS和RetinaNet檢測器上對Pascal VOC數據集進行大量實驗。對比、分析實驗結果：始終存在檢測精度遠低于平均檢測水平的類別。為了確定出現此現象的原因，對Pascal VOC數據集進行統計分析。首先對每個類別的數量進行統計，然后對每個類別實例的平均尺寸進行統計，如圖2所示。

圖2 對PASCAL VOC數據集的統計Fig.2 Statistics of PASCAL VOC dataset

實驗結果表明，對于數量、尺寸相當的類別，其檢測精度差距也很大。推測其主要原因是其特征表達能力不平衡。當物體處于背景極其復雜，或者與其特征十分相似的環境下，以及被遮擋的物體，人眼也很難一眼分辨，因此，可以通過增加目標的場景多樣性來提高模型的學習能力。

2 場景多樣性增廣

為了提升樣本數據集分布的多樣性，本文采用“copy-paste”機制，首先將短板類別實例進行分割，然后通過余弦相似性度量機制確定目標增廣樣本，并將增廣的樣本擴充到訓練樣本集中。增廣的樣本數據如圖3所示（藍色框內是增廣的樣本實例）。

圖3 對chair和potted-plant樣本實例的增廣圖片Fig.3 Augmented images of chair and potted-plant sample examples

2.1 余弦相似性

Random-erasing方法中采用隨機數進行在線數據增廣，對數據集分布多樣性的提升針對性不強。本文采用余弦相似性度量機制計算訓練集中的樣本與包含短板類別實例樣本間的相似性距離，選擇相似性高的樣本作為目標增廣樣本，有利于提升檢測模型在相似場景的分辨能力。圖像的余弦相似性是根據像素坐標值將一維向量映射到向量空間，通過計算相同維度向量間的距離獲取相似性度量，計算過程如公式（1）所示：

其中，Ai、Bi為通過直方圖和灰度獲得的區域矢量。

通過對內容相似以及差異較大的兩組不同圖片進行相似性度量測試，實驗結果如圖4所示。為了降低數據增廣的代價，本文通過余弦相似性度量機制，在訓練數據集中，獲取與包含短板類別實例相似的訓練樣本作為增廣目標樣本，通過控制相似性閾值，能夠獲取性能提升與增廣代價的平衡。

圖4 余弦相似性的相似度測量結果Fig.4 Similarity measurement results by cosine similarity

2.2 實施細節

場景多樣性增廣的具體流程如圖5所示，樣本范例如圖6所示。首先，通過gt-box獲得包含樣本的最小外接矩形，減少背景，再通過含有短板類別的分割掩碼將背景變為黑色。最后，將這些實例按一定比例縮放后，通過copy-paste任意放入選擇的樣本中，這里的分割掩碼是數據集自帶的蒙版真值，也可根據成熟的數據分割方法進行獲取，不需要精度很高。

圖5 場景多樣性增廣流程Fig.5 Specific process of scene diversity augment

圖6 場景多樣性增廣的樣本范例Fig.6 Sample example of scene diversity augment

3 Cut-replace自遮擋

遮擋增廣通過引入額外信息，增加數據集的場景多樣性，然而，檢測模型不可避免地會受到噪聲信息的影響。本文提出一種自遮擋方法，通過隨機剪切圖像本身的區域進行增廣，最大程度地降低噪聲引入。同時為了避免遮擋過程中，有用信息被嚴重遮擋，造成檢測模型性能明顯下降的問題，本文采用遮擋部分特征表達顯著區域，有效保護上下文信息的一致性。其增廣后的樣本數據示例如圖7所示。

圖7 Cut-replace自遮擋增廣后的樣本Fig.7 Sample of cut-replace self-occlusion augmentation

Cut-replace的實施細節：cut-replace自遮擋的具體實施流程如圖8所示。首先，將卷積特征圖resize到輸入圖片尺寸并獲取最大特征值的位置(x,y)，映射回原圖；其次，以該位置為圓心，因為，cutout指出：切口大小是比形狀更重要的影響因素，選擇橢圓；然后，根據邊界框大小設置切口尺寸，為選擇最佳遮擋面積，設置長軸為其所在gt-box的h/3、h/4、h/5，短軸為w/3、w/4、w/5進行對比。若該位置在背景上，則選擇圖片的h和w；最后，截取圖片中的patch進行遮擋。相比于random-erasing方法對樣本進行隨機擦除，本文主要針對特征顯著區域進行擦除。該機制能提升模型從上下文信息對目標的分類與定位性能。

圖8 Cut-replace自遮擋增廣的流程Fig.8 Process of cut-replace self-occlusion augmentation

如圖9所示，cut-replace自遮擋可使模型關注樣本非顯著性區域，通過目標全局特征進行類別判別與位置回歸。降低模型對顯著性區域特征的依賴程度，提升模型的表達能力。

圖9 熱力圖可視化Fig.9 Heat map visualization

4 實驗結果及分析

4.1 實驗準備

4.1.1 實驗平臺

所有實驗均使用PyTorch1.5框架，訓練、驗證和測試都在Nvidia Titan XP（12 GB）工作站上進行。

4.1.2 數據集

本次實驗主要在PASCAL VOC數據集上進行訓練和針對VOC數據集，訓練集采用VOC（07+12），測試集采用VOC07 test。同時，為了驗證該方法的有效性，還在MS-COCO數據集上進行了驗證實驗，訓練集采用train2017，測試集采val2017。

4.1.3 數據集

為了驗證提出方法的有效性，選擇兩個以ResNet-50為骨干網絡的RetinaNet[16]和FCOS[17]無錨檢測器作為基線。

4.2 在Pascal VOC數據集上的對比實驗

為加快訓練過程的收斂速度，采用ImageNet分類任務的預訓練權重初始化backbone。采用SGD作為優化器，batch-size=6，momentum=0.9，初始學習率為2E-3，設置30個epoch。初始學習率設置為0.01，在20和25個epoch分別降低10%。輸入圖片尺寸調整為800×1 300。

表1展示了在FCOS檢測器上，不同數據增廣方法對Pascal VOC數據集檢測性能的改進，主要對比Random-erasing和Cutout數據增廣方法。

表1 不同數據增廣方法對比實驗結果Table 1 Comparison of experimental results with different data augmentation methods 單位：%

從表1中可知，基于copy-paste的場景多樣性增強方法在FCOS檢測器上將檢測精度提升了4.04個百分點，短板類別最高提升10.04個百分點，基于cut-replace的自遮擋方法提升了4.28個百分點，短板類別最高提升了16.23個百分點，兩種方法同時作用，檢測性能提升了4.8個百分點，短板類別最高提升了20.80個百分點，相比于Random-erasing和Cutout對短板類別的提升效果更明顯。表2列出了在本文方法下每個類別的AP值對比結果。

表2 每個類別的mAP對比Table 3 Comparison of mAP for each category單位：%

4.3 在MS-COCO上的驗證實驗

為了進一步驗證該方法的有效性，在最典型的MS-COCO數據集上進行驗證實驗，采用SGD優化器。在FCOS檢測器上，訓練的Bach-size設為12，迭代次數設置為24個epoch，每張圖片的尺寸被調整到512×512，并根據COCO數據集json文件的標注格式，對增廣后的整個數據集生成新的json標注文件，并與Randomerasing進行對比，測試結果如表3所示。

表3 MS-COCO數據集上實驗結果Table 3 Experimental results on MS-COCO dataset單位：%

如表3所示，在FCOS檢測框架上，可將MS-COCO數據集的平均檢測精度從32.1%提升到33.0%。

4.4 消融實驗

4.4.1 場景多樣性增廣數量的對比實驗

為驗證測試增廣的數量對該方法的影響，設置了增廣數量為100～500的等級，測試結果如表4所示。

表4 PASCAL VOC數據集上的實驗結果Table 4 Experimental results on PASCAL VOC dataset單位：%

從表4中可以知道，當增廣數量為400，該方法達到了最好的效果，因此選擇合適的增廣數量，對于獲得最佳檢測精度至關重要。

如圖10是對場景多樣性增廣數量消融實驗的可視化對比，將特定類別實例進行隨機放置時會產生遮擋現象，當增廣數量達到一定程度時，檢測性能的提升率反而下降。因此，利用遮擋原理可進一步提升短板類別的檢測性能和對遮擋的魯棒性。

圖10 不同數量等級的增廣測試結果Fig.10 Augmentation test results of different quantity levels

4.4.2 相似性度量機制的消融實驗

為了提升短板類別（chair、potted-plant）的檢測精度，驗證相似性度量機制的有效性，對隨機選擇和余弦相似性進行對比實驗。在FCOS和RetinaNet檢測器上對PASCAL VOC數據集進行測試，結果如表5所示。

表5 相似性度量機制的消融實驗結果Table 5 Ablation experiment results of similarity measurement mechanism 單位：%

實驗結果表明，基于copy-paste的數據增強方法在FCOS和RetinaNet檢測器上對PASCAL VOC數據集的檢測精度分別從79.10%和81.59%提升到83.14%和83.57%。特別對于短板類別，提升最為顯著。

4.4.3 自遮擋增廣的面積和數量對比實驗

采用與場景多樣性驗證實驗相同的實驗設置，為了測試最佳遮擋面積，對遮擋比例為1/3、1/4、1/5進行對比，對比結果如表6所示。

表6 不同遮擋比例的檢測結果Table 6 Detection results of different occlusion ratios單位：%

從表6中數據可知，選擇遮擋比例為1/4時測試效果最佳。同時為了測試遮擋數量對檢測精度的影響，設置260、360、460、560實例數量等級的遮擋級別，實驗結果如表7所示。設置遮擋的實例數量為560時，平均檢測性能達到了83.38%，提升了4.28個百分點，短板類別（chair、potted-plant）分別提升了8.4個百分點和16.23個百分點。

表7 不同數量等級PASCAL VOC數據集的檢測精度Table 7 Detection accuracy of different quantity levels PASCAL VOC dataset 單位：%

5 結束語

為解決多類別目標檢測任務中檢測性能不平衡問題。受Cannikin’s Law的啟發，提出一種離線數據增強算法。首先，采用copy-paste增廣方法對短板類別進行場景多樣性增強，然后，針對copy-paste增廣方法隨機放置過程中產生的大量遮擋問題，采用cut-replace的自遮擋增廣方法來提升短板類別對遮擋的魯棒性。大量實驗結果證明該方法的有效性，為數據增廣領域提供了有用的參考價值。