車大慶,呂建秋
(1.華南農業大學數學與信息學院,廣東廣州 510642;2.華南農業大學創新方法研究所,廣東廣州 510642;3.廣東省科技管理與規劃研究院,廣東廣州 510642)
卷積神經網絡(CNN)已經成為圖像和目標分類的標準載體[1]。由于層結構符合輸入的形狀,CNN擁有比基于矢量的深度學習技術更高的準確率,并對圖像、視頻等目標進行了精確的分類。這種算法的優點促使研究人員不斷地更新和優化CNN 的關鍵組成部分,即卷積層和池化層,以提高CNN的準確性和效率,超越以往的模型。
池化操作起源于CNN 的前身Neocognitron 和Cresceptron,前者由用戶手動進行二次采樣,后者在深度學習中引入了第一個max池操作。合并對卷積層的結果進行子采樣,從而逐漸減小整個網絡中數據的空間尺寸。它的好處是減少了參數,提高了計算效率,并減少了過度擬合[2]。
池化是子采樣的另一個術語。在該層中,卷積層的輸出的維數被壓縮,最常用的是最大池化和平均池化。最大池化獲取區域的最大值并將其選擇為壓縮特征圖,平均池計算區域的平均值并將其選擇為壓縮特征圖。最大池函數如公式1所示,平均池函數如公式2所示。雖然最大池化和平均池化都是有效的、簡單的方法,但它們也有缺點。根據數據的不同,最大池化會消除圖像中的細節。平均池取決于數據,它會從圖像中淡化相關細節[3]。圖1使用示例說明了這些缺點。其他池操作,特別是混合池和隨機池,使用概率方法來減少前述池化方法存在的問題。……