趙馨宇, 黃福珍, 周晨旭
(1.上海電力大學, 上海 200090; 2.上海市政工程設計研究總院(集團)有限公司, 上海 201900)
圖像特征的提取與分類一直是計算機視覺領域的重要研究方向。卷積神經網絡提供了一種端到端的學習模型,模型中的參數可以通過傳統的梯度下降方法進行訓練,經過訓練的卷積神經網絡能夠學習圖像中的特征,完成對圖像特征的提取和分類。近年來,卷積神經網絡不斷得到改進,應用領域進一步擴展,而在各個領域中不斷涌現出來的研究成果更使其成為了當前研究熱點之一[1]。
卷積神經網絡雛形可以追溯到1980年,由日本學者福島邦彥提出多層的人工神經網絡。這個網絡層與層之間釆用十分稀疏的局部連接,對數據的輕微縮放和旋轉具有不變性,但是缺少對其訓練的學習算法。之后涌現出對簡單卷積神經網絡進行訓練的反向傳播算法。到了1998年,由LECUN Y等人[2]提出了真正意義上的卷積神經網絡——LeNet-5卷積神經網絡。該網絡由于采用了局部連接、權值共享和子釆樣操作,在手寫字符識別中的成功應用引起了廣泛的關注。同一時期,卷積神經網絡在語音識別、物體檢測、人臉識別等方面的研究也逐漸開展起來,卷積神經網絡進入了廣泛研究時期。2012年,由KRIZHEVSKY A等人[3]提出的Alex Net,牛津大學的 VGG(Visual GeometryGroup)、Google的 GoogLeNet、微軟的ResNet等都在圖像分類等方面取得了成功。
在卷積神經網絡中,起著決定性作用的是激活函數的選擇,不同的激活函數對于網絡的性能具有很大的影響。……