李芳慧 裴騰達(dá)
(大連大學(xué)信息工程學(xué)院 大連 116622)
目前人臉識(shí)別技術(shù)已經(jīng)在社會(huì)諸多領(lǐng)域上得到了廣泛應(yīng)用,為社會(huì)的安全以及經(jīng)濟(jì)發(fā)展帶來(lái)了巨大的便利。傳統(tǒng)的人臉識(shí)別技術(shù)主要以淺層結(jié)構(gòu)模型為主,它們?cè)谔幚韴D像、視頻、語(yǔ)音等高維數(shù)據(jù)方面表現(xiàn)較差,特征提取難以滿足需求,而深度學(xué)習(xí)技術(shù)彌補(bǔ)了這一缺陷[1]。深度學(xué)習(xí)采用深層神經(jīng)網(wǎng)絡(luò)模型,即具有特殊訓(xùn)練方式的包含多個(gè)隱藏層的神經(jīng)網(wǎng)絡(luò)[2]。1989 年LeCun 提出了真正意義上的適用于深度學(xué)習(xí)訓(xùn)練的算法——卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)[3]。CNN因其具有獨(dú)特的結(jié)構(gòu)優(yōu)勢(shì),在圖像分類、圖像檢索、人臉識(shí)別等領(lǐng)域得到了廣泛應(yīng)用[4]。目前比較成功的CNN網(wǎng)絡(luò)模型有AlexNet[5]、GoogleNet[6]、VGGNet[7]、ResNet[8]等。CNN 網(wǎng)絡(luò)對(duì)輸入圖像進(jìn)行分類識(shí)別,然而在含有噪聲干擾的環(huán)境下,采集到的圖像質(zhì)量差,使得網(wǎng)絡(luò)的效果大幅度降低。
在卷積神經(jīng)網(wǎng)絡(luò)中,池化層的重要作用是實(shí)現(xiàn)特征降維、提取關(guān)鍵信息并丟棄冗余信息。然而,傳統(tǒng)的池化操作只是對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單的粗處理,如最大池化法只極端的保留最大值元素,很容易引進(jìn)噪聲;平均池化法取池化窗口內(nèi)的均值,弱化了最大值關(guān)鍵元素。對(duì)此,國(guó)內(nèi)外許多研究學(xué)者提出了較為有效的改進(jìn)方法。2013 年Rob Fergus 等[9]提出了隨機(jī)池化(Stochastic pooling)方法,在池化窗口內(nèi)對(duì)特征圖數(shù)值進(jìn)行歸一化,按照特征圖歸一化后的概率值大小隨機(jī)采樣選擇。2018 年Wei 等[10]提出了局部加權(quán)平均池化方法,通過(guò)給池化元素添加可學(xué)習(xí)的權(quán)重來(lái)實(shí)現(xiàn)更有效的特征提取。……