王俊秀,路旭鵬,郁曉慶
(1 太原工業(yè)學(xué)院 計(jì)算機(jī)工程系,太原 030008;2 中北大學(xué) 大數(shù)據(jù)學(xué)院,太原 030051)
口罩佩戴識(shí)別是人臉識(shí)別的延伸應(yīng)用。人臉識(shí)別是模式識(shí)別范疇的主要研究問題,早在20 世紀(jì)90年代,就已作為獨(dú)立課題受到廣泛關(guān)注。人臉識(shí)別方法是多種方法的融合,其中,包括知識(shí)、模板匹配和統(tǒng)計(jì)學(xué)等。對(duì)于復(fù)雜條件下的人臉檢測(cè)問題,張志偉研究了可變光照條件下的人臉識(shí)別技術(shù)。蘇岑等人根據(jù)主成分分析算法系統(tǒng)設(shè)計(jì)了人臉表情的識(shí)別方法,識(shí)別率達(dá)到89.52%。人臉識(shí)別主要分為靜態(tài)人臉識(shí)別和動(dòng)態(tài)人臉識(shí)別兩大類。近年來隨著深度學(xué)習(xí)的發(fā)展,將人臉識(shí)別與深度學(xué)習(xí)相結(jié)合成為一種趨勢(shì)。深度神經(jīng)網(wǎng)絡(luò)中,最普遍的應(yīng)用是卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)。卷積神經(jīng)網(wǎng)絡(luò)能夠直接將圖像的每個(gè)像素?cái)?shù)據(jù)均作為輸入,而且通過使用包括局部感受野、參數(shù)共享、稀疏連接、以及下采樣的技術(shù)方法,充分挖掘輸入數(shù)據(jù)的特征并實(shí)現(xiàn)自主學(xué)習(xí),同時(shí)證明也對(duì)圖像的所有其它形態(tài)的變換都有健壯性。卷積神經(jīng)網(wǎng)絡(luò)在人臉識(shí)別的有關(guān)研究中,已經(jīng)取得了非常好的識(shí)別效果。近年來,研究學(xué)界一直致力于提高卷積神經(jīng)網(wǎng)絡(luò)在人臉識(shí)別應(yīng)用中的準(zhǔn)確度。為了進(jìn)一步提高深度網(wǎng)絡(luò)在人臉識(shí)別上的準(zhǔn)確率,Kim 等人采取了初始化權(quán)重、重構(gòu)網(wǎng)絡(luò)結(jié)構(gòu)等多種學(xué)習(xí)策略。李江等人也指出了在深度網(wǎng)絡(luò)模型的全連接層采用技術(shù),來減少由于訓(xùn)練樣本不足所產(chǎn)生的過擬合問題。Wen 等人使用構(gòu)造與聯(lián)合的損失函數(shù),來減少類內(nèi)距離、并增大類間特征分散程度。Wang等人采用了Face R-CNN 框架進(jìn)行人臉檢測(cè)。
目前,已經(jīng)有學(xué)者研究人臉口罩佩戴檢測(cè)算法。肖俊杰基于YOLOv3 框架和YCrCb 橢圓膚色模型,實(shí)現(xiàn)了人臉是否佩戴口罩和口罩佩戴是否規(guī)范的檢測(cè)。鄧黃瀟基于RetinaNet 網(wǎng)絡(luò)和遷移學(xué)習(xí)方法,對(duì)人們是否佩戴口罩進(jìn)行檢測(cè)。牛作東等人通過增加自注意力機(jī)制和改進(jìn)RetinaFace 人臉識(shí)別算法,實(shí)現(xiàn)了人臉口罩檢測(cè)。目前,卷積神經(jīng)網(wǎng)絡(luò)模型在進(jìn)行人臉口罩佩戴識(shí)別時(shí),因提取關(guān)鍵特征信息時(shí)聚焦性不夠,影響了識(shí)別的準(zhǔn)確率。針對(duì)此問題,本文采用聚焦機(jī)制的兩渠道卷積神經(jīng)網(wǎng)絡(luò)方法,對(duì)口罩佩戴情況進(jìn)行識(shí)別,并在自建數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)分析。實(shí)驗(yàn)表明,結(jié)果識(shí)別準(zhǔn)確率已達(dá)到99.4%。
卷積神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的一種,由輸入層、卷積層、池化層和激活函數(shù)構(gòu)成,卷積網(wǎng)絡(luò)模型如圖1 所示。其特殊之處在于,卷積神經(jīng)網(wǎng)絡(luò)同時(shí)擁有卷積層和池化層。卷積層和池化層作為特征向量提取器,解決了特征向量選擇的難題,并且能夠減少網(wǎng)絡(luò)模型的相關(guān)參數(shù)和復(fù)雜程度。這里,對(duì)卷積神經(jīng)網(wǎng)絡(luò)各組成部分的功能原理可給出闡釋分述如下。

圖1 卷積神經(jīng)網(wǎng)絡(luò)模型Fig.1 Convolutional neural network model
(1)卷積層。在神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練過程中,網(wǎng)絡(luò)中的參數(shù)數(shù)量過多,是訓(xùn)練困難的一個(gè)重要原因。卷積神經(jīng)網(wǎng)絡(luò)通過隨機(jī)初始化權(quán)重、權(quán)值共享的形式,減少了網(wǎng)絡(luò)中的參數(shù),增加了網(wǎng)絡(luò)的泛化功能。在網(wǎng)絡(luò)模型的訓(xùn)練中,可以訓(xùn)練成能夠檢測(cè)形狀和邊緣的濾波器。
(2)池化層。為減少模型中參數(shù)數(shù)量以及網(wǎng)絡(luò)模型的訓(xùn)練時(shí)間,池化層將卷積層的輸出進(jìn)行特征組合。池化層通過計(jì)算卷積層輸出的局部區(qū)域值,達(dá)到減少特征向量、防止過擬合和降低圖像表達(dá)維度的目的。
常用的池化層計(jì)算方法有:最大池化和平均池化。其中,最大池化矩陣是選定區(qū)域內(nèi)的最大值,認(rèn)為該值可以代表區(qū)域特征;平均池化則選取整個(gè)區(qū)域特征的平均值,作為該區(qū)域的特征。
(3)激活函數(shù)。卷積神經(jīng)網(wǎng)絡(luò)中激活函數(shù)的主要作用,是使網(wǎng)絡(luò)模型可以逼近任意分類函數(shù)。例如,函數(shù)、函數(shù)和函數(shù)等,都是卷積神經(jīng)網(wǎng)絡(luò)常用的激活函數(shù)。函數(shù)和函數(shù)的優(yōu)勢(shì)是能解決非線性問題,缺點(diǎn)是計(jì)算較為復(fù)雜,易出現(xiàn)梯度消失等問題。函數(shù)的優(yōu)點(diǎn)是梯度穩(wěn)定,計(jì)算相對(duì)節(jié)省時(shí)間。
為挖掘出不同形象的人物佩戴口罩的特征,本方法采用不同人物佩戴口罩的圖像作為模型的輸入,進(jìn)行口罩佩戴的識(shí)別。選取合適的數(shù)據(jù)集,進(jìn)行統(tǒng)一規(guī)格的預(yù)處理,使其大小符合卷積神經(jīng)網(wǎng)絡(luò)模型的輸入。對(duì)每張圖像取眼部特征和口罩特征。具體模型如圖2 所示。由圖2 可知,各部分的研究設(shè)計(jì)可做剖析論述如下。

圖2 兩渠道卷積神經(jīng)網(wǎng)絡(luò)模型Fig.2 Two-channel convolutional neural network model
(1)眼部區(qū)域特征提取。將去除無關(guān)背景的固定寬和高的區(qū)域,定義眼部所在的區(qū)域。其中,眼部區(qū)域所在范圍的比例因子見表1。表1 中,x、y表示眼睛左上角坐標(biāo),w、h表示眼睛的寬和高,w、h表示臉部區(qū)域的寬和高。

表1 眼部Region of Interest 比例因子Tab.1 Proportion factor of Region of Interest related to the eyes
(2)口罩區(qū)域特征提取。由于口罩區(qū)域范圍較大,口罩形狀較為規(guī)整,能夠提取更多有效信息。同樣,去除無關(guān)干擾背景后,用固定寬和高來獲取口罩所在區(qū)域。其中,口罩的比例因子見表2。表2 中,x、y是口罩的左上角坐標(biāo), w是口罩的寬度,h是口罩的高度。

表2 口罩Region of Interest 比例因子Tab.2 Proportion factor of Region of Interest related to the mask
(3)兩渠道決策層卷積神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)在進(jìn)行模型訓(xùn)練時(shí),特征向量被壓縮后會(huì)忽略部分圖像信息,造成部分關(guān)鍵信息的丟失。但若只對(duì)關(guān)鍵區(qū)域進(jìn)行圖像數(shù)據(jù)特征提取,就有可能產(chǎn)生過擬合的問題,對(duì)特征信息提取不夠充分。為解決上述問題,本文采用不同焦點(diǎn)的圖像作為輸入,即聚焦眼部區(qū)域和聚焦口罩區(qū)域或嘴部區(qū)域。通過2 個(gè)渠道分別進(jìn)行網(wǎng)絡(luò)模型的訓(xùn)練,并對(duì)2 個(gè)網(wǎng)絡(luò)模型的識(shí)別結(jié)果進(jìn)行融合,作為最后的識(shí)別結(jié)果。兩渠道融合方法屬于決策層融合,采用多數(shù)投票法作為最后判別結(jié)果。
多數(shù)投票法是指將多個(gè)模型識(shí)別結(jié)果作為最終模型的輸入,通過決策融合得到最終的識(shí)別結(jié)果。假設(shè)將個(gè)模型{,,…,c} 作為基學(xué)習(xí)器進(jìn)行投票,具體表示形式如下:


實(shí)驗(yàn)所用自建的數(shù)據(jù)集,訓(xùn)練集、驗(yàn)證集和測(cè)試集各總量分別是900、300、300,數(shù)據(jù)中口罩佩戴分布均衡。訓(xùn)練集、驗(yàn)證集和測(cè)試集口罩佩戴分布如圖3 所示。

圖3 實(shí)驗(yàn)數(shù)據(jù)集分布情況Fig.3 Distribution of experimental data sets
采用灰度化及高斯濾波法消除圖像中無關(guān)的信息,保留有用信息,縮減無關(guān)信息的干擾。同時(shí)采用伽馬變換,減少光纖對(duì)輸入圖像的影響。預(yù)處理前后圖像對(duì)比如圖4 所示。

圖4 圖像預(yù)處理前、后對(duì)比Fig.4 Comparison of images before and after preprocessing
為消除無關(guān)信息對(duì)口罩佩戴的識(shí)別影響,對(duì)無效背景區(qū)域進(jìn)行消除。采用級(jí)聯(lián)檢測(cè)技術(shù),從原始圖像中獲取眼部數(shù)據(jù)和口罩部分?jǐn)?shù)據(jù),對(duì)得到的數(shù)據(jù)進(jìn)行歸一化處理,并將訓(xùn)練集輸入到網(wǎng)絡(luò)模型中。圖5 為原始圖像和獲取的眼部區(qū)域及口罩區(qū)域圖像的示例。

圖5 原始圖像以及獲取的眼部區(qū)域和口罩區(qū)域圖像Fig.5 Original images and the corresponding images of the eye area and mask area
在模型訓(xùn)練過程中,分別將聚焦人眼圖像和聚焦口罩圖像輸入到卷積神經(jīng)網(wǎng)絡(luò)模型中。同時(shí)采用隨機(jī)梯度下降的方法進(jìn)行優(yōu)化處理,用均勻初始化,激活函數(shù)使用梯度穩(wěn)定的,并把學(xué)習(xí)率和學(xué)習(xí)率衰減分別設(shè)為le-4 和(le-4)/。采用2 個(gè)輸入,分別輸入到該卷積神經(jīng)網(wǎng)絡(luò)模型中,訓(xùn)練得到2 個(gè)模型,。模型評(píng)價(jià)指標(biāo)是準(zhǔn)確率(),記正確識(shí)別到戴口罩為,正確識(shí)別到?jīng)]戴口罩為,錯(cuò)誤識(shí)別到戴口罩為,錯(cuò)誤識(shí)別到?jīng)]戴口罩為,則計(jì)算公式可寫為:

表3、表4 分別是在訓(xùn)練集上的測(cè)試結(jié)果。其中,模型對(duì)于口罩佩戴的識(shí)別準(zhǔn)確率為71%,模型對(duì)于口罩佩戴的識(shí)別準(zhǔn)確率為87%。采用聚焦口罩圖像作為輸入建立的模型,對(duì)于口罩佩戴的識(shí)別準(zhǔn)確率,要高于。

表3 訓(xùn)練集在c1 模型的結(jié)果Tab.3 Results of c1 model in the training set

表4 訓(xùn)練集在c2 模型的結(jié)果Tab.4 Results of c2 model in the training set
根據(jù)模型,、即不同焦點(diǎn)訓(xùn)練得到的卷積神經(jīng)網(wǎng)絡(luò)模型,結(jié)合兩渠道神經(jīng)網(wǎng)絡(luò)融合技術(shù),對(duì),在決策層采用“少數(shù)服從多數(shù)”的方法進(jìn)行判別,得到最終用于識(shí)別口罩佩戴的兩渠道卷積神經(jīng)網(wǎng)絡(luò)。其融合公式如下:

改進(jìn)后的卷積神經(jīng)網(wǎng)絡(luò)模型,對(duì)于口罩佩戴的識(shí)別準(zhǔn)確率見表5,平均識(shí)別準(zhǔn)確率為99.4%,識(shí)別環(huán)境為白天常規(guī)環(huán)境。其識(shí)別準(zhǔn)確率優(yōu)于任意一種單輸入的卷積神經(jīng)網(wǎng)絡(luò)模型,分類效果得到明顯提高。

表5 改進(jìn)后卷積神經(jīng)網(wǎng)絡(luò)模型識(shí)別準(zhǔn)確率Tab.5 Recognition accuracy of improved convolutional neural network model
為檢驗(yàn)基于兩渠道融合技術(shù)的深度卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)人臉佩戴口罩識(shí)別效果的抗干擾能力,實(shí)驗(yàn)分別在白天環(huán)境、夜晚環(huán)境、常規(guī)無遮擋環(huán)境和佩戴復(fù)雜有遮擋環(huán)境中進(jìn)行。表6 給出了模型在多種環(huán)境下的識(shí)別效果。實(shí)驗(yàn)結(jié)果表明,本文提出的口罩識(shí)別模型在不同環(huán)境下,具有較高的識(shí)別準(zhǔn)確率,能夠滿足防疫控制檢驗(yàn)口罩佩戴情況的要求。

表6 改進(jìn)后卷積神經(jīng)網(wǎng)絡(luò)模型在不同環(huán)境下識(shí)別準(zhǔn)確率Tab.6 Recognition accuracy of improved convolutional neural network model in different environments
疫情期間佩戴口罩,能有效預(yù)防病毒的傳播,保護(hù)好自己和身邊的人。本文提出的基于深度神經(jīng)網(wǎng)絡(luò)的兩渠道模型,分別訓(xùn)練不同焦點(diǎn)作為輸入的卷積神經(jīng)網(wǎng)絡(luò),進(jìn)行特征提取,并用融合技術(shù)進(jìn)行最后的識(shí)別判別,平均識(shí)別準(zhǔn)確率達(dá)到了98.8%。在未來的工作中,將著重研究如下方向內(nèi)容:
(1)盡可能多地收集樣本,包含不同發(fā)型、不同裝扮、不同外部環(huán)境的人群。
(2)由于靜態(tài)圖片作為輸入,容易出現(xiàn)誤判。
因此,在公共場(chǎng)所攝像頭的協(xié)助下,可以利用前、后幀之間的連續(xù)性,對(duì)輸入進(jìn)行多次判別,提高識(shí)別準(zhǔn)確率。