倪照風 馬原東 崔瀟 酈烜杰 楊秀璋 羅子江



摘 ?要: 該文首次將ResNet網絡的思想對復雜教室環境下的人物進行多類別分類設計,改進了網絡結構,有效解決了傳統基于像素特征的方法分類效果不理想的問題。實驗中通過卷積提取特征、不同感受野、保留像素間聯系、多層卷積級聯提取深層次特征等方法,在網絡訓練過程中進行參數調整,優化算法和網絡參數來解決困難樣本的識別,將多類別的分類準確率從83.5%提升到99.2%,并實現了多目標檢測的11類樣本的判定。最終選取ResNet18_16來進行高速有效的多類別識別。
關鍵詞: 姿態分類; ResNet網絡; 卷積網絡; 分類訓練; 參數調整; 多類別識別
中圖分類號: TN926?34 ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻標識碼: A ? ? ? ? ? ? ? ? ? ? ?文章編號: 1004?373X(2020)12?0042?05
Abstract: The multiclass classification for the students in the complex classroom environment is designed with the idea of ResNet network, which improves the network structure, and effectively solves the problem that the classification effect is not ideal in the traditional method based on pixel feature. In the experiments, the convolution is used for the feature extraction, which adopts the different receptive fields, preserves the connections between pixels, uses the multilayer convolution cascade to extract the deep?seated features and other methods. The parameter adjustment is conducted in the network training process, and the algorithm and network parameters are optimized to identify the difficult samples, which increase the accuracy of multiclass classification from 83.5% to 99.2%, and realize the determination of 11 kinds of samples of multi?target detection. In this paper, Resnet18_16 is finally selected for the high?speed and effective multiclass recognition.
Keywords: gesture classification; ResNet network; convolution network; classification training; parameter adjustment; multiclass identification
0 ?引 ?言
面對復雜的教室環境、多類別的人物姿態,神經網絡[1]發展迅速,已出現在圖像分類方法中,卷積網絡表現出強大的特征提取能力。卷積采用局部感受野、權值共享,既能提取更深層次特征、保留像素之間聯系,也能減少參數,提高訓練速度。尼加提·卡斯木等人對沙漠腹地綠洲植物群落分布進行分類,并與傳統方法進行比較,發現卷積神經網絡效果最優[2]。閆河等人通過改進卷積神經網絡來對網絡圖片進行分類,證實卷積網絡結構的有效性[3]。在網絡教學中,孫重亮采用了支持向量機和普通卷積網絡的辦法來對人體面部表情進行識別[4],缺點是只能識別出單一目標人物的學習狀態,無法應用在教室等多人復雜環境中,并且對學生的學習狀態分類較為單一,在6種類別判定下的實驗結果準確率達到81.5%。陸嘉慧對表情專門研究,并指出表情識別存在的局限性[5]。
針對教室復雜環境下人物多類別分類的問題,本文基于ResNet網絡結構的思想,改進網絡結構來更加細化特征類別,保留像素之間的關聯性,提取深層次動作特征,并對復雜樣本做了詳盡標注和分類,加入擴充了大量hard樣本,在11種類別判定下的分類準確率達到99.2%。
1 ?ResNet網絡結構
ResNet[6]網絡最開始是何凱明為解決訓練中準確率先飽和后降低的問題而提出,將residual learning的思想引入深度學習領域,這一網絡結構解決了網絡退化的問題,避免了網絡結構在很深時出現準確率降低、性能下降等問題。本文基于圖1所示的網絡結構重新設計了適用于復雜教室環境下的多目標多類別識別場景,ResNet網絡采用卷積提取特征,實現了卷積核權值共享,計算量大大減少。ResNet在送入Block之前使用3×3替代原先的7×7卷積核,網絡參數減少為原先的[15];隨后pool層減小特征圖,使后續計算量大大減少。卷積之后的特征圖接入BN[7],歸一化特征數據,接入激勵,增加非線性,激勵后的特征圖送入下一卷積,并在softmax[8]層輸出屬于每一類別的概率。
表1給出了改進后的ResNet在復雜檢測場景下的檢測性能,與支持向量機[4]相比,具有多人物、多姿態、高準確率等特點。
2 ?分類訓練
2.1 ?制定復雜樣本的標注標準
本文研究的數據集為上課教學視頻,為了檢測更加復雜情況下的人物姿態,本文選取了多種類別的樣本及大量hard樣本。
1) 不同幀率下的視頻流樣本,包含不同人次的課堂(10人以內教室,30人左右教室)。下載視頻,分析視頻信息,截取視頻(每秒約30幀)部分幀數據,為防止每個人動作變化不明顯,采用每30 s截取一幀視頻。
2) 制定了11類樣本類別標準,如表2所示。
3) 充分考慮不同類別樣本在周圍像素特征的影響,在標注過程中會由于攝像機角度、光線、遮擋、時間等因素的影響,需要在制作樣本時充分考慮訓練集的特征提取,對每種狀態都有其標注準則,并在制作數據集時考慮人物與人物之間的聯系。
4) 復雜hard樣本的擴充如圖2所示,其類別特征不明顯。圖2a)包含看書特征,但姿態特殊;圖2b)包含筆信息、臉部視線信息。對此類樣本進行樣本擴充,如顏色增強、模糊、鏡像、仿射變換等。
根據嚴格標準對數據圖片進行標注,標注效果如圖3所示。數據處理結果如圖4所示。
1) 訓練集制作。本文數據采集于教學視頻,共289 053張照片,切圖過程中,圖片有一定的像素偏移,擴充至多張圖片。如圖4可知,book,writing數據最多,flat_A0,flat_A45,flat_A?45,nofocus_F次之,nofocus_B,sleepy,flat_90,flat_A?90最少,后期工作中根據訓練結果考慮樣本均衡、數據擴充。訓練結果中,較少樣本特征較為明顯,Writing,Book兩類特征差異較小,數據最多。
2) 測試集。保證圖像特征完整,切出xml坐標圖片,共32 016張圖片。標準姿態如圖5所示。
圖5中,從左往右,從上到下分別是每種姿態對應的標準圖片:Person,Writing,Book,Sleepy,Nofocus_F,Nofocus_B,Flat_A0,Flat_A45,Flat_?45,Flat_A90,Flat_A?90,Part。
3) 數據預處理。首先使用ffmpeg將視頻幀轉換為圖像數據;然后使用軟件對圖片進行標注,標注會給出每個框圖的坐標,根據xml標注信息得到訓練樣本;再依據圖像數據縮放金字塔[9];最后,經數據擴充后處理成同一大小。
處理后的圖片如圖6所示。
標注時需要兼顧書本和人物信息,由于坐姿不同,寬高比列不同,標注框不是標準矩形框。為方便訓練,處理成同一尺寸:
1) 以長邊為準,切圖,會出現一張圖片出現多人情況;
2) 短邊截取,出現額頭、手肘等部位信息丟失;
3) 雙線性內插值縮放[10],圖像變形,但對特征提取影響較小。訓練過程中選擇第3種切圖方式。
圖7a)為長邊截取,圖像內出現多人,動作特征干擾;圖7b)為短邊截取,部分動作特征丟失。當出現Person,Sleepy等寬高比較大姿態,該情況更嚴重。特征缺失或者特征干擾均對訓練進行干擾,需盡可能避免該情況。
2.2 ?訓練流程
參數設置:每次訓練之前需要對訓練過程中選擇初始學習率、學習率下降方式、下降步長等參數,具體Solver文件配置參數如表3所示。
根據圖8的訓練流程,遍歷圖片,送入模型測試,判斷Top1(最大概率屬于標簽類別)是否準確。
1) 檢查標簽、GT位置,如果標簽錯誤,人工修改,再訓練;
2) 標簽無錯,類別特征相近,對此類數據進行模糊、顏色、像素偏移擴充,并設計更深卷積級聯,提取深層次特征。
2.3 ?訓 ?練
本研究是在WIN7系統,i7處理器,顯卡GTX970上進行訓練,批次256。通過設置輸入尺寸和特征通道,減小模型尺寸,降低對顯存需求,提高訓練速度。
1) 數據輸入。數據輸入之前縮放處理成64×64。照片尺寸過大,增加計算量,照片太小無法充分提取所需特征。經試驗,64×64可觀察出人物基本動作特征,符合訓練特征需求。
2) ResNet訓練。數據經過第一層卷積和池化到達stage1,尺寸縮小為16×16,尺寸縮小[12],輸出的特征通道數增大1倍,這樣可以使特征圖在尺寸減小的前提下不會一次性丟失太多信息。池化層放在第一層卷積之后,去除最后全局池化,防止信息損失過多導致特征提取不充分。經過殘差網絡的4個Stage,輸出特征圖為1×1×128。網絡越深,提取的特征越復雜。最后一層接全連接,全連接輸出送入Softmax計算得出概率,分析所屬類別。
2.4 ?訓練結果分析
對分類結果采用準確率(Accuracy)來表示:
式中:T為測試集分類準確的數量;P為測試集總量。
在整個測試集中,統計識別出正確類別數量,與總數進行計算,得出訓練的準確率,可分析出網絡模型性能。
圖9中顯示,當初始學習率(Ir)=0.05,準確率由0開始不斷上升,前期為保證跳出局部最優,選擇較大學習率,收斂速度較快,準確率上升斜率較大。迭代一定次數后在0.89附近振蕩,隨后根據經驗選擇合適下降學習率的迭代次數,本文選擇40 000。當Ir=0.005,迭代40 000次后下降一次數量級,網絡繼續收斂,準確率提高,前期訓練的學習率較大,下降數量級后有著較為明顯的提升,約10%。當Ir>0.005,使用較小學習率進行微調,逐步提高準確率。下降兩次數量級后,ResNet18_16網絡達到99.2%。
2.5 ?改進ResNet性能比較
在相同數據訓練集和測試集上,本文調整網絡結構的各項參數進行實驗,具體如表4所示,表5、圖10給出不同網絡性能比較及準確率比較結果。
1) 準確率。隨著網絡層數加深、特征通道的增大,特征提取更充分,細節特征被提取,準確率有著較為明顯的差距。通道一定的條件下,網絡越深,準確率越高;網絡深度一定的條件下,特征通道越多,準確率越高。圖10a)準確率比較中,準確率從83.5%提高到99.2%。
2) 速度。深度、特征通道的增大,帶來計算量的增加,訓練檢測時間變長。實際應用場景下造成數據流幀率的下降。
3) 模型尺寸。模型尺寸指訓練結果中所有網絡參數組成的文件大小。訓練過程中通過迭代,不斷學習參數,卷積級聯越深、特征通道越多,需要學習的參數越多,導致模型尺寸增大。圖10b)中模型尺寸從最小的184.9 Kb增大到10 975 Kb,訓練耗時,導致實際檢測幀率從30下降到10。
4) 模型參數計算。輸入通道×卷積核_W×卷積核_H* 輸出通道×字節。
實際投入使用時需要綜合考慮每一個網絡的各方面性能,ResNet18_16與ResNet18_32相比,時間減少約62%,幀率提高80%,模型尺寸減少[34],準確率從99.3%降低為99.2%,雖降低約0.1%,但仍保持極高的準確率。在后期的工程化設計中,會綜合考慮每個學生的整體上課情況,0.1%準確率影響很小。因此,在綜合考慮速度、準確率和模型尺寸的基礎上,實際投入使用時選用ResNet18_16。
3 ?結 ?論
本文從人物特征的技術發展研究現狀出發,提出基于卷積神經網絡的新型ResNet網絡結構,首次將ResNet網絡用于教室人物姿態的多類別的分類。本文制定了11種分類標準來衡量不同人物姿態類別之間的特征差異。通過在數據訓練中對網絡參數的不斷調整,最終采用ResNet18_16的網絡結構,使其在速度上滿足軟件使用要求,準確率達到99.2%。優化后的模型尺寸縮小很多,非常適用于實際系統。系統可實時監控每位學生狀態,并對此進行分析、判斷、統計,進而了解學生的上課狀態,反映教學質量,對此進行評估,改進教學方式,對提高教學質量提供技術支持。
注:本文通訊作者為羅子江。
參考文獻
[1] 修麗娜,劉湘南.人工神經網絡遙感分類方法研究現狀及發展趨勢探析[J].遙感技術與應用,2003(5):339?345.
[2] 尼加提·卡斯木,師慶東,劉素紅,等.基于卷積網絡的沙漠腹地綠洲植物群落自動分類方法[J].農業機械學報,2019,50(1):224?232.
[3] 閆河,王鵬,董鶯艷,等.改進的卷積神經網絡圖片分類識別方法[J].計算機應用與軟件,2018(12):193?198.
[4] 孫重亮.網絡教學中的學習狀態與學習情緒識別方法研究[D].長春:吉林大學,2018.
[5] 陸嘉慧,張樹美,趙俊莉.基于深度學習的面部表情識別研究[J].計算機應用研究,2019(4):1?8.
[6] HE K, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition [C]// IEEE Conference on Computer Vision & Pattern Recognition Workshop. Honolulu: IEEE, 2016: 47?53.
[7] 楊真真,匡楠,范露,等.基于卷積神經網絡的圖像分類算法綜述[J].信號處理,2018(12):1474?1489.
[8] 陳鶴森.基于深度學習的細粒度圖像識別研究[D].北京:北京郵電大學,2018.
[9] IOFFE S, SZEGEDY C. Batch normalization: accelerating deep network training by reducing internal covariate shift [J]. Computer science, 2015(12): 21?24.
[10] 鄭偉民,葉承晉,張曼穎,等.基于Softmax概率分類器的數據驅動空間負荷預測[J].電力系統自動化,2019,43(9):150?160.
[11] HE K M, ZHANG X Y, REN S Q, et al. Identity mappings in deep residual networks [C]// 14th European Conference on Computer Vision. Amsterdam: Springer, 2016: 640?643.
[12] 馮陳定,李少波,姚勇,等.基于改進卷積神經網絡與動態衰減學習率的環境聲音識別算法[J].科學技術與工程,2019(1):177?182.
[13] 葛程,孫國強.基于卷積神經網絡的圖像分類研究[J].軟件導刊,2018(10):27?31.
[14] 毛麗,姬淵,董峽.HIS域中基于金字塔變換的影像縮放算法及實現[J].化工礦產地質,2005(2):109?113.
[15] 王平,全吉成,趙柏宇.基于雙線性插值的圖像縮放在GPU上的實現[J].微電子學與計算機,2016(11):129?132.