李森林 彭小寧
(懷化學(xué)院計(jì)算機(jī)科學(xué)與工程學(xué)院,湖南 懷化 418000)
基于深度神經(jīng)網(wǎng)絡(luò)CNN的學(xué)生聽課狀態(tài)應(yīng)用研究
李森林 彭小寧
(懷化學(xué)院計(jì)算機(jī)科學(xué)與工程學(xué)院,湖南 懷化 418000)
目前,大學(xué)生上課玩手機(jī)不再是個(gè)別現(xiàn)象,而授課老師在專注授課時(shí)又難以及時(shí)察覺和制止。對(duì)此,提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)模型的學(xué)生聽課狀態(tài)應(yīng)用。對(duì)拍攝獲取的學(xué)生頭像狀態(tài)由網(wǎng)絡(luò)模型自動(dòng)識(shí)別并分析學(xué)生聽課情況,低頭族為疑似看手機(jī)對(duì)象或不在聽課狀態(tài)。課后,經(jīng)由班主任進(jìn)行針對(duì)性談話了解情況并給予指導(dǎo),以提高教學(xué)效果。
聽課狀態(tài);深度學(xué)習(xí);卷積網(wǎng)絡(luò)
隨著智能手機(jī)的出現(xiàn),大學(xué)生對(duì)手機(jī)產(chǎn)生了一種迷戀狀態(tài),無論課內(nèi)課外,重點(diǎn)大學(xué)還是高職院校,人手一機(jī),機(jī)不離手成為了大學(xué)生的常態(tài)。尤其課堂上部分學(xué)生不自覺或自制力差,出現(xiàn)玩手游或聊天等行為,并且這種現(xiàn)象呈蔓延的趨勢(shì),而授課老師在專注教學(xué)的情況下,又難以及時(shí)察覺和制止,嚴(yán)重影響了課堂教學(xué)效果,不利于大學(xué)生的身心和智力發(fā)展。這種情況與用智能手機(jī)實(shí)現(xiàn)碎片化學(xué)習(xí)目標(biāo)背道而馳。為此,大學(xué)有責(zé)任和義務(wù)進(jìn)行解決,深度卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)是一種深度學(xué)習(xí)模型,在圖像識(shí)別領(lǐng)域取得了顯著成果[1],這方面的研究已非常成熟。論文從CNN架構(gòu)研究入手,全面分析研究了卷積神經(jīng)網(wǎng)絡(luò)的原理、實(shí)現(xiàn)與學(xué)生聽課狀態(tài)的應(yīng)用。
早期的神經(jīng)網(wǎng)絡(luò)發(fā)源于感知器,對(duì)于單個(gè)神經(jīng)元的感知器輸入數(shù)據(jù)為x1,x2...xn,那么感知器的輸出為output=f(x1*w1+x2*w2...xn*wn)-b,其中wi為連接權(quán)值,b為偏置,f(x)為激活函數(shù),一般為signoid。由神經(jīng)元構(gòu)成的神經(jīng)網(wǎng)絡(luò)BP一般為三層結(jié)構(gòu):輸入層、隱含層和輸出層。訓(xùn)練方式為前向計(jì)算和反向計(jì)算兩個(gè)過程。前向計(jì)算是對(duì)輸入數(shù)據(jù)進(jìn)行逐層處理,對(duì)網(wǎng)絡(luò)輸出值與標(biāo)簽數(shù)據(jù)進(jìn)行比較,根據(jù)差值再進(jìn)行反向逐層調(diào)節(jié)權(quán)值w和偏置b,這種調(diào)節(jié)方法為隨機(jī)梯度下降方法[2],反復(fù)迭代直至符合設(shè)置的條件為止。CNN是基于神經(jīng)網(wǎng)絡(luò)和反向傳播理論創(chuàng)建的一種重點(diǎn)應(yīng)用于圖像處理的深度學(xué)習(xí)架構(gòu)之一。20世紀(jì)90年代,LeCun et al.等人[3]確立了CNN的現(xiàn)代結(jié)構(gòu),他們?cè)O(shè)計(jì)了基于mnist的分類模型LeNet-5。2006年,Krizhevsky et al[4]提出了一個(gè)更加經(jīng)典的AlexNet CNN架構(gòu),致使圖像識(shí)別率效果極為顯著,甚至超過了人類的圖像識(shí)別能力。
CNN含有三種類型的神經(jīng)網(wǎng)絡(luò)層:
(1)卷積層:學(xué)會(huì)識(shí)別輸入數(shù)據(jù)的特性表征;(2)池化層:簡化數(shù)據(jù)的特性表征;(3)全連接層:將卷積層和池化層堆疊形成一層或多層全連接層,實(shí)現(xiàn)分類。如圖1所示,c為卷積層,s為采樣層,flat為平鋪向量化,h為隱層。

圖1 卷積神經(jīng)網(wǎng)絡(luò)示意圖
CNN網(wǎng)絡(luò)的卷積層是提取數(shù)據(jù)特性表征的關(guān)鍵層,在輸入圖像后,通過一系列的過濾器(也稱卷積核)對(duì)圖像數(shù)據(jù)進(jìn)行局部感知過濾獲取關(guān)鍵特征。這種局部感知能力是卷積神經(jīng)網(wǎng)絡(luò)的關(guān)鍵技術(shù)之一,由于CNN中每一層神經(jīng)元只是和上層的局部區(qū)域相連,有效地解決了高維數(shù)據(jù)連接參數(shù)較多、難以訓(xùn)練的缺點(diǎn)。在這種局部感知區(qū)域間特征過濾時(shí),需要考慮深度、步長和填充值[5],這些參數(shù)決定了輸出的特征維度。CNN另一個(gè)關(guān)鍵技術(shù)是參數(shù)共享,這將大大降低網(wǎng)絡(luò)訓(xùn)練的計(jì)算復(fù)雜度和參數(shù)個(gè)數(shù)。
對(duì)于每一個(gè)卷積層的特征通過卷積核進(jìn)行卷積激活后,就可以得到該層的輸出特征。計(jì)算公式為:,其中f(x)為激活函數(shù)。采樣層的目的是減少映射特征維度,操作函數(shù)為,對(duì)于采用數(shù)據(jù)都進(jìn)行了加權(quán)系數(shù)和偏置。最后進(jìn)行特征平鋪構(gòu)成線性數(shù)據(jù)輸入到softmax的多線性分類模型。CNN模型采用的梯度計(jì)算方法與反向傳播網(wǎng)絡(luò)類似,對(duì)于卷積層梯度計(jì)算,每層神經(jīng)元的權(quán)值更新需要對(duì)應(yīng)的靈敏度δ,其計(jì)算公式為,up操作為Kronecher乘積所得。
CNN在卷積層和子采樣層的訓(xùn)練,主要包括:(1)前向傳播過程:下采樣每個(gè)卷積層的maps;(2)反向傳播過程:上采樣高層子采樣層的靈敏度map,以匹配底層的卷積層輸出maps的大小;(3)sigmoid的運(yùn)用和求導(dǎo)。
具體步驟如下:
(1)網(wǎng)絡(luò)初始化
CNN的初始化主要是初始化卷積層和輸出層的卷積核(權(quán)重)和偏置,系統(tǒng)里對(duì)卷積核和權(quán)重進(jìn)行隨機(jī)初始化,對(duì)偏置進(jìn)行全0初始化。
(2)前向傳輸計(jì)算
a.輸入層:輸入層沒有輸入值,輸出向量的大小就是圖片的大小。
b.卷積層:卷積層的輸入來源于輸入層或者采樣層。其中每一個(gè)map都有一個(gè)大小相同的卷積核。
c.采樣層:采樣層是對(duì)上一層map的相鄰小區(qū)域進(jìn)行聚合統(tǒng)計(jì)。
(3)反向傳輸調(diào)整權(quán)重
反向傳輸過程從宏觀上來看基本思想跟BP一樣,是通過最小化殘差來調(diào)整權(quán)重和偏置,文獻(xiàn)[1]進(jìn)行了詳細(xì)講述。
(4)輸出層的殘差
輸出層的殘差是輸出值與類標(biāo)值的誤差值,而中間各層的殘差來源于下一層的殘差的加權(quán)和。
(5)下一層為采樣層的卷積層的殘差
當(dāng)一個(gè)卷積層L的下一層(L+1)為采樣層,根據(jù)采樣層的殘差,計(jì)算該卷積層的殘差。但是采樣層(L+1)的map大小是卷積層L的1/(scale*scale),兩層的map個(gè)數(shù)是一樣的,可以對(duì)采樣層的殘差與一個(gè)scale*scale的全1矩陣進(jìn)行克羅內(nèi)克積擴(kuò)充,達(dá)到維度一致。
實(shí)驗(yàn)環(huán)境為安裝了Anaconda2(64)計(jì)算機(jī)系統(tǒng)的Spyder集成平臺(tái),用Python語言開發(fā),對(duì)CNN模型進(jìn)行編程實(shí)現(xiàn),建立了基于CNN的圖像識(shí)別模型,獲取的特征結(jié)果如圖2所示,分別為截取了3個(gè)人的頭像行為特征,樣例預(yù)測(cè)錯(cuò)誤率如表1所示,可以看出正例和負(fù)例錯(cuò)誤率都在百分之十以上,實(shí)驗(yàn)中的樣本為正例和負(fù)例,即看手機(jī)狀態(tài)和聽課狀態(tài),對(duì)看手機(jī)狀態(tài)學(xué)生預(yù)測(cè)為聽課狀態(tài)的比率為18.23%,反之,把聽課狀態(tài)的學(xué)生預(yù)測(cè)為看手機(jī)狀態(tài)的比率為19.57%,說明自己建立的模型還有待完善和修正,這是下一步需要深度研究的內(nèi)容。

表1 預(yù)測(cè)誤差率

圖2 圖像特征提取
圖像識(shí)別是計(jì)算機(jī)人工智能的視覺識(shí)別的重要領(lǐng)域之一,通過研究人員的努力取得了豐碩的成果。論文總結(jié)和研究了CNN模型的實(shí)現(xiàn),把該模型應(yīng)用于學(xué)生課堂狀態(tài)自動(dòng)檢測(cè)領(lǐng)域,根據(jù)學(xué)生聽課圖像由模型自動(dòng)識(shí)別檢測(cè)出學(xué)生玩手機(jī)行為,進(jìn)而反饋給上課老師,以便對(duì)這些學(xué)生進(jìn)行交流溝通,進(jìn)一步提高教學(xué)效果。該方法是解決當(dāng)前大學(xué)生課堂上看手機(jī)行為的解決辦法之一。
[1]Lawrence S,Giles C L,Tsoi A C,et al.Face recognition:A convolutional neural-network approach[J].IEEE transactions on neural networks,1997,8(1):98-113.
[2]趙志宏,楊紹普,馬增強(qiáng).基于卷積神經(jīng)網(wǎng)絡(luò)LeNet-5的車牌字符識(shí)別研究[J].系統(tǒng)仿真學(xué)報(bào),2010(3):638-641.
[3]Krizhevsky A,Sutskever I,Hinton G E. Imagenet classification with deep convolutional neural networks[C]//Advances in neural information processing systems.2012:1097-1105.
[4]Ji S,Xu W,Yang M,et al.3D convolutional neural networks for human action recognition[J].IEEE transactions on pattern analysis and machine intelligence,2013,35(1):221-231.
[5]Vedaldi A,Lenc K.Matconvnet:Convolutional neural networks for matlab[C]//Proceedings of the 23rd ACM international conference on Multimedia.ACM,2015:689-692.
Application of Deep CNN in the Class Status of Students
Li Senlin Peng Xiaoning
(School of Computer Science and Engineering,Huaihua University,Huaihua 418000,Hunan)
At present,playing with mobile phones in the class is no longer an individual phenomenon for college students,and most teachers cannot be aware and stop it in time due to the focus on teaching.This paper proposes the application of convolution neural network model in class status for students.The state of students obtained by shooting is automatically recognized by network model and the listening status is identified.After class,teachers can give some guidance to the students purposely,to improve the teaching effects.
class status;deep learning;convolutional neural networks
TP183
A
1008-6609(2017)10-0035-03
李森林(1973-),男,河北邯鄲人,碩士,講師,研究方向?yàn)闄C(jī)器學(xué)習(xí)、操作系統(tǒng)。
懷化學(xué)院科研資助項(xiàng)目,項(xiàng)目編號(hào):hhuy2016-3。