周鵬飛
(華電山東淄博熱電有限公司安全環(huán)保部,山東淄博 250000)
電廠的安全運(yùn)行對(duì)于社會(huì)經(jīng)濟(jì)的穩(wěn)定具有重要意義。統(tǒng)計(jì)顯示,人為因素導(dǎo)致的安全事故占電廠安全事故的70%以上。因此對(duì)于電廠工作人員的不安全行為進(jìn)行深入的分析,具有重要的研究?jī)r(jià)值。
作為人工智能的重要組成部分,深度學(xué)習(xí)算法被廣泛應(yīng)用在各個(gè)領(lǐng)域,該文采用基于人體骨骼與深度學(xué)習(xí)的動(dòng)作識(shí)別方法。采用動(dòng)態(tài)骨架進(jìn)行動(dòng)作識(shí)別的優(yōu)點(diǎn)是其僅使用人體關(guān)節(jié)的位置信息來(lái)表示動(dòng)作特征,排除了圖像信息的干擾。由于人體骨骼是圖結(jié)構(gòu)的形式,而不是類(lèi)似于二維圖像的常規(guī)固定網(wǎng)格,因此引入圖卷積網(wǎng)絡(luò)。在此基礎(chǔ)上,此次搭建的傳感器網(wǎng)絡(luò)進(jìn)一步提高了對(duì)電廠工作人員行為識(shí)別的效率。
為準(zhǔn)確檢測(cè)電廠人員的各種行為,使用神經(jīng)網(wǎng)絡(luò)構(gòu)建人體行為識(shí)別模型[1]。首先從視頻中獲取人體骨骼,并將每個(gè)視頻幀提取為一系列關(guān)節(jié)坐標(biāo)[2];然后將數(shù)據(jù)輸入到多層空間時(shí)間圖卷積運(yùn)算中,由此生成更高級(jí)別的特征圖[3];隨后通過(guò)全連接層將特征映射到固定長(zhǎng)度的特征向量;最終,由SoftMax 分類(lèi)器分類(lèi)以獲得相應(yīng)的行為類(lèi)別[4]。識(shí)別的總體過(guò)程如圖1 所示。

圖1 動(dòng)作識(shí)別過(guò)程
針對(duì)不同形式的骨架圖,文中選擇了18 個(gè)關(guān)節(jié)點(diǎn)的骨架圖。首先針對(duì)解決單幀圖片識(shí)別問(wèn)題,研究深度神經(jīng)網(wǎng)絡(luò)。定義卷積核大小為K×K,輸入特征圖為fin,則空間位置x處的二維圖像卷積公式可表示為[5]:

其中,p是采樣函數(shù),W是權(quán)重函數(shù)。定義節(jié)點(diǎn)的鄰域,將T幀上的節(jié)點(diǎn)vti的鄰域定義為B(vti)={vtj∣d(vti,vtj)≤D,t=τ},其中d(vti,vtj)表示vtj~vti的最短路徑[6]。
人體骨骼圖結(jié)構(gòu)每個(gè)節(jié)點(diǎn)的權(quán)重函數(shù)可寫(xiě)為[7]:

每個(gè)分類(lèi)的子集包含多個(gè)圖結(jié)構(gòu)節(jié)點(diǎn)。為了避免某個(gè)節(jié)點(diǎn)對(duì)整體評(píng)估的影響較大,將卷積公式中的所有節(jié)點(diǎn)歸一化處理,并加入轉(zhuǎn)換后的采樣函數(shù),可得[8]:

在單幀識(shí)別的基礎(chǔ)上,聯(lián)合變更的時(shí)間特征,以得出對(duì)視頻流的人體姿態(tài)識(shí)別。該文基于時(shí)間卷積網(wǎng)絡(luò),在傳統(tǒng)卷積的基礎(chǔ)上實(shí)現(xiàn)時(shí)間卷積,如圖2 所示。

圖2 時(shí)間卷積網(wǎng)絡(luò)架構(gòu)
在時(shí)間卷積中,可將內(nèi)核視為列向量,并將時(shí)間核大小和步幅均假定為1 。再對(duì)時(shí)間核關(guān)鍵幀進(jìn)行卷積運(yùn)算,然后移回1 幀,從而完成1 個(gè)節(jié)點(diǎn)的運(yùn)算,隨后卷積下一個(gè)節(jié)點(diǎn)。
在建立人體姿態(tài)識(shí)別網(wǎng)絡(luò)的基礎(chǔ)上,為保證對(duì)電廠內(nèi)部各個(gè)區(qū)域的無(wú)死角監(jiān)督,需要設(shè)計(jì)傳感器網(wǎng)絡(luò)。文中使用無(wú)線通信系統(tǒng),該系統(tǒng)的k個(gè)客戶(hù)端由可充電的無(wú)線發(fā)射器提供服務(wù),如圖3 所示。為保證傳感器網(wǎng)絡(luò)在功耗控制、識(shí)別能力、通信質(zhì)量等約束下的工作狀態(tài)[9],分別對(duì)傳感器網(wǎng)絡(luò)的無(wú)線信道[10]、能源管理模塊[11]與視頻傳輸模塊[12]進(jìn)行研究。
圖3 給出了發(fā)射機(jī)與k個(gè)用戶(hù)之間的無(wú)線信道傳輸模型[13]。由于采用了TDMA 機(jī)制,視頻以時(shí)間間隙的方式發(fā)送給k個(gè)用戶(hù)。在時(shí)隙n中,傳輸給用戶(hù)k的數(shù)據(jù)應(yīng)滿(mǎn)足以下關(guān)系:

圖3 傳感器網(wǎng)絡(luò)結(jié)構(gòu)

其中,tk,n和No表示用戶(hù)k的傳輸時(shí)間與加性高斯白噪聲的功率。此外,由于時(shí)隙的持續(xù)時(shí)間約束,因此有是第n個(gè)時(shí)隙的發(fā)射功率。
如圖3 所示,能量從環(huán)境中收集并存儲(chǔ)在最大容量為Bmax的充電電池中[14]。令和分別代表在時(shí)隙n期間由視頻傳輸消耗與收集的能量,存儲(chǔ)在電池中的能量更新公式可寫(xiě)為:

由決策設(shè)備確定的傳輸功率允許跨時(shí)隙變化,但在傳輸過(guò)程中保持恒定,用于視頻傳輸?shù)哪芰繛椋?/p>

其中,表示發(fā)射功率。在無(wú)線通信系統(tǒng)中,若能量耗盡,則無(wú)法傳輸任何視頻,從而造成播放中斷。為了避免回放中斷,必須在發(fā)送器處保留一定量的備用能量。

由于更高的視頻質(zhì)量需要更多的視頻層,因此在未有任何能量預(yù)留的情況下,這可能會(huì)耗盡電池電量。一旦電池能量耗盡,視頻數(shù)據(jù)包將被丟棄,最終導(dǎo)致視頻傳輸質(zhì)量嚴(yán)重下降。因此在實(shí)際系統(tǒng)中,應(yīng)用式(7)約束來(lái)實(shí)現(xiàn)可持續(xù)的視頻傳輸。
為獲得傳感器網(wǎng)絡(luò)中最佳視頻質(zhì)量,定義多用戶(hù)通信系統(tǒng)中所有用戶(hù)視頻質(zhì)量的對(duì)數(shù)和[15],如下式所示:

其中,PSNRk,n(峰值信噪比)表示在第n個(gè)時(shí)隙內(nèi)與傳輸視頻層有關(guān)的用戶(hù)k的接收視頻質(zhì)量[16]。在上式的基礎(chǔ)上,提出了受回放平滑度和能量耗散約束的優(yōu)化問(wèn)題。在第n個(gè)時(shí)間間隔,發(fā)射機(jī)的決策設(shè)備向用戶(hù)發(fā)送Xn=(x1,n,…,xk,n,…,xK,n)視頻層,其中xk,n∈X?{0,…,L}和xk,n=0 表示沒(méi)有視頻層傳輸給用戶(hù)k。為了實(shí)現(xiàn)低延遲視頻傳輸,丟棄的視頻層將不會(huì)被重傳。若系統(tǒng)沒(méi)有足夠的能量,則會(huì)丟棄傳輸基本層,導(dǎo)致在整個(gè)時(shí)間間隔與所有用戶(hù)的傳輸中斷,嚴(yán)重降低神經(jīng)網(wǎng)絡(luò)的輸入效率。因此,引入公式(7)約束,以保證電池的能量?jī)?chǔ)備。令表示瞬時(shí)發(fā)射功率為時(shí),用戶(hù)k在接收到xk,n個(gè)視頻層時(shí)的接收效果。在此基礎(chǔ)上,建立效用函數(shù)的時(shí)間平均總視頻質(zhì)量為:

該文首先對(duì)神經(jīng)網(wǎng)絡(luò)動(dòng)作識(shí)別的準(zhǔn)確性進(jìn)行驗(yàn)證,根據(jù)對(duì)原始數(shù)據(jù)集進(jìn)行重建以驗(yàn)證模型的推測(cè)結(jié)果,并分析該方法模型的潛力與不足。
文中使用公開(kāi)數(shù)據(jù)集UCF-101,其涵蓋101 種動(dòng)作。初步篩選得到20 類(lèi)包含人體運(yùn)動(dòng)的長(zhǎng)視頻,將20 組長(zhǎng)視頻分為6 組。經(jīng)過(guò)篩選的數(shù)據(jù)集中共包含12 100 個(gè)視頻,視頻像素值為76 800。其中,將9 537 個(gè)視頻用作訓(xùn)練集,將2 563 個(gè)視頻用作驗(yàn)證集。UCF-101 在運(yùn)動(dòng)采集方面具有較強(qiáng)的多樣性,包括相機(jī)移動(dòng)、人體外觀與姿態(tài)變化、物體比例變化、背景變化等,具有較優(yōu)的驗(yàn)證價(jià)值。
為滿(mǎn)足行為識(shí)別的需要,需對(duì)原視頻數(shù)據(jù)集進(jìn)行標(biāo)注處理。使用(3,T,18,2) 的橫向向量來(lái)表示T幀的視頻,如圖4 所示。在獲取人體骨骼時(shí),可能會(huì)遇到視頻分辨率低且不穩(wěn)定、人體骨骼信息被大范圍遮擋等現(xiàn)象,因此可能導(dǎo)致該算法對(duì)目標(biāo)的檢測(cè)效果不理想。為了避免影響訓(xùn)練效果,刪除了250幀內(nèi)未檢測(cè)到骨架信息的視頻。

圖4 視頻標(biāo)注示意圖
測(cè)試驗(yàn)證集實(shí)驗(yàn)結(jié)果如表1 所示。與其他網(wǎng)絡(luò)相比,該方法在UCF-101 數(shù)據(jù)集上獲得了第一位的準(zhǔn)確率89.53%和第五位的準(zhǔn)確率94.58%。此外由實(shí)驗(yàn)結(jié)果可知,由于目標(biāo)遮擋與視頻分辨率低,OpenPose 對(duì)于部分UCF-101 數(shù)據(jù)集視頻的骨架提取并不理想。

表1 測(cè)試驗(yàn)證集實(shí)驗(yàn)結(jié)果
為改善上述現(xiàn)象,從UCF-101 數(shù)據(jù)集中人為地提取了31 種動(dòng)作視頻,組成UCF-31 數(shù)據(jù)集,這些視頻具有更清晰的動(dòng)作、更少的抖動(dòng)和更明顯的人體。使用隨機(jī)樣本測(cè)試可知,OpenPose 在UCF-31上提取的骨架圖準(zhǔn)確性得到了提高。為進(jìn)一步保證實(shí)際應(yīng)用中該算法的魯棒性,引入第2 節(jié)的傳感器網(wǎng)絡(luò)進(jìn)行驗(yàn)證實(shí)驗(yàn)。
為進(jìn)行實(shí)驗(yàn),將信道帶寬W設(shè)置為2 MHz,時(shí)隙d的長(zhǎng)度設(shè)置為1∕3 s,噪聲密度設(shè)置為N0=4×10-9W∕Hz。在傳感器網(wǎng)絡(luò)中,使用真實(shí)的H.264 編碼格式的視頻傳輸數(shù)據(jù),以評(píng)估算法的有效性。傳輸?shù)囊曨l跡線是Elephants Dream,視頻跡線的每個(gè)幀均由1 個(gè)基本層和6個(gè)增強(qiáng)層組成。表2為視頻序列的主要參數(shù)。

表2 視頻序列主要參數(shù)
使用傳感器網(wǎng)絡(luò)融合運(yùn)動(dòng)特征與深度學(xué)習(xí)的識(shí)別算法,對(duì)于電廠工作人員的各種不安全行為識(shí)別的實(shí)驗(yàn)結(jié)果如表3 所示。

表3 不安全行為識(shí)別結(jié)果
分析表3 可看出,使用多傳感器網(wǎng)絡(luò)的不安全行為識(shí)別結(jié)果成功率相對(duì)于單端識(shí)別有所提高;而針對(duì)不安全位置、摔倒受傷等工作人員行為的識(shí)別率較高;由于視頻分辨率的限制,對(duì)于工作人員是否佩戴護(hù)具以及吸煙等行為的識(shí)別準(zhǔn)確率略低。但總體而言,基于多傳感器的融合運(yùn)動(dòng)特征與深度學(xué)習(xí)的算法,對(duì)于電廠人員各類(lèi)不安全行為的識(shí)別準(zhǔn)確率能達(dá)到90%。
該文采用基于骨架的神經(jīng)網(wǎng)絡(luò)進(jìn)行動(dòng)作識(shí)別,并采用數(shù)據(jù)集與真實(shí)環(huán)境數(shù)據(jù)分別測(cè)試算法的有效性。盡管單一端口行為識(shí)別方法的準(zhǔn)確性受到分辨率、畫(huà)面遮擋的限制,但在搭配多傳感器網(wǎng)絡(luò)的算法平臺(tái)上其的識(shí)別效果能得到進(jìn)一步的提升。而對(duì)于如何提高多傳感器網(wǎng)絡(luò)的帶寬、降低丟包率,引入記憶參數(shù)改善識(shí)別算法的魯棒性,將是未來(lái)研究的重點(diǎn)。