







摘" 要:該文設(shè)計(jì)一種基于卷積神經(jīng)網(wǎng)絡(luò)的攝像機(jī)姿態(tài)感知系統(tǒng),運(yùn)用深度學(xué)習(xí)方法結(jié)合傳感器技術(shù),獲取攝像機(jī)實(shí)時(shí)姿態(tài)數(shù)據(jù),特別是攝像機(jī)運(yùn)動(dòng)過程中的姿態(tài)數(shù)據(jù)。系統(tǒng)采用孿生卷積神經(jīng)網(wǎng)絡(luò),通過攝像機(jī)采集的環(huán)境圖像對孿生卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練獲得攝像機(jī)姿態(tài)感知模型,在使用時(shí)通過將攝像機(jī)采集的視頻圖像輸入攝像機(jī)姿態(tài)感知模型獲得攝像機(jī)的位姿數(shù)據(jù)。系統(tǒng)解決可轉(zhuǎn)動(dòng)式攝像機(jī)的實(shí)時(shí)姿態(tài)感知問題,可在公共安全、工廠、交通和礦山等領(lǐng)域廣泛推廣應(yīng)用。
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);深度學(xué)習(xí);攝像機(jī);姿態(tài)感知;公共安全
中圖分類號(hào):TP391.9" " " 文獻(xiàn)標(biāo)志碼:A" " " " " 文章編號(hào):2095-2945(2023)25-0119-04
Abstract: This paper designs a camera posture perception system based on convolution neural network. Using deep learning method and sensor technology, real-time camera posture data, especially during camera motion, is obtained. The system uses Siamese convolution neural network to train the twin convolution neural network through the environment image collected by the camera to get the camera posture perception model. When using the system, the camera posture data is obtained by inputting the video image collected by the camera into the camera posture perception model. The system solves the real-time posture perception problem of rotatable cameras and can be widely used in public safety, factories, transportation, mining and other fields.
Keywords: convolution neural network; deep learning; camera; posture perception; public safety
隨著監(jiān)控設(shè)備在日常生活中的不斷普及和應(yīng)用,攝像機(jī)在公共安全、工廠、交通和礦山等領(lǐng)域發(fā)揮著重要作用。監(jiān)控?cái)z像機(jī)包括固定式和可轉(zhuǎn)動(dòng)式兩種形式,固定式攝像機(jī)的水平角度和俯仰角度鎖定,所以監(jiān)控范圍小,只能獲取固定視野范圍內(nèi)的圖像信息;帶有云臺(tái)的可轉(zhuǎn)動(dòng)式攝像機(jī)(包括槍機(jī)、球機(jī)等)可以大大提高監(jiān)控范圍,然而由于云臺(tái)采用基于RS485總線或LAN網(wǎng)絡(luò)通信的單向開環(huán)控制方式,監(jiān)控中心可人工或通過系統(tǒng)自動(dòng)控制云臺(tái)轉(zhuǎn)動(dòng),但無法獲得監(jiān)控?cái)z像機(jī)的實(shí)時(shí)角度,即使采用特殊的具有閉環(huán)控制的云臺(tái),當(dāng)攝像機(jī)被現(xiàn)場工作人員強(qiáng)制手動(dòng)轉(zhuǎn)動(dòng)或受其他外力作用改變角度時(shí),監(jiān)控中心同樣無法獲得監(jiān)控?cái)z像機(jī)準(zhǔn)確的實(shí)時(shí)角度,因此監(jiān)控中心就無法準(zhǔn)確判定所采集圖像的監(jiān)控區(qū)域。現(xiàn)有公共交通道路監(jiān)控的圖像識(shí)別技術(shù)已經(jīng)成熟,包括違章車輛車牌識(shí)別和位置識(shí)別技術(shù)等,然而這些技術(shù)均是基于固定攝像機(jī)的應(yīng)用,對于可轉(zhuǎn)動(dòng)攝像機(jī),由于無法確定攝像機(jī)的姿態(tài)及攝像機(jī)的拍攝區(qū)域,因此無法對監(jiān)控目標(biāo)進(jìn)行位置識(shí)別,限制了可轉(zhuǎn)動(dòng)攝像機(jī)的功能擴(kuò)展,嚴(yán)重制約著監(jiān)控技術(shù)的發(fā)展與應(yīng)用。所以,急切需要研究開發(fā)可對轉(zhuǎn)動(dòng)式攝像機(jī)實(shí)時(shí)姿態(tài)感知的方法與系統(tǒng)。
磁力傳感器可獲取靜態(tài)絕對方向數(shù)據(jù),將其安裝到攝像機(jī)上,可以獲取攝像機(jī)的靜態(tài)絕對位姿,但磁力傳感器數(shù)據(jù)更新較慢,在沒有其他輔助傳感器的支持下,無法準(zhǔn)確獲取動(dòng)態(tài)方向數(shù)據(jù)。為獲得攝像機(jī)動(dòng)態(tài)的實(shí)時(shí)位姿數(shù)據(jù),本文作者研究了基于孿生卷積神經(jīng)網(wǎng)絡(luò)模型的識(shí)別方法,通過識(shí)別圖像變化可以獲得攝像機(jī)的動(dòng)態(tài)相對姿態(tài)變化,但此方法仍存在累積誤差的缺點(diǎn),如果長時(shí)間不進(jìn)行校準(zhǔn),累積誤差將越來越大。為進(jìn)一步解決這一問題,本文設(shè)計(jì)了一種基于深度學(xué)習(xí)的攝像機(jī)姿態(tài)感知系統(tǒng),采用磁力傳感器獲取攝像機(jī)的絕對方向與姿態(tài),通過孿生卷積神經(jīng)網(wǎng)絡(luò)模型獲取攝像機(jī)動(dòng)態(tài)相對位姿變化,結(jié)合攝像機(jī)運(yùn)動(dòng)前的初始絕對姿態(tài)數(shù)據(jù),進(jìn)而得到攝像機(jī)動(dòng)態(tài)條件下的實(shí)時(shí)絕對姿態(tài)數(shù)據(jù)。當(dāng)攝像機(jī)靜止時(shí),及時(shí)根據(jù)磁力數(shù)據(jù)更新攝像機(jī)絕對姿態(tài)數(shù)據(jù),避免累積誤差。所述基于深度學(xué)習(xí)的攝像機(jī)姿態(tài)感知系統(tǒng),既發(fā)揮了磁力傳感器在獲取靜態(tài)絕對方向數(shù)據(jù)方面的優(yōu)點(diǎn),又發(fā)揮了孿生卷積神經(jīng)網(wǎng)絡(luò)模型在圖像變化識(shí)別方面的優(yōu)勢,并克服和解決了累積誤差問題。該系統(tǒng)具有實(shí)時(shí)性強(qiáng)、數(shù)據(jù)準(zhǔn)確、易于安裝實(shí)施的特點(diǎn),系統(tǒng)的應(yīng)用可將位置識(shí)別技術(shù)的應(yīng)用范圍從單一的固定攝像機(jī)擴(kuò)展到可轉(zhuǎn)動(dòng)攝像機(jī),極大地?cái)U(kuò)展了監(jiān)控區(qū)域,在動(dòng)態(tài)目標(biāo)跟蹤監(jiān)控和圖像定位領(lǐng)域有著廣泛的應(yīng)用前景。
1" 總體設(shè)計(jì)
基于卷積神經(jīng)網(wǎng)絡(luò)的攝像機(jī)姿態(tài)感知系統(tǒng)主要包括:攝像機(jī)、云臺(tái)、磁力傳感器、數(shù)據(jù)處理單元、輔助電路和通信單元。
系統(tǒng)實(shí)施方案1總體功能結(jié)構(gòu)如圖1所示。
磁力傳感器:用于獲取攝像機(jī)靜態(tài)磁力數(shù)據(jù),與攝像機(jī)主體剛性連接安裝,可采用GY-511 LSM303DLHC磁力傳感器模塊,通過I2C通信接口連接數(shù)據(jù)處理單元,將磁力數(shù)據(jù)傳輸發(fā)送給數(shù)據(jù)處理單元。
數(shù)據(jù)處理單元:負(fù)責(zé)磁力數(shù)據(jù)和視頻圖像數(shù)據(jù)接收與處理,通過數(shù)據(jù)處理獲得攝像機(jī)的實(shí)時(shí)位姿數(shù)據(jù),將實(shí)時(shí)位姿數(shù)據(jù)以字幕形式加入視頻圖像,并將經(jīng)處理后視頻圖像和實(shí)時(shí)位姿數(shù)據(jù)通過通信單元傳輸給監(jiān)控控制中心。數(shù)據(jù)處理單元通過I2C通信接口連接磁力傳感器,通過USB直接連接數(shù)字?jǐn)z像機(jī),嵌入孿生神經(jīng)網(wǎng)絡(luò)模型。可采用英偉達(dá)嵌入式GPU的 Jetson nano模塊,搭載四核ARM A57處理器,12核MAXWELL GPU,4 G LPDDR內(nèi)存,可滿足本系統(tǒng)應(yīng)用所需的孿生卷積神經(jīng)網(wǎng)絡(luò)運(yùn)行計(jì)算能力。
攝像機(jī):負(fù)責(zé)采集環(huán)境視頻流格式的圖像,將采集的圖像通過通信接口發(fā)送給數(shù)據(jù)處理單元,在具體實(shí)施方式的示例中,采用USB通信接口與數(shù)據(jù)處理單元連接通信。如采用模擬攝像機(jī),則需在攝像機(jī)視頻輸出端口與數(shù)據(jù)處理單元的USB接口之間添加視頻采集卡,視頻采集卡可采用天創(chuàng)恒達(dá)U100pro。
云臺(tái):負(fù)責(zé)帶動(dòng)攝像機(jī)進(jìn)行轉(zhuǎn)動(dòng),使攝像機(jī)能夠采集更大的圖像范圍,轉(zhuǎn)動(dòng)方向包括水平方向和垂直方向。標(biāo)準(zhǔn)云臺(tái)一般采用RS485總線接口接收控制指令,控制協(xié)議包括PELCO-D、PELCO-P等。在本實(shí)施示例中,云臺(tái)通過通信單元接收云臺(tái)控制數(shù)據(jù),通過內(nèi)置的LAN-RS485接口將通過網(wǎng)絡(luò)傳輸來的控制數(shù)據(jù)轉(zhuǎn)換成RS485數(shù)據(jù),進(jìn)而實(shí)現(xiàn)云臺(tái)轉(zhuǎn)動(dòng)控制。
通信單元:負(fù)責(zé)視頻圖像數(shù)據(jù)、攝像機(jī)姿態(tài)數(shù)據(jù)的發(fā)送,以及攝像機(jī)設(shè)置數(shù)據(jù)、云臺(tái)控制數(shù)據(jù)的接收。采用有線網(wǎng)絡(luò)通信接口,也可包括但不限于采用Wifi、藍(lán)牙、2G、3G、4G和5G移動(dòng)通信等無線通信接口,以及工業(yè)現(xiàn)場總線等有線通信接口。通信單元的傳輸速率應(yīng)滿足視頻傳輸要求。
輔助電路:負(fù)責(zé)為磁力傳感器、數(shù)據(jù)處理單元、攝像機(jī)、云臺(tái)和通信單元分別提供所需電源,如采用直流供電,可直接采用多個(gè)AMS1117系列穩(wěn)壓器芯片實(shí)現(xiàn)DC/DC轉(zhuǎn)換。如果采用交流供電,還需在DC/DC前端增加AC/DC轉(zhuǎn)換模塊,進(jìn)行交/直流轉(zhuǎn)換。
系統(tǒng)實(shí)施方案2總體功能結(jié)構(gòu)如圖2所示,實(shí)施方案2與實(shí)施方案1組成基本相同,區(qū)別在于用通用性更強(qiáng)的網(wǎng)絡(luò)攝像機(jī)(包括有線網(wǎng)絡(luò)或無線網(wǎng)絡(luò))替換USB接口攝像頭,網(wǎng)絡(luò)攝像機(jī)通過網(wǎng)絡(luò)接口和通信單元將視頻圖像數(shù)據(jù)傳輸給數(shù)據(jù)處理單元。為實(shí)現(xiàn)系統(tǒng)功能,保證數(shù)據(jù)傳輸速率,實(shí)施方案2的通信單元僅限使用支持網(wǎng)絡(luò)通信的設(shè)備。
2" 工作流程設(shè)計(jì)
2.1" 系統(tǒng)初始化
系統(tǒng)在使用前需要進(jìn)行初始化,具體步驟如圖3所示,包括以下內(nèi)容。
1)通過攝像機(jī)采集圖像M1。
2)通過磁力傳感器采集磁力數(shù)據(jù),處理磁力數(shù)據(jù)確定M1對應(yīng)的絕對位姿數(shù)據(jù)α1、β1;α1、β1分別為用歐拉角表示的水平旋轉(zhuǎn)角度和垂直旋轉(zhuǎn)角度。
3)云臺(tái)帶動(dòng)攝像機(jī)轉(zhuǎn)動(dòng),同步采集圖像Mi和磁力數(shù)據(jù),處理磁力數(shù)據(jù)得到Mi對應(yīng)的絕對位姿數(shù)據(jù)αi、βi;αi、βi分別為用歐拉角表示的水平旋轉(zhuǎn)角度和垂直旋轉(zhuǎn)角度。
4)存儲(chǔ)M1、α1、β1、Mi、αi、βi。
5)將α1、β1、αi和βi處理為用四元數(shù)表示的絕對位姿數(shù)據(jù)q1、qi,其中qi=si+xia+yib+zic。a,b,c分別表示四元數(shù)的虛數(shù)部分,si表示四元數(shù)的實(shí)數(shù)部分系數(shù),xi、yi、zi表示四元數(shù)虛數(shù)部分系數(shù),其計(jì)算公式為
si=coscos,xi=sincos,yi=cossin,zi=-sinsin。
6)判斷是否采集了設(shè)定數(shù)量的帶有位姿標(biāo)簽的數(shù)據(jù),如果是則執(zhí)行初始化過程步驟7),否則繼續(xù)執(zhí)行初始化過程步驟3)及其以下步驟。
7)數(shù)據(jù)預(yù)處理得到圖像對Mij和相對位姿數(shù)據(jù)qij。
8)存儲(chǔ)Mij和qij作為訓(xùn)練集。
9)數(shù)據(jù)處理單元加載孿生神經(jīng)網(wǎng)絡(luò)。
10)數(shù)據(jù)處理單元用步驟8)得到的訓(xùn)練集訓(xùn)練孿生神經(jīng)網(wǎng)絡(luò),獲得具有最優(yōu)網(wǎng)絡(luò)參數(shù)的孿生神經(jīng)網(wǎng)絡(luò)模型。
11)存儲(chǔ)孿生神經(jīng)網(wǎng)絡(luò)模型。
上述步驟7)為數(shù)據(jù)處理單元對攝像機(jī)所采集數(shù)據(jù)預(yù)處理,該預(yù)處理的具體流程如圖4所示,包括以下內(nèi)容。
1)采集圖像Mi,將Mi裁剪到設(shè)定的大小,裁剪方式為中心裁剪。
2)對Mi對應(yīng)的用歐拉角表示的絕對位姿數(shù)據(jù)αi和βi轉(zhuǎn)換為用四元數(shù)表示的絕對位姿數(shù)據(jù)qi=si+xia+yib+zic,其中a,b,c分別表示四元數(shù)的虛數(shù)部分,si表示四元數(shù)的實(shí)數(shù)部分系數(shù),xi、yi、zi表示四元數(shù)虛數(shù)部分系數(shù)。
3)間隔幀數(shù)n采集圖像Mj,將Mj裁剪到設(shè)定的大小。
4)對Mj對應(yīng)的用歐拉角表示的絕對位姿數(shù)據(jù)αj和βj轉(zhuǎn)換為用四元數(shù)表示的絕對位姿數(shù)據(jù)qj=sj+xja+yjb+zjc。
5)將Mi和Mj配對成圖像對Mij,并用四元數(shù)表示其相對位姿數(shù)據(jù)qij=qjqi-1,其中qi-1為Mi的絕對位姿數(shù)據(jù)qi的逆運(yùn)算
2.2" 系統(tǒng)工作流程
系統(tǒng)工作流程如圖5所示,步驟如下。
1)云臺(tái)受控帶動(dòng)攝像機(jī)進(jìn)行轉(zhuǎn)動(dòng),攝像機(jī)同步采集圖像。
2)數(shù)據(jù)處理單元獲取實(shí)時(shí)攝像機(jī)位姿數(shù)據(jù)。
3)數(shù)據(jù)處理單元將實(shí)時(shí)攝像機(jī)位姿數(shù)據(jù)以字幕形式加入視頻圖像中。
4)數(shù)據(jù)處理單元通過通信單元輸出帶有實(shí)時(shí)攝像機(jī)位姿數(shù)據(jù)字幕的視頻圖像,以及所述位姿的原始數(shù)據(jù)。
5)判斷攝像機(jī)是否轉(zhuǎn)動(dòng)完畢處于靜止?fàn)顟B(tài),如果是則執(zhí)行步驟6),否則返回步驟1)。
6)根據(jù)磁力數(shù)據(jù)更新攝像機(jī)絕對位姿數(shù)據(jù)。
2.3" 攝像機(jī)姿態(tài)感知流程
圖6為數(shù)據(jù)處理單元獲取實(shí)時(shí)攝像機(jī)絕對位姿數(shù)據(jù)流程示意圖,步驟如下。
1)采集攝像機(jī)采集初始圖像Ma,并裁剪Ma到設(shè)定大小。
2)采集終止圖像Mb,并裁剪Mb到設(shè)定大小。
3)將Ma和Mb配對成圖像對Mab。
4)將圖像對Mab送入孿生神經(jīng)網(wǎng)絡(luò)模型。
5)得到該圖像對的四元數(shù)表示的攝像機(jī)相對位姿數(shù)據(jù)qab。
6)將得到的qab轉(zhuǎn)換為歐拉角形式的攝像機(jī)相對位姿數(shù)據(jù)αab、βab;αab為歐拉角形式相對水平旋轉(zhuǎn)角度, βab為歐拉角形式相對垂直旋轉(zhuǎn)角度,其中qab=sab+xaba+yabb+zabc,其計(jì)算公式為
αab=arctan ,
βab=arcsin[2(sabyab-xabzab)]。
7)將攝像機(jī)相對位姿數(shù)據(jù)轉(zhuǎn)換為實(shí)時(shí)攝像機(jī)絕對位姿數(shù)據(jù)。
3" 結(jié)束語
本文設(shè)計(jì)了一種基于卷積神經(jīng)網(wǎng)絡(luò)的攝像機(jī)姿態(tài)感知系統(tǒng),運(yùn)用孿生卷積神經(jīng)網(wǎng)絡(luò)結(jié)合傳感器技術(shù),既發(fā)揮了磁力傳感器在獲取靜態(tài)絕對方向數(shù)據(jù)方面的優(yōu)點(diǎn),又發(fā)揮了孿生卷積神經(jīng)網(wǎng)絡(luò)模型在圖像變化識(shí)別方面的優(yōu)勢,克服和解決了長時(shí)間工作的位姿累積誤差問題,可獲取準(zhǔn)確的攝像機(jī)實(shí)時(shí)姿態(tài)數(shù)據(jù),特別是攝像機(jī)運(yùn)動(dòng)過程中的姿態(tài)數(shù)據(jù),解決了可轉(zhuǎn)動(dòng)式攝像機(jī)實(shí)時(shí)姿態(tài)感知問題,只需要視頻監(jiān)控中的圖像信息就可以獲取攝像機(jī)的實(shí)時(shí)姿態(tài)信息,為動(dòng)態(tài)目標(biāo)跟蹤監(jiān)控和圖像定位技術(shù)的發(fā)展與應(yīng)用提供有力的技術(shù)支撐。該系統(tǒng)具有實(shí)時(shí)性強(qiáng)、數(shù)據(jù)準(zhǔn)確、易于安裝實(shí)施的特點(diǎn),可在公共安全、工廠、交通和礦山等監(jiān)控領(lǐng)域廣泛推廣應(yīng)用。
參考文獻(xiàn):
[1] 孫繼平.煤礦安全生產(chǎn)監(jiān)控與通信技術(shù)[J].煤炭學(xué)報(bào),2010,35(11):1925-1929.
[2] 劉毅.基于三向加速度數(shù)據(jù)的井下移動(dòng)通信設(shè)備定位[J].工礦自動(dòng)化,2016,42(4):70-73.
[3] 孫志軍,薛磊,許陽明,等.深度學(xué)習(xí)研究綜述[J].計(jì)算機(jī)應(yīng)用研究,2012,29(8):2806-2810.
[3] 許賀.基于3D模型和深度學(xué)習(xí)的井下視覺方位感知方法研究[D].北京:中國礦業(yè)大學(xué)(北京),2021.
[4] 高翔,張濤,等.視覺SLAM十四講:從理論到實(shí)踐[M].北京:電子工業(yè)出版社,2019.
[5] CHOPRA S,HADSELL R,LECUN Y. Learning a similarity metric discriminatively, with application to face verification[C]// 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05).IEEE,2005.
[6] LASKAR Z,MELEKHOV I,KALIA S,et al. Camera Relocalization by Computing Pairwise Relative Poses Using Convolutional Neural Network [C]// 2017 IEEE International Conference on Computer Vision Workshop (ICCVW). IEEE, 2017.
[7] 岡薩雷斯,伍茲.數(shù)字圖像處理(英文版)[M].北京:電子工業(yè)出版社,2010.