何 敏,回丙偉,易夢妮,胡衛(wèi)東
〈圖像處理與仿真〉
基于目標(biāo)增強(qiáng)和視覺跟蹤的紅外運動點目標(biāo)半自動標(biāo)注算法
何 敏,回丙偉,易夢妮,胡衛(wèi)東
(國防科技大學(xué) 電子科學(xué)學(xué)院ATR重點實驗室,湖南 長沙 410073)
本文針對紅外視頻數(shù)據(jù)標(biāo)注效率低、標(biāo)注質(zhì)量差等問題,提出了一種基于目標(biāo)增強(qiáng)和視覺跟蹤的紅外序列圖像中運動點目標(biāo)半自動標(biāo)注方法。首先對一段連續(xù)時間內(nèi)的紅外序列圖像進(jìn)行配準(zhǔn)和背景對消以增強(qiáng)目標(biāo)特征;然后使用視覺跟蹤算法對增強(qiáng)后的特征進(jìn)行高效自動定位;最后通過相位譜重構(gòu)得到單幀圖像的目標(biāo)顯著圖,進(jìn)而確定目標(biāo)的準(zhǔn)確坐標(biāo);在自動標(biāo)注過程中,利用相鄰幀標(biāo)注結(jié)果的差異性選擇關(guān)鍵幀,可以讓標(biāo)注人員快速定位可能發(fā)生錯誤的圖像幀并對其進(jìn)行手動標(biāo)注。實驗結(jié)果表明該算法可以顯著降低標(biāo)注人員的參與度,有效解決數(shù)據(jù)標(biāo)注作業(yè)中周期長、質(zhì)量難以保證的問題。
半自動標(biāo)注;紅外點目標(biāo);視覺跟蹤;序列圖像
2009年受益于大規(guī)模標(biāo)注數(shù)據(jù)集的出現(xiàn),人工智能技術(shù)取得了跨越式發(fā)展。隨后數(shù)據(jù)標(biāo)注作為一項基礎(chǔ)性工作也逐漸得到重視。數(shù)據(jù)標(biāo)注是指在數(shù)據(jù)加工階段利用標(biāo)注工具將數(shù)據(jù)中被機(jī)器用以學(xué)習(xí)和認(rèn)知特征的部分加上標(biāo)簽的過程。大數(shù)據(jù)時代下,數(shù)據(jù)標(biāo)注是一項龐大的工程,而視頻標(biāo)注一直是大數(shù)據(jù)標(biāo)注領(lǐng)域的難點。此類數(shù)據(jù)具有體量大、處理困難的特點。隨著技術(shù)的發(fā)展,基于人機(jī)協(xié)同的視頻半自動標(biāo)注算法研究逐漸增多。而現(xiàn)階段的視頻半自動標(biāo)注算法多數(shù)是針對可見光圖像中的擴(kuò)展目標(biāo)進(jìn)行研究的,對紅外點目標(biāo)的半自動標(biāo)注研究甚少。而紅外運動點目標(biāo)檢測識別作為紅外成像探測系統(tǒng)的關(guān)鍵技術(shù)之一,一直是研究的重難點問題,特別是現(xiàn)代智能目標(biāo)識別技術(shù)的發(fā)展,對紅外目標(biāo)數(shù)據(jù)集的標(biāo)注效率及標(biāo)注質(zhì)量提出了更高的要求。
視頻與單張圖像相比,多了時間上下文信息且相鄰幀之間存在大量冗余信息,因此采用交互式跟蹤的方法對其進(jìn)行快速標(biāo)注已成為視頻標(biāo)注的主流手段。早期的視頻標(biāo)注算法[1-2]大多通過對兩幀人工標(biāo)注的視頻幀之間進(jìn)行坐標(biāo)插值來加速工作,之后出現(xiàn)了基于幾何建模[3]的方法對視頻進(jìn)行半自動標(biāo)注。此類方法假設(shè)目標(biāo)在兩個手工標(biāo)注的圖像幀之間為勻速運動,對剩余幀目標(biāo)位置進(jìn)行預(yù)測,無需使用目標(biāo)的視覺信息,對于模糊圖像或者包含遮擋目標(biāo)的圖像更具有魯棒性,但是標(biāo)注質(zhì)量受人工標(biāo)注頻率影響較大,如果需要獲得較高的標(biāo)注質(zhì)量,標(biāo)注人員需要密集介入標(biāo)注過程。當(dāng)標(biāo)注人員的參與程度較低時標(biāo)注結(jié)果將不可避免地產(chǎn)生誤差,這種誤差對于擴(kuò)展目標(biāo)而言有時是可接受的,但是對于成像面積只有一兩個像素大小的紅外運動點目標(biāo)而言影響非常大。
另一類使用視覺信息的標(biāo)注算法[4-8],利用標(biāo)注人員給出的初始信息對目標(biāo)進(jìn)行交互式視覺目標(biāo)跟蹤進(jìn)行標(biāo)注。視覺目標(biāo)跟蹤是指在當(dāng)前幀中給出目標(biāo)的位置信息,然后通過目標(biāo)的顏色、形狀等外觀信息,在后續(xù)幀中對目標(biāo)進(jìn)行持續(xù)跟蹤的過程。其中,影響較大的算法為Carl Vondrick[4]等人提出的通過在每次標(biāo)注人員提供一個標(biāo)注信息后求解一個動態(tài)規(guī)劃問題并對剩余幀進(jìn)行標(biāo)注。Bakliwal[9]等人利用多個算法對同一目標(biāo)進(jìn)行視覺跟蹤并融合其跟蹤結(jié)果得到更為精確的標(biāo)注信息。此類方法需要目標(biāo)的外觀信息,當(dāng)目標(biāo)不發(fā)生遮擋或形變時可以依靠少量的手工標(biāo)注信息得到較好的標(biāo)注質(zhì)量。但是,紅外弱小目標(biāo)本身并不具備紋理、形狀、顏色等特征,直接使用此類跟蹤算法無法獲得理想的標(biāo)注效果。
同時,有研究人員[4]發(fā)現(xiàn)如果由標(biāo)注人員自己選擇一段視頻中需要標(biāo)注的幀,不僅要耗費標(biāo)注人員大量的精力,而且還會降低標(biāo)注速度。這些需要人標(biāo)注的幀稱為關(guān)鍵幀,一些工作探尋了如何選取關(guān)鍵幀的問題。如Curve-VOT[10]利用多邊形擬合的方式擬合跟蹤軌跡,將最靠近頂點的幀作為關(guān)鍵幀。文獻(xiàn)[5,11]采用最大模型改變期望策略選擇關(guān)鍵幀。這些方法都試圖找出標(biāo)注最有可能發(fā)生錯誤的幀并交予標(biāo)注人員進(jìn)行標(biāo)注。
通過上述分析,本文結(jié)合紅外視頻點目標(biāo)數(shù)據(jù)開展高效的半自動標(biāo)注方法研究。主要工作如下:
①針對純手工標(biāo)注效率低下的問題,本文利用人機(jī)協(xié)同的方法對紅外運動點目標(biāo)進(jìn)行高效的半自動標(biāo)注。
②針對紅外點目標(biāo)自動定位難的問題,本文綜合運用視覺跟蹤算法和相位譜重構(gòu)技術(shù)實現(xiàn)了由粗到精的點目標(biāo)坐標(biāo)自動定位。
③針對點目標(biāo)標(biāo)注提出了一種關(guān)鍵幀選擇策略,自動返回關(guān)鍵幀給標(biāo)注人員進(jìn)行校驗,不需要標(biāo)注人員全程參與整個跟蹤過程。
本文設(shè)計了基于目標(biāo)增強(qiáng)和視覺跟蹤的半自動標(biāo)注算法,當(dāng)紅外序列圖像輸入時,首先利用圖像配準(zhǔn)算法對紅外序列圖像進(jìn)行對齊及背景對消來增強(qiáng)紅外點目標(biāo)的特征,標(biāo)注人員對增強(qiáng)之后的首幀目標(biāo)特征進(jìn)行標(biāo)注,標(biāo)注形式為矩形框,然后利用目標(biāo)跟蹤算法對增強(qiáng)之后的目標(biāo)進(jìn)行粗定位,接著利用跟蹤框和相位譜重構(gòu)對目標(biāo)得到目標(biāo)準(zhǔn)確的位置,同時選取發(fā)生錯誤概率較大的關(guān)鍵幀交予標(biāo)注人員進(jìn)行標(biāo)注,從而實現(xiàn)人機(jī)協(xié)同下的紅外運動點目標(biāo)高效半自動標(biāo)注。具體流程圖如圖1所示。

圖1 半自動標(biāo)注流程
紅外點目標(biāo)特征少,且紅外探測系統(tǒng)一般用于較為復(fù)雜的環(huán)境中,圖像背景會出現(xiàn)與目標(biāo)相似的干擾噪聲,直接使用視覺跟蹤算法無法對點目標(biāo)進(jìn)行持續(xù)且準(zhǔn)確的跟蹤,因此利用多幀圖像累積點目標(biāo)的運動信息,然后使用差分消除圖像序列的背景信息,突出目標(biāo)的運動區(qū)域,減少背景的干擾。
通過點目標(biāo)的運動信息對其進(jìn)行增強(qiáng),具體操作分為兩步:①對序列圖像進(jìn)行配準(zhǔn),如圖2所示,將2+1張圖像利用配準(zhǔn)算法對圖像序列進(jìn)行對齊,其中以第+1張圖像為基準(zhǔn)圖像;②在對應(yīng)位置取2+1張圖像的最大值、平均值并對其進(jìn)行差分,具體公式如下:



式中:A(,)表示配準(zhǔn)后的第張圖像(,)位置上的像素值;max(,)表示配準(zhǔn)后的2+1張圖像在(,)位置上取最大值;avg(,)表示配準(zhǔn)后的2+1張圖像在(,)位置上取平均值,圖像為所求的目標(biāo)增強(qiáng)圖。
圖3為增強(qiáng)之后的效果對比圖,由圖可知增強(qiáng)之后的圖像,不僅消除了部分背景噪聲,目標(biāo)區(qū)域的能量強(qiáng)度也被增強(qiáng),具有較強(qiáng)的辨識度,因此在增強(qiáng)圖上對紅外點目標(biāo)的位置進(jìn)行初步定位。

圖2 序列圖像配準(zhǔn)

圖3 增強(qiáng)效果對比:(a) 原圖;(b) 增強(qiáng)圖
序列圖像相比于單張圖像多了時間上下文信息,且相鄰的圖像幀之間存在很強(qiáng)的相關(guān)性,因此可以使用視覺跟蹤算法實現(xiàn)對目標(biāo)的快速定位。為了兼顧算法的效率和準(zhǔn)確率,本文選用的跟蹤算法為核相關(guān)濾波算法(kernel correlation filter,KCF)[12]。
1.3.1 KCF目標(biāo)跟蹤
KCF則是將跟蹤轉(zhuǎn)化為脊回歸的問題,然后通過基樣本循環(huán)移位得到訓(xùn)練樣本,接著利用循環(huán)矩陣可被傅里葉矩陣對角化的特點,將計算過程轉(zhuǎn)化到頻域進(jìn)行求解,最后使用核技巧將低維線性不可分的特征映射到高維空間求出回歸器的權(quán)值參數(shù),并使用回歸器得到下一幀圖像的輸出響應(yīng)圖(),響應(yīng)最大處為預(yù)測的目標(biāo)位置。其中脊回歸器的權(quán)值通過式(4)得到:



然后利用訓(xùn)練得到的濾波器尋找相關(guān)響應(yīng)值最大的圖像位置:

在跟蹤過程中只需對參數(shù)進(jìn)行更新,更新公式如下:

式中:n為式(4)得到的權(quán)值;n-1是上一幀的權(quán)值,然后根據(jù)預(yù)設(shè)的步長1進(jìn)行更新。
1.3.2 基于跟蹤置信度的模板更新
原始的KCF每幀都會進(jìn)行更新,但是增強(qiáng)之后的紅外目標(biāo)特征只包含輻射信息,當(dāng)目標(biāo)輻射微弱且運動不明顯時,很容易受到目標(biāo)背景的強(qiáng)噪聲影響,導(dǎo)致跟蹤器跟錯、跟丟目標(biāo)。為了減輕背景強(qiáng)噪聲對整個過程的影響,本文使用文獻(xiàn)[13]提出的跟蹤置信度pce對跟蹤模板有選擇的進(jìn)行更新。pce計算公式如下:

式中:max、min、F,h分別表示輸出響應(yīng)圖()的最大響應(yīng),最小響應(yīng)和(,)位置上的響應(yīng)。在對紅外弱小目標(biāo)增強(qiáng)數(shù)據(jù)集進(jìn)行跟蹤時,檢測區(qū)域很容易出現(xiàn)相似物干擾,因此輸出響應(yīng)圖將會呈現(xiàn)多個峰值,且峰值最高的位置很可能為背景噪聲,如果此時跟蹤器進(jìn)行更新則很容易跟錯目標(biāo),因此使用pce判斷輸出響應(yīng)圖的震蕩程度,pce越大代表輸出響應(yīng)圖的震蕩越小,跟蹤置信度越高,此步驟能有效提高KCF跟蹤在增強(qiáng)數(shù)據(jù)集上的成功。模板更新條件如下:

為了得到目標(biāo)準(zhǔn)確的點標(biāo)注,需利用1.3節(jié)得到的跟蹤框和原圖(,),得到目標(biāo)的準(zhǔn)確位置(x,y)。步驟如圖4所示。

圖4 紅外點目標(biāo)的精確定位
因為跟蹤框內(nèi)可能會出現(xiàn)連續(xù)的高亮的背景噪聲,因此本文利用紅外弱小目標(biāo)所在位置存在區(qū)域突變這一特性對其進(jìn)行精準(zhǔn)定位。使用相位譜重構(gòu)的方法對原圖進(jìn)行處理,對圖像進(jìn)行傅里葉變換可以得到如下兩個部分:


式中:(,)表示圖像的幅度譜;(,)表示圖像的相位譜;FFT表示圖像的傅里葉變換。之后對圖像相位譜進(jìn)行重構(gòu),如下式:
*(,)=IFFT[(,)] (12)
式中:*(,)為所求的注意力圖,IFFT為圖像的傅里葉反變換。直接對相位譜進(jìn)行重構(gòu)相當(dāng)于在對圖像重構(gòu)時將初相不同的平面波幅度置1,而自然圖像的能量集中于低頻,此步驟相當(dāng)于濾除低頻噪聲,突出高頻目標(biāo),從而消除連續(xù)的高亮背景噪聲,得到目標(biāo)準(zhǔn)確位置(p,p)。
視頻圖像標(biāo)注中需要由人標(biāo)注或檢驗的圖像幀稱為關(guān)鍵幀,它為一段圖像序列中具有代表性或包含較大信息量的圖像幀。本文將具有較大錯誤概率的幀作為關(guān)鍵幀自動返回給標(biāo)注人員進(jìn)行校驗,利用最小的代價提高數(shù)據(jù)集的標(biāo)注質(zhì)量。
通過實驗發(fā)現(xiàn),最有可能發(fā)生標(biāo)注錯誤的情況有兩種,一是由于某些原因,目標(biāo)在序列圖像的運動突然發(fā)生不連續(xù)的情況,二是目標(biāo)長時間靜止,融合后依然很微弱,且背景噪聲較大,因此容易錯誤跟蹤到雜波。圖5具體表明了上述兩種錯誤,如圖5(a)所示,由于目標(biāo)軌跡發(fā)生斷裂,跟蹤框只能跟蹤軌跡的一部分,如圖5(b)在第幀時目標(biāo)能被正確檢測,但是到+1幀目標(biāo)實際上已經(jīng)在另一半軌跡處,所以圖5(c)并未正確檢測到目標(biāo),雖然之后跟蹤算法會隨著軌跡前半部分的逐漸減弱、消失而正確尋回目標(biāo),但是這種情況易出現(xiàn)連續(xù)多幀被錯誤標(biāo)注。如圖5(d)所示,在第幀時目標(biāo)區(qū)域輻射信息較強(qiáng)尚能正確跟蹤到目標(biāo),但是在+1幀時目標(biāo)輻射信息減弱、背景噪聲增強(qiáng)時則會發(fā)生跟蹤錯誤的情況(如圖5(e)(f)所示)。
1.5.1 利用像素值變化定位關(guān)鍵幀
目標(biāo)在運動過程中像素值是逐漸變大或者變小的,一般情況下不會產(chǎn)生突變。當(dāng)目標(biāo)軌跡斷裂而發(fā)生錯誤檢測時,算法預(yù)測的錯誤目標(biāo)位置處的像素值與前一幀正確的目標(biāo)像素值可能會有較大差距。因此將這一特性作為判斷關(guān)鍵幀的依據(jù),判斷條件如下:

圖5 典型錯誤分析:(a)(b)(c)目標(biāo)運動不連續(xù);(d)(e)(f)強(qiáng)背景噪聲干擾
Fig.5 Typical error analysis: (a)(b)(c)Discontinuous motion of target;(d)(e)(f) Strong background noise
P表示第幀預(yù)測目標(biāo)的像素值,1和2為預(yù)設(shè)常數(shù)。由于目標(biāo)的探測亮度與作用到探測器單元的有效面積相關(guān),它的亮度本身就會發(fā)生一定的起伏變化,因此在設(shè)計這個參數(shù)時要排除這種正常的現(xiàn)象。本課題的標(biāo)注人員是對增強(qiáng)之后的目標(biāo)進(jìn)行初始化,每個初始化跟蹤框中其實包含了2+1幀圖片目標(biāo)的位置信息,映射到原圖后可以得到2+1個目標(biāo)像素點的信息。其中的最小像素值為min,最大像素值為max,利用min/max估算目標(biāo)正常減小的范圍,本文利用9個data進(jìn)行實驗,一共需要初始化9次得到9個估算值,用值最小的估算值來衡量目標(biāo)正常減小的范圍,而相鄰幀的目標(biāo)亮度變化一般不會超過自身的一半,因此1的取值范圍為[0.5,]。本課題選取的值為這個取值范圍的中點,同理2的取值范圍為[min/max, 1.5],本文選取的值也為這個范圍的中點。1和2作為預(yù)設(shè)值也可以由標(biāo)注人員選取更加合適的值。
1.5.2 利用前后兩幀標(biāo)注距離定位關(guān)鍵幀
針對目標(biāo)長時間靜止而被強(qiáng)噪聲干擾的情況,通過前后兩幀標(biāo)注結(jié)果的距離判斷可能發(fā)生錯誤的關(guān)鍵幀,因為正常情況下目標(biāo)在序列圖像中的運動應(yīng)該是連續(xù)且規(guī)律的,如某幀圖像前后兩幀標(biāo)注距離與之前相差較大則將此幀圖像作為關(guān)鍵幀。判斷條件如下:

式中:d表示第張圖像預(yù)測目標(biāo)與前一幀圖像預(yù)測目標(biāo)的標(biāo)注距離,為常數(shù)。如果當(dāng)前幀目標(biāo)的d遠(yuǎn)超其歷史平均值,則將其判斷為關(guān)鍵幀。
對半自動標(biāo)注算法而言,目前缺乏系統(tǒng)的評價標(biāo)準(zhǔn)。因此本課題采用經(jīng)過反復(fù)校驗的手工標(biāo)注信息作為實驗的真值信息,標(biāo)注位置為點目標(biāo)上像素值最大的位置,標(biāo)注形式為點標(biāo)注。本文選擇了公開數(shù)據(jù)集[14]的8個目標(biāo)符合大小數(shù)據(jù)段進(jìn)行測試,數(shù)據(jù)集為多種復(fù)雜環(huán)境下采集的無人機(jī)序列圖像,數(shù)據(jù)集基本信息如表1所示。

2.2.1 不同場景下的目標(biāo)增強(qiáng)算法
本文選取了多個典型實測場景測試紅外目標(biāo)增強(qiáng)算法的適應(yīng)性。在這幾種場景中,紅外點目標(biāo)分別受到探測距離遠(yuǎn)、遮擋、高亮噪聲等影響,目標(biāo)所在位置的信息很容易被噪聲淹沒。
圖6為不同場景下的增強(qiáng)算法的效果,如圖6(a)場景所示,此場景目標(biāo)的探測距離較近,亮度信息較強(qiáng),且此時的攝像頭沒有快速運動,可以觀察到3維灰度圖中的目標(biāo)區(qū)域(黑點所在位置)的能量明顯增強(qiáng),且沒有很多的雜波,另一個能量較強(qiáng)的區(qū)域是因為相機(jī)本身不正常的感光單元形成的,但是它在后續(xù)跟蹤構(gòu)成中并不會落在檢測區(qū)域,并不會影響后續(xù)跟蹤過程。場景(d)是因為目標(biāo)受到遮擋導(dǎo)致其輻射亮度減弱以及樹葉的晃動,因此目標(biāo)增強(qiáng)圖的背景仍會存留一部分噪聲、場景(g)存有一部分噪聲的原因是攝像機(jī)的快速移動,場景(j)存在的噪聲主要為高亮背景的邊緣信息。在面對各種復(fù)雜的紅外弱小目標(biāo)探測背景和環(huán)境時,此目標(biāo)增強(qiáng)算法雖不能徹底消除背景噪聲。但是與原圖相比,增強(qiáng)目標(biāo)沒有被噪聲淹沒,能夠提供更多的信息用來區(qū)分它和噪聲,保證在進(jìn)行目標(biāo)跟蹤時,目標(biāo)所在區(qū)域能夠及時有效地響應(yīng)跟蹤器。因此,無論背景有較強(qiáng)的邊緣噪聲、存在運動的干擾背景還是目標(biāo)由于遮擋導(dǎo)致自身成像灰度降低,抑或是相機(jī)的運動導(dǎo)致的噪聲,此方法都能夠明顯增強(qiáng)目標(biāo)區(qū)域的辨識度,消除檢測區(qū)域中的強(qiáng)噪聲的干擾。

表1 數(shù)據(jù)集的基本信息

圖6 不同場景下的目標(biāo)增強(qiáng)算法:(a)(d)(g)(j)原圖;(b)(e)(h)(k)原圖的三維灰度圖;(c)(f)(i)(l)增強(qiáng)圖的三維灰度圖
2.2.2 半自動標(biāo)注算法對比實驗
目標(biāo)的初始位置都是手動標(biāo)注,使其完全包圍需要跟蹤的目標(biāo),對于3×3個像素矩陣以下的紅外點目標(biāo)來說,直接進(jìn)行KCF目標(biāo)跟蹤失敗率很高,使用本文的增強(qiáng)方法在差分圖上進(jìn)行跟蹤能有效提升跟蹤的成功率。圖7為本文算法與原始KCF對紅外點目標(biāo)跟蹤部分結(jié)果對比圖,如圖7所示,藍(lán)色框為初始框,白色框為跟蹤框,綠色圓圈是以跟蹤得到的點標(biāo)注為中心進(jìn)行繪制,上面兩行為data5,下面兩行為data11。對于遠(yuǎn)距離探測的data5來說,因為目標(biāo)提供的信息太少,跟蹤框從第二幀就開始發(fā)生偏移,到第21幀就徹底跟蹤失敗。對于data11來說,由于最開始目標(biāo)的位置較近,目標(biāo)的輻射信息較強(qiáng),直接使用KCF跟蹤目標(biāo)成功跟蹤了79幀,但是目標(biāo)一旦運動到具有較高輻射信息的背景區(qū)域時就會跟蹤失敗。但是在使用本文提出的增強(qiáng)方法的數(shù)據(jù)上進(jìn)行跟蹤,將得到的跟蹤框映射到原圖,可以發(fā)現(xiàn)目標(biāo)無論是被遠(yuǎn)距離探測(成像面積小且輻射強(qiáng)度弱),還是經(jīng)過較為復(fù)雜的背景區(qū)域?qū)е履繕?biāo)和背景的灰度對比度下降,都能準(zhǔn)確地跟蹤到目標(biāo)。因此,本文提出的紅外運動點目標(biāo)增強(qiáng)方法能夠有效地提高KCF對紅外運動點目標(biāo)跟蹤的成功率。
本文通過KCF跟蹤和相位譜重構(gòu)得到紅外點目標(biāo)的標(biāo)注位置,表2為在人工標(biāo)注首幀的情況下算法的正確率(Accuracy),此正確率是與人工標(biāo)注的真值信息相比,與人工標(biāo)注結(jié)果相同則為正確,否則為標(biāo)注失敗,其中每個數(shù)據(jù)段的總幀數(shù)(number of frames, NF)及人工標(biāo)注的幀數(shù)(number of manual annotations, NMA)都在表中給出。使用本文提出的自動標(biāo)注算法,能夠得到較高的標(biāo)注準(zhǔn)確率。如表2所示,除data13以及data15以外在人手工只標(biāo)注一幀的情況下都能達(dá)到97%以上的標(biāo)注精度。Data13錯誤較多的原因是目標(biāo)在飛入樹林以后目標(biāo)的輻射信息減弱,且目標(biāo)距離鏡頭較遠(yuǎn),融合之后形成的運動軌跡非常短,因此易被噪聲干擾,雖然此類噪聲具有一定的隨機(jī)性,當(dāng)其減弱后便能重新尋回目標(biāo)。Data15是因為目標(biāo)的機(jī)動性強(qiáng),因此目標(biāo)經(jīng)常出現(xiàn)不連續(xù)運動,導(dǎo)致跟蹤算法只能跟蹤目標(biāo)軌跡的一部分,所以正確率較低。

圖7 跟蹤結(jié)果對比
在花費最少的時間與人工代價的前提下,進(jìn)一步提高標(biāo)注數(shù)據(jù)集的準(zhǔn)確率。按1.4節(jié)所示方法,選擇關(guān)鍵幀。各個數(shù)據(jù)集的錯誤幀數(shù)(number of errors, NE)、算法選擇的關(guān)鍵幀數(shù)(number of keyframes, NK)以及關(guān)鍵幀中準(zhǔn)確查找錯誤幀的數(shù)量(number of correct keyframes, NCK)都如表3所示,表3中的標(biāo)注正確率表示為在加入關(guān)鍵幀選擇策略之后半自動標(biāo)注算法能達(dá)到的正確率。其中data15數(shù)據(jù)集錯誤56幀圖像,其中有51幀圖像為可以被糾正的數(shù)據(jù),雖然關(guān)鍵幀策略并沒有將錯誤幀全部選擇出來,因為此關(guān)鍵幀只是以前后幀的聯(lián)系作為判斷條件,比如對data15提取關(guān)鍵幀時,提取的關(guān)鍵幀幀號為340及343,但是出現(xiàn)錯誤的幀為341及342,所以此方法能判斷某位置出現(xiàn)異常,但是不一定能準(zhǔn)確返回幀號,此種情況多次發(fā)生,因此在用此標(biāo)注方法可以關(guān)注返回關(guān)鍵幀的相鄰幀,能得到比表3更加優(yōu)異的結(jié)果。盡管如此,本文設(shè)計的關(guān)鍵幀選擇策略仍然能以較低的時間與人工代價進(jìn)一步提升數(shù)據(jù)集的標(biāo)注質(zhì)量,提升標(biāo)注效率。
本文通過與手動標(biāo)注的時長相比評價算法的效率,半自動標(biāo)注算法處理一幀平均時間為1.2s,但是手動標(biāo)注一幀圖像約為7s,此算法在實際標(biāo)注作業(yè)中能夠大大減少標(biāo)注時長,縮短標(biāo)注周期。
2.2.3 定位精度與誤差分析
本文提出的算法對紅外點目標(biāo)進(jìn)行標(biāo)注,本數(shù)據(jù)集為各種背景下的無人機(jī)小目標(biāo),無人機(jī)的機(jī)頭位置一般為高亮區(qū)域,機(jī)翼的亮度與背景區(qū)域相近。本文提出的標(biāo)注算法可以高效標(biāo)注目標(biāo)的高亮位置,得到像素級的點標(biāo)注。圖8表示各種場景下目標(biāo)的形態(tài)以及標(biāo)注坐標(biāo)的位置,如圖8所示,綠色點為本算法得到的標(biāo)注位置,它為目標(biāo)區(qū)域中最亮的點。但是,由經(jīng)驗豐富的標(biāo)注人員可以判斷,紅色點所在位置其實也屬于飛機(jī)的機(jī)頭位置,但是由于它在成像過程中亮度低于本文的標(biāo)注位置,無法被標(biāo)注出來。因此,本文的標(biāo)注算法可以得到像素級的點標(biāo)注,標(biāo)注對象為目標(biāo)上最亮的點,與經(jīng)驗豐富的標(biāo)注人員相比,本文算法無法得到更加精細(xì)的紅外點目標(biāo)分割圖。

表2 給出首幀標(biāo)注信息的標(biāo)注結(jié)果

表3 半自動標(biāo)注結(jié)果

圖8 標(biāo)注精度與誤差對比
針對紅外弱小目標(biāo)數(shù)據(jù)集標(biāo)注周期長、標(biāo)注質(zhì)量難把控等問題,提出了一種基于目標(biāo)增強(qiáng)和視覺跟蹤的紅外運動點目標(biāo)標(biāo)注算法,該算法首先利用目標(biāo)的運動信息對弱小的紅外點目標(biāo)增強(qiáng),然后利用改進(jìn)的KCF算法和相位譜重構(gòu)實現(xiàn)對紅外點目標(biāo)的精確定位,同時在跟蹤過程中算法將可能發(fā)生標(biāo)注錯誤的圖像幀返回給人進(jìn)行校驗。實驗結(jié)果表明,本文提出的算法能夠在保證數(shù)據(jù)集質(zhì)量的同時降低人的參與度、提高標(biāo)注效率、縮短標(biāo)注周期。
[1] Yuen J, Russell B, Liu C, et al. Labelme video: building a video database with human annotations[C]// 12(ICCV),, 2009: 1451-1458.
[2] Lee J H, Lee K S, Jo G S. Representation method of the moving object trajectories by interpolation with dynamic sampling[C]//2013(ICISA),, 2013: 1-4.
[3] Gil-Jiménez P, Gómez-Moreno H, López-Sastre R, et al. Geometric bounding box interpolation: an alternative for efficient video annotation[J]., 2016, 2016(1): 1-13.
[4] Vondrick C, Patterson D, Ramanan D. Efficiently scaling up crowdsourced video annotation[J]., 2013, 101(1): 184-204.
[5] Vondrick C, Ramanan D. Video annotation and tracking with active learning[J]., 2011, 24: 28-36.
[6] Buchanan A, Fitzgibbon A. Interactive feature tracking using K-D trees and dynamic programming[C]//(CVPR),, 2006: 626-633.
[7] Agarwala A, Hertzmann A, Salesin D H, et al. Key frame-based tracking for rotoscoping and animation[J]., 2004, 23(3): 584-591.
[8] Biresaw T A, Nawaz T, Ferryman J, et al. Vitbat: video tracking and behavior annotation tool[C]//13th(AVSS),, 2016: 295-301.
[9] Bakliwal P, Hegde G M, Jawahar C V. Collaborative Contributions for Better Annotations[C]//(VISAPP), Scite Press, 2017: 353-360.
[10] CHEN B, LING H, ZENG X, et al. Scribblebox: interactive annotation framework for video object segmentation[C]//(ECCV), Berlin Springer, 2020: 293-310.
[11] Lowe D G. Distinctive image features from scale-invariant keypoints[J]., 2004, 60(2): 91-110.
[12] Henriques J F, Caseiro R, Martins P, et al. High-speed tracking with kernelized correlation filters[J]., 2014, 37(3): 583-596.
[13] WANG M, LIU Y, HUANG Z. Large margin object tracking with circulant feature maps[C]//(CVPR), New York: IEEE, 2017: 4021-4029.
[14] 回丙偉, 宋志勇, 范紅旗, 等. 地/空背景下紅外圖像弱小飛機(jī)目標(biāo)檢測跟蹤數(shù)據(jù)集[J]. 中國科學(xué)數(shù)據(jù), 2020, 5(3): 286-297.
HUI Bingwei, SONG Zhiyong, FAN Hongqi, et al. A dataset for infrared detection and tracking of dim-small aircraft targets under ground/air background[J]., 2020, 5(3): 286-297.
Infrared Moving-point Target Semi-Automatic Labeling Algorithm Based on Target Enhancement and Visual Tracking
HE Min,HUI Bingwei,YI Mengni,HU Weidong
(,,,410073,)
Infrared video data annotation has the problems of low efficiency and poor quality. In this paper, a semi-automatic labeling method for moving point targets in infrared sequence images is proposed based on target enhancement and visual tracking to solve it. First, infrared sequence images in a continuous period of time were registered and fused to enhance the target features. Second, a visual tracking algorithm was utilized to locate the fused features efficiently and automatically. Lastly, a saliency map was obtained through phase spectrum reconstruction, and the exact coordinates of a target were obtained. During automatic annotation, the difference between the annotation results of adjacent frames was used to select key frames, which enabled the annotators to locate the image frames that had errors and manually annotated them quickly. The results of the experiments showed that the algorithm significantly reduced the participation of annotators and effectively solved the problems of long period and poor quality assurance in data annotation.
semi-automatic annotations, infrared point target, visual tracking, image sequences
TP391
A
1001-8891(2022)10-1073-09
2021-10-11;
2021-12-08.
何敏(1997-),女,湖南邵陽人,碩士,主要研究方向為紅外目標(biāo)檢測。E-mail:douyc2021@163.com。
回丙偉(1985-),男,河北衡水人,博士,講師,主要研究方向為目標(biāo)識別數(shù)據(jù)樣本工程。E-mail:huibingwei07@nudt.edu.cn
ATR重點實驗室基金“面向目標(biāo)檢測跟蹤識別應(yīng)用的多源數(shù)據(jù)集構(gòu)建”項目。