李 功 趙 巍 劉 鵬 唐降龍
目標跟蹤是計算機視覺領域里的基礎任務之一.隨著深度學習在各個領域里日益成熟的廣泛應用,基于深度網絡的目標跟蹤方法[1]取得了顯著的提升和進步.與目標檢測方法[2]類似,邊界框預測模塊在目標跟蹤方法里也是至關重要的一環,它的性能直接影響目標跟蹤模型準確性.交并比(Intersection over union,IoU)是衡量跟蹤準確性的重要評估指標,定義為用來衡量預測的邊界框與真值框B的相近程度.對于兩個不同的跟蹤器,即便跟蹤器的分類模塊都能夠定位到目標所在位置,但邊界框預測模塊的性能不同仍可能導致預測結果的IoU 相差甚遠,所以訓練邊界框回歸準確甚為重要.從時間發展的順序上看,邊界框回歸方法可分為2 類: 第1 類是基于?n-norm 損失的回歸,可表示為其中常用的兩種損失?1-norm 和?2-norm 都有缺陷,前者難以收斂到更高的精度,而后者在訓練初始時不穩定.雖然Girshick[3]提出的?1-smooth 損失,可以較好地解決上述兩個問題,但是基于?n-norm 的回歸損失更備受詬病的是邊界框各個參數在優化過程中相互獨立,缺乏對IoU 的考慮.第2類損失函數是基于IoU 損失的回歸.IoU 損失[4]衍生自IoU 指標,避免預測框的參數在回歸過程中互不關聯.然而IoU損失LIoU有兩個固有缺陷: 一個是當預測框與真值框不相交時LIoU為常量 1,其梯度無法下降,從而邊界框回歸分支的參數得不到更新;另一個是在IoU 取得最優值時LIoU的梯度不存在,邊界框難以收斂到IoU 最優處.其實LIoU的固有缺陷繼承自IoU 指標.雖然隨后的GIoU (Generalized IoU) 損失[5]、DIoU (Distance-IoU)損失[6]、CIoU (Complete-IoU)損失[6]和EIoU (Efficient-IoU)損失[7]等對預測框的中心或尺寸提出了不同的懲罰項來增加LIoU在邊界框不交疊時的梯度,但是附加的懲罰項并不能改善LIoU在最優值處的梯度不存在的問題.
上述基于IoU 的損失方法[4-7]已經暗示在回歸過程中不應該忽視邊界框參數之間的關系.但是都沒有明確究竟是何種關系.邊界框通常由4 個參數確定,但在不同的研究中參數的含義有所不同,可以由邊界框的中心和尺寸表示為B(x,y,w,h)[3,8-10],或者是由左上角點和右下角點表示為B(xmin,ymin,xmax,ymax)[11-12],又或是由給定的一點到四邊的距離表示為B(xt,xb,xl,xr)[4,13-14].其實上述表示都是等價的,可以相互轉化.為方便下文描述,本文統一以B(x,y;w,h) 形式表示邊界框.不妨將預測框B~(x,y;w,h)的4 個參數劃分為2 組,一組是中心位置 (x,y),另一組是尺寸 (w,h).顯然,對中心位置來說,追求預測框中心與真值框中心重合總是最優的,即便有時預測框中心在某個鄰域內波動不會使IoU 下降.一個顯而易見的事實是,不存在中心偏離可以使IoU 上升的情況.但對尺寸來說并非如此,當預測框中心發生偏離時,追求預測框的尺寸與真值框的尺寸相同卻不是最優的.
本文明確給出在回歸過程中邊界框若取得IoU 最優其參數之間應服從的定量關系.概括地說,中心 (x,y) 在回歸過程不需要顧及此時尺寸(w,h)處于何種情況,而尺寸 (w,h) 在回歸過程中需要考慮到中心 (x,y) 所在何處,最優尺寸(w*,h*)=arg minw,hIoU(B~;B)=f(x,y) 與 中 心 (x,y) 存在 明確的函數關系.本文從一個新的角度看待邊界框回歸問題,將邊界框與二元統計分布作一一映射,從優化兩個統計分布之間散度的角度研究邊界框回歸.散度量化了兩個不同分布之間的差異,這種散度自然蘊含預測框各參數之間的關系,可以避免人為設計額外的懲罰項對預測框尺寸或形狀做出限制.本文從優化兩個分布之間散度的角度提出了一種光滑IoU (Smooth-IoU,SIoU)損失,該損失函數在全局上光滑,對于不同的研究對象,光滑的含義也有所區別.在本文中稱在開集X∈Rn上的函數f:X →R 是光滑的,如果f是C1類的,C1類的函數必然是可微的.在本文的定義下,光滑性也可以稱作連續可微性,且極值唯一.光滑性確保了在全局上梯度存在使得邊界框更容易回歸到極值處,而極值唯一確保了在全局上可梯度下降更新參數,從而克服了IoU 損失的固有缺陷.提出的光滑IoU 損失自然蘊含邊界框各參數之間特定的最優關系,其唯一取極值的邊界框可使IoU 達到最優.而且提出的光滑IoU 損失具有比IoU 損失更快的回歸性能.另外,提出的光滑IoU 損失可以很容易集成到具有邊界框回歸分支的視覺跟蹤方法中.為了評估提出的光滑IoU 損失,本文將其集成到跟蹤深度網絡模型SiamFC++等中,并在主要的基準LaSOT、GOT10-k、TrackingNet、OTB2015 和VOT2018中進行了評估.本文主要貢獻為:
1)明確給出在回歸過程中最優邊界框各參數之間滿足的定量關系.
2)從優化散度的角度提出光滑IoU 損失,該損失函數自然蘊含邊界框各參數之間特定的最優關系,在全局上連續可微,且唯一極值可使IoU 最優.提出的損失函數避免了IoU 損失的固有缺陷.
3)提出的光滑IoU 損失可以容易集成到先進跟蹤網絡方法,在主流的測試基準LaSOT、GOT-10k 和TrackingNet 等上取得顯著的提升.
自Fast-RCNN[3]提出以來,?1-smooth 損失[3]就被廣泛地應用在目標檢測或跟蹤任務中訓練目標邊界框的回歸[8-10,12].?1-smooth 損失結合了?1-norm 和?2-norm 中互補的良好性質.然而,對于相同的?1或?2誤差(只要不為0),可以回歸出多種大小及形狀不同的邊界框,而這些預測的邊界框所對應的與真值框的IoU 卻不盡相同,方差較大,有較強的隨機性,不能準確地反映IoU 指標.Rezatofighi 等[5]展示了一些?1-norm 和?2-norm 相同但IoU 指標不同的示例.為此,Yu 等[4]將IoU 指標演化為IoU 損失LIoU,通過直接優化IoU 的方式邊界框各參數可以作為一個整體進行回歸.Rezatofighi 等[5]提出了一種廣義的IoU 指標 GIoU 及其演化的損失函數LGIoU,以代替IoU 用于評估和訓練邊界框回歸,GIoU 損失糾正了IoU 損失在預測框與真值框不相交時梯度無法下降的弊端.Zheng 等[6]提出了DIoU 損失函數LDIoU,在IoU 損失的基礎上附加了一種關于預測框中心與真值框中心的歸一化距離的懲罰項RD,相較于IoU 損失和GIoU 損失加快了收斂速度.同時,Zheng 等[6]在DIoU 的基礎上發展出了CIoU 損失函數LCIoU,該損失函數綜合考慮了3 種幾何屬性,分別是IoU、中心點距離和寬高比率,使得收斂速度進一步加快.與CIoU 類似,Zhang 等[7]提出了另一種高效的IoU 損失函數EIoU 損失LEIoU,該損失函數同樣有3 種幾何因素的度量,分別是IoU、中心點的距離以及邊長差異.基于IoU 損失可被統一地表示為其中B)為各自不同的懲罰項.本文提出的光滑IoU 損失直接從散度方面構造全局光滑且極值唯一的損失函數,沒有以LIoU作為基本損失,從而避免了LIoU帶來的缺陷.
上述相關的邊界框回歸損失方法均假定邊界框參數為確定變量而直接回歸邊界框,除了這種處理方式外,另一種處理方式是將描述邊界框的關鍵點視為隨機變量.關鍵點可以是角點或中心點等,通過預測關鍵點的熱力圖推斷關鍵點最可能的位置.熱力圖可視為關鍵點服從某種統計分布的假設,對熱力圖的分布則通常采用Focal loss[15]訓練.Gidaris 等[13]在提出的LocNet 中,預測邊界框的4個邊框所在位置的置信度,從而置信度最高的位置被推定為存在邊框.Law 等[12]在提出的 Corner-Net 中設計了一種角點池化操作生成邊界框的左上角和右下角點的熱力圖,并提出改進的Focal loss用于訓練,而對于角點精度的偏置則采用?1-smooth損失進行回歸.然而,如果僅僅依靠預測左上角和右下角來確定邊界框,則容易導致錯誤匹配而誤檢.Zhou 等[14]在提出的CenterNet 中定義了一種適配的Focal loss 用于訓練邊界框中心的熱力圖以減少錯誤匹配,而對于中心點精度的偏置以及邊界框尺寸則采用?1-norm 損失進行回歸.另外,文獻[11]提出的方法則假設預測框的角點位置服從參數待學習的正態分布,并假設真值框的角點位置服從狄拉克δ分布.通過以狄拉克δ分布為目標優化正態分布實現邊界框回歸.然而,在上述文獻[11-14]里用來描述邊界框的關鍵點是獨立優化的,沒有考慮關鍵點與IoU 的關系,其缺點與?n-norm 在某種程度上類似,都依賴于各關鍵點是否被預測得非常準確;而且對熱力圖的訓練增加了網絡參數的數量和網絡結構的復雜性.
本文提出的光滑IoU 損失將表示邊界框的 4個參數視為一個整體進行回歸,在回歸過程中能夠照顧到IoU 信息而產生IoU 友好的結果,而且本文提出的光滑IoU 損失本質上是在最小化兩個統計分布之間的散度,在不增加網絡復雜度的同時隱含地表達了將邊界框關鍵點視為服從某種分布的隨機變量這一處理方式.
GOTURN[16]是第一個基于邊界框回歸的深度網絡跟蹤方法,直接回歸當前幀的目標框相對前一幀目標框的偏移.隨后的SiamRPN[8]和增強版的DaSiamRPN[10]結合了SiamFC[17]的孿生網絡和Fast R-CNN[3]的區域候選網絡(Region proposal network,RPN),估計邊界框相對各個陽性錨框的偏移量,并從中選出分類置信度最高的作為預測框.然而Jiang 等[18]論證了分類置信度最高的邊界框并不一定是與真值框吻合最優的.因此,SPM-Tracker[19]擴展了SiamRPN 方法,提出了精細匹配階段,旨在從粗略匹配階段選出分數最高的k個候選框提煉最終預測框.而SiamRPN++[9]則在分類置信度分支和邊界框回歸分支里提出了逐通道的互相關層,并通過多層級聯的方式提高了分類置信度和回歸精度的正相關性.上述基于錨框的深度網絡方法通常采用?1-smooth 損失訓練邊界框回歸分支.
盡管基于錨框的跟蹤方法仍有進一步優化網絡和提升性能的空間,但基于無錨框的跟蹤方法則受到越來越多的青睞.現有的研究工作和實驗已經表明一些基于無錨框的深度網絡方法比基于錨框的網絡方法更準確,同時網絡參數的精簡使得跟蹤器在訓練和跟蹤時更高效.SiamFC++[20]建議目標跟蹤模型的訓練不應該介入尺度或長寬比率等先驗分布的信息例如錨框,其原因是定位和尺度等粗糙的錨框帶來的誤差可能拖累跟蹤器的性能.SiamFC++摒棄了預設的錨框,并將預測的目標從陽性錨框的偏移量轉化為更精細的每個陽性位置到 4 條邊線的距離.隨后的基于無錨框的方法如 SiamBAN[21]、SiamCAR[22]、Ocean[23]和無錨框全卷積孿生跟蹤器(Anchor-free fully convolutional siamese tracke,AFST)[24]等也采用類似的預測每個正樣本位置到四邊距離作為網絡輸出的方法.值得一提的是,SiamBAN[21]、SiamCAR[22]、Ocean[23]和AFST[24]均采用IoU 損失訓練邊界框的回歸.
本文將提出的光滑IoU 損失,應用到具有代表性的無錨框深度跟蹤器 SiamFC++[20]、SiamBAN[21]和SiamCAR[22],通過替換其原有的IoU 損失,作為對比以評估光滑IoU 損失的性能.
為方便描述,先定義一些必要的表示記號.Bg(xg,yg;wg,hg) 代表真值框,Bp(xp,yp;wp,hp) 代表預測框,(xΔ,yΔ):=(xp-xg,yp-yg) 代表預測框的中心位置相對于真值框中心的偏差.
圖1 給出了深度目標跟蹤模型的基本框架,本文不妨忽略與研究內容無關的分類或中心度分支ψcls的網絡結果,僅關注由孿生骨干網絡φ提取的特征圖經過邊界框回歸分支ψreg輸出每一幀預測的目標邊界框.在訓練深度目標跟蹤模型的邊界框回歸分支時,如果中心偏差 (xΔ,yΔ) 難以消除,預測框的尺寸 (wp,hp) 若以?2-norm 損失仍然向著真值框的尺寸 (wg,hg) 回歸則不是IoU 最優的,而以IoU 損失回歸則在其最優的預測框尺寸 (wp*,h*p) 上又是不可微的.所以一個自然的問題是如何即時調整預測框尺寸 (wp,hp) 的回歸目標,使損失函數面向更高的 IoU 指標光滑地回歸.

圖1 深度目標跟蹤模型的邊界框回歸示意圖Fig.1 The schematic of bounding box regression in deep tracking model
為了解決上述問題,本文從最小化統計分布之間散度的角度看待邊界框回歸問題.首先本文將邊界框與二元正態分布建立一一對應關系,如圖 2 所示.具體地,將預測框Bp(xp,yp;wp,hp) 的中心位置(xp,yp) 和尺寸 (wp,hp) 分別視為二元正態分布N(μp,Σp) 的均值μp=(xp,yp)T和邊緣分布的標準差,即Σp=這樣預測框Bp(xp,yp;wp,hp)與二元正態分布 N (μp, Σp) 建立了一一映射.類似地,真值框Bg(xg,yg;wg,hg)映射為均值為μg=(xg,yg)T,協方差矩陣為的二元正態分布N(μg,Σg).

圖2 邊界框類比為正態分布的示意圖Fig.2 The schematic of bounding box analogized as Gaussian distribution
需要闡明的是,與現有的相關工作[11-14]的區別在于,本文并不是假定邊界框的4 個參數本身為服從二元正態分布的隨機變量,而是將其一一映射為確定二元正態分布具體形式的參量,可以理解為邊界框蘊含了一種圖像區域每個像素屬于目標物體的置信分布,該置信分布應該反映出越靠近邊界框中心位置的像素屬于目標物體的置信度越高的特點,從而隱含地表達了一種以邊界框中心位置為關鍵點的熱力圖.
由此,將邊界框的回歸問題轉化為最小化二元正態分布之間差異問題.以常見的KL (Kullback-Leibler)散度DKL(N(μg, Σg)||N(μp, Σp)) 量化二元正態分布 N (μp, Σp) 和 N (μg, Σg) 之間差異為例進行分析,基于KL 散度的邊界框回歸損失函數為:
顯然,不同于IoU 損失,式(1)在邊界框全局上是可微的,而且式(1)表達了KL 散度與IoU 指標呈某種非線性負相關關系.當KL 散度越小,說明2 個二元正態分布 N (μp, Σp) 和 N (μg, Σg) 越接近,則與之對應的預測框Bp與真值框Bg就越接近,IoU(Bp;Bg)總體表現為上升趨勢.當且僅當預測的邊界框與真值框完全重合時,KL 散度減小到最小值 0,此時IoU 提高到最大值 1.此外,式(1)里預測框各參數不是獨立的回歸.預測框的最優尺寸與其中心偏差 (xΔ,yΔ) 有關.當且僅當中心偏差 (xΔ,yΔ)=(0, 0) 時,其最優預測框尺寸為真值框尺寸 (wg,hg); 否則,相較于?n-norm 損失,式(1)不再以 (wg,hg) 作為預測框尺寸的回歸目標,而是能夠調整預測框的最優尺寸以獲得更高的IoU.但是式(1)還沒有使預測框尺寸達到IoU 最優.在第2.2 節里,將給出在式(1)的啟發下發現的一種可與IoU 協調的光滑損失函數.
沿用Bp(wp,hp;xp,yp) 和Bg(wg,hg;xg,yg) 分別表示預測框和真值框,以及 (xΔ,yΔ) 表示預測框的中心偏差.在前文中指出中心偏差 (xΔ,yΔ) 的回歸是獨立的,不需要考慮預測框尺寸 (wp,hp) 的情況,而預測框尺寸 (wp,hp) 在回歸過程中需要考慮到中心偏差 (xΔ,yΔ) 的情況,因此本節主要探討在預測框尺寸 (wp,hp) 上的最優關系以及光滑的損失函數.首先構造如下損失函數:
本文定義一種描述預測框中心偏差程度的變量.
定義1.令 (xΔ,yΔ) 表示預測框中心偏差和(wg,hg)表示真值框尺寸.稱dH(xΔ,yΔ;wg,hg):=為預測框中心相對真值框中心的調和歸一化偏差.
接下來,闡述IoU 最優的預測框尺寸與調和歸一化偏差dH有關.首先討論式(2)構造的光滑損失LSIoU在功能上等效于IoU 損失LIoU的情況.
圖3 給出了一個LIoU:=1-IoU 和式(2) 中LSIoU在滿足dH <2 條件下在相同點取最優的可視化示例,示例中真值框尺寸為(wg,hg)=(10, 10)以及中心偏差為 (xΔ,yΔ)=(2, 2.5),水平坐標面表示預測框尺寸.由圖3 可以看出,兩者均在預測框尺寸為處取得最小值.命題1 指出如果中心偏差滿足dH <2,則覆蓋真值框的最小邊界框即是IoU 最優的.當中心偏差為 (0, 0) 時,最小覆蓋真值框的邊界框尺寸與真值框相同,此時LSIoU的優化目標退化為真值框本身,與其他邊界框回歸損失如?n-norm 或LIoU的目標相容.

圖3 LIoU 和 LSIoU 在對數坐標下的可視化圖像示例Fig.3 A visualized example of LSIoU and LIoU viewed in the logarithmic scale of horizontal axis
由命題1 可以推出,調和歸一化偏差dH滿足其他情況時IoU 最優的預測框尺寸.
仿照命題1 的證明,可以證明命題2 和命題3,本文不再贅述.上述3 個命題揭示了在回歸過程中IoU 最優的邊界框各參數之間蘊含的定量關系.命題2 指出了LIoU最優的預測框尺寸不唯一的情況.在邊界框中心處于特殊位置(即dH=2) 時,LIoU增加了邊界框形狀或尺寸在回歸過程中的不確定性.LSIoU則不存在這個問題,最優化LSIoU所取得的真值框的最小覆蓋框是唯一的.
雖然命題3 指出了在預測框中心偏差滿足dH >2時,仍以真值框的最小覆蓋框作為動態回歸目標不是IoU 最優的,但是注意到最優化LSIoU仍然可以取得一個良好的預測框.圖4 顯示了一個中心偏差落入dH >2 的示例,實線框代表以gc為中心的真值框,而其余虛線框代表以pc為中心的預測框.在中心距離d相同的情況下,圖4(a)所顯示的為依據IoU 指標最優的預測框,但是其GIoU 指標相對較低.圖4(b)所顯示的為LSIoU最優的邊界框,雖然其IoU 指標略微低于IoU 最優的邊界框,但是其GIoU 指標則顯著高于圖4(a).另外,值得注意的是,如果引入額外的先驗知識(例如CIoU[6])將預測框限定為保持與真值框相同的寬高比,其不同尺度的邊界框如圖4(c)所示,可以看到其所能達到的IoU 上界低于LSIoU最優的邊界框所取得的IoU指標.因此,即便遵循LSIoU最優所得到的最小覆蓋真值的邊界框在IoU 意義下不是最優的,但是綜合IoU 和GIoU 指標來看,依然不失為一個很好的策略.

圖4 當 d H >2 時最優化 LSIoU 和 LIoU 的邊界框示例Fig.4 Illustration of predicted box that minimizes LSIoU and LIoU if dH >2
概括地說,式(2)給出的損失函數LSIoU具有以下特性:
1)尺度不變性.與LIoU一樣,LSIoU仍然是回歸尺度不變的損失函數.尺度不變是指在損失相同的情況下預測框與真值框之間的IoU 不會隨著邊界框尺度的變化而變化.相對于尺度變化的損失函數例如?n-norm 損失,尺度不變的損失函數可以減輕目標尺寸的多樣性帶來的不利影響.
2)正定性.當且僅當預測框與真值框完全重合時,即IoU 指標達到最大值 1 時,LSIoU=0 達到最小值.由此,LSIoU可以視為一種散度函數反映出預測框與真值框的相近程度,或者更準確地說,LSIoU反映出以預測框代替真值框而產生的損失程度.
3)光滑性與極值唯一性.當預測框與真值框不相交時,有LIoU=1,此時?LIoU=0,無法通過梯度下降更新預測框參數;并且LIoU取最優時?LIoU不存在,導致回歸的結果不穩定.而LSIoU在全局上偏導數存在且連續,預測框參數可以通過梯度下降更新,且更容易回歸到極值處,當且僅當LSIoU取最優時,有?LSIoU=0,LSIoU達到極值.
為了使預測框的中心位置在回歸過程中盡可能滿足條件dH <2,提出一種針對LSIoU的正則項:式中,α=2 arctan(wg/hg) 是由真值框尺寸所確定的參量,而β是需要滿足β>1 的參量.圖5 給出了一個由正方形真值框確定的正則項RS的圖像示例,陰影區域滿足dH <2,箭頭代表某一梯度軌跡.由于一般的?2正則項其等值線是同心圓,梯度總是指向 (0, 0),這樣中心偏差(xΔ,yΔ)位于平面內任何方向上的機會都是均等的,并不適用于SIoU 損失的特點.由圖 5 可以看出,不同于一般的?2正則項,本文針對SIoU 損失設計的正則項 [xΔ,yΔ]Sα,β[xΔ,yΔ]T,其關聯的非對角正定的二次型矩陣Sα,β使 [xΔ,yΔ]Sα,β[xΔ,yΔ]T的等值線為橢圓形并且長軸恰位于直線dH=0.所以正則項 [xΔ,yΔ]Sα,β[xΔ,yΔ]T在等值線上的梯度指向是不同的,具有方向偏好.如果以梯度下降法更新 (xΔ,yΔ),則 (xΔ,yΔ) 的軌跡可以向著dH <2區域靠攏如圖 5 所示,增大落入到區域dH <2 的機會,同時也可以增加LSIoU的凸性.注意到正則項[xΔ,yΔ]Sα,β[xΔ,yΔ]T是一個僅和中心偏差(xΔ,yΔ)有關的函數,而與預測框尺寸 (wp,hp) 無關,所以正則項的加入并不會使LSIoU違反最佳尺寸與中心偏差的關系.

圖5 正則項 R S 的圖像示例Fig.5 Illustration of regularization RS
加入中心偏差的正則項后,提出的光滑IoU 損失函數LSIoU可如下表示為:
式中,γ為正則項的系數.
注意到LSIoU里含有關于中心偏差的?1函數|xΔ|和 |yΔ|,其在 0 處也是不可微的.針對這個問題,本文不妨構造一個近似函數以替換|xΔ| 和 |yΔ|.考慮到對于任意xΔ∈R,當λ→∞有下式成立:
式中,代表一致收斂.易知Aλ(xΔ) 是光滑的,圖6給出了取不同λ值的光滑代理函數Aλ(xΔ) 的圖像.這樣Aλ(xΔ) 可以用來作為|xΔ| 的光滑代理.|xΔ|和 |yΔ| 在回歸過程中可以分別用Aλ(xΔ) 和Aλ(yΔ)代替以保證LSIoU對邊界框中心位置參數是光滑的.

圖6 不同參數 λ 下 | x| 的光滑代理函數Aλ(x)Fig.6 Plot of smooth surrogate function A λ(x) for |x|with different λ controlling its shape
在應用光滑IoU 損失訓練邊界框回歸時需要注意其中兩點: 1)容易驗證當 (wp,hp) 趨 于(0, 0)時,LSIoU損失則趨于無窮,這樣在訓練初期可能因為預測的尺寸過小而出現梯度爆炸的情況.為了避免訓練過程中的梯度爆炸,對LSIoU作了梯度截斷處理,通過取:
與LSIoU最小的操作:
使預測框尺寸在wp ≤wg/2,hp ≤hg/2 時梯度不變,限制到可控范圍內,同時不影響LSIoU的可微性.圖7 給出了以圖3 中的示例通過梯度截斷后的LSIoU損失圖像.2) 為了避免光滑代理函數Aλ中的指數函數可能引發機器浮點數溢出,不妨設置一個區間半徑rλ >0,當-rλ ≤x≤rλ,取Aλ(x),否則取|x|.選取適當的區間半徑rλ可以在機器所能表示的精度范圍內保持連續性.應用光滑IoU 損失訓練邊界框回歸如算法1 所示.光滑IoU 損失可以很容易代替IoU 損失函數應用在深度目標跟蹤網絡中訓練邊界框的回歸.在下一節里將組織相關實驗以驗證提出的光滑IoU 損失的有效性.

圖7 梯度截斷后的 LSIoU 可視化示例Fig.7 A visualized example of LSIoU with truncated gradient
算法 1.應用光滑IoU 損失的邊界框回歸
本節將提出的光滑IoU 損失合并到具有代表性的基于錨點無關的目標跟蹤模型SiamFC++[20]、SiamBAN[21]和SiamCAR[22]中來評估其有效性.其原本的IoU 損失LIoU訓練的結果作為基線,用LSIoU替換原本的LIoU訓練作為對比.實驗中選擇GoogleNet[25]作為SiamFC++[20]的孿生骨干網絡結果.而SiamBAN[21]和 SiamCAR[22]則采用ResNet-50[26]的后三個殘差塊級聯的方式提取特征,并遵循SiamFC++、SiamBAN 和SiamCAR 的訓練過程,采用論文里報告的默認參數和每個基準上的迭代次數.實驗中λ設為 2,rλ設為20.正則項系數設置為采用ILSVRC-VID/DET[27]、COCO[28]、YoutubeBB[29]、LaSOT[30],TrackingNet[31]和GOT-10k[32]作為基礎訓練集.然后在主流的目標跟蹤測評基準平臺LaSOT[30]、TrackingNet[31]、GOT-10k[32]、OTB2015[33]和VOT2018[34]上,對提出的邊界框回歸損失模型進行評估對比.另外,僅從跟蹤結果上很難討論邊界框回歸的過程是如何進行.因此本節設置了一組采樣分析實驗,采樣的數據綜合考慮了距離、尺度以及寬高比等邊界框之間的關系,涵蓋多種回歸情況,研究光滑IoU 損失相比當前基于IoU 的損失的優越性.實驗環境配備了128 GB 內存,Intel Xeon E5-2650 2.3 GHz CPU處理器,Nvidia GTX 1080Ti GPU 顯卡,采用深度學習框架PyTorch 實現.

圖8 從兩種分布中采樣近距離和遠距離的初始預測框位置Fig.8 Sample the initial predicted boxes subject to normal distribution with short and long mean-variance

圖9 各種邊界框回歸損失比較Fig.9 Comparison among the convergence performance of different bounding box regression losses

圖10 不同迭代次數的 LGIoU、LCIoU 和 LSIoU 的回歸示例Fig.10 Illustration of predicted boxes via LGIoU,LCIoU and LSIoU regressing in different iterations
本節通過5 個主流的基準測試來評估提出的光滑IoU 損失函數,用于目標邊界框回歸的性能.
3.2.1 LaSOT
LaSOT[30]是一個高質量的大規模單目標跟蹤基準,數據集包含1 400 個視頻,涵蓋了視覺跟蹤里14 種典型的挑戰,例如遮擋、運動模糊、尺度變化等,劃分為70 個常見類別,每個類別提供20 個視頻,平均視頻長度超過2 500 幀,總共超過352 萬個人工標注的幀.LaSOT 基準的協議將其中1 120個視頻作為訓練集,280 個視頻作為測試集,每個類別包含相同數量的視頻.大規模的訓練集使得跟蹤器不容易出現過擬合,從而達到了測試跟蹤器真實性能的目的.遵照LaSOT 基準的協議,跟蹤器需在LaSOT 訓練集上訓練,并在LaSOT 測試子集上評估,常用的評估指標為一次性通過(One-pass evaluation,OPE)的標準化精確率圖、精確率圖和成功率圖,其中精確率圖刻畫了預測邊界框與標定邊界框的中心位置的像素距離在閾值范圍內的圖像幀數所占的比率關系,精確率以中心位置誤差小于20 像素的比率對跟蹤器進行排名;成功率圖刻畫了預測的邊界框與標定的邊界框的重疊率(即IoU)超過閾值的圖像幀數所占的比率關系,然后依據曲線下方區域面積對跟蹤器進行排名.而標準化精確率引自TrackingNet[31],是為了消除精確率對圖像√分辨率和邊界框尺寸過于敏感,可表示為Pnorm=表1 給出了SiamFC++模型以LSIoU作為邊界框回歸損失訓練在LaSOT上得到的測試結果.可以看出,LSIoU相對于原有的LIoU提高了SiamFC++模型性能的成功率、精確率、標準化精確率,分別相對提高 3.60%、5.05 % 和3.24 %.從LaSOT 數據集中選擇了5 個代表不同類型的視頻,從中抽取部分幀來顯示跟蹤的效果,如圖 11 所示.圖中虛線框標出了以LSIoU訓練的測試結果,點線框標出了原始的以LIoU訓練的測試結果,實線框為真值框.可以看出,LSIoU比LIoU得到的預測框更靠近真值框.為了驗證本文光滑IoU 損失在其他深度目標跟蹤器上也具有良好的魯棒性和適用性,表 2 和表 3 分別報告了對SiamBAN[21]和SiamCAR[22]模型采用LSIoU替換原有的IoU 損失訓練的實驗對比結果.鑒于不同模型其網絡結構的不同,雖然未能超過SiamFC++的表現,但LSIoU相對于原有的LIoU提高了SiamBAN 和SiamCAR 模型的性能,其中提升最顯著的成功率分別相對提高5.64%和5.04%.

圖11 在LaSOT 測試集上,分別以 LIoU (點線框標出)和LSIoU(虛線框標出)訓練的模型 SiamFC++的可視化結果示例 (實線框為真值標簽)Fig.11 Visualized tracking results of SiamFC++trained using LIoU (marked in dotted box) and LSIoU (marked in dashed box) on LaSOT(solid box denotes groundtruth)

表1 在基準 LaSOT 上,分別以 LIoU (原本的)和 LSIoU訓練的模型 SiamFC++的測試結果(%)Table 1 Comparison between the performance of SiamFC++trained using LIoU (original),LSIoU on the test set of LaSOT (%)

表2 在基準LaSOT 上,分別以 LIoU (原本的)和LSIoU訓練的模型SiamBAN 的測試對比(%)Table 2 Comparison between the performance of SiamBAN trained using LIoU (original),LSIoU on the test set of LaSOT (%)

表3 在基準LaSOT 上,分別以 LIoU (原本的)和 LSIoU訓練模型SiamCAR 的測試對比(%)Table 3 Comparison between the performance of SiamCAR trained using LIoU (original),LSIoU on the test set of LaSOT (%)
為了表現采用本文SIoU 損失訓練SiamFC++、SiamBAN 和SiamCAR 后橫向比較的性能,選取了其他9 種先進的跟蹤方法進行對比,分別為SiamBAN[21]、SiamCAR[22]、SiamRPN++[9]、Siam-Mask[35]、GlobalTrack[36]、C-RPN[37]、Ocean[23]、ATOM[38]和DiMP[39].其中,Ocean[23]模型選擇具有更好性能的在線更新的Ocean-online 版本.用SiamFC++(SIoU)代表以LSIoU訓練邊界框回歸分支的版本以示區分.在LaSOT 上的成功率和精確率的對比如圖12 和表4 所示,可以看出,SIoU損失方法使SiamFC++模型超越了先進的Ocean和DiMP,實現了最好的性能.與Ocean-online 相比,SiamFC++(SIoU)在3 個指標上的得分分別相對提高了1.5%、1.6%和1.8%.與DiMP 相比,SiamFC++(SIoU)在成功率上同樣表現出1.5%的優勢,而在精度上表現出1.9%的優勢,驗證了LSIoU可以更好地在復雜場景中回歸不同對象邊界框的能力.

表4 在基準LaSOT 上,與先進方法的性能評估對比Table 4 Performance evaluation for state-of-the-art algorithms on LaSOT

圖12 在LaSOT 上評估成功率、精確率和標準化精確率結果Fig.12 Success plot with area under the curve,precision plot and normalized precision plot on LaSOT
3.2.2 GOT-10k
GOT-10k[32]一個由中國科學院發布的基于WordNet 的大型目標跟蹤數據集,總共超過10 000 段視頻,細分了563 類戶外常見的移動物體,范圍涵蓋了動物、交通工具、人物、被動運動目標以及特定部位目標5 大類別,標注的邊界框數量超過150 萬.除了類別廣泛,規模宏大,該數據集還具有訓練數據統一和單樣本學習等特點.依照GOT-10k 的協議,所有模型都用相同的訓練數據,來保障所有模型之間的公平對比.并且為了使訓練出的模型能有更強的泛化能力,基準測試集與訓練集之間不存在交集.測試集包含180 段視頻,分屬于84 個目標類別,該測試基準評價的指標有平均重疊率(Average overlap,AO)和成功率(Success rate,SR),數值越大說明方法性能越高.表5 展示了采用LSIoU訓練的SiamFC++模型在服務器上評估的結果,雖然在 S R0.75指標上性能略低于原始結果2.29%,但在 S R0.50指標上增益高達7.48% 以及在 A O 指標上增益 3.69%,同樣實現了一定程度的性能改進.表 6 給出了經過LSIoU訓練的SiamCAR 模型在服務器上的評估結果,3 個指標上均有不同程度的提升,除了在 S R0.50指標上性能提升最高達6.29%,在 A O 和S R0.75指標上相對基線結果分別提升了3.69%和5.22%.表 7 總結了與7 種當前先進方法MDNet[40]、SPM[19]、ATOM[38]、SiamCAR[22]、Siam-RPN++[9]、Ocean-online[23]、D3S[41]和DiMP-50[39]的對比,SiamFC++(SIoU)和SiamCAR (SIoU)代表以LSIoU訓練邊界框回歸分支的版本.可以看出,采用LSIoU訓練的SiamFC++在標準化精確度和成功率方面都表現出了優勢.LSIoU使 SiamFC++的成功率超過了最先進的 DiMP-50[39]和Oceanonline[23]達1.8%,標準化精確度超過了2.2%.

表5 在GOT-10k 上,分別以 (原本的)和 訓練的模型SiamFC++測試對比(%)LIoU LSIoUTable 5 Comparison between the performance of SiamFC++trained using (original),on the test set of GOT-10k (%)LIoU LSIoU

表6 在GOT-10k 上,分別以 (原本的)和 訓練的模型SiamCAR 測試結果(%) LIoU LSIoUTable 6 Comparison between the performance of SiamCAR trained using (original),on the test set of GOT-10k (%) LIoU LSIoU

表7 在基準GOT-10k 上,與先進方法的性能評估對比 (%)Table 7 Performance evaluation for state-of-the-art algorithms on GOT-10k (%)
3.2.3 TrackingNet
為了進一步評估本文方法,在更具挑戰性的數據集TrackingNet[31]上進行了實驗.TrackingNet包含了30 132 個視頻,平均每個視頻471.4 幀,以及覆蓋了27 個類別用于單目標跟蹤器的訓練,是目前目標跟蹤任務里的體量最大的數據集.與GOT-10k 類似,TrackingNet 的測試集獨立于訓練集,并在官方評估服務器上測試,該基準測試提供了511 個視頻,視頻平均幀數與類別屬性分布與訓練集相似.與基準LaSOT 相同,評估服務器基于跟蹤結果計算成功率、精確度和標準化精確度三個評估指標.表8 給出了SiamFC++模型以LSIoU作為邊界框回歸損失訓練在TrackingNet 上得到的測試結果.可以看出,LSIoU相對于原有的LIoU提高了SiamFC++模型的性能,成功率、精確度以及標準化精確度分別相對提高1.06%、2.27 %和2.37 %.而表9 給出了與7 種當前先進的跟蹤器,即MDNet[40]、ATOM[38]、DaSiamRPN[10]、Siam-RPN++[9]、UpdateNet[42]、SPM[19]、DiMP[39]在 TrackingNet 上的結果對比,SiamFC++(SIoU) 代表以LSIoU訓練邊界框回歸分支的版本.可以看出,采用LSIoU訓練的SiamFC++在精確度和成功率方面均表現最佳.如表9 所示,LSIoU使SiamFC++的成功率超過了最先進的 DiMP[39]模型1.8%,標準化精確率超過了2.2%.在如此大規模的數據集上的實驗結果表明了以SIoU 損失訓練邊界框回歸具有良好的泛化能力.

表8 在TrackingNet 上,分別以 (原本的)和訓練的模型SiamFC++的測試結果(%) LIoU LSIoUTable 8 Comparison between the performance of SiamFC++trained using (original),on the test of TrackingNet (%) LIoU LSIoU

表9 在基準TrackingNet 上,與先進方法的性能評估對比 (%)Table 9 Performance evaluation for state-of-the-art algorithms on TrackingNet (%)
3.2.4 OTB2015
除了上述大規模數據的基準測試,本文也在小規模的數據集OTB2015[33]上進行了實驗.OTB-2015 包含了100 個視頻,涵蓋了視覺跟蹤里11 種典型的挑戰.與LaSOT 類似,該基準測試常用的評估指標為一次性通過的精確率和成功率.表10 和表11 分別給出了以LSIoU作為邊界框回歸損失訓練的SiamFC++模型和SiamBAN 模型在OTB2015上得到的測試結果.可以看出,雖然LSIoU相對于原有的LIoU提高了SiamFC++模型和SiamBAN 模型的性能,但提升幅度有限,成功率相對提高了分別為0.74%和0.43%,而精確率相對提高了分別為0.34%和0.55%.可能的原因是小規模的測試集對網絡參數以及超參數更敏感,具有偶然性和特殊性,大規模的測試樣本更能得到一般性的結果.

表10 在OTB2015 上,分別以 LIoU (原本的)和LSIoU訓練的模型SiamFC++的測試結果 (%)Table 10 Comparison between the performance of SiamFC++trained using LIoU (original),LSIoU on the test of OTB2015 (%)

表11 在OTB2015 上,分別以 (原本的)和訓練的模型SiamBAN 測試結果 (%) LIoU LSIoUTable 11 Comparison between the performance of SiamBAN trained using (original),LIoU LSIoU on on the test of OTB2015 (%)
3.2.5 VOT2018
數據集VOT2018[34]共包含60 個視頻,雖然視頻數量較少并與VOT2018 之前版本發布的數據集相同,但是對所有視頻重新標定了由分割掩碼外接得到的更加精確的邊界框,也就是說這種邊界框不再是坐標軸對齊的,給跟蹤器帶來了新的挑戰.VOT2018 里重要的3 個評價指標: 準確率(Accuracy,A)、魯棒性(Robustness,R) 和平均重疊率期望(Expected average overlap,EAO).準確率用來評價跟蹤器的準確度,通過n次重復測試得到跟蹤器在單個視頻幀序列下IoU 的平均值,即A=該指標數值越大,準確度越高.魯棒性用來評價跟蹤器的穩定性,通過n次重復測試得到跟蹤器在單個視頻幀序列上跟蹤失敗的次數F的平均值,即重疊率為 0 即為跟蹤失敗,該指標數值越小,穩定性越高.VOT-2018 相較于其他測試基準具有的一個特色機制是會在跟蹤器跟蹤失敗時重啟,即失敗發生時的5幀后重新初始化,所以平均重疊率期望是取跟蹤器在非重新初始化的Nl個長度為l的視頻幀序列上平均重疊率的期望值,即IoUl(i)]是VOT2018 評估跟蹤算法精度的重要指標,數值越大,精度越高.表12 給出了SiamFC++模型以LSIoU作為邊界框回歸損失訓練在VOT2018上的測試結果.由表12 可以看出,在準確率和EAO 指標上有所下降.造成這種現象可能的原因是,VOT2018 里的IoU 計算涉及到預測框與旋轉的標注框之間的交疊,而非傳統意義下兩個坐標軸對齊的矩形框之間的 IoU,而此時并不能證明提出的光滑IoU 損失所遵從的策略仍然可以最優.所以為了應對這種評估指標,還有待對邊界框回歸函數做進一步研究和拓展.

表12 在VOT2018 上,分別以 (原本的)和訓練的模型SiamFC++測試結果(%) LIoU LSIoUTable 12 Comparison between the performance of SiamFC++trained using (original),LIoU LSIoU on on the test of VOT2018 (%)
為了證明提出的光滑IoU 損失與其他以IoU為基準的損失如 GIoU[5]和 DIoU[6]相比具有優勢,本文在基準 LaSOT 和 GOT-10k 上對 SiamFC++、SiamBAN 和SiamCAR 模型采取不同邊界框回歸損失函數(即本文提出的LSIoU、LGIoU[5]、LDIoU[6]以及原本的LIoU損失)作為對比實驗.表13 和表14記錄了基于3 種模型的不同邊界框回歸損失在測試集上超過不同IoU 閾值的圖像幀數所占比率.最小閾值取值為0.5,并以步幅0.05 逐次累加的方式設置更高的閾值,可以看出提出的光滑IoU 損失可以改善邊界框回歸的效果,雖然在高IoU 閾值下以SIoU 訓練的模型測試結果所占比率不一定高于其他IoU 為基準的損失,但是這一部分的比率普遍很小,SIoU 損失在中高IoU 閾值下與其他基于IoU的損失相比優勢明顯,對整體指標提升的貢獻更大.

表13 在基準LaSOT 上,與其他基于IoU 損失訓練得到的滿足不同IoU 閾值的測試集圖像幀數占比的對比結果 (%)Table 13 Comparison results with other IoU-based loss for the ratio of frames exceeding different IoU thresholds on the test set of LaSOT (%)

表14 在基準GOT-10k 上,與其他基于IoU 損失訓練得到的滿足不同IoU 閾值的測試集圖像幀數占比的對比結果 (%)Table 14 Comparison results with other IoU-based loss for the ratio of frames exceeding different IoU thresholds on the test set of GOT-10k (%)
最后,為了探討中心偏差的正則項RS和光滑代理函數Aλ所帶來性能上的影響,本文在GOT-10k 上對其進行了消融實驗.表15 報告了不同消融的結果,其中LSIoU(w/oAR) 代表不具有正則項RS和光滑代理函數Aλ的損失,LSIoU(w/R) 代表配備了正則項RS而不采用光滑代理函數Aλ的損失,而LSIoU(w/Aλ) 代表采用了光滑代理函數Aλ而不配備正則項RS的損失.在本文λ取 1、2、4 和8 四個值以觀察不同λ的影響.由表15 和圖13 可以看出,正則項和代理函數提高了邊界框回歸損失的性能.其中對中心偏差的正則項可以較好彌補LSIoU在dH >2 時與IoU 不匹配帶來的差異.同時也注意到,相較于正則項的加入,將中心偏差 (xΔ,yΔ) 的損失從?1-norm 替換為光滑代理函數A2、A4和A8所帶來的性能增益有限,其中可能的原因是不同于邊界框尺寸的回歸目標是動態的,邊界框中心位置的回歸目標是靜態的,總是指向真值框的中心,也就是 (xΔ,yΔ) 的優化目標總是 (0, 0),但實際上中心偏差 (xΔ,yΔ) 很難回歸到 (0, 0),因此對邊界框中心位置的回歸作光滑處理帶來的增益較小.至于λ取值為 1 時,結果卻遜于|x|,可能是因為Aλ(x) 與|x|的誤差較大如圖6 所示,所以λ取值適中即可,既不必取值太小使Aλ(x) 偏差 |x|較大,也不必取值太大使Aλ(x) 在原點處過于 “尖銳”而失去光滑的意義,本文不妨取值為2.

圖13 在GOT-10k 上的成功率圖Fig.13 Success plot on GOT-10k

表15 在GOT-10k 上,對 LSIoU 的正則項和代理函數的消融實驗(%)Table 15 Ablation studies about the regulariztion and surrogate function on GOT-10k (%)
本文給出并證明了在回歸過程中最優邊界框參數之間滿足的定量關系,提出了一種新的用于訓練邊界框回歸的損失,即光滑IoU 損失.該光滑IoU損失不以IoU 損失作為基本損失,從優化散度的角度構造了全局光滑且極值唯一的損失函數,提出的光滑IoU 損失蘊含邊界框各參數之間特定的最優關系,并將邊界框參數作為一個整體進行回歸,其唯一極值可使IoU 達到最優.該損失函數確保了在全局上可梯度下降更新參數,使得邊界框更容易回歸到極值處,從而規避了IoU 損失的固有缺陷.在采樣數據上進行的大量實驗表明,光滑IoU 損失和現有基于IoU 的損失方法相比,收斂速度更快,帶來了顯著的改進.光滑IoU 損失可以很容易地集成到當前基于IoU 損失的視覺任務模型中,本文將其應用在具有代表性的無錨框目標跟蹤模型 Siam-FC++、SiamBAN 和 SiamCAR 上,在 LaSOT、GOT-10k、TrackingNet 和OTB2015 等主流測試基準上所取得的結果驗證了光滑IoU 損失可以幫助提高邊界框回歸模塊的性能.