彭祥云,陳 黎
(1.湖北省智能信息處理與實時工業系統重點實驗室,湖北 武漢 430081;2.武漢科技大學 計算機科學與技術學院,湖北 武漢 430081)
隨著平安城市、智能交通、智慧城市等重點行業基礎設施和公共服務的持續建設,對龐大的監控視頻進行統一的管理也顯得尤為重要。2019年以來,公安部通過“公安視頻圖像信息聯網應用運維管理平臺”,陸續啟動了對省級公安及下級業務部門的視頻運行情況考核。發現部分攝像機存在時間信息與標準時間存在偏差的現象。而時間信息作為安防視頻圖像必備的內容要素,一旦出現問題可能會使整個監控系統存在極大的風險。如時間信息標注錯誤的監控圖像甚至可能因為不具備法律效力而無法作為證據,不僅增加了公安部門的破案難度,還會引發人們對監控系統存在意義與價值的質疑。
隨著深度學習技術的快速發展,人工智能技術在安防領域的應用不斷拓寬。因此,文中提出一種基于深度學習的視頻圖像時間戳同步檢測方法,能夠及時發現視頻監控系統中與標準時間偏差程度超出容差閾值的監控攝像機,以便輔助人工進行校準工作。其中,時間戳同步檢測的難點如下所述:
首先,時間戳區域檢測作為后續工作的基礎,時間戳區域檢測結果的好壞將直接影響后續工作的好壞。因此,圖像時間戳區域的檢測要求輸出的時間戳區域的邊界框要完整且準確。既不能出現檢測不完全的現象,也不能包含過多的背景信息。然而由于監控設備的多樣,不同地區在標注時間戳信息時沒有完全遵循《GA/T 751-2008視頻圖像文字標注規范》標準。導致監控視頻中的時間戳標注出現多樣性與不規范的現象,如圖1所示。此外,在自然場景下還會有不均勻的光照、相似的紋理特征等因素的影響。這些都給時間戳的檢測任務帶來了巨大的挑戰。

圖1 時間戳標注多樣性
其次,時間戳同步的判斷標準或流程。如果簡單采用某一時段設備時間與標準時間是否相同作為判斷標準,可能存在如下問題:第一,獲取數據是通過采集某一路監控點位監控設備的實時圖像,并記錄該點位圖像采集發起時刻作為標準時間,而視頻流采集圖像幀在網絡傳輸、設備響應等各環節存在不確定延時現象,導致一些時間戳同步的設備誤報為不同步;第二,時間標注字符在背景透明的自然場景圖像中,極易受到光線環境變化及關聯因素的干擾,可能在不同時間段的識別結果不同,使得同一監控設備同時出現同步與不同步的矛盾情況。
針對目前時間戳同步檢測的問題與難點,文中方法的主要貢獻如下:
(1)提出的CBAP方法融合了檢測與分割的優點并在fpn網絡中加入文字特征增強模塊,提升模型對透明文字和文字與背景紋理特征相似等‘弱像素’文字區域的檢測效果。
(2)在模型的推理階段提出候選框誤差近鄰傳播連接的后處理方法,通過對檢測分支和分割分支的輸出做進一步優化,得到更加完整的檢測結果。
(3)提出一種基于圖像的時間戳同步判定方法,能有效地根據圖像判斷出監控設備的時間與標準時間是否同步。
針對時間戳的檢測與識別,鮑復民等人[1]提出一種基于模板匹配的方法,但對于字體大小變化十分敏感。姚文杰等人[2]提出的方法需要對每個字符進行標注,需要耗費大量人力去標注訓練樣本。都難以應用到安防視頻時間戳的檢測與識別上。從大方向看,時間戳檢測與標記牌文字檢測[3]、發票文字檢測[4]和車牌檢測[5]同屬于場景文字檢測范疇。而國內外最新基于深度學習的場景文字檢測方法主要分為基于目標檢測的方法和基于圖像分割的方法兩大類。
基于目標檢測的方法一般是通過對R-CNN[6]、SSD[7]或yolo[8]等算法進行改進,使之更符合場景文字檢測。DeepText[9]通過對Faster R-CNN[10]算法進行改進,在RPN模塊后面加入Inception[11]模塊并且加入歧義文字這一類別,因此能更好地獲取文本區域。但對小區域的文本的檢測效果不佳。楊宏志等人[12]通過在Faster R-CNN算法中引入LSTM,可以更好地對長文本進行定位。龍言等人[13]采用分支結構的特征提取方法,使得算法能夠感知到更加深層次的文本特征,從而提升算法檢測精度。Liao等人[14]提出的基于SSD的TextBoxes++算法不需要二次回歸并且可以檢測任意方向的文本。林泓等人[15]提出基于多路精細化特征融合的方法可以針對難樣本進行檢測。
Zhang等人[16]首次將全卷積神經網絡引入到場景文字檢測,將文字視為一個需要分割的目標。楊劍鋒等人[17]通過融合多尺度文字特征圖提出可以檢測任意方向的文字檢測算法。Yao等人[18]提出的整體嵌套邊緣檢測算法(holistically-nested edge detection,HED)通過將文字區域概率、字符概率和相鄰字符連接概率融和到一個網絡進行學習。基于實例分割的PixelLink[19]算法從實例分割結果中獲取文本位置信息。該網絡通過預測每個像素文本、非文本分類和每個像素的8個方向是否連接這2個任務,然后利用Opencv可以獲得不同大小的文本連通域,接著使用噪聲濾除操作,最后通過并查集合并出最終的文本框。PSENet[20]主要通過預測多個分割結果S1,S2,…,Sn,其中S1面積最小,Sn面積最大,再通過擴張算法逐步擴張成正常文本大小。
文中提出一種基于深度學習的視頻圖像時間戳同步檢測方法,首先通過深度學習方法得到時間戳區域與時間信息,再通過設計同步匹配方法得出設備時間戳是否與標準時間同步的結論。
由于安防視頻圖像時間戳標注的多樣性,使得目前的文字檢測算法在應用到安防視頻的時間戳區域檢測時往往無法取得令人滿意的檢測結果。主要存在以下問題:第一,時間戳區域檢測不完全。第二,檢測框過大,包含太多干擾信息。筆者認為基于目標檢測的方法對物體級別的Anchor進行回歸與分類,獲得的信息多同時也會包含部分背景信息使得檢測結果包含過多背景。而基于分割的方法針對像素進行分類,在邊緣處的分割效果往往不太理想,會出現檢測結果缺少字符的現象。因此文中提出的CBAP算法,同時融合了檢測與分割的優點,能更好地應對復雜的自然場景。CBAP的網絡結構如圖2所示,主要分為兩個分支:檢測分支(detection branch)和分割分支(segmentation branch)。

圖2 CBAP網絡結構
2.1.1 網絡結構
檢測分支的設計過程中主要借鑒了CTPN[21]的網絡結構。首先,將完整的時間戳區域劃分為包含部分時間戳區域小塊,將檢測任務轉變為對小時間塊的檢測,以此來解決長文字行的檢測問題。其次,通過引入LSTM網絡,獲取時間戳的上下文聯系,根據前后的時間塊序列來提取相互之間的關系特征,能有效地提升檢測的精度。
分割分支中的網絡構建主要參考了FPN(feature pyramid network)的網絡結構。FPN最早由Lin[22]等人提出用于解決目標檢測中的多尺度問題。主要通過橫向連接將低層的低級細粒度特征與高層的高級語義信息融合,在不增加計算量的情況下大幅提升了對小物體的檢測性能。在近幾年的場景文字檢測的研究中,研究人員同樣采用FPN結構在公共數據集上獲得了不錯的檢測效果。但文中研究對象與公共數據集之間的差異較大,特別是對透明字體與文字背景混疊等困難樣本的時間戳區域的檢測,這些樣本的文字與背景難以區分,目前的場景文字檢測算法難以準確檢測出時間戳區域。因此,文中在FPN的橫向連接中加入了一組文字特征增強模塊,提升模型對文字像素的感知。其中,文字特征增強模塊主要參考了Dai等人[23]提出的可變形卷積的思想。Dai等人認為固定幾何結構的卷積對未知形變的建模存在固有的缺陷,這種缺陷來源于卷積單元對輸入特征圖的固定位置進行采樣,為了解決這個缺陷,由此提出了可變形卷積,可以實現在當前位置附近隨意采樣。而文中以整個時間戳區域為研究對象,形狀固定為長方形,水平方向的特征信息豐富。因此可以將卷積核固定為長方形,在獲取文字特征信息的同時省去可變形卷積自適應探索的過程。基于此,文中設計的文字特征增強模塊具體結構如圖3所示。首先,為了獲得足夠的感受野來應對不同尺度的時間戳區域的檢測任務,引入擴張率為2、卷積核為3×3的空洞卷積獲得大感受野的特征圖;然后在大感受野特征圖上使用1×5卷積提取更多的橫向紋理特征,得到更多關于文字特征的特征圖;最后,將高層的特征圖上采樣后與之融合得到對文字特征加強后的金字塔特征圖。

圖3 文字特征增強模塊(FE)
2.1.2 候選框誤差近鄰傳播連接方法
在模型推理階段,文中通過設計候選框誤差近鄰信息傳播連接方法從網絡檢測分支與分割分支的結果中提煉出最終的檢測結果。具體步驟為:
(1)劃分集合:首先,對概率圖進行二值化后得到文本與非文本二值圖并通過獲取連通域的最小外接矩形來得到分割分支的檢測結果。然后,對檢測分支的所有小檢測框,通過計算其與每個分割分支的檢測結果的水平距離與垂直重疊度確定小檢測框所屬于的文本實例。具體判斷方法為按照垂直重疊度從大到小依次選取分割結果直到滿足水平距離在50個像素內的條件。如果所有的分割結果都不滿足條件,該小檢測框直接舍棄。最終,屬于同一個分割結果小檢測框集合用來預測相應的文本行。其中,方框的水平距離計算方法為兩個方框的中心點的橫坐標的差的絕對值減去兩個方框的寬的一半;方框的垂直重合度的計算方法為兩個方框在y軸投影的交集與兩個方框在y軸投影并集的比值。
(2)確定文本實例中心:對于(1)中得到的每一個小檢測框集合,將其中與對應的分割分支的檢測結果有交集的小檢測框連接成基本的檢測框D,D即為文本實例中心。將與對應的分割分支的檢測結果沒有交集的小檢測框記為集合C。
(3)計算吸引度s與可信度a:文本實例中心D對每個集合C中小檢測框會產生一個吸引度s,用來表示文本實例中心D認為小檢測框包含文本實例的可能性。集合C中的每個小檢測框會擁有一個可信度a用來表示自身認為包含文本實例的可能性。其中,可信度a的值為小檢測框在分割分支輸出的概率圖上的平均值。吸引度s的計算公式為:
s=max(0,1-ex-r)
(1)
其中,r是根據GA/T 751-2008《視頻圖像文字標注規范》標準和時間戳字符數量計算得到,文中計算為19;x為文本實例中心D的長寬比。
(4)獲取最終結果:一個小檢測框是否與文本實例中心D連接取決于它的最終概率P是否大于設定閾值,文中設定為0.5。P的計算公式如下:
P=λ*s+(1-λ)a
(2)
最終,將所有符合條件的小檢測框與文本實例中心D連接得到最終的檢測結果。
首先,針對同一監控設備在多次檢測中可能出現同步與不同步并存的矛盾情況,文中設計了‘N-1命中’原則,基本思想為,在時間戳的多次識別中得到N個時間結果,對這N個結果依次執行容差匹配,只要有一個匹配成功,就認為這路設備時間同步并停止對剩余結果的匹配過程。如果N個結果全部匹配失敗,則會提示該路設備時間異常,需要人工修正。
其次,由于視頻流采集圖像幀在網絡傳輸、設備響應等各個環節存在不確定的時延現象,文中使用了‘容差匹配’方法,其主要思想是依據一次識別結果時間差值是否滿足一定容差(Ω)進行條件判斷,以盡可能減小視頻流采集圖像幀在網絡傳輸、設備響應等各環節存在不確定延時現象對時間戳同步判斷的影響。具體計算方法為:從圖片中識別出的時間信息記為TA,應用任務在發出圖片采集指令時的時間記為TB,容差值為Ω,計算:
|TA-TB| < Ω
(3)
如果上式成立,表示視頻監控設備中圖像的時間信息符合標準時間的容差范圍(Ω),即為容差匹配。否則即為不匹配。
根據上述的‘N-1命中’原則與容差匹配方法,時間戳同步匹配的具體流程如圖4所示,分為以下幾個步驟:
步驟1:在某一時段,請求視頻監控系統中一路監控點位的攝像機的實時視頻碼流,并通過解碼得到視頻圖像。同時,記錄請求指令發出時的系統時間T0;
步驟2:將采集的視頻圖像輸入基于深度學習的時間戳檢測識別算法,識別出時間值Ti并轉換為標準時間戳格式輸出,對于無法轉換為標準格式的統一輸出為“1999-01-01 00:00:00”;
步驟3:計算步驟1中的系統時間T0與步驟2中的識別時間Ti之間的差值ΔT,定義容差匹配的閾值Ω。如果ΔT<Ω,則該路攝像機時間同步,判定結束。否則進入步驟4;
步驟4:判斷是否需要繼續匹配,如果繼續匹配,返回步驟1。否則該路攝像機時間不同步。判定結束。

圖4 時間戳同步匹配流程
文中實驗中用于訓練與測試的圖像數據均來自于校企合作,針對真實場景圖片進行研究分析。數據集包含不同省份、不同時間段的市區、村鎮和高速公路等場景采集的真實圖像數據。根據不同任務,文中將圖分為時間戳區域檢測數據集和時間戳同步數據集。
時間戳區域檢測數據集包括三個集合,TR-4625為訓練集,包含4 625張圖片,選取全天候各個時段全國各地隨機抽取的圖像,包含透明字體、不同尺度文字和復雜背景下的文字;TS-2000為測試集,包含2 000張圖片,來源于湖北與廣東,選取的是白天時段且符合GA/T 751-2008《視頻圖像文字標注規范》標準;TS-6060為測試集,包含6 060張圖片,來源于湖南、江西與江蘇三個省份,時間段包括白天與夜晚,同時還出現透明字體、文字較小和復雜背景的現象。因此,相比于TS-2000集合,TS-6060的圖片復雜,檢測難度更大。
時間戳同步檢測包含一個測試集合SYN-2648,包含2 648張圖像,其中每張圖像的標準時間(服務器發出采集指令的時刻)包含在圖像名字中,然后通過人工對比設備時間(圖像上標注時間)與標準時間的差值將集合SYN-2648分為差值在十秒內和差值在十秒以上兩個文件。十秒為文中設置的容差匹配的容差值。
目前文本檢測的評價標準大多是基于目標檢測評價標準的改變,沒有考慮到文本檢測任務的特殊性。文本檢測的目的是為了識別,如果只是以交并比IOU(intersection over union)來判斷文本是否被檢測出來或檢測框是否正確,無法體現出文本是否被檢測完全。因此,從實際應用出發,文中提出一種以應用為驅動的文本檢測的評價方法。該方法主要針對文本在實際應用中出現文本檢測不完全但是交并比IOU卻達到要求,特別是在水平方向上會缺少字符的問題。
假定對于一幅含特定目標區域的圖像,{Ai|i=1,2,…,N}和{Bj|j=1,2,…,M}分別為檢測框(prediction box)集合與目標框(ground-truth box)集合。分別計算每個檢測框{Ai}和目標框{Bi}的重疊比。計算方法如下:
(4)
(5)

MatchAB(i,j)=
(6)
其中,T1,T2取0.7,0.9。系數λ1、λ2設為0.5。
文中采用精準率(Precision)、召回率(Recall)與F值對檢測性能進行評價,計算方法如下:
(7)
(8)
(9)
其中,TP、FP、FN、TN的計算方式如下:
(10)
時間戳同步檢測采用的評價指標為準確率(Accuracy,ACC),計算公式為:
(11)
其反映的是時間戳同步判斷正確的樣本占總樣本的比例。TP表示標簽為同步,算法判定也為同步;TN表示標簽為不同步,算法判定也為不同步;FP表示標簽為不同步,算法判定為同步;FN表示標簽為不同步,算法判定為同步。
首先,為了分析提出的文字增強模塊與候選框誤差近鄰傳播連接方法對算法性能的影響,在相同訓練集與測試集上的對比結果如表1所示。
其中,D_Net為單獨使用檢測分支得到的檢測結果,S_Net為單獨使用分割分支得到的檢測結果,CBAP為使用候選框誤差近鄰傳播連接方法的檢測結果,CBAP+TE為使用候選框誤差近鄰傳播連接方法與文字增強模塊的檢測結果。從表中可以看出,對于測試集TS-2000,文中提出方法能在已經比較好的結果上更進一步。對于測試集TS-6060,由于測試集中包含透明字體、復雜背景等各種不符合標注標準的樣本,檢測難度較大。單獨使用基于檢測或分割的方法很難在這種多模態測試集上取得較好的檢測效果。而文中提出的方法融合了檢測與分割的優點,能一定程度上提高模型對于這種多模態測試集的檢測效果。同時,該方法在邊緣細節部分的表現更加優秀,在文本區域的定位更加精確,能夠為識別任務提供更好的樣本。如圖5所示,文中方法能得到更完整的文本區域且包含更少的非文本區域,而單獨使用某一分支得到的檢測結果則出現缺少字符和檢測框過大的現象。

表1 改進部分對性能的影響

圖5 不同方法結果對比
其次,為了驗證文中方法的有效性,選取了基于分割的PSENet與文中方法進行比較。得出的結果如表2所示。可以看出,文中方法在TS-2000測試集上能達到目前最新文本檢測算法的效果。在TS-6060這個檢測難度更大的測試集中,文中方法在精準率(precision)與F值上的表現更加優異。

表2 與其他算法比較
文中用2 648張圖像測試了提出的時間戳同步判定方法,檢測結果如表3所示,

表3 時間戳同步檢測結果
從表中結果可以看出,時間戳同步判定的準確率達到0.998,證明了提出的基于容差匹配的時間戳同步判定方法的合理性。在失敗的5組案例中,統計發現有3組是由于圖像本身時間戳存在缺陷或干擾導致識別算法輸出錯誤的時間信息,影響了時間戳同步的判定。如圖6所示,a、b組時間戳文字由于存在缺失、重疊的現象影響了識別結果的準確性,導致時間戳同步判定失敗。而c組時間戳周圍存在其他數字的干擾使得同步判定出錯。

圖6 同步判定失敗圖像
文中提出了一種針對安防視頻監控圖像的時間戳同步檢測方法,包括時間戳區域檢測與時間同步判定兩個部分。首先,相比于目前的場景文本檢測算法在檢測時間戳區域時會出現檢測框過大或檢測不完全的現象,提出的時間戳區域檢測算法針對安防視頻監控圖像時間戳區域的文字特點,能有效地檢測出完整的時間戳區域。在TS-2000數據集上取得了0.982的精準率,在TS-6060數據集上取得0.82的精準率。其次,提出的時間同步判定方法,在測試集SYN-2648上取得了0.998的準確率,證明了該方法的合理性。