黃 同,邵思飛,2
(1.延安大學西安創新學院, 陜西西安,710100;2.延安大學物理與電子信息學院,延安,716000)
本文給出的視頻文字定位方法總體來說分為兩大步。第一步,基于視頻文字一般具有比較豐富的邊緣信息,先將彩色的視頻關鍵幀經過灰度化等預處理后,進行Canny 邊緣檢測,然后經過形態學膨脹和填充等操作步驟進行文字區域的粗定位,初步定位候選文字區域;第二步,以局部二值模式作為紋理特征利用變異直方圖實現文字區域精確定位。
在第一步中使用形態學膨脹操作可以連接字符間的空隙,并根據字符之間的最大間距,之后采用形態學填充和塊分析等操作去除噪聲,最終候選文字區域的邊緣更加光滑,這樣邊緣圖像中密集的強邊緣被合并成連通區域。
由于第一步檢測到區域相對較多,同時由于在形態學操作中可能錯誤地將那些具有高密度邊界的物體同文字邊界連通,使得部分文字區域包含噪聲,或者文字區域擴大化,錯誤地包含多行或多個文字的情況存在。為了提高檢測精度消減誤定位,必須進行精確定位。本文依據視頻中文字具有分布相對集中、排列規則等特點,采用LBP 方法經過紋理特征提取和VGH精確定位文字行。
LBP 算子是一種用來描述圖像局部紋理特征的算子,可以刻畫圖像的局部特征而且保持較好的平移不變性。原始的LBP一般定義為3×3 的窗口,方法是,首先將窗口內其他坐標點的像素灰度值與窗口中心坐標點像素的閾值(灰度值)進行比較,小于閾值時,對應位置賦值為0,否則為1;然后,對像素位置計算加權和,總和就是該窗口的LBP 值。LBP 值通常是一般介于0 至255 之間,表示256 種紋理模式。原始LBP 的方法特征分類能力強,但對于視頻文字來說,存在著一些不足:主要是僅專注于特征提取,沒有利用像素先驗信息,而這些信息對分類識別的優劣有著顯著影響。
圖像的灰度直方圖GH(Gray scale Histogram)是灰度的函數,反映出圖像灰階的變化,可以反映圖像全局信息但不能反映局部特征。文獻[5]中提出一種反映局部特性的變異直方圖VGH,它與傳統的GH 相似,但側重“局部統計”,可以較好地反映圖像某些局部特征。
本文提出的視頻文字檢測與定位方法,全部在MATLAB7.0下編程實現。實驗數據為4 種常見視頻即電影、新聞、體育比賽和動畫片的視頻流中選取的568 幅視頻關鍵幀。通過指標查全率和虛警率進行評價,平均查全率為95.9%,平均虛警率4.6%,定位實驗結果令人滿意。從實驗結果可以看出,這種方法可以快速地檢測出絕大多數的文字區域,而且相對于沒有采用LBP紋理特征提取的其它視頻文字定位方法,具有更高的查全率和精度。
部分實驗結果如圖1 所示。原始視頻圖像來源于BBC 紀錄片地球無限。可以看出,實現本文算法的程序可以精確定位出絕大多數文字的坐標,并用紅色矩形框自動標注。但是對于較復雜背景下的視頻文字存在誤檢,圖1 中都有1 個虛假文字行被檢測出來。
本研究提出的基于局部二值模式和變異直方圖的視頻文字檢測算法,簡單易行,通過引入局部二值進行紋理分析,使得對于視頻幀中的場景文字和疊加文字有更好的檢測定位效果。不足之處在于對復雜背景和變形文字而言,查全率和魯棒性仍然有待提高空間。

圖1 視頻文字檢測定位實驗結果
[1] RLienhart,AWernicke1 Localizing and segmenting text in images and videos [J]1 IEEE Trans on Circuits and System for Video Technology, 2002,12(4):256-26
[2] Chen D, Bourlard H, Thiran J P. Text identification in complex background using SVM[A].Flynn P. Proceedings of the Intl Conf on Computer Vision and Pattern Recognition [C].Kauai,USA:IEEE, 2001.621-626.
[3] Ojala T,Pietikainen M, Harwood D.A Comparative Study of Texture Measures with Classification Based on Featured Distributions[J].Pattern Recognition, 1996, 29(1): 51-59.
[4] 王月華,陳松燦.基于LBP 的特征空間研究及其在自動人臉識別中的應用[D]. 南京:南京航空航天大學,2006.
[5] 張佑生,彭青松,汪榮貴.一種基于變異灰度直方圖的視頻字幕檢測定位方法[J].電子學報,2004,32(2):14-317.