周鉑焱 楊 鵬
(南昌航空大學信息工程學院 南昌 330000)
場景文本檢測是自然場景中最普遍的視覺對象之一,經常出現在路牌、車牌和產品包裝袋等上。雖然和傳統的OCR相似,但由于前景文本和背景對象的多樣性,任意方向和長寬比,以及不可控的光線條件等,場景文本閱讀更具挑戰性。如文獻[1]中總結的一樣,由于這些不可避免的挑戰和復雜性,傳統的文本檢測方法通常包含多個處理步驟,例如候選字母或單詞的產生[2~4],候選詞的濾波[4]和分類[5]。它們通常很難使得每一個模塊恰當的工作,微調參數和設計優化規則需要花費更多的努力,同時也降低了檢測的速度。
本文主要受最近目標檢測SSD[6]和場景文本檢測 TextBoxes[8]的啟發。TextBoxes[8]是一個可進行端到端訓練的全卷積神經網絡。根據SSD[6]中的匹配策略,將預先設定的一系列不同長寬比的水平矩形默認框與真實目標框進行匹配,通過Text-box層[8]同時預測文本存在和 anchor boxes[7](也叫默認框[6])的坐標偏移,將Text-box層所有輸出合并后進行非極大值抑制(NMS)處理,從而輸出最終的文本檢測結果。

圖1 示例圖
TextBoxes[8]是一個快速、有效的的場景文本檢測器。但存在兩個不足:1)TextBoxes[8]只能有效檢測水平方向的場景文本,然而現實中由于拍攝角度的問題,圖像中的文本通常呈現出任意的方向性,如圖 1(a)。針對這類圖像中的文本,TextBoxes[8]則不能進行有效檢測,如圖1(b)所示的預測框不能很好的覆蓋文本區域(實線框區域為真實文本框區域,虛線框為預測框)。文本檢測的目的是為了識別,這將大大降低后期的識別率;2)TextBoxes[8]中一系列不同長寬比的默認框是通過手工精選預先設置的,不能很好地表示真實文本先驗,一些長寬比的文本框不能和任何默認框進行匹配,導致場景文本召回率偏低和漏檢。
本文主要在 TextBoxes[8]的基礎上,針對以上兩個方面問題進行改進:1)設計默認框四邊形的表示,將水平文本檢測器改進為任意方向文本檢測器;2)對默認框的先驗維度進行聚類,使網絡更容易學習到準確的預測位置,提高召回率。
Text-box層是OSTD主要的部分。Text-box層同時預測特征圖中文本的存在和邊界框的坐標偏移。通過預測每個位置上預先設計的水平默認框的偏移回歸,OSTD的輸出包含方向邊界框{q},以及包含方向邊界框的最小水平邊界框{b}。


圖2 一個與真實目標框(白色)匹配的默認框(虛線)在3×3的網格上的回歸(箭頭)示意圖
在圖像的每一個位置,以卷積的方式輸出分類得分和每個表示為的相應默認框的偏移量。對于四邊形表示的方向文本,文本框層預測值(Δx,Δy,Δω,Δh,Δx1,Δy1,Δx2,Δy2,Δx3,Δy3,Δx4,Δy4,c),表明一個水平矩形b=(x,y,ω,h)和一個檢測置信度為c的四邊形表 示 如下:

在訓練階段,根據文獻[6]中匹配方案的框重疊區域,將真實單詞邊界框和默認框進行匹配。如圖3中所示,一個四邊形的最小邊界框矩形和默認框進行有效匹配。在每一個位置,有一些不同縱橫比的默認框。用這種方式,我們可以根據縱橫比來有效地劃分單詞,允許OSTD學習特定的回歸和分類的權值,這些權值可以劃分相似縱橫比的單詞。
文本在某些區域通常是密集的,所以每個默認框都設置了垂直偏移[8],以更好地覆蓋所有文本,這使得默認框在垂直方向上是密集的。
對于四邊形表示,我們改變真實目標的方向文本表示如下。對于每一個方向文本真實目標四邊形邊界框T,設水平矩形真實目標為h~b0)(即T的最小水平矩形包圍),其中的中心點,ω分別是G的寬和高。根據等式b(1)這個矩形真實目標也可以表示為b3,b4),其中 (b1,b2,b3,b4)是 Gb順時針順序的四個頂點,b1為左上方的頂點。我們用方向文本真實目標T的四個頂點來表示T,對于一個一般的四邊形 文 本 邊 界 框 可 表 示 為四個頂點 (q1,q2,q3,q4) 也按順時針順序排列,使得四個點對 (bi,qi),i=1,2,3,4之間的歐式距離之和最小。更準確地說,讓順時針方向順序的表示同一四邊形文本邊界框,是頂部的點(如果Gq是矩形,則為左上方的點)。然后,q和之間的關系如下:

其中,dE(b,q')是兩點間的歐氏距離,Δm是Gb和Gq之間對應的四個點對的最小距離和的位移。
TextBoxes[8]中的預設默認框尺寸是手工挑選的,根據YOLOv2[9],我們不是通過手工精選先驗框,而是通過k-means聚類得到。
由于卷積神經網絡具有平移不變性,且默認框的位置被每個網格固定,因此我們只需要通過k-means計算出默認框的width和height即可。將默認框的width和heigh轉換為相對于網格邊長的比例。轉換公式如下:

其中ωd和ωi分別是默認框和輸入圖像的寬,ha和hi分別是默認框和輸入圖像的高,dsr為網絡的降采樣率。
因為使用歐氏距離會讓大的邊界框比小的邊界框產生更多的錯誤,而我們希望能通過默認框獲得好的IOU得分,并且IOU得分與box的尺寸無關。
為此,我們采用新的距離公式:

我們對k的不同值運行k-means,并繪制最接近質心的平均IOU,參見圖3,只有6個先驗的質心類似于9個手動精選質心,平均IOU為63.1,而9個手動精選質心為61.8。如果我們使用9個質心,我們看到一個高得多的平均IOU。這表明使用k-means生成邊界框以更好地表示開始模型,并使任務更容易學習。我們選擇k=6作為模型復雜性和高召回率之間的良好權衡。

圖3 手工精選與聚類對比圖(其中*表示K-means聚類的結果,〇表示手工精選的結果)
OSTD可以檢測任意方向的文本。我們在ICDAR2015 Incidental Text數據集[16]上測試它的性能。此外,SynthText[10]數據集被用來預訓練我們的模型。
我們在ICDAR2015 Incidental Text數據集上,將OSTD和當前最先進的方法之一EAST[13]和另一個最相關的方法DMPNet[14]等進行了對比,以評定它處理自然圖像中任意方向文本的能力。
表1中給出了標準評估協議的定量結果。由于使用了先驗聚類,除了 Shi et al.[12]外,OSTD的召回率優于所有先進的結果,且綜合性能比[14]提升了2.8%。

表1 基于ICDAR2015 Incidental Text(IC15)的性能評估對比
OSTD不僅準確而且高效。我們在ICDAR2015 Incidental Text(IC15)數據集上,就運行速度和其他先進方法進行了對比。如表2所示,OSTD獲得了0.726的f-measure和10.3FPS的成績。相比于其他方法,在性能和速度兩方面取得了更好的平衡。在圖4中展示了一些OSTD的檢測結果。

表2 基于ICDAR2015 Incidental Text(IC15)的檢測速度和性能對比

圖4 OSTD檢測結果
本文提出了可以用于任意方向文本檢測的端到端全卷積網絡OSTD,其可以在雜亂的背景下,十分高效和穩定地進行文本檢測。該方法通過一種新的、四邊形表示的回歸模型,直接預測任意方向的詞邊界框。通過在ICDAR2015 Incidental Text數據集上的綜合評估和對比,明確表明了OSTD的優勢。將來,我們計劃研究幾乎所有先進文本檢測器所面臨的常見失敗案例(例如,大字符間距和垂直文本)。