施漪涵, 仝明磊
(上海電力大學 電子與信息工程學院, 上海 200090)
文字作為人類交流思想、傳承文化的重要媒介,從古至今一直發揮著重要的作用。利用文字所包含的高級語義,可以更有效地利用場景信息,提高文字檢測的精度。
現有的文字檢測方式主要分為3類:傳統區域建議方法、基于目標檢測方法以及基于圖像分割檢測方法[1]。傳統區域建議方法包括滑動窗口方法和連通域方法,在環境背景復雜和噪聲污染的情況下,效果較差。因此,相關學者將深度學習引入文字檢測領域,利用大量的數據進行學習訓練,并通過不斷迭代和調整權重,提取更多有用的特征[2]。基于目標檢測方法的主要思路是將文字區域作為一項特殊的目標檢測,一般先在圖像上提取多個候選區域,然后再通過分類器對候選區域進行分類篩選,最后再對其進行精修。通常在提取多個候選區域時較為耗時。基于目標檢測的方法,在Faster R-CNN[3-4]后,SSD[5]和YOLO[6]等網絡結構被相繼提出。基于圖像分割檢測方法通常利用卷積神經網絡提取圖像中的特征,再對圖像進行像素級的文字/背景的標注,能較好地檢測傾斜文字及不規則文字,且避免受文字區域框長寬比變化的影響。ZHANG Z等人[7]將文字區域作為一個特殊的分割目標,首次提出利用全卷積網絡從像素層面對圖像進行處理,而后PixelLink[8],Inceptext[9],PSENet(Progressive Scale Expansion Network)[10]等基于實例分割的網絡結構被相繼提出。
為了進一步優化文字檢測領域的算法和網絡,本文主要在學習PSENet網絡的基礎上,進一步優化評判指標,將改進后的PSENet對自然場景中的文字進行檢測,通過標準文字數據集的實現對比進行結果分析,證明此算法的可行性。……