郭卡 安徽外國語學院
在日常教學中,作業、板書等內容通常以手寫形式呈現,為了方便教學記錄及學習情況分析,常常需要將這些內容電子化,但是在電子化的過程中,受拍攝水平、書寫習慣等因素的影響容易導致識別效果不佳,電子化后的文檔需要人工修改后才能使用,影響教學活動的進行。為了解決這個問題,本文提出了一種將超分辨率與OCR結合的建模方案,能夠借助超分辨率算法改善圖片質量,并通過多任務建模的方式提升手寫字體的識別效果。
1.文本識別算法
文本識別算法的常見架構有三種,即CNN+Softmax[1]、CNN+雙向R NN+C T C[2]以及CNN+RNN+Attention[3],三種算法的特點分別是:①CNN+Softmax,模型結構簡單,易于實現且并行度高,識別速度快,但是上下文和文本順序信息不足;②CNN+雙向RNN+CTC,上下文與文本順序信息充足,泛化能力強,但是并行度不高,推理速度受限于RNN;③CNN+RNN+Attention,模型能專注于文本區域,識別效果好,但是模型復雜,訓練和推理速度慢。
本文使用的文本識別算法為CRNN,屬于CNN+RNN+CTC架構,即先通過CNN提取圖片特征,然的采用RNN網絡對特征序列進行預測,最后通過CTC進行翻譯并得到結果。
2.超分辨率算法
超分辨率重建算法(以下簡稱超分)常用于提高圖片的分辨率,使低分辨率的圖片變清晰。為了降低模型的訓練難度,現在的超分辨率重建算法通常會加入殘差結構,如VSDR[4]的殘差設計使得模型只需要學習高分辨率圖片和低分辨率圖片的殘差部分即可。為了在提高模型表達能力的同時壓縮模型體積,近年來涌現了如DRCN[5]、DRRN[6]等基于殘差結構的算法。本文中使用的超分辨率重建算法使用的是上采樣加殘差的結構。
1.模型組成
本文中的模型由三個部分組成,分別是超分辨率重建模塊、CNN特征提取模塊、循環分類與CTC轉錄模塊。超分辨率重建模塊用于提升文本圖片的清晰度;CNN特征提取模塊用于提取圖片特征,供文本分類使用;循環分類與CTC轉錄模塊用于對圖片的特征進行分類,得到圖片中的文字信息。
2.超分辨率模型結構
超分辨率采用了殘差的方式進行建模(如圖1),原始的模糊圖片經過上采樣變成與高清圖片相同的尺寸,再經過卷積網絡生成殘差圖片,最后與大尺寸模糊圖片相加,即可得到重建后的高清圖片。

圖1
3.推理與訓練過程
模型的訓練過程如圖2所示,整個模型采用多準則訓練的方式,在訓練過程中,對超分辨率模型與文本識別模型進行協同優化,能夠達到更好的效果。為了得到更好的超分模型的效果,本文利用文本識別模型的特征提取能力,構建了圖片損失和感知損失(特征損失)兩個損失函數。設超分模型為SR,文本識別模型為TR,模糊圖片為input,高清圖片為target。則損失函數計算公式為:

圖2

模型的推理過程采用模塊串聯的方式(如圖3),原始圖片經過超分辨率模型之后,得到高分辨率的清晰圖片,再輸入到文本識別模型,得到識別結果。

圖3
4.數據構成
本文的數據由兩部分構成,即學生作業圖片、人工合成圖片(合成后通過圖像處理手段得到模糊圖片)。學生作業的作用是讓模型學習到真實場景的數據特點,提高模型的效果上限;合成圖片的作用是讓模型學習到更多樣化的數據,提高模型的魯棒性。
1.真實訓練數據生成
來自真實場景的模糊圖片主要有三種:①固定相機,分別使用不同的焦距進行拍攝得到的模糊圖片;②將清晰圖片進行縮放后得到的模糊圖片;③將清晰圖片進行加噪、模糊等處理之后得到的模糊圖片。
2.數據準備步驟
模型訓練前的數據準備流程如圖4所示。人工合成數據的合成步驟為:①從互聯網上下載手寫藝術字體50種;②準備不同紙張的背景圖片20種;③準備小說、編程代碼等語料組成約100萬字的語料庫;④從語料庫中隨機抽取一定長度的句子,使用Opencv庫按抽取的句子生成藝術字圖片,并將圖片的背景修改成半透明后,貼到準備好的紙張背景上;⑤重復第④步,合成足夠多的訓練數據;⑥為了模擬實際教學中拍攝圖片時出現的拍攝失焦、距離過遠以及鏡頭抖動等干擾因素,會對合成圖片進行縮放、高斯模糊、隨機加噪、重影處理等。

圖4
訓練的CRNN文本識別模型,在常規文字測試集上的準確率為71.97%,但是在模糊文字測試集上的準確率為53.21%,單張圖片推理時間為4.21ms。為了在無需重訓CRNN模型的情況下,提高其對模糊文字的識別率,本文訓練了一個超分辨率重建模型,對模糊圖片進行修復,提高了文字識別率。
1.超分辨率+文本識別
從超分辨率+文本識別訓練結果(如下頁表1)可以看到,隨著模型層數的增多,重建后的文字圖片的識別率顯著上升,在實際應用中,可以根據場景的性能要求來選擇合適的網絡層數。

表1
2.超分+識別感知損失+識別
為了改善重建效果,筆者利用CRNN提取圖片特征,使用感知損失策略進一步提高了文字識別率。使用感知損失的訓練結果如表2所示。從表2中可以看出,CNN感知損失的效果最好,可見文本識別模型中的特征提取功能主要由CNN承擔,在構建感知損失時,無需考慮RNN的輸出結果。

表2
使用本文中介紹的方法,通過感知損失將超分辨率模型和文本識別模型結合起來,可以大幅提高文本識別模型對模糊圖片的識別準確率,從而提高文本識別模型對教學場景的適應性,為教學資料的電子化創造條件。