曹慧靜
(傳音控股技術有限公司,上海 202106)
針對人工智能,訓練數據量的大小和豐富性決定了其準確性,因此數據集的構建對識別的準確性非常重要。針對印度市場用戶語言翻譯的問題,引入了選區翻譯功能(用戶在當下使用的界面上可以選擇需要翻譯區域進行翻譯)。根據用戶選中的內容圖像識別成文字,再把文字翻譯成需要的目標語言,用戶選中的區域內容根據用戶的使用場景和用戶的偏好而不一樣。選區翻譯相比競品有其優勢,能夠不中斷用戶當前使用頁面的閱讀體驗,而把需要翻譯的內容直接覆蓋在選中區域原文上,而不影響其他未選擇區域的閱讀,使得翻譯體驗更加便捷。
OCR(Optical Character Recognition)是指對文本資料的圖像文件進行分析識別處理,獲取文字及版面信息的過程。亦即將圖像中的文字進行識別,并以文本的形式返回。
OCR 識別應用很多場景,例如OCR 視頻文字識別、人臉識別、身份證件識別、票據識別、車牌碼識別、銀行卡識別等等,在業界也屬于比較成熟的應用;但是對于小語種OCR 識別能力應用于翻譯場景有待繼續提升和挖掘。OCR整體識別的流程如圖1所示。

圖1 OCR 整體識別的流程
圖像預處理。通常是針對圖像的成像問題進行修正。由于深度學習的發展,現在普遍使用基于CNN 神經網絡的特征提取手段,得益于CNN 強大的學習能力,配合大量的數據可以增強特征提取的魯棒性。常見的預處理過程包括:幾何變換(透視、扭曲、旋轉等)、畸變校正、去除模糊、圖像增強和光線校正等。……