

高手論技
編者按:目前,OCR技術(shù)在各行業(yè)中的應(yīng)用方興未艾。我們可以在通訊軟件、辦公軟件甚至在線網(wǎng)站中找到OCR的使用方法,極大地方便了我們的工作和生活。當(dāng)然,目前人工智能還處于初級階段,更好的場景文字識別將隨著人工智能的發(fā)展而不斷發(fā)展。
應(yīng)用沙龍
主持人:
劉宗凡 廣東省四會(huì)市四會(huì)中學(xué)
嘉? 賓:
邱元陽? 河南省安陽縣職業(yè)中專
金 琦? 浙江師范大學(xué)附屬中學(xué)
倪俊杰? 浙江省桐鄉(xiāng)市鳳鳴高中
楊 磊? 天津市第五中學(xué)
從1929年德國科學(xué)家Taushek取得的一項(xiàng)光學(xué)字符識別(Optical Character Recognition,簡稱OCR)的專利算起,OCR已經(jīng)發(fā)展了將近100年。漢字的OCR技術(shù)從20世紀(jì)70年代末開始進(jìn)入研究階段,也經(jīng)歷了近50年。OCR技術(shù)的成熟,使得汗牛充棟的書籍變成電子圖書館,我們足不出戶就可以在網(wǎng)上檢索海量書籍。OCR技術(shù)推動(dòng)了文化的保存、整理、普及、研究,是數(shù)字化浪潮中一朵漂亮的浪花。
隨著工人智能的發(fā)展,OCR技術(shù)更是如虎添翼,在各行各業(yè)得到了廣泛的應(yīng)用,極大地方便了我們的工作和生活。
人工智能(AI)影響下的OCR
楊磊:典型的OCR的技術(shù)路線如圖1所示。其中識別準(zhǔn)確率的關(guān)鍵技術(shù)是文字檢測和文本識別,這兩部分是OCR技術(shù)的核心。
以深度學(xué)習(xí)為主要特征的人工智能,改善了OCR的準(zhǔn)確度和速度,使得OCR走出了印刷體文字的識別范疇,我們隨手一拍的場景文字,都可以被OCR較為準(zhǔn)確地識別出來。
隨著人工智能對科技的全方位影響,OCR在人工智能的助力下邁進(jìn)了一個(gè)新領(lǐng)域。基于深度學(xué)習(xí)的keras-ocr庫提供了方便易用的OCR模型和端到端的訓(xùn)練流程來構(gòu)建新的OCR模型。keras-ocr庫支持Python3.6和TensorFlow2.0.0。
首先安裝庫:
pip install keras-ocr
加載庫
import matplotlib.pyplot as plt
import keras_ocr
加載預(yù)訓(xùn)練模型
detector and recognizer.pipeline = keras_ocr.pipeline.Pipeline()
導(dǎo)入圖片
images = [keras_ocr.tools.read(img) for img in ['./1.jpg','./2.jpg'] ]
預(yù)測文本
prediction_groups = pipeline.recognize(images)
顯示結(jié)果
fig,axs=plt.subplots(nrows=len(images),figsize=(10,20))
for ax,image, predictions in zip(axs,images,prediction_groups):
keras_ocr.tools.drawAnnotations(image=image,
predictions=predictions,ax=ax)
由識別結(jié)果可以看出,當(dāng)圖2中文字發(fā)生扭轉(zhuǎn),識別的準(zhǔn)確率變低。上述程序是一個(gè)訓(xùn)練好的模型,由于其使用的數(shù)據(jù)集與當(dāng)前所識別圖片相差過大,導(dǎo)致原模型泛化能力下降。如果想對特定圖片進(jìn)行識別,可以通過特定圖片訓(xùn)練模型,對參數(shù)進(jìn)行微調(diào)。本例使用的是英文OCR,中文識別相對而言難度有所增加,有興趣的讀者可以繼續(xù)研究。
OCR技術(shù)在各行各業(yè)的應(yīng)用
倪俊杰:1.OCR在銀行中的應(yīng)用
票據(jù)憑證是銀行賬務(wù)處理流程的重要內(nèi)容。銀行票據(jù)電子影像數(shù)據(jù)庫是銀行業(yè)務(wù)信息化的數(shù)據(jù)基礎(chǔ),有了這個(gè)數(shù)據(jù)基礎(chǔ),才有可能開展銀行業(yè)務(wù)的各種信息化處理工作。但由于銀行票據(jù)業(yè)務(wù)復(fù)雜,多數(shù)銀行仍停留在“人工分散處理+紙質(zhì)庫房保存+人工查詢”的階段,成為阻礙金融電子化的薄弱環(huán)節(jié)。而借助OCR識別技術(shù),可以使票據(jù)處理達(dá)到“自動(dòng)集中處理+電子安全保存+數(shù)據(jù)有效應(yīng)用”的目標(biāo),不但保留了原始單據(jù)的圖像文件,而且對圖像文件進(jìn)行OCR識別后可以自動(dòng)建立票據(jù)索引,還可以通過系統(tǒng)接口進(jìn)一步完成單據(jù)與前臺(tái)數(shù)據(jù)的勾對工作,快速找出有問題的單據(jù),并能根據(jù)建立的索引很快找出原始圖像,進(jìn)行查詢和審核,能高效、快捷準(zhǔn)確地完成事后監(jiān)督的工作,從而大大減輕操作員的工作量,減少差錯(cuò)率,提高銀行業(yè)務(wù)的自動(dòng)化和智能化水平。
2.OCR在快遞行業(yè)的應(yīng)用
OCR識別技術(shù)不僅能夠快速從快遞單據(jù)上提取識別手機(jī)號碼,讓快遞員快速聯(lián)絡(luò)快遞主人,還能快速提取快遞面單上的聯(lián)系人、目的地城市、地址等重要信息,并與系統(tǒng)數(shù)據(jù)進(jìn)行匹配,實(shí)現(xiàn)自動(dòng)分揀,可以在短時(shí)間內(nèi),準(zhǔn)確完成大量包裹的自動(dòng)分揀,讓工作變得更簡單快捷,切實(shí)滿足中小型快遞物流分發(fā)網(wǎng)點(diǎn)快速發(fā)展的訴求。
3.OCR在圖書資料管理中的應(yīng)用
在圖書資料管理中,OCR文字識別可以代替人工錄入,將圖片上的文字識別出來,即將圖片上的文字變?yōu)榭删庉嫷奈谋荆员阌跈z索分類,大大提高了工作效率,同時(shí)避免對珍貴的史料造成損壞,文字識別對紙質(zhì)材料的數(shù)字化轉(zhuǎn)型有重要的意義。
4.OCR在視頻審查中的應(yīng)用
借助OCR識別技術(shù),可以識別視頻中的文字,對互聯(lián)網(wǎng)視頻內(nèi)容進(jìn)行識別審核、監(jiān)控,篩除掉違規(guī)的視頻、廣告,如一些敏感、不健康的詞匯等,達(dá)到高效審查的目的。
值得注意的是,2020年9月28日,在2020AIIA人工智能開發(fā)者大會(huì)上,主辦方正式發(fā)布國內(nèi)首份智能文字識別(OCR)能力測評與應(yīng)用白皮書。白皮書指出,OCR技術(shù)已在金融、保險(xiǎn)、醫(yī)療、交通、教育等諸多行業(yè)有了深入成熟的應(yīng)用。未來隨著傳統(tǒng)行業(yè)的數(shù)字化轉(zhuǎn)型,OCR應(yīng)用范圍和場景將進(jìn)一步擴(kuò)展,市場規(guī)模將進(jìn)一步增大。有權(quán)威機(jī)構(gòu)預(yù)測,2025年全球OCR市場規(guī)模將達(dá)到133.81億美元。
方便易用的文字識別工具—— QQ
邱元陽:雖然各種OCR軟件層出不窮,軟件功能也越來越強(qiáng)大,識別速度和準(zhǔn)確率也在不斷提高,但是很多時(shí)候,我們需要的是一款隨手可用的文字識別工具。
在PC版的QQ中,新增了“屏幕識圖”功能,可以用屏幕截圖的方式來識別屏幕上任意可見區(qū)域的文字。這一功能位于截圖功能組,快捷鍵是“Ctrl+Alt+O”。
QQ的屏幕識圖其實(shí)就是一種OCR功能,只是內(nèi)置到QQ軟件中了。對辦公一簇來說,QQ是計(jì)算機(jī)上必備的軟件,有了文字識別功能,可以非常方便地解決網(wǎng)頁文字不能復(fù)制、圖片文字不能提取等常見問題,只要是屏幕上能看到的文字,都可以通過它來識別并復(fù)制下來。這比很多OCR軟件需要加載圖片和文件來進(jìn)行識別要簡便得多,并且不需要安裝專門的軟件。
在手機(jī)版的QQ中,也有類似的文字識別功能。點(diǎn)擊右上角的“+”號,用手機(jī)“掃一掃”,再點(diǎn)擊屏幕下方的“轉(zhuǎn)文字”,按提示拍下需要提取的文字,軟件即開始進(jìn)行文字識別。識別完成后,可以復(fù)制文字,或者提取全文,導(dǎo)出文檔。
無論是PC版還是手機(jī)版QQ,其文字識別功能都能在識別后進(jìn)行編輯,以糾正識別錯(cuò)誤,并且還能即時(shí)進(jìn)行文字翻譯。
日常辦公軟件中的OCR工具——OneNote和WPS
金琦:從OCR使用體驗(yàn)上來說,我們?nèi)粘6枷矚g放將辦公素材在Office軟件中編輯,如果能脫離第三方軟件,即在辦公文檔里中添加圖片,就可以隨用隨取圖片中的文字素材,在需要用的時(shí)候復(fù)制粘貼即可,這樣辦公操作豈不是更加方便?那怎么識別辦公文檔中的圖片文字呢?我們從兩大辦公軟件,即微軟Office系列和金山WPS Office來說明。
在安裝最新的微軟Office產(chǎn)品時(shí),大家可以看到是有OCR文字識別工具安裝選項(xiàng),但讀者會(huì)發(fā)現(xiàn)安裝完畢后找不到單獨(dú)的OCR文字識別工具。事實(shí)上OCR文字識別功能可在微軟Office中的OneNote組件中調(diào)用。以微軟OneNote 2016為例,可以右擊要識別的圖片,選擇“復(fù)制圖片中的文本”,就可以直接復(fù)制出來,為其他Office辦公套件所用,這就是OCR文字識別工具在微軟辦公產(chǎn)品中的功能體現(xiàn)。
而金山WPS Office則更進(jìn)一步,直接可以使用WPS Office打開各種文檔,如w文字(相當(dāng)于微軟Word)、P演示(相當(dāng)于微軟PowerPoint)等,選擇需要轉(zhuǎn)換的圖片,在“圖片工具”中點(diǎn)擊“圖片轉(zhuǎn)文字”,會(huì)進(jìn)入到“金山OCR文字識別”功能。而且相對于微軟辦公產(chǎn)品有更多的轉(zhuǎn)換方式(提取文字、轉(zhuǎn)換文檔、轉(zhuǎn)換表格)可選。
隨手可用的OCR——在線識別
劉宗凡:如果我們不想在計(jì)算機(jī)上安裝軟件,只要能連上網(wǎng)絡(luò),就可以嘗試直接在線進(jìn)行文字識別。筆者推薦兩個(gè)網(wǎng)站。
(1)OCR Spaceh(網(wǎng)址 ttps://ocr.space/)。
操作步驟如下:
①在 Upload image or PDF file (.png,.jpg,.webp or .PDF)后的文本框點(diǎn)擊“選擇文件”。
②在Language后的下拉框中選擇語言,如果是中文選擇“ChineseSimplified”。
③在“Select OCR Engine to use:”選擇OCR引擎。默認(rèn)引擎1速度快,支持語言多;引擎2對數(shù)字和特殊符號識別更好。
④點(diǎn)擊“Start OCR!”,開始進(jìn)行識別,結(jié)果將在下面的文本框中顯示。可以下載相應(yīng)的文本文件(TXT)。
這個(gè)網(wǎng)站的優(yōu)點(diǎn)是沒有任何限制,對中、英文印刷體的識別率非常高。不足之處是識別結(jié)果只有文本文件下載,對排版的保留不是很完美;另一個(gè)不足是對中文手寫體基本無法識別。
(2)極客在線OCR(網(wǎng)址:http://www.gkocr.com/)。
極客對印刷體的識別率非常高,但有每天10張圖片識別的限制,另外識別結(jié)果也只有文本文件格式。極客對中文手寫體的識別率可以達(dá)到85%左右。
OCR軟件的不足之處
邱元陽:目前的OCR軟件,其文字識別還不夠智能化,對識別后的結(jié)果沒有進(jìn)行語法校對,經(jīng)常會(huì)把“一”“-”“_”等類似符號混淆,這幾乎是所有常見OCR軟件的通病。
識別錯(cuò)誤在所難免,但是糾錯(cuò)過程完全交給用戶,不僅會(huì)加重用戶的負(fù)擔(dān),還會(huì)出現(xiàn)錯(cuò)誤遺漏。錯(cuò)誤較多時(shí),甚至比重新輸入一遍都耗時(shí)耗力。目前的語音輸入識別率非常高,當(dāng)需要OCR識別的內(nèi)容比較短小時(shí),普通話較好的用戶可以直接把屏幕上的文字朗讀一遍,基本上就能完全識別了。
智能化不足還體現(xiàn)在對背景的識別和處理上。大多數(shù)OCR軟件并不能直接忽略背景,而是通過二值化和降噪算法來消除背景的影響,但是并不能完全去除復(fù)雜的背景,因而會(huì)直接影響最終的識別結(jié)果。特別是背景中有雜亂的線條甚至是干擾字符時(shí),幾乎無法處理。這個(gè)缺陷在進(jìn)行網(wǎng)絡(luò)用戶登錄時(shí)身份驗(yàn)證的設(shè)計(jì)上被利用起來,開發(fā)所謂的“圖片驗(yàn)證碼”,用于解決避免程序化登錄的問題。這些圖片驗(yàn)證碼,用人眼是可以識別的,用機(jī)器的OCR幾乎都無法識別,很好地解決了防止用機(jī)器和程序代替人進(jìn)行網(wǎng)上批量登錄的問題。
二值化處理的另一個(gè)問題是,有時(shí)要識別的主體文字是一種特殊的顏色,人工肉眼識別時(shí)可以很方便地判斷誰是文字誰是背景,但二值化的結(jié)果,卻忽略了文字顏色,自己給自己設(shè)置了識別障礙。
優(yōu)秀的智能化OCR軟件,應(yīng)該能夠判斷出文字主體與背景,直接將文字主體與背景區(qū)分開來,忽略背景和排除干擾圖形之后再進(jìn)行識別,并利用相應(yīng)語言的語法規(guī)則,對識別結(jié)果進(jìn)行自我糾錯(cuò)。
當(dāng)機(jī)器的OCR識別能力與人工識別接近時(shí),OCR的應(yīng)用領(lǐng)域就會(huì)更進(jìn)一步地拓展,甚至?xí)龠M(jìn)計(jì)算機(jī)視覺研究的進(jìn)步。這可能需要人工智能的參與,而不是傳統(tǒng)的識別算法。
OCR雖然在近一百年取得了長足的進(jìn)展,印刷體的識別達(dá)到了非常高的準(zhǔn)確度,但是在目前人工智能正處于初級階段的情況下,OCR功能同樣受到很大的制約。可以預(yù)見,當(dāng)人工智能技術(shù)得到突破的時(shí)候,OCR同樣會(huì)在實(shí)用性上取得突破,期待這一天早日到來。