999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

淺談OCR識別技術在科技檔案管理中的運用

2021-08-06 07:13:02
卷宗 2021年21期
關鍵詞:文本方法

王 瑜

(中國電建集團北京勘測設計研究院有限公司,北京 100024)

OCR文字識別技術的英文全稱是Optical Character Recognition,譯為光學字符識別。OCR文字識別是視覺感知中一個重要的技術,目的是從圖片中提取文字信息。它是利用光學技術和計算機技術把印在或寫在紙上的文字讀取出來,并轉換成一種計算機能夠接受、人也可以理解的格式。文字識別是計算機視覺研究領域的分支之一,這個課題已經在很多行業得到應用。OCR識別技術主要可應用的場景有:教育場景文字識別、卡證文字識別、財務票據文字識別、醫療票據文字識別和汽車場景文字識別。

1 OCR技術的流程

OCR文字識別從本質上可以歸類為序列化標注問題,主要目標是尋找文本串圖形到文本串內容的映射。在工作流程上,《DA/T77-2019紙質檔案數字復制件光學字符識別(OCR)工作規范》已有所規定,主要流程是:

1.1 圖像輸入

首先對圖像的分辨率、傾斜度、清晰度、失真度等方面進行評估,并進行適當的調整。然后把不同的格式和壓縮方式的圖像進行解碼。

1.2 圖像預處理

主要包括二值化、去噪、傾斜矯正等。

1)二值化:圖像錄入設備采集到圖像,一般都是彩色圖像。二值化就是將具有灰度級的彩色圖像轉換為黑白圖像,設定任意的閾值,并與各像素值進行比較,當大于閾值時轉換為黑,小于閾值轉換為白。

2)去噪:主要方法是均值濾波器、自適應維納濾波器、中值濾波器、形態學噪聲濾除器、小波去噪。

3)傾斜矯正:對圖像識別前先對相關的內容進行校正。

1.3 對比識別

1)版式分析:對圖片中文字進行分段落、分行的過程,稱之為版面分析。

2)檔案特征分析:通過分析歸檔章、公文要素分析、表格分析、印章分析等方面對檔案進行分析。

1.4 識別和匹配

以特征提取數據庫對比為主。文字的位移、筆畫的粗細、斷筆、粘連、旋轉等因素極大地增加了特征提取的難度。

1.5 成果整理輸出

1)成果整理:按照紙質檔案數字復制件的版式對OCR成果的版式、公文要素、文字符號等內容進行理解與重建。

2)成果輸出:將檔案OCR成果同時保存為純文本形式和雙層版式文件形式。

2 OCR技術在科技檔案管理中運用的幾種場景

OCR識別在檔案場景的應用,主要針對兩方面:著錄項數據抓取方面和全文OCR識別。在檔案文件元數據抓取的方面的OCR識別技術的應用可以參考卡證文字識別,即把OCR技術和檔案系統集成,讓OCR識別出的文字直接被收錄到相應的部位。這一點科技檔案出版格式的高度標準化給OCR識別帶來了方便。因為文字識別的主要目標是對定位好的文字區域進行識別,主要解決的是將一串文字圖片轉錄為對應的字符的問題。以圖紙圖簽中用于填寫著錄項目數據抓取為例,如圖1所示。在圖紙的圖簽中,我們可以把圖簽按照原有框格把每一個框格都切割成多個框格,對應框格內獲得圖紙名稱、圖號、設計人、制圖人、校核人、審核人等信息。那么在檔案著錄時就可以靠定位和對信息的分析,尋找圖簽上我們需要的信息,然后導入檔案系統中相應的著錄項里。

OCR技術在科技檔案管理中另一個非常重要的運用場景就是全文識別了。全文識別給檔案的利用提供了便利。就我們自己單位來說,曾經在有人需要利用檔案的時候,只能對著錄項中著錄的內容進行檢索,這就需要提供相對準確的圖號或關鍵詞等信息,如果相應關鍵詞關聯的檔案太多,就需要人工篩選。而且沒有全文檢索,也很難再借閱前知道文件內是否有自己需要的內容,不解決這些問題,檔案部門沒辦法提供良好的檔案利用服務。

3 OCR識別技術在科技檔案管理的過程中遇到的問題

3.1 早期檔案不清楚

最近形成的科技檔案紙張干凈、印刷清楚,給OCR識別技術提供了良好的環境。但是早期的檔案就存在紙張泛黃、印刷模糊等問題。甚至很多檔案在最初形成的時候所處環境就極度惡略,比如一些檔案,是在工地上直接形成的,工地上條件不好,檔案也有明顯被水浸泡過的情況,或者沾上了其他的污漬,甚至皺皺巴巴的情況。這就給OCR識別帶來了困難。

3.2 文字難以識別

在科技檔案中存在很多數學公式。另外有的科技檔案是手寫的,雖然文字清晰,但是并不是常規的印刷體。另外檔案中文字的排版也有各種各樣的種類,還有表格和圖片也給OCR識別技術帶來了挑戰。

4 解決辦法

4.1 早期檔案不清楚的問題的解決

1)圖片預處理:對于模糊不清的檔案,在數字化掃描過程中,首先應該嚴格按照《DA/T31-2017紙質檔案數字化規范》執行,如為了最大限度保留檔案原件信息,便于多種方式的利用,需要采用彩色模式進行掃描,如果頁面為黑白兩色,也可以采用黑白二值或灰度模式掃描,掃描分辨率應不小于200dpi。褶皺不平影響掃描質量的紙質檔案應先進行壓平等相應技術處理。對于掃描后仍然模糊的檔案就需要應用計算機圖片處理的技術來處理了。比如圖片太黃可以調節亮度,模糊可以調高對比度,或者曲線來找到能使圖片變得最清晰的方法。如果需要局部調節則是 用選框工具對想要修改的局部進行框選,再進行上述調節。如果局部邊緣是不規則形狀的話,則需要用鋼筆工具建立選區進行修復。對于局部污漬的處理我認為可以高低頻的方式進行修復。但是這些方法處理圖片太過耗費精力,在操作時可以只對非常模糊的檔案進行此類操作。

2)選擇適應的二值化方法:常見的圖像二值化方法很多目前二值化的方法主要分為全局閾值方法、局部閾值方法和基于深度學習的方法。全局閾值方法常見的有固定閾值方法和Otsu方法,其原理都是通過人工設定的公式直接找出一個合適的統一閾值對圖像進行二值化。局部閾值方法主要有自適應閾值算法、Niblack算法等。是根據像素的臨域塊的像素分布來確定該像素位置上的二值化閾值。這樣做的好處在于每個像素位置處的二值化閾值不是固定不變的,而是由其周圍領域的分布來決定的。基于深度學習的二值化方法主要有全卷積的二值化方法,在圖像分類和圖像檢測等方面取得了巨大的成就和廣泛的應用,傳統的基于CNN的分割方法的做法通常是:為了對一個像素分類,使用該像素周圍的一個圖像塊作為CNN的輸入用于訓練和預測。

3)選擇適應的降噪方法:圖像噪聲是指存在于圖像數據中不必要的或多余的干擾信息,產生于圖像的采集、量化或傳輸過程,對圖像的后處理、分析均會產生極大的影響,因此一種好的去噪方法在去除噪聲的同時,還需要保持圖像的邊界和細節。早期的去噪方法多為空間濾波,隨著度學習的不斷發展,基于神經網絡的方法不斷涌現。去噪方法很多可以通過實際需要進行選擇。

4.2 文字難以識別的問題的解決

文字識別時首先要做到把圖像增強,常用的圖像增強方法有PCA抖動、顏色增強。隨機尺度變換、隨機剪裁、平移變換等。另外還可以利用深度學習的方法對圖像中的文字進行處理。深度學習方法是合成自然場景文本的方法,非常適合于文字識別。在自然場景中,除了手寫字,大部分文本都市由計算機生成的,只有物理渲染和成像過程不受計算機算法控制。合成的圖像樣本可以由圖像前景層、圖像背景層、邊緣、陰影組合而成。主要可分為如下六步:

1)字體渲染:隨機選取字體,將文本沿著水平文本線或隨機曲線呈現到圖像前景層中。

2)描邊、加陰影、著色:選擇字體,將文本沿水平文本線或隨機曲線呈現到圖像前景層。

3)基礎著色:三個圖像層中的每一層都填充從自然圖像簇中采集的不同均勻色。

4)仿射投影扭曲:對前景和便捷圖像層進行隨機的全息投影變換,模擬3D環境。

5)自然數據混合:每個圖層均從ICDAR203和SVT訓練數據集隨機采樣的圖像進行混合。混合方式與混合程度隨機決定。該操作會產生折中的紋理和組合范圍。三個圖像通道也以隨機方式混合在一起,提供單個輸出圖像通道。

6)加噪聲:應用高斯噪聲、模糊和JPEG壓縮等方法為圖像加噪聲。

5 結語

2020年4 月,工信部印發《關于工業大數據發展的指導意見》,同年5月中宣部改辦下發了《關于做好國家文化大數據體系建設工作的通知》足可見國家大力發展信息化產業的決心。近年來數字檔案館的建設、各項規章制度的發布,都像是在督促我們不斷學習不斷進步,只有這樣才能跟上我們所熱愛的檔案事業進步的腳步,一起成長。

猜你喜歡
文本方法
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
學習方法
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
可能是方法不對
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
主站蜘蛛池模板: 精品国产黑色丝袜高跟鞋| 五月婷婷综合网| 亚洲h视频在线| 亚洲成人黄色在线观看| 经典三级久久| 国产毛片片精品天天看视频| 国产成人91精品| 人妻熟妇日韩AV在线播放| 欧美综合中文字幕久久| 亚洲国产欧美国产综合久久| 亚洲欧洲免费视频| www.狠狠| 国产精品久久精品| 色亚洲成人| 97免费在线观看视频| 亚洲欧美一区二区三区蜜芽| 久久精品日日躁夜夜躁欧美| 亚洲一区二区日韩欧美gif| 99手机在线视频| 26uuu国产精品视频| 国产91蝌蚪窝| 无码AV动漫| 久久久精品国产亚洲AV日韩| 呦女亚洲一区精品| 国产真实乱人视频| 鲁鲁鲁爽爽爽在线视频观看| 91免费精品国偷自产在线在线| 亚洲综合久久一本伊一区| 日韩精品欧美国产在线| 天天综合网站| 亚洲三级影院| 91精品视频网站| 亚洲综合在线网| 三上悠亚一区二区| 精品久久久久久久久久久| 久久人午夜亚洲精品无码区| 欧美第二区| 色哟哟精品无码网站在线播放视频| 国产成人精彩在线视频50| 一本大道无码日韩精品影视 | 麻豆精品在线| 国产色图在线观看| 亚洲天堂视频网站| 久久久精品无码一二三区| 亚洲免费黄色网| 五月婷婷丁香色| 露脸真实国语乱在线观看| 免费国产不卡午夜福在线观看| 亚洲国产综合精品一区| 99久久精品国产自免费| 国产视频大全| 理论片一区| 成年av福利永久免费观看| 91九色视频网| 欧美色综合网站| yy6080理论大片一级久久| 久久频这里精品99香蕉久网址| 激情乱人伦| 国产精品不卡永久免费| 成人午夜亚洲影视在线观看| 中文字幕有乳无码| 久久国产高清视频| 色婷婷成人网| 国产欧美视频综合二区| 91久久偷偷做嫩草影院电| 亚洲欧美不卡中文字幕| 欧美日韩亚洲综合在线观看| 国产性生大片免费观看性欧美| 国产精品偷伦视频免费观看国产| 九九热免费在线视频| 人人91人人澡人人妻人人爽| 午夜福利无码一区二区| 亚洲开心婷婷中文字幕| 日本免费新一区视频| 欧美日韩免费观看| 国产最爽的乱婬视频国语对白| 国产免费福利网站| 福利一区在线| 国产午夜福利亚洲第一| JIZZ亚洲国产| 国产免费精彩视频| 国产精品一区二区国产主播|