999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于OCR技術(shù)的文本數(shù)據(jù)質(zhì)量控制研究

2024-07-29 00:00:00劉耀萱
中國(guó)信息化 2024年6期

文本數(shù)據(jù)質(zhì)量的發(fā)展離不開(kāi)海量的原生數(shù)據(jù)和網(wǎng)絡(luò)原生數(shù)字資源的支持。原生數(shù)據(jù)包括業(yè)務(wù)數(shù)據(jù)、文獻(xiàn)數(shù)據(jù)和用戶數(shù)據(jù)三大類型。其中,文本數(shù)據(jù)是支撐文獻(xiàn)數(shù)據(jù)搜索引擎和知識(shí)化資源系統(tǒng)建設(shè)的主要對(duì)象。目前對(duì)于文本數(shù)據(jù)質(zhì)量控制存在流程復(fù)雜、數(shù)量巨大和技術(shù)效率要求較高的問(wèn)題,OCR識(shí)別技術(shù)因此備受關(guān)注,其采用人工智能的輔助算法,OCR可以提高其兼容性。本文通過(guò)綜述OCR 技術(shù)的識(shí)別工作過(guò)程、關(guān)鍵技術(shù)、研究思路及在不同種類文獻(xiàn)中的廣泛應(yīng)用,表明通過(guò)改善OCR技術(shù)可以提高對(duì)于文本數(shù)據(jù)的識(shí)別效率和準(zhǔn)確度,實(shí)現(xiàn)文本數(shù)據(jù)的智能管理化。

一、OCR技術(shù)與全文本數(shù)據(jù)質(zhì)量控制

(一)OCR技術(shù)原理及其發(fā)展

OCR技術(shù)即光學(xué)字符識(shí)別,是一種將圖像文字轉(zhuǎn)換為可編輯文本的技術(shù),方法包括兩個(gè)主要環(huán)節(jié):首先是圖像處理過(guò)程,利用掃描儀、數(shù)碼相機(jī)等電子設(shè)備,通過(guò)光學(xué)和電子信息技術(shù)將印在或?qū)懺诩埳系奈淖洲D(zhuǎn)化為點(diǎn)陣圖像,以檢測(cè)亮暗的方式來(lái)確定字符間的輪廓形狀。通過(guò)字符識(shí)別研究文字形狀特征,最終轉(zhuǎn)化為計(jì)算機(jī)語(yǔ)言文字。OCR的實(shí)現(xiàn)過(guò)程融合了人工智能、數(shù)字圖像處理以及計(jì)算機(jī)圖形處理等多種先進(jìn)信息技術(shù)。隨著互聯(lián)網(wǎng)和人工智能技術(shù)的不斷發(fā)展,OCR識(shí)別技術(shù)己經(jīng)可以從識(shí)別特定文字發(fā)展到對(duì)文字進(jìn)行高精度的識(shí)別,識(shí)別速度大幅提高,對(duì)于清晰工整的文字圖像識(shí)別準(zhǔn)確率甚至可以達(dá)到99.5%以上。

(二) OCR技術(shù)應(yīng)用現(xiàn)狀

目前OCR 技術(shù)根據(jù)識(shí)別類型主要?jiǎng)澐譃橹形暮?jiǎn)繁體識(shí)別、中英文混合識(shí)別、大字符識(shí)別、表格識(shí)別、圖文混排文檔識(shí)別;根據(jù)識(shí)別對(duì)象的字體上可以劃分為印刷體識(shí)別、手寫(xiě)體識(shí)別等,甚至還可以識(shí)別視頻圖像文字。OCR技術(shù)的發(fā)展?jié)M足了用戶對(duì)于文字自動(dòng)識(shí)別的需求,廣泛應(yīng)用于我國(guó)各行各業(yè),包括金融機(jī)構(gòu)、政府醫(yī)療、圖書(shū)館、檔案館等單位。網(wǎng)頁(yè)識(shí)圖,AI 智能輸入法,快遞單號(hào)識(shí)別系統(tǒng),高速公路ETC 通道車(chē)牌自動(dòng)識(shí)別,圖書(shū)館書(shū)刊報(bào)全文數(shù)字化等,實(shí)際上都是利用OCR 技術(shù)原理來(lái)解決實(shí)際問(wèn)題。

二、OCR全文本數(shù)據(jù)質(zhì)量控制的難點(diǎn)與問(wèn)題

本段主要以筆者在實(shí)際工作中質(zhì)檢不同類型的文獻(xiàn)數(shù)據(jù)為例,通過(guò)闡述文獻(xiàn)數(shù)據(jù)驗(yàn)收中發(fā)現(xiàn)的主要問(wèn)題來(lái)分析OCR在全文本數(shù)據(jù)加工中的質(zhì)量控制問(wèn)題。

(一)學(xué)位論文文獻(xiàn)

由于傳統(tǒng)的資源建設(shè)和服務(wù)方式已經(jīng)不能滿足讀者日益增長(zhǎng)的需求,導(dǎo)致學(xué)位論文資源建設(shè)的規(guī)模和國(guó)際影響力顯著下降。因此,重視學(xué)位論文的數(shù)字化,進(jìn)一步加大學(xué)位論文全文本數(shù)據(jù)質(zhì)量控制的建設(shè)勢(shì)在必行。

在實(shí)際驗(yàn)收學(xué)位論文的工作中,主要問(wèn)題存在于論文的英文摘要、英文目錄及其論文文獻(xiàn)標(biāo)引這三部分。由于與漢字相比,外文字母數(shù)量和結(jié)構(gòu)相對(duì)簡(jiǎn)單,但依然存在相似字母與數(shù)字識(shí)別困難的問(wèn)題。例如:V與U、I與J、a與d、c與o、i與L、6與G、L與I,I與1、O與0等。這些字母和數(shù)字由于結(jié)構(gòu)相似,造成較高的識(shí)別錯(cuò)誤率。在經(jīng)過(guò)OCR軟件識(shí)別后需要重點(diǎn)進(jìn)行人工校對(duì)。

在英文詞組切分的方面,O C R軟件在進(jìn)行詞組切分時(shí),如果不能正確切分,就會(huì)導(dǎo)致固定詞組錯(cuò)誤。實(shí)際中常見(jiàn):“Domestic Subscription”識(shí)別為“DomesticSubscription”、“Council of the People′s”識(shí)別為“Councilofthe People′s”等情況。此外,根據(jù)英文的行文習(xí)慣,經(jīng)常存在同一個(gè)單詞分成上下兩行書(shū)寫(xiě)的情況,中間或用連字符(—)或不使用連字符,OCR識(shí)別時(shí)主要依據(jù)“原樣識(shí)別”的原則, 這樣同一個(gè)單詞可能被切分成兩個(gè)單詞,針對(duì)這種情況,應(yīng)采取統(tǒng)一的識(shí)別規(guī)則,如果需要恢復(fù)單詞原意,則需要進(jìn)行針對(duì)性的處理。

在論文文獻(xiàn)的書(shū)寫(xiě)和引用中,存在大量外形相似的標(biāo)點(diǎn)和符號(hào),例如:“, 。 、 .”、 “— _”、“[{ 〈”等。這些標(biāo)點(diǎn)符號(hào)的結(jié)構(gòu)形態(tài)也常與紙張上的污漬雜點(diǎn)相近,OCR識(shí)別過(guò)程中經(jīng)常混淆,造成文本信息錯(cuò)誤。對(duì)于不太常見(jiàn)的符號(hào),例如上角標(biāo)、下腳標(biāo)、波浪線、下劃線、注解中的圈注符號(hào)、漢語(yǔ)拼音的音節(jié)等,大部分OCR識(shí)別軟件在識(shí)別過(guò)程中仍然存在一些問(wèn)題。例如:

(1)“M2”識(shí)別為“M2”,二次方符號(hào)沒(méi)有識(shí)別正確。

(2)“Xīmén ànshā”識(shí)別為“Xīmén Anshā”,漢語(yǔ)拼音的注音符號(hào)沒(méi)有完全識(shí)別。”

(3)“或者標(biāo)明或標(biāo)記”識(shí)別后為 “或者標(biāo)明注或?標(biāo)記“,帶圈文字識(shí)別錯(cuò)誤。

(二)政府公報(bào)文獻(xiàn)

政府公報(bào)是指政府機(jī)關(guān)出版發(fā)行的以登載法令、方針、政策、宣言、聲明、人事任免等各類政府文件為主要內(nèi)容的連續(xù)出版物。政府公報(bào)具有較強(qiáng)的權(quán)威性,因此對(duì)OCR識(shí)別準(zhǔn)確性和內(nèi)容還原度都提出了較高要求。

(三)民國(guó)時(shí)期文獻(xiàn)

民國(guó)時(shí)期文獻(xiàn)涵蓋圖書(shū)、期刊、報(bào)紙、手稿、書(shū)札,還包括海報(bào),老照片、電影、唱片,以及非正式出版的日記、傳單、商業(yè)契約和票據(jù)等。據(jù)初步估算,國(guó)內(nèi)民國(guó)時(shí)期文獻(xiàn)數(shù)量超過(guò)了存世的古籍總量,它們散落在全國(guó)各地的藏書(shū)機(jī)構(gòu)。隨著時(shí)間的推移和社會(huì)的進(jìn)步,民國(guó)文獻(xiàn)質(zhì)量的保護(hù)與利用越來(lái)越受到重視。其中文獻(xiàn)數(shù)字化的質(zhì)檢工作,是保障數(shù)據(jù)質(zhì)量的最后一個(gè)環(huán)節(jié),OCR軟件對(duì)于全文本數(shù)據(jù)質(zhì)量的控制問(wèn)題尤為關(guān)鍵。

在質(zhì)檢工作中,民國(guó)文獻(xiàn)數(shù)據(jù)質(zhì)檢內(nèi)容分為目次數(shù)據(jù)和圖像數(shù)據(jù)兩部分。目次數(shù)據(jù)的問(wèn)題主要集中在元數(shù)據(jù)中的book表和catalog表中,例如:book表中,book_ name為“人格修養(yǎng)法”,原書(shū)上實(shí)際顯示為“獨(dú)立自尊人格修養(yǎng)法合冊(cè),catalog表中chapter_name識(shí)別為“復(fù)活后第五主日即升天前主日”,原書(shū)上實(shí)際應(yīng)為“耶穌升天前主日”、 catalog表中chapter _name識(shí)別為“器物妝飾”,原書(shū)上實(shí)際應(yīng)為“器物裝飾”。這種漏識(shí)、多識(shí)、錯(cuò)識(shí)的情況常見(jiàn)于經(jīng)過(guò)OCR軟件識(shí)別后的書(shū)目目次數(shù)據(jù)中。

對(duì)于圖像數(shù)據(jù),其主要問(wèn)題多存在于書(shū)中表格識(shí)別和科學(xué)公式還原的問(wèn)題上:

1.不同種類易錯(cuò)表格問(wèn)題及控制辦法

對(duì)于簡(jiǎn)單樣式的表格,其有若干條標(biāo)志性的表格線且內(nèi)容屬于一對(duì)一的關(guān)系,在實(shí)踐中可以不轉(zhuǎn)換表格格式,按照整體合并內(nèi)容;對(duì)于復(fù)雜樣式的表格,表格里的內(nèi)容存在一對(duì)多的關(guān)系,且缺少表格線作為標(biāo)記,在實(shí)踐中可將表格整體作為圖片進(jìn)行處理。當(dāng)然,也可以采用文本編輯的方式重新按照原樣繪制表格。對(duì)表格采取何種處理方式,主要是根據(jù)數(shù)據(jù)文件的格式、用途而定,根本原則是避免識(shí)別后表格中文字內(nèi)容漏識(shí)、錯(cuò)識(shí)以及對(duì)應(yīng)關(guān)系識(shí)別錯(cuò)亂等問(wèn)題。

2.科學(xué)公式還原問(wèn)題及控制辦法

政府公報(bào)發(fā)布的一些文件中包含科學(xué)公式,由于科學(xué)公式通常采用特殊符號(hào)或采用特殊結(jié)構(gòu),僅通過(guò)自動(dòng)識(shí)別難以達(dá)到完整正確還原公式的目的。一些公式經(jīng)過(guò)自動(dòng)識(shí)別,其格式不能完全還原,導(dǎo)致公式含義發(fā)生變化。針對(duì)這種情況,在實(shí)踐中可以采取格式轉(zhuǎn)換的方式,將固定格式的公式按照其科學(xué)含義轉(zhuǎn)換成文本文件能夠顯示的樣式。

三、文本數(shù)據(jù)質(zhì)量控制操作建議

OCR 文字識(shí)別系統(tǒng)性能的好壞主要由拒識(shí)率、誤識(shí)率、識(shí)別速度、用戶界面友好性、產(chǎn)品穩(wěn)定性、易用性以及可行性等因素構(gòu)成。本段主要討論如何通過(guò)OCR軟件的工作流程及主要關(guān)鍵技術(shù)來(lái)解決文字“拒識(shí)率”和“誤識(shí)率”這兩個(gè)問(wèn)題,從而提升全文本數(shù)據(jù)的質(zhì)量。

(1)圖像輸入和預(yù)處理。在前期圖像輸入這個(gè)過(guò)程中設(shè)置準(zhǔn)確適合的參數(shù)是后期圖像掃描質(zhì)量高低的關(guān)鍵所在,是決定 OCR文字識(shí)別率高低的重要因素,清晰完整的掃描圖像有助提高后期OCR軟件對(duì)于文字識(shí)別的準(zhǔn)確率。掃描圖像完成后是預(yù)處理過(guò)程:OCR系統(tǒng)對(duì)圖像邊緣進(jìn)行檢測(cè),將傾斜圖像進(jìn)行歸正處理。這個(gè)過(guò)程提高圖像文字的準(zhǔn)確度,利于0CR軟件的識(shí)別,避免文字的“誤識(shí)率”和“拒識(shí)率”。為獲取更清晰的圖像,OCR操作系統(tǒng)會(huì)對(duì)圖像進(jìn)行增強(qiáng)處理,加大圖像顏色對(duì)比度,以便人、機(jī)可以更好地研究分析圖像。

(2)圖像分割。圖像質(zhì)量達(dá)到合格后是對(duì)圖像進(jìn)行分割處理,過(guò)程的目的是為了分離和定位需要識(shí)別的物體,將原本輸入的完整圖像,變成像元圖像進(jìn)行輸出。

(3)圖像特征提取和圖像分類。即將分割后的物體提取系統(tǒng)所需特征,根據(jù)特征進(jìn)行分類。目的是將輸入的信息圖像變化為特征信息進(jìn)行輸出。

OCR系統(tǒng)完成上述操作后,文字可達(dá)到較高的準(zhǔn)確率。未識(shí)別合格的文字是由OCR軟件的“拒識(shí)率”和“誤識(shí)率”等因素造成的,需要后期人工干涉進(jìn)行文字校對(duì)。因此加大后期人工校對(duì)力度是保障文字識(shí)別率提高的關(guān)鍵所在。

結(jié)合文獻(xiàn)中全文本數(shù)據(jù)加工存在的主要問(wèn)題和OCR系統(tǒng)軟件的部分工作流程分析,提高OCR識(shí)別率的方法可從以下四個(gè)方面入手:一是完善OCR軟件系統(tǒng)的預(yù)處理過(guò)程:設(shè)置準(zhǔn)確合適的圖像掃描參數(shù)、利用Photoshop軟件編輯完善圖像,避免圖像文字受到外在因素的干擾,從而提高圖像文字的清晰度,利于0CR軟件的識(shí)別;二是建立完整的字庫(kù)進(jìn)行支持,及時(shí)更新文字字庫(kù),擴(kuò)充字庫(kù)中的生僻漢字也可降低OCR文字識(shí)別軟件的“拒識(shí)率”,從而提高全文本數(shù)據(jù)質(zhì)量;三是建立專門(mén)的錯(cuò)題庫(kù),將典型特殊的問(wèn)題匯總,當(dāng)OCR系統(tǒng)再次遇到同樣錯(cuò)誤時(shí)可有針對(duì)性的避免重復(fù)問(wèn)題發(fā)生;四是加大人工通查校對(duì)力度。目前OCR技術(shù)仍不能做到對(duì)于文本數(shù)據(jù)內(nèi)容百分百正確識(shí)別,后期人工校對(duì)環(huán)節(jié)對(duì)于提高OCR識(shí)別率十分重要。

四、結(jié)語(yǔ)

OCR技術(shù)目前趨于成熟發(fā)展,但仍存在一定的問(wèn)題和局限性,為解決其對(duì)于文本質(zhì)量控制的主要問(wèn)題,本文從OCR技術(shù)原理及其發(fā)展應(yīng)用現(xiàn)狀為出發(fā)點(diǎn),介紹 OCR技術(shù)在實(shí)際中的應(yīng)用,同時(shí)依次以O(shè)CR軟件在學(xué)位論文、民國(guó)文獻(xiàn)、政府公報(bào)數(shù)據(jù)中對(duì)于文本數(shù)據(jù)加工中出現(xiàn)的問(wèn)題為例,分析文本數(shù)據(jù)質(zhì)量的控制問(wèn)題。通過(guò)OCR軟件識(shí)別過(guò)程、關(guān)鍵技術(shù)、研究思路及在多種文獻(xiàn)中的應(yīng)用四個(gè)方面說(shuō)明OCR技術(shù)在文本質(zhì)量控制和管理中的重要作用。通過(guò)匯總分析實(shí)際工作數(shù)據(jù)驗(yàn)收中存在的問(wèn)題,分別從如何解決圖像掃描質(zhì)量問(wèn)題和文字識(shí)別問(wèn)題兩個(gè)角度出發(fā),提出提高文本數(shù)據(jù)質(zhì)量控制操作準(zhǔn)確率的相關(guān)建議。

作者單位: 國(guó)家圖書(shū)館

主站蜘蛛池模板: 一级毛片在线播放免费| 亚洲av中文无码乱人伦在线r| 最新加勒比隔壁人妻| 亚洲日本中文综合在线| 国产成人免费| 日韩av在线直播| 最新国语自产精品视频在| 色一情一乱一伦一区二区三区小说| 国产91高跟丝袜| 精品福利网| 国产99精品久久| 超碰免费91| 色婷婷亚洲十月十月色天| 久久情精品国产品免费| 欧美一区二区自偷自拍视频| 欧美专区日韩专区| 无码中文字幕乱码免费2| 少妇精品网站| 2021精品国产自在现线看| 亚洲国产看片基地久久1024| 亚洲成人在线免费观看| 欧美日韩理论| 欧美激情综合| 国产裸舞福利在线视频合集| 依依成人精品无v国产| 久久这里只精品热免费99| 伊人成人在线| 91蝌蚪视频在线观看| 无码电影在线观看| 亚洲中文字幕久久精品无码一区 | 成年看免费观看视频拍拍| 永久免费AⅤ无码网站在线观看| 亚洲国产中文在线二区三区免| 国产午夜在线观看视频| 日韩小视频在线观看| 青青国产成人免费精品视频| 久久国产精品嫖妓| av大片在线无码免费| 2020最新国产精品视频| 国产精品午夜电影| 欧美中出一区二区| 亚洲无码A视频在线| 国产综合另类小说色区色噜噜| 欧美成人日韩| 国产清纯在线一区二区WWW| 在线另类稀缺国产呦| 五月激情综合网| 亚洲欧美天堂网| 成人国产精品一级毛片天堂| 国产手机在线小视频免费观看| 色偷偷一区二区三区| 亚洲国产成人无码AV在线影院L| 一级片免费网站| 波多野结衣第一页| 毛片免费在线| 成年片色大黄全免费网站久久| 欧美人人干| 日本成人一区| 最新亚洲av女人的天堂| 一级毛片免费播放视频| 国内自拍久第一页| 久久婷婷人人澡人人爱91| 欧美啪啪视频免码| 色婷婷色丁香| 色天堂无毒不卡| 爆乳熟妇一区二区三区| 色婷婷丁香| 青青草久久伊人| 成年人国产网站| 一区二区影院| 久久久波多野结衣av一区二区| 国产理论一区| 欧美色99| 免费看美女毛片| 福利国产微拍广场一区视频在线| 日本欧美中文字幕精品亚洲| 国产成人精品男人的天堂| 精品无码人妻一区二区| 伊人五月丁香综合AⅤ| 久久久久青草大香线综合精品| 54pao国产成人免费视频| 欧美日韩理论|