999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

空間業(yè)務(wù)檔案數(shù)字化與全文檢索系統(tǒng)的研究

2015-01-03 08:03:48石會鵬丁鮮花劉國英
數(shù)字通信世界 2015年8期
關(guān)鍵詞:系統(tǒng)

石會鵬,丁鮮花,劉國英

(國家無線電監(jiān)測中心,北京 100037)

電波衛(wèi)士

空間業(yè)務(wù)檔案數(shù)字化與全文檢索系統(tǒng)的研究

石會鵬,丁鮮花,劉國英

(國家無線電監(jiān)測中心,北京 100037)

本文基于OCR技術(shù)和全文檢索服務(wù)器SOLR搭建了一個空間無線電業(yè)務(wù)檔案數(shù)字化和全文檢索系統(tǒng),分別介紹了文檔掃描識別、智能分析、狀態(tài)管理和檢索查詢等功能模塊,并分析了系統(tǒng)實(shí)現(xiàn)的關(guān)鍵技術(shù)。

空間業(yè)務(wù)檔案;OCR;全文檢索

1 引言

在空間無線電業(yè)務(wù)管理過程中,有很多紙質(zhì)公文,這些紙質(zhì)文件存儲與檢索起來非常困難。目前,國內(nèi)外在檔案數(shù)字化管理方面已經(jīng)做了很多相關(guān)研究,在檔案數(shù)字化過程中使用光學(xué)字符識別(OCR)技術(shù),從而實(shí)現(xiàn)真正的全文檢索[1]。在專利文獻(xiàn)數(shù)字化中,文獻(xiàn)[2]以O(shè)CR校對詞典和技術(shù)領(lǐng)域特征為基礎(chǔ),利用中文分詞、隱馬爾科夫模型設(shè)計(jì)OCR校對框架,設(shè)計(jì)一種OCR中文文本的拼寫校對方法;文獻(xiàn)[3]基于全文搜索服務(wù)器Solr構(gòu)建一個專利在線檢索與分析系統(tǒng);文獻(xiàn)[4]將Solr應(yīng)用于中文農(nóng)業(yè)期刊文摘檢索系統(tǒng),研究了Solr的本地化部署、索引文件創(chuàng)建等。

本文基于OCR技術(shù)和全文檢索技術(shù),設(shè)計(jì)開發(fā)一套空間業(yè)務(wù)紙質(zhì)檔案數(shù)字化和全文檢索系統(tǒng),能夠批量掃描各類文件,自動識別中英文字符,實(shí)現(xiàn)關(guān)鍵詞檢索和全文檢索,并可對各類往來函件進(jìn)行分析。該系統(tǒng)可以提高空間無線電業(yè)務(wù)管理工作中檔案檢索的效率。

2 系統(tǒng)功能

空間業(yè)務(wù)檔案數(shù)字化和全文檢索系統(tǒng)不僅可以完成函件的掃描、OCR識別與全文檢索功能,還能發(fā)揮計(jì)算機(jī)處理文件的優(yōu)勢,提高檢索效率,對標(biāo)準(zhǔn)格式函件進(jìn)行屬性提取,跟蹤文件處理過程,對檔案進(jìn)行統(tǒng)計(jì)分析。系統(tǒng)主要功能如圖1所示。

圖1 系統(tǒng)功能

3 系統(tǒng)結(jié)構(gòu)設(shè)計(jì)

系統(tǒng)分為掃描模塊、圖片處理模塊、OCR識別模塊、人工校對模塊、文件狀態(tài)管理模塊、文件智能分析模塊、檢索查詢模塊和用戶管理模塊,各模塊分布在局域網(wǎng)上,組成一個分布式系統(tǒng),兼有C/S模式和B/S模式。系統(tǒng)結(jié)構(gòu)設(shè)計(jì)如圖2所示。

圖2 系統(tǒng)結(jié)構(gòu)設(shè)計(jì)

上述模塊的具體功能分別為:

(1)掃描模塊。在掃描工作站運(yùn)行,它將紙質(zhì)文件數(shù)字化。掃描的質(zhì)量直接關(guān)系到數(shù)字化文件的質(zhì)量,根據(jù)紙質(zhì)文件的狀況選擇合適的掃描方式和掃描參數(shù),從而產(chǎn)生清晰的掃描圖片。

(2)圖片處理模塊。在識別工作站運(yùn)行,它對掃描圖片進(jìn)行處理,著重對圖像偏斜度、清晰度、失真度進(jìn)行檢查。處理完成后,選擇合適的圖像格式進(jìn)行存儲,存儲時(shí)在保證其圖像質(zhì)量的前提下采取合適的圖像壓縮編碼技術(shù)減少圖片的存儲容量。

(3)OCR識別模塊。在識別工作站運(yùn)行,它將圖像格式轉(zhuǎn)換成可編輯的文本格式,為了能閱讀原文,本系統(tǒng)將文件轉(zhuǎn)換成雙層PDF格式。識別模塊將含有文字的圖像按字切割成可獨(dú)立識別的單元,然后運(yùn)用各種算法分析每個圖像單元中文字的形態(tài)特征,通過比對標(biāo)準(zhǔn)特征庫中的數(shù)據(jù),判斷出該文字在計(jì)算機(jī)中的標(biāo)準(zhǔn)編碼,并按通用格式保存在文本文件中。

(4)人工校對模塊。在校驗(yàn)工作站運(yùn)行,它是OCR工作中最關(guān)鍵和最重要的環(huán)節(jié),因?yàn)樵俸玫腛CR識別系統(tǒng),也會有識別誤差,為了確保識別出的文件的完整性和正確性,必須將識別出的文字和原始圖像進(jìn)行仔細(xì)對照校驗(yàn),只有這樣,才能確保識別出的文件正確無誤。

(5)文件狀態(tài)管理模塊。在管理服務(wù)器運(yùn)行,它定期提醒管理員待處理的文件,并要求對文件的狀態(tài)進(jìn)行標(biāo)注。

(6)文件智能分析模塊。在管理服務(wù)器運(yùn)行,它根據(jù)預(yù)設(shè)的算法自動提取文件主題、發(fā)文日期、發(fā)文單位等文件基本信息,并結(jié)合預(yù)設(shè)的多種分析指標(biāo),對查詢結(jié)果進(jìn)行多角度的分析與展示。

(7)檢索查詢模塊。在管理服務(wù)器運(yùn)行,它通過掃描文章中的每一個詞,對每一個詞建立一個索引,指明該詞在文章中出現(xiàn)的次數(shù)和位置,當(dāng)用戶查詢時(shí),檢索程序就根據(jù)事先建立的索引進(jìn)行查找,并將查找的結(jié)果反饋給用戶。可建立索引、增加索引、優(yōu)化索引結(jié)構(gòu)。

(8)用戶管理模塊。在管理服務(wù)器運(yùn)行,它的功能是管理用戶權(quán)限和驗(yàn)證用戶權(quán)限。

4 系統(tǒng)實(shí)現(xiàn)

4.1 硬件設(shè)備

硬件設(shè)備中,掃描工作站、識別工作站、校驗(yàn)工作站可以使用普通微機(jī),管理服務(wù)器需要使用中高檔服務(wù)器設(shè)備。

掃描工作站除需要一臺微機(jī)外,還需要連接一臺高速掃描儀。掃描儀的掃描幅面最大為A4,其進(jìn)紙槽容量不應(yīng)低于100頁,日掃描量應(yīng)不低于5,000頁,圖像輸出為黑白圖像,掃描后同時(shí)輸出一個黑白和一個灰度圖象,黑白圖象用于識別,灰度圖象用于存檔。

4.2 關(guān)鍵技術(shù)

本系統(tǒng)有兩個關(guān)鍵技術(shù):OCR掃描識別技術(shù)和全文檢索技術(shù)。

(1)OCR掃描識別技術(shù)。OCR即光學(xué)字符識別,其原理是通過專業(yè)軟件將含有文字的圖像按字切割成可獨(dú)立識別的單元,然后運(yùn)用各種算法分析每個圖像單元中文字的形態(tài)特征,通過比對標(biāo)準(zhǔn)特征庫中的數(shù)據(jù),判斷出該文字在計(jì)算機(jī)中的標(biāo)準(zhǔn)編碼,并按通用格式輸出保存在文本文件中。目前,國內(nèi)外已經(jīng)對印刷體和手寫體字符的識別展開了廣泛的研究。從技術(shù)提供角度看,真正掌握OCR核心技術(shù),具有自主知識產(chǎn)權(quán)的企業(yè)并不多,文通科技和漢王科技是在國內(nèi)具影響力且有獨(dú)立知識產(chǎn)權(quán)的兩家企業(yè),一些常見的OCR軟件便是以這兩家技術(shù)為內(nèi)核開發(fā)的OCR應(yīng)用。國外較有影響力且有獨(dú)立知識產(chǎn)權(quán)的OCR企業(yè)有ABBYY和IRIS。選擇產(chǎn)品時(shí)一方面要考慮識別的準(zhǔn)確率和速度,另一方面要考慮操作的便利性,如是否可以批量識別。

(2)全文檢索技術(shù)。全文檢索是將全部文件的任意文本信息查找出來的檢索,可以通過三種方法實(shí)現(xiàn)全文檢索過程:一是使用SQL語句中的Like條件查詢,這是最簡單的全文檢索方法;二是利用數(shù)據(jù)庫系統(tǒng)提供的全文檢索功能,SQL Server,Oracle,MySQL等數(shù)據(jù)庫系統(tǒng)都提供全文檢索功能,通過一定的配置,可以對文本字段進(jìn)行全文檢索;三是使用全文搜索引擎,它通常使用倒排索引技術(shù),經(jīng)過復(fù)雜的運(yùn)算為海量的原始資料建立索引,提供強(qiáng)大的全文檢索功能。Solr是一個基于Apache Lucene的應(yīng)用廣泛的開源搜索平臺。它具備眾多企業(yè)級功能特性,如高性能的全文搜索、基于XML的靈活配置和管理、支持多客戶端語言、索引復(fù)制、查詢緩存、對富文本的解析與索引、日志記錄以及可擴(kuò)展的插件體系等,它以Lucene的良好索引性能為基礎(chǔ),提供了強(qiáng)大的全文檢索、高亮顯示、分面搜索、動態(tài)聚類以及分布式檢索和索引復(fù)制等功能。

5 結(jié)束語

本文從系統(tǒng)功能、系統(tǒng)結(jié)構(gòu)設(shè)計(jì)以及系統(tǒng)實(shí)現(xiàn)等方面闡述了空間業(yè)務(wù)檔案數(shù)字化和全文檢索系統(tǒng)的分析與設(shè)計(jì),并對系統(tǒng)軟硬件采購選型關(guān)鍵要點(diǎn)進(jìn)行了歸納,確保了項(xiàng)目設(shè)計(jì)的準(zhǔn)確性和建設(shè)目標(biāo)的實(shí)現(xiàn)。后續(xù)工作中,在OCR校對方面,需要進(jìn)一步研究如何通過校對訓(xùn)練,根據(jù)分類和錯誤詞統(tǒng)計(jì)形成OCR校對詞典,提高文件數(shù)字化的效率和質(zhì)量。在全文檢索方面,需要進(jìn)一步研究索引字段的設(shè)置,以提高檢索的查全率和查準(zhǔn)率。

[1] 許呈辰.檔案數(shù)字化過程中OCR技術(shù)的應(yīng)用[J].檔案管理,2011.188:38-40

[2] 任智軍,扈林芳.專利文獻(xiàn)OCR校對方法研究[J].情報(bào)雜志,2011.30:182-184

[3] 劉春江,劉丹軍,文奕.基于Solr的專利在線分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].現(xiàn)代圖書情報(bào)技術(shù),2013(2):88-92

[4] 鮮國建,趙瑞雪.基于Solr的中文農(nóng)業(yè)期刊文摘檢索系統(tǒng)的構(gòu)建研究[J].現(xiàn)代圖書情報(bào)技術(shù),2011(6):51-58

Research of Space Service File Digitization and Full-text Search System

Shi Huipeng, Ding Xianhua, Liu Guoying
(State Radio Monitoring Center, Beijing, 100037, China)

This paper builds a space service file digitization and full-text search system based on the OCR and full-text search server SOLR. The paper respectively introduces the functional modules such as scanned document recognition, intelligent analysis, state management and retrieval query, and analyses the key technical problems in realizing the system.

Space Service File; OCR; Full-text Search

10.3969/J.ISSN.1672-7274.2015.08.014

TP391.3

A

1672-7274(2015)08-0050-03

石會鵬,男,1986年生,碩士,國家無線電監(jiān)測中心助理工程師,主要從事衛(wèi)星頻率軌道資源管理以及相關(guān)研究工作。

丁鮮花,女,1980年生,碩士,國家無線電監(jiān)測中心陜西監(jiān)測站工程師。

劉國英,女,1988年生,碩士,國家無線電監(jiān)測中心陜西監(jiān)測站助理工程師。

猜你喜歡
系統(tǒng)
Smartflower POP 一體式光伏系統(tǒng)
WJ-700無人機(jī)系統(tǒng)
ZC系列無人機(jī)遙感系統(tǒng)
北京測繪(2020年12期)2020-12-29 01:33:58
基于PowerPC+FPGA顯示系統(tǒng)
基于UG的發(fā)射箱自動化虛擬裝配系統(tǒng)開發(fā)
半沸制皂系統(tǒng)(下)
FAO系統(tǒng)特有功能分析及互聯(lián)互通探討
連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
一德系統(tǒng) 德行天下
PLC在多段調(diào)速系統(tǒng)中的應(yīng)用
主站蜘蛛池模板: 青青青视频免费一区二区| 国产va欧美va在线观看| 天堂av高清一区二区三区| 波多野结衣视频网站| 热这里只有精品国产热门精品| 欧美www在线观看| 免费在线视频a| 99热国产在线精品99| 特级毛片8级毛片免费观看| 污视频日本| 国产精品专区第1页| 亚洲一区色| 成人免费视频一区| 精品久久久久成人码免费动漫| 大乳丰满人妻中文字幕日本| 免费毛片全部不收费的| 亚洲国产成人久久精品软件| 国产91全国探花系列在线播放| 亚洲乱伦视频| 亚洲综合九九| 美女免费精品高清毛片在线视| 亚洲精品卡2卡3卡4卡5卡区| 啪啪国产视频| 青青草国产在线视频| 伊人AV天堂| 全免费a级毛片免费看不卡| 国产第三区| 成人蜜桃网| 人妻91无码色偷偷色噜噜噜| 免费看美女毛片| 亚洲第一精品福利| a级毛片免费在线观看| 九九久久精品免费观看| 国产剧情伊人| 免费观看成人久久网免费观看| 九一九色国产| 日韩精品一区二区三区视频免费看| 亚洲区欧美区| 波多野结衣AV无码久久一区| 一级毛片免费观看不卡视频| 国内精品一区二区在线观看 | 国产日韩欧美成人| 国产成人在线无码免费视频| 欧美中文字幕第一页线路一| 日本高清在线看免费观看| 无码内射在线| 免费无码AV片在线观看国产| 国产福利免费在线观看| 日本欧美午夜| 四虎永久免费地址在线网站| 亚洲欧美在线精品一区二区| 青青草一区| 国产精品对白刺激| 国产精品欧美日本韩免费一区二区三区不卡 | 日本人妻一区二区三区不卡影院| 亚洲综合色区在线播放2019| 色亚洲成人| 露脸真实国语乱在线观看| 91久久夜色精品国产网站| 欧洲成人在线观看| 亚洲精品无码日韩国产不卡| 99热精品久久| 国产精品永久久久久| 女人18一级毛片免费观看| 日本草草视频在线观看| 日韩无码黄色| 中文字幕人成人乱码亚洲电影| 亚洲天堂视频在线观看免费| 国产网友愉拍精品视频| 国产中文一区二区苍井空| 免费无码AV片在线观看国产| 日日拍夜夜操| 亚洲黄色网站视频| 国产麻豆aⅴ精品无码| 91蜜芽尤物福利在线观看| 国产一线在线| 亚洲午夜国产精品无卡| 国产精品不卡片视频免费观看| 亚洲第一在线播放| 91欧美在线| 亚洲丝袜中文字幕| 国产女人18毛片水真多1|