石會鵬,丁鮮花,劉國英
(國家無線電監(jiān)測中心,北京 100037)
電波衛(wèi)士
空間業(yè)務(wù)檔案數(shù)字化與全文檢索系統(tǒng)的研究
石會鵬,丁鮮花,劉國英
(國家無線電監(jiān)測中心,北京 100037)
本文基于OCR技術(shù)和全文檢索服務(wù)器SOLR搭建了一個空間無線電業(yè)務(wù)檔案數(shù)字化和全文檢索系統(tǒng),分別介紹了文檔掃描識別、智能分析、狀態(tài)管理和檢索查詢等功能模塊,并分析了系統(tǒng)實(shí)現(xiàn)的關(guān)鍵技術(shù)。
空間業(yè)務(wù)檔案;OCR;全文檢索
在空間無線電業(yè)務(wù)管理過程中,有很多紙質(zhì)公文,這些紙質(zhì)文件存儲與檢索起來非常困難。目前,國內(nèi)外在檔案數(shù)字化管理方面已經(jīng)做了很多相關(guān)研究,在檔案數(shù)字化過程中使用光學(xué)字符識別(OCR)技術(shù),從而實(shí)現(xiàn)真正的全文檢索[1]。在專利文獻(xiàn)數(shù)字化中,文獻(xiàn)[2]以O(shè)CR校對詞典和技術(shù)領(lǐng)域特征為基礎(chǔ),利用中文分詞、隱馬爾科夫模型設(shè)計(jì)OCR校對框架,設(shè)計(jì)一種OCR中文文本的拼寫校對方法;文獻(xiàn)[3]基于全文搜索服務(wù)器Solr構(gòu)建一個專利在線檢索與分析系統(tǒng);文獻(xiàn)[4]將Solr應(yīng)用于中文農(nóng)業(yè)期刊文摘檢索系統(tǒng),研究了Solr的本地化部署、索引文件創(chuàng)建等。
本文基于OCR技術(shù)和全文檢索技術(shù),設(shè)計(jì)開發(fā)一套空間業(yè)務(wù)紙質(zhì)檔案數(shù)字化和全文檢索系統(tǒng),能夠批量掃描各類文件,自動識別中英文字符,實(shí)現(xiàn)關(guān)鍵詞檢索和全文檢索,并可對各類往來函件進(jìn)行分析。該系統(tǒng)可以提高空間無線電業(yè)務(wù)管理工作中檔案檢索的效率。
空間業(yè)務(wù)檔案數(shù)字化和全文檢索系統(tǒng)不僅可以完成函件的掃描、OCR識別與全文檢索功能,還能發(fā)揮計(jì)算機(jī)處理文件的優(yōu)勢,提高檢索效率,對標(biāo)準(zhǔn)格式函件進(jìn)行屬性提取,跟蹤文件處理過程,對檔案進(jìn)行統(tǒng)計(jì)分析。系統(tǒng)主要功能如圖1所示。

圖1 系統(tǒng)功能
系統(tǒng)分為掃描模塊、圖片處理模塊、OCR識別模塊、人工校對模塊、文件狀態(tài)管理模塊、文件智能分析模塊、檢索查詢模塊和用戶管理模塊,各模塊分布在局域網(wǎng)上,組成一個分布式系統(tǒng),兼有C/S模式和B/S模式。系統(tǒng)結(jié)構(gòu)設(shè)計(jì)如圖2所示。

圖2 系統(tǒng)結(jié)構(gòu)設(shè)計(jì)
上述模塊的具體功能分別為:
(1)掃描模塊。在掃描工作站運(yùn)行,它將紙質(zhì)文件數(shù)字化。掃描的質(zhì)量直接關(guān)系到數(shù)字化文件的質(zhì)量,根據(jù)紙質(zhì)文件的狀況選擇合適的掃描方式和掃描參數(shù),從而產(chǎn)生清晰的掃描圖片。
(2)圖片處理模塊。在識別工作站運(yùn)行,它對掃描圖片進(jìn)行處理,著重對圖像偏斜度、清晰度、失真度進(jìn)行檢查。處理完成后,選擇合適的圖像格式進(jìn)行存儲,存儲時(shí)在保證其圖像質(zhì)量的前提下采取合適的圖像壓縮編碼技術(shù)減少圖片的存儲容量。
(3)OCR識別模塊。在識別工作站運(yùn)行,它將圖像格式轉(zhuǎn)換成可編輯的文本格式,為了能閱讀原文,本系統(tǒng)將文件轉(zhuǎn)換成雙層PDF格式。識別模塊將含有文字的圖像按字切割成可獨(dú)立識別的單元,然后運(yùn)用各種算法分析每個圖像單元中文字的形態(tài)特征,通過比對標(biāo)準(zhǔn)特征庫中的數(shù)據(jù),判斷出該文字在計(jì)算機(jī)中的標(biāo)準(zhǔn)編碼,并按通用格式保存在文本文件中。
(4)人工校對模塊。在校驗(yàn)工作站運(yùn)行,它是OCR工作中最關(guān)鍵和最重要的環(huán)節(jié),因?yàn)樵俸玫腛CR識別系統(tǒng),也會有識別誤差,為了確保識別出的文件的完整性和正確性,必須將識別出的文字和原始圖像進(jìn)行仔細(xì)對照校驗(yàn),只有這樣,才能確保識別出的文件正確無誤。
(5)文件狀態(tài)管理模塊。在管理服務(wù)器運(yùn)行,它定期提醒管理員待處理的文件,并要求對文件的狀態(tài)進(jìn)行標(biāo)注。
(6)文件智能分析模塊。在管理服務(wù)器運(yùn)行,它根據(jù)預(yù)設(shè)的算法自動提取文件主題、發(fā)文日期、發(fā)文單位等文件基本信息,并結(jié)合預(yù)設(shè)的多種分析指標(biāo),對查詢結(jié)果進(jìn)行多角度的分析與展示。
(7)檢索查詢模塊。在管理服務(wù)器運(yùn)行,它通過掃描文章中的每一個詞,對每一個詞建立一個索引,指明該詞在文章中出現(xiàn)的次數(shù)和位置,當(dāng)用戶查詢時(shí),檢索程序就根據(jù)事先建立的索引進(jìn)行查找,并將查找的結(jié)果反饋給用戶。可建立索引、增加索引、優(yōu)化索引結(jié)構(gòu)。
(8)用戶管理模塊。在管理服務(wù)器運(yùn)行,它的功能是管理用戶權(quán)限和驗(yàn)證用戶權(quán)限。
4.1 硬件設(shè)備
硬件設(shè)備中,掃描工作站、識別工作站、校驗(yàn)工作站可以使用普通微機(jī),管理服務(wù)器需要使用中高檔服務(wù)器設(shè)備。
掃描工作站除需要一臺微機(jī)外,還需要連接一臺高速掃描儀。掃描儀的掃描幅面最大為A4,其進(jìn)紙槽容量不應(yīng)低于100頁,日掃描量應(yīng)不低于5,000頁,圖像輸出為黑白圖像,掃描后同時(shí)輸出一個黑白和一個灰度圖象,黑白圖象用于識別,灰度圖象用于存檔。
4.2 關(guān)鍵技術(shù)
本系統(tǒng)有兩個關(guān)鍵技術(shù):OCR掃描識別技術(shù)和全文檢索技術(shù)。
(1)OCR掃描識別技術(shù)。OCR即光學(xué)字符識別,其原理是通過專業(yè)軟件將含有文字的圖像按字切割成可獨(dú)立識別的單元,然后運(yùn)用各種算法分析每個圖像單元中文字的形態(tài)特征,通過比對標(biāo)準(zhǔn)特征庫中的數(shù)據(jù),判斷出該文字在計(jì)算機(jī)中的標(biāo)準(zhǔn)編碼,并按通用格式輸出保存在文本文件中。目前,國內(nèi)外已經(jīng)對印刷體和手寫體字符的識別展開了廣泛的研究。從技術(shù)提供角度看,真正掌握OCR核心技術(shù),具有自主知識產(chǎn)權(quán)的企業(yè)并不多,文通科技和漢王科技是在國內(nèi)具影響力且有獨(dú)立知識產(chǎn)權(quán)的兩家企業(yè),一些常見的OCR軟件便是以這兩家技術(shù)為內(nèi)核開發(fā)的OCR應(yīng)用。國外較有影響力且有獨(dú)立知識產(chǎn)權(quán)的OCR企業(yè)有ABBYY和IRIS。選擇產(chǎn)品時(shí)一方面要考慮識別的準(zhǔn)確率和速度,另一方面要考慮操作的便利性,如是否可以批量識別。
(2)全文檢索技術(shù)。全文檢索是將全部文件的任意文本信息查找出來的檢索,可以通過三種方法實(shí)現(xiàn)全文檢索過程:一是使用SQL語句中的Like條件查詢,這是最簡單的全文檢索方法;二是利用數(shù)據(jù)庫系統(tǒng)提供的全文檢索功能,SQL Server,Oracle,MySQL等數(shù)據(jù)庫系統(tǒng)都提供全文檢索功能,通過一定的配置,可以對文本字段進(jìn)行全文檢索;三是使用全文搜索引擎,它通常使用倒排索引技術(shù),經(jīng)過復(fù)雜的運(yùn)算為海量的原始資料建立索引,提供強(qiáng)大的全文檢索功能。Solr是一個基于Apache Lucene的應(yīng)用廣泛的開源搜索平臺。它具備眾多企業(yè)級功能特性,如高性能的全文搜索、基于XML的靈活配置和管理、支持多客戶端語言、索引復(fù)制、查詢緩存、對富文本的解析與索引、日志記錄以及可擴(kuò)展的插件體系等,它以Lucene的良好索引性能為基礎(chǔ),提供了強(qiáng)大的全文檢索、高亮顯示、分面搜索、動態(tài)聚類以及分布式檢索和索引復(fù)制等功能。
本文從系統(tǒng)功能、系統(tǒng)結(jié)構(gòu)設(shè)計(jì)以及系統(tǒng)實(shí)現(xiàn)等方面闡述了空間業(yè)務(wù)檔案數(shù)字化和全文檢索系統(tǒng)的分析與設(shè)計(jì),并對系統(tǒng)軟硬件采購選型關(guān)鍵要點(diǎn)進(jìn)行了歸納,確保了項(xiàng)目設(shè)計(jì)的準(zhǔn)確性和建設(shè)目標(biāo)的實(shí)現(xiàn)。后續(xù)工作中,在OCR校對方面,需要進(jìn)一步研究如何通過校對訓(xùn)練,根據(jù)分類和錯誤詞統(tǒng)計(jì)形成OCR校對詞典,提高文件數(shù)字化的效率和質(zhì)量。在全文檢索方面,需要進(jìn)一步研究索引字段的設(shè)置,以提高檢索的查全率和查準(zhǔn)率。
[1] 許呈辰.檔案數(shù)字化過程中OCR技術(shù)的應(yīng)用[J].檔案管理,2011.188:38-40
[2] 任智軍,扈林芳.專利文獻(xiàn)OCR校對方法研究[J].情報(bào)雜志,2011.30:182-184
[3] 劉春江,劉丹軍,文奕.基于Solr的專利在線分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].現(xiàn)代圖書情報(bào)技術(shù),2013(2):88-92
[4] 鮮國建,趙瑞雪.基于Solr的中文農(nóng)業(yè)期刊文摘檢索系統(tǒng)的構(gòu)建研究[J].現(xiàn)代圖書情報(bào)技術(shù),2011(6):51-58
Research of Space Service File Digitization and Full-text Search System
Shi Huipeng, Ding Xianhua, Liu Guoying
(State Radio Monitoring Center, Beijing, 100037, China)
This paper builds a space service file digitization and full-text search system based on the OCR and full-text search server SOLR. The paper respectively introduces the functional modules such as scanned document recognition, intelligent analysis, state management and retrieval query, and analyses the key technical problems in realizing the system.
Space Service File; OCR; Full-text Search
10.3969/J.ISSN.1672-7274.2015.08.014
TP391.3
A
1672-7274(2015)08-0050-03
石會鵬,男,1986年生,碩士,國家無線電監(jiān)測中心助理工程師,主要從事衛(wèi)星頻率軌道資源管理以及相關(guān)研究工作。
丁鮮花,女,1980年生,碩士,國家無線電監(jiān)測中心陜西監(jiān)測站工程師。
劉國英,女,1988年生,碩士,國家無線電監(jiān)測中心陜西監(jiān)測站助理工程師。