關鍵詞提取技術在撒拉族文獻數據庫的應用

2013-04-12 00:00:00趙建飛段新安守春

現代電子技術 2013年24期

摘要：在文獻管理和研究中經常會做關鍵詞提取的工作，通過人工的方式進行提取過程繁雜，工程量極大，因此引入一種關鍵詞欲提取的方式，其過程主要采用以下三個步驟：先通過OCR系統對圖片進行識別、排錯；再通過詞頻技術，來提取詞頻及關聯性最高的關鍵詞，將其作為備選關鍵詞；然后通過人為閱讀的方式，按照一定的關鍵詞人工提取規則進行關鍵詞的精確提取。結果表明，該方法取得了較好的效果。

關鍵詞：關鍵詞提取；撒拉；詞頻；引用度

中圖分類號： TN911?34 文獻標識碼： A 文章編號： 1004?373X（2013）24?0005?03

Application of keyword extraction technology in Salar literature database

ZHAO Jian?fei， DUAN Xin?wen， AN Shou?chun

（Physics Department， Qinghai Normal University， Xinning 810008， China）

Abstract： The keyword extraction work is often done in the literature management. The artificial extraction may cause a complex process， and the work burden is heavy. A method of keyword pre?extraction is introduced， which is mainly divided into three steps： the image recognition and troubleshooting are conducted first by OCR system； the word frequency technology is used to extract the word frequency and highest relevance keywords as alternative keywords； and then through man?made reading manner， the accurate extraction of keywords is achieved in accordance with a certain keyword manual extraction rule.

Keywords： keyword extraction； Sarah； degree of word frequency； citation rate

0 引言

隨著我國信息化建設的全面開展，OCR文字識別技術誕生20余年來，經歷從實驗室技術到產品的轉變，目前已經進入行業應用的成熟階段。

文字這方面會涉及圖形識別學——光學字符識別（Optical Character Recognition，OCR），目前像漢王、紫光、微軟等都在這方面有專門的研究單位。OCR的步驟和過程算是集大成于一體，它會用到各種圖形學中的方法來獲得最高的正確率，OCR是不確定性科學，百分之百的識別正確率似乎只會存在于理論上。文字識別一般包括提前預處理、文字特征提取、數據庫比對、后期處理等幾個部分。

首先是提取前預處理，這個過程是將掃描儀、數碼相機等工具將印刷品或手寫品輸入到電腦后，先采取一些通用的算法將這些得到的圖像特征化，譬如先進行二值化或灰價化，圖像的去噪和正規化及可能需要的影像矯正，還會有圖文分析、字行間處理等，這個過程做的事可能最多最雜，但所用到的算法理論和技術方面都很成熟了。……

登錄APP查看全文

現代電子技術 2013年24期

現代電子技術的其它文章: PLC系統在水平繞線機上的應用; 高壓電機線棒槽部防暈結構的研究; 基于DSP的新型SPWM算法研究與實現; 帶2階溫度補償的多輸出帶隙基準電壓源; 磁芯電感線圈測試儀表的替換試驗; 用于SoC的SPI接口設計與驗證