摘 要: 在文獻管理和研究中經常會做關鍵詞提取的工作,通過人工的方式進行提取過程繁雜,工程量極大,因此引入一種關鍵詞欲提取的方式,其過程主要采用以下三個步驟:先通過OCR系統對圖片進行識別、排錯;再通過詞頻技術,來提取詞頻及關聯性最高的關鍵詞,將其作為備選關鍵詞;然后通過人為閱讀的方式,按照一定的關鍵詞人工提取規則進行關鍵詞的精確提取。結果表明,該方法取得了較好的效果。
關鍵詞: 關鍵詞提取; 撒拉; 詞頻; 引用度
中圖分類號: TN911?34 文獻標識碼: A 文章編號: 1004?373X(2013)24?0005?03
Application of keyword extraction technology in Salar literature database
ZHAO Jian?fei, DUAN Xin?wen, AN Shou?chun
(Physics Department, Qinghai Normal University, Xinning 810008, China)
Abstract: The keyword extraction work is often done in the literature management. The artificial extraction may cause a complex process, and the work burden is heavy. A method of keyword pre?extraction is introduced, which is mainly divided into three steps: the image recognition and troubleshooting are conducted first by OCR system; the word frequency technology is used to extract the word frequency and highest relevance keywords as alternative keywords; and then through man?made reading manner, the accurate extraction of keywords is achieved in accordance with a certain keyword manual extraction rule.
Keywords: keyword extraction; Sarah; degree of word frequency; citation rate
0 引 言
隨著我國信息化建設的全面開展,OCR文字識別技術誕生20余年來,經歷從實驗室技術到產品的轉變,目前已經進入行業應用的成熟階段。
文字這方面會涉及圖形識別學——光學字符識別(Optical Character Recognition,OCR),目前像漢王、紫光、微軟等都在這方面有專門的研究單位。OCR的步驟和過程算是集大成于一體,它會用到各種圖形學中的方法來獲得最高的正確率,OCR是不確定性科學,百分之百的識別正確率似乎只會存在于理論上。文字識別一般包括提前預處理、文字特征提取、數據庫比對、后期處理等幾個部分。
首先是提取前預處理,這個過程是將掃描儀、數碼相機等工具將印刷品或手寫品輸入到電腦后,先采取一些通用的算法將這些得到的圖像特征化,譬如先進行二值化或灰價化,圖像的去噪和正規化及可能需要的影像矯正,還會有圖文分析、字行間處理等,這個過程做的事可能最多最雜,但所用到的算法理論和技術方面都很成熟了。……