張巖 李洋 博柳姍 等
摘要:光學字符識別是針對印刷體字符,采用光學的方式將紙質文檔中的文字轉換成為黑白點陣的圖像文件,并且通過字符識別模型將圖像中的文字處理成可編輯的文本格式.本文首先對樣本數(shù)據(jù)進行預處理,采用局部離群因子法剔除無效數(shù)據(jù),通過信息增益率計算各個自變量相關性的強弱來找出恰當?shù)奶卣鳎颖痉譃槲孱悾Q策樹法和加權KNN算法相結合的混合算法,預測每類數(shù)據(jù)的結果并給出準確率,將結果中未識別的樣本放在所有訓練集下再次通過混合算法進行訓練預測,最終總預測正確率達到了96.406%.最后通過混淆矩陣來評價模型,結果表明其拒識率較低,準確率較高,訓練預測時間較短,具有可行性.
關鍵詞:決策樹法;加權KNN算法;局部離群因子法;信息增益率;混淆矩陣
中圖分類號:TP391.43? 文獻標識碼:A? 文章編號:1673-260X(2019)02-0026-04
1 前言
光學字符識別是光學符號識別的核心,但是對于許多類型的機器學習算法來說,將像素模式連接到更高概念的關系是非常復雜的,而且用嚴格的規(guī)則來定義這些模式是很困難的.本文的數(shù)據(jù)來源于公開的UCI的光學字符識別數(shù)據(jù)集(數(shù)據(jù)來源:http://archive.ics.uci.edu/ml/index.php),該數(shù)據(jù)集包含了26個英文大寫字母的20000個樣本,每一個樣本代表光學圖像中的一個矩形區(qū)域,該區(qū)域只包含單一字符,每一個樣本包含16個自變量和letter目標變量,letter指示當前樣本是哪一個字母,我們對圖像數(shù)據(jù)運用一定的統(tǒng)計方法進行初……