999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于決策樹的手寫數字識別的應用研究

2018-04-23 09:13:14趙力衡
軟件 2018年3期
關鍵詞:方法模型

趙力衡

(四川大學錦城學院,四川 成都 611731)

0 引言

隨著近年來信息化技術的迅速發展,信息技術對社會各個行業的影響與日俱增,為人們的生產和生活帶來了極大的便利,同時也帶來了新的挑戰。現在,越來越多的行業在倡導“無紙化”和“信息化”的辦公和生活,把各種信息記錄在計算機系統中,這使得辦公和生活變得更加便捷也更加環保。其中一個重要的場景就是通過計算機系統準確識別機器字庫數字和手寫數字,并將它們讀入到計數機系統中。這種需求在金融、教育、科學等多個領域都有很廣泛的應用場景,非常有實用價值,那么如何準確的識別這些數字就成了當前國內外相關研究的難點和熱點問題之一。

相對于手寫數字,機器字庫的數字具有明確的規范寫法,相對容易識別,而手寫數字因人的習慣不同和寫字的隨意性,更加難以準確識別。比如同樣的數字“7”,就存在以下風格迥異的多種寫法:

圖1 不同風格的手寫數字“7”Fig.1 Handw ritten number“7”in different styles

從圖中可以看出,手寫數字風格不但變化多端,規律很難識別,而且一個人的手寫數字可能會與另一個人手寫的其它數字非常相似,甚至一個手寫數字看起來更像其它數字。比如圖 1中左起第二個“7”,看起來更加接近數字“9”。這些特性顯然增加了對手寫數字識別的難度,因此提出方法主要研究對象就是如何精確快速的識別出這些風格不同的手寫數字。

傳統的方法難以準確的識別出手寫數字多變的風格,因此識別準確率較低。目前識別手寫數字的常見方法是采用TensorFlow等深度學習方法[1-3],這種方法識別精度高,但缺點在于計算量大,耗時較長,并對計算平臺的要求較高。為此,提出一種基于決策樹(Decision Tree)的方法進行手寫數字的識別。實驗結果表明,所提方法能在保持計算量較小的前提下精確、快速地識別出各種手寫數字,可作為手寫數字的有效識別手段。

1 數據解析

1.1 數據選擇

采用的數據來源于 MNIST手寫數據集(The MNIST database of handwritten digits),其數據來自于美國國家標準與技術研究所(National Institute of Standards and Technology,簡稱NIST),由來自250名不同人的手寫數字構成,能較全面的反映出各種手寫字體的風格,也是目前國內外手寫數字識別的一個典范數據源。從數據集中取出包含0-9共10個數字的10,000條記錄作為訓練集樣本。數據分布如下表所示:

表1 樣本信息Tab.1 Sample information

從圖1中可以看出,識別圖片中的數字實質上就是識別出圖片中不同位置的顏色值的變化,根據顏色值變化的特點來判斷圖片中的數字是多少。因此首先采用Optical Character Recognition (OCR)方法實現從圖像文件到文本文件的轉化,即根據圖片像素排列順序將文件轉化成顏色值矩陣。由于手寫數字的數值與顏色無關,故提取MNIST樣本圖片中像素的灰度值作為數字特征。樣本圖片長寬都為28個像素,因此一個數字圖片可以轉換成一個 28*28的標準灰度值矩陣,如下圖所示:

圖2 手寫數字及其灰度值矩陣Fig.2 Handw ritten digit and gray value matrix

數字圖片的灰度值可以使用下面矩陣(1)表示:

其中aij表示第i行第j列像素的灰度值,其中0≤i, j

可以看出,上圖右側數字矩陣能夠詳細準確地反映出對應數字的特點,適合作為數字識別的重要依據。將樣本中的每個數字圖片作為一條記錄,存儲其灰度值矩陣作為決策樹模型的訓練集。

1.2 數據分析

統計訓練集中從0~255級灰度值分別出現的頻率,如下圖所示:

圖3 灰度值出現頻率統計Fig.3 Frequency statistics of gray value

上圖左側顯示了訓練集中出現頻率最高的9個灰度,可見其灰度值分布極不均勻。容易看出,表示空白的灰度值“0”出現頻率最高,然后是表示手寫痕跡的高亮度灰度,中間灰度相對較小。可見使用灰度值作為特征能很好地區分出背景灰度和手寫數字痕跡灰度。

再進一步,從上圖右側的灰度頻率統計圖中還可以看出當灰度值在[1,188]范圍內時出現的頻率幾乎都在0-6000之間,顯得較為穩定,并且灰度值越高時,出現頻率越偏向于6000;灰度值越低時,出現頻率更低。這一現象也符合手寫數字特征。當使用中性筆、鉛筆等工具落筆于紙張等載體時,通常會出現筆畫中間壓力大、痕跡深,而筆畫兩側壓力小、痕跡淺的現象,并且由于紙張的浸潤,會有較少的淺色痕跡在筆跡邊緣出現。但需要注意的是,大于0值的灰度并不是都意味著表示手寫數字痕跡,也可能是紙面污漬、墨點或連筆等,如圖1右起第一、二個數字。訓練集中的灰度值較為完整的反映了這一現象,可見灰度值還能很好地反映出手寫字體的細節特征。

總的來看,數字圖片的灰度值矩陣非常適合于作為手寫數字的分析依據。

2 數據建模

2.1 模型設定

訓練集中已知數字的灰度矩陣特征和數字的值。當數字的值為已知條件時,可以根據相同數字在灰度值矩陣對應位置 aij的值的關聯變化來分析同一手寫數字的相似特征,以及不同數字之間的差異。這是一個根據已知條件不斷細分的過程,和決策樹思路相似[4]。決策樹是在已知不同情況發生的概率基礎上,根據條件不斷細分來分析期望值概率的方法,因此,決策樹模型很適合用于對手寫數字進行分析。決策樹C5.0由于有在面對輸入字段很多時非常穩健、并支持多次多個子組的分割的特點,故方案中選取決策樹C5.0進行建模[5]。設置模型主要方法和參數如表2所示。

2.2 模型驗證

模型執行結果在Web圖中詳細結果數據如圖4所示。

表2 決策樹模型所用主要方法/參數Tab.2 Main methods and parameters in decision tree model

圖4 W eb圖結果顯示Fig.4 W eb diagram results

從圖中可以看出,實驗模型能精確地識別出訓練集中10,000個樣本中9,998個樣本的實際數值,僅有2個樣本未能正確識別,可以證明該決策樹模型在分析手寫數字時是成功的。

分析未能正確識別的樣本被錯誤分類的原因,以被誤分的樣本數字“6”為例,該樣本被錯誤分到數字“0”所在類別,樣本圖片如圖5所示。

可見該樣本的寫法確實很接近于數字“0”,再檢查數字“0”的樣本,發現樣本中存在多個寫法與該錯誤分類的數字相似的數字“0”,如圖6所示。

圖5 被錯誤分類的樣本數字“6”Fig.5 M isclassified sample“6”

圖6 數字“0”的部分樣本Fig.6 Partial samples of the number“0”

可見被誤分的數字“6”與數字“0”中存在多個樣本有相似筆跡是該樣本被錯誤歸類的主要原因。這種筆跡不規范的特征由于手寫數字的隨意性而難以避免,因此也成為手寫數字難以被正確識別的主要原因之一。

2.3 數據預測

從MNIST數據集中隨機讀取包含了0-9共10個數字的100個樣本作為測試集,將圖片數字與執行模型分析得到的數字進行對比,如圖7所示。

圖7 手寫數字識別結果Fig.7 Recognition of handwritten digits

圖中number_count表示測試集中各個數字的真實樣本個數,$C-number_count表示模型識別出的各個數字的個數,縱軸表示個數統計。從圖中可以看出,測試集各個數字的機器識別個數與數字的實際個數是一致的。實際上,在實驗中的17次測試中,全部數字均能正確識別。

2.4 二值化分析

通過上面分析,可以發現在分析手寫數字時,用于描述數字痕跡的特征并不一定需要256級灰度來表示,僅需“0”和“1”兩個值就能滿足對數字軌跡的描述:沒有手寫數字痕跡的像素點使用“0”值表示,有手寫數字痕跡的像素點使用“1”值表示。合理選擇閾值的二值化處理可以簡化圖片特征信息,但也會使圖片丟失部分信息,比如手寫筆畫痕跡中間深、兩側淺等特征將無法體現。分別以灰度值27、127和220為閾值,將訓練集二值化,模型執行結果如圖8所示。

可見二值化的特征雖然簡化了運算,但也因為丟失了部分信息而導致計算精度有所降低。同時在實驗中發現,二值化后的模型計算時間相較采用真實灰度值的模型的計算時間并沒有明顯的減少。因此在提出方法中,依然采用真實灰度值作為訓練集進行計算。

圖8 分別以27(左)、127(中)和220(右)為閾值的二值化模型運行結果Fig.8 Results of binary models with threshold of 27 (left) 127 (middle) and 220 (right)

3 結論

針對手寫數字的識別,提出使用機器學習中決策樹型模型分析數字圖片集中像素的灰度值的方法。該方法能在準確識別出不同的手寫數字的同時,保持計算量相對較小、計算較快的特點,能在配置較低的系統上較好的完成對手寫數字的識別,這使其能在大多數平臺上運行,便于推廣。從實驗結果可以看出,該方法識別訓練集手寫數字的精度已超過人工識別的精度,達到了99.98%,能正確識別出多數肉眼難以辨別的手寫數字,已達到很多商用項目的要求,具有較強的商用價值。

[1] 李福衛, 李玉惠. 基于卷積神經網絡的圖像清晰度識別方法[J]. 軟件, 2017, 38(7): 6-9.LI F W, LI Y H. CNN Image Segmentation Recognition Method Based on Deep Learning[J]. Software, 2017, 38(7):6-9. (in Chinese)

[2] 章敏敏, 徐和平, 王曉潔, 等. 谷歌TensorFlow機器學習框架及應用[J]. 微型機與應用, 2017, (10): 58-60.ZHANG M M, XU H P, WANG X J, et al. Application of Google TensorFlow machine learning framework[J]. Microcomputer & Its Applications, 2017, (10): 58-60. (in Chinese)

[3] 張俊, 李鑫. TensorFlow平臺下的手寫字符識別[J]. 電腦知識與技術, 2016, (16): 199-201 ZHANG J, LI X. Handwritten Character Recognition Based On TensorFlow Platform[J]. Computer Knowledge and Technology,2016, (16): 199-201. (in Chinese)

[4] IBM SPSS Modeler. 決策樹之銀行行銷預測應用分析.[EB/OL]. https://www.ibm.com/developerworks/cn/data/library/ba/ba-1412spssmodelerbank.IBM SPSS Modeler. Application Analysis of Bank Marketing Prediction Based on Decision Tree. [EB/OL]. https://www.ibm.com/developerworks/cn/data/library/ba/ba-1412spssmod elerbank. (in Chinese)

[5] 陳英, 馬仲兵, 黃敏. 優化的C4.5決策樹算法[J]. 軟件,2013, 34(2): 61-64.CHEN Y, MA Z B, HUANG M . Improved A lgorithm off C4.5 Decision Tree[J]. Software, 2013, 34(2): 61-64. (in Chinese)

猜你喜歡
方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
學習方法
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 亚洲国产中文综合专区在| 99草精品视频| 一级黄色网站在线免费看| 99手机在线视频| 亚洲成a人在线观看| 亚洲AV色香蕉一区二区| 综合色天天| 国产精品吹潮在线观看中文| V一区无码内射国产| 国产一区二区精品福利| 一本大道香蕉久中文在线播放| 日韩小视频网站hq| 亚洲精品卡2卡3卡4卡5卡区| 国产精品视频a| 亚洲乱码精品久久久久..| 国产成本人片免费a∨短片| 亚洲综合极品香蕉久久网| 青青久在线视频免费观看| 欧美色伊人| 精品久久人人爽人人玩人人妻| 99久久亚洲精品影院| 麻豆国产原创视频在线播放 | 国产自视频| 久久精品国产在热久久2019| lhav亚洲精品| 无码国产伊人| 九色最新网址| 青青青草国产| 中文字幕色站| 欧美日韩中文字幕在线| 亚洲成人在线网| 黄色成年视频| 亚洲娇小与黑人巨大交| 国产一区二区三区免费观看| 欧美在线精品怡红院| 国产区在线观看视频| 国产精品99久久久久久董美香| 2021国产乱人伦在线播放| 日本黄色不卡视频| 99成人在线观看| 欧美日韩国产精品va| 亚洲福利网址| 国产日韩欧美成人| 综合天天色| 国产在线自在拍91精品黑人| 91小视频在线观看免费版高清| 精品亚洲国产成人AV| 久久国产黑丝袜视频| 欧美福利在线观看| 999精品色在线观看| 欧美久久网| 国产亚洲精| 国产国语一级毛片在线视频| 国产激爽大片高清在线观看| 99精品福利视频| 日本精品一在线观看视频| 波多野结衣亚洲一区| 精品免费在线视频| 精品一区国产精品| 日韩国产精品无码一区二区三区 | 亚洲不卡影院| 欧美性精品| 亚洲日韩精品无码专区97| 夜夜操天天摸| 97无码免费人妻超级碰碰碰| 女人18毛片水真多国产| 米奇精品一区二区三区| 精品国产免费第一区二区三区日韩| 3344在线观看无码| 日韩精品视频久久| 国产精品丝袜视频| 男女男精品视频| 欧美性天天| 在线日韩日本国产亚洲| 狠狠亚洲婷婷综合色香| 免费A级毛片无码免费视频| 欧美亚洲一区二区三区导航| 狠狠亚洲婷婷综合色香| 国产杨幂丝袜av在线播放| 国产一区二区三区夜色 | 婷婷午夜天| 亚洲美女AV免费一区|