999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于PCA的神經網絡手寫數字識別方法研究

2019-05-13 10:15:56魏爽
數字技術與應用 2019年1期
關鍵詞:模式識別

魏爽

摘要:手寫數字識別是計算機視覺和模式識別的一個重要研究方向。該領域的研究有了很大的進步,但是仍有待改進之處。文章提出了一個基于主成分分析的單隱層神經網絡分類器,該分類器通過主成分分析減少了特征向量的維度,在保證識別準確率的情況下減少了計算量,提高了分類器性能。使用MNIST數據集對分類器進行訓練,并驗證了其性能。

關鍵詞:手寫數字識別;神經網絡;主成分分析;模式識別;計算機視覺

中圖分類號:TP391 文獻標識碼:A 文章編號:1007-9416(2019)01-0058-02

0 引言

手寫識別是指將在手寫設備上書寫時產生的有序軌跡信息化轉化為文字的過程,常用來解決計算機視覺的圖像處理和模式識別領域的問題。手寫數字識別的研究雖然已經有了很大的進步[1],但是在實際使用中,識別的錯誤率和性能仍有待改進。通過盡可能多的增加特征的數量,可以獲得較高的識別準確率。但是這樣就會增加了分類器的復雜度,計算量也會隨之增加。采用多層神經網絡可以取得較高的準確率,但是計算量大,訓練的時間長。

利用主成分分析(Principal Component Analysis,PCA)可以減少分類器所需的特征的數量,進而降低分類器復雜度以及計算量。PCA通過將具有一定相關性的變量重新組合,得到一組新的互相無關的變量來代替原來的變量[2,3]。常用的方法是對原始變量進行線性組合,得到新的變量。新生成的變量就叫做主成分。

通過利用PCA對訓練集數據進行特征提取,簡化特征向量的維度,將PCA的輸出作為神經網絡分類器的輸入,得到一個基于PCA的神經網絡分類器模型,如圖1所示。

1 相關概念

1.1 神經網絡

人工神經網絡由互相連接的神經元組成。神經元通過帶權重的連接傳遞信號,各個神經元的功能由網絡結構決定。每個神經元將接收到的其他神經元的輸入信號的總值與該神經元的閾值進行比較,然后通過激活函數得到該神經元的輸出。神經網絡學習就是根據訓練樣本數據來調整神經元之間的連接權重以及各個功能神經元的閾值。

通過使用反向傳播算法訓練神經網絡,調整隨機初始化的權值,以最小化分類器的誤差。反向傳播神經網絡的學習過程分兩步:首先,將訓練樣本輸入到輸入層,神經網絡一層一層向前傳播直到輸出層;如果輸出值和預期的輸出值不同,計算出輸出誤差,將該誤差反向傳播并調整各個連接權值。

首先,將權值初始化為-0.5~0.5之間的隨機值。通過如(1)所示sigmoid激活函數來比較不同函數的準確率。通過前向傳播計算隱層和輸出層的實際輸出值,然后通過該輸出值和期望的輸出值計算誤差梯度。然后從后往前逐層傳播輸出誤差,并用該誤差修正權值。用訓練樣本集中的所有樣本重復該過程。通過這個迭代過程,可以最小化誤差。

g(z)= (1)

z=∑ni=1XiWi-θ (2)

其中,Z為激活函數的輸入值,n為神經元個數,Xi是第i個神經元的輸入值,Wi是連接到神經元的第i個權值,θ是神經元的閾值。

1.2 主成分分析(PCA)

PCA主要用來進行特征提取,算法實現如下:

(1)計算訓練樣本數據集X在每一個維度的平均值u,再將訓練樣本的值減去該平均值u;

(2)計算協方差矩陣C,C的特征向量V以及C的本征值D,如(3)、(4)所示;

C=X*XT (3)

V-1*CV=D (4)

(3)對特征向量和特征值進行排序,選擇前K個特征向量。通過訓練集乘前K個特征向量,將原始樣本集X投影到K維空間。

Z=X*V(1:K) (5)

1.3 交叉驗證

在模式識別模型的訓練和性能評估中,驗證是重要的一環。用訓練集訓練模型,用測試集對模型進行評估。通過驗證可以有效防止模型過擬合和欠擬合的情況發生。

交叉驗證是一種常用的驗證方法,其基本思想是重復使用數據。把給定的數據集切分為訓練集和測試集。再用這些數據對模型進行訓練和測試。通過反復重復該過程選擇最優的模型。交叉驗證分為簡單交叉驗證、S折交叉驗證和留一交叉驗證。

S折交叉驗證做法如下:隨機將數據集平均分為S個互不相交的子集,用其中的S-1個子集作為訓練集,用剩下的1個子集作為測試集;訓練、測試數據的選擇方式有S種,用這S種數據對模型進行訓練、測試分別得到S個模型;最后在這S個模型中選擇一個最優的模型。

2 分類器設計

該神經網絡分類器采用單隱層神經網絡,由三層構成:輸入層、隱層以及輸出層。輸入為66個神經元,隱層為99個神經元,輸出層為10個神經元(每一個神經元對應0到9中的一個數字)。圖1中PCA的輸出即為該分類器的輸入。隱層的神經元是根據實驗,進行交叉驗證,選擇準確率最高的結點數組成。通過前向傳播算法,對數字進行分類,輸出到對應的輸出層神經元。根據這10個輸出神經元的值,選擇值最高的神經元對應的數字作為分類器的輸出。

3 實驗及結果

實驗語言使用Python。Python語言語法簡單,包含了大量的工具包,能快速地實現各種算法,在科學計算、人工智能等各個領域都有廣泛使用。實驗的數據采用MNIST數據集。MNIST數據集是一個手寫體數字的數據集,包括了60000個訓練樣本,10000個測試樣本。每一個樣本都是一個28×28個像素的灰度圖像,即每個樣本有784個特征。灰度值的范圍是0-255。

不同的人寫數字的風格不同,寫的大小也不同。因此,在進行分類之前要對原始數據進行預處理。首先,要將原始數據進行標準化處理以消除數據中的噪音,得到一組同一格式的數據集。MNIST的數據的每一個樣本的尺寸都是一致的,通過將每一個像素的灰度值除以255,就將所有的數值都歸一化為0~1之間的值。

通過使用PCA將784個特征壓縮為66個特征,并將這66個特征作為神經網絡的輸入。神經網絡的十個輸出的標簽分別為0~9十個數字。MNIST數據集訓練樣本數量大,實驗采用10-折交叉驗證,將60000個訓練樣本且分為10個子集,每個子集有6000個樣本。進行10次交叉驗證,最后得到10個模型,具體步驟如下:

(1)開始第i(i=1~10)次實驗;(2)初始化分類器的參數:用隨機數初始化各個神經元連接的權值,設置隱層神經元h,迭代次數i,以及來自PCA輸出值的輸入的數量K;(3)從54000個訓練樣本中選擇一個樣本x,并將該樣本傳給分類器;(4)分類器計算出輸出值Y;(5)如果Y的值和X的期望值,即真實值y不同,計算兩者的誤差E=y-Y;(6)將誤差E反向傳給該神經網絡模型并根據E修正各個連接權值;(7)3至5重復i次;(8)對54000個樣本重復執行3至6;(9)用模型對剩下的6000個樣本進行分類測試;(10)計算9的準確率和錯誤率;(11)對10-折交叉驗證數據重復2至10,第j次實驗選擇切分的第j個6000個樣本子集作為測試集;(12)計算10-折交叉驗證的平均誤差,保存每次的模型參數;(13)對不同的h、i、K進行1-12實驗,得到最大準確率、計算量最小的模型。

通過使用多個訓練集進行訓練得到最佳參數。對使用PCA和不使用PCA的情況都進行了訓練實驗并對比其準確率的差別。

不使用PCA時,實驗過程與使用PCA的過程一樣,只是輸入的數量為784,即神經網絡有784個輸入節點,397個隱層節點和10個輸出節點。不使用PCA時,迭代1000次,交叉驗證平均準確率98.27%,用時45011秒。

使用PCA時,將特征向量從784維降低到66維,大大降低了計算量。通過實驗發現,281個特征覆蓋了99%的方差,103個特征覆蓋了95%的方差,53個特征覆蓋了90%的方差。使用PCA時,迭代1000次,交叉驗證平均準確率98.27%,用時45011秒。

從實驗結果分析,選擇了K=66,隱層神經元數量為99,迭代次數為1000的模型。通過對比使用PCA和不使用PCA的模型的訓練時間,可以看出在準確率基本相同的情況下,使用PCA可以減少接近40%的計算時間。

經過交叉驗證,分別選擇了不使用PCA和使用PCA的最佳模型。再用MNIST數據集的測試集數據對該模型進行驗證。為了取得更好的結果,將隱層的神經元數量分別增加到200、300、500進行訓練并用這10000個樣本進行驗證測試,分別得到了98.2%、98.3%以及98.6%的準確率。對于不使用PCA的模型,模型訓練的時間為27109秒。對于使用PCA的模型,模型訓練的時間為4223秒。在本次實驗中,使用PCA的神經網絡可以減少約80%的計算時間,且識別準確率更高。

4 結語

從最后的驗證結果看出,采用PCA的單隱層神經網絡系統識別準確率接近98.4%,且大大降低了計算量,這對該模型運行的平臺的要求不高,降低了部署成本。約有1.6%的誤分類,這主要是由書寫模糊和噪音造成的。下一步要對模糊書寫、不同的書寫習慣的識別進行研究,以便更好地進行識別。此外,噪音消除方面的研究也是下一步研究的一個方向。

參考文獻

[1] 唐世豪.基于KNN的手寫數字識別分析[J].通訊世界,2019,26(01):271-272.

[2] 張持健,劉雪,張賀,張燕習等.基于PCA和非線性SVC的小數據人臉識別[J].無線電通信技術,2019,45(01):73-77.

[3] 張行文,董元和.基于多層感知機網絡的手寫數字識別算法[J].電腦知識與技術,2018,14(32):217-219.

Abstract:Written digit recognition is an important field of computer vision and pattern recognition. Great progresses have been made in this field, but it can still be improved. A digit recognition classifier based on single hidden layer neural network with principle component analysis has been proposed. This classifier reduces the features by using principle component analysis. Computation requirements are reduced without compromising accuracy. Performance of the classifier has been improved. The proposed classifier is trained and examined with MNIST data set.

Key words:written digit recognition; neural network; PCA; pattern recognition; computer vision

猜你喜歡
模式識別
紫地榆HPLC指紋圖譜建立及模式識別
中成藥(2018年2期)2018-05-09 07:19:52
2019 IEEE計算機視覺與模式識別會議
UPLC-MS/MS法結合模式識別同時測定芪參益氣滴丸中11種成分
中成藥(2017年10期)2017-11-16 00:50:05
淺談模式識別在圖像識別中的應用
電子測試(2017年23期)2017-04-04 05:06:50
第四屆亞洲模式識別會議
基于可拓模式識別的孤島檢測研究
電測與儀表(2016年6期)2016-04-11 12:07:48
可拓模式識別算法中經典域的確定方法
第3屆亞洲模式識別會議
基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
電氣設備的故障診斷與模式識別
河南科技(2014年5期)2014-02-27 14:08:35
主站蜘蛛池模板: 亚洲精品视频在线观看视频| 在线视频亚洲色图| 九色国产在线| 亚洲成a∧人片在线观看无码| 在线视频精品一区| 亚洲欧美精品一中文字幕| 久久久久亚洲AV成人人电影软件| 亚洲高清中文字幕在线看不卡| 国禁国产you女视频网站| 欧美专区在线观看| 亚洲人成影视在线观看| 91麻豆国产视频| 国产裸舞福利在线视频合集| 香港一级毛片免费看| 91区国产福利在线观看午夜| 亚洲精品亚洲人成在线| 97se亚洲| 波多野结衣久久精品| 国产成人亚洲毛片| P尤物久久99国产综合精品| 国产永久免费视频m3u8| 91系列在线观看| 国产成人啪视频一区二区三区| 99爱在线| 三级视频中文字幕| 无码免费试看| 9啪在线视频| 色噜噜在线观看| 丁香婷婷激情网| 91免费精品国偷自产在线在线| 国内精品自在自线视频香蕉| 九九免费观看全部免费视频| 男女性色大片免费网站| 色一情一乱一伦一区二区三区小说 | 69视频国产| 91精品小视频| 国产激情在线视频| 精品免费在线视频| 一区二区三区国产| 丝袜国产一区| 性做久久久久久久免费看| 色老头综合网| 天天爽免费视频| 99性视频| 黄色a一级视频| 精品小视频在线观看| 欧美一区二区人人喊爽| 欧美三級片黃色三級片黃色1| 久久天天躁狠狠躁夜夜躁| 色亚洲成人| 69国产精品视频免费| 国产精品自拍合集| 香蕉视频国产精品人| 综合色亚洲| 在线日韩一区二区| 国产免费久久精品99re不卡 | 精品午夜国产福利观看| 午夜福利在线观看入口| 亚洲成人高清在线观看| 亚洲精品手机在线| 久久99热这里只有精品免费看| 午夜免费小视频| 亚洲乱伦视频| 久操线在视频在线观看| 国产精品亚洲专区一区| 国产精品天干天干在线观看| 九九热视频在线免费观看| 四虎影视库国产精品一区| 99无码中文字幕视频| 国产午夜精品一区二区三区软件| 搞黄网站免费观看| 亚洲乱强伦| 亚洲va欧美va国产综合下载| 992Tv视频国产精品| 露脸国产精品自产在线播| 国产69精品久久| 自慰网址在线观看| 在线国产欧美| 伊人久久精品无码麻豆精品| 国产成人综合欧美精品久久 | 精品国产aⅴ一区二区三区| 国产导航在线|