ＳＶＭ算法及其在多類(lèi)字母圖象識(shí)別中的應(yīng)用

2008-12-31 00:00:00曹兆龍萬(wàn)福永

電腦知識(shí)與技術(shù) 2008年8期

摘要：支持向量機(jī)是一種新的統(tǒng)計(jì)學(xué)習(xí)算法，其學(xué)習(xí)原則是使結(jié)構(gòu)風(fēng)險(xiǎn)最小，與經(jīng)典的學(xué)習(xí)方法的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小原則不同，這使得支持向量機(jī)具有很強(qiáng)的泛化能力。因?yàn)橹С窒蛄繖C(jī)算法是一個(gè)凸二次優(yōu)化問(wèn)題，能夠保證所求的局部最優(yōu)解就是全局最優(yōu)解。目前，研究的絕大多數(shù)是兩類(lèi)問(wèn)題。然而，即使我們能夠?qū)深?lèi)問(wèn)題正確分類(lèi)，也不能意味著實(shí)際應(yīng)用中多類(lèi)分類(lèi)問(wèn)題的解決。在這篇文章中，我們介紹了支持向量機(jī)算法，并且通過(guò)多類(lèi)字母圖象分類(lèi)問(wèn)題說(shuō)明支持向量機(jī)算法在多類(lèi)分類(lèi)問(wèn)題中的應(yīng)用。

關(guān)鍵詞：支持向量機(jī)；核函數(shù)；字母圖象；余類(lèi)

中圖分類(lèi)號(hào)：TP311文獻(xiàn)標(biāo)識(shí)碼：A文章編號(hào)：1009-3044(2008)08-1pppp-0c

1 引言

基于數(shù)據(jù)的機(jī)器學(xué)習(xí)是現(xiàn)代智能技術(shù)中十分重要的一個(gè)方面，主要研究如何從一些觀測(cè)數(shù)據(jù)（樣本）出發(fā)得到目前尚不能通過(guò)原理分析得到的規(guī)律，利用這些規(guī)律去分析客觀對(duì)象，對(duì)未來(lái)數(shù)據(jù)或無(wú)法觀測(cè)的數(shù)據(jù)進(jìn)行預(yù)測(cè)。一項(xiàng)頗為有效的技術(shù)-支持向量機(jī)（Support Vector Machines，簡(jiǎn)稱(chēng)SVM），近幾年來(lái)逐漸成為機(jī)器學(xué)習(xí)領(lǐng)域的研究熱點(diǎn)。支持向量機(jī)是美國(guó)貝爾實(shí)驗(yàn)室V.Vapnik針對(duì)分類(lèi)和回歸問(wèn)題，為適合小樣本學(xué)習(xí)問(wèn)題而提出的通用學(xué)習(xí)算法 [1]，它根據(jù)VC（Vapnik-Chervonenkis）理論，基于結(jié)構(gòu)風(fēng)險(xiǎn)最小（Structural Risk Minimization，SRM）原理 [1]，而非經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化（Empirical Risk Minimization，ERM）原理，從而能夠兼顧訓(xùn)練錯(cuò)誤和泛化能力，開(kāi)辟了機(jī)器學(xué)習(xí)算法的新天地。目前絕大多數(shù)討論僅局限于用SVM解決兩類(lèi)問(wèn)題。然而，兩類(lèi)分類(lèi)問(wèn)題的解決并不意味著多類(lèi)分類(lèi)問(wèn)題的解決。對(duì)于多類(lèi)分類(lèi)問(wèn)題，我們提出基本訓(xùn)練樣本集和訓(xùn)練樣本集兩個(gè)層次的概念，通過(guò)不斷調(diào)節(jié)基本訓(xùn)練樣本集，求得對(duì)訓(xùn)練樣本集的最優(yōu)決策函數(shù)。對(duì)高維多類(lèi)分類(lèi)問(wèn)題具有很強(qiáng)的實(shí)踐價(jià)值。本文通過(guò)字母圖象識(shí)別的實(shí)際多類(lèi)分類(lèi)問(wèn)題的解決，說(shuō)明SVM算法的基本原理以及在多類(lèi)分類(lèi)問(wèn)題中的應(yīng)用。

2 支持向量機(jī)

SVM 是一種基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化的分類(lèi)器，通過(guò)解二次規(guī)劃問(wèn)題，尋找將數(shù)據(jù)分為兩類(lèi)的最佳超平面。它的核心內(nèi)容是：對(duì)于輸入空間中非線性可分問(wèn)題，選擇一個(gè)適當(dāng)?shù)挠成洌瑢⑤斎肟臻g中的樣本點(diǎn)映射到一個(gè)高維特征空間，使得對(duì)應(yīng)的樣本點(diǎn)在該空間線性可分，而且通過(guò)對(duì)核函數(shù)的深入研究，在解決策函數(shù)過(guò)程中的計(jì)算仍在原空間進(jìn)行，大大降低了在映射后的高維特征空間計(jì)算的復(fù)雜性。關(guān)于SVM的詳細(xì)介紹可參考文獻(xiàn)[2-4]。

2.1 線性可分支持向量機(jī)

2.1.1 線性可分

4 實(shí)驗(yàn)及其結(jié)果

本文的多類(lèi)字母圖象分類(lèi)問(wèn)題的實(shí)驗(yàn)數(shù)據(jù)數(shù)據(jù)庫(kù)來(lái)自UCI數(shù)據(jù)庫(kù)（www.ics.uci.edu / ~ mlearn / databases）。軟件環(huán)境：Matlab/WinXP，所選用核函數(shù)就是上文介紹的 Gauss 徑向基核函數(shù)，總共有 3864 個(gè)樣本（其中字母A的樣本790個(gè)，其中字母B的樣本766個(gè)，其中字母C的樣本 736 個(gè)，其中字母 D 的樣本 805個(gè)，其中字母E的樣本768 個(gè)，每個(gè)樣本采集了包括水平像素均值，垂直像素均值等 16 個(gè)特征，關(guān)于特征采集的詳細(xì)介紹參見(jiàn)www.ics.uci.edu/~mlearn/databases的英文文檔，我們隨機(jī)地選取一部分作為訓(xùn)練樣本集，第一次實(shí)驗(yàn)時(shí)我們從每一類(lèi)中隨機(jī)選取400個(gè)樣本組成訓(xùn)練樣本集，基本訓(xùn)練樣本集從每一類(lèi)的已選取的400個(gè)樣本中隨機(jī)選取100個(gè)組成，此時(shí)基本訓(xùn)練樣本集有500個(gè)樣本，訓(xùn)練樣本集有2000個(gè)樣本，其余的作為測(cè)試樣本集。在調(diào)優(yōu)過(guò)程中，為了更能代表整個(gè)余類(lèi)的情況，減少計(jì)算的量，我們將訓(xùn)練樣本集由第一次實(shí)驗(yàn)時(shí)每一類(lèi)的400個(gè)樣本隨機(jī)選取300個(gè)樣本重新組成，基本訓(xùn)練樣本集從已選取的300個(gè)樣本隨機(jī)選取150重新組成，其余的均作為測(cè)試樣本集。此時(shí)基本訓(xùn)練樣本集有750個(gè)樣本，訓(xùn)練樣本集有1500個(gè)樣本，其余的作為測(cè)試樣本集。運(yùn)用我們的調(diào)優(yōu)方法反復(fù)實(shí)驗(yàn)以確定最后的對(duì)于訓(xùn)練樣本集最優(yōu)的決策函數(shù)集。為了對(duì)比說(shuō)明問(wèn)題，我們將每次所得到的決策函數(shù)集應(yīng)用于測(cè)試樣本集。其結(jié)果如下表所示：

通過(guò)以上表格，我們發(fā)現(xiàn)通過(guò)這樣的調(diào)優(yōu)過(guò)程不僅得到對(duì)于訓(xùn)練樣本集最優(yōu)的決策函數(shù)集（正確率已達(dá)100％），而且發(fā)現(xiàn)這樣的對(duì)訓(xùn)練樣本集最優(yōu)的決策函數(shù)集具有很強(qiáng)的泛化能力（正確率已達(dá)98.4％）。

5 討論

(1)本文的研究中解決了一個(gè)五類(lèi)字母圖象識(shí)別的分類(lèi)問(wèn)題，對(duì)解決多類(lèi)分類(lèi)問(wèn)題提供了很好的例子，可推廣到更多類(lèi)問(wèn)題的研究。對(duì)原問(wèn)題的二十六個(gè)字母圖象的識(shí)別的多類(lèi)分類(lèi)問(wèn)題的研究將是下一階段的研究重點(diǎn)。

(2)采用的支持向量機(jī)的算法時(shí)得到的支持向量數(shù)目過(guò)于龐大，即使借助于最先進(jìn)的計(jì)算機(jī)，計(jì)算的量都顯得很大，如何在分類(lèi)效果同等的情況下，使得到的支持向量盡可能少一點(diǎn)，或是篩選特征，刪去一些對(duì)分類(lèi)結(jié)果沒(méi)有影響的特征，減少計(jì)算的量，將是我們需要深入研究的另一個(gè)方面。

參考文獻(xiàn)：

[1]Christopher J CBurges.A Tutorial on support vector machines for pattern recognition[J].Data Mining and Knowledge Discovery，1998.2:121-167.

[2]張學(xué)工.關(guān)于統(tǒng)計(jì)學(xué)習(xí)理論與支持向量機(jī)[J].自動(dòng)化學(xué)報(bào)，2000，(1):32-42.

[3]Vapnik V N.The Nature of Statistical Learning Theory[M].New York：Springer-Verlag，1995:1-15.

[4]S R Gunn.Support Vector Machines for Classification and Regression[R].Technical Report，Images Speech and Intelligent Systems Research Group，University of Southampton，1997.

“本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文”

電腦知識(shí)與技術(shù)2008年8期

電腦知識(shí)與技術(shù)的其它文章: ＡＴＡ平臺(tái)與高職院校教學(xué)考試改革; 銀行綜合業(yè)務(wù)系統(tǒng)前臺(tái)系統(tǒng)技術(shù)架構(gòu)設(shè)計(jì); 物理知識(shí)在Ｆｌａｓｈ世界中的應(yīng)用; 基于ＪＡＶＡ技術(shù)的高職院校考試系統(tǒng)的設(shè)計(jì)與應(yīng)用; 文檔管理系統(tǒng)的研究與設(shè)計(jì); 關(guān)于高職計(jì)算機(jī)應(yīng)用技術(shù)專(zhuān)業(yè)教學(xué)改革的思考