999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

核向量機算法研究及應(yīng)用

2012-09-15 08:31:20
關(guān)鍵詞:分類實驗方法

許 敏

(無錫職業(yè)技術(shù)學院電子與信息技術(shù)學院,江蘇 無錫 214121)

核向量機算法研究及應(yīng)用

許 敏

(無錫職業(yè)技術(shù)學院電子與信息技術(shù)學院,江蘇 無錫 214121)

對訓練樣本規(guī)模為m的標準支持向量機(Support Vector Machine,SVM)進行訓練,時間復(fù)雜度為O(m3),空間復(fù)雜度為O(m2)。文章研究將其轉(zhuǎn)換成等價的最小包含球(Minimum Enclosing Ball,MEB)形式,使用核心集向量機(Core Vector Machine,CVM)高效獲得近似最優(yōu)解。CVM的優(yōu)點是時間復(fù)雜度與訓練樣本規(guī)模m呈線性關(guān)系,空間復(fù)雜度與m無關(guān)。實驗證明,CVM可以對大規(guī)模數(shù)據(jù)集進行高效的分類。

核向量機;支持向量機;最小包含球;核函數(shù)

在各種機器學習中,核方法是最成功的算法之一,其最著名的例子就是在支持向量機中的應(yīng)用。許多核方法都能轉(zhuǎn)換成標準二次規(guī)劃(Quadratic Programming,QP)問題。當標準樣本集大小為m時,使用標準支持向量機(Support Vector Machine,SVM)進行樣本訓練需要O(m3)的時間復(fù)雜度和O(m2)的空間復(fù)雜度。因此數(shù)據(jù)挖掘應(yīng)用中,如何快速解決大樣本問題是亟待解決的問題。

為了降低時間和空間復(fù)雜度,Tsang等人2005年提出大樣本數(shù)據(jù)快速分類算法——核向量機(Core Vector Machine,CVM)[1]。CVM結(jié)合計算幾何學和SVM訓練算法,將QP問題轉(zhuǎn)換成最小包含球(Minimum Enclosing Ball,MEB)問題,然后使用一種有效的(1+ε)近似算法,從而獲得一個近似的SVM最優(yōu)解。

1 CVM理論

1.1 計算幾何意義下的最小包含球

考慮m個D維樣本,記作S={x1,x2,…,xm},計算幾何意義下的最小包含球是指包含S中所有樣本的最小球。下面就討論基于核心集的近似最小包含球。定義B(c,R)表示圓心為c,半徑為R的球。設(shè)ε>0,若R≤rMEB(S)且SB(c,(1+ε)R),則球B(c,(1+ε)R)是MEB(S)的(1+ε)逼近,如圖1所示,內(nèi)圓是包含方塊點的最小包含球,外圓是內(nèi)圓的(1+ε)擴展,且包含所有點,方塊點為核心集.從許多擬合問題中發(fā)現(xiàn),如果把整個數(shù)據(jù)集S的求解轉(zhuǎn)化成對S的一個子集Q的求解,會得到一個精確有效的近似解,其中Q被稱為核心集。更精確的定義:若B(c,R)=MEB(X),且SB(c,(1+ε)R),則子集XS是S的一個核心集。

圖1 幾何意義下最小包含球示例Fig.1 The geometric meaning of the smallest enclosing ball

為獲得核心集,Badoiu和Clarkson2002年提出一個簡單的計算近似最小包含球的迭代算法[2],具體步驟如下:在第t次迭代中,得到最小包含球B(ct,rt),之后每次迭代都是把在近似球B(ct,(1+ε)rt)之外最遠點包含進來,直到所有點都包含在B(ct,(1+ε)rt)中,迭代結(jié)束。盡管這個算法簡單,但迭代次數(shù)和核心集的大小依賴與ε,而不是維數(shù)d或者樣本規(guī)模m。維數(shù)d的不相關(guān)性,對于運用核方法是非常重要的。樣本數(shù)m的不相關(guān)性,使得算法的時間和空間復(fù)雜性增長緩慢。

1.2 最小包含球理論及其核化方法

在上述特征空間中尋求最小包含球MEB(S)等價為如下優(yōu)化問題:

轉(zhuǎn)換為對偶形式:

或轉(zhuǎn)換成矩陣形式:

若取高斯核k(x,y)=exp(-‖x-y‖2/2σ2),則

在式(3)中有α'1=1的條件,故α'diag(K)=k,則式(3)可簡化成如下形式:

只要滿足式(4)和式(5)的QP問題都可看做最小包含球問題,可使用計算近似最小包含球的迭代算法求解。

1.3 SVM簡介及其與MEB之間的關(guān)系

給定訓練集{Zi=(xi,yi)}mi=1,其中,yi∈{-1,1},SVM優(yōu)化問題如下:

其對應(yīng)的對偶形式為:

其中,﹒為Hadamard乘積,y=[y1,y2,…,ym]',K=[k(xi,xj)]。

1.4 核心向量機CVM算法

1.4.1 核算法步驟

將核方法轉(zhuǎn)換成相應(yīng)的MEB問題后,就可使用核向量機快速求解近似最優(yōu)解。給定訓練集{Zi=,其中,yi∈{-1,1},因文中采用的是轉(zhuǎn)換后的核,所以下文中的核映射函數(shù)用表示,核向量機算法如下:

1.初始化S0、c0和R0。

5.迭代次數(shù)t加1,返回步驟2。

1.4.2 具體過程

(1)初始化

(2)距離計算

步驟2和3都要進行距離計算,求點zl到中心點ct的距離公式為‖ct-φ(zl)‖2,將c=(zi)帶入上式,得到:

顯然,計算距離不需要顯式計算φ~(zi),而使用核函數(shù)進行計算。然而計算離中心點最遠的點需要把所有點到中心的距離都計算一遍,當樣本很大時時間花費很高。本文CVM采用由Smola與Scholkopf 2000年提出的一種加速方法[3]。該方法指出,在樣本S中隨機的找一個樣本子集S’,在子集S’中找一個離中心點ct最遠點來近似代替S中的最遠點。在Smola與Scholkopf的文中指出,當子集大小為59時,最遠點包含在S’中的可能性為95%,通過這種方法可大大降低時間復(fù)雜度,此方法也可用于初始化步驟。

2 實驗與分析

本節(jié)實驗采用人造香蕉型數(shù)據(jù)集,如圖2所示。CVM需設(shè)置的參數(shù)有三個,分別是逼近參數(shù)ε、核參數(shù)σ和C參數(shù)。設(shè)置方法如下:核參數(shù)在網(wǎng)格{0.5,1,2,4},C參數(shù)在網(wǎng)格{0.1,0.5,1,10,100,1 000}中搜索至最優(yōu)。

圖2 人造香蕉數(shù)據(jù)集Fig.2 Artificial Banana data set

實驗1 逼近參數(shù)對CVM的影響驗證

取banana樣本1 000個進行CVM實驗,表1顯示了不同逼近參數(shù)ε對實驗結(jié)果的影響。

表1 逼近參數(shù)ε對CVM的影響(C=1,σ=1)Tab.1 Approximation parameters for CVM(C=1,σ=1)

文獻[1]中指出,ε越小,分類誤差越大,隨著ε的增大,精度提高的同時訓練時間也增加,一般ε取1e-6即可獲得較好的分類精度。從表1可以看出,本例的banana數(shù)據(jù)集,ε取0.5e-3可獲得分類精度與訓練時間的最佳協(xié)調(diào)。圖3顯示了ε取0.5e-3時的分類效果圖。

圖3 樣本規(guī)模為1 000時的分類圖Fig.3 Classification map(sample size:1 000)

實驗2 CVM與SVM的比較實驗

下面實驗記錄了不同訓練集規(guī)模下,經(jīng)典SVC與CVM算法的訓練時間、測試時間及分類精度。每組實驗重復(fù)10次,此外還記錄了CVM算法的核心集規(guī)模。

表2 CVM與SVM比較Tab.2 The Comparison of CVM and SVM

從表2可以看出,對于小樣本數(shù)據(jù)集,SVM算法和CVM算法的分類精確度大致相同,且SVM訓練時間與測試時間均少于CVM;而對于大樣本數(shù)據(jù)集合,CVM訓練及測試時間短,而分類精度還是與SVM相當。使用核心集代替所有樣本,存儲空間也大規(guī)模減小。

3 結(jié)束語

核向量機是一種新的模式識別方法,它將核方法轉(zhuǎn)換成等價的MEB問題,并與計算幾何學相結(jié)合,從而解決了處理大樣本所需大量時間和空間的問題。實驗表明,與SVM相比,CVM在有效節(jié)約運行時間和空間的同時,保證了分類精度。

[1] Tsang I,Kwok J,Cheung P.Core vector machines:Fast SVM training on very large data sets[J].J of Machine Learning Research,2005,6(4):363-392.

[2] Badoiu M,Clarkson K L.Optimal core sets for balls[J].Computational Geometry:Theory and Applications,2008,40(1):14-22.

[3] Smola A,Schlkopf B.Sparse greedy matrix approximation for machine learning[C].Stanford,CA:Proc.7th Int.Conf.Mach.Learn.,2000:911-918.

Core Vector Machine Algorithm and its Application

XU Min
(School of Electronic and Information Technology,Wuxi Institute of Technology,Wuxi 214121,China)

According to the training set size m,standard SVM training hasO(m3)time andO(m2)space complexities.In this paper,CVM algorithm is discussed.It transforms the kernel method into equivalent MEB problems,and gets the approximately optimal solutions efficiently by core set.CVM has a time complexity that is liner in m and a space complexity that is independent of m.The result shows that CVM algorithm can handle much larger data sets than existing scale up methods.

Core Vector Machine(CVM);Support Vector Machine(SVM);Minimum Enclosing Ball(MEB);kernel function

TP 18

A

1671-7880(2012)04-0073-04

2012-03-06

許敏(1980— ),女,講師,博士研究生,研究方向:人工智能與模式識別。

猜你喜歡
分類實驗方法
記一次有趣的實驗
分類算一算
做個怪怪長實驗
分類討論求坐標
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
NO與NO2相互轉(zhuǎn)化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 成人亚洲天堂| 亚洲第一网站男人都懂| 97视频免费看| 一级毛片基地| 波多野结衣视频一区二区| 国产成人高清亚洲一区久久| 久久久久久久蜜桃| 啊嗯不日本网站| 91成人在线观看| 久久一色本道亚洲| 亚洲第一在线播放| 一级爱做片免费观看久久| 亚洲天堂啪啪| 无码'专区第一页| 国产成人av一区二区三区| 国产激情无码一区二区APP| 欧美五月婷婷| 亚洲 欧美 偷自乱 图片| 草逼视频国产| 国产成人综合日韩精品无码不卡| 在线精品亚洲一区二区古装| 亚洲成人精品久久| 色综合婷婷| 精品国产91爱| 亚洲综合色区在线播放2019 | 国产一区三区二区中文在线| 91av成人日本不卡三区| 欧美中文一区| 国产白浆在线| 丁香婷婷久久| 精品视频91| 久久精品中文字幕免费| 亚洲乱码视频| 亚洲91在线精品| 日本三区视频| 亚洲丝袜第一页| 一区二区三区成人| 久久婷婷六月| 免费在线不卡视频| 午夜免费小视频| 伊人无码视屏| 一本综合久久| a级毛片免费看| 欧美丝袜高跟鞋一区二区| 日韩欧美高清视频| 欧美天堂在线| 性色一区| 六月婷婷激情综合| 91亚瑟视频| 毛片久久网站小视频| 国产一级二级在线观看| 国产一在线观看| 啪啪啪亚洲无码| 亚洲国产一区在线观看| 精品国产一区91在线| 国产不卡国语在线| 天堂网亚洲系列亚洲系列| 国产精品久久久久无码网站| 国产美女免费| 丝袜亚洲综合| 亚洲VA中文字幕| 极品尤物av美乳在线观看| 国产免费黄| av无码久久精品| aaa国产一级毛片| 精品福利视频网| 久久久久久高潮白浆| 日韩免费毛片| 九九久久精品国产av片囯产区| 欧美69视频在线| 国国产a国产片免费麻豆| 国产成人一区免费观看| 色成人综合| 色亚洲激情综合精品无码视频| 久久精品无码一区二区日韩免费| 狠狠色狠狠综合久久| 婷婷六月综合| 国产精品亚洲天堂| 无码丝袜人妻| 色妺妺在线视频喷水| 欧美一区精品| AV熟女乱|