999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

幾種降維技術(shù)在分類問題中的效果評估

2018-09-14 10:54:24詹鵬偉謝小姣
科技創(chuàng)新與應(yīng)用 2018年21期

詹鵬偉 謝小姣

摘 要:高維數(shù)據(jù)將會給數(shù)據(jù)分析帶來極大的困難,因其所導(dǎo)致的數(shù)據(jù)分布稀疏化和數(shù)據(jù)組織效果的下降將會大大影響模型的性能。降維就是用于解決“維度災(zāi)難”的方法之一。文章從PCA、LLE、Isomap三種常見的降維方法入手,首先介紹了它們的實(shí)現(xiàn)原理,進(jìn)一步結(jié)合KNN、SVM、RandomForest、Naive Bayes以及Logistics Regression模型構(gòu)建了用于評價三種降維方法的綜合交叉模型。結(jié)果表明,在文章所使用的數(shù)據(jù)集中,經(jīng)過PCA方法與Isomap方法降維后的數(shù)據(jù)在可視的2維空間上分布較為均勻,而LLE方法分布則較為集中。且使用了PCA與Isomap方法的分類模型訓(xùn)練后的平均準(zhǔn)確率高達(dá)96.44%與96.90%,高于LLE方法處理后所得的90.74%,PCA與Isomap具有較優(yōu)的降維效果。本研究中所采用的方法與所得的結(jié)果為降維方法的選擇提供了有益的參考。

關(guān)鍵詞:降維;PCA;LLE;Isomap;效果評估

中圖分類號:TP311.13 文獻(xiàn)標(biāo)志碼:A 文章編號:2095-2945(2018)21-0022-03

Abstract: High-dimensional data will bring great difficulties to data analysis, and the sparse distribution of data and the decline of data organization effect it causes will greatly affect the performance of the model. Dimensionality reduction is one of the ways to solve the "dimension disaster". Starting with three common dimensionality reduction methods, i.e., PCA, LLE and Isomap, this paper introduces their implementation principles, and then constructs a comprehensive cross model for evaluating the three dimensionality reduction methods based on the models of KNN, SVM, RandomForest, Naive Bayes and Logistics Regression. The results show that in the data set used in this paper, after dimensionality reduction by PCA method and Isomap method, the distribution of the data is uniform in the visible two-dimensional space, while the distribution of LLE method is more concentrated. The average accuracy of the classification model trained with PCA and Isomap is 96.44% and 96.90%, which is higher than 90.74% with Isomap and 90.74% with LLE. The methods used in this study and the results obtained provide a useful reference for the choice of dimensionality reduction methods.

Keywords: dimensionality reduction; PCA; LLE; Isomap; effect evaluation

引言

隨著計(jì)算機(jī)和互聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)呈現(xiàn)爆炸式的增長,高維數(shù)據(jù)已經(jīng)越來越常見。但是隨著數(shù)據(jù)維度的增加,數(shù)據(jù)利用的難度也越來越高。因“維度災(zāi)難”而導(dǎo)致模型的參數(shù)估計(jì)困難,模型結(jié)果下降的情況已經(jīng)影響到了包括機(jī)器學(xué)習(xí)、模式識別、自然語言處理在內(nèi)的諸多領(lǐng)域。隨著數(shù)據(jù)維度的增高,會導(dǎo)致數(shù)據(jù)的分布越來越稀疏、數(shù)據(jù)的組織效果下降,且對計(jì)算機(jī)硬件的要求也更高,這些問題都會導(dǎo)致模型性能下降、效率下降,給數(shù)據(jù)分析帶來了極大的挑戰(zhàn)。

為了解決“維度災(zāi)難”的問題,研究者們提出了一系列用于數(shù)據(jù)降維的方法,本文將從包括PCA(主成分分析)、LLE(局部線性嵌入)、Isomap(等距特征映射)在內(nèi)的三種常用的降維方法入手,介紹它們的實(shí)現(xiàn)原理,并分別搭配KNN、SVM、RandomForest、Naive Bayes、Logistic Regression分類模型在Collagen spectroscopy數(shù)據(jù)集上綜合探究不同降維方法與分類器組合的性能與效果。

1 數(shù)據(jù)與材料

1.1 數(shù)據(jù)集

本文采用了Collagen spectroscopy數(shù)據(jù)集,該數(shù)據(jù)集通過使用傅里葉變換紅外光譜(FTIR)測量細(xì)胞數(shù)據(jù)并對細(xì)胞中不同部位的化合物含量進(jìn)行標(biāo)注。數(shù)據(jù)一共有731例樣本,每個樣本包含234個特征,樣本被分為四類:膠原、糖原、血脂及DNA。

1.2 數(shù)據(jù)預(yù)處理

為了消除量綱對降維與分類結(jié)果的影響,首先對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,將每個特征集合X={x1,x2,…,xN},映射到[0,1]區(qū)間,方法為:

2.3 Isomap(等距特征映射)

Isomap(Isometric Mapping)是由Tenenbaum于2000年提出的[3],其認(rèn)為高維空間中的直線距離在低維空間中是不可達(dá)的,并引入了“測地線”距離來代替直線距離進(jìn)行計(jì)算。其算法過程為:

(1)確定領(lǐng)域,對xi的領(lǐng)域進(jìn)行搜索,找到K個最鄰近的樣本點(diǎn)。(2)計(jì)算xi與K個最鄰近的樣本點(diǎn)之間的歐氏距離,其余點(diǎn)認(rèn)為無窮遠(yuǎn),構(gòu)造距離矩陣。(3)利用Dijkstra算法或Floyd算法計(jì)算任意樣本點(diǎn)之間的距離,并將該距離作為MDS(Multiple DimensionalScaling,多維縮放)算法的輸入,MDS所返回的結(jié)果的集合即為X在低維空間的映射。

3 建立模型

為了比較上述的三種降維算法的效果,本文選擇了五種常見的分類算法(KNN、SVM、RandomForest、Naive Bayes、Logistic Regression)來使用降維之后的數(shù)據(jù)進(jìn)行分類預(yù)測,構(gòu)建交叉模型,將三種不同的降維方法與以上五種分類模型分別組合,組成用于評價降維方法性能的綜合交叉模型,可通過不同模型分類結(jié)果的投票評分找出性能最優(yōu)的降維算法,如圖1所示。

4 實(shí)驗(yàn)結(jié)果與分析

為了方便可視化,我們將三種降維方法的目標(biāo)維度d'都設(shè)置為2,于是在三種不同的降維方法下,原始數(shù)據(jù)集的731個樣本被映射到2維空間后的分布如圖2所示。

可見經(jīng)過三種降維方法的映射之后,數(shù)據(jù)的投影在2維空間內(nèi)呈現(xiàn)不同的分布。其中經(jīng)過PCA與Isomap處理之后的數(shù)據(jù)分散的較為均勻,而LLE處理之后的數(shù)據(jù)則集中分布在幾條線上。在這樣的降維結(jié)果下,為了探究降維算法對最終分類結(jié)果的影響,進(jìn)一步將降維之后的2維數(shù)據(jù)分別輸入如圖1所示的五種分類模型中,并將數(shù)據(jù)集分為10等份,采用10倍交叉驗(yàn)證方法來驗(yàn)證模型的準(zhǔn)確性,每次使用九個子集作為訓(xùn)練集,剩余的一個作為測試集,最終得到的預(yù)測情況如表1所示。

表中的數(shù)值為同種情況下運(yùn)算了三次之后所取得的平均值,可見,三種降維方法在不同的分類模型下表現(xiàn)十分不同。其中在經(jīng)過LLE算法降維之后的數(shù)據(jù)分類的結(jié)果要比PCA以及Isomap處理之后的結(jié)果普遍要差,各模型準(zhǔn)確率的下降程度最高可達(dá)12%,但也偶有上升的情況。最終的平均準(zhǔn)確率PCA高達(dá)96.44%,LLE高達(dá)90.74%,而Isomap高達(dá)96.90%。不光是準(zhǔn)確率,PCA與Isomap處理后結(jié)果的F1值也普遍高于LLE,說明不管是查全率還是查準(zhǔn)率在PCA與Isomap方法下都能有較好的結(jié)果。

5 結(jié)束語

在本文的數(shù)據(jù)集中,PCA與Isomap方法取得了較好的性能,但是在不同的數(shù)據(jù)集中出現(xiàn)的結(jié)果可能會有所不同。本文所用到的綜合交叉模型可以方便的對算法的選擇提供幫助,通過多種模型結(jié)合的投票評分可以選擇出最適合于當(dāng)前數(shù)據(jù)集的降維方法,從而在最大程度上改善數(shù)據(jù)高維問題,提高模型的性能,為降維方法的選擇提供了一定的參考。

參考文獻(xiàn):

[1]林海明,杜子芳.主成分分析綜合評價應(yīng)該注意的問題[J].統(tǒng)計(jì)研究,2013,30(08):25-31.

[2]白俊卿,閆桂榮,王成.利用局部線性嵌入的模態(tài)識別[J].西安交通大學(xué)學(xué)報,2013,47(01):85-89+100.

[3]Tenenbaum J B, de Silva V, Langford J. A global geometric framework for nonlinear dimensionality reduction[J]. Science, 2000, 290(5500): 2319-338.

[4]周頌洋,譚琨,吳立新.基于鄰域距離ISOMAP算法的高光譜遙感降維算法[J].遙感技術(shù)與應(yīng)用,2014,29(04):695-700.

[5]余肖生,周寧.高維數(shù)據(jù)降維方法研究[J].情報科學(xué),2007(08):1248-1251.

[6]吳曉婷,閆德勤.數(shù)據(jù)降維方法分析與研究[J].計(jì)算機(jī)應(yīng)用研究,2009,26(08):2832-2835.

[7]張少龍,鞏知樂,廖海斌.融合LLE和ISOMAP的非線性降維方法[J].計(jì)算機(jī)應(yīng)用研究,2014,31(01):277-280.

主站蜘蛛池模板: 91 九色视频丝袜| 91最新精品视频发布页| 国产精品尤物铁牛tv | 中文字幕在线观看日本| 国产99欧美精品久久精品久久| 五月天婷婷网亚洲综合在线| 国产91成人| 日韩欧美中文在线| 中文无码伦av中文字幕| 一级香蕉视频在线观看| 超碰免费91| 久久国产精品影院| 国产成熟女人性满足视频| 女人天堂av免费| 国产打屁股免费区网站| 在线看国产精品| 无码精油按摩潮喷在线播放| 国禁国产you女视频网站| 无码中文字幕乱码免费2| 亚洲制服中文字幕一区二区 | 中文字幕 日韩 欧美| 四虎永久在线精品影院| 成人年鲁鲁在线观看视频| 色综合手机在线| 国产女人18毛片水真多1| 青青青草国产| 亚洲第一黄片大全| 91区国产福利在线观看午夜| 91年精品国产福利线观看久久| 最新国产精品第1页| 国产无码高清视频不卡| 91麻豆国产精品91久久久| 亚洲乱码在线播放| 国产精品嫩草影院视频| 久草青青在线视频| 精品人妻系列无码专区久久| 日韩精品少妇无码受不了| 狼友视频一区二区三区| 女人毛片a级大学毛片免费| 九九香蕉视频| 国产一区二区色淫影院| 欧美激情视频二区三区| 欧美日在线观看| 波多野吉衣一区二区三区av| 啦啦啦网站在线观看a毛片| 国产午夜精品鲁丝片| 97久久超碰极品视觉盛宴| 中文无码精品a∨在线观看| 亚洲欧美日韩视频一区| 国产爽爽视频| 直接黄91麻豆网站| 一区二区午夜| 在线免费亚洲无码视频| 青青青亚洲精品国产| 91精品啪在线观看国产91九色| 欧美一级片在线| 91在线免费公开视频| 99热这里只有精品2| 成人在线不卡视频| 国产亚洲精久久久久久久91| 伊人久久久久久久| 一级毛片免费观看久| 最新痴汉在线无码AV| 国产人人乐人人爱| 特级精品毛片免费观看| 波多野结衣久久精品| 亚洲av无码成人专区| 天天躁夜夜躁狠狠躁图片| 99热6这里只有精品| 国产欧美自拍视频| 久久精品国产999大香线焦| 国产精品爽爽va在线无码观看| 欧美成人午夜视频免看| 国产乱人激情H在线观看| 久久婷婷六月| 免费在线观看av| 久久人人妻人人爽人人卡片av| 91色爱欧美精品www| 亚洲国内精品自在自线官| 日韩国产 在线| 久久大香伊蕉在人线观看热2 | 香蕉久久国产精品免|