999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

主成分分析對決策樹算法精度的影響

2019-01-16 05:38:39武君
科技經(jīng)濟市場 2019年11期

武君

摘 要:本文使用風投企業(yè)風險識別案例,用四種決策樹算法,對比了提取主成分前后算法精度的變化。結果表明,提取主要成分后,四種算法中只有C5.0算法的精度獲得了提高,而其他三種算法提取主成分后的精度反而有所下降,并且C5.0算法在未提取主成分時的精度已高于其他三種算法,可見在風險識別案例中先提取主成分再使用C5.0算法后精度較其他三種算法高。

關鍵詞:風險識別;主成分分析;決策樹算法

0 引言

數(shù)據(jù)挖掘中比較熱門的就是分類算法的研究,而決策樹算法是分類算法中最重要的。常見的決策樹算法有四種:CART、C5.0、CHAID和QUEST。每種算法針對不同的數(shù)據(jù)類型,精度也不同。如何提升算法的預測精度,是許多學者都嘗試解決的問題。有些使用集成學習算法,如boosting,Bagging,如趙敏等(2007)[1]研究Adaboost算法在決策樹中的應用,劉余霞等(2012)[2]使用Bagging集成學習研究字符識別,李詒靖等(2016)[3]使用boosting算法解決分類問題。有些將決策樹和其他模型結合在一起,如顧雨等(2010)[4]、張俊深等(2016)[5],都是將多種方法用于分類和預測。另一種提高精度的方法是在數(shù)據(jù)分析前將主成分分析法引入,先提取主要成分,然后做決策樹分析。本文基于創(chuàng)業(yè)企業(yè)風險識別數(shù)據(jù),從實證方面研究主成分分析對決策樹算法精度的影響。

1 理論基礎

1.1 CART算法

CART算法即分類與回歸樹,它包含了分類樹和回歸樹,分類樹用于目標變量是分類型的,回歸樹用于目標變量是連續(xù)型的。CART的生長是二叉樹,如果目標變量是分類型,則以Gini系數(shù)來確認分割點,如果目標變量是數(shù)值型,則以方差來確認分割點。

1.2 C5.0算法

C5.0是經(jīng)典的決策樹模型算法之一,可生成多分支的決策樹,目標變量為分類型變量,使用C5.0算法可以生成決策樹或者規(guī)則集。

1.3 CHAID算法

CHAID算法其核心思想是根據(jù)給定的目標變量和解釋變量對樣本進行最優(yōu)分割。利用卡方自動交互檢測法可以快速、有效地挖掘出主要影響因素,它不僅可以處理非線性和高度相關的數(shù)據(jù),而且還可以將缺失值考慮在內(nèi)。

1.4 QUEST算法

QUEST算法是二叉樹算法。它通過將判別坐標分配給預測變量類別,將分類變量轉換為連續(xù)變量,然后利用二次判別分析QDA來確定分割點。QUEST樹算法的一個優(yōu)點是它是無偏的,不像CART算法那樣偏向于選擇允許更多分裂的分裂變量以及缺失值更多的分裂變量。

2 實證分析

2.1 數(shù)據(jù)來源及描述

本文研究數(shù)據(jù)來自某風投公司提供的所投資創(chuàng)業(yè)企業(yè)數(shù)據(jù)。風險投資是風投公司為創(chuàng)業(yè)企業(yè)提供的投資服務,一段時期后,創(chuàng)業(yè)企業(yè)將面臨成功或失敗兩種可能,風投企業(yè)進行的風險識別是將創(chuàng)業(yè)成功與否的離散變量作為因變量,企業(yè)創(chuàng)業(yè)因素作為自變量,進行決策樹分析判斷,進而研究創(chuàng)業(yè)成功與否的影響因素。

2.1.1 指標匯總

對風投公司提供的數(shù)據(jù)脫敏、預處理后,整理指標如下表。

2.1.2 基本描述

剔除缺失值、無效數(shù)據(jù)后,得樣本總量209,正樣本99,負樣本110。

2.2 主成分提取

2.2.1 KMO檢驗

對數(shù)據(jù)計算KMO檢驗得到如下結果。

2.2.2 提取主成分

主要成分解釋總方差表如下表。

根據(jù)結果提取數(shù)據(jù)10個主要成分,主要成分占原始信息的69.830%。

2.3 實證結果對比

首先對未提取主成分的原始數(shù)據(jù)分別做CART、C5.0、CHAID和QUEST的決策樹運算,再對提取了主成分的數(shù)據(jù)進行上述四種決策樹算法,其結果對比

如下。

分析結果可得:

第一,與未提取主成分相比,提取主成分后四種算法中,只有C5.0算法的精度獲得了提高;而其他三種算法,提取主成分后的精度反而有所下降。

第二,從上述8個結果中可以看出,C5.0算法在未提取主成分時的精度已高于其他三種算法,可見在該案例中先提取主成分再使用C5.0算法后精度較其他三種算法高。

3 結論

本文使用風投企業(yè)投資成功與否案例,利用四種決策樹算法,對比了提取主成分前后,算法精度的變化。結果表明,提取主要成分后,四種算法中只有C5.0算法的精度獲得了提高,而其他三種算法提取主成分后的精度反而有所下降,并且C5.0算法在未提取主成分時的精度已高于其他三種算法,可見在該案例中先提取主成分再使用C5.0算法后精度較其他三種算法高。

參考文獻:

[1]趙敏,陳恩紅,宋睿.基于集成學習的Adaboost演化決策樹算法[J].計算機應用與軟件,2007(03):1-2+21.

[2]劉余霞,呂虹,胡濤,孫小虎.基于Bagging集成學習的字符識別方法[J].計算機工程與應用,2012,48(33):194-196+211.

[3]李詒靖,郭海湘,李亞楠,劉曉.一種基于Boosting的集成學習算法在不均衡數(shù)據(jù)中的分類[J].系統(tǒng)工程理論與實踐,2016,36(01): 189-199.

[4]顧雨,徐廣軍,夏訓峰,席北斗,周素霞.基于最優(yōu)組合預測模型的中國工業(yè)固體廢物產(chǎn)生量預測[J].環(huán)境污染與防治,2010,32(05): 89-91+109.

[5]張俊深,袁程煒.基于BP神經(jīng)網(wǎng)絡與修正GM(1,1)模型的能源消費組合預測[J].統(tǒng)計與決策,2016(05):90-93.

[6]劉敏,趙璟,薛偉賢.“一帶一路”產(chǎn)能合作與發(fā)展中國家全球價值鏈地位提升[J].國際經(jīng)貿(mào)探索,2018,34(08):49-62.

主站蜘蛛池模板: 国产欧美日韩资源在线观看| 成年人视频一区二区| 日韩高清成人| 亚洲日本在线免费观看| 久久中文字幕不卡一二区| 久久亚洲黄色视频| 精品无码视频在线观看| 少妇精品在线| 亚洲IV视频免费在线光看| 日本在线视频免费| 第九色区aⅴ天堂久久香| 国产情侣一区| 免费激情网站| 国产鲁鲁视频在线观看| 制服丝袜一区二区三区在线| 亚洲AV人人澡人人双人| 青青久在线视频免费观看| 一级黄色片网| 丰满人妻久久中文字幕| 日韩中文欧美| 99久久国产精品无码| 久久精品人妻中文系列| 伊人久久婷婷五月综合97色| 女人18毛片久久| 中文字幕欧美成人免费| 色哟哟精品无码网站在线播放视频| 54pao国产成人免费视频| 国产白丝av| 国产精品久久久久久久久| 国产成年女人特黄特色大片免费| 日本91在线| 美女被操91视频| 久久激情影院| 青草视频在线观看国产| 久久天天躁狠狠躁夜夜躁| 久久久久久久久18禁秘| 特级精品毛片免费观看| 99视频在线免费观看| 国产天天射| 亚洲无码高清一区| 99热这里只有精品在线观看| 综合色天天| 国产精品中文免费福利| 久久精品免费国产大片| 国产毛片高清一级国语| 3D动漫精品啪啪一区二区下载| 日本久久免费| 欧美笫一页| 国产高清色视频免费看的网址| 自拍亚洲欧美精品| 乱人伦中文视频在线观看免费| 国产精品欧美在线观看| 国产精品自拍露脸视频| 毛片免费试看| 久久香蕉国产线看观看亚洲片| 国产成人夜色91| 在线国产毛片| 日韩免费无码人妻系列| 亚洲永久色| 欧美在线天堂| 伊人色在线视频| 国产精品自在线天天看片| 国产精品爆乳99久久| 成人免费午夜视频| 波多野结衣在线se| 亚洲成人网在线观看| 亚洲精品无码在线播放网站| 手机永久AV在线播放| 五月天久久综合| 亚洲中文字幕国产av| 久久6免费视频| 免费jjzz在在线播放国产| 亚洲无码熟妇人妻AV在线| a级毛片在线免费| 国产精品丝袜视频| 婷婷亚洲综合五月天在线| 国产在线无码一区二区三区| 一区二区三区四区在线| 国产成人亚洲日韩欧美电影| 丁香婷婷久久| 2022国产无码在线| 亚洲成A人V欧美综合|