999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

三種機器學(xué)習算法在回歸應(yīng)用中的對比分析

2022-07-29 06:54:40李培德
智能計算機與應(yīng)用 2022年8期
關(guān)鍵詞:特征優(yōu)化模型

蔡 明,孫 杰,李培德,鮑 清

(1 湖北省氣象信息與技術(shù)保障中心,武漢 430074;2 暴雨監(jiān)測預(yù)警湖北重點實驗室,武漢 430074)

0 引言

目前,對于中等數(shù)據(jù)集來說,與人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)相比,boosting 方法則有著較為明顯優(yōu)勢。相對來說,boosting 的訓(xùn)練時間會更短,參數(shù)調(diào)整時也不會耗費太多時間。

Boosting 是一種集成學(xué)習策略,致力于從各種弱分類器中生成準確的分類器。通過劃分訓(xùn)練數(shù)據(jù),并使用每個部分來訓(xùn)練不同的模型或用一個具有不同設(shè)置的模型來實現(xiàn),最后再用多數(shù)票將結(jié)果組合在一起。AdaBoost 是Freund 等人提出的第一個用于二元分類的有效boosting 方法。當AdaBoost 進行第一次迭代時,所有記錄的權(quán)重相同,但在下一次迭代中,卻會為錯誤分類的記錄賦予更高的權(quán)重,模型迭代將繼續(xù)、直到構(gòu)造出有效的分類器。AdaBoost 發(fā)布后不久,就有研究發(fā)現(xiàn),即使迭代次數(shù)增加,模型誤差也不會變大。因此,AdaBoost模型十分適用于解決過擬合問題。近些年來,學(xué)者們基于梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)提出了3 種基于決策樹的有效梯度方法,分別是:XGBoost、CatBoost 和LightGBM。這些方法均已成功應(yīng)用于工業(yè)界、學(xué)術(shù)界和競爭性機器學(xué)習的研究中。

1 相關(guān)算法介紹

1.1 GBDT

梯度提升樹是一種利用加法模型與前向分歩算法實現(xiàn)學(xué)習的優(yōu)化過程。當損失函數(shù)為平方誤差損失函數(shù)和指數(shù)損失函數(shù)時,每一步的優(yōu)化較為簡單。但對一般損失函數(shù)而言,往往每一步優(yōu)化并不容易。針對這一問題,F(xiàn)reidman 提出了梯度提升(Gradient Boosting)算法。Gradient Boosting 是Boosting 中的一類算法,設(shè)計思想?yún)⒖甲蕴荻认陆捣ǎ驹硎歉鶕?jù)當前模型損失函數(shù)的負梯度信息,來訓(xùn)練新加入的弱分類器,并將訓(xùn)練好的弱分類器以累加的形式結(jié)合到現(xiàn)有模型中。采用決策樹作為弱分類器的Gradient Boosting 算法被稱為GBDT,有時也稱為MART(Multiple Additive Regression Tree)。

梯度提升方法以分段方式構(gòu)造解,并通過優(yōu)化損失函數(shù)來解決過擬合問題。例如:假設(shè)有一個定制的基學(xué)習器(,)(如決策樹)和一個損失函數(shù)(,())。若直接估計參數(shù)會十分困難,因此在每次迭代時使用迭代模型。每次迭代模型都將被更新、并重選一個新的基學(xué)習器(,θ),其中增量可表示為:

這樣就可以將難解的優(yōu)化問題轉(zhuǎn)化為常用的最小二乘優(yōu)化問題,即:

這里,對梯度提升算法的實現(xiàn)步驟可做闡釋表述如下。

令為常數(shù);

對于1 到有:

1:利用式(1)計算g();

2:訓(xùn)練函數(shù)(,θ) ;

3:利用式(2)尋找最優(yōu)ρ

結(jié)束。

該算法從一片葉子開始,接著將針對每個節(jié)點和每個樣本優(yōu)化學(xué)習速率。

1.2 XGBoost

XGBoost(eXtreme Gradient Boosting)是一種高度可擴展、靈活且通用的梯度提升工具,其設(shè)計目的在于正確使用資源,并克服以往梯度提升算法的局限性。XGBoost 和其它梯度提升算法的主要區(qū)別是,XGBoost 使用了一種新的正則化技術(shù),控制過擬合現(xiàn)象的產(chǎn)生。因此,在模型調(diào)整期間,XGBoost會更快、更健壯。正則化技術(shù)是通過在損失函數(shù)中添加一個新項來實現(xiàn)的,此處的數(shù)學(xué)公式可寫為:

XGBoost 使用了新的增益函數(shù),相應(yīng)的函數(shù)形式具體如下:

文中,對XGBoost 基本核心算法流程擬做闡釋如下。

(1)不斷地添加樹,并不斷地進行特征分裂來生長一棵樹。每次添加一個樹,其實是學(xué)習一個新函數(shù)(),去擬合上次預(yù)測的殘差。

(2)當訓(xùn)練完成得到棵樹,需要預(yù)測一個樣本的分數(shù),即根據(jù)這個樣本特征,在每棵樹中會求得對應(yīng)的一個葉子節(jié)點,每個葉子節(jié)點就對應(yīng)一個分數(shù)。

(3)基于此,只需將每棵樹對應(yīng)的分數(shù)加起來,就得到了該樣本的預(yù)測值。

1.3 LightGBM

為了提高GBDT 算法效率、避免XGBoost 的缺陷、并且能夠在不損害準確率的條件下加快GBDT模型的訓(xùn)練速度,微軟研究團隊于2017 年4 月開發(fā)了LightGBM。LightGBM 在傳統(tǒng)GBDT 算法上進行了如下優(yōu)化:

(1)基于Histogram 的決策樹算法。一個葉子的直方圖可以由其父親節(jié)點直方圖與其兄弟直方圖做差得到,在速度上可以提升一倍。

(2)單邊梯度采樣(Gradient-based One-Side Sampling,GOSS)。使用GOSS 可以減少大量只具有小梯度的數(shù)據(jù)實例,使其在計算信息增益時只利用余下的具有高梯度的數(shù)據(jù)即可。相比XGBoost 而言,既遍歷所有特征值,也節(jié)省了不少時間和空間上的開銷。GOSS 算法從減少樣本的角度出發(fā),排除大部分小梯度的樣本,僅用剩下的樣本計算信息增益,這樣做的好處是在減少數(shù)據(jù)量和保證精度上取得平衡。

(3)互斥特征捆綁(Exclusive Feature Bundling EFB)。使用EFB 可以將許多互斥的特征綁定為一個特征,這樣達到了降維的目的。

(4)帶深度限制的Leaf-wise 葉子生長策略。大多數(shù)GBDT 工具使用低效的按層生長(levelwise)的決策樹生長策略,且由于不加區(qū)分地對待同一層的葉子,帶來了很多額外開銷。實際上很多葉子的分裂增益較低,沒必要進行搜索和分裂。LightGBM 使用了帶有深度限制的按葉子生長(leaf-wise)算法,在分裂次數(shù)相同的情況下,Leaf-wise可以降低誤差,得到更好的精度。并且,還能做到:

①直接支持類別特征(Categorical Feature);

②支持高效并行;

③Cache 命中率優(yōu)化。

上述優(yōu)化使得LightGBM 具有更好的準確性、更快的訓(xùn)練速度、以及大規(guī)模處理數(shù)據(jù)能力,同時還能支持GPU 學(xué)習的優(yōu)點。按層生長與按葉子生長的設(shè)計示意如圖1 所示。

圖1 按層生長與按葉子生長示意圖Fig.1 Schematic diagram of level-wise growth and leaf-wise growth

1.4 CatBoost

CatBoost 是Yandex 在2017 年提出的開源的機器學(xué)習庫,同前面介紹的XGBoost 和LightGBM類似,依然是在GBDT 算法框架下的一種改進算法,是一種基于對稱決策樹(oblivious trees)算法的GBDT 框架,不僅參數(shù)少、準確性高,還能支持類別型變量,高效合理地處理類別型特征(Categorical features)也是其主要亮點及優(yōu)勢。由其名稱就可以看出,CatBoost 是由categorical 和boost 組成,并改善了梯度偏差(Gradient bias)及預(yù)測偏移(Predictionshift)問題,提高了算法準確性和泛化能力。

CatBoost 可以利用各種統(tǒng)計上的分類特征和數(shù)值特征的組合,將分類值編碼成數(shù)字,并通過在當前樹的新拆分處,使用貪婪方法解決特征組合的指數(shù)增長問題。同均值編碼類似,重點是通過以下步驟防止過擬合:

(1)將記錄隨機劃分為子集。

(2)將標簽轉(zhuǎn)換為整數(shù)的同時,將分類特征轉(zhuǎn)化為數(shù)字特征,研究求得的數(shù)學(xué)公式為:

其中,是給定分類特征在目標中的個數(shù);是之前對象的個數(shù);由初始參數(shù)指定。

與XGBoost、LightGBM 相比,CatBoost 的創(chuàng)新點體現(xiàn)在如下方面:

(1)嵌入了將類別型特征自動處理為數(shù)值型特征的創(chuàng)新算法。先對categorical features 做一些統(tǒng)計,計算某個類別特征(category)出現(xiàn)的頻率,此后加上超參數(shù),生成新的數(shù)值型特征(numerical features)。

(2)Catboost 使用了組合類別特征,可以用到特征之間的聯(lián)系,極大地豐富了特征維度。

(3)采用排序提升的方法對抗訓(xùn)練集中的噪聲點,這就避免了梯度估計的偏差,進而解決預(yù)測偏移的問題。

(4)采用完全對稱樹作為基模型。

2 前期準備

2.1 數(shù)據(jù)集

選擇Kaggle 比賽中的NYC Taxi fares 數(shù)據(jù)集作為3 種模型對比實驗的數(shù)據(jù)集,以此來對比3 種算法的性能。數(shù)據(jù)集共有1 108 477條數(shù)據(jù),數(shù)據(jù)集的前5 行數(shù)據(jù)樣本見表1。特征變量數(shù)目為8,目標特征為fare_amount。

表1 初始數(shù)據(jù)集快照Tab.1 Snapshot of initial dataset

在對特征變量進行處理時,將拆分生成新特征變量年、月、星期、年積日、時;通過、、、和NYC 內(nèi)機場經(jīng)緯度坐標,計算乘車距離Distance 和到各個機場的距離作為新的特征變量。同時對數(shù)據(jù)集進行處理,去除≥5 或記錄為空的數(shù)據(jù)。

最終,將經(jīng)過預(yù)處理和特征工程加工的數(shù)據(jù)集按照7 ∶3 的比例劃分為訓(xùn)練集和測試集。

2.2 實驗設(shè)計

為了從性能表現(xiàn)、效率等方面對比最具代表性的3 種基于GBDT 的研發(fā)算法在回歸應(yīng)用中的情況,文中將按照以下步驟進行實驗:

(1)使用相同的初始參數(shù)訓(xùn)練 XGBoost、CatBoost、LightGBM 算法的基準模型。

(2)使用超參數(shù)自動搜索模塊GridSearch CV訓(xùn)練XGBoost、CatBoost 和LightGBM 算法的調(diào)整模型。

(3)從訓(xùn)練和預(yù)測時間、預(yù)測得分兩方面比較算法性能的表現(xiàn)情況。

3 實驗結(jié)果對比分析

3.1 預(yù)測精度對比

為了研究不同數(shù)據(jù)樣本量對模型性能的影響,分別按照全部、1/2、1/5 和1/10 的比例,從樣本數(shù)據(jù)集中隨機抽取樣本形成新的樣本集。對新的樣本集,按照7 ∶3 的比例劃分訓(xùn)練集和測試集,從模型預(yù)測精度和訓(xùn)練、預(yù)測用時等方面,對比3 種算法的回歸預(yù)測性能。

本文使用均方根誤差對模型的預(yù)測精度進行評價。均方根誤差的數(shù)學(xué)定義的公式表述可寫為:

3 種模型回歸預(yù)測的見表2。表2 中,XGBoost、LightGBM、CatBoost 代表建立的基準模型,XGBoost_CV、LightGBM_CV、CatBoost_CV 代表在基準模型基礎(chǔ)上,經(jīng)過網(wǎng)格搜索和交叉驗證后的優(yōu)化模型。觀察表2 可以看出,3 種算法經(jīng)過參數(shù)調(diào)優(yōu)后的,相比各自基準模型的都有所降低,說明參數(shù)優(yōu)化提高了模型的預(yù)測精度。隨著樣本規(guī)模的降低,3 種算法的皆有不同程度的增長,說明樣本規(guī)模的減小,降低了模型的預(yù)測精度。但是,CatBoost 算法在樣本規(guī)模由總樣本數(shù)目的1/5 降至1/10 時,模型預(yù)測結(jié)果的并沒有出現(xiàn)增長。說明樣本規(guī)模降低至總樣本數(shù)目的1/5后,CatBoost 對樣本規(guī)模的降低已不再敏感,樣本規(guī)模與模型預(yù)測精度的具體聯(lián)系有待進一步研究。

表2 模型預(yù)測精度RMSETab.2 Prediction accuracy of the models RMSE

由此可見,LightGBM 在基準模型和優(yōu)化模型上都比其它2 種算法的要小,說明LightGBM 算法在實驗數(shù)據(jù)集上的預(yù)測效果優(yōu)于其它2 種算法。

3.2 運行時間對比

通過記錄3 種模型訓(xùn)練和預(yù)測用時,進行3 種模型的運行用時對比,對比結(jié)果見表3。從表3 中也可以看出,對于同一模型,使用網(wǎng)格搜索交叉檢驗?zāi)P偷倪\行用時遠高于其基準模型,這是由于網(wǎng)格搜索和交叉檢驗操作用時較多。同時,從表3 中也可以看出,樣本規(guī)模和模型運行時間成正比,模型樣本規(guī)模越大,訓(xùn)練和預(yù)測用時越多。不同模型間進行對比時,LightGBM 無論是基準模型、還是經(jīng)過網(wǎng)格搜索交叉檢驗后的優(yōu)化模型,在運行用時上都是最少,CatBoost 模型的運行時間次之,XGBoost 模型運行耗時最多,這與前文論述中對3 種模型的特性介紹相符。

表3 模型運行時間Tab.3 Running time of the models s

3.3 參數(shù)重要性評價

通過比較3 種模型的feature_importances_屬性,研究這些屬性中哪些對模型的預(yù)測影響最大,對比結(jié)果如圖2~圖4 所示。由圖2~圖4 分析可知,雖然3 種模型中的各個變量重要性排序不盡相同,但訂單距離、機場訂單距離_、訂單年份和乘客下車時的經(jīng)度_的變量重要性均排名前4,說明無論是采用哪種模型,這4 個變量均是決定模型預(yù)測效果的關(guān)鍵變量。4 個變量中,訂單距離、機場訂單距離_和訂單年份均是通過特征工程從原始數(shù)據(jù)集中生成的變量,這也說明對原始數(shù)據(jù)集進行特征工程加工是提升模型訓(xùn)練效果的一種有效手段。

圖2 使用XGBoost 模型的特征重要性排序圖Fig.2 Ranking diagram of feature importance using XGBoost model

圖3 使用LightGBM 模型的特征重要性排序圖Fig.3 Ranking diagram of feature importance using LightGBM model

圖4 使用CatBoost 模型的特征重要性排序圖Fig.4 Ranking diagram of feature importance using CatBoost model

4 結(jié)束語

本文比較了3 種最先進的梯度增強方法(XGBoost、LightGBM 和CatBoost)的回歸預(yù)測精度和運行時間。LightGBM 在實驗數(shù)據(jù)集上的表現(xiàn)較其他梯度增強方法要快得多,而且在同樣經(jīng)過超參數(shù)優(yōu)化后,可以取得更好的回歸預(yù)測結(jié)果;可以通過對原始數(shù)據(jù)集進行新特征生成和最佳特征選擇等特征工程操作,提升模型預(yù)測性能。綜合前文論述可知,由于LightGBM 模型在預(yù)測精度和運行速度上的優(yōu)勢,可以作為回歸應(yīng)用的首選模型。

猜你喜歡
特征優(yōu)化模型
一半模型
超限高層建筑結(jié)構(gòu)設(shè)計與優(yōu)化思考
民用建筑防煙排煙設(shè)計優(yōu)化探討
關(guān)于優(yōu)化消防安全告知承諾的一些思考
一道優(yōu)化題的幾何解法
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
主站蜘蛛池模板: 热这里只有精品国产热门精品| 欧类av怡春院| 国产av剧情无码精品色午夜| 国产精品久久国产精麻豆99网站| 丝袜久久剧情精品国产| 国产无码性爱一区二区三区| 亚洲福利视频一区二区| 日韩a级毛片| 国产美女丝袜高潮| 婷婷六月综合| 日韩精品无码免费一区二区三区 | 在线中文字幕网| 女人天堂av免费| 中文字幕久久亚洲一区| 18禁影院亚洲专区| 国产欧美日韩免费| 91午夜福利在线观看| 亚洲国产精品国自产拍A| 欧美区一区| 亚洲日韩日本中文在线| 亚洲午夜久久久精品电影院| 国产欧美视频综合二区| 色色中文字幕| 少妇露出福利视频| 亚洲天堂免费在线视频| 狠狠色丁婷婷综合久久| 国产丰满成熟女性性满足视频| 亚洲国产亚洲综合在线尤物| 亚洲精品色AV无码看| 在线国产三级| 99久久精品久久久久久婷婷| 亚洲首页在线观看| 成人韩免费网站| 国产精品手机在线播放| 亚洲日产2021三区在线| 92精品国产自产在线观看 | 精品无码一区二区三区电影| 亚洲无码免费黄色网址| V一区无码内射国产| 日日拍夜夜操| 2021国产精品自产拍在线观看 | 日本手机在线视频| 亚洲无码A视频在线| 欧美啪啪一区| 欧美日韩一区二区在线播放| 麻豆精品在线视频| 免费高清a毛片| 亚洲h视频在线| h视频在线播放| 国产伦片中文免费观看| 九色视频最新网址 | 在线观看91香蕉国产免费| 亚洲三级视频在线观看| 免费人成又黄又爽的视频网站| 日韩视频福利| 日韩精品一区二区深田咏美| 亚洲欧美激情小说另类| 亚洲日本中文字幕天堂网| 无码啪啪精品天堂浪潮av| 大学生久久香蕉国产线观看| 91久久夜色精品| 性欧美精品xxxx| 一区二区在线视频免费观看| 久久99热这里只有精品免费看 | 国产免费福利网站| 国产高清毛片| 国产精品2| 一级毛片基地| 亚洲国产日韩视频观看| 日韩精品亚洲一区中文字幕| 欧美色综合久久| 综合网天天| 蜜臀AVWWW国产天堂| 91极品美女高潮叫床在线观看| 福利国产微拍广场一区视频在线 | 成·人免费午夜无码视频在线观看 | 午夜视频在线观看免费网站| 国产又粗又猛又爽视频| 国产日韩av在线播放| 日韩福利视频导航| 无码免费的亚洲视频| 午夜小视频在线|