999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習方法的電動汽車價格預測

2020-12-23 05:41:45孫一飛夏帆唐晨添趙陸亮
綠色科技 2020年14期
關鍵詞:精確度機器學習

孫一飛 夏帆 唐晨添 趙陸亮

摘要:運用多種機器學習方法對給定電動汽車數(shù)據(jù)建立了模型,對比發(fā)現(xiàn)了邏輯斯蒂回歸模型的性能最好,精確度達97.33%,最終選擇邏輯斯蒂回歸模型用于對電動汽車的價格進行預測。

關鍵詞:價格預測;機器學習;精確度

中圖分類號:F426

文獻標識碼:A?文章編號:1674-9944(2020)14-0266-03

1?引言

1.1?研究意義

伴隨著國家政策的實施和民眾消費偏好的轉變,電動汽車市場進入了蓬勃發(fā)展時期。但是在受到國家補貼促進作用的同時,電動汽車市場的發(fā)展對國家補貼政策的依賴性也逐漸加深。鐘財富[1]發(fā)現(xiàn)由于補貼大幅度下降,2019年,電動汽車銷售量10年來首次降低。以往較大力度的補貼政策,導致電動汽車的定價具有一定程度的不合理性,當補貼作用下降的時候,消費者會比以往更加關注電動汽車的價格。因此本文希望運用多種機器學習方法,通過對電動汽車數(shù)據(jù)建立模型,選取最有效的模型對電動汽車的價格進行預測,讓企業(yè)更合理地定價,以促進電動汽車行業(yè)的發(fā)展。

1.2?文獻綜述

目前各種機器學習方法研究成果頗豐,Erhan Bergil等[2]使用KNN方法研究分析了6種不同手部運動的雙通道肌電圖記錄,取得了不錯的效果;黃瑩,任偉[3]使用多分類邏輯斯蒂回歸對允讓構式進行分析,發(fā)現(xiàn)允讓構式具有統(tǒng)計性先占特征;Mohammad Reza Pahlavan-Rad等[4]使用簡單(多元線性回歸)和復雜(隨機森林)模型來聯(lián)系協(xié)變量和滲透測量,發(fā)現(xiàn)隨機森林預測根據(jù)視覺審查被判斷為更接近現(xiàn)實;

2?研究內容與研究方法

2.1?研究目的

使用多種機器學習方法在測試集上建立模型,比較各個方法在測試集上的精確度[1],選擇合適的模型,對電動汽車進行價格預測。

2.2?假設條件

特征的充分必要性:電動汽車的價格由且只由給定的電動汽車數(shù)據(jù)中的20 個屬性共同來決定。這個假設條件沒有現(xiàn)實意義上的必然性,但是由于獲取到的數(shù)據(jù)的限制,只能做出這種假設。

2.3?模型設立步驟

本文在假設條件成立的情況下,模型設立步驟如圖1所示。

(1)首先對數(shù)據(jù)進行描述性統(tǒng)計分析,檢查數(shù)據(jù)的平衡性、有無缺失值和異常值,然后進行數(shù)據(jù)清洗、填補等操作。

(2)選擇K近鄰(k-Nearest Neighbor,KNN)、邏輯斯蒂回歸(Logistic Regression,LR)、隨機森林(random forest,RF)、支持向量機(Support vector machine,SVM)、樸素貝葉斯(Naive Bayes Classifier ,NBC)、XGBoost、決策樹(decision tree,DT)以及人工神經網絡(artificial neural network ,ANN)8種方法建立模型,然后基于前8種模型構建GradientBoosting融合模型,進行比較。

(3)選取最優(yōu)模型對電動汽車進行價格預測。

3?原始數(shù)據(jù)的描述性分析及數(shù)據(jù)清洗

3.1?數(shù)據(jù)來源

本文數(shù)據(jù)來自上海財經大學數(shù)學學院舉辦的全國首屆研究生工業(yè)與金融大數(shù)據(jù)建模與計算邀請賽初賽C題:電動汽車價格預測相關數(shù)據(jù)。原始數(shù)據(jù)分為訓練集和測試集兩部分,其中訓練集1500條數(shù)據(jù),測試集500條數(shù)據(jù),由于給定的測試集數(shù)據(jù)沒有價格數(shù)據(jù),難以計算精確度,所以本文擬將測試集數(shù)據(jù)按7∶3的比例重新劃分出測試集和訓練集兩部分數(shù)據(jù)。

3.2?數(shù)據(jù)缺失情況分析

原始數(shù)據(jù)各標簽有效數(shù)據(jù)均為1500條,缺失數(shù)據(jù)0條,沒有數(shù)據(jù)缺失,是完整的數(shù)據(jù)集。

3.3?原始數(shù)據(jù)樣本均衡情況分析

預測變量價格的4個等級類別樣本量均在370個左右,原始數(shù)據(jù)樣本分布平衡(圖2)。

3.4?數(shù)據(jù)預處理

原始數(shù)據(jù)是完整的平衡樣本,所以不需要進行異常值、缺失值以及不平衡數(shù)據(jù)處理。由于本文使用的一些機器學習方法對數(shù)據(jù)量綱比較敏感,所以會對數(shù)據(jù)進行歸一化處理,消除數(shù)據(jù)量綱的影響,提高模型性能。

4?建模與分析

在對數(shù)據(jù)進行初步分析和預處理之后,開始構建模型,對模型進行優(yōu)化分析。

4.1?KNN

建立KNN初始模型,使用網格搜索方法調整參數(shù),通過交叉驗證方式獲得最終的KNN模型的精確度為93.33%。

4.2?Logistic回歸

分別使用擬牛頓法、牛頓法、隨機平均梯度下降法、改進的隨機平均下降法構建Logistic回歸模型,通過正則化方法消除過擬合現(xiàn)象,最終選擇牛頓法求解的模型作為Logistic模型的代表,其精確度為97.33%。

4.3?隨機森林

構造初始模型,對數(shù)據(jù)進行分類,獲得該模型的精確度。調整參數(shù)n_estimators,通過交叉驗證方式,確定隨機森林里基評估器的最佳數(shù)目,使用網格搜索方法調整參數(shù),將最后調整好的參數(shù)寫入隨機森林方法中構造最終的隨機森林模型,通過交叉驗證方式獲得代表性的隨機森林模型的精確度。最終構建基評估器為142、最大樹深度為11、獲得分枝時考慮的特征個數(shù)為10、使用信息增益方法選取特征的隨機森林模型,其精確度為90.13%。

4.4?支持向量機(SVM)

由于數(shù)據(jù)中各個特征數(shù)據(jù)具有不同的量綱,數(shù)據(jù)存在十分嚴重的量綱不一問題,而SVM模型嚴重受到數(shù)據(jù)量綱的影響。為了消除數(shù)據(jù)量綱不一問題對SVM模型的嚴重影響,首先將數(shù)據(jù)進行歸一化預處理,使用線性核函數(shù)(linear)、多項式核函數(shù)(poly)、高斯徑向基核函數(shù)(rbf)以及雙曲正切核函數(shù)(sigmoid),分別構建SVM模型并進行比較,選出對測試集數(shù)據(jù)預測擬合效果最好的模型作為SVM模型的代表。最終選擇使用線性核函數(shù)構建的SVM模型,其精確度為94.89%。

4.5?樸素貝葉斯模型

分別使用高斯分布樸素貝葉斯分類器和多項式樸素貝葉斯分類器構造模型,對測試數(shù)據(jù)集數(shù)據(jù)進行預測,模型精確度都為82.08%和80.89%,

4.6?XGBoost

構造初始模型,對數(shù)據(jù)進行分類,獲得該模型的精確度。調整參數(shù)n_estimators,通過交叉驗證方式,確定XGBoost里弱評估器的最佳數(shù)目,使用網格搜索方法調整參數(shù),將最后調整好的參數(shù)寫入XGBoost方法中構造最終的XGBoost模型,通過交叉驗證方式獲得代表性的XGBoost模型的測試集精確度。最終構建弱分類器選定為梯度提升樹(gbtree)、個數(shù)為153 個,subsample為0.75,reg_alpha為0.2,reg_lambda為0.65,gamma為0.2的XGBoost分類器,其精確度為92.60%。

4.7?決策樹模型

構建一般樹模型,進行控制隨機性和剪枝操作,每一步操作都用信息增益和基尼指數(shù)兩種方法進行特征選取,構建六種模型,對比各模型的精確度,選出最優(yōu)模型。最后選擇進行剪枝處理的最大樹深度為12的使用基尼系數(shù)方法進行特征選擇的決策樹模型,其訓練精確度為98.86%,精確度為81.33%。

4.8?人工神經網絡(ANN)

構建的多層感知機分類器神經網絡的精確度為66.64%,精確度很低,說明模型擬合效果不理想。考慮到原始數(shù)據(jù)中各個特征數(shù)據(jù)具有不同的量綱,數(shù)據(jù)存在十分嚴重的量綱不一問題,所以對原始數(shù)據(jù)進行歸一化處理,再建立模型擬合,模型的精確度為92.67%,歸一化處理數(shù)據(jù)后,模型的擬合效果有了很大的提升。

4.9?GradientBoosting融合模型

為了獲得性能更好的模型,嘗試使用Blending 方法通過集成學習方法GradientBoosting根據(jù)上述8個模型的結果構造融合模型,分析是否會得到性能更好的模型,最終構成的融合模型的精確度為90.22%,模型性能一般。

5?結論與展望

本文運用多種機器學習方法,通過對收集到的電動汽車數(shù)據(jù)建立模型,選取最有效的模型對電動汽車的價格進行預測。本文9種方法的精確度如表1所示。

邏輯斯蒂回歸模型的性能最好,決策樹和樸素貝葉斯模型的性能最差,最終選擇邏輯斯蒂回歸模型用于數(shù)據(jù)的預測。

參考文獻

[1]鐘財富.十字路口下的電動汽車行業(yè)[J].中國投資(中英文),2020(Z4):59~60.

[2]Erhan Bergil, Canan Oral, Engin Ufuk Ergul. Efficient Hand Movement Detection Using k-Means Clustering and k-Nearest Neighbor Algorithms [J]. Journal of Medical and Biological Engineering, 2020?(prepublish).

[3]黃?瑩,任?偉.英語分析型允讓構式的致使傾向研究——多分類邏輯斯蒂回歸和多重對應分析法[J].外語與外語教學,2020(3):11~21,146.

[4]Mohammad Reza Pahlavan-Rad,Khodadad Dahmardeh, Mojtaba Hadizadeh Gholamali Keykha, et al. Prediction of soil water infiltration using multiple linear regression and random forest in a dry flood plain, eastern Iran[J]. Catena, 2020(194).

猜你喜歡
精確度機器學習
研究核心素養(yǎng)呈現(xiàn)特征提高復習教學精確度
“硬核”定位系統(tǒng)入駐兗礦集團,精確度以厘米計算
放縮法在遞推數(shù)列中的再探究
基于詞典與機器學習的中文微博情感分析
基于網絡搜索數(shù)據(jù)的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
基于支持向量機的金融數(shù)據(jù)分析研究
機器學習理論在高中自主學習中的應用
易錯題突破:提高語言精確度
主站蜘蛛池模板: 国产精品流白浆在线观看| 久久一本精品久久久ー99| 丁香亚洲综合五月天婷婷| 国产剧情一区二区| 伊人久综合| 中文字幕av一区二区三区欲色| 四虎在线观看视频高清无码| 黄色网站不卡无码| 美女国产在线| 亚洲国产欧美目韩成人综合| 亚洲综合日韩精品| 毛片在线区| 高清欧美性猛交XXXX黑人猛交 | 久久不卡精品| 国产在线98福利播放视频免费| 成人国产精品网站在线看| 精品欧美一区二区三区在线| 国产va在线观看免费| 国产va免费精品观看| 毛片在线看网站| a毛片在线免费观看| swag国产精品| 日韩中文精品亚洲第三区| 国产美女一级毛片| 日韩在线中文| 综合五月天网| 女人18毛片一级毛片在线 | 日韩精品亚洲人旧成在线| 999国内精品视频免费| 中文字幕亚洲乱码熟女1区2区| 国产色爱av资源综合区| 日韩大片免费观看视频播放| 久久久国产精品免费视频| 在线播放真实国产乱子伦| 日韩精品毛片| 午夜国产大片免费观看| 天天色综合4| 国产人人射| a毛片基地免费大全| 国产va在线| 欧美翘臀一区二区三区| 日韩福利在线观看| 国模沟沟一区二区三区| 蜜桃臀无码内射一区二区三区| 午夜日b视频| 成人av专区精品无码国产| 亚瑟天堂久久一区二区影院| 熟妇丰满人妻av无码区| 国产成人区在线观看视频| 亚洲欧美一级一级a| 久久久久久久久久国产精品| 人与鲁专区| 99热免费在线| 91精品综合| 中日无码在线观看| 国产精品无码久久久久AV| 91精品视频播放| 久久精品aⅴ无码中文字幕| 亚洲动漫h| 久久这里只有精品66| 99视频全部免费| 欧美亚洲一二三区| 91成人在线观看| 色窝窝免费一区二区三区| 午夜不卡福利| 免费毛片视频| 波多野结衣一区二区三区四区| 国内视频精品| 中文字幕在线观| 色爽网免费视频| 日韩A级毛片一区二区三区| 伊人久久精品无码麻豆精品| 极品国产一区二区三区| 亚洲制服中文字幕一区二区 | 91精品啪在线观看国产91九色| 男人的天堂久久精品激情| 日韩大乳视频中文字幕| 精品伊人久久久香线蕉 | 99久久精品国产麻豆婷婷| 婷婷六月激情综合一区| 2021国产精品自拍| 国产福利大秀91|