999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

人工神經網絡和隨機森林在回歸問題中的應用比較

2019-06-27 00:08:15陸龍妹趙明松盧宏亮張平
科技創新與應用 2019年10期
關鍵詞:機器學習

陸龍妹 趙明松 盧宏亮 張平

摘? 要:機器學習方法在回歸問題中的應用十分廣泛,人工神經網絡(Artificial Neural Network,ANN)和隨機森林(random forest,RF)均是經典的機器學習算法,在回歸問題中均有眾多的應用。神經網絡和RF算法均為決策樹算法的擴展,且均在解決回歸問題中有著良好的精度。ANN是一種可以廣泛應用于各個學科的經典機器學習算法;RF算法具有結構清晰、易于解釋、運行效率高且對于數據要求低等優勢,且RF模型具有穩定性較高,不易出現過擬合問題等特點。文章通過2個回歸問題的案例,比較神經網絡和RF算法在回歸問題中的區別,為研究2種算法在回歸問題中的應用提供參考。

關鍵詞:人工神經網絡;隨機森林;重要性評價;回歸問題;機器學習

中圖分類號:TP391.77? ? ? 文獻標志碼:A 文章編號:2095-2945(2019)10-0031-03

Abstract: The machine learning method is widely used in regression. Artificial neural network (ANN) and random forest (RF) are classical machine learning algorithms widely applied in regression problems. Both neural network and RF algorithm are extensions of decision tree algorithm, and both of them have good accuracy in solving regression problems. ANN is a classical machine learning algorithm which can be widely used in various disciplines, RF algorithm has the advantages of clear structure, easy interpretation, high running efficiency and low data requirements, and the RF model has high stability. It is not easy to have the characteristics of over-fitting problem and so on. In this paper, two cases of regression problems are used to compare the difference between neural network and RF algorithm in regression problems, which provides a reference for the study of the application of the two algorithms in regression problems.

Keywords: artificial neural network; stochastic forest; importance evaluation; regression problem; machine learning

1 概述

隨著計算機和信息技術不斷地發展,大數據的到來使機器學習算法成為解決實際問題的重要工具,對于機器學習算法的研究也成為了熱門的研究方向。人工神經網絡(Artificial Neural Network,ANN)是模擬人腦神經元進行預測的一種經典機器學習算法,其特點是預測精度高,應用廣泛,但是參數較難設置[1],隨機森林(random forest,RF)是Breiman和Cutler在2001年提出的一種極具分類樹的集成算法,其基本思想是通過大量分類樹的集合以提高模型預測精度[2]。

國內外學者在使用人工神經網絡(Artificial Neural Network,ANN)和RF模型進行回歸問題方面開展了較多的研究。比如在醫學[3-4]、生物[5-6]、工程[7-8]及遙感[9]等方面均有較多涉及。劉藝梁等[10]分析對比了邏輯回歸和人工神經網絡在滑坡災害空間預測中的應用,結果表明邏輯回歸預測精度相對較高,但兩者模型之間可以相互驗證;王宜懷等[11]證明了人工神經網絡可以很好地處理非線性回歸問題;張華偉等[12]使用隨機森林模型進行了文本分類處理,結果表明,隨機森林算法與C4.5、KNN、SMO和SVM等文本分類算法相似。

本研究以UCI機器學習數據倉庫(Machine Learning Data Repository)中提供的葡萄酒數據為研究數據,以樣本中的葡萄酒質量評分為目標變量,其他相關特征為自變量,分別使用ANN和RF算法建立葡萄酒評級模型,比較兩種的在葡萄酒評級模型上的表現,研究為進一步研究ANN和RF模型在回歸問題中的實際應用提供了思路。

2 研究方法

2.1 ANN算法

神經網絡是由多個非常簡單的處理單元彼此按某種方式相互連接而形成的計算機系統,該系統靠其狀態對外部輸入信息的動態響應來處理信息的。人工神經網絡是一種旨在模仿人腦結構及其功能的信息處理系統。反向傳播(Back propagation,BP)是使用多層前饋網絡進行監督學習的最廣泛使用的算法。反向傳播學習算法[11]的基本思想是重復應用鏈式規則來計算網絡中每個權重對任意誤差函數的影響。誤差函數計算公式為:

2.2 RF算法

RF是由Breinman提出的一種基于分類樹的集成算法,是機器學習中較為重要的一種方法。RF算法的基本原理與分類回歸樹(classification and regression tree, CART)算法類似,在基于CART算法的基礎上加入隨機化的特點,即在樣本數據中進行隨機采樣,生成大量的分類回歸樹,最后以投票的方式獲得最終的結果。RF模型具有提高預測精度、減少過擬合,對缺失數據和多元共線性不敏感,且具有簡單處理大量的定量和定性數據能力的優點。

2.3 模型評價指標

本研究隨機選取3674個樣本作為建模集,1224個樣點測試集。使用基于R語言環境下的Boruta和caret、randomForest和rpart軟件包進行建模預測。模型精度評定選用均方根誤差(RMSE)和決定系數(R2)三個標準。公式如下:

3 結果與分析

3.1 樣本數據統計分析

樣本數據包含4898個葡萄酒案例以及與其相關的化學特征信息。特征信息包括酸度、含糖量、氯化物含量、硫的含量、酒精度、pH值和密度等。以質量尺度0到10為評級指標,其中質量指數越高代表葡萄酒的品級越高。

由表1樣本中葡萄酒質量評分統計特征可知,總樣本、建模集和測試集目標變量的統計特征最大值、最小值和均值均分別為9、3和5.88,標準差和變異系數也基本相同,整體分布相近,可以用于建模和預測。

3.2 神經網絡算法結果分析

神經網絡模型精度分析:

ANN模型建模結果表明(表2),(1)由建模集可知,ANN模型最終可以解釋葡萄酒質量的48%(R2=0.53),測試集R2略低于建模集;(2)測試集中,RMSE為0.75,略高于建模集(RMSE=0.75),但仍有較高的精度,說明ANN模型可以有效地預測葡萄酒質量。

3.3 RF算法結果分析

3.3.1 RF模型精度分析

RF模型的精度通過計算RMSE、R2等參數來進行評估。結果(表3)表明,(1)RF模型最終結果可以解釋葡萄酒質量的53%(R2=0.53);建模集中的決定系數與測試集相近,R2均為0.53,該模型避免了過擬合問題且模型較為穩定;(2)測試集中,RMSE為0.62,略高于建模集(RMSE=0.61),有較高的精度,說明RF模型在葡萄酒預測中具有較高的精度,且具有較好的泛化能力。

表3 RF模型葡萄酒質量預測精度分析

3.3.2 RF特征重要性分析

預測因子重要性排序表明(圖1),對于葡萄酒質量,特征變量對其影響的重要性由高到底依次分別為酒精度(alcohol)、密度(density)、揮發性酸(volatile acidity)、游離二氧化硫(free sulfur dioxide)、氯化物(chlorides)、總二氧化硫(total sulfur dioxide)、甜度(residual sugar)、檸檬酸(citric acid)、pH值、游離酸度(fixed acidity)和硫酸鹽(sulphates)。其中酒精度對于葡萄酒的影響最為明顯,即為最重要的預測因子。

3.4 ANN和RF算法對比

由表2、表3可知,(1)建模集和測試集中,RF模型的R2均為0.53,分別高出ANN模型0.05和0.08,RMSE分別為0.61、0.62,均低于ANN模型(RMSE=0.75、0.78),整體而言,RF模型的模型解釋度和泛化能力均高于ANN模型;(2)對比建模集和測試集可知,RF模型建模集和測試集預測結果相似,相較于ANN模型更加穩定;(3)相較于ANN模型,RF模型具有可以對特征變量進行重要性評分的優勢。綜上所述,ANN和RF模型在回歸問題中均有較好的預測精度,在葡萄酒評分預測中,RF模型具有預測精度更高、不易過擬合且可以對自變量進行解釋的優勢。

4 結論

本文基于神經網絡和隨機森林模型建立葡萄酒質量評級模型,分析兩種機器學習算法在回歸問題中區別。結論如下:

(1)ANN和RF模型在葡萄酒評級問題中有良好的表現,無論是建模集還是預測集均有較高的預測精度,相較而言RF模型預測精度更好、泛化能力更強,且參數方面更為簡單。

(2)相較于ANN模型,RF模型可以對模型中所使用的特征變量進行評分,從而更好地分析自變量對于響應變量的重要性。綜合而言,兩種模型在回歸算法中均有較好的表現,研究如何使用兩種模型解決其他回歸問題有一定的意義。

參考文獻:

[1]朱大奇.人工神經網絡研究現狀及其展望[J].江南大學學報,2004,3(01):106-113.

[2]Breiman L. Random Forests[J]. Machine Learning, 2001,45(1):5-32.

[3]李雅潔,吳偉,周寶森.人工神經網絡在腦卒中早期快速分類診斷中的應用[J].實用醫學雜志,2008,24(10):1738-1740.

[4]Xiao-Yan W U, Zhen-Yu W U, Kang L I. Identification of differential gene expression for microarray data using recursive random forest[J].中華醫學雜志(英文版),2008,121(24):2492.

[5]Shatnawi M, Zaki N, Yoo P D. Protein inter-domain linker prediction using Random Forest and amino acid physiochemical properties[J]. Bmc Bioinformatics, 2014,15(S16):S8.

[6]熊行創,方向,歐陽證,等.基于人工神經網絡的生物組織質譜成像分類與識別方法[J].分析化學,2012,40(1):43-49.

[7]趙慧,汪云甲.融合多尺度分割與ANN算法的矸石山提取[J].計算機工程與應用,2012,48(22):222-225.

[8]Cabrera D, Sancho F, Sánchez R V, et al. Fault diagnosis of spur gearbox based on random forest and wavelet packet decomposition[J].機械工程前沿:英文版,2015,10(3):277-286.

[9]駱劍承,周成虎,楊艷.人工神經網絡遙感影像分類模型及其與知識集成方法研究[J].遙感學報,2001,5(2):122-129.

[10]劉藝梁,殷坤龍,劉斌.邏輯回歸和人工神經網絡模型在滑坡災害空間預測中的應用[J].水文地質工程地質,2010,37(5):92-96.

[11]王宜懷,王林.基于人工神經網絡的非線性回歸[J].計算機工程與應用,2004,40(12):79-82.

[12]張華偉,王明文,甘麗新.基于隨機森林的文本分類模型研究[J].山東大學學報(理學版),2006,41(3):145-149.

猜你喜歡
機器學習
基于詞典與機器學習的中文微博情感分析
基于網絡搜索數據的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
下一代廣播電視網中“人工智能”的應用
活力(2016年8期)2016-11-12 17:30:08
基于支持向量機的金融數據分析研究
基于Spark的大數據計算模型
基于樸素貝葉斯算法的垃圾短信智能識別系統
基于圖的半監督學習方法綜述
機器學習理論在高中自主學習中的應用
極限學習機在圖像分割中的應用
主站蜘蛛池模板: 日韩高清成人| 亚洲激情99| 99久久精品美女高潮喷水| 青青国产成人免费精品视频| 99久久99这里只有免费的精品| 久久精品国产999大香线焦| 四虎综合网| 精品1区2区3区| 97国产在线播放| 91色在线观看| 国产尤物jk自慰制服喷水| 成人av手机在线观看| 亚洲第一极品精品无码| 亚洲精品成人福利在线电影| 一边摸一边做爽的视频17国产| 久久99国产综合精品女同| 丁香综合在线| 国产一级片网址| 国产精品人人做人人爽人人添| 日本精品影院| 丰满人妻久久中文字幕| 高清国产va日韩亚洲免费午夜电影| 亚洲第一黄片大全| 中文字幕伦视频| 内射人妻无码色AV天堂| 2019国产在线| 国产无码高清视频不卡| 日本日韩欧美| 亚洲第一成年人网站| 国产成人高精品免费视频| 高清无码不卡视频| 欧洲亚洲一区| 国产亚洲美日韩AV中文字幕无码成人 | 亚洲人成色77777在线观看| 一级黄色网站在线免费看| 欧亚日韩Av| 国产亚洲精品97AA片在线播放| 国产h视频免费观看| 就去色综合| 二级特黄绝大片免费视频大片| 亚洲美女久久| 幺女国产一级毛片| 久久国产V一级毛多内射| 欧美中文字幕无线码视频| 99久久性生片| 99国产在线视频| 亚洲Av综合日韩精品久久久| 高清久久精品亚洲日韩Av| 尤物精品视频一区二区三区| 国产精品30p| 超碰免费91| 午夜a级毛片| 国产精品毛片一区视频播| 色综合久久久久8天国| 91成人试看福利体验区| 91无码网站| 亚洲第一黄色网| 中文字幕无线码一区| 亚洲视频a| 国产高清免费午夜在线视频| 热99re99首页精品亚洲五月天| 国产精品手机在线观看你懂的| 五月婷婷综合在线视频| 国产在线精品人成导航| www欧美在线观看| 天天色天天综合| 久久精品一卡日本电影| 亚洲无码熟妇人妻AV在线| 2020极品精品国产| 99久久精品免费看国产免费软件| 欧美a在线看| av午夜福利一片免费看| 国产成人精品在线| 国产精品理论片| 精品午夜国产福利观看| 美女扒开下面流白浆在线试听| 亚洲欧洲AV一区二区三区| 一本色道久久88| 2022国产无码在线| 女人18一级毛片免费观看| 日韩在线观看网站| 亚洲天堂久久久|