999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

機器學習建模方法及其研究進展

2017-12-25 23:10:33衛志鵬岳宛瑩山西財經大學
新商務周刊 2017年12期
關鍵詞:分類方法

文/衛志鵬 岳宛瑩,山西財經大學

?

機器學習建模方法及其研究進展

文/衛志鵬 岳宛瑩,山西財經大學

本文對機器學習方法總結為有監督學習、半監督學習和無監督學習這三大類。并對機器學習方法進行了詳細總結,對比分析。

機器學習;建模方法;研究進展

1 機器學習方法主要分為三大類

有監督學習,指有結果度量的學習過程,這里的結果度量包括定性和定量,分別對應統計學中的回歸和分類問題。常見模型有:決策樹、Boosting與Bagging算法、人工神經網絡和支持向量機等;半監督學習,指獲取的觀察量的一部分由指導者確認并加上標識的數據,即已標識數據。另一部分觀察量由于一些原因未能標識,即未標識數據,需要解決的是如何利用標識數據和未標識數據以及相關知識對未標識觀察量的標識做出合理推斷;無監督學習中,則只能夠通過觀察特征,二并沒有結果度量,即只能利用由總體中獲取的樣本對總體做出推斷,并不需要某個目標變量和訓練數據集。

機器學習并非是為代替傳統統計分析技術,相反,它是統計學的延伸和擴展。大多數的統計分析方法都是基于完善的數學理論和嚴格的假定條件實現的,機器學習方法正是避免過多繁雜的假定條件從而達到傳統統計方法無法達到的效果。統計建模,以模型驅動的建模方法,是基于概率分布進行推斷,其目的是獲得數據的概率分布、追求最佳模型的精確解;機器學習,以數據驅動的建模方法,基于最小化預測誤差,無需考慮數據分布,其目的是實現精確化。

2 機器學習主要算法簡介

1.決策樹算法,是一個樹狀預測模型,即通過把實例從根節點排列到某個葉子節點來進行分類,葉子節點即為實例所屬分類。該算法核心在于選擇分裂屬性和剪枝問題。決策樹算法有很多種,Hunt等(1966)提出了CLS算法,隨后的ID3、C4.5、CART都是對CLS算法的改進,為處理大規模訓練樣本又提出了SLIQ、SPRINT算法,但由于之前有剪枝的算法均是生成樹后再剪枝,RajeevRaSto等人(2000)提出的PUBLIC算法對未完全生成的樹進行剪枝,除此之外模糊決策樹也有較快發展。

2.隨機森林算法。當數據中噪聲或分裂屬性過多時,則無法解決樹不平衡問題和對訓練集過度擬合問題,因此通過構造多分類器或回歸器的集成來提高分類或預測的精度。隨機森林算法是Leo Breiman提出的一種利用多個樹分類器進行分類和預測的方法,可用于處理回歸、分類、聚類以及生存分析等問題。當用于分類或回歸時主要思想是通過自助法重采樣,生成很多個樹回歸器或分類器。

3.神經網絡算法提供了從樣例中學習值為實數、離散或向量的函數,其重點是構造閾值邏輯單元,一個邏輯單元是一個對象,它可以輸入一組加權系數的量并對它們進行求和,若這個和達到或者超過某個閾值,輸出一個量。神經網絡是基于經驗風險最小化原則的學習算法,存在一些固有的缺陷,如:層數和神經元個數難以確定易陷入局部極小,但這些缺陷在SVM算法都有很好的解決。

4.支持向量機算法,由Vapnik等人于1995年提出,該方法是建立在統計學習理論基礎上的機器學習方法,。SVM算法可以自動尋找出那些對分類有較好區分能力的支持向量,由此構造出的分類器能夠最大化類之間的間隔,故有較好的適應能力和較高的區分率。該算法的目的是要尋找一個超平面,該超平面可以將訓練集中的數據分開且與類域邊界的沿垂直于該超平面方向的距離最大。

5.Boosting和Bagging算法。Boosting算法是一種用來提高學習算法準確度的方法,通過構造一個預測函數系列,然后以一定的方式將他們組合成一個預測函數,達到把一弱學習算法提升為強學習算法的目的。Bagging(Boostrap Aggregating),亦稱自舉聚合,由Breiman提出的與Boosting類似的方法。主要思想是給定一個弱學習算法和一個訓練集讓該學習算法訓練多輪,每輪訓練集由從最初的的訓練集中隨機取出n個訓練例構成,初始訓練例在訓練集中可以出現多次或根本不出現,訓練之后得到一個預測函數序列,最終的預測函數對分類問題采用投票方式,對回歸問題采用簡單平均方法對新示例進行判別。以上二者的區別在于:后者的訓練集選擇是隨機的,各輪訓練集之間相互獨立,而前者的訓練集選擇不是獨立的,各輪訓練集的選擇與前面各輪的學習結果有關。

6.關聯規則算法。關聯規則挖掘是由R.Agrawal,T.Imielinski和A.Swanmi于1992年最先提出,用來分析變量之間關系,并且把這種關系表達成非常容易解釋的規則的方法。該算法對數據分布不做任何要求,所得結果是完全基于數據的,沒有任何主觀假定,客觀的反映了數據的本質。Agrawal等人提出了最早的經典關聯規則Apriori算法,針對Apriori算法的缺點提出多種改進算法,如Park提出的基于散列技術的算法、Toivonen提出的基于采樣思想的算法。

7.貝葉斯學習算法。Bayes法是在已知先驗概率和類條件概率的情況下模式分類方法,待分樣本的分類結果取決于各類域中樣本的全體。該算法的薄弱環節在于實際情況下,類別總體的概率分布和各類樣本的概率分布函數(或密度函數)常常是不可知的,未獲得概率分布函數就要求樣本足夠大,此外,當用于文本分類時,Bayes法要求表達文本的主題詞相互獨立,此條件在實際文本中一般較難滿足。

8.EM算法。它是從不完全數據中求解模型參數的極大似然估計方法。一般情況下,該算法的結果只能保證收斂到后驗分布密度函數的穩定點,并不能保證收斂到極大值點。

[1]Hunt E B, Marin J, Stone P J. Experiments in induction[J].1966.

[2]方匡南[1,2],吳見彬,朱建平[1,2],謝邦昌[1,2],.隨機森林方法研究綜述[J].統計與信息論壇,2011,26(3)

[3]瓦普尼克.統計學習理論的本質[M].清華大學出版社,2000.

衛志鵬(1992—)男,山西呂梁人,山西財經大學統計學碩士研究生,研究方向:國民經濟核算與宏觀經濟統計分析。岳宛瑩(1993—)女,山西運城人,山西財經大學統計學碩士研究生,研究方向:國民經濟核算與宏觀經濟統計分析。

猜你喜歡
分類方法
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
學習方法
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
給塑料分分類吧
主站蜘蛛池模板: 国产亚洲美日韩AV中文字幕无码成人 | 国产原创第一页在线观看| 亚洲精品成人片在线观看| 日韩在线2020专区| 国产亚洲精品无码专| 黄色网站不卡无码| 日韩国产高清无码| 天堂在线视频精品| 中文无码精品a∨在线观看| 在线另类稀缺国产呦| 在线国产你懂的| 亚洲成人网在线观看| 国产欧美在线观看视频| 久久无码免费束人妻| 国产乱码精品一区二区三区中文| 亚洲中文字幕国产av| 99偷拍视频精品一区二区| 狠狠色婷婷丁香综合久久韩国 | 中文字幕乱码中文乱码51精品| 色婷婷天天综合在线| 日韩无码真实干出血视频| 67194在线午夜亚洲| 成人av专区精品无码国产 | 国产成人喷潮在线观看| 91色在线观看| 日韩无码黄色| 久久91精品牛牛| 搞黄网站免费观看| 久久精品国产一区二区小说| 免费观看男人免费桶女人视频| 国产成人精品亚洲77美色| 国产91丝袜| 亚洲不卡影院| 国产欧美在线视频免费| 综合社区亚洲熟妇p| 中文字幕亚洲另类天堂| 天天色综合4| 日韩精品免费一线在线观看| 国产精品浪潮Av| 在线毛片免费| 手机精品视频在线观看免费| 国产精品55夜色66夜色| 免费全部高H视频无码无遮掩| 国产熟女一级毛片| 欧美成人aⅴ| 天堂亚洲网| 中文字幕啪啪| 亚洲无码高清免费视频亚洲| 欧美日本视频在线观看| 精品夜恋影院亚洲欧洲| 亚洲成人一区二区| 无码人妻免费| 999国产精品| 国产成人一区| 国产靠逼视频| 国产aⅴ无码专区亚洲av综合网| 免费99精品国产自在现线| 露脸国产精品自产在线播| 国产在线第二页| 国产精品漂亮美女在线观看| AⅤ色综合久久天堂AV色综合| 婷婷伊人五月| 欧美成人综合视频| 亚洲色大成网站www国产| 国产成人亚洲综合a∨婷婷| 黄色a一级视频| 波多野结衣一区二区三区四区视频| 日韩毛片免费视频| 高清精品美女在线播放| 九九热免费在线视频| 亚洲第一页在线观看| 亚洲精品高清视频| 国产在线观看91精品| 国产亚洲视频在线观看| 亚洲日产2021三区在线| 激情无码字幕综合| 亚洲日产2021三区在线| 国产原创演绎剧情有字幕的| 高清久久精品亚洲日韩Av| 色欲色欲久久综合网| 国产精品真实对白精彩久久| 国产成人精品视频一区视频二区|