999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

機器學習在數(shù)據(jù)挖掘中的應用

2018-01-05 11:08:38王泓正
中國新技術新產(chǎn)品 2018年22期
關鍵詞:機器學習數(shù)據(jù)挖掘大數(shù)據(jù)

王泓正

摘 要:在互聯(lián)網(wǎng)高速發(fā)展的今天,產(chǎn)生的數(shù)據(jù)量也與日俱增,伴隨大數(shù)據(jù)而來的是數(shù)據(jù)處理問題。數(shù)據(jù)挖掘旨在通過對數(shù)據(jù)的研究,通過一系列算法來充分挖掘隱藏信息,使數(shù)據(jù)的價值最大化。目前,數(shù)據(jù)挖掘在商業(yè)領域已經(jīng)得到廣泛應用。機器學習,是數(shù)據(jù)挖掘最為核心,也是應用最為廣泛的數(shù)據(jù)處理方法。本文通過研究機器學習算法在數(shù)據(jù)挖掘中的應用,總結目前在數(shù)據(jù)挖掘領域較為活躍的幾種機器學習算法,并對未來的發(fā)展趨勢以及可能出現(xiàn)的問題進行了展望。

關鍵詞:數(shù)據(jù)挖掘;機器學習;大數(shù)據(jù)

中圖分類號:TP311 文獻標志碼:A

0 前言

隨著Web2.0時代的到來,互聯(lián)網(wǎng)數(shù)據(jù)量激增,衍生了各種數(shù)據(jù)相關的方向,其中數(shù)據(jù)挖掘是數(shù)據(jù)處理方向的新生學科。通過對數(shù)據(jù)隱藏信息的研究,挖掘大量數(shù)據(jù)背后的潛在價值,這些已經(jīng)在商業(yè)應用中占有了相當重要的位置。傳統(tǒng)的數(shù)據(jù)挖掘中多應用統(tǒng)計學方法,但是在大數(shù)據(jù)量面前,單純地使用傳統(tǒng)統(tǒng)計學方法略顯不足。機器學習算法是一種能夠從數(shù)據(jù)中學習的算法。它產(chǎn)生于20世紀,那時互聯(lián)網(wǎng)還不夠發(fā)達,導致網(wǎng)絡中產(chǎn)生的數(shù)據(jù)量還很有限,另一方面,硬件限制了數(shù)據(jù)的收集存儲。如今,這些限制都已被大大削弱,機器學習作為一門以數(shù)據(jù)驅(qū)動的學科,成為數(shù)據(jù)挖掘中最為重要的方法。

本文注重機器學習在數(shù)據(jù)挖掘中算法的應用部分,首先介紹數(shù)據(jù)挖掘的基本需求及過程,然后對常用在數(shù)據(jù)挖掘中的機器學習算法進行分類、研究、總結,最后在對比和綜述的基礎上,提出了未來的發(fā)展可能面臨的問題以及潛在的研究方向。

1 數(shù)據(jù)挖掘

數(shù)據(jù)挖掘作為一門全新的研究領域,代替了傳統(tǒng)的數(shù)據(jù)分析,以新興的方法和理論挖掘數(shù)據(jù)的潛在價值。數(shù)據(jù)挖掘主要是經(jīng)由以下幾個步驟來處理數(shù)據(jù)。(1)選取或構造數(shù)據(jù)集,為了方便后續(xù)的處理,關于數(shù)據(jù)集的格式、內(nèi)容等的界定條件需要慎重選取。(2)數(shù)據(jù)預處理工作。這一步是為了統(tǒng)一數(shù)據(jù)集內(nèi)部數(shù)據(jù)的格式和內(nèi)容,具體包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)規(guī)約、數(shù)據(jù)離散化等,其中特征工程是數(shù)據(jù)處理中最為重要的部分。(3)數(shù)據(jù)建模和特征篩選階段。綜合考慮需求和模型等因素,通過模型的反饋,在調(diào)整參數(shù)的同時,對比選取相對最優(yōu)特征集。這個階段的具體任務根據(jù)選取的模型不同而形式各異。(4)形成結論。模型在實際測試數(shù)據(jù)中表現(xiàn)出的泛化能力,往往能定向的反饋出有價值的信息,此時需要數(shù)據(jù)工程師根據(jù)結果分析并得出結論,甚至可能會重新開始一輪挖掘過程的迭代。

2 機器學習在數(shù)據(jù)挖掘中的應用

機器學習是人工智能的一個重要分支,其自動化獲取的特性,幫助人們在紛繁復雜的數(shù)據(jù)中高效的提煉出潛在的價值。本文根據(jù)經(jīng)典的機器學習分類,從監(jiān)督學習、無監(jiān)督學習兩個方面,來介紹幾大典型的機器學習算法。

2.1 監(jiān)督學習

監(jiān)督學習是指能夠?qū)θ我饨o定的輸入,能給出相應的輸出模型的統(tǒng)稱。監(jiān)督學習是極其重要的統(tǒng)計學習分支,也是統(tǒng)計學習中內(nèi)容最豐富,應用最廣泛的部分。

(1)樸素貝葉斯分類器

樸素貝葉斯算法是基于貝葉斯定理與特征條件獨立假設的一種分類方法。

貝葉斯定理,是關于條件和邊緣概率分布的轉(zhuǎn)換公式。在模型中用來將先驗概率計算轉(zhuǎn)化為后驗條件概率,也因此貝葉斯模型被稱為生成模型,即模型的目的在于求得定義在輸入和輸出空間上的聯(lián)合概率分布,進而得到極大化的后驗概率。貝葉斯模型的數(shù)學表達式如下:

其中P(Xi)和P(A|Xi)由先驗分布直接計算得出。實際上同,P(A|Xi)中的估計參數(shù)是指數(shù)級別的,假設Xi可能取值有Si個,Y可能取值有K個,那么參數(shù)個數(shù)為。想要同時估計出如此巨量的參數(shù),幾乎是不可能的,而且很難保證參數(shù)的全局最優(yōu)性甚至很難保證局部最優(yōu),如此一來,參數(shù)的估計和預期效果不成正比。樸素貝葉斯法對上述出現(xiàn)的問題給出了一個較強的假設:用于分類的特征在類確定的條件下都是條件獨立的。這個條件獨立性大大簡化了參數(shù)的數(shù)量和估計的計算量,但有時會犧牲一定的分類準確率。

在上述兩個理論的基礎上,樸素貝葉斯的算法過程如下。對于給定的訓練數(shù)據(jù)集,首先基于特征條件獨立假設學習輸入和輸出的聯(lián)合概率分布,然后基于此模型對于給定的輸入X,利用貝葉斯定理求出后驗概率最大的輸出Y。

(2)決策樹

決策樹模型是一種描述對實例進行分類的樹形結構。決策樹由結點和有向邊組成。其中,內(nèi)部節(jié)點表示劃分特征,葉結點表示一個類。

決策樹的學習過程中,最為核心的步驟是特征選擇。對于給定的損失函數(shù),在決策樹的假設空間中選出一個最優(yōu)化模型是個NP完全問題,所以現(xiàn)實中決策樹學習算法通常采用啟發(fā)式。即每次遞歸的選擇一個最優(yōu)屬性,由此分割數(shù)據(jù),構建子樹。這里的最優(yōu)屬性選擇就是特征選擇過程,通常采用比較信息增益的策略。信息增益是指信息熵的差或信息熵之比,信息熵是從某一個特定的角度描述數(shù)據(jù)混亂程度的量。信息熵的計算公式如下:

其中H(X)代表樣本集合X的信息熵,Ai代表屬性A中第i個取值的先驗概率。由上述理論的基礎,給出決策樹算法的過程。針對每個樣本集合,依次按每個屬性取值劃分集合,取使信息熵減少最多或增益比最大的屬性來劃分下一級葉節(jié)點。在每個集合中迭代以上步驟,直至子集合的熵為0或到達某一閾值,分類結束。決策樹聚類算法尤其適合多樣本情況下的離散屬性值數(shù)據(jù)處理,但在屬性分類較多的樣本集中,需要追加剪枝的算法來優(yōu)化模型。

(3)提升方法

提升方法基于這樣一種思想:對于一個復雜任務來說,將多個專家的判斷進行適當?shù)木C合所得出的判斷,要比其中任何一個專家單獨的判斷好。這里的專家即指如上所述的決策樹等弱分類器。具體來說,算法有這樣兩個關鍵的步驟。

其一是樣本權值調(diào)整。初始為每個樣本設置相等的初值,在一次弱分類器學習之后,將分類錯誤的樣本點權值增大。算法認為,分類錯誤的數(shù)據(jù)是因為樣本本身并沒有被分類器完全學習,所以需要增加權重來引起分類器的重視,進而向著正確的分類結果靠近。這就是樣本權值調(diào)整。第二個是弱分類器權值的調(diào)整。算法整體是對多個弱分類器的加權,在每一次弱分類器執(zhí)行完畢之后,算法除了調(diào)整樣本權重以外,還通過交叉驗證的方法對當前的弱分類器進行測試,以其損失函數(shù)和已有的弱分類器之間損失函數(shù)的大小差距來調(diào)整權值。通過上述兩個關鍵步驟的理論介紹,給出提升方法的步驟。對于給定的數(shù)據(jù)集,確定樣本權重和初始弱分類器權重,然后通過弱分類器的一次分類,調(diào)整樣本權值和分類器權重,完成一次迭代。算法迭代至給定的輪次或損失函數(shù)降低至目標水平時結束。

提升方法結合了傳統(tǒng)的弱分類器,通過一系列結合方法將數(shù)據(jù)和分類器的誤差降到最小。與強化思想的不同結合最大化了模型的決策能力,且都表現(xiàn)出了優(yōu)異的性能,在各種競賽和商業(yè)方面有著廣泛的應用。

2.2 無監(jiān)督學習

無監(jiān)督學習是指算法學習的環(huán)境為缺失標簽的數(shù)據(jù)集。從概率學的角度來說,數(shù)據(jù)缺乏足夠的先驗知識,因此難以利用標注來擬合輸入和輸出之間的聯(lián)合概率模型。

最為常用的監(jiān)督學習方法為K-Means算法。這是一種利用樣本點在特征空間中的距離分布進行多次迭代實現(xiàn)自動標注樣本類別的算法。算法中涉及距離公式的使用:(公式),其中j為1時稱為曼哈頓距離,j為2時稱為歐幾里得距離。以二維空間為例,歐式距離即兩點之間的直線距離,而曼哈頓距離為兩點之間在與坐標軸垂直方向上的距離之和。通常根據(jù)數(shù)據(jù)集的特點由數(shù)據(jù)工程師選擇合適的計算公式,必要時j可以取3或以上的值。由上述理論基礎,給出K-Means的算法計算過程。對于給定的數(shù)據(jù)集,確定距離計算公式和初值K。首先根據(jù)樣本的特征空間隨機給定K個初值坐標分別作為類中心點,計算樣本點到每個類中心店的距離,針對每個樣本點,按照其與類中心點的距離排序,將其劃分至距離最近的類中心點所屬類中,取每個類中所有坐標的均值作為新的類中心點坐標。至此完成一次迭代,算法重復迭代至每個類中的樣本點不再發(fā)生變化時結束。

在實際應用中,無監(jiān)督學習從數(shù)據(jù)的某一角度試圖去概括數(shù)據(jù)整體特征。所以對于單一的聚類算法來說,無論從數(shù)據(jù)的特征維度還是樣本數(shù)量維度都很難直接給出定性的結論,僅為數(shù)據(jù)分析提供一定的參考意義。

結語

本文從機器學習在數(shù)據(jù)挖掘中的算法分類、機器學習的優(yōu)勢分類等方面探討了機器學習在數(shù)據(jù)挖掘中點典型應用。但是目前由于傳統(tǒng)機器學習本身建立在模型本身的函數(shù)假設之上,效果存在瓶頸。神經(jīng)網(wǎng)絡作為機器學習算法的一種,又稱為深度學習,在計算資源和數(shù)據(jù)量的支撐下,通常能比傳統(tǒng)機器學習算法表現(xiàn)出更加優(yōu)異的效果,目前廣泛應用于自然語言數(shù)據(jù)處理和圖像數(shù)據(jù)處理中。但是對電腦性能的要求和消耗更加巨大,不過相信隨著芯片集成度以摩爾定律的幾何速度增長的,電腦性能也會進一步提升,深度學習會打破這個限制,結合數(shù)據(jù)挖掘和各個其他方面的應用,更好的應用于實踐。

參考文獻

[1]張紹成,孫時光,曲洋,等.大數(shù)據(jù)環(huán)境下機器學習在數(shù)據(jù)挖掘中的應用研究[J].遼寧大學學報(自然科學版),2017,44(1):15-17.

[2]黃林軍,張勇,郭冰榕.機器學習技術在數(shù)據(jù)挖掘中的商業(yè)應用[J].邏輯學研究,2005,25(6):145-148.

[3]陳小燕.機器學習算法在數(shù)據(jù)挖掘中的應用[J].現(xiàn)代電子技術,2015(20):11-14.

[4]張云濤,龔玲.數(shù)據(jù)挖掘原理與技術[M].北京:電子工業(yè)出版社,2004.

[5]李航.統(tǒng)計學習方法[M].北京:清華大學出版社,2012.

[6]楊善林.機器學習與智能決策支持系統(tǒng)[M].北京:科學出版社,2004.

[7]李慶中,苑春法,黃錦輝.基于小規(guī)模標注語料的機器學習方法研究[J].計算機應用,2004,24(2):56-58.

作者家庭住址:山東省濟寧市任城區(qū)李營街道匯翠園B區(qū)。

猜你喜歡
機器學習數(shù)據(jù)挖掘大數(shù)據(jù)
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
基于網(wǎng)絡搜索數(shù)據(jù)的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
基于支持向量機的金融數(shù)據(jù)分析研究
基于大數(shù)據(jù)背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
基于GPGPU的離散數(shù)據(jù)挖掘研究
主站蜘蛛池模板: 亚洲福利片无码最新在线播放| 成人精品视频一区二区在线| 91综合色区亚洲熟妇p| 国产精品男人的天堂| 四虎永久在线| 国产区在线观看视频| 欧美国产在线看| 欧美国产日韩在线| 在线综合亚洲欧美网站| 国产一区二区精品福利| 亚洲第一天堂无码专区| 在线观看精品国产入口| 日韩免费视频播播| 欧美激情视频一区二区三区免费| 久久精品娱乐亚洲领先| 在线欧美一区| 国模在线视频一区二区三区| 在线亚洲小视频| 亚洲系列无码专区偷窥无码| 国产人成午夜免费看| 国产嫖妓91东北老熟女久久一| 久久久噜噜噜| 亚洲日韩Av中文字幕无码| 国产精品色婷婷在线观看| 在线播放国产99re| 88av在线播放| 一本视频精品中文字幕| 午夜视频www| 亚洲无码一区在线观看| 黄片一区二区三区| 国产又爽又黄无遮挡免费观看| 久久黄色毛片| 一级高清毛片免费a级高清毛片| 国产第一色| 日本妇乱子伦视频| 国产精品va免费视频| 亚洲国产在一区二区三区| 不卡网亚洲无码| 国产剧情无码视频在线观看| 婷婷色狠狠干| 亚洲欧美日韩中文字幕在线一区| 欧美h在线观看| 91人妻在线视频| 欧美精品一二三区| 欧美啪啪网| 国产精品自在自线免费观看| 亚洲激情区| 九色在线观看视频| 欧美另类视频一区二区三区| 欧美一区福利| 亚洲第一av网站| 国产精品亚洲日韩AⅤ在线观看| 亚洲天堂区| 午夜视频日本| 蜜桃臀无码内射一区二区三区| 伊人久久福利中文字幕| 亚洲色图欧美| 午夜视频在线观看免费网站| 白浆免费视频国产精品视频| 毛片三级在线观看| 亚洲欧洲日韩综合色天使| 在线欧美日韩| 久久午夜夜伦鲁鲁片不卡| 日本一本在线视频| 十八禁美女裸体网站| 久久亚洲日本不卡一区二区| 久久精品aⅴ无码中文字幕| 一区二区在线视频免费观看| 波多野结衣在线一区二区| 欧美一区二区三区香蕉视| 亚洲人成网站色7777| 潮喷在线无码白浆| 国产H片无码不卡在线视频| 91精品国产91久久久久久三级| 国产精品成人AⅤ在线一二三四 | 免费一看一级毛片| 国产毛片不卡| 女人天堂av免费| a色毛片免费视频| 亚洲精品国产首次亮相| 国产黄网永久免费| 国产噜噜噜|