999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數(shù)據(jù)背景下的機(jī)器學(xué)習(xí)算法應(yīng)用研究

2018-12-05 09:08:46童蓮
電腦與電信 2018年9期
關(guān)鍵詞:分類特征融合

童蓮

(江蘇海事職業(yè)技術(shù)學(xué)院,江蘇 南京 211199)

1 引言

大數(shù)據(jù)(Big Data)又稱為巨量資料,指需要新的處理模式才能具有更強(qiáng)的決策力、洞察力和流程化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。大數(shù)據(jù)概念最早由維克托·邁爾·舍恩伯格和肯尼斯·庫(kù)克耶在編寫《大數(shù)據(jù)時(shí)代》中提出,指不用隨機(jī)分析法(抽樣調(diào)查)的捷徑,而是采用所有數(shù)據(jù)進(jìn)行分析處理。大數(shù)據(jù)有4V特點(diǎn),即Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價(jià)值)。小數(shù)據(jù)時(shí)代的樣本為隨機(jī)取樣,用最少的數(shù)據(jù)獲得最多的信息,而大數(shù)據(jù)時(shí)代的樣本為總體數(shù)據(jù)。比如谷歌公司曾經(jīng)通過(guò)分析整個(gè)美國(guó)幾十億條互聯(lián)網(wǎng)檢索記錄預(yù)測(cè)流感趨勢(shì)。對(duì)于小數(shù)據(jù)而言,最基本、最重要的要求就是減少錯(cuò)誤,保證質(zhì)量。比如追求更高精度的對(duì)時(shí)間、空間的測(cè)量。大數(shù)據(jù)允許不精確,放松了容錯(cuò)的標(biāo)準(zhǔn),人們可以掌握更多的數(shù)據(jù),利用這些數(shù)據(jù)做更多新的事情。如今采集和存儲(chǔ)數(shù)據(jù)的數(shù)量和規(guī)模已經(jīng)爆發(fā)式地增長(zhǎng),如何分析并利用這些數(shù)據(jù)是擺在眾人面前的一道難題。

機(jī)器學(xué)習(xí)和數(shù)據(jù)分析是將大數(shù)據(jù)轉(zhuǎn)換成有用知識(shí)的關(guān)鍵技術(shù)[1],并且有研究表明,在很多情況下,處理的數(shù)據(jù)規(guī)模越大,機(jī)器學(xué)習(xí)模型的效果會(huì)越好。因此,機(jī)器學(xué)習(xí)是大數(shù)據(jù)智能化分析處理應(yīng)用中的重要手段。本文通過(guò)闡述機(jī)器學(xué)習(xí)算法的實(shí)際應(yīng)用,探索如何利用海量數(shù)據(jù)。

2 機(jī)器學(xué)習(xí)算法背景知識(shí)

機(jī)器學(xué)習(xí)的定義可以理解為:如果一個(gè)“程序”可以在“任務(wù)T”上,隨著“經(jīng)驗(yàn)E”的增加,“效果P”也可以隨之增加,則稱這個(gè)程序可以從經(jīng)驗(yàn)中學(xué)習(xí)。

機(jī)器學(xué)習(xí)的經(jīng)典算法主要有五種類型,分別為:聚類算法、分類算法、回歸算法、關(guān)聯(lián)規(guī)則算法、降維算法[2]。機(jī)器學(xué)習(xí)又可以分為三類:監(jiān)督式學(xué)習(xí),非監(jiān)督式學(xué)習(xí),強(qiáng)化學(xué)習(xí)[3]。監(jiān)督式學(xué)習(xí)需要提前進(jìn)行數(shù)據(jù)分類,非監(jiān)督式學(xué)習(xí)著重于挖掘規(guī)律,強(qiáng)化學(xué)習(xí)需要通過(guò)試錯(cuò)去找到解決方案。

以垃圾郵件分類為例闡述機(jī)器學(xué)習(xí)的定義:

一個(gè)程序:機(jī)器學(xué)習(xí)算法,比如回歸算法;

任務(wù)T:區(qū)分垃圾郵件的任務(wù);

經(jīng)驗(yàn)E:已經(jīng)區(qū)分過(guò)是否為垃圾郵件的歷史郵件,在監(jiān)督式機(jī)器學(xué)習(xí)問(wèn)題中,這也被稱之為訓(xùn)練數(shù)據(jù);

效果P:機(jī)器學(xué)習(xí)算法在區(qū)分是否為垃圾郵件任務(wù)上的正確率。

3 機(jī)器學(xué)習(xí)算法的應(yīng)用

經(jīng)典的機(jī)器學(xué)習(xí)算法在應(yīng)用時(shí),可以分為三個(gè)步驟:特征維度提取[4]、特征模型建立、模型融合。特定領(lǐng)域的模型融合完成后,即可用來(lái)分析該領(lǐng)域的大數(shù)據(jù),獲取有用信息。

3.1 特征維度提取

所謂特征,通俗地講,就是從這些“以前的數(shù)據(jù)”中提取出來(lái)的對(duì)于分類預(yù)測(cè)有價(jià)值的變量。比如電影、電視劇分類,書籍分類,垃圾郵件分類,動(dòng)植物分類等。從維度上可以分為一維分類、二維分類、多維分類。

一維分類如圖1所示,只需設(shè)定一個(gè)閾值,即可將數(shù)據(jù)分為A類和B類。

圖1 一維分類

二維及以上的分類,通常采用歐幾里得度量(euclidean metric)(也稱歐氏距離)。這是一個(gè)通常采用的距離定義,指在m維空間中兩個(gè)點(diǎn)之間的真實(shí)距離,或者向量的自然長(zhǎng)度(即該點(diǎn)到原點(diǎn)的距離)。在二維和三維及以上空間中的歐氏距離就是兩點(diǎn)之間的實(shí)際距離。

二維空間的公式如式(1)所示:

三維空間的公式如式(2)所示:

二維分類最終結(jié)果如圖2所示:

圖2 二維分類

維度越多意味著特征越多,需要處理的數(shù)據(jù)量級(jí)越大。在特征抽取的過(guò)程中,可適當(dāng)去掉相關(guān)度不大的特征,將更少的特征應(yīng)用于機(jī)器學(xué)習(xí)流程,即所謂的降維[5]。

3.2 模型建立

有了特征之后,我們要通過(guò)各種模型建立從特征到目標(biāo)之間的關(guān)系。一個(gè)性能優(yōu)良的模型,依賴于相關(guān)度大的特征的集合。如果我們針對(duì)的是一個(gè)預(yù)測(cè)問(wèn)題,例如成績(jī)排名的預(yù)測(cè),我們通常把單個(gè)模型叫作一個(gè)預(yù)測(cè)器;如果我們針對(duì)的是一個(gè)分類問(wèn)題,例如把在銀行貸款的中小企業(yè)分為低違約風(fēng)險(xiǎn)和高違約風(fēng)險(xiǎn)兩類,我們通常把單個(gè)模型叫作一個(gè)分類器。這樣的模型可以是來(lái)自某種專家系統(tǒng),或者把專家的知識(shí)翻譯成模型,比如銀行的風(fēng)險(xiǎn)控制專家的很多知識(shí),都可以直接轉(zhuǎn)變?yōu)槟P汀?/p>

模型在使用之前必須經(jīng)過(guò)訓(xùn)練,模型訓(xùn)練過(guò)程中可能出現(xiàn)過(guò)擬合[6]、欠擬合兩種情況,通過(guò)調(diào)整模型的特征維度個(gè)數(shù),最終達(dá)到模型適中的目標(biāo)。所謂過(guò)擬合(over-fitting)其實(shí)就是所建的機(jī)器學(xué)習(xí)模型在訓(xùn)練樣本中表現(xiàn)得過(guò)于優(yōu)越,導(dǎo)致在驗(yàn)證數(shù)據(jù)集以及測(cè)試數(shù)據(jù)集中表現(xiàn)不佳。而欠擬合(under-fitting),則是在訓(xùn)練集上的判斷準(zhǔn)確率效果不佳。過(guò)擬合即特征維度過(guò)多,訓(xùn)練過(guò)程中需要減少特征維度;而欠擬合則是因?yàn)樘卣骶S度過(guò)少,需要增加特征維度。

過(guò)擬合、欠擬合、模型適中三種情況如圖3所示:

圖3 模型訓(xùn)練三種情況

3.3 模型融合

單一模型的預(yù)測(cè)和分類結(jié)果往往不盡如人意,因此把每一個(gè)模型都叫作一個(gè)弱預(yù)測(cè)器或者弱分類器。當(dāng)我們有了成千上萬(wàn)個(gè)模型后,我們就可以通過(guò)把這些模型融合起來(lái),獲得更好的預(yù)測(cè)或者分類效果,例如分類模型;針對(duì)每一個(gè)待分類樣本,把每一個(gè)模型得到的結(jié)果都看成對(duì)這個(gè)樣本分類結(jié)果的一次投票,最后根據(jù)得票高低確定最終分類結(jié)果,投票結(jié)果經(jīng)常勝出的模型會(huì)被賦予更大的權(quán)重。

比如有兩個(gè)模型:客戶信用度評(píng)估模型1、客戶信用度評(píng)估模型2,在模型融合時(shí)占有的權(quán)重,依據(jù)它們將客戶特征維度進(jìn)行的每一次分類結(jié)果所得的投票數(shù)。成千上萬(wàn)個(gè)模型融合時(shí),各自所占的權(quán)重也是依據(jù)每一次分類所得的投票數(shù)。

表1 模型融合

因?yàn)槿诤系姆桨篙^為固定,所以我們只需要維護(hù)特征庫(kù)和模型庫(kù),而所有新的數(shù)據(jù)以及新的專家知識(shí)和專家系統(tǒng),基本上都可以映射為對(duì)特征庫(kù)和模型庫(kù)的更新,包括對(duì)特征權(quán)重的修正。盡管專家知識(shí)和專家系統(tǒng)對(duì)于特征的選擇和賦權(quán),以及模型的建立都有作用,但實(shí)際上,即便沒(méi)有任何專家知識(shí)和專家系統(tǒng),僅僅通過(guò)一般化的特征學(xué)習(xí)和常用的機(jī)器學(xué)習(xí)模型,也能得到很不錯(cuò)的結(jié)果。這就使大規(guī)模數(shù)據(jù)下的機(jī)器學(xué)習(xí),可以看作具有一般意義的解決方案。

4 結(jié)論與展望

目前,大數(shù)據(jù)技術(shù)已經(jīng)在多個(gè)領(lǐng)域得到廣泛應(yīng)用,大數(shù)據(jù)技術(shù)的發(fā)展依賴于機(jī)器學(xué)習(xí)的進(jìn)步。本文闡述了機(jī)器學(xué)習(xí)算法在一般領(lǐng)域應(yīng)用的三個(gè)步驟,也為商業(yè)解決方案提供了參考依據(jù)。

未來(lái)機(jī)器學(xué)習(xí)的研究離不開軟件和硬件的共同發(fā)展,提升機(jī)器學(xué)習(xí)算法并行性、降低算法復(fù)雜度是軟件亟待解決的問(wèn)題,而CPU+GPU混合計(jì)算則是硬件研究的方向。云計(jì)算、大數(shù)據(jù)、人工智能等關(guān)聯(lián)學(xué)科的融合發(fā)展,更能為機(jī)器學(xué)習(xí)的研究增加助力。

猜你喜歡
分類特征融合
村企黨建聯(lián)建融合共贏
融合菜
分類算一算
從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
《融合》
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
主站蜘蛛池模板: 亚洲最大在线观看| 欧美在线导航| 久青草国产高清在线视频| 国产青榴视频在线观看网站| 国产一区亚洲一区| 亚洲AV无码久久精品色欲| 亚洲天堂.com| 国产成人91精品| 国产精品污视频| 丰满人妻一区二区三区视频| 欧美精品v日韩精品v国产精品| 亚欧乱色视频网站大全| 色综合婷婷| 喷潮白浆直流在线播放| 欧美成人免费| 亚洲国产无码有码| 永久成人无码激情视频免费| 国产极品美女在线播放| 亚洲成肉网| 亚欧成人无码AV在线播放| 亚洲无码精彩视频在线观看| 国产亚洲精品自在久久不卡| 又粗又硬又大又爽免费视频播放| 第九色区aⅴ天堂久久香| 亚洲精品国产成人7777| 国产极品美女在线观看| 有专无码视频| 人妻无码一区二区视频| 在线免费观看AV| 亚洲手机在线| 青青草国产在线视频| 美女国内精品自产拍在线播放 | 欧美午夜视频| 亚洲日韩日本中文在线| 国模在线视频一区二区三区| 青草视频网站在线观看| 久久精品嫩草研究院| 亚洲国产精品成人久久综合影院| 四虎成人精品| 欧美国产日韩在线| 伊人91视频| 99久久无色码中文字幕| 99热这里只有免费国产精品| 中文字幕乱码二三区免费| 五月婷婷亚洲综合| 天堂成人av| 亚洲欧美成人综合| 国产成人一区| 在线观看国产黄色| 免费不卡视频| 这里只有精品国产| 99在线视频免费观看| 亚洲精品国产乱码不卡| 中文国产成人精品久久| 国产精品部在线观看| 亚洲v日韩v欧美在线观看| 国产激爽爽爽大片在线观看| 亚洲精品图区| 亚洲啪啪网| 国产91无毒不卡在线观看| 亚洲精品无码AV电影在线播放| 制服丝袜亚洲| 性欧美久久| 国产尤物在线播放| AV无码一区二区三区四区| 国模极品一区二区三区| 亚洲成人在线免费观看| 2019年国产精品自拍不卡| 国产精品青青| 国产jizz| 国产人成网线在线播放va| 亚洲天堂日韩在线| 国产玖玖视频| 国产精品视频第一专区| 激情六月丁香婷婷四房播| 青青久视频| 一级黄色网站在线免费看| 国产成人一区免费观看| 久久这里只有精品免费| 日本欧美精品| 国产系列在线| 无码AV日韩一二三区|