黃心依
(安徽科技學(xué)院信息與網(wǎng)絡(luò)工程學(xué)院 安徽 滁州 233100)
隨著互聯(lián)網(wǎng)的快速發(fā)展,存在于互聯(lián)網(wǎng)中的數(shù)據(jù)量大幅增長(zhǎng),故需要有更快的信息數(shù)據(jù)處理速度才能夠?qū)A啃畔?shù)據(jù)進(jìn)行處理。從當(dāng)前信息數(shù)據(jù)處理實(shí)際情況來(lái)看,傳統(tǒng)的信息數(shù)據(jù)處理算法已經(jīng)不能夠滿足大規(guī)模數(shù)據(jù)的處理[1],因此需要對(duì)數(shù)據(jù)進(jìn)行深度數(shù)據(jù)挖掘。機(jī)器學(xué)習(xí)作為一種能夠從數(shù)據(jù)中進(jìn)行學(xué)習(xí)的算法,能夠更加快速地處理數(shù)量巨大的數(shù)據(jù)信息,解決好數(shù)據(jù)問題。
數(shù)據(jù)挖掘是當(dāng)前一種新興的研究領(lǐng)域,主要是以新的方式方法以及新的理論來(lái)挖掘數(shù)據(jù)中潛在價(jià)值。在數(shù)據(jù)挖掘中,主要通過以下4個(gè)步驟來(lái)完成數(shù)據(jù)的分析和處理:(1)選擇或者構(gòu)造具有一定格式以及內(nèi)容的數(shù)據(jù)集,這樣能夠方便之后的數(shù)據(jù)處理;(2)信息數(shù)據(jù)的預(yù)處理,這一步驟主要是為了將選擇或者構(gòu)造的數(shù)據(jù)集處理成為統(tǒng)一的內(nèi)容格式,主要的處理內(nèi)容有數(shù)據(jù)集成、清洗、離散化等;(3)數(shù)據(jù)建模和篩選,這一步驟主要通過對(duì)數(shù)據(jù)需求和模型等因素進(jìn)行考量,選擇出相對(duì)最優(yōu)特征集;(4)形成結(jié)論,這一步驟能夠促使數(shù)據(jù)反饋出一些有價(jià)值的信息,在這些有價(jià)值信息的基礎(chǔ)上,工程師可以得出結(jié)論。
機(jī)器學(xué)習(xí)是一門涉及多個(gè)領(lǐng)域的交叉學(xué)科,包括統(tǒng)計(jì)學(xué)、算法、概率學(xué)等。在大規(guī)模數(shù)據(jù)中,機(jī)器學(xué)習(xí)能夠在異構(gòu)數(shù)據(jù)中進(jìn)行規(guī)律總結(jié),找到不同數(shù)據(jù)之間的聯(lián)系,從而實(shí)現(xiàn)對(duì)數(shù)據(jù)的深度挖掘。機(jī)器學(xué)習(xí)的主要任務(wù)包括以下幾個(gè)方面:(1)對(duì)不同的數(shù)據(jù)進(jìn)行分類;(2)對(duì)數(shù)據(jù)進(jìn)行回歸分析;(3)通過模型建構(gòu)完成對(duì)數(shù)據(jù)的回歸分析;(4)對(duì)數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則;(5)將不同的數(shù)據(jù)集合到一起,實(shí)現(xiàn)聚類。機(jī)器學(xué)習(xí)系統(tǒng)結(jié)構(gòu)圖,見圖1。

圖1 機(jī)器學(xué)習(xí)系統(tǒng)結(jié)構(gòu)圖
在通常情況下,樸素貝葉斯算法主要包括以下幾步:(1)通過選取操作來(lái)獲取關(guān)于信息數(shù)據(jù)的完成樣本集合,同時(shí)對(duì)集合中的元素進(jìn)行標(biāo)記,保障元素的提出。(2)對(duì)樣本集合進(jìn)行統(tǒng)計(jì),以此來(lái)獲得樣本集合中所有類別出現(xiàn)的概率,并以此為基礎(chǔ)獲得分類器。(3)將需要分樣的分樣本導(dǎo)入到分類器中,通過分類器獲得樣本的結(jié)果。整體來(lái)看,樸素貝葉斯算法在性能方面缺陷較多[2],比如樸素貝葉斯算法認(rèn)為分類的樣本特征本身和其他特征的值不相關(guān),因此不會(huì)計(jì)算不同特征之間的相關(guān)性。但是樸素貝葉斯算法本身有著計(jì)算方便的特點(diǎn),因此也具有一定的優(yōu)勢(shì)。
K-近鄰法在機(jī)器學(xué)習(xí)算法中是一種有著較高普及度的算法之一。相較于其他算法,K-近鄰法的操作更加簡(jiǎn)單,性能也更為優(yōu)秀。K-近鄰法從本質(zhì)上來(lái)看,是一種基于集中樣本特征以及區(qū)分樣本特征,通過距離度量這一計(jì)算方式來(lái)進(jìn)行訓(xùn)練的算法。所以,在數(shù)據(jù)集中的情況下,如果樣本的數(shù)量越多,K-近鄰法出現(xiàn)錯(cuò)誤率的概率就會(huì)越低。因此,相較于其他算法,如果數(shù)據(jù)集中的訓(xùn)練集趨向于無(wú)限大,K-近鄰法就會(huì)有更加優(yōu)秀的分類性。
決策樹算法以及其本身的變種算法都是一種對(duì)輸入空間進(jìn)行分割,形成不同區(qū)域,并且其中的每一個(gè)區(qū)域都有不同的獨(dú)立參數(shù)的算法。決策樹算法主要是以樹形模型為基礎(chǔ)來(lái)進(jìn)行計(jì)算,在樹形模型中,每一個(gè)根節(jié)點(diǎn)到葉子節(jié)點(diǎn)都是一個(gè)分類的路徑規(guī)則,同時(shí)每一個(gè)葉子節(jié)點(diǎn)都是一個(gè)判斷類別[3]。在決策樹算法中,主要是先將樣本進(jìn)行分割,促使樣本分為不同的樣本子集,在此之后再進(jìn)行分割的遞推,最終促使每一個(gè)樣本子集都能夠得到相同類型的樣本。之后,再?gòu)母?jié)點(diǎn)開始,直到每一個(gè)葉子節(jié)點(diǎn),形成路徑規(guī)則,最終得出預(yù)測(cè)類別。決策樹算法相較于其他算法,其優(yōu)勢(shì)在于整體結(jié)構(gòu)較為簡(jiǎn)單,同時(shí)數(shù)據(jù)處理也更加高效。
機(jī)器學(xué)習(xí)有著較為廣泛的分類,涉及了很多領(lǐng)域,在下面的內(nèi)容中主要是通過對(duì)當(dāng)前機(jī)器學(xué)習(xí)涉及的3個(gè)領(lǐng)域來(lái)介紹機(jī)器學(xué)習(xí)算法中的應(yīng)用原理。
機(jī)器學(xué)習(xí)在神經(jīng)網(wǎng)絡(luò)領(lǐng)域中,主要的原理是通過算法來(lái)進(jìn)行數(shù)據(jù)建模,從而實(shí)現(xiàn)對(duì)人大腦的神經(jīng)進(jìn)行模擬,分析出其中每一個(gè)神經(jīng)中的作用以及位置,進(jìn)而分析出神經(jīng)在腦中的工作過程。在實(shí)際構(gòu)建中,機(jī)器學(xué)習(xí)通過對(duì)不同的神經(jīng)單元進(jìn)行處理,創(chuàng)建出層級(jí)序列。在這一過程中涉及到的邏輯原理為:以算法為基礎(chǔ)接受模擬刺激,在網(wǎng)絡(luò)接收到信號(hào)刺激之后,通過數(shù)據(jù)的分析、處理以及總結(jié)等過程得到結(jié)果。
機(jī)器學(xué)習(xí)還可以在向量機(jī)上做出相應(yīng)的研究。在向量機(jī)領(lǐng)域中,首先需要以數(shù)學(xué)處理思維為基礎(chǔ),通過回歸算法對(duì)數(shù)據(jù)問題進(jìn)行處理。在這樣的基礎(chǔ)上,能夠?qū)崿F(xiàn)對(duì)所有未知結(jié)果進(jìn)行推測(cè)。通過算術(shù)之間的相互結(jié)合以及三維空間進(jìn)行多維度分析,從而實(shí)現(xiàn)算法的推演。
在機(jī)器學(xué)習(xí)中,還存在一種電子商務(wù)領(lǐng)域喜歡的算法,即推薦算法。這一種機(jī)器學(xué)習(xí)算法能夠以用戶本身的瀏覽信息為基礎(chǔ),分析出用戶所喜歡的內(nèi)容。比如,在淘寶這一電子商務(wù)平臺(tái)中,用戶在瀏覽各種商品的過程中,算法就可以根據(jù)用戶所瀏覽過的商品和瀏覽同類商品的頻率來(lái)計(jì)算用戶喜歡的商品類型。再比如在今日頭條中,算法能夠檢測(cè)到用戶瀏覽了哪些信息等,之后算法就會(huì)根據(jù)這些信息進(jìn)行計(jì)算,為用戶貼上一定的標(biāo)簽,然后用戶再次進(jìn)入到今日頭條之后為用戶推薦那些用戶喜歡的信息。
機(jī)器學(xué)習(xí)中向量機(jī)的應(yīng)用,主要是通過支持向量機(jī)的定位原則來(lái)將數(shù)據(jù)信息進(jìn)行分類,實(shí)現(xiàn)區(qū)域化選擇。具體步驟為:(1)對(duì)一定區(qū)域內(nèi)的經(jīng)緯度進(jìn)行第一次定位,在確定位置之后對(duì)該位置進(jìn)行劃分,促使該位置實(shí)現(xiàn)柵格化。(2)在進(jìn)行劃分之后,區(qū)域還需要按照經(jīng)度和維度分為兩個(gè)部分[4]。在這兩部分中,都需要進(jìn)行計(jì)算,但是所使用的計(jì)算方式不同,其中一部分需要將該部分之內(nèi)的所有待測(cè)樣本以及向量進(jìn)行科學(xué)計(jì)算,另一部分則是需要通過回歸函數(shù)邏輯思維進(jìn)行計(jì)算。通過不同的計(jì)算能夠得出不同的定位方案是否可行。在應(yīng)用向量機(jī)的過程中需要嚴(yán)格遵守最小化原則[5]。另外,向量機(jī)在數(shù)據(jù)樣本的采集中,只要把握好多維度的點(diǎn)積計(jì)算,就能夠解決很多非線性的問題。向量機(jī)通常應(yīng)用于人臉識(shí)別和汽車發(fā)動(dòng)機(jī)故障檢測(cè)中。以人臉識(shí)別為例,在人臉識(shí)別過程中,由于人臉圖像屬于高維樣本,如果將人臉圖像直接進(jìn)行處理識(shí)別,其計(jì)算難度將大大提高,所以需要采用向量機(jī)進(jìn)行圖像預(yù)處理,圖像經(jīng)過小波分解后達(dá)到降維目的,然后經(jīng)過向量機(jī)算法中的核函數(shù)確定將圖像進(jìn)行分類,最終與人臉數(shù)據(jù)庫(kù)中的圖像進(jìn)行對(duì)比,確定圖像信息。
機(jī)器學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò),能夠通過算法學(xué)習(xí)來(lái)處理大量信息數(shù)據(jù),同時(shí)還能進(jìn)行精確的自我學(xué)習(xí)。相較于一般性的神經(jīng)元,卷積神經(jīng)網(wǎng)絡(luò)的基本組成和一般性神經(jīng)元相一致。具體來(lái)說,卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算層級(jí)上先是通過對(duì)數(shù)據(jù)輸入的求和,再通過函數(shù)進(jìn)行計(jì)算,從而實(shí)現(xiàn)對(duì)數(shù)據(jù)的輸出,進(jìn)而實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)建模。在應(yīng)用過程中,還需要注意卷積神經(jīng)網(wǎng)絡(luò)中3個(gè)參數(shù),具體為數(shù)據(jù)區(qū)域大小、神經(jīng)元之間的聯(lián)系以及神經(jīng)元的數(shù)量[6]。在實(shí)際應(yīng)用過程中,需要修訂其中的權(quán)值,主要使用的方法是充分利用計(jì)算過程中所產(chǎn)生的誤差,進(jìn)行初始化。同時(shí),在對(duì)不同層級(jí)的誤差進(jìn)行計(jì)算時(shí),要鎖定不同神經(jīng)元的權(quán)值。總的來(lái)看,機(jī)器學(xué)習(xí)中卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用主要是通過建立神經(jīng)元模型,再通過該模型來(lái)對(duì)數(shù)據(jù)的特征進(jìn)行觀察分析,最終得到精確分析結(jié)論。卷積神經(jīng)網(wǎng)絡(luò)主要在計(jì)算機(jī)視覺以及自然語(yǔ)言處理中得以應(yīng)用,其中在計(jì)算機(jī)識(shí)別中,卷積神經(jīng)網(wǎng)絡(luò)主要能夠進(jìn)行光譜建模和光譜特征可視化。作為深度學(xué)習(xí)方法之一的前饋神經(jīng)網(wǎng)絡(luò)CNN,可以使用沒有經(jīng)過光譜預(yù)處理的原始光譜進(jìn)行建模,改進(jìn)了光譜分析的流程,比如卷積神經(jīng)網(wǎng)絡(luò)可用于分析實(shí)驗(yàn)室中山羊角水解過程中的拉曼光譜。除了計(jì)算機(jī)視覺和自然語(yǔ)言處理以外,卷積神經(jīng)網(wǎng)絡(luò)還在大氣科學(xué)、物理學(xué)以及遙感科學(xué)中有所應(yīng)用。
綜上所述,在互聯(lián)網(wǎng)時(shí)代,要想更好地掌握數(shù)據(jù)信息,數(shù)據(jù)挖掘是必不可少的,因此機(jī)器學(xué)習(xí)顯得十分重要。在大數(shù)據(jù)時(shí)代,信息呈現(xiàn)出指數(shù)級(jí)增長(zhǎng)趨勢(shì),使得很多數(shù)據(jù)挖掘應(yīng)用不斷出現(xiàn),很多數(shù)據(jù)問題更加復(fù)雜和難以把控。當(dāng)前機(jī)器學(xué)習(xí)在數(shù)據(jù)挖掘中的應(yīng)用主要是機(jī)器學(xué)習(xí)中向量機(jī)以及卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用,但是這樣的應(yīng)用對(duì)計(jì)算機(jī)性能要求很高,不過相信在未來(lái)計(jì)算機(jī)性能會(huì)不斷提升,逐漸打破限制,從而更好地應(yīng)用到不同的領(lǐng)域之中。