韓雪純
摘要:大數(shù)據(jù)時代下數(shù)據(jù)的出現(xiàn)和傳輸呈現(xiàn)出了一種以幾何形式增長的形態(tài)出現(xiàn),不論是數(shù)據(jù)的規(guī)模、內(nèi)容還是精確程度都為服務(wù)器的進步與完善帶來了極大的挑戰(zhàn)。本文以此為出發(fā)點,就大數(shù)據(jù)時代下機器學(xué)習(xí)的應(yīng)用研究做詳細深入的探究,主要針對當(dāng)下機器學(xué)習(xí)的重要內(nèi)容做分析。
關(guān)鍵詞:大數(shù)據(jù)時代;機器學(xué)習(xí);數(shù)據(jù);應(yīng)用
大數(shù)據(jù)時代的到來給傳統(tǒng)機器的學(xué)習(xí)提出了一個較為巨大的數(shù)據(jù)難題,即如何面對龐大的數(shù)據(jù)群體開展處理活動,目前傳統(tǒng)機器學(xué)習(xí)主要存在的問題在系統(tǒng)與用戶的語言差異及如何模仿并模擬人的學(xué)習(xí)過程。基于當(dāng)下對于大數(shù)據(jù)處理的基本要求,如何滿足上述條件,成為了傳統(tǒng)機器學(xué)習(xí)主要方向。
1 基于大數(shù)據(jù)時代下機器學(xué)習(xí)的評價指標(biāo)
數(shù)據(jù)的龐大性及處理的復(fù)雜程度對于傳統(tǒng)機器提出了極為嚴(yán)苛的要求,但當(dāng)下傳統(tǒng)機器的處理能力有限,顯然不能滿足當(dāng)下的需求,進而形成了傳統(tǒng)機器的發(fā)展緩慢與大數(shù)據(jù)需求激增的矛盾。因此傳統(tǒng)機器需要進行機器學(xué)習(xí),以全新的運營系統(tǒng)及算法來滿足當(dāng)下需求,而評價其傳統(tǒng)機器是否達標(biāo)需要通過以下幾個方面來評價。
(1)計算速度的評價指標(biāo)。大數(shù)據(jù)時代最突出的特征就數(shù)據(jù)的數(shù)量與其產(chǎn)生的速度,因此機器學(xué)習(xí)的評價指標(biāo)中,計算速度作為一個重要指標(biāo),是檢驗機器學(xué)習(xí)是否符合當(dāng)下標(biāo)準(zhǔn)的重要內(nèi)容。而在機器計算速度的評價指標(biāo)中,與計算速度相關(guān)的速度內(nèi)容又包括訓(xùn)練與預(yù)測兩方面,訓(xùn)練與預(yù)測是兩個不可分割的內(nèi)容[1],前者是指在計算中得出最優(yōu)方案的計算速度,后者則是指運用最優(yōu)方案進行計算產(chǎn)生結(jié)構(gòu)的具體速度,兩者的結(jié)合共同成為衡量機器計算速度的重要標(biāo)準(zhǔn)。
(2)泛化能力的考察與實踐。機器學(xué)習(xí)的根本目標(biāo),是通過學(xué)習(xí),將能夠得出的最優(yōu)方案進行推廣,成為可以廣泛使用的方案,因此對數(shù)據(jù)處理能力的合理性,即機器學(xué)習(xí)的泛化能力也成為了當(dāng)下衡量的重要標(biāo)準(zhǔn)之一。
(3)數(shù)據(jù)處理與標(biāo)識能力。數(shù)據(jù)處理與標(biāo)識能力是指在當(dāng)下數(shù)據(jù)中,機器對于數(shù)據(jù)進行分辨,將有標(biāo)識的數(shù)據(jù)進行處理與運用,未標(biāo)識的數(shù)據(jù)在傳統(tǒng)機器計算中處于廢棄不完整數(shù)據(jù),會被丟棄,但是實際這些數(shù)據(jù)中有很多數(shù)據(jù)可以重新被標(biāo)識,成為完整數(shù)據(jù)被利用。因此,對于數(shù)據(jù)的處理與標(biāo)識能力也成為了當(dāng)下機器學(xué)習(xí)的重要評價標(biāo)準(zhǔn)之一。
(4)錯誤代價的處理及收斂反應(yīng)。對于機器計算中出現(xiàn)的錯誤及造成的代價與機器自身的收斂反應(yīng)也稱之為代價敏感,代價敏感是基于在訓(xùn)練計算只能夠,機器對于出現(xiàn)錯誤造成的數(shù)據(jù)損失是否能夠盡快回復(fù)和收斂,并基于損失數(shù)據(jù),計算產(chǎn)生代價得出相應(yīng)的結(jié)論,這是基于大數(shù)據(jù)時代下,數(shù)據(jù)整理缺乏一定的統(tǒng)籌性,很多數(shù)據(jù)的質(zhì)量與內(nèi)容參差不齊,因此,代價敏感作為機器學(xué)習(xí)算法中需要實際應(yīng)用的一個內(nèi)容,更是機器學(xué)習(xí)新技術(shù)的推廣考核重要標(biāo)準(zhǔn)。
(5)對于算法的可解釋性及預(yù)測結(jié)果分析。對于用戶而言,機器計算的過程是“幕后”進行的,用戶只通過輸入相關(guān)的指令,就可以看到輸出的數(shù)據(jù)內(nèi)容,但對于內(nèi)容產(chǎn)生的方式、原因及過程往往一概不知,這就造成當(dāng)下數(shù)據(jù)泛濫,用戶面對復(fù)雜數(shù)據(jù)處理時,機器學(xué)習(xí)能力較差,用戶無從解決的現(xiàn)象出現(xiàn)。歸根究底是對于機器算法的可解釋性一直以來被稀釋,不被重視,而基于大數(shù)據(jù)時代的到來,機器的可解釋性也應(yīng)當(dāng)作為其重要的數(shù)據(jù)考核標(biāo)準(zhǔn)成為當(dāng)下計算學(xué)習(xí)的評價體系中的一方面。[2]
2 對于當(dāng)下機器學(xué)習(xí)應(yīng)用的關(guān)鍵技術(shù)探究
截止到目前為止,機器學(xué)習(xí)應(yīng)用的關(guān)鍵技術(shù)主要通過機器學(xué)習(xí)理論框架構(gòu)建的十余種關(guān)鍵技術(shù),本文著重分析其中三種應(yīng)用最為廣泛的機器學(xué)習(xí)關(guān)鍵技術(shù)。
(1)半監(jiān)督學(xué)習(xí)技術(shù)。半監(jiān)督學(xué)習(xí)技術(shù)是基于傳統(tǒng)機器計算弊端產(chǎn)生的機器學(xué)習(xí)技術(shù),在傳統(tǒng)機器數(shù)據(jù)處理時,對于未標(biāo)識的數(shù)據(jù),一般以損失數(shù)據(jù)進行處理,數(shù)據(jù)被丟棄,這種就是在傳統(tǒng)機器中較為常見的無監(jiān)督學(xué)習(xí),與其對應(yīng)的監(jiān)督學(xué)習(xí)就是處理以標(biāo)識的各類數(shù)據(jù)。半監(jiān)督學(xué)習(xí)技術(shù)基于兩者之間,一方面地域有標(biāo)識數(shù)據(jù)進行處理,一方面將未標(biāo)識數(shù)據(jù)進行分類,在分類的基礎(chǔ)上重新處理,將未標(biāo)識數(shù)據(jù)中的完整數(shù)據(jù)、有用數(shù)據(jù)進行分類,歸入有標(biāo)識數(shù)據(jù),從而實現(xiàn)數(shù)據(jù)的回收利用,提高數(shù)據(jù)利用率的同時,避免了數(shù)據(jù)浪費現(xiàn)象的出現(xiàn)。尤其是在基于當(dāng)下數(shù)據(jù)泛濫的大數(shù)據(jù)時代,未標(biāo)識數(shù)據(jù)的數(shù)量遠遠高于標(biāo)識數(shù)據(jù),其未標(biāo)識數(shù)據(jù)的價值如果不加以重新分類梳理,很多有價值的數(shù)據(jù)就會被浪費。
(2)不同學(xué)習(xí)系統(tǒng)的集成學(xué)習(xí)技術(shù)。不同學(xué)習(xí)系統(tǒng)的集成學(xué)習(xí)技術(shù)就是指將不同學(xué)習(xí)系統(tǒng)進行整合,來實現(xiàn)優(yōu)化現(xiàn)有學(xué)習(xí)系統(tǒng),各取所長的學(xué)習(xí)構(gòu)架。其原理簡單來講,可簡化為“團結(jié)就是力量”,不論是機器還是人,都需要依靠團隊的力量,單個學(xué)習(xí)系統(tǒng)再強大,也不過集成系統(tǒng)的優(yōu)勢,將不同機器的學(xué)習(xí)系統(tǒng)串聯(lián)共同使用,不僅是應(yīng)對當(dāng)下大數(shù)據(jù)時代的數(shù)據(jù)處理問題,更是機器學(xué)習(xí)擬人的一個重要過程中,與此同時,集成學(xué)習(xí)技術(shù)本身是建立在現(xiàn)有學(xué)習(xí)系統(tǒng)之上開展的,難度系數(shù)不大,另一方面廣泛的運用能夠為數(shù)據(jù)的分析與處理發(fā)展趨勢提出更多可發(fā)展方向。
(3)分類與遷移標(biāo)識數(shù)據(jù)學(xué)習(xí)技術(shù)。在上文中提到,大數(shù)據(jù)時代雖然帶來龐大的數(shù)據(jù)量,但是這些數(shù)據(jù)的質(zhì)量參差不齊,因此需要進行標(biāo)識數(shù)據(jù)與未標(biāo)識數(shù)據(jù)的處理來分類,簡化數(shù)據(jù)處理的內(nèi)容及工作量,而這個分類過程就是本文所指的分類與遷移標(biāo)識數(shù)據(jù)學(xué)習(xí)技術(shù)。該技術(shù)需要基于一定的訓(xùn)練數(shù)據(jù)基礎(chǔ)上進行,但是大數(shù)據(jù)時代提出了更大的難題,即不僅數(shù)據(jù)的數(shù)據(jù)幾何形式上升,對于數(shù)據(jù)的實質(zhì)內(nèi)容、分類,也大大激增,如果不同數(shù)據(jù)領(lǐng)域之間都進行一定基礎(chǔ)的訓(xùn)練數(shù)據(jù)再投入使用,所耗費的人力物力是不現(xiàn)實的,也不符合當(dāng)下機器學(xué)習(xí)的原則。因此,要求機器學(xué)習(xí)技術(shù)的擬人化,將已有的訓(xùn)練數(shù)據(jù)領(lǐng)域互相結(jié)合,即如同人在面對困難時,會先運用已有的知識尋求解決困難的辦法,這也是機器學(xué)習(xí)應(yīng)用技術(shù)的一個非常重要的方面。
3 結(jié)語
大數(shù)據(jù)時代的到來與快速發(fā)展,對于機器學(xué)習(xí)的應(yīng)用將會提出更多具有挑戰(zhàn)性的內(nèi)容,機器的擬人化學(xué)習(xí)是當(dāng)下學(xué)習(xí)技術(shù)中最為廣泛應(yīng)用的一種方式,也是未來機器學(xué)習(xí)發(fā)展的一個主要趨勢和基本方向,更是機器學(xué)習(xí)在后續(xù)發(fā)展中需要不斷實踐與論證的主要內(nèi)容。
參考文獻:
[1]何曉飛,張敏玲,郭茂祖.大數(shù)據(jù)時代的機器學(xué)習(xí)研究??把訹J].軟件學(xué)報,2015(09):144145.
[2]基于三元概念分析的機器學(xué)習(xí)算法研究及應(yīng)用[D].鄭州大學(xué),2017.