大數據背景下機器學習算法的綜述

2018-02-16 16:51:34李成錄

信息記錄材料 2018年5期

李成錄

（青海師范大學青海西寧 810008）

1 引言

大數據概念自1980年被托夫勒提出后，其發展前景不斷擴大，滲透到生活、工作、學習的方方面面。當下，在信息技術的推動下，某些零散、碎片化的數據被搜集起來，逐漸凝聚為紛繁錯亂的大數據。大數據的快速發展，給高新技術產業帶來豐厚的回報，引起一大批實力雄厚企業的追捧。在2017年阿里巴巴、騰訊、京東等IT公司斥巨資從事大數據研究，從中享受到大數據賦予的金融回報。例如，滴滴打車、ofo共享單車、淘寶等，它們企業運轉效率在大數據的推動下得到質的提升。因此，研究大數據背景下的機器學習算法對國家、企業、社會發展都有較大的促進作用，需要有適合的算法來滿足大數據時代的需求。本研究立足于當下社會發展新形勢，為促進社會更好發展做出重要推動力。

2 大數據基本內涵與特點

大數據（Big Data），是指在一定時間內無法用常規數據處理軟件進行分析管理的數據集合。它以超出用MB、GB的形式來存儲。在這種新型大數據背景下，需要有更好地數據處理模式進行數據運算，才能從數據中形成更為科學的決策系統。被稱為大數據它具有不同于傳統數據的特點，與其他數據有清晰的界限。首先，大數據最鮮明的特點為“大”，它凝聚著海量資料，從多個維度、多個方面、多類型進行歸納匯總，形成一批難以用普通數據處理方法來解決的數據；其次，傳輸速度快。大數據是由互聯的機器產生的，它們以秒、毫秒、微秒的形式瞬間形成，不斷去輸入、輸出來完成其基本功能；緊接著，數據類型多種多樣，數據分類難度較大。大數據已經不能用傳統的分類方式進行歸納，它們往往是非結構化的，造成存儲、分析、探勘難度提升；最后，大數據具有真實性。在處理大數據時，要從紛繁錯亂的數據中剔除錯誤數據、虛假數據，保證大數據系統的真實客觀性。這樣，不僅可以降低據處理的難度，同時便于得出正確的應對策略，讓大數據更好地為人服務。

3 機器學習在大數據背景下的必要性

機器學習是當下處理大數據的重要途徑，它可以將多種優勢凝聚起來，面對實際問題選擇最為合適的解決途徑。例如，在2017年AlphaGo對弈柯潔圍棋比賽中，以3比0的比分贏得了比賽，它正是機器學習的重要標志。機器學習克服人為因素的局限性，通過神經網絡、決策樹、深度學習，對數據進行科學有效地處理，全面提高數據的運算效率。當下，信息網絡、商業活動、調查統計都會產生海量數據，這些數據以超出傳統的處理手段，迫切需要機器學習進行解決。傳統機器學習面臨的問題為：首先，機器算法較為固定，讀取大數據困難突出；其次，自動學習推理能力較低，得到數據結論不夠科學；最后，機器自我學習能力不足，不能迎合大數據對機器學習的需求。因此，探究出適合大數據背景下的機器學習，對未來發展有著不可估量的社會效益。

4 機器學習算法在處理大數據的重要手段

4.1 運用分治算法對大數據進行篩選剔除

分治算法在處理大數據上具有較好的優勢，它可以被運用與分布式計算和并行運算。對大數據進行機器學習，樣本不同的數據對其影響比較顯著，不僅會徒增數據運算量，同時還會制約著學習效率，不利于更好地對數據進行分析判斷。而運用分治算法后，它對原始樣本進行預處理，將無效數據、冗余數據進行剔除，形成能夠很好表示原始樣本的數據集合。這樣，機器學習的目標更為明確，學習難度得到有效降低，有助于形成正確的判斷。在選擇代表性數據集合時，通常采用的方法為壓縮近鄰法、約減法等等。它的原理就是要找到大數據所對應的最小集合，通過一系列測試完成對子集的加工完善。此時，他們找到的集合是可以代表全體樣本的，具有較高的科學性，從而為大數據分析提供可能。運用分治算法首先要有符合要求的置信區間，在規定的區間內進行數據的篩選、剔除。例如，借助Bag ofLittle Bootstraps，它可以降低抽樣所帶來的數據錯誤，從而提高數據預處理的準確性。

4.2 引入聚類算法對大數據分布式計算

聚類算法在數據挖掘和數據處理中是最常用的方法，它在處理大型數據上有較好的應用效果。首先，聚類算法對大數據進行類型劃分，將數據分為若干個子數據節點。在這時，對各節點數據進行機器學習效率更高，更有針對性地完成數據處理。聚類算法在機器學習的具體方法可以歸納為三種。第一種，采用非迭代化數據擴展。它利用模糊集概念，對數據進行FCM均值聚類分析，快速準確地將數據分離開來；第二種為連續擴充子集合技術；第三種為抽樣估計均值算法。這三種可以有效解決大數據在時間上、空間上、處理速度、運轉效率的問題，達到對上至億萬的大數據分析。

4.3 數據并行算法優化數據處理效率

傳統的機器學習在處理大數據上捉襟見肘，主要是由于各機器學習方法沒有做到并行化處理。單一數據處理機器不能獨立完成大數據處理，而是需要聯動各個數據處理部分，將其并行化運轉，從而達到對大數據的整體處理。它的思想就是將大數據“碎片化”，分成機器可以單純處理的數據模塊，最終通過綜合各個數據來達到對整體的把握。比如，在圖像處理平臺上，它正是利用并行算法，大大降低各數據處理的壓力，有效提升數據的運算能力。并行算法需要與聚類算法、分治算法進行有機統一，將三者算法融合在一起，讓大數據處理變得更為簡潔、輕松，同時也較好地保證機器學習的準確性。

5 結語

大數據作為當下的熱門，需要有一套科學合理的機器學習算法來滿足社會需求，讓數據處理變得更具效率。針對大數據的各個特點，通過運用分布式計算、聚類算法、分治算法，讓數據變得更具條理，數據處理分析難度得到有效降低，大大提高機器學習的能力。因此，要想在大數據有所突破，就需要對傳統機器學習算法進行優化升級，讓其在大數據時代迸發出強勁活力。

[1]吳睿智，馬致遠，羅光春，劉貴松，秦科.大數據融合、分析與價值[J].信息通信技術，2016(06)：123-130.

[2] Yang Y M,Wang X N,Yuan X F.Bidirectional Extreme Learning Machine for Regression Problem and Its Learning Effectiveness.IEEE Trans on Neural Networks and Learning Systems,2012,23(9):1498-1505.