999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據背景下機器學習算法的綜述

2018-02-16 16:51:34李成錄
信息記錄材料 2018年5期
關鍵詞:數據處理效率

李成錄

(青海師范大學 青海 西寧 810008)

1 引言

大數據概念自1980年被托夫勒提出后,其發展前景不斷擴大,滲透到生活、工作、學習的方方面面。當下,在信息技術的推動下,某些零散、碎片化的數據被搜集起來,逐漸凝聚為紛繁錯亂的大數據。大數據的快速發展,給高新技術產業帶來豐厚的回報,引起一大批實力雄厚企業的追捧。在2017年阿里巴巴、騰訊、京東等IT公司斥巨資從事大數據研究,從中享受到大數據賦予的金融回報。例如,滴滴打車、ofo共享單車、淘寶等,它們企業運轉效率在大數據的推動下得到質的提升。因此,研究大數據背景下的機器學習算法對國家、企業、社會發展都有較大的促進作用,需要有適合的算法來滿足大數據時代的需求。本研究立足于當下社會發展新形勢,為促進社會更好發展做出重要推動力。

2 大數據基本內涵與特點

大數據(Big Data),是指在一定時間內無法用常規數據處理軟件進行分析管理的數據集合。它以超出用MB、GB的形式來存儲。在這種新型大數據背景下,需要有更好地數據處理模式進行數據運算,才能從數據中形成更為科學的決策系統。被稱為大數據它具有不同于傳統數據的特點,與其他數據有清晰的界限。首先,大數據最鮮明的特點為“大”,它凝聚著海量資料,從多個維度、多個方面、多類型進行歸納匯總,形成一批難以用普通數據處理方法來解決的數據;其次,傳輸速度快。大數據是由互聯的機器產生的,它們以秒、毫秒、微秒的形式瞬間形成,不斷去輸入、輸出來完成其基本功能;緊接著,數據類型多種多樣,數據分類難度較大。大數據已經不能用傳統的分類方式進行歸納,它們往往是非結構化的,造成存儲、分析、探勘難度提升;最后,大數據具有真實性。在處理大數據時,要從紛繁錯亂的數據中剔除錯誤數據、虛假數據,保證大數據系統的真實客觀性。這樣,不僅可以降低據處理的難度,同時便于得出正確的應對策略,讓大數據更好地為人服務。

3 機器學習在大數據背景下的必要性

機器學習是當下處理大數據的重要途徑,它可以將多種優勢凝聚起來,面對實際問題選擇最為合適的解決途徑。例如,在2017年AlphaGo對弈柯潔圍棋比賽中,以3比0的比分贏得了比賽,它正是機器學習的重要標志。機器學習克服人為因素的局限性,通過神經網絡、決策樹、深度學習,對數據進行科學有效地處理,全面提高數據的運算效率。當下,信息網絡、商業活動、調查統計都會產生海量數據,這些數據以超出傳統的處理手段,迫切需要機器學習進行解決。傳統機器學習面臨的問題為:首先,機器算法較為固定,讀取大數據困難突出;其次,自動學習推理能力較低,得到數據結論不夠科學;最后,機器自我學習能力不足,不能迎合大數據對機器學習的需求。因此,探究出適合大數據背景下的機器學習,對未來發展有著不可估量的社會效益。

4 機器學習算法在處理大數據的重要手段

4.1 運用分治算法對大數據進行篩選剔除

分治算法在處理大數據上具有較好的優勢,它可以被運用與分布式計算和并行運算。對大數據進行機器學習,樣本不同的數據對其影響比較顯著,不僅會徒增數據運算量,同時還會制約著學習效率,不利于更好地對數據進行分析判斷。而運用分治算法后,它對原始樣本進行預處理,將無效數據、冗余數據進行剔除,形成能夠很好表示原始樣本的數據集合。這樣,機器學習的目標更為明確,學習難度得到有效降低,有助于形成正確的判斷。在選擇代表性數據集合時,通常采用的方法為壓縮近鄰法、約減法等等。它的原理就是要找到大數據所對應的最小集合,通過一系列測試完成對子集的加工完善。此時,他們找到的集合是可以代表全體樣本的,具有較高的科學性,從而為大數據分析提供可能。運用分治算法首先要有符合要求的置信區間,在規定的區間內進行數據的篩選、剔除。例如,借助Bag ofLittle Bootstraps,它可以降低抽樣所帶來的數據錯誤,從而提高數據預處理的準確性。

4.2 引入聚類算法對大數據分布式計算

聚類算法在數據挖掘和數據處理中是最常用的方法,它在處理大型數據上有較好的應用效果。首先,聚類算法對大數據進行類型劃分,將數據分為若干個子數據節點。在這時,對各節點數據進行機器學習效率更高,更有針對性地完成數據處理。聚類算法在機器學習的具體方法可以歸納為三種。第一種,采用非迭代化數據擴展。它利用模糊集概念,對數據進行FCM均值聚類分析,快速準確地將數據分離開來;第二種為連續擴充子集合技術;第三種為抽樣估計均值算法。這三種可以有效解決大數據在時間上、空間上、處理速度、運轉效率的問題,達到對上至億萬的大數據分析。

4.3 數據并行算法優化數據處理效率

傳統的機器學習在處理大數據上捉襟見肘,主要是由于各機器學習方法沒有做到并行化處理。單一數據處理機器不能獨立完成大數據處理,而是需要聯動各個數據處理部分,將其并行化運轉,從而達到對大數據的整體處理。它的思想就是將大數據“碎片化”,分成機器可以單純處理的數據模塊,最終通過綜合各個數據來達到對整體的把握。比如,在圖像處理平臺上,它正是利用并行算法,大大降低各數據處理的壓力,有效提升數據的運算能力。并行算法需要與聚類算法、分治算法進行有機統一,將三者算法融合在一起,讓大數據處理變得更為簡潔、輕松,同時也較好地保證機器學習的準確性。

5 結語

大數據作為當下的熱門,需要有一套科學合理的機器學習算法來滿足社會需求,讓數據處理變得更具效率。針對大數據的各個特點,通過運用分布式計算、聚類算法、分治算法,讓數據變得更具條理,數據處理分析難度得到有效降低,大大提高機器學習的能力。因此,要想在大數據有所突破,就需要對傳統機器學習算法進行優化升級,讓其在大數據時代迸發出強勁活力。

[1]吳睿智,馬致遠,羅光春,劉貴松,秦科.大數據融合、分析與價值[J].信息通信技術,2016(06):123-130.

[2] Yang Y M,Wang X N,Yuan X F.Bidirectional Extreme Learning Machine for Regression Problem and Its Learning Effectiveness.IEEE Trans on Neural Networks and Learning Systems,2012,23(9):1498-1505.

猜你喜歡
數據處理效率
認知診斷缺失數據處理方法的比較:零替換、多重插補與極大似然估計法*
心理學報(2022年4期)2022-04-12 07:38:02
ILWT-EEMD數據處理的ELM滾動軸承故障診斷
水泵技術(2021年3期)2021-08-14 02:09:20
提升朗讀教學效率的幾點思考
甘肅教育(2020年14期)2020-09-11 07:57:42
注意實驗拓展,提高復習效率
效率的價值
商周刊(2017年9期)2017-08-22 02:57:49
MATLAB在化學工程與工藝實驗數據處理中的應用
跟蹤導練(一)2
Matlab在密立根油滴實驗數據處理中的應用
“錢”、“事”脫節效率低
中國衛生(2014年11期)2014-11-12 13:11:32
基于POS AV610與PPP的車輛導航數據處理
主站蜘蛛池模板: 伊人中文网| 亚洲大尺码专区影院| 日韩乱码免费一区二区三区| 国产成人一区免费观看 | 亚洲精品大秀视频| 久久久久国色AV免费观看性色| 国产偷倩视频| 久久精品人妻中文系列| 免费看美女毛片| 亚洲国产天堂在线观看| 亚洲综合天堂网| 97超级碰碰碰碰精品| 久久精品一品道久久精品| 亚洲综合第一页| 久久9966精品国产免费| 国产成人福利在线| 亚洲欧美日韩中文字幕在线| 久草中文网| 亚洲国产成人无码AV在线影院L| 国产午夜一级毛片| 国产成人一区二区| 国产精品一老牛影视频| 操国产美女| 波多野结衣AV无码久久一区| 亚洲国产综合自在线另类| 欧美国产综合视频| 久久这里只有精品2| 91区国产福利在线观看午夜 | 91精品综合| 在线观看国产网址你懂的| 又黄又湿又爽的视频| 无码高清专区| 91免费国产在线观看尤物| www.亚洲天堂| a级毛片网| 午夜啪啪福利| 毛片基地视频| 国产精品人莉莉成在线播放| 伦精品一区二区三区视频| 在线观看国产精品日本不卡网| 国产高清自拍视频| 亚洲福利一区二区三区| 制服无码网站| 国产91麻豆免费观看| 国产欧美在线观看精品一区污| 亚洲国产日韩欧美在线| 免费人成在线观看视频色| 国产午夜福利在线小视频| 国产欧美视频综合二区| 福利在线一区| 亚洲啪啪网| 国产a v无码专区亚洲av| 日韩福利在线观看| 综合色在线| 99热在线只有精品| 日本人真淫视频一区二区三区| 国产精品自在在线午夜| 波多野结衣国产精品| 思思热在线视频精品| 国产主播福利在线观看| 在线播放国产一区| 欧美人人干| 国内精品自在欧美一区| 成人日韩视频| 精品午夜国产福利观看| 国产亚洲精品自在久久不卡| 制服丝袜一区| 国产美女一级毛片| 真人高潮娇喘嗯啊在线观看| 国产精品久久久久鬼色| 欧美国产综合色视频| 久久人妻xunleige无码| 亚洲AV无码一二区三区在线播放| 国产精品网址你懂的| 日本不卡在线| 刘亦菲一区二区在线观看| 国产91成人| 日韩二区三区无| 欧美日韩另类在线| 亚洲欧美日韩综合二区三区| 欧美精品啪啪| 综合亚洲网|