999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

淺談大數(shù)據(jù)分析技術(shù)及其應(yīng)用

2020-04-24 14:50:40高聰熊杰劉彩云
電腦知識與技術(shù) 2020年5期
關(guān)鍵詞:機器學(xué)習(xí)可視化大數(shù)據(jù)

高聰 熊杰 劉彩云

摘要:該文主要介紹了大數(shù)據(jù)分析的關(guān)鍵技術(shù),以及大數(shù)據(jù)分析在行業(yè)中的應(yīng)用,以期對有關(guān)人員提供參考。

關(guān)鍵詞:大數(shù)據(jù);分布式;機器學(xué)習(xí);可視化

中圖分類號:TP311 文獻標識碼:A

文章編號:1009-3044(2020)05-0005-02

開放科學(xué)(資源服務(wù))標識碼(OSID):

近年來,大數(shù)據(jù)迅速發(fā)展已經(jīng)引起了政府、學(xué)術(shù)界和企業(yè)的高度重視,成了全世界都關(guān)注的熱點技術(shù)。大數(shù)據(jù)時代推動了各行各業(yè)的快速發(fā)展,在快速發(fā)展的過程中會形成海量的數(shù)據(jù),想要獲取數(shù)據(jù)的價值,就要對數(shù)據(jù)進行分析與計算。每當我們在日常生活中做出任何決定,都是通過思考上次發(fā)生了什么或者將要發(fā)生什么來做出決定,這只不過是分析我們的過去或未來,并以此為基礎(chǔ)做出決定。大數(shù)據(jù)分析技術(shù)就是通過對各行各業(yè)收集的數(shù)據(jù)、存儲的數(shù)據(jù),根據(jù)其行業(yè)的特性采用合適的方法進行科學(xué)的分析來做出決策。

大數(shù)據(jù)分析被定義為一個清理、轉(zhuǎn)換和建模數(shù)據(jù)的過程,以發(fā)現(xiàn)對業(yè)務(wù)決策有用的信息。數(shù)據(jù)分析的目的是從數(shù)據(jù)中提取有用的信息,并在數(shù)據(jù)分析的基礎(chǔ)上做出決策。與傳統(tǒng)數(shù)據(jù)相比大數(shù)據(jù)具有五個特征簡稱5V,即volume(數(shù)據(jù)量大).ve-locity(快速響應(yīng))、variety(種類多樣)、veracity(不易識別)、value(高價值低密度)[1]。這些特征也是大數(shù)據(jù)分析的挑戰(zhàn),為了應(yīng)對這些挑戰(zhàn),各大互聯(lián)網(wǎng)企業(yè)相繼推出了各種不同類型的大數(shù)據(jù)處理系統(tǒng),在大數(shù)據(jù)行業(yè)發(fā)展的過程中,各種大數(shù)據(jù)分析技術(shù)也得以迅速發(fā)展。本文將簡單介紹一下有代表性的大數(shù)據(jù)處理系統(tǒng)以及分析技術(shù)及其在行業(yè)中的應(yīng)用。

1 大數(shù)據(jù)處理系統(tǒng)

在這個數(shù)據(jù)爆炸的時代,產(chǎn)生的數(shù)據(jù)量在不斷地攀升,想要對海量的數(shù)據(jù)進行分析,首先要考慮的就是海量數(shù)據(jù)的存儲問題,受限于數(shù)據(jù)的讀寫速度,傳統(tǒng)的數(shù)據(jù)處理平臺很難處理各種類型的大型數(shù)據(jù)集,為了滿足人們的需要,分布式處理系統(tǒng)成了對一定量級的數(shù)據(jù)進行分析的必要條件。本節(jié)將介紹一下幾種常見的分布式處理系統(tǒng)。

1.1 Hadoop

Hadoop是一個開源的并行批量數(shù)據(jù)處理框架與分布式文件系統(tǒng),其核心架構(gòu)是分布式文件系統(tǒng)Hadoop Distributed FileSystem(HDFS)和大規(guī)模并行計算框架MapReduce,HDFS用來存儲數(shù)據(jù),MapReduce負責在各個數(shù)據(jù)節(jié)點上進行計算。HDFS是一個分布式的,高擴展的,可移植的文件系統(tǒng),通常被用來在多臺機器上存儲GB到TB級甚至PB級的海量數(shù)據(jù),并通過在多臺機器上冗余備份數(shù)據(jù)來保證其可靠性,它所具有的高容錯性、高可靠性、高可擴展性、高獲得性、高吞吐率等特征為海量數(shù)據(jù)提供了不怕故障的存儲,為超大數(shù)據(jù)集的應(yīng)用處理帶來了很多便利。HDFS的具體特點如下:(1)存儲文件量級大:HDFS適合存儲TB級別以上的文件,但是并不適合小文件的存儲;(2)分塊存儲文件:HDFS通過將完整的文件分塊存儲到不同的計算機里面來提升文件讀取的效率;(3)流式數(shù)據(jù)訪問:HDFS支持流式數(shù)據(jù)訪問,但是在和MapReduce結(jié)合時,采用的是批處理的方式;(4)布置成本低廉:HDFS可以布置在普通的計算機上,這種方式可以通過幾十臺廉價的PC機搭建一個大數(shù)據(jù)集群;(5)容錯性:HDFS具有很好的容錯性,它通過將一臺主機上的文件塊副本分配到其他的主機上,倘若某臺主機失效可以在其他的主機上通過文件塊副本迅速取回文件。

MapReduce是一種面向大規(guī)模數(shù)據(jù)的并行批處理計算模型和方法,普遍應(yīng)用于大規(guī)模數(shù)據(jù)的并行計算。MapReduce具有如下特點:(1)實現(xiàn)簡單:通過實現(xiàn)一些簡單的接口,就可以完成分布式計算程序的布置。(2)擴展性良好:可通過增加機器的數(shù)量來讓它的計算性能得到提升,隨著計算機節(jié)點數(shù)目的增長其計算性能增長近似于線性;(3)容錯性:與HDFS類似MapRe-duce具有較好的容錯性,計算集群中的某一臺機器出錯了,它會自動將計算任務(wù)轉(zhuǎn)移到其他的機器上面,保證計算正常進行。以上是MapReduce的優(yōu)點,它也有一些明顯的缺點。它并不支持實時計算,也不支持流式數(shù)據(jù)的處理,批處理的設(shè)計決定了其靜態(tài)數(shù)據(jù)源的特點,所以也不支持流式數(shù)據(jù)的處理,并且MapReduce會將它每個作業(yè)的輸出寫到磁盤里面,在進行DGA計算時會出現(xiàn)很多的詞頻10導(dǎo)致計算性能低下。

1.2 Spark

Spark是一個基于內(nèi)存計算的可擴展的開源集群計算系統(tǒng),可以用于處理不同數(shù)據(jù)結(jié)構(gòu)大規(guī)模數(shù)據(jù)的處理、計算任務(wù)。很多人拿它與Hadoop進行比較,實際上它并不提供數(shù)據(jù)存儲的方案,僅僅是Hadoop中MapReduce組件的一種替代和改進。與MapReduce相比,它的性能有很大的優(yōu)化,它將計算過程放入內(nèi)存,不需要反復(fù)讀寫硬盤,算法運行速度快。更重要的是,它比MapReduce的操作更簡單,支持的任務(wù)種類更多。計算機科學(xué)的發(fā)展是不斷地將問題進行抽象,從而讓人能夠在更高的層次解決問題。Spark也是對分布式大數(shù)據(jù)處理的一種抽象,讓工程師或者分析人員能夠不必像寫MapReduce 一樣,太關(guān)注底層的實現(xiàn)邏輯,從而在處理層次上投入更多精力。Spark在技術(shù)層面兼容存儲層,例如Hadoop中的HDFS這種分布式文件存儲或者MongoDB、Cassandra這類數(shù)據(jù)庫,Spark支持交互式計算和復(fù)雜算法。它還需要一個集群的管理器,比如YARN、Me-sos等用來管理相應(yīng)的數(shù)據(jù)處理任務(wù)。當然Spark自己也提供集群管理功能,這樣集群的每個節(jié)點都需要安裝Spark,用于進行任務(wù)的編排。

1.3 Storm

Storm是一個優(yōu)秀的分布式實時計算系統(tǒng),是最佳的流式計算框架,支持全內(nèi)存計算,Storm對于實時計算的意義類似于Hadoop對于批處理的意義。Storm有如下特點:(1)編程模型簡單,降低了使用Storm開發(fā)業(yè)務(wù)的成本;(2)流式數(shù)據(jù)處理,Storm可以用來處理持續(xù)不斷流人的數(shù)據(jù),然后將處理之后的結(jié)果寫入存儲;(3)容錯性,Storm具有很好的容錯機制,出錯時可通過自動重啟以及任務(wù)重分配來保證計算正常進行;(4)多語言編程,Storm支持多種語言編程,通過實現(xiàn)Storm通信協(xié)議就可以支持其他的編程語言;(5)消息處理快速可靠,Storm消息傳遞以及處理的速度均非常快,并且保證每條消息都至少得到一次完整的處理[1]。

2 大數(shù)據(jù)分析技術(shù)

想要發(fā)掘出大數(shù)據(jù)中蘊含的價值,不僅需要各種大數(shù)據(jù)處理系統(tǒng)的支持,還需要對大數(shù)據(jù)的內(nèi)容進行分析與計算。本節(jié)主要介紹機器學(xué)習(xí)、可視化技術(shù)在大數(shù)據(jù)分析中的作用。

2.1 機器學(xué)習(xí)

機器學(xué)習(xí)是發(fā)掘數(shù)據(jù)價值的關(guān)鍵技術(shù),其通過大量的數(shù)據(jù)來訓(xùn)練它的算法模型,然后通過模型對數(shù)據(jù)進行分析處理。傳統(tǒng)的機器學(xué)習(xí)的問題主要包括:(1)學(xué)習(xí)并模擬人類的學(xué)習(xí)過程;(2)計算機系統(tǒng)與人類用戶之間的自然語言接口的研究;(3)對不完整的信息進行推理的能力;(4)構(gòu)造可發(fā)現(xiàn)新事物的程序[2]。機器學(xué)習(xí)的核心是“通過選擇科學(xué)的算法解析相關(guān)數(shù)據(jù),然后學(xué)習(xí),進而對相關(guān)業(yè)務(wù)做出決測”,也就是說與其明確地編寫程序來完成特定任務(wù),不如教計算機開發(fā)用于完成任務(wù)的算法。機械學(xué)習(xí)主要被分為如下幾類:監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和強化學(xué)習(xí):(a)監(jiān)督學(xué)習(xí)就是人工給定大量有標記的數(shù)據(jù)讓機器分析以期達到識別數(shù)據(jù)的目的,回歸分析和統(tǒng)計分類是常見的監(jiān)督學(xué)習(xí)算法;(b)無監(jiān)督學(xué)習(xí)輸入的數(shù)據(jù)沒有標記,樣本數(shù)據(jù)的類型并不確定,通過樣本的相似性對樣本集進行聚類,通過數(shù)據(jù)集發(fā)現(xiàn)其中的規(guī)律,實現(xiàn)分析識別的目的;(c)強化學(xué)習(xí)的本質(zhì)是教會計算機自動進行決策,并且連續(xù)的做出決策,其理論框架是馬科夫決策過程(MDP)。

2.2 可視化分析

對大數(shù)據(jù)進行分析最終的目的是發(fā)現(xiàn)數(shù)據(jù)中的規(guī)律,進而幫助做出決策,大量的數(shù)據(jù)不進行可視化處理往往難以理解,可視化分析技術(shù)可以將數(shù)據(jù)以一種容易理解的方式呈現(xiàn)出來,它對抽象信息進行處理通過計算機直觀的表示,幫助用戶快速地理解信息并發(fā)現(xiàn)其中的規(guī)律做出合理的判斷。以下是數(shù)據(jù)可視化的幾種類型:(1)文本可視化:文本可視化可以較為直觀地展示出文本的優(yōu)勢以及特點;(2)網(wǎng)絡(luò)可視化:對大數(shù)據(jù)進行分析的過程中網(wǎng)絡(luò)關(guān)聯(lián)是較為常見的一種關(guān)系,依據(jù)連接拓撲和網(wǎng)絡(luò)節(jié)點之間的關(guān)系,將隱藏于網(wǎng)絡(luò)中的關(guān)系直觀的展示出來;(3)時空數(shù)據(jù)可視化,時空數(shù)據(jù)主要是指具備一定時間標簽和地理位置的數(shù)據(jù),大數(shù)據(jù)時代發(fā)展模式下,時空數(shù)據(jù)具備實時性和高維性,同時這也是數(shù)據(jù)可視化的重點;(4)多維數(shù)據(jù)可視化。多維數(shù)據(jù)可視化實際上就是說擁有很多個維度的數(shù)據(jù)變量,在數(shù)據(jù)倉庫以及數(shù)據(jù)庫中具有廣泛的應(yīng)用[3]。

3 大數(shù)據(jù)分析業(yè)務(wù)場景

3.1 推薦系統(tǒng)

推薦系統(tǒng)作為一種有效的信息過濾手段,是當前解決信息過載問題及實現(xiàn)個性化信息服務(wù)的有效方法之一[4]。目前,主流推薦系統(tǒng)可以分為4類:協(xié)同過濾推薦、基于內(nèi)容的推薦、基于知識的推薦和組合推薦。

3.2 信用風(fēng)險建模

風(fēng)險管理大數(shù)據(jù)分析將個人的外部數(shù)據(jù)與公司內(nèi)部的詐騙偵查算法相結(jié)合,能偵查出信用風(fēng)險或非法使用顧客賬戶情況,快速處理相關(guān)信息。在信用風(fēng)險建模中,可以根據(jù)實際需求采用多種不同的分析建模技術(shù)。

3.3 傳感大數(shù)據(jù)分析

在制造類企業(yè)中,傳感器、遙測器和條形碼在生產(chǎn)過程中廣泛應(yīng)用。通過對這些遙測數(shù)據(jù)進行分析,能識別出有用的使用模式,從而提高生產(chǎn)效率[5]。例如:通過條形碼,能跟蹤生產(chǎn)過程和顧客訂貨,從中挖掘出相關(guān)信息。衛(wèi)生保健公司通過對病人的一些關(guān)鍵指標進行監(jiān)控和測量,能減少訪問,提高病人健康水平。與外部社交數(shù)據(jù)不同,來自傳感器的大數(shù)據(jù)公司可直接管理。

4 小結(jié)

大數(shù)據(jù)具有眾多特性,導(dǎo)致傳統(tǒng)的處理方式無法對其進行分析,本文主要介紹了幾個有代表性大數(shù)據(jù)處理系統(tǒng),介紹了機器學(xué)習(xí)、可視化分析等大數(shù)據(jù)分析技術(shù),并對大數(shù)據(jù)在幾個行業(yè)中的應(yīng)用進行了簡單的介紹。

參考文獻:

[1]程學(xué)旗,靳小龍,王元卓,等,大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J].軟件學(xué)報,2014,25(9):1889-1908.

[2]何清,李寧,羅文娟,等,大數(shù)據(jù)下的機器學(xué)習(xí)算法綜述[J].模式識別與人工智能,2014,27(4):327-336.

[3]路晶,大數(shù)據(jù)可視分析研究綜述[J].科技展望,2015,25(16):20.

[4]沈榮,張保文.大數(shù)據(jù)分析和大數(shù)據(jù)處理技術(shù)研究綜述[J].電腦知識與技術(shù),2019,15(11):13-16.

[5]武永成.基于云計算的大數(shù)據(jù)處理與分析綜述[J].軟件導(dǎo)刊,2016,15(12):161-163.

【通聯(lián)編輯:光文玲】

收稿日期:2019 -11-10

基金項目:本研究受湖北省教育廳科學(xué)技術(shù)項目(B2016034);湖北省教研項目(2017294);湖北省高校實驗室工作研究會項目(HB-SY2017-04)聯(lián)合資助

作者簡介:高聰(1996-),男,湖北黃岡人,長江大學(xué)碩士研究生,主要研究方向為大數(shù)據(jù)、云計算、人工智能等;通訊作者:熊杰(1975—),男,博士、副教授、研究生導(dǎo)師,主要研究方向為人工智能、計算機應(yīng)用等方面的教學(xué)和研究工作。

猜你喜歡
機器學(xué)習(xí)可視化大數(shù)據(jù)
基于CiteSpace的足三里穴研究可視化分析
基于Power BI的油田注水運行動態(tài)分析與可視化展示
云南化工(2021年8期)2021-12-21 06:37:54
基于CGAL和OpenGL的海底地形三維可視化
“融評”:黨媒評論的可視化創(chuàng)新
傳媒評論(2019年4期)2019-07-13 05:49:14
基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
基于支持向量機的金融數(shù)據(jù)分析研究
基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
科技視界(2016年20期)2016-09-29 10:53:22
主站蜘蛛池模板: 亚洲永久色| 狠狠做深爱婷婷久久一区| 波多野结衣视频网站| 国产高清无码麻豆精品| 国产成人av一区二区三区| 在线免费看片a| 在线a视频免费观看| 日本成人一区| 超清无码一区二区三区| 亚洲免费黄色网| 国产在线八区| 精品人妻系列无码专区久久| 再看日本中文字幕在线观看| 黄色网址免费在线| 毛片最新网址| 国产精品xxx| 国产色婷婷| 在线中文字幕网| 久久精品娱乐亚洲领先| 亚洲大学生视频在线播放| 国产成人凹凸视频在线| 91成人试看福利体验区| 亚洲欧美另类中文字幕| 欧美福利在线播放| 久久99精品久久久大学生| 免费AV在线播放观看18禁强制| 青青草原偷拍视频| 亚洲国产综合自在线另类| 91亚洲免费| 五月天在线网站| 天天操精品| 香蕉网久久| 亚洲精品第一页不卡| 四虎AV麻豆| 2020精品极品国产色在线观看 | 亚洲人成影院在线观看| 东京热高清无码精品| 日韩第一页在线| 国产婬乱a一级毛片多女| 欧美综合激情| 久久99国产综合精品女同| 久久国产av麻豆| 国产97色在线| 国产微拍精品| 亚洲品质国产精品无码| 2021国产精品自产拍在线| 亚洲第一精品福利| 日本高清免费一本在线观看 | 精品国产一区91在线| 日韩欧美中文| 国产在线观看第二页| 亚洲日本中文字幕天堂网| 中文毛片无遮挡播放免费| 亚洲视频三级| 久久亚洲日本不卡一区二区| 高清视频一区| AV色爱天堂网| 久久中文字幕不卡一二区| 毛片视频网| 日韩精品久久无码中文字幕色欲| 日韩高清在线观看不卡一区二区| 毛片在线播放a| 日韩欧美国产三级| 国产成人一级| 亚洲精品成人7777在线观看| 国产麻豆永久视频| 久久99国产综合精品女同| 国产三区二区| 国产www网站| 精品无码专区亚洲| 亚洲综合精品香蕉久久网| 麻豆国产在线观看一区二区| 香蕉在线视频网站| 欧美日韩在线成人| 国产swag在线观看| 欧美成人午夜在线全部免费| 无遮挡一级毛片呦女视频| 国产午夜人做人免费视频| 91久久精品国产| 丁香婷婷久久| 91福利在线看| 日韩高清成人|