李薇
摘要:大數(shù)據(jù)是信息化時代的產(chǎn)物,因此其發(fā)展離不開云計算的大力支持。大數(shù)據(jù)的特征顯著,包括數(shù)據(jù)處理效率高、數(shù)據(jù)類型多樣化等。本文主要以大數(shù)據(jù)特征和應用作為出發(fā)點,分析了大數(shù)據(jù)與云計算的關系,并在此基礎之上從挖掘技術、可視化技術等方面探討了基于云計算的大數(shù)據(jù)處理技術,以期為相關行業(yè)人員提供一些參考和意見。
關鍵詞:云計算;大數(shù)據(jù);大數(shù)據(jù)處理
中圖分類號:TP274 文獻標識碼:A 文章編號:1007-9416(2017)08-0218-02
隨著社會經(jīng)濟的發(fā)展以及網(wǎng)絡技術的進步,人們獲取信息資源的渠道得以拓寬、獲取信息的方式更加靈活性。與此同時,信息種類的繁多以及信息傳播的高效性也對現(xiàn)有數(shù)據(jù)處理模式和數(shù)據(jù)處理體系提出了更高的要求。依據(jù)大數(shù)據(jù)摩爾定律,數(shù)據(jù)規(guī)模和數(shù)量將呈逐年擴大趨勢,預計2020年,世界數(shù)據(jù)量將超過35億GB。由此可見,當前社會已進入“信息大爆炸”和大數(shù)據(jù)時代。加之云技術的興起與發(fā)展,改變了傳統(tǒng)數(shù)據(jù)處理方式,促使數(shù)據(jù)處理方式向高效、智能化、信息化方向發(fā)展。如何利用云計算技術實現(xiàn)數(shù)據(jù)的高效處理,已成為當今社會各界關注的焦點問題之一。
1 大數(shù)據(jù)概述
1.1 特征
在計算機領域,大數(shù)據(jù)特征較為多樣化。具體而言,表現(xiàn)在五方面。其一,龐大性。其二,豐富性。其三,價值型。其四,高速性。其五,準確性。不同業(yè)界均認為:加強對大數(shù)據(jù)的研究,既可以提高數(shù)據(jù)的準確性,又可以促使國家經(jīng)濟的發(fā)展。與此同時,在大數(shù)據(jù)時代和云計算環(huán)境下,與一般數(shù)據(jù)容量相比,大數(shù)據(jù)容量較大。
1.2 應用
大數(shù)據(jù)的應用包括三個架構。第一,融合式架構。所謂融合式架構是指整合數(shù)據(jù)信息之后,對數(shù)據(jù)進行科學處理。這樣可以提高數(shù)據(jù)的整合效率。此種模式為用戶模式,又稱之為服務器模式。服務器主要負責方案的管理。第二,分散式架構。此種架構模式可以控制客戶端數(shù)據(jù)信息。控制模塊具有多樣性,不同控制模塊的控制對象不同,將其分布在不同客戶端中,能夠起到自我調(diào)整和控制內(nèi)部系統(tǒng)的作用。由此可見,此種架構模式的安全性較高,且具有較強的靈活性。但是也存在的一定的缺陷,即數(shù)據(jù)維護成本較高、用戶注冊時會出現(xiàn)諸多提示性問題。第三,混合式架構。此種架構模式綜合了前面兩種架構模式的優(yōu)點。無論是數(shù)據(jù)的分發(fā)還是數(shù)據(jù)的傳播,都需要依靠服務器完成。用戶要想實現(xiàn)數(shù)據(jù)的交互,則需要借助客戶端完成。
2 云計算和大數(shù)據(jù)的關系
就云計算的功能而言,其顯著功能為處理虛擬化資源。云計算與互聯(lián)網(wǎng)的有效結合,不僅能夠大大提高數(shù)據(jù)運算能力,還可以實現(xiàn)資源共享。云計算的服務器與互聯(lián)網(wǎng)各種交付模式的整合,能夠在實現(xiàn)資源優(yōu)化配置的同時降低數(shù)據(jù)運算任務量。就云計算特點而言,主要包括五方面:其一,虛擬性(最根本特點);其二,擴展性;其三,可靠性;其四,高規(guī)模性;其五,通用性。利用云計算展開數(shù)據(jù)運算,可以對數(shù)據(jù)信息進行虛擬化。相對而言,運算機的一大優(yōu)勢是可以提供數(shù)據(jù)的容錯性措施。并且,用戶可以結合自身實際要求與需求設置其規(guī)模,并展開動態(tài)性管理。在不同的行業(yè)領域,均可以通過云計算實現(xiàn)數(shù)據(jù)的計算、數(shù)據(jù)的應用。因此,用戶的應用成本降低、獲取信息的方式更加靈活。
3 大數(shù)據(jù)處理技術
3.1 Hadoop、Open Stack 技術
Hadoop屬于一種分布式架構。此種架構適用于數(shù)據(jù)容量較大的情況,依據(jù)Hadoop高吞吐量特征,能夠?qū)崿F(xiàn)對數(shù)據(jù)的及時處理,進而提高數(shù)據(jù)處理效率。另外,Hadoop可以實現(xiàn)對多個數(shù)據(jù)副本進行維護、再次布局和操作失敗的操作。就其數(shù)據(jù)處理方式而言,主要以并行方式為主。此種處理方式具有成本低、便利性大等優(yōu)勢。Open Stack屬于分布式平臺。平臺優(yōu)勢在于包含的組件較多、支持范圍廣。其中,就Open Stack平臺模塊而言,主要包括兩種,一是NOVA 模塊,二是 Swift 模塊。Hadoop與Open Stack的結合,既可以提高資源的利用率,又可以提高數(shù)據(jù)的處理效率。
3.2 存儲技術
就數(shù)據(jù)信息的特征而言,其顯著特征包括兩點。其一,分散性。其二,龐大性。在處理數(shù)據(jù)信息過程中,假設采用傳統(tǒng)的存儲技術,不僅無法滿足大數(shù)據(jù)存儲要求,還會降低數(shù)據(jù)計算效率。現(xiàn)階段,隨著社會的不斷發(fā)展,數(shù)據(jù)信息量日益增加。無論是傳統(tǒng)數(shù)據(jù)存儲技術還是數(shù)據(jù)存儲庫,都無法滿足大數(shù)據(jù)容量需求。而利用計算機展開數(shù)據(jù)存儲和計算,能夠通過列式存儲方式,實現(xiàn)對龐大的數(shù)據(jù)信息進行分割,進而將分割之后的數(shù)據(jù)進行單獨存儲。在數(shù)據(jù)投影時,云計算可以在較快時間內(nèi)找到所需數(shù)據(jù)信息,這樣既可以有效彌補傳統(tǒng)數(shù)據(jù)處理方式的不足與缺陷,又可以大大提高數(shù)據(jù)存儲和處理效率。與此同時,在列式存儲中,相鄰數(shù)據(jù)的相似性極高。這在一定程度上可以減少數(shù)據(jù)存儲空間。
3.3 挖掘技術
通常情況下,實現(xiàn)數(shù)據(jù)挖掘不僅需要對數(shù)據(jù)進行收集與清理,還需要完成數(shù)據(jù)集成操作。采用云計算下的聯(lián)機分析方式可以縱觀整個數(shù)據(jù),并站在全方位、多角度剖析數(shù)據(jù)。在此基礎之上,采用聯(lián)機分析方式能夠?qū)崟r在數(shù)據(jù)庫中挖掘內(nèi)在數(shù)據(jù),并對挖掘之后的數(shù)據(jù)進行模擬化表示。就挖掘技術的優(yōu)勢而言,包括提高數(shù)據(jù)處理效率、實現(xiàn)對數(shù)據(jù)模塊的分配布局、善于解決并行任務等。同時,挖掘技術在很多行業(yè)都是非常適用的,比如電子商務、物流等等行業(yè),通過數(shù)據(jù)挖掘技術可以提供相關業(yè)務的精確性和針對性。
3.4 可視化技術
此種技術可以凸顯數(shù)據(jù)的直觀性,并為用戶自身操作數(shù)據(jù)提供便利。所謂可視化技術是指利用圖形學或者圖像表示數(shù)據(jù),最終向用戶展現(xiàn)一種交互技術。依靠圖形化的原則,探索相對較為復雜的數(shù)據(jù),可以明顯發(fā)現(xiàn)其中的不同之處。除此之外,采用此種技術可以分析數(shù)據(jù)的表面、實現(xiàn)數(shù)據(jù)的多維度表示。當用戶在檢索數(shù)據(jù)信息過程中,可以利用可視化技術提高數(shù)據(jù)檢索效率。endprint
4 云計算下大數(shù)據(jù)廉價計算平臺
4.1 大規(guī)模廉價計算平臺
大規(guī)模計算平臺,即運用現(xiàn)代信息技術對數(shù)據(jù)進行安排,這種安排辦法一般是在臺式電腦、筆記本電腦、液晶電腦等PC機上進行平臺搭建,這個平臺具有動態(tài)、高效、便于拓展等優(yōu)勢,具有十分強大的實用性。常規(guī)辦法是把云計算和Hadoop技術同編程技術進行整合。在整合之間,便可以對大數(shù)據(jù)進行一定程度的分類,這樣分類以后,有利于對數(shù)據(jù)中各個子集的采集、安排更加明確,使得數(shù)據(jù)通過這種分類安排變得清晰明了。
大規(guī)模計算平臺是將虛擬技術運用到PC機上完成各種各樣的應用,這種應用有利于利用閑置平臺采集資源。例如對虛擬服務器Ui和Uj(i可以任意取值),可以針對單獨數(shù)據(jù)實現(xiàn)安排。要使得這一系統(tǒng)得到實現(xiàn),就需要對各種資源進行集合、整理。在這一系統(tǒng)的控制當中需要對節(jié)點資源池進行管理,這種管理分為幾個步驟進行。這其中有一個基礎,便是計算機節(jié)點的激活,它需要在PC機上對數(shù)據(jù)進行安排和分配,并對此做相應計算和資源存儲安排,緊接著,將安排好的計算流程與資源分別進行處理,這樣安排以后,才能激活計算節(jié)點。
4.2 大數(shù)據(jù)處理計算流程概述
在大規(guī)模廉價計算平臺的具體操作過程中,最為重要的板塊就是計算流程的設計,計算流程的設計關系到資源能否順利存儲。因而在此單獨作為一個項目提出。以電信的資源處理流程為例,電信每天都需要處理成千上萬資源,這些資源若沒有按照計算流程進行保存將十分混亂。因此,電信的計算流程分成了幾個步驟進行,每個步驟都有細致的數(shù)據(jù)工作流程。它具體是由:數(shù)據(jù)分析板塊、消費查詢板塊、性能監(jiān)控板塊三個板塊組成。這三個板塊每一個都具有詳細的處理過程。因此,在處理大數(shù)據(jù)時,要建立相應流程可以通過細化分配來完成。
4.3 實現(xiàn)大規(guī)模安排的步驟
要實現(xiàn)大規(guī)模數(shù)據(jù)核心數(shù)據(jù)安排,就需要對數(shù)據(jù)虛擬化的辦法實施有效安排。具體步驟為:
第一,對數(shù)據(jù)資源進行整合。在進行數(shù)據(jù)虛擬化時必須要提前利用電腦進行數(shù)據(jù)資源的安排,進行實際操作的電腦有兩種。一種是為進行資源提供的電腦,另一種是具有計算流程的電腦。這個步驟主要是對資源進行收集和保存,并對保存的資源通過確定流程進行計算。
第二,對第一步所得出的結果進一步處理,并做好下一流程安排。
第三,將第二步處理結果與相關文件結合,即在此要對該節(jié)點和資源進行一定程度的管理。
第四,要將實施操作的各個部分(程序、保存空間、網(wǎng)絡等)實施管理。管理過程中使用的相關工具要同時開始安排節(jié)點、流程,當一切就位以后方可以進行方案。
第五,一切準備就緒,計算機流程開始。
第六,激活計算、存儲資源分配的計算流程。
5 結語
大數(shù)據(jù)容量的擴大,需要借助云計算技術實現(xiàn)數(shù)據(jù)的及時處理與解決。加之云計算技術的日益成熟,可以為用戶提供更多可視化大數(shù)據(jù)應用軟件。當前,云計算作為一種全新的數(shù)據(jù)處理模式,無論是在搜集大數(shù)據(jù)方面還是在計算大數(shù)據(jù)方面,都為期提供了較大的便利。云計算與大數(shù)據(jù)的綜合,既可以有效發(fā)揮云計算的優(yōu)勢,又可以提高數(shù)據(jù)處理效率,并在一定程度上推動云計算技術的發(fā)展。
參考文獻
[1]張焰,李楊.用大數(shù)據(jù)武裝”云”:基于云計算的大數(shù)據(jù)處理技術[J].中國新通信,2015,17(04):87-88.
[2]龔旭.基于云計算的大數(shù)據(jù)處理技術探討[J].電子技術與軟件工程,2015,(10):198.
[3]李曉飛.基于云計算技術的大數(shù)據(jù)處理系統(tǒng)的研究[J].長春工程學院學報(自然科學版),2014,15(01):116-118+125.endprint