王莉敏 黃明 徐繼亞
摘要:隨著我國(guó)信息化進(jìn)程的不斷加深,計(jì)算機(jī)已經(jīng)在人們?nèi)粘I詈蜕鐣?huì)生產(chǎn)領(lǐng)域得到普及。隨之而來(lái)的是信息數(shù)據(jù)的飛速擴(kuò)展,以往的信息處理模式已經(jīng)無(wú)法滿足時(shí)代的需要。在這樣的背景下,云計(jì)算技術(shù)就應(yīng)運(yùn)而生了,并逐漸在信息數(shù)據(jù)處理領(lǐng)域發(fā)揮著重要的作用。本文對(duì)云計(jì)算和大數(shù)據(jù)處理之間的關(guān)系進(jìn)行分析研究,并簡(jiǎn)要介紹云計(jì)算背景下大數(shù)據(jù)處理的技術(shù)要點(diǎn),希望為信息處理技術(shù)的發(fā)展提供參考。
關(guān)鍵詞:信息化時(shí)代;云計(jì)算;大數(shù)據(jù)處理技術(shù)
引言
隨著計(jì)算機(jī)技術(shù)和各行各業(yè)的結(jié)合,以及電子設(shè)備的普及,信息數(shù)據(jù)成為了核心生產(chǎn)力,也成為了人們?nèi)粘I畹谋匦杵罚粌H改變著生產(chǎn)方式,更深刻地變革著人們的生活方式。信息數(shù)據(jù)處理的社會(huì)需求也促進(jìn)了技術(shù)的不斷發(fā)展。面對(duì)海量的數(shù)據(jù)信息,社會(huì)急需一種全面的、智能的先進(jìn)技術(shù)來(lái)幫助人們進(jìn)行數(shù)據(jù)分析,使得人們不至于在信息世界里迷失自我,同時(shí)也幫助生產(chǎn)部門(mén)更加高效地使用信息技術(shù)來(lái)提高生產(chǎn)力。因此對(duì)于云計(jì)算背景下大數(shù)據(jù)處理技術(shù)的研究意義非常重大。
1云計(jì)算與大數(shù)據(jù)之間的關(guān)系
云計(jì)算是一種網(wǎng)絡(luò)技術(shù),是利用網(wǎng)絡(luò)云把龐大的信息分析系統(tǒng)分解為眾多的小程序,再構(gòu)建數(shù)量非常多的服務(wù)器對(duì)這些小程序進(jìn)行分別處理計(jì)算,并將最終結(jié)構(gòu)反饋給用戶。相比于以往的網(wǎng)格計(jì)算、效用計(jì)算和自主計(jì)算,云計(jì)算具有明顯的優(yōu)勢(shì),例如處理信息量龐大、精準(zhǔn)度高、成本低、穩(wěn)定性強(qiáng)等等,這些都是其它信息處理技術(shù)無(wú)法比擬的。因此云計(jì)算一經(jīng)誕生,就得到了計(jì)算機(jī)領(lǐng)域的青睞,并逐漸成為互聯(lián)網(wǎng)行業(yè)的核心技術(shù)。此外,有很多現(xiàn)代數(shù)據(jù)存儲(chǔ)技術(shù)、虛擬化技術(shù)都是從云計(jì)算拓展而來(lái),由此可見(jiàn)云計(jì)算技術(shù)的強(qiáng)大以及在信息處理領(lǐng)域的重要地位。數(shù)據(jù)的運(yùn)行需要大量的存儲(chǔ)空間,傳統(tǒng)的存儲(chǔ)設(shè)備已經(jīng)無(wú)法滿足日益增長(zhǎng)的信息量,而此時(shí)云計(jì)算就提供了這樣的空間。如此一來(lái),數(shù)據(jù)處理的速度和效率都得以提升[1]。通過(guò)以上內(nèi)容不難看出,云計(jì)算和大數(shù)據(jù)是主體和客體的關(guān)系,云計(jì)算的內(nèi)容就是龐大的信息數(shù)據(jù)。大數(shù)據(jù)指的是龐大信息量的總體,而云計(jì)算則負(fù)責(zé)對(duì)其進(jìn)行分析處理,兩者構(gòu)成了信息處理系統(tǒng)的主題,相輔相成,缺一不可。
2云計(jì)算背景下的大數(shù)據(jù)處理技術(shù)分析
2.1Hadoop與OpenStack技術(shù)
Hadoop是一種分布式系統(tǒng)基礎(chǔ)架構(gòu),可以通過(guò)集群的作用來(lái)完成快速分析和存儲(chǔ),被廣泛應(yīng)用于數(shù)據(jù)處理程序中。該框架的核心工具是HDFS與MapReduce,前者為數(shù)據(jù)提供存儲(chǔ)空間,后者則對(duì)數(shù)據(jù)進(jìn)行分析處理。該架構(gòu)能夠?qū)嫶蟮臄?shù)據(jù)進(jìn)行分布式處理,并具有以下幾點(diǎn)顯著優(yōu)點(diǎn):第一,準(zhǔn)確度高,Hadoop的存儲(chǔ)和分析功能具有高于其它技術(shù)的精準(zhǔn)度。第二,效率高,Hadoop在轉(zhuǎn)移信息的過(guò)程中能夠保障不同節(jié)點(diǎn)的動(dòng)態(tài)平衡,分析數(shù)據(jù)的效率要高很多。第三,成本低,相比于市面上的其它數(shù)據(jù)處理技術(shù),Hadoop是開(kāi)源的,因此成本也會(huì)大大降低[2]。
OpenStack是由眾多軟件開(kāi)源項(xiàng)目組合而成的數(shù)據(jù)處理平臺(tái),由美國(guó)國(guó)家航空航天局與Rackspace共同開(kāi)發(fā)。該技術(shù)可以為云計(jì)算提供一個(gè)優(yōu)良的平臺(tái),具有操作便捷、內(nèi)容豐富、標(biāo)準(zhǔn)一致等特點(diǎn)。因此,將Hadoop架構(gòu)和OpenStack科學(xué)合理地整合在一起,就可以實(shí)現(xiàn)大數(shù)據(jù)的高效、精準(zhǔn)分析和處理。
2.2大數(shù)據(jù)采集技術(shù)
數(shù)據(jù)采集,又稱(chēng)為數(shù)據(jù)獲取,是通過(guò)傳感器獲取電量信號(hào)并傳輸給上位機(jī)的過(guò)程。隨著大數(shù)據(jù)的出現(xiàn),傳統(tǒng)的數(shù)據(jù)獲取已經(jīng)無(wú)法滿足信息處理的需要了,這時(shí)候就要使用到更先進(jìn)的手段,目前有集中式采集與分布式采集兩種主要類(lèi)型。前者主要應(yīng)用于全局概念,從全局角度來(lái)獲取信息;后者則針對(duì)區(qū)域采集,將大數(shù)據(jù)劃分為眾多的小分區(qū)再進(jìn)行數(shù)據(jù)獲取。大數(shù)據(jù)采集有一個(gè)重要的優(yōu)點(diǎn),就是對(duì)使用者的要求大大降低,即使是不具備專(zhuān)業(yè)技能的使用者也可以輕松操作[3]。除此之外,云計(jì)算具有虛擬化的特征,因此費(fèi)用會(huì)大大降低,處理速度更加迅捷,這使得人們對(duì)于信息獲取的消極反應(yīng)得以緩解,人們可以更好地融入大數(shù)據(jù)時(shí)代。
2.3大數(shù)據(jù)存儲(chǔ)技術(shù)
傳統(tǒng)的數(shù)據(jù)存儲(chǔ)方式都是用單節(jié)點(diǎn)為媒介,存儲(chǔ)容量非常小,無(wú)法滿足新興的大數(shù)據(jù),雖然擁有優(yōu)秀的導(dǎo)引和查閱功能,但由于容量和速度的制約,已經(jīng)逐漸被時(shí)代所淘汰。既有數(shù)據(jù)存儲(chǔ)技術(shù)以單結(jié)點(diǎn)倉(cāng)庫(kù)為載體,容量空間較小,根本無(wú)法滿足信息時(shí)代的海量數(shù)據(jù)存儲(chǔ)承載需求,盡管其具備良好的索引與視圖能力,但受限于時(shí)間與空間限制,依舊無(wú)法滿足現(xiàn)代化社會(huì)需要。而云計(jì)算則可以彌補(bǔ)這些缺陷,通過(guò)將信息屬性進(jìn)行分門(mén)別類(lèi),實(shí)現(xiàn)高效的存儲(chǔ)和分析。這也給予使用者極大的便利,通過(guò)屬性對(duì)信息進(jìn)行查詢,提高了數(shù)據(jù)的利用效率。
2.4大數(shù)據(jù)聯(lián)機(jī)分析技術(shù)
隨著信息時(shí)代的到來(lái),自動(dòng)化、智能化逐漸成為各行各業(yè)發(fā)展的大勢(shì)所趨。而這一目標(biāo)的實(shí)現(xiàn)就有賴于大數(shù)據(jù)聯(lián)機(jī)分析技術(shù)的應(yīng)用。該技術(shù)是云計(jì)算技術(shù)的核心環(huán)節(jié),有著舉足輕重的重要地位。聯(lián)機(jī)分析處理技術(shù)可以準(zhǔn)確處理龐大的信息,還可以在必要的時(shí)候進(jìn)行決策,給予使用者以極大的便利。該技術(shù)注重全面的整體性計(jì)算,通過(guò)多維度的分析程序,得到大數(shù)據(jù)處理結(jié)果,不僅可以提高數(shù)據(jù)分析的精準(zhǔn)度,還拓展了處理對(duì)象,提高了數(shù)據(jù)分析系統(tǒng)的兼容性[4]。這樣的優(yōu)勢(shì)使得聯(lián)機(jī)分析處理技術(shù),廣泛地應(yīng)用生產(chǎn)和生活領(lǐng)域,在為人們?nèi)粘I顜?lái)便利的同時(shí),也極大地改善著產(chǎn)品的性能。
2.5大數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘技術(shù)是一項(xiàng)數(shù)據(jù)處理手段,致力于從大量不完整的點(diǎn)狀分布信息中,提取并還原出使用者無(wú)法察覺(jué)的關(guān)鍵數(shù)據(jù)。它通常分為八個(gè)主要環(huán)節(jié):信息獲取、信息整合、信息規(guī)范、信息清除、信息轉(zhuǎn)換、信息挖掘環(huán)節(jié)、結(jié)果評(píng)測(cè)、信息反饋。該過(guò)程是不斷循環(huán)的體系,每一個(gè)環(huán)節(jié)沒(méi)有達(dá)到目標(biāo)都會(huì)返回到前面的程序中繼續(xù)執(zhí)行命令。在大數(shù)據(jù)時(shí)代,數(shù)據(jù)挖掘技術(shù)的應(yīng)用可以幫助人們從錯(cuò)綜復(fù)雜、毫無(wú)頭緒的海量信息中提取出關(guān)鍵內(nèi)容,因此深受人們的青睞。該技術(shù)分為四個(gè)層面的工作環(huán)節(jié):第一,確定分析對(duì)象,即海量的復(fù)雜信息;第二,明確挖掘目標(biāo),第三,選擇科學(xué)合理的挖掘方式,第四,應(yīng)用挖掘方法。其中,大數(shù)據(jù)挖掘技術(shù)主要有以下幾種方法:神經(jīng)網(wǎng)絡(luò)模型、基于自然選擇原理的遺傳算法、決策樹(shù)算法、數(shù)學(xué)工具粗集方法、覆蓋正例排斥反例方法、統(tǒng)計(jì)分析方法、模糊集方法、挖掘?qū)ο螅@些方法的應(yīng)用使得海量數(shù)據(jù)中的有效信息得到充分挖掘,進(jìn)一步保障了大數(shù)據(jù)處理分析技術(shù)的應(yīng)用效果[5]。
2.6大數(shù)據(jù)可視化分析
具備大數(shù)據(jù)挖掘技術(shù)以后,就可以從全方位、多層次去準(zhǔn)確處理海量信息,收集有效信息。而可視化技術(shù)則是將有效信息反饋給使用者的關(guān)鍵環(huán)節(jié)。可視化,顧名思義,就是將抽象復(fù)雜的數(shù)據(jù)轉(zhuǎn)化為直觀地、形象的的內(nèi)容并呈現(xiàn)給查閱者,使其更加方便快捷地掌握信息特征。在這個(gè)過(guò)程中,還會(huì)一定程度地挖掘出隱藏?cái)?shù)據(jù)。
結(jié)語(yǔ)
綜上所述,云計(jì)算和大數(shù)據(jù)處理技術(shù)是相輔相成、不可或缺的關(guān)系。在云計(jì)算的背景下,大數(shù)據(jù)處理更加注重高效性和準(zhǔn)確性,為信息化進(jìn)程的推進(jìn)提供了巨大的動(dòng)力,也為人們適應(yīng)信息時(shí)代帶來(lái)了極大的幫助。本文對(duì)云計(jì)算背景下,大數(shù)據(jù)處理相關(guān)技術(shù)做了簡(jiǎn)要說(shuō)明,希望可以為大眾提供科普,也為工作者提供參考。本文的研究尚不夠深入,若假以時(shí)日,筆者一定會(huì)繼續(xù)努力,爭(zhēng)取為信息業(yè)的發(fā)展,更為國(guó)家的建設(shè)貢獻(xiàn)一份力量。
參考文獻(xiàn)
[1]佟浩.淺談云計(jì)算技術(shù)在計(jì)算機(jī)數(shù)據(jù)處理中的應(yīng)用[J].科學(xué)與信息化,2020,(13):39.
[2]田密.云計(jì)算背景下的大數(shù)據(jù)處理技術(shù)研究[J].電子元器件與信息技術(shù),2017,1(1):24-26.
[3]劉洋.基于計(jì)算機(jī)的大數(shù)據(jù)和云計(jì)算技術(shù)分析[J].無(wú)線互聯(lián)科技,2020,17(7):75-77.
[4]張佳,周雪.基于云計(jì)算的大數(shù)據(jù)處理技術(shù)探討[J].電腦編程技巧與維護(hù),2019,(12):104-105,120.
[5]張海波.云計(jì)算下的大數(shù)據(jù)處理技術(shù)研究[J].企業(yè)科技與發(fā)展,2018(12):50-51.