王永銀
摘要:現階段,隨著社會的發展,科學技術也有了很大的發展。當今時代,互聯網網絡的深化發展、移動通訊設備的普及以及計算機設備的更新換代,種種科學技術極大的便利了人們的生活,給人們的生活、出行、娛樂帶來了不一樣的體驗,這些都是互聯時代“大數據”的功勞。通過大數據的分析和使用,人們可以在眾多紛繁復雜的信息中找到最需要、最準確的數據,節省了大量的時間。但是隨著人們社會生活的逐漸豐富,信息增長的速度也越來越快,信息總量越來越大,因此有必要加強云計算的大數據處理技術的研究才能不斷滿足新的時代需求。
關鍵詞:基于云計算:大數據處理;關鍵技術
引言
云計算是一種基于互聯網的新型計算方式。在這種計算方式下計算機按照不同需求通過云平臺實現信息資源共享。這些共享資源有很多種,如應用程序,服務器、存儲器等。在云計算環境下不需要管理員的干預就可便捷地釋放或配置共享資源。而大數據是指規模龐大的數據總和,現有數據處理存儲技術已無法快捷地對海量數據進行管理,更無法從中整理出具有價值的信息。
1 云計算概述
最早提出云計算這一概念的是谷歌公司的首席執行官,它是一種全新的計算模式,可為用戶提供付費服務。云計算的典型服務方式有三種,軟件即服務( SaaS)、平臺即服務(PaaS)以及基礎架構即服務( IssS),這三種服務方式也可以說是云計算所具備的主要功能,在諸多領域中得到了應用實施。用戶可對較高層次的云服務進行直接調用,也可對封裝在較低層次中的服務資源進行調用,據此構建定制云服務。如,用戶可從軟件即服務( SaaS)的提供商處,對已有的云服務進行調用,或是使用平臺即服務( PaaS)對應用進行開發。云計算是以云平臺作為依托,按照用戶所需的計算資源為他們提供相應的服務,美國國家標準與技術研究院( NIST)依據部署模式,對云計算平臺進行具體分類,即公有云、私有云和混合云。不同類型的云計算平臺有著自己的特點,如公有云的提供商,可借助互聯網為用戶提供云服務,而用戶在對公有云中的資源進行使用時,則需要支付一定的費用;私有云是一種特定的云計算解決方案,針對的群體為一些特定的企業或是用戶,以定制的方式為他們提供云計算服務。通常情況下,用戶可以自行搭建私有云;混合云實質上就是公有云和私有云的一種延伸,它的存在主要是為了滿足企業的某些業務需求。
2 大數據的安全隱私問題
2.1 基于保護數據隱私的安全計算方案
當前云服務提供商在數據計算安全性和數據隱私性方面的保護措施非常有限。本章中提到的基于隱式機制的數據存儲方案中是基于代數中的多項式以及矩陣理論,不涉及數據加密,避免了管理密鑰等復雜的數據處理過程。但是,如果存儲用戶數據的云服務器合謀就會導致用戶數據泄露,威脅到用戶數據的安全隱私。和顯式的同態加密機制相比,隱式機制無需密鑰管理,但是也解決不了云服務器合謀導致數據泄漏的問題。為此,文本提出了一種基于多個云服務器的數據存儲計算方案,經過加密的用戶數據被分別存儲在多個云服務器中,然后再統一通過一個云服務器進行數據計算,最終得到加密的數據,數據被使用之前需要使用者先解密數據。這種數據存儲計算方案可以顯著降低數據存儲計算成本,同時云計算技術的應用能夠顯著提升數據的計算處理效率,有效提高用戶數據的安全性。此方案的主要優勢在于不但能保護數據計算結果的安全隱私,還能保證計算條目內容,計算條目數的安全隱私,同時確保計算結果的準確性。
2.2 數據存儲技術
信息數據在進行存儲時的可靠性、安全性以及讀寫時的效率是云計算技術的基礎,利用云計算技術在存儲時,往往采用分布式存儲,將大量的數據進行匯總并儲存到集群服務器中。這種存儲技術往往會對數據進行備份儲存,利用先進的數據加密技術配合冗余存儲能夠確保數據的可靠性、安全性。以HDFS為例:HDFS是一種分布式文件存儲系統,被廣泛應用在通用硬件中。這一系統具備較高的容錯功能,能夠在廉價設備上實現應用,并且其對數據訪問的吞吐量也很大,適合應用在大數據集的處理上。HDFS系統可以進一步的實現文件系統中的數據流式讀取,在大數據處理中,HDFS常被設計成能夠實現平臺間便于遷移的系統,這就令大數據集的應用更便捷。
2.3 數據管理技術
對于大數據而言,存儲是基礎性工作也是先決條件,但是存儲之后對于大數據的另外一個重要工作便是管理,這里的管理分為兩個主要部分,第一個是大數據的內容管理,另外一個是大數據的存儲管理。針對內容管理,重點是在于數據內容的完整性和真實性上,要確保大數據是真實的、可靠地,而且是完整的,如此針對大數據的分析才是有價值和有意義的;對于大數據的存儲而言,要采用科學的、更容易被計算機系統識別的存儲方式和分布方式,以此提升計算機系統軟硬件對于大數據內容的識別,提高信息資源的使用效率和利用效率。
2.4 軟硬件環境的搭建
本文所提出的算法需要通過搭建軟硬件環境來實現。借助云計算開發環境中的hadoop,這是一個開源分布式框架,并采用分布式編程模型MapReduce。在搭建前,需要先行安裝Linux系統準備好計算機集群,分別在每臺虛擬機上加裝vim和ssh。隨后對主機名及網絡配置進行修改,主要包括子網掩碼和DNS服務器;對每臺計算機上的etc/hosts/文件進行修改,經過修改之后,配置ssh,由此便可實現無需密碼登錄。為對本文提出的分布式密度峰值聚類算法的有效性進行驗證,可通過大規模高維數據性能測試,由測試結果可知,該算法所產生出來的數據點副本個數具有增長緩慢的特點,副本的數量會逐漸變少,由此使得數據點之間距離計算次數隨之減少,大幅度縮短了程序的執行時間。
結語
總而言之,加強大數據處理技術方面的研究是現如今互聯網技術飛速發展下的必然要求,也是人類社會的前進方向,此外應該進一步從數據存儲技術、數據管理技術和數據分析技術三個方面進行鞏固和提升,基于云計算技術做好大數據處理技術的基礎性研究工作,實現數據處理技術效率的提升,為開啟信息數據處理的智能化時代提供技術支撐。但由于本人時間以及自身工作經驗有限,并未能針對計算機大數據處理技術展開更為深入的研究,因此仍需要更多計算機信息領域的專業人士進行深入研究和挖掘,本文僅做拋磚引玉之用。
參考文獻
[1]孫海軍.基于云計算的大數據處理技術[J]信息安全與技術,2014(11):61-63.
[2]龔旭.基于云計算的大數據處理技術探討[J]電子技術與軟件工程,2015(10):198-198.