趙威
摘 要 本文簡要分析了云計算的概念,論述云計算圖數據儲存的方法、分割的原理,建立相關的計算模型。
關鍵詞 云計算;大規模圖數據;處理技術
中圖分類號 TP3 文獻標識碼 A 文章編號 1674-6708(2017)196-0053-02
在計算機技術應用的環節中,圖是一類非常重要的數據,其形成了一個非常抽象的數據結構,比常規的線性語言,其在語言表達方面也更加的復雜。隨著時代的發展,科學技術水平在不斷的提升,圖數據實現了大規模的處理,相關的處理技術也應該更新換代,才能跟上時代的發展。所以,我們應該充分的了解云計算的概念,在云計算的背景下,實現大規模圖數據的處理。
1 云計算簡介
1.1 云計算的含義
云計算指的是在互聯網發展的基礎上,研發出的一類全新的計算方法,是依托了互聯網技術實現了大量數據的整合。在2007年,云計算概念首先由美國的IBM公司提出,其將云計算定義為一個具體的系統平臺和應用程序。
1.2 云計算的主要特征
1.2.1 虛擬化
用戶可以在網絡環境下采用不同的工具使用云計算的服務,及時的完成各類計算的任務。云計算服務器一般以群集的方式提供各類服務,而且其一般都是以虛擬的形式存在,并不存在實體。
1.2.2 通用性和可拓展性
云計算有大量的群集系統的支持,所以,這個平臺可以為用戶提供不同的服務,不僅僅可以為用戶特定的應用,而且也能根據客戶不同的需求,確保各類應用同時運行。云計算群集的處理方式體現了良好的伸縮性能,可以動態的展現各類功能,即使應用的規模比較大,也能實現良好的可擴展性。
1.2.3 經濟性高
云計算要結合大量的計算機任務,所以,群體的規模非常大,云計算服務可以同時針對谷歌的云計算平臺進行服務,可以為200萬臺計算機同時提供服務,也能為其他的供應商提供服務,如微軟、雅虎都能接受云計算的服務,用戶在云計算群集中可以獲得大量的資源。云計算群集服務器使用的設備的成本都比較低,而且計算機本身的容錯能力非常好,可以建立成本低廉的服務,這一點充分展現了云計算的成本優勢,而且也促進了其全面的推廣。
1.3 云計算的相關技術
1.3.1 海量分布式存儲技術
在云計算應用中,要對大量的數據進行存儲,這時離不開分布式存儲技術的應用,其可以提高數據的精確性和經濟性。借助各類新型軟件的研發,可以有效的彌補硬件能力不足的問題,云計算系統的用戶群體非常的龐大,所以,就需要大量數據的支撐,用戶對數據傳輸的速率提出了更高的要求。只有提升數據存儲的能力,才能切實的為用戶提供各類服務。
1.3.2 數據管理技術
云計算需要進行大量的數據分析,要及時的完成用戶提交的計算任務,所以,云計算在進行數據管理的環節中,應該結合大數據的技術,提高數據管理的能力,而且還應該在龐大的數據中找出用戶需要的數據,從而最大限度的滿足用戶的需求。云計算數據管理中最實用的兩個軟件分別是Bigtable和Hbase。對于云計算而言,由于哈希算法的實現簡單,基于哈希的劃分方法是最快的?;诠nA劃分的超塊劃分算法則位居第二,比拓撲最優的劃分方法快50%。
1.3.3 虛擬化技術
現在,全球范圍內的信息產業都在朝著云計算的方向發展,虛擬化技術為信息產業提供了很多的便利,人們對虛擬化戰略也更加的重視。在云計算的大背景下,虛擬化的方案可以實現系統的整合,在服務器、軟件等結合的基礎上,網絡設備的功能更加的完善,可以帶給人們虛擬化的服務。在圖初始化階段,我們主要針對slaver節點進行資源優化,此刻master節點的資源消耗很小,R=0。對于slaver節點而言,在該階段將會讀取磁盤中的圖數據并將其加載到內存中去,需要大量的memory和10資源。如果需要加載圖的大小為M,slaver節點數量為W,則一個節點需要存儲的數據規模為M/W。
1.3.4 并行編程模式
由于云計算的用戶非常多,他們會同時提交大量的數據,云計算的編程模型應該復雜的運算,并且對調度任務執行,充分的利用云計算的資源?,F在,云計算一般是運用Map Reduce的方式,這個編程的模式可以將復雜的數據簡化,為數據的編程提供可行的解決方案,并且具有成本優勢,其性能和效果都能得到保障。
2 云計算環境下大規模圖數據處理技術的
研究
圖是一類非線性的數據結構,在應用的環節呈現出多對多的結構關系,圖數據中,不同的元素中都有很多個直接前趨和直接后繼,與其他形式的數據相比,其表達的含義更加的豐富,而且被廣泛應用在各項工程中。圖數據的量非常大,所以,在進行大規模的圖數據處理的環節中,存在一些技術局限性。在相關的專家和學者的大量研究中,相關的理論如今已經非常的成熟,這為圖數據的處理提供了大量的可行的依據。但是,信息化時代在不斷的發展,圖數據的規模在不斷的提升,所以應該完善圖數據處理平臺。圖數據處理平臺的內容如表1所示。
2.1 云計算的圖數據存儲方式
在對大量的資料進行研究后發現在進行圖數據管理的環節中,一般采用單圖數據模型和超圖數據模型,這兩種模型針對有向圖和無向圖進行處理,二者的儲存方式存在差異。云計算的分布式的存儲方式可以分成文件系統和分布式數據庫。分布式數據庫可以實現不同模型的建立,模型的靈活性非常好,而且支持大量的存儲功能。
2.2 云計算的圖數據分割
在進行大規模的圖數據處理的環節中,要進行分布式的處理方式,為了完善圖數據的處理效率,各個圖之間的耦合度會降低。所以,在對圖進行分割的環節中,應該先分析圖的邏輯結構,再完成每個子系統的計算任務。在這個環節中,針對大圖的分割,應該充分結合圖的規模和均衡性,應該完善圖內部的連貫性。
2.3 云計算的圖數據計算模型
現在,在進行云計算環境中最為廣泛的模型,一般采用兩種模型,其一是Map Reduce,其二是BSP模型。
Map Reduce模型可以進行獨立的單元分析,可以同時處理多個任務,在作業執行的過程中也分成兩個不同的階段,首先是對任務進行分配,然后結合相應的數據進行計算,然后將Key值輸出,將結果的數據直接反饋到任務欄中。在第二個階段,每個任務在處理的環節中,都能收到數據的聚集處理,從而可以及時的獲取數據輸出的結果,并且將數據進行及時的保存,在分布式的文件系統中有大量的數據。
BSP模型可以執行消息通信的各項操作,其可以防止死鎖的產生,也防止了數據的計算中產生競爭的問題。
在云計算的背景下,采用大規模的圖數據的方式,主要采用上述的兩種模型,但是在進行迭代問題的處理環節中,采用BSP模型的效率更能得到保障。
2.4 云計算的圖數據查詢處理
在云計算的大背景下,在進行大規模圖數據查詢的環節中,主要采用主動的遍歷模式和被動的遍歷模式,這兩種模式都是對圖頂點進行操作。主動的遍歷模式的普適性能得到保障,在一些特定的應用中,如果沒有必要采用查詢功能,就會導致功能的浪費。被動的遍歷模式中,其不用對處理函數進行調節,而且也可以減少頂點的調用,使資源得到節約。
3 結論
在云計算的大背景下,對大規模圖數據進行處理會更加的簡單,云計算可以被廣泛的使用,其適用性可以得到保障。
參考文獻
[1]李健,黃慶佳,劉一陽,等.云計算環境下的大規模圖狀數據處理任務調度算法[J/OL].西安交通大學學報,2012,46(12):116-122.
[2]張興旺,李晨暉,秦曉珠.云計算環境下大規模數據處理的研究與初步實現[J].現代圖書情報技術,2011(4):
17-23.endprint