丁錦華



摘要:當前廣泛使用的被動數據快速關聯算法存在關聯準確性較低的不足,為此提出了一種基于云計算平臺的復雜網絡被動數據快速關聯算法。基于云計算平臺的引入,依托復雜網絡下的被動數據節點解析,確定被動數據快速關聯算法核心步驟,實現了基于云計算平臺的復雜網絡被動數據快速關聯算法設計。試驗數據表明,提出的快速關聯算法較常規算法,具有較高的關聯準確性以及穩定性,適合復雜網絡下被動數據的快速關聯計算。
關鍵詞:云計算平臺;復雜網絡;被動數據;關聯算法
中圖分類號:N37 文獻標識碼:A
文章編號:1009-3044(2019)30-pppp-O
目前,我國對海量數據處理方式主要有兩種,一種是多處理器的服務器進行處理,一種是采用高內存處理器的服務器進行處理,但是由于技術問題,這兩種處理方式均存在著一定的問題,比如處理器有限問題等等。從計算能力到存儲能力均越來越無法有效的支撐網絡數據的“挖掘”海量數據處理分析進人到了一個“瓶頸”期,它直接導致了網絡數據的潛在利用價值實效。與此同時,Google MapReduce、Spark、Hadoop、BigTable以及GFS等一系列支持海量數據分析與儲存工具出現,有效的解決了大數據的“瓶頸”問題嘲。本文在立足我國現有數據分析的基礎之上,進一步設計了一種新型的研究算法——基于云計算平臺的復雜網絡被動數據快速關聯算法。
1基于云計算平臺的復雜網絡被動數據快速關聯算法設計
1.1云計算平臺的引入
在我國現有的云計算平臺和復雜網絡的經典算法基礎之上深入的研究,同時提出提出基于云計算平臺的復雜網絡被動數據快速關聯算法。根據算法的特點進一步選擇合適的云計算平臺,以此來設計適當的數據結構。針對不同的云計算平臺所具有的不同應用場景,在恰當的云計算平臺上進行巧妙的算法設計以此來明顯提高算法效率。
引入云計算平臺,利用云計算平臺的方式,進行復雜網絡被動數據快速關聯計算。引入云計算平臺過程首先應確定復雜網絡被動數據與云計算平臺數據的兼容性,其數據串口與云計算平平臺通信示意圖如圖1所示:
1.2復雜網絡下的被動數據節點解析
眾所周知,復雜網絡中節點重要性評價方法眾多,本文在研究該問題時主要是從網絡的拓撲結構角度進行研究的。網絡的拓撲結構主要包括網絡的全局屬性、網絡的局部屬性、隨機游走、網絡的位置等方向,合理的實現被動數據快速關聯的計算,對復雜網絡下的被動數據節點解析是十分必要的。
復雜網絡下的被動數據節點解析,考慮網絡的局部特性特征,如:頂點鄰居信息、頂點與其鄰居之間關系以及頂點自身信息等等,這些指標計算相對比較簡單,且其所需時間復雜度較低,比較適用于大型復雜網絡。對復雜網絡下的被動數據節點解析,需要依托云計算平臺下的LeaderRank算法,并以此來作為基于云計算平臺的復雜網絡被動數據快速關聯算法的基礎算法。
LeaderRank算法是在PageRank算法的基礎上進行設計。并利用Hadoop和GraphLab對LeaderRank算法進行架構。在應用云計算LeaderRank算法時,首先需要建立一個GroundNode加入到網絡中,將其與圖中其他Ve~ex建立雙向連接。為盡可能的方便,在GraphLab平臺上,Ground Node頂點的加入在圖加載的過程中進行;而在Hadoop中根據算法的輸入,我們把Ground Node的加入放在數據預處理階段。其次,對圖中的每個頂點的初始化,Ground Node初始化為0,而網絡中其他頂點初始化為1。然后根據相關數據對每個頂點進行更新操作。最后達到穩態后得到每個頂點的LeaderRank值,完成復雜網絡下的被動數據節點解析。
1.3確定被動數據快速關聯算法核心步驟
基于復雜網絡下的被動數據節點的解析,采用云計算的LeaderRank算法,構建了被動數據快速關聯算法的基本結構;利用PageRank算法建立了算法網絡;使用Hadoop和GraphLab構建了數據結構,進行復雜網絡被動數據快速關聯計算,其整個過程共分為五個階段,即Map階段、Reduce階段、迭代階段、Gather階段、Apply階段,其具體被動數據快速關聯算法核心步驟如表1所示:
2實驗論證
為保證提出的基于云計算平臺的復雜網絡被動數據快速關聯算法的有效性,進行實例分析,分析過程中,目前廣泛使用使用的粒子群被動數據快速關聯算法、閾值被動數據快速關聯算法作為實驗對比對象,進行算法的關聯準確性驗證。
2.1實驗準備
本次實驗環境為5臺普通PC組成的集群系統,Inteli3-3.30GHz、8G內存,Hadoop版本是Hadoop-0.20,GraphLab采用2.1版本。采用數據集com-Youtube、uS Football Network、com-Orkut、twitter7、Zacharys Karate Club五種數據集形式,進行對比實驗分析。
其中com-Youtube、US Football Network、com-Orkut、twit-ter7、Zacharys Karate Club數據集為實時數據集,具有統計相同性,同時因數據量不同,數據交互方式不同,為此選用了com-Youtube、US Football Network、com-Orkut、twitter7、Zacha-rys Karate Club五種數據集進行分析。
2.2實驗過程與結果分析
試驗過程中,分別載入五種數據集,利用粒子群被動數據快速關聯算法、閾值被動數據快速關聯算法,以及本文提出的基于云計算平臺的復雜網絡被動數據快速關聯算法進行關聯準確性驗證。并記錄驗證結果。
根據基于云計算平臺的復雜網絡被動數據快速關聯算法、粒子群被動數據快速關聯算法、閾值被動數據快速關聯算法,在不同試驗數據集情況下,試驗記錄數據,形成不同關聯算法驗證試驗結果對比表,如表2所示:
根據實驗結果可以得出,粒子群被動數據快速關聯算法,在USFootballNetwork、Zacharys Karate Club數據集中,具有良好的驗證關聯準確性,但在其他數據集中,其關聯準確性較低,體現出該方法的不全面性,應用閾值被動數據快速關聯算法時,其整體波動較大,準確率較低。因此,基于云計算平臺的復雜網絡被動數據快速關聯算法具有較高的關聯準確性,同時具有較高的穩定性,適合復雜網絡下被動數據的快速關聯計算。
3結束語
本文針對LeaderRank平臺設計了一個基于云計算平臺的復雜網絡被動數據快速關聯算法,給出了該算法的具體思路及其應用步驟,最后通過實驗論證了該算法的正確性和實用性,通過實驗發現,本文研究的基于云計算平臺的復雜網絡被動數據快速關聯算法既具有較高的模塊度,在處理海量網絡數據又具有很大的優勢。