周 瑩
(遼寧行政學院,遼寧沈陽,110161)
基于云計算的海量網絡流量數據分析處理研究
周 瑩
(遼寧行政學院,遼寧沈陽,110161)
隨著互聯網技術的迅速發展,在我們的生活中網絡已經成為我們不可以缺少的重要的組成部分。網絡流量監控技術是對網絡中海量的流量數據進行分析的重要工具和技術?;谠朴嬎愕木W絡流量監控技術可以對網絡流量數據和用戶的特征進行更好的分析,可以對用戶的上網行為進行深入的挖掘,更好的為用戶推薦喜歡的網絡內容。本文結合互聯網的發展現狀對海量網絡流量數據分析技術進行了分析,在基于云計算的基礎上提出了海量網絡流量數據分析的幾個關鍵性技術,對基于云計算的海量網絡流量數據分析技術進行了分析和研究。
云計算;數據分析;流量監控技術;互聯網
我國互聯網應用范圍及用戶數量增長越來越快,互聯網的發展需要網絡基礎資源作為支持的基礎。移動智能終端技術的發展,用戶對移動網絡的需求越來越多。我國為了更好的滿足網絡用戶對互聯網的需求,不斷的進行互聯網設施的建設和完善。應用云計算技術對海量的網絡流量數據進行分析,更好的了解互聯網用戶的上網行為和特點,有利于互聯網技術的可持續發展。網站是用戶使用互聯網的主要應用,對用戶網站數據分析處理,分析用戶的上網行為,是基于云計算的海量網絡流量數據分析的主要部分。
Hadoop是在海量數據中進行分布式計算處理的一種軟件框架,Hadoop軟件框架是開源的。Hadoop框架的可擴展性非常強,并且支持PB等級的數據量。正是因為Hadoop技術具有可擴展并且具有開源的特點,基于Hadoop的云計算技術才可以在很多領域中得到具體的應用。隨著云服務的出現,阿里巴巴和微軟等大公司都為用戶提供了云計算服務,云服務現在成為了諸多科技應用領域中的一項新的技術。Hadoop技術中的MapReduce是程序處理的框架,可以對大規模集群的海量數據進行并行計算處理。Hadoop技術中的Hadoop Common主要功能是提供支持作用的,為Hadoop的整個框架進行服務。Hadoop技術中的HDFS是一種分布式的系統,可靠性高,而且具有強大的吞吐量;在HDFS上主要是實現對Hadoop框架數據的存儲,HDFS分布式文件系統數據訪問是流動模式的,超大文件也可以在HDFS分布式文件系統上進行存放,并且具有自動的容災恢復能力。在HDFS架構中主節點是NameNode,NameNode主節點的功能是完成對HDFS分布式文件系統的管理。HDFS架構中還設有備份主節點Secondary NameNode。HDFS架構中的對數據進行存儲的節點是DataNode,DataNode節點主要是對數據進行保存的,當然這些數據都是存放在HDFS文件系統里面的。
2.1 互聯網海量流量數據分析關鍵技術研究
互聯網流量數據分析是在海量的數據中挖掘出用戶行為特征,海量流量的原始數據是在互聯網中直接得到的數據,原始數據量比較大而且存在冗余的特點,所以我們在對原始數據進行分析處理之前要對海量的原始數據進行預處理,通過數據的預處理把原始數據的冗余數據消除,并對數據進行過濾和篩選然后對數據進行歸一化處理等。流量數據分析技術是數據挖掘技術和分布式計算等領域技術知識的結合,根據數據的實際內容對數據進行分析并且設計出數據挖掘方法。傳統的算法很難滿足海量數據分析的需求,我們要把云計算中的Hadoop技術引入進來。Hadoop技術和數據挖掘技術實現了對數據進行高效的分析處理,基于云計算Hadoop技術的數據分析系統可以實現互聯網海量流量數據分析處理。聚類算法可以把對象間的共同相似的特性描述出來,并且把具有共同特點的對象結合成簇,實現簇內各個對象之間的距離最小,簇與簇之間的對象的距離最大化的結果。如果在數據分析中對象的類別不清楚的情況,那么我們就可以采用聚類分析的算法進行計算,從對象集中把具有相似特性的對象通過數據挖掘技術都找出來。分類算法可以通過學習分類數據來獲得分類模型,分類算法可以優化分類模型中的數據參數,我們對數據進行分類的時候就可以采用優化過的比較優良的分類模型。當數據分析過程中對類別有準確的規則定義的情況下,我們采用分類算法對數據進行分析,按照分類模型對數據集中的對象進行分類分析和處理。
2.2 基于Hadoop云計算技術移動互聯網網站數據分類系統架構研究
基于Hadoop云計算的海量互聯網網站流量數據分類系統架構圖如圖1所示,系統架構包括六層,第一層是數據導入層,把系統外界的原始數據導入進系統內部的HDFS文件系統中進行存儲;第二層是文件存儲層,把海量的網絡流量的記錄進行分塊處理,然后存儲在HDFS中;第三層是數據存儲層,完成對海量數據的管理和存儲;第四層是模型編輯層,作為系統的核心部分,完成數據分析和數據挖掘的關鍵算法;第五層是數據分析層,系統的數據分析工作人員通過這一層完成數據分析,挖掘用戶特征數據等;第六層是系統管理層,實現對整個系統的監管。系統每個層之間相互協作,構成基于Hadoop云計算的移動互聯網網站分類系統。
通過云計算技術對網絡中海量的流量數據進行分析處理,對網絡用戶的行為特征進行分析,了解網絡用戶上網行為,實現了對網絡的優化?;谠朴嬎愕暮A烤W絡流量數據分析處理研究具有一定的研究價值。

圖1 系統架構圖
[1]趙衛中,馬慧芳,傅燕翔,史忠植. 基于云計算平臺Hadoop的并行k-means聚類算法設計研究[J].計算機科學.2011(10).
[2]劉小俊,徐正全,潘少明. 一種結合RDBMS和Hadoop的海量小文件存儲方法[J]. 武漢大學學報(信息科學版).2013(01).
[3]李志鵬,虞鴻,劉允才,劉富強. 一種改進的用于城市主干道行駛時間短時預測的自適應指數平滑(IAES)模型(英文)[J].自動化學報. 2008(11).
[4]孫彥良.面向下一代無線通信系統的多天線信道建模和仿真技術研究[D].北京郵電大學 2015.
[5]陶彩霞,謝曉軍,陳康,郭利榮,劉春. 基于云計算的移動互聯網大數據用戶行為分析引擎設計[J]. 電信科學.2013(03).
全面助力萬物互連時代的IC設計創新——R&S公司將參展第15屆中國國際半導體博覽會暨高峰論壇 (IC China 2017)
中國國際半導體博覽會暨高峰論壇(ICChina)將于2017年10月25-27號在上海新國際博覽中心盛大舉行,經過15年的發展,已成為國內外具有一定影響力的半導體業界盛會?!癐CChina”為從事集成電路設計、芯片加工、封裝測試、半導體專用設備、半導體專用材料、半導體分立器件的海內外廠商,企事業單位搭建了一個展示最新成果,打造產品品牌的平臺。聚焦產業政策解讀,涵蓋“體制創新、模式創新、技術創新”等內容的高峰論壇和專題研討會,在業界有著極佳的口碑和知名度。
市場推動產業發展,應用引領技術創新,“IC China2017”繼續力邀國內外優秀半導體企業參展、參會;精心組織物聯網、智慧城市、智能家居、便攜終端、汽車電子、LED、健康醫療等IC應用展示,共同推進“系統應用-半導體-專用設備、材料”全產業鏈的發展。
羅德與施瓦茨公司(Rohde & Schwarz,R&S)作為全球電子和無線移動通信測試設備廠商之一,將在IC China上展示其領先的針對IoT和通用IC設計與測試的產品和解決方案,包括IoT芯片測試技術,射頻微波芯片測試技術,收發機芯片測試技術,收發機芯片產線測試方案,先進相位噪聲測試技術,調制解調器測試技術,先進時域測試技術等方案。同時,針對頻域,時域和信號域的測試,R&S公司帶來了7款產品用于現場的演示和交流:
CMW500 無線通信測試儀
ZNB20 矢量網絡分析儀
SMW200A 矢量信號發生器
SMA100B 模擬信號發生器
FSW 信號與頻譜分析儀
FSWP 相位噪聲分析儀
RTO 數字示波器
通過參觀和交流,來賓將體驗到R&S公司的一流產品、服務以及先進理念,領略R&S公司打造的全方位的IC測試方案平臺,特別包含可以加速IC設計的獨有方案,期待與您分享,敬請您的光臨。
Research and analysis of massive network traffic data processing based on Cloud Computing
Zhou Ying
(Liaoning Academy of Governance,Shenyang Liaoning, 110161)
With the rapid development of Internet technology, in our life, the Internet has become an important part of what we can not afford Network traffic monitoring technology is an important tool and technology for analyzing large amount of traffic data in the network Better analysis of the features of network traffic monitoring technology of cloud computing to data traffic network and based on the user’s online behavior of users can conduct in-depth mining, better recommendation for users love web content Analysis technology has carried on the analysis to the current development of the Internet network traffic data in this paper, based on the cloud computing on several key technical analysis data of network traffic is proposed for cloud computing massive traffic data analysis based on network technology is analyzed and studied
cloud computing; data analysis; traffic monitoring technology; Internet