999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于云計算的WAP日志處理和用戶上網行為分析

2015-03-23 01:45:59何慶龔靜
科技資訊 2014年33期
關鍵詞:云計算

何慶++龔靜

摘 要:在移動互聯網迅猛發展的時代,電信運營商對用戶上網日志等非結構化數據的處理、分析和挖掘變得尤為重要,傳統的基于小型機和關系型數據庫的數據處理系統已經無法滿足海量非結構化數據的及時處理需求,相對傳統做法,搭建X86集群、利用云計算技術對海量非結構化數據進行處理,具有高效、低成本、易擴展等方面的巨大優勢。另外,用戶上網日志中包含著大量的個性化信息,如何充分挖掘和分析這些信息,對電信運營商在移動互聯時代實現精細化運營至關重要。該論文主要以用戶WAP日志為例,詳細闡述如何利用云計算技術處理海量的非結構化數據,進而去挖掘和分析用戶上網行為。

關鍵詞:非結構化數據 云計算 用戶上網行為

中圖分類號:TP393.08 文獻標識碼:A 文章編號:1672-3791(2014)11(c)-0011-02

隨著3G時代的來臨,電信行業競爭日趨激烈,而移動互聯業務的快速發展,也使各大電信運營商面臨新的機遇和挑戰。如何在信息大爆炸時代,對電子商務、社交網絡、物聯網、新醫療、LBS、視頻、音樂等方面產生的海量非結構化數據進行有效處理并提供高價值的分析,是業內面臨的共同難題。

據不完全統計,電信運營商接近50%的移動互聯網流量來自國內排名前10的WAP網站。從這個角度分析,雖然當前各種移動互聯業務層出不窮,種類繁多,但WAP應用仍然占據主導地位。此外,互聯網上知名門戶和垂直類網站也紛紛建立WAP版,搶占移動互聯網市場。對電信運營商而言,業務多樣化趨勢情況下,更需要很好地理解業務價值、客戶價值,促進精細化營銷;制定相應策略與控制,降低流量成本和提升流量收入,促進流量業務發展。通過云計算解決方案,對海量WAP日志進行數據處理和挖掘,低成本高效率的支撐業務應用。

1 需求分析

1.1 功能需求

(1)數據源。

用戶WAP上網日志記錄,每天處理數據量約1T,45億條記錄。

(2)WAP日志的云ETL。

提供基于HADOOP集群的數據處理平臺,通過統一調度實現并行ETL過程。

(3)網頁分類。

①從WAP日志提取URL,將URL經過網頁分類等處理,轉化為可以理解的指定的網頁標簽,并保留關鍵字;

②網頁標簽分為三級,每個網頁的關鍵詞保留5個,圖書和音樂類網頁保留圖書名和音樂名作為關鍵字;

③按照標簽進行網頁分類應具備一定的靈活性,除了一級標簽保持穩定外,二級和三級標簽均可因不同的業務分析需求而變化和重構。

(4)用戶上網行為分析。

基于客戶的訪問行為,識別其偏好特征,根據內容偏好特征進行客戶細分,并支持目標客戶群提取,以便支撐營銷活動。

1.2 性能需求

基于以上業務需求,系統能力要求至少配備6臺X86服務器,其中1臺為主節點,5臺為數據節點。具體配置如下。

(1)服務器型號是IBM 3650m3;

(2)CPU為雙路六核,Intel X5650處理器,2.66GHz主頻;

(3)內存是48GB;

(4)存儲是6*1TB SATA硬盤,7200轉;

(5)網口是4個千兆電口。

2 關鍵技術

2.1 網頁數據的獲取

爬蟲的工作原理:首先爬蟲根據WebDB生成一個待抓取網頁的URL集合叫做Fetchlist,接著下載線程Fetcher根據 Fetchlist將網頁抓取回來,如果下載線程有很多個,那么就生成很多個Fetchlist,也就是一個Fetcher對應一個Fetchlist。然后爬蟲用抓取回來的網頁更新WebDB,根據更新后的WebDB生成新的Fetchlist,里面是未抓取的或者新發現的URLs,然后下一輪抓取循環重新開始。這個循環過程可以叫做“產生/抓取/更新”循環。

2.2 基于分布式系統的海量數據處理

分布式系統采用基于Hadoop的集群架構,其特征主要有以下幾點。

(1)先進性;

(2)高可靠性;

(3)成熟性;

(4)易維護性。

2.2.1 分布式存儲系統

分布式平臺底層的基本結構是基于一組特定的節點構建而成,這些節點主要分為兩類,一類是元數據節點(NameNode),它在分布式存儲系統內部提供元數據服務;另一類是數據節點(DataNode),為系統提供數據存儲塊。

一個分布式集群由一個元數據節點和大量的數據節點構成,并被許多用戶端訪問。出于可靠性考慮,每一個塊被復制到多個數據節點上。默認情況下,保存三個副本,本地節點一份,與該節點相同的機架上一份,不同機架節點上一份,但這個副本數量可以由用戶指定。

每個分布式集群通常只有一個元數據節點,用來維護文件系統所有的元數據(metadata),包括名字空間、訪問控制信息、從文件到塊的映射以及塊的當前位置。

分布式存儲系統采用可擴展的系統結構,利用多臺服務器并行計算,提供高吞吐量的應用程序數據訪問,它不但提高了系統的可靠性、可用性和存取效率,還易于擴展。

2.2.2 Map/Reduce運行環境

MapReduce是Google發明的一種編程模型。在這種編程模型下,用戶通過定義一個map函數和一個reduce函數來解決問題。map函數對用戶輸入的鍵/值對(key/value pair)進行處理(處理時可能只有值這一項有用),生成一系列新的鍵/值對作為中間結果;系統(MapReduce的實現)對map函數生成的鍵/值對進行處理,將同屬于一個鍵(key)的值(value)組合在一起,生成鍵/值列表((key/list of values) pair)對;reduce函數將鍵/值列表對作為輸入,對同屬于一個鍵的值列表進行處理,生成最終處理結果輸出。endprint

猜你喜歡
云計算
云計算虛擬化技術在電信領域的應用研究
基于云計算的醫院信息系統數據安全技術的應用探討
談云計算與信息資源共享管理
志愿服務與“互聯網+”結合模式探究
云計算與虛擬化
基于云計算的移動學習平臺的設計
基于云計算環境下的ERP教學改革分析
科技視界(2016年22期)2016-10-18 14:33:46
基于MapReduce的故障診斷方法
實驗云:理論教學與實驗教學深度融合的助推器
大學教育(2016年9期)2016-10-09 08:54:03
云計算中的存儲虛擬化技術應用
科技視界(2016年20期)2016-09-29 13:34:06
主站蜘蛛池模板: 亚洲最大综合网| 亚洲一区二区三区国产精品| 一级高清毛片免费a级高清毛片| 九色视频线上播放| 91美女视频在线观看| 黄色网在线免费观看| 免费观看欧美性一级| 三区在线视频| 欧美一级夜夜爽www| 久久久久国产一级毛片高清板| 99资源在线| 国产精品毛片一区视频播| 成年午夜精品久久精品| 国产精品漂亮美女在线观看| 国产欧美日韩精品综合在线| www.国产福利| 污网站在线观看视频| 亚洲欧美另类专区| 亚洲午夜国产精品无卡| 制服丝袜亚洲| 国产精品自在线拍国产电影| 四虎在线高清无码| 亚洲欧洲日产国产无码AV| av手机版在线播放| 国产精品一线天| 久久99热66这里只有精品一| 性69交片免费看| 欧美在线精品怡红院| 亚洲日韩Av中文字幕无码| 欧美亚洲一区二区三区导航| 亚洲国产成人精品一二区| 香蕉综合在线视频91| 成人字幕网视频在线观看| 青青草原国产精品啪啪视频| 青青草91视频| 日韩免费毛片视频| 日韩欧美国产另类| 日本一区中文字幕最新在线| 欧美日韩中文国产| 国产激情在线视频| 国产精品免费入口视频| 国产乱人伦精品一区二区| 国产成人精品亚洲77美色| 欧美一区福利| 青草视频久久| 亚洲综合片| 小13箩利洗澡无码视频免费网站| 欧美日韩免费| 国产91av在线| 韩国自拍偷自拍亚洲精品| 亚洲国产精品日韩av专区| 亚洲精品中文字幕无乱码| 亚洲日韩国产精品综合在线观看| 欧美a在线| 高清精品美女在线播放| 99热这里都是国产精品| 日本不卡在线视频| 毛片大全免费观看| 成人av专区精品无码国产| 在线播放国产一区| 亚洲欧美日韩精品专区| 国产尤物在线播放| 国产白浆在线| 久久综合久久鬼| 五月天福利视频| 91区国产福利在线观看午夜 | 国产一区二区三区在线精品专区| 婷婷久久综合九色综合88| 久久久成年黄色视频| 欧美国产日韩在线播放| 99视频在线免费| 国产无码在线调教| 少妇高潮惨叫久久久久久| 国产精品2| 激情综合网址| 成人午夜天| 麻豆精品久久久久久久99蜜桃| 一级做a爰片久久毛片毛片| 2021国产v亚洲v天堂无码| 在线视频亚洲欧美| 69av免费视频| 国产丝袜丝视频在线观看|