劉國峰 中國人民大學信息資源管理學院
基于移動互聯網大數據分析平臺的研究
劉國峰 中國人民大學信息資源管理學院
互聯網用戶行為特征的大數據分析平臺,涵蓋了云計算、大數據的各個知識點,主要研究當前互聯網的用戶行為習慣及購買偏好等、利用網絡爬蟲技術自動收集互聯網上的用戶訪問行為記錄,結合當前流行的算法進行分析建模,運用hadoop等大數據框架進行后臺運算,最終生成用戶的行為習慣數據模型。
移動互聯網 大數據分析 模型 平臺
在廣告交易平臺方面,除了BAT以外的交易平臺整合媒體資源的能力,一般公司的服務器響應能力、數據并行計算能力、解決方案、反作弊技術成熟度方面均表現欠佳。此外,行業標準化程度也參差不齊、有待提高,例如廣告尺寸、DSP接口、DMP平臺數據標簽化分類等。在DMP平臺化方面,當前國內缺乏正式的第三方獨立DMP平臺,大多以私有DMP平臺為主,數據孤立,無法實現數據利益的最大化。大數據分析平臺正是基于以上實情研發而來,其有效解決了平臺底層計算的邏輯及算法問題。
當前國內專門從事大數據分析的企業還不是特別多,這里對比了幾家大數據相關行業的企業,比如北京友友天宇系統技術有限公司的友友系統以及北京學之途網絡科技有限公司的秒針系統等,這些企業普遍存在著研發成本較高、開發周期較長、開發與維護成本較高等問題。
互聯網人群畫像識別技術,目前在國內還屬于一個不成熟的發展階段,且具有不透明性。當前市場上主要的技術服務型公司還主要集中在PC端的人群畫像識別層面,比如百度指數、阿里的達摩盤、騰訊的廣電通等。
“雙十一”是阿里與2011年在國家商標局注冊的商標,截止到2014年11月11日,阿里雙十一全天交易額571億元。可以說,阿里后臺基于大數據的研發技術——互聯網用戶畫像造就了這樣一個天文交易數據。大數據分析、大數據預測、大數據的畫像技術,給商家提供了精準營銷的策略依據,為消費者減少了垃圾廣告的展現次數。騰訊的開發平臺用戶分析——用戶畫像,主要分為地域分布、用戶年齡特質、用戶性別特征、用戶職業分布、用戶QQ等級分布、使用場景分布等幾項。
另外,大數據分析的市場需求非常高。市場研究公司MarketsandMarkets之前發布的一份報告預測顯示,從2013年到2018年全球大數據將出現年均26%的增長率,即從13年的148.7億美元增長到2018年的463.4億美元。2015年上半年市場規模已經超過2014年全年,達到25.71億元。
大數據分析平臺的搭建與運維,是大數據分析處理的基石,為大數據的分析處理提供分布式存儲、分布式計算、分布式資源調度等處理能力。主要包括使用目前主流的hadoop系列進行移動大數據平臺的搭建、運維、監控、展示等工作。技術指標主要有:響應時間(毫秒級)、處理能力(PB級)、集群規模、穩定性、識別率、準確率等等。
平臺的擴展需求只受存儲資源的限制,當系統存儲空間不足時,可在保證系統服務連續的前提下,對系統進行在線動態擴容,并且自動進行適當的數據遷移和負載均衡,以保證所有節點的有效使用,消除容量瓶頸。
互聯網用戶行為特征的大數據分析平臺,采用當前云計算及大數據處理技術的hadoop框架技術,包括統一用戶識別技術、數據采集、分析處理、算法模型、結果集市等模塊。
指將不同渠道間的互聯網用戶通過統一用戶識別技術進行打通整合,形成唯一的互聯網用戶數據,為最終用戶畫像的形成提供唯一標識。經過分析多渠道的PC端、移動端的數據,采用相應的數據算法模型,研究出一套將來自多渠道的數據相互打通的解決方案。經過數據測試驗證,渠道間用戶的統一用戶比例為1:3.6。
占用CPU、內存資源都很小的情況下,能迅速將數據實時的發送到接收端進行后續的處理,同時支持多線程、斷點續傳等技術。
經過研究國內外的數據采集框架后發現,許多開源的數據采集框架存在bug、不穩定、丟數據等情況,例如flume。于是自主開發了一款簡潔實用的采集工具cotail,采用腳本語言python編寫,代碼量少,功能強大,性能優越,可實現多線程、多目錄、多文件的數據采集。經過內部測試,平均響應速度比flume快20%左右,日志無丟失現象,可以實現斷點續傳和多線程功能。
采用多層數據模型,比如第一層數據源,專門存放采集的原始數據集;第二層數據清洗層,用來將清洗后的規范數據進行臨時的存放;第三層數據識別層,開始逐步將數據與數據字典中的知識庫進行匹配識別,形成初步的標簽數據;第四層畫像層,通過不同的用戶屬性標簽,將用戶數據不同的屬性進行合并操作;第五層數據集市層,將最終的平臺畫像等數據進行存儲,隨時供業務進行調用訪問。
算法權重的計算,有很多種方式,比如定量統計法、專家評定法、對偶比較法等等。經過多方實踐,最終使用數據建立數學模型,形成了自己的衰減算法,并獲得了衰減算法的公因子,在整個數據處理過程中至關重要。
互聯網用戶行為特征的大數據分析平臺,運用大數據hadoop系列框架處理技術,其中包括分布式存儲、分布式計算、分布式數據庫等,將企業在日常生產中產生的多種大數據進行整理分析,進而產生對企業有價值的數據。
首先,使用分布式的爬蟲技術從互聯網上爬取用戶活躍度比較高的網站內容數據,作為原始數據的一部分;同時,接入三方的數據進行原始數據的補充,比如inmobi、芒果等三方數據;其次,使用hadoop系列大數據分析平臺進行數據的ETL處理,一部分數據經過數據挖掘算法處理后形成基礎數據庫,基礎數據庫再經過人工的優化最終形成完善的基礎數據庫。另外,數據經過平臺處理,最終形成可供企業客戶使用的互聯網用戶人群數據。
通過互聯網用戶行為特征的大數據分析平臺獨特的處理分析流程,將互聯網復雜紛亂的不相關數據進行整合處理,進而根據需求生成用戶的多種維度屬性數據。該平臺采用當前互聯網上流行的大數據計算框架和算法分析技術,保證了技術的先進性和實效性,無論是在云計算,還是大數據方面,均處于行業領先水平。在電信、廣告、媒體等行業中都可以使用,推廣力度較大,市場需求較廣,該平臺可以在短時間內為企業進行大數據平臺的建設,并保證相關技術處于行業的領先水平。
通過網絡爬蟲、第三方數據合作等方式采集互聯網人群、移動端人群的兩大用戶群體的用戶瀏覽行為、用戶購物行為、移動端使用情況等數據,利用大數據進行匯總分析、數據挖掘、人工智能等技術,進而得到整個互聯網人群的畫像數據。
大數據是當前計算機領域較為熱點的研究內容,很多初創公司都在大數據背景下進行著技術創新,主要風險來自于資金以及三方數據合作兩個方面:
資金風險在進行大數據研發過程中,需要購置大量的服務器設備進行數據運算以及維持服務運行,這些設備的購置將需要大量的資金;另外在進行相關研發中,需要聘請專業的技術人員、銷售人員和管理人員,他們的薪酬也需要大量資金支持。對于初創公司來說,資金的不足將成為公司長久運行的風險。
三方數據合作,指與第三方數據單位進行戰略合作,打通爬蟲爬取不到的數據資源,作為原始基礎數據的補充部分,比如移動端的流量數據。目前三方數據的獲取主要依靠戰略合作、資源交換、購買等方式獲取,且數據格式、完整性等存在不規范,需要進行專門的整理或者簡單處理方可進行后續的使用。
歷史數據或結果數據的特點是大多含有時間屬性、常以追加方式寫入、并且很少進行的結構化數據。本平臺使用多種手段來提升存儲系統的整體訪問性能。包括:將大量的數據及訪問請求進行合理的水平、垂直分割,充分發揮網絡以及服務器的I/O吞吐能力;支持用戶自定義的各種數據格式,并根據具體的應用需求,使用特定的數據結構來針對性地提高數據的訪問效率;同時支持內存和磁盤數據庫,利用不同存儲層級的設備為實際應用提供可擴展的高速緩存和持久化的數據存儲,并且可根據具體業務需求進行單獨使用或者組合使用,從而在時效性、安全性和重要性上實現對數據的差異化處理。
[1]陳丹,郭先會.Hadoop在電信大數據平臺的研究與設計[J].現代電信科技.2014(08).
[2]方少卿,周劍,張明新.基于Map/Reduce的改進選擇算法在云計算的Web數據挖掘中的研究[J].計算機應用研究,2013(02).
[3]黎宏劍,劉恒,黃廣文,卜立.基于Hadoop的海量電信數據云計算平臺研究[J].電信科學.2012(08).