李微麗 羅汝 一鳴
摘要:隨著互聯網的日益普及,網民每天的網絡行為帶來了網絡數據的爆炸式增長。網絡用戶行為數據中蘊含著大量有價值、有意義的信息,網絡用戶行為分析系統通過對這些數據進行統計、分析,結果通過前臺直觀的報表展示,并進行智能推薦。一方面可以幫助營銷商從中發現用戶使用產品的規律,并將這些規律與網站的營銷策略、產品功能、運營策略相結合,優化用戶體驗、實現更精細化和精準的運營與營銷,讓產品獲得更好的增長。另一方面還可以應用于公安部門兼顧打擊罪犯、獲取證據、提前管控、縮小影響范圍從而保護人民、不阻礙互聯網的正常發展軌跡。
關鍵詞:互聯網;大數據;用戶行為分析
一、緒論
隨著科學技術的飛速發展和社會經濟水平的不斷進步,互聯網規模迅速膨脹,網絡流量、用戶規模等互聯網組成部分快速增長。根據《第33次中國互聯網絡發展狀況統計報告》中的數據統計,截止2013年12月底,中國網民規模已達到6.18億,互聯網普及率為45.8%。這充分說明了互聯網已經逐漸成為人類生活、學習所依賴的一部分。
網民每天的網絡行為帶來了網絡用戶行為數據的爆炸式增長,網絡用戶行為數據中蘊含著大量有價值、有意義的信息,通過對用戶行為日志進行統計、分析,結果通過前臺直觀的報表展示,可以幫助營銷商大致掌握用戶的喜好,從中發現用戶使用產品的規律,將這些規律與網站的營銷策略、產品功能、運營策略相結合,對用戶進行智能推薦,以優化用戶體驗、實現更精細化和精準的運營與營銷,讓產品獲得更好的增長。此外,可以通過數據分析來預測用戶的行為傾向,為有關部門對網絡輿論進行合理的監控和干預提供了理論依據,還可以幫助公安部門針對犯罪嫌疑人進行網絡行為監控等。
二、用戶行為分析系統架構設計
(1)數據采集層。使用傳統的JS為網站定制埋點方案以采集數據,經過Flume日志收集系統進行高可用、高可靠、分布式的海量日志監聽和采集。根據其業務需求可在任意地點任意場景進行數據采集,通過植入多段代碼,追蹤用戶在每個界面上的系列行為,采集到用戶的全量行為。
(2)數據分析層。Flume將采集后的數據發送到kafka消息隊列進行緩存,發送到Hdfs分布式文件系統對海量用戶行為日志進行存儲,以達到高容錯、高可靠性、高可擴展性、高獲得性、高吞吐率等。SparkStreaming消費kafka消息隊列中的數據。為了提高分析計算效率,使用Spark的Transformation算子和Action算子進行實時分析。Hive使用sql語句的形式結合多個優化MapReduce算法,以天為單位讀取Hdfs分布式文件系統中的數據進行離線分析,并將結果放入Mysql關系型數據庫,根據計算結果進行可視化展示。
(3)數據應用層。分為數據展示、智能推薦、行為預測三大塊。數據展示:后臺使用Mybatis持久化框架連接數據庫,通過Sprintboot提供數據訪問接口。前臺使用Angular組件Asynclack異步消息處理與后臺進行交互,加快了響應速度。最后通過Echarts圖表動態直觀的展示用戶的各種行為指標。還支持報告數據用API形式導出,以更靈活、便捷、個性化的方式完成網站數據的展現、分析等操作;智能推薦:使用基于內容過濾的推薦算法和基于雙重聚類的協同過濾推薦算法融合后的混合推薦技術,對用戶行為日志進行分析并對用戶進行智能推薦服務,此技術在保證推薦準確率的同時,還能有效提高推薦結果的多樣性,解決了傳統推薦算法推薦結果單一、數據稀疏、冷啟動等問題;行為預測:根據已有的用戶行為數據,設計數據包重組算法,實現網絡數據的重新組合。采用協議解析技術,還原網頁的組成元素。基于SharpPcap與PacketDotNet類庫對模型進行實現,最后采用多重分形的思想建立用戶行為模型,用LUBAM模型計算出某時間段內用戶的行為過程,并預測下一時間段內用戶的行為過程。以最小均方誤差值作為估算誤差指標,判定用戶行為的傾向程度。
三、研究內容
(1)智能推薦:智能推薦即根據對用戶的了解,推送用戶可能會感興趣的產品。假設我們將此系統應用在一個商城平臺上,那么當用戶在挑選商品時勢必會過濾掉不感興趣的商品,搜索一些感興趣的商品,我們對相應的按鈕填上埋點,就可以收集用戶感興趣的關鍵詞,從而使用智能推薦算法,對用戶推送一些產品。而傳統推薦算法缺少對個體多樣性的考慮,推薦結果過于單一,還具有冷啟動、數據稀疏性等問題。為解決這些問題,本系統使用基于內容過濾的推薦算法和基于雙重聚類的協同過濾推薦算法,將兩種推薦算法進行融合后的混合推薦技術作為系統的推薦引擎,完成智能推薦系統模型的設計與實現。
(2)用戶行為預測:抽取行為報告中含有敏感信息的行為序列,基于多重分形思想建立用戶行為模型,計算某時間段內用戶的行為過程,并預測估計下一時間段內用戶的行為過程,以最小均方誤差值作為誤差判斷參數。如果基于LUBAM的行為過程預測方差值較小,則說明用戶在未來一段時間內仍可能有敏感行為發生,若預測方差值較大,則表明用戶未來一段時間內發生敏感行為的概率相對較小。
參考文獻:
[1]谷紅勛,楊珂.基于大數據的移動用戶行為分析系統與應用案例[J].電信科學,2016,32(3):139-146.
[2]任思穎.基于大數據的網絡用戶行為分析[D].北京郵電大學,2015.