999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Hive的支付SDK日志分析系統的設計研究

2017-08-12 15:45:56王建輝
計算機應用與軟件 2017年7期
關鍵詞:用戶分析系統

王建輝 李 濤

(南京郵電大學通信與信息工程學院 江蘇 南京 210003)

?

基于Hive的支付SDK日志分析系統的設計研究

王建輝 李 濤

(南京郵電大學通信與信息工程學院 江蘇 南京 210003)

UniPay支付SDK是聯通沃商店為了給開發者提供手機話費和第三方支付能力而推出的一站式應用內統一支付插件,支付SDK日志記錄海量的用戶終端信息、用戶使用手機應用的行為記錄等數據。針對傳統數據倉庫難于滿足海量日志數據存儲及處理等問題,設計一種基于Hive的支付SDK日志分析系統。測試結果表明,使用Hadoop框架及Hive數據倉庫對海量支付SDK日志進行存儲和處理,能很好地滿足業務需求,對手機應用的設備激活量、日活躍用戶數(DAU)、分時日志量以及用戶支付轉化率等指標的分析結果,對應用開發者升級優化其應用及運營人員的營銷策略調整具有重要的參考價值。

Hive SDK日志 應用分析 用戶行為

0 引 言

據工信部最新發布的數據顯示,2016年1月,我國移動互聯網用戶凈增1 942.1萬戶,同比增長11.8%,總數達9.8億戶[1]。截止2016年2月,我國第三方應用商店累計應用分發量已達到8 350億次,以分發規模計,我國用戶渠道實力已領先于覆蓋全球移動用戶的谷歌官方商店,僅我國 Android應用實際市場規模已近谷歌全球市場的近五倍[2]。隨著移動互聯網的迅速發展和移動智能終端的廣泛應用,移動端應用有取代PC成為最大的互聯網用戶入口的趨勢。互聯網企業、電商平臺及傳統企業都積極將自己的服務部署到移動端,在為用戶提供便捷服務的同時產生了海量的日志數據,這些日志客觀反映用戶消費行為及影響用戶消費行為的內外因素,分析這些日志,挖掘數據背后的規律,具有重要的商業價值[3]。深入挖掘這些數據隱含的信息,可獲取海量有價值的用戶信息。分析用戶的行為規律,可以為產品營銷人員提供客觀可靠的數據支持,實現精細化運營,為用戶提供更加個性化的服務,提升用戶體驗,最終為企業帶來可觀的經濟效益。隨著日志數據量的爆炸式增長,處理海量日志數據的任務也日益增多,如何將海量數據集中、存儲、分析并產生商業價值,成為運營和研發人員亟待解決的難題。

面對海量數據,傳統數據倉庫使用成本高、效率低、擴展性差,難以滿足業務發展需求,嚴重制約著移動應用運營收入的增長。基于分布式思想的Hadoop框架很好地解決了這個難題,并迅速成為大數據處理領域事實上的標準。采用Hive/Hadoop方案應對大數據處理問題,具有成本低、擴展性好、可靠性高、效率高等優勢,采用HDFS[4]和MapReduce[5-6]編程模型解決了海量數據存儲和處理的難題,可實現對海量數據進行挖掘的目標。

1 相關技術介紹

1.1 Apache Hive數據倉庫

Apache Hive是一種基于Hadoop的數據倉庫構架,提供一種存儲、查詢和分析HDFS中海量數據的機制[7]。Hive提供類SQL語言HQL,簡化了用戶處理海量數據的操作。Hive架構分為以下幾部分:

用戶接口:通常指命令行界面CLI,啟動時會同時啟動一個Hive副本;

元數據:通常存儲在關系數據庫中,包括表名、表的列和分區及其屬性、表數據所在目錄等信息;

解釋器、編譯器、優化器、執行器:該部分是Hive數據處理功能的核心,解釋編譯優化HQL語句,將其轉換為MapReduce任務,完成對存儲在HDFS中數據的處理。

1.2 Hadoop集群

Hadoop集群是Hive數據倉庫功能實現的基礎,Hadoop框架核心是HDFS和MapReduce,功能分別是為海量的數據提供存儲和計算框架。HDFS保證應用程序以高吞吐量訪問海量數據時的可用性;MapReduce完成海量數據的分布式計算,開發者無需掌握分布式編程的相關知識,就能完成海量數據分析。Hive數據倉庫是支付SDK日志分析系統的功能核心,海量日志的分析處理主要由該部分完成。

2 基于Hive的支付SDK日志分析系統設計

基于Hive的支付SDK日志分析系統如圖1所示,系統由日志收集、日志處理、結果匯總、數據展示四個模塊組成[8]。

日志收集模塊:應用客戶端和服務端之間的交互數據以JSON格式進行傳輸,通過HTTP協議將交互信息以日志形式記錄并上傳至Tomcat服務器,通過腳本預處理(數據去重、過濾異常數據、小文件合并等),再由FTP上傳存儲于HDFS。

圖1 基于Hive的支付SDK日志分析系統架構圖

日志處理模塊:后臺服務器使用crontab命令定時執行腳本,將日志解析并導入到Hive數據倉庫中表相應分區,按業務需求對數據去重、匯總、統計,結果通過Sqoop導出到Mysql和Oracle等關系型數據庫。該模塊是分析系統的核心,數據處理腳本的執行時間決定系統效率及穩定性,調優也在該模塊完成。

結果匯總模塊:該模塊通過傳統關系型數據庫對日志數據做進一步處理,如編寫調用存儲過程等,也可通過JDBC直接訪問查詢。

數據展示模塊:系統中數據展示分為三種形式:對SDK日志的整體監控,定時給相關人員發送監控郵件,如對每日設備激活量、支付SDK日志總量、分時日志量及DAU/WAD/MAU(日/周/月活躍用戶數)等指標的監控報表;對用戶在應用中的支付轉化率、應用在不同日期、省份、版本等維度的支付轉化率等指標則給運營人員提供Web頁面查詢功能,供其根據具體業務需求查詢;對于異常省份、應用、用戶的查詢分析則通過實時查詢的方式,以便及時發現問題、調整運營策略。

3 系統測試結果分析

系統測試數據來源于聯通沃商店支付SDK日志文件。測試環境:測試集群含4臺服務器,一個主節點:處理器32核,內存192 GB,磁盤容量300 GB;3個數據節點:處理器32核,內存128GB,磁盤容量1 TB,集群磁盤總容量:4.3 TB;軟件版本:Hadoop-2.6.0;hive-1.2.1;sqoop-1.4.3。

沃商店每天支付SDK日志大小約200 GB,系統可提供T+1的日志分析結果,每天00∶30開始執行定時任務,09∶00之前即可執行完畢,完成前一天支付SDK日志的分析及入庫,及時為運營、產品及研發人員提供數據支持。

沃商店客戶端和服務端的業務實現采用標準HTTP/1.1協議作為承載協議,采用請求<->應答的同步處理方式處理信息,不同類型消息通過URL區分。消息記錄即支付SDK日志,每次請求生成一條記錄,支付SDK日志數據大致分為7種類型:設備信息、注冊、登錄、支付、退出、SDK版本升級、崩潰日志等。

支付SDK日志由JSON格式的數據串、時間戳、ip地址等組成,以設備信息為例,日志格式如下:

{″model″:″HUAWEI_A199″,″IMEI″:″A0000043CD6EDC″,″logtype″:″device″,″lcd″:″1280X720″,″mac″:″24:69:a5:a5:97:d2″,″IMSI″:″460030979228177″,″channel″:″00018756″,″osversion″:″4.1.2″}|20160910115959|192.168.31.166

日志含手機設備序列號IMEI、SIM卡唯一編號IMSI、渠道號、時間戳等信息。IMSI唯一確定一個用戶,通過IMSI、時間戳可統計每日活躍用戶數(DAU)。DAU常用于評價應用的運營情況,結合月活躍用戶數量(MAU),可測量應用的衰退周期和用戶粘性。分時日志統計用于監控每天各時間段的日志量,分析應用在各時間段的使用狀況。通過IMSI、終端型號統計各運營商用戶、各終端品牌占比和用戶留存率,可針對不同運營商、終端品牌的用戶制定更具針對性的營銷策略;用戶留存率是用來評定用戶粘度的關鍵指標,通過日留存率、周留存率、月留存率等指標監控應用的用戶流失情況,可在用戶流失之前及時采取措施挽留用戶;日志分析結果以監控郵件的方式每天定時發送,及時為運營和產品等部門提供數據支持。

支付日志分析是監控沃商店運營狀況及評估應用優化效果的主要手段,也是增加運營收入的關鍵。支付日志記錄了用戶在每個頁面跳轉情況,可分析每個頁面的到達率,跟蹤洞察用戶從進入應用到離開應用的全過程。通過分析支付日志,跟蹤各計費點,分析用戶付費行為,識別用戶付費偏好,發現用戶支付行為的規律,幫助開發者優化計費點及計費模式,為不同類型的應用設置相應的計費點,積極引導用戶消費,提高支付轉化率。支付轉化率是指從當前頁面進入下一頁面的用戶數比率,由用戶訪問路徑可統計各頁面到下個頁面的轉化率及每一步的流失情況。

借助一些圖表工具可更加形象地展示結果,轉化率統計場景適用漏斗模型。漏斗模型既能顯示用戶在進入流程到實現目標的最終轉化率,也能展示關鍵路徑中每一步的轉化率。通過漏斗模型,應用開發者及運營人員可以準確判斷流程的設計是否合理,各個步驟的優劣,是否存在優化的空間,從而有針對性地對產品進行改進,為用戶提供更合理的訪問路徑或操作流程,以提升用戶體驗。

系統測試以沃商店某款應用325版本的支付轉化數據為例,如圖2所示:從進入支付頁面到一次確認轉化率為22%,一次確認到二次確認轉化率為72%,二次確認到成功支付轉化率為53%,整體轉化率為7.60%。從漏斗模型上看,進入支付到一次確認這一步用戶流失率最高,達78%,說明對該環節進行改進或優化的空間很大,在該環節挽留用戶的效果相對明顯,開發者可在此環節增加挽留用戶的功能。對應用升級優化后,還可從轉化率漏斗模型觀察改進效果。

圖2 支付轉化率漏斗模型

支付日志分析結果以Web頁面查詢的方式展現,運營及產品人員通過后臺管理系統界面查詢,系統提供日期、版本、應用、開發者等維度的查詢。

Hive數據倉庫與傳統Oracle數據庫對同一日志文件的去重操作耗時對比如圖3所示:橫坐標表示待處理日志文件的大小,單位MB/GB,縱坐標表示耗時,單位是毫秒。

圖3 Oracle數據庫與Hive去重操作耗時對比

系統測試以常見的日志去重為例,數據量較小時,即日志文件小于2 GB時,Oracle數據庫比Hive數據倉庫耗時少;隨著數據量的增加,當日志文件大于2 GB并繼續增加時,Oracle數據庫耗時急劇增加,Hive數據倉庫在處理少量數據的耗時大于傳統數據庫,面對海量數據處理任務時,Hive的優勢會隨著數據量的增加越來越明顯。

4 結 語

分析用戶行為是評價、運營和優化一個手機應用的重要方式,支付SDK日志記錄的用戶終端信息、應用升級、支付等信息可客觀反映用戶行為。針對傳統系統難以滿足海量數據處理且成本越來越高的問題,設計并實現了一種基于Hive數據倉庫的支付SDK日志分析系統,借助Hadoop集群強大的數據處理能力和hive構建數據倉庫的集成、分析和快速查找能力,對支付SDK日志進行分析,挖掘用戶的行為規律。測試結果表明:利用Hive數據倉庫對海量支付SDK日志的分析效率明顯優于傳統數據庫,還有成本優勢。分析結果對應用的精細化運營和優化具有一定的指導意義,不但能為用戶提供更個性化的服務,提升用戶體驗、產生商業價值,還在一定程度上突破了傳統系統處理海量數據的局限性。

[1] 工業和信息化部. 2016年1月份通信業經濟運行情況[OL]. http://www.miit.gov.cn/n1146312/n1146904/n1648372/c4658448/content.html.

[2] 中國信息通信研究院.國內移動互聯網應用市場運行分析報告[OL]. (2016-2). [2015-9].http://www.catr.cn/kxyj/qwfb/zdyj/201604/P020160414387395395899.pdf.

[3] 王正也,李書芳. 一種基于Hive日志分析的大數據存儲優化方法[J]. 軟件,2014,35(11):94-100.

[4] 王來,翟建宏. 基于HDFS的分布式存儲策略分析[J].智能計算機與應用,2016(1):5-8.

[5] Tom White. Hadoop權威指南[M].曾大聃,周傲英,譯.北京:清華大學出版社,2010.

[6] Dean J, Ghemawat S. MapReduce:Simplified Data Processing on Large Clusters[J]. Communications of the ACM,2008, 51(1):107-113.

[7] 江三鋒,王元亮. 基于Hive的海量web日志分析系統設計研究[J]. 軟件,2015,36(4):93-96.

[8] 周鶴,朱曉民,趙銳,等. 手機閱讀平臺倉庫管理模塊的設計與實現[J]. 電信工程技術與標準化,2016(2):84-87.

DESIGN AND RESEARCH OF HIVE-BASED PAYMENT SDK LOG ANALYSIS SYSTEM

Wang Jianhui Li Tao

(CollegeofTelecommunicationandInformationEngineering,NanjingUniversityofPostsandTelecommunication,Nanjing210003,Jiangsu,China)

UniPay payment SDK is Unicom Wo store launched a one-stop application within the unified payment plug-in for developers to provide mobile phone calls and third-party payment capabilities. Payment SDK log records a large number of user terminal information, the use of mobile phone application behavior records and other data. Aiming at the problem that the traditional data warehouse can not satisfy the massive log data storage and processing, a Hive-based payment SDK log analysis system was designed. The test results show that using Hadoop framework and Hive data warehouse to store and process the massive payment SDK log, can meet the business demand well. The analysis result of user behavior in device activation, daily active user, quantity of time-log and the user payment conversion rate can provide important references for application developers to optimize and upgrade their mobile applications, and for operational personnel to adjust their marketing strategy.

Hive SDK log Application analysis User behavior

2016-07-25。王建輝,碩士生,主研領域:大數據分析。李濤,副教授。

TP3

A

10.3969/j.issn.1000-386x.2017.07.011

猜你喜歡
用戶分析系統
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
WJ-700無人機系統
隱蔽失效適航要求符合性驗證分析
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
電力系統及其自動化發展趨勢分析
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
主站蜘蛛池模板: 国产午夜无码专区喷水| 福利在线不卡一区| 久久99精品国产麻豆宅宅| 男女男精品视频| 国产精品所毛片视频| 97se亚洲| 国产亚洲精品在天天在线麻豆| 欧美成人在线免费| 欧洲亚洲一区| 国产欧美日韩综合在线第一| 亚洲AV免费一区二区三区| 无码又爽又刺激的高潮视频| 四虎精品黑人视频| 亚洲最大综合网| 欧美综合在线观看| 真实国产乱子伦视频| 国产午夜在线观看视频| 国产9191精品免费观看| 国产91在线|中文| 激情综合五月网| 在线精品亚洲国产| 四虎影视库国产精品一区| 亚洲欧洲日韩国产综合在线二区| 亚洲美女一区| 国产自产视频一区二区三区| 自拍偷拍欧美日韩| 多人乱p欧美在线观看| 久久久久无码精品国产免费| 国产99视频免费精品是看6| 国产喷水视频| 午夜啪啪网| 日韩黄色精品| 国产菊爆视频在线观看| 亚洲精选高清无码| 黄色三级网站免费| 伊人色综合久久天天| 午夜在线不卡| 污视频日本| 久久99国产乱子伦精品免| 丁香六月激情综合| 在线观看免费国产| 国产一级裸网站| 秋霞午夜国产精品成人片| 国产在线观看成人91 | 欧美亚洲激情| 国产精品亚洲欧美日韩久久| 国产精品久久久久鬼色| 色婷婷国产精品视频| 99视频在线精品免费观看6| 色亚洲激情综合精品无码视频| 精品精品国产高清A毛片| 欧美日韩精品一区二区在线线| 欧美日韩第二页| 最新午夜男女福利片视频| av天堂最新版在线| 中文字幕资源站| 亚洲欧洲综合| 伊人久久青草青青综合| 久久久久国色AV免费观看性色| 狠狠色丁香婷婷| 国产手机在线ΑⅤ片无码观看| 人妻丝袜无码视频| 久久一级电影| 国产精品成| 丰满的熟女一区二区三区l| 国产成人AV大片大片在线播放 | 18禁不卡免费网站| 欧美日韩成人在线观看| 亚洲中文在线视频| a毛片在线| 免费人成网站在线观看欧美| 久久精品视频一| 毛片基地美国正在播放亚洲| 亚洲人成网站在线播放2019| 久久99热66这里只有精品一| 亚洲精品777| 日本一区高清| 无码 在线 在线| 久久久受www免费人成| 国产精品久久久久久久伊一| 成人欧美日韩| 国产在线八区|