999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大數據平臺的推薦系統研究與實現

2023-06-21 02:15:14谷廣兵顧佩佩
現代信息科技 2023年1期
關鍵詞:大數據技術排序

谷廣兵 顧佩佩

摘? 要:個性化推薦系統作為人工智能一個落地場景,在社交平臺、電商、生活服務等領域有著廣泛的應用。為了把優選的商品提供給有需要的客戶,對用戶行為進行數據采集、數據清洗與存儲、用戶物品推薦建模、模型評估等內容進行了研究。數據采集通過客戶端頁面埋點技術來記錄用戶瀏覽、點擊、關注等行為以及頁面停留時長等數據,通過flume、kafka、hive、spark等大數據相關組件與技術完成數據采集、ETL相關操作,將用戶評分表、物物余弦相似度等數據通過ALS、item-based組合召回技術,以及LR排序技術生成TOP-N推薦列表,最終經過AB測試,完成最優迭代方案版本選取。

關鍵詞:推薦系統;大數據技術;召回;排序;ALS

中圖分類號:TP391.3;TP311.1? 文獻標識碼:A 文章編號:2096-4706(2023)01-0026-04

Research and Implementation of Recommendation System Based on Big Data Platform

GU Guangbing1, GU Peipei2

(1.Jiaxing Vocational & Technical College, Jiaxing? 314036, China; 2.Lishui Bureau of Agriculture and Rural Affairs, Lishui? 323000, China)

Abstract: As a landing scenario of artificial intelligence, personalized recommendation system is widely used in social platforms, E-commerce, life services and other fields. In order to provide the preferred products to the customers in need, the data collection, data cleaning and storage, user item recommendation modeling, model evaluation and other contents of user behavior are studied. Data collection records user browsing, clicking, following and other behaviors, as well as page dwell time and other data through the embedded point technology on the client page. Data collection and ETL related operations are completed through flume, kafka, hive, spark and other big data related components and technologies. Data such as user scoring table and cosine similarity of objects are generated into TOP-N recommendation list through the combined recall technology of ALS and item-based, as well as LR sorting technology, and finally tested by AB, complete the selection of the optimal iteration scheme version.

Keywords: recommendation system; big data technology; recall; sort; ALS

0? 引? 言

推薦系統是解決大規模用戶場景下的大量信息的精確發送問題,通過離線和實時收集用戶行為數據,建立用戶行為模型,進行個性化推薦,并且不斷評估推薦成效。推薦系統在社會諸多領域均有應用,推薦系統讓軟件更懂用戶,提升用戶的智能化體驗[1]。

在本項目研究過程中,將用戶client端請求日志數據做為flume組件的source層,hdfs作為sink層完成數倉ODS層的構建,使用sparksql技術將用戶行為特征值清洗,構建用戶行為評分矩陣表,使用召回、排序算法進行模型訓練并存儲,最終借助于AB測試臺完成項目的方案選取,總流程如圖1所示。

1? 數據源

數據源是推薦系統中最為關鍵的元素,因為算法都是公開的,而數據呈現隱秘性和私有性。對于推薦系統而言,數據又分為用戶數據和物品數據。本文主要針對用戶數據中的用戶行為數據進行研究,該部分數據主要指的是購買、收藏、瀏覽、關注等顯式反饋數據和頁面停留時長、跳轉連接(refer)、點擊等隱式反饋數據。

為了獲取上述用戶行為數據,本研究采用目前業內普遍選用的數據埋點技術進行收集。埋點技術在電商類領域運用較為成熟,它方便企業產品經理、運營部門統計分析復雜的用戶數據從而進行相關經營決策。目前行業內有神策分析等第三方統計平臺,雖能夠針對PV、UV數據指標進行統計,但缺乏定制化。本研究采取的是通過代碼埋點的方式以定制化的方式完成用戶行為數據采集。

埋點行為發生在客戶端,可以是Web端、也可以是H5、APP、wxapp等終端。當用戶發生瀏覽行為或者點擊行為時候,通過客戶端腳本Javascript程序發送head請求,將用戶行為數據以json的格式封裝在請求頭中,如圖2所示。在實際應用中,將客戶端頁面部署在nginx服務器上,繼而客戶端行為觸發http請求,并將所攜帶埋點對應數據將寫入nginx日志文件中[2]。

2? 數據倉庫與數據清洗

2.1? 數據采集

當用戶發生點擊、瀏覽、收藏等用戶行為時,通過埋點技術,系統將用該部分數據記錄在nginx web服務器的日志文件access.log中。通過flume組件,將用戶行為數據采集到hadoop集群中的HDFS中,本研究中,采取兩個節點的flume組件,完成數據采集[3]。相關節點以及對應的source、channel、sink層如圖3所示。

2.2? 數倉建設

本研究中,通過建設三層數據倉庫,最終生成用戶評分矩陣表,三層數據倉庫分別為ODS層,存儲用戶原始行為數據;DWD層,將用戶原始行為進行歸一后按權重、時間衰減進行計算后存儲;DWS層,將用戶行為評分進行Sigmoid標準化生成用戶物品評分矩陣。這三層數倉的建設采用hive組件完成,在數倉建表過程中,采用hive外部分區表,分別以年、月、日、時做為分區字段,采用sparksql技術進行數據的清洗、聚合等操作[4]。三層數倉建設如表1所示。

3? 系統建模

3.1? 基于系統過濾的召回與排序

一般推薦系統主要分為召回、排序兩階段,召回是對數據進行初步篩選,得到候選集,也就是初始推薦列表;排序則采用排序模型對召回生成的候選集打分排序,最終生成針對某一用戶的推薦列表,本文采用的是基于協同過濾的召回、排序算法[5,6]。

3.2? 召回階段

召回要使用不同的方法、從不同的角度篩選出候選集、滿足推薦商品的多樣性以及保證候選集和用戶的匹配度。本研究采用ALS算法與基于物品的協同過濾這種混合式的召回算法生成候選集。

3.2.1? ALS算法實現

基于數倉建設中的DWS層生成的用戶物品評分表,采用spark中所提供的sparkcore,spark MLlib技術完成ALS模型的訓練。具體參數如表2所示。

在創建ALS模型過程中,設置最大迭代次數maxIter=10,通過rank(取值20,30),reg(取值0.1,0.05),alpha(取值2.0,3.0)三個參數共8種全排列組合訓練模型,經過對比rmse值獲取最優模型[7,8],用此模型獲得的召回結果,存儲到HBASE中。

3.2.2? 基于物品的協同過濾

采用上述ALS算法獲取物品特征矩陣(model.itemFactors),通過余弦相似度計算,得到物品相似度矩陣。用戶物品打分矩陣(dws_user_item_rating)與該物品相似度矩陣相乘,得出用戶物品推薦列表,表格式如圖4所示。

3.2.3? 候選集的存儲

上述采用ALS算法與基于物品的協同過濾,在具體業務場景中,通過設置定時計劃任務來完成對前一天采集到的數據進行計算。在研究中我們設置0:30進行ALS算法數據計算,1:30實現基于物品協同過濾的數據計算。ALS與基于物品的協同過濾生成的候選集,以時間戳、用戶id組合做為rowkey,recall作為列簇,分別以兩種召回策略作為列名:als,item2item。將召回的結果存儲在HBASE的history_rs_recall表中,如圖5所示。最終將兩種召回策略的結果集取交集,即可獲得推薦列表。

3.3? 排序

通過上述召回步驟,已經生了一個候選集或者稱之為推薦列表。但是用戶在實際瀏覽商品過程中,興趣度僅僅停留在前幾頁商品列表網頁。基于此,需要對召回階段生成的候選集做一個排序,排序依據用戶對候選集對應商品點擊率的高低,從而篩選出用戶可能點擊概率高的商品推薦給用戶。本文采取基于邏輯回歸(LR)的排序方法,實現步驟具體如表3所示。

4? AB測試

AB測試是,在產品正式迭代發版之前,為同一個目標制定兩個或者兩個以上可行方案,在保證流量(用戶)的控制特征不同,而其他特征相同的前提下,將流量(用戶)分為多組,不同組流量(用戶)會看到不同的推薦方案,根據用戶的真實行為數據反饋,統計不同分組方案得到的業務數據,如留存率、點擊率、轉化率等,從而確定最優推薦迭代版本,如圖6所示。本文基于spring boot+vue搭建了AB測試管理平臺,主要有三個功能組成:“配置管理模塊”用于管理每個ab需求;“實時分流”模塊,根據用戶性別、設備等用戶信息進行分流;“實時效果分析統計”將分流后程序點擊、瀏覽以echarts圖的形式進行展示,如圖7所示。

5? 結? 論

推薦系統是人工智能領域一個重要的研究方向,有著巨大的應用價值。本文以電商領域用戶行為原始日志數據作為數據源,通過數據清洗構建用戶物品打分矩陣,通過召回與排序構建了基于用戶的物品推薦列表,通過搭建AB實現管理平臺,進行AB實驗實現推薦系統的擇優迭代。隨著基于內容的推薦系統、基于深度學習的推薦系統以及實時推薦系統研究,推薦系統將會更加廣泛應用在社會其他領域并造福于社會。

參考文獻:

[1] 顧軍林,劉瑋瑋,陳冠宇.基于Hadoop平臺的崗位推薦系統設計 [J].現代電子技術,2019,42(20):123-127.

[2] 秦道祥,路陽,張薺月,等.基于Spark技術的日志分析平臺設計與應用 [J].中國教育信息化,2021(19):50-54.

[3] 李柯.基于Flume、Kafka的日志采集系統分析研究 [J].電子技術與軟件工程,2022(10):255-258.

[4] 程志強.關于大數據時代的數據倉庫建設研究 [J].長江信息通信,2022,35(7):156-158.

[5] 李盼穎.基于協同過濾的個性化推薦算法 [D].張家口:河北建筑工程學院,2022.

[6] 崔麗莎.基于用戶特征和項目類型興趣的協同過濾推薦算法研究 [D].鄭州:河南財經政法大學,2022.

[7] 文雅.基于大數據的用戶個性化推薦策略研究 [D]. 北京:北京郵電大學,2021.

[8] 周晶,劉丹,李慧超,等.考慮用戶興趣的個性化協同過濾推薦方法 [J].微型電腦應用,2022,38(8):74-78.

作者簡介:谷廣兵(1986—),男,漢族,河南舞陽人,專任教師,講師,碩士,研究方向:大數據技術與應用。

收稿日期:2022-10-24

猜你喜歡
大數據技術排序
排排序
排序不等式
恐怖排序
節日排序
刻舟求劍
兒童繪本(2018年5期)2018-04-12 16:45:32
大數據技術在電子商務中的應用
大數據技術對新聞業務的影響研究
論大數據技術在智能電網中的應用
高校檔案管理信息服務中大數據技術的應用
大數據技術在電氣工程中的應用探討
主站蜘蛛池模板: 亚洲天堂视频网| 中文字幕免费在线视频| 国产在线98福利播放视频免费| 伊人久久福利中文字幕| 国产拍在线| 国产噜噜在线视频观看| 九九久久精品国产av片囯产区| 国产日韩av在线播放| 国产69精品久久久久妇女| 黄色一及毛片| 亚洲无限乱码一二三四区| 超清无码一区二区三区| 国产高潮流白浆视频| 免费午夜无码18禁无码影院| 亚洲欧美在线看片AI| 国产制服丝袜无码视频| 日韩 欧美 国产 精品 综合| 国产香蕉在线视频| a级毛片毛片免费观看久潮| 国产精品分类视频分类一区| 日韩欧美国产三级| 日韩无码白| 91精品专区| 好吊妞欧美视频免费| 精品夜恋影院亚洲欧洲| 精品黑人一区二区三区| 国产九九精品视频| 国产一在线| 一级毛片在线直接观看| 亚洲国产天堂久久综合226114| 永久免费无码成人网站| 亚洲欧美日韩动漫| 午夜a级毛片| 99久久国产综合精品女同| 99精品在线看| 国产男女免费完整版视频| 91探花在线观看国产最新| 国产精品视频猛进猛出| 日本精品中文字幕在线不卡| 欧美性色综合网| 亚洲国语自产一区第二页| 欧美色视频在线| 免费国产黄线在线观看| av午夜福利一片免费看| 国产精品99一区不卡| 国产亚洲精久久久久久久91| 精品视频一区二区观看| 黄色网在线| 71pao成人国产永久免费视频| 女人av社区男人的天堂| 国产丝袜啪啪| 国产精品人成在线播放| 亚洲日韩久久综合中文字幕| 91久久青青草原精品国产| 国产欧美成人不卡视频| 中文字幕波多野不卡一区| 亚洲日韩第九十九页| 亚洲动漫h| 成人噜噜噜视频在线观看| 二级特黄绝大片免费视频大片| 日韩av在线直播| 91福利一区二区三区| 亚洲天堂视频在线观看免费| 啦啦啦网站在线观看a毛片| 无码一区中文字幕| 久久伊人操| 天堂va亚洲va欧美va国产| 日韩精品欧美国产在线| 欧美色图久久| 91视频精品| 日韩二区三区无| 亚洲v日韩v欧美在线观看| 麻豆精品国产自产在线| 国产探花在线视频| 亚卅精品无码久久毛片乌克兰 | 国产伦精品一区二区三区视频优播| 亚洲国产看片基地久久1024| 香蕉视频在线精品| 免费一级成人毛片| 欧美亚洲另类在线观看| 伊人激情综合网| 久久不卡精品|