999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大數據的推薦系統研究

2020-10-10 06:38:42王彥琨
通信電源技術 2020年12期
關鍵詞:用戶信息系統

王彥琨

(太原理工大學,山西 晉中 030600)

0 引 言

近年來,數據總量呈現指數級增長趨勢,信息技術的應用范圍和邊界不斷延伸。據統計,全球數據總量預計2020年達到44 ZB,其中中國數據量將達到8 060 EB,占全球數據總量的18%。數據的爆發式增長為互聯網行業帶來了機遇與挑戰,對人類生活產生了重大影響。目前,人們談及的推薦系統在互聯網行業有著廣泛應用,其中絕大部分是涉及“大數據”概念下的人工智能領域技術。個性化推薦系統原理并不復雜,但能大幅提升數據的使用效率。目前,這種基于大數據的統計分析技術已經相對成熟。

1 用戶行為數據收集

用戶行為數據收集是構建推薦系統最關鍵的一步。網站日志記錄是用戶行為數據最簡單的存在形式。網頁原始日志可以按照用戶行為的類別匯總成日志,每個會話用于表示一次用戶行為和相應的行為反饋。會話日志通常存儲在分布式數據系統中。利用網站用戶行為日志可以方便地收集相關數據[1]。

批量化的系統文件日志數據通常使用編寫語言腳本的方式采集,利用各種編程語言的網絡爬蟲方式從網站上獲取批量數據信息,提取網頁日志中文本形式的數據,并均衡分配到分布式存儲系統的不同計算機上,以便進行下一步的統計分析處理。文件數據的收集方式為開發人員提供了一個高可擴展的、高可靠性以及高容錯性的推薦方案。

2 用戶行為數據存儲

存儲的用戶行為數據越全面,推薦系統給出的結果就越準確。分布式存儲可以用來實現海量數據的存儲管理,通過可擴展的系統結構,使用多個存儲服務器共享存儲負載,從而滿足大規模存儲應用的需求。此外,分布式存儲系統的自動負載平衡和高容錯性允許在廉價的服務器上構建分布式存儲系統,可以選擇使用標準MySQL數據庫、鍵值數據庫、文檔數據庫甚至是某種實時流處理。不同的數據庫按不同的數據結構進行聯系和組織。

3 用戶行為數據分析

利用統計方法對海量用戶行為數據進行深度分析挖掘,提取所需信息,這一過程稱為數據分析。根據數據的實時性分類,數據分析可以分為實時分析、批量分析以及近實時分析3種方式。

實時數據分析可以通過對訪問用戶日志的實時采集與推送,實現快速對日志數據進行多維度的分析與檢索,在存儲數據的同時進行信息挖掘分析,從而為互聯網用戶提供具有實效性的推薦結果,以獲取更大的數據價值[2]。但是,實時數據流的不斷涌入導致必須重塑系統基本架構。批量數據分析可以給定數據的處理期限,如每隔1 h執行一次數據處理。但是,這種數據分析方式只能在一定程度上滿足用戶需求,無法保證數據一致性和可靠性。近實時分析介于實時分析和批量分析兩種數據分析方式之間,可以在間隔很小的一個時間段內進行用戶行為數據的采集。這樣的推薦系統在用戶每次瀏覽頁面時能給出推薦結果,具有較好的實時性。

4 用戶行為數據過濾

數據過濾是整個推薦系統中最核心的部分,本文主要介紹協同過濾算法。協同過濾算法是信息過濾技術中的一種常用方法,一般采用最近鄰技術,處理對象是由用戶行為所表示的數據。協同過濾進一步挖掘了互聯網用戶的興趣所在,旨在找到與大量其他用戶具有相似喜好的用戶,對物品評價以類似于加權的方式進行處理,由此預測系統中該用戶對此信息或物品的興趣程度。

4.1 基于用戶的協同過濾算法

基于用戶的協同過濾算法可以理解為:推薦系統中為單個用戶給出個性化建議時,先要找到和他的興趣愛好具有較高相似程度的用戶群體,通過統計用戶群體大概率喜歡的商品,使得該用戶能找到其他用戶喜歡的且自己沒見過的物品[3]。基于用戶的協同過濾算法主要包括獲取特定用戶的興趣愛好、發現興趣相似的用戶和推薦潛在物品3個基本步驟。

4.2 基于物品的協同過濾算法

基于物品的協同過濾算法不使用內特征屬性項來計算物品之間的相似度,商品之間的距離通過比較不同用戶的行為記錄來計算。應用該算法可以得出結論,兩個不同的物品具有很大相似度的原因是喜歡其中一件物品的網絡用戶大都對另一件物品感興趣。基于物品的協同過濾算法分兩步實現,即計算不同物品的距離,在此研究基礎上通過生成物品的相似度矩陣,為特定用戶生成物品推薦列表。

5 推薦系統評測方法

目前,主要有3種評測推薦效果的方法。

離線實驗的方法。首先,通過企業網站日志獲取相關數據,按照標準生成一個結構化數據集;其次,將結構化數據集按照一定比例分為訓練集和測試集,分別用于訓練模型和預測;最后,通過建立相應的評測算法,在用戶物品模型上進行預測。存在的缺點是稀疏數據集限制了系統的應用范圍[4]。

用戶行為調查。用戶行為調查需要現實中的用戶在系統中回答給定問題,根據答案和行為計算系統的各項評測性能指標[5]。這有利于了解用戶的主觀感受,及時更正錯誤,因為預測率較高并不等同于用戶確實較為滿意。缺點是時間成本較高,需要盡可能保證用戶行為的真實有效性。

AB測試。在完成離線實驗和用戶行為調查的基礎上,可以執行AB測試。AB測試的基本思想是并行測試多個系統,而不同的系統以某種規則進行比較,且每個測試系統只存在一個不同的變量。缺點是周期較長,為了得到可靠的結果需要進行長期的實驗。

推薦系統上的AB測試與其他系統的聯系如圖1所示。

圖1 評測系統和其他系統的關系

6 結 論

推薦系統的出現一定程度上彌補了傳統信息搜索處理方法的局限。這一系統的執行依賴于海量的用戶信息,能夠快速幫助用戶找到感興趣的信息,目前已應用于大量商業軟件,并將逐漸成為用戶發現信息的重要來源。

猜你喜歡
用戶信息系統
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
主站蜘蛛池模板: 国产精品人人做人人爽人人添| 久久人体视频| 热九九精品| 亚洲欧洲美色一区二区三区| 亚洲AⅤ无码国产精品| 亚洲福利片无码最新在线播放| 国产日韩AV高潮在线| 国产手机在线小视频免费观看| 91久久偷偷做嫩草影院免费看| 久久综合亚洲色一区二区三区| 精品国产污污免费网站| 青青青国产免费线在| 国产精品偷伦视频免费观看国产| 日韩毛片免费视频| 一级福利视频| 蜜臀av性久久久久蜜臀aⅴ麻豆| 成人日韩视频| 超清无码一区二区三区| 亚洲人成色77777在线观看| 伊人久热这里只有精品视频99| 男女精品视频| 情侣午夜国产在线一区无码| 久久 午夜福利 张柏芝| 天天综合亚洲| 国模视频一区二区| 欧美日本不卡| 欧美综合区自拍亚洲综合天堂| 看国产毛片| 九色在线视频导航91| 国产无遮挡猛进猛出免费软件| 一级香蕉人体视频| 中国精品久久| 亚洲欧美日韩动漫| 国产久草视频| 污网站在线观看视频| 国产精品污视频| 99精品欧美一区| 澳门av无码| 欧美不卡二区| 亚洲综合天堂网| 午夜国产大片免费观看| 天天色综合4| 成人看片欧美一区二区| 久久99久久无码毛片一区二区| 亚洲人成电影在线播放| 欧美在线一二区| 免费人欧美成又黄又爽的视频| 久久香蕉国产线看观看精品蕉| 99re视频在线| 日本道综合一本久久久88| 好紧好深好大乳无码中文字幕| 欧美视频在线不卡| 五月婷婷丁香色| 欧美成人精品高清在线下载| 无码高潮喷水在线观看| 国产精品久线在线观看| 国产真实二区一区在线亚洲| 18禁色诱爆乳网站| 综合色88| 高清亚洲欧美在线看| 免费在线色| 自拍亚洲欧美精品| 91色在线视频| 性视频久久| 91麻豆精品国产高清在线| 国产精品网曝门免费视频| 无码精品国产dvd在线观看9久| 热思思久久免费视频| 亚洲日韩图片专区第1页| 午夜啪啪福利| 国产va欧美va在线观看| 91无码网站| 国产精品网拍在线| 狂欢视频在线观看不卡| 丝袜国产一区| 天天色天天综合| 中文字幕亚洲另类天堂| 国产亚洲视频免费播放| 久久a级片| 日本人真淫视频一区二区三区| 色哟哟国产精品| 久久天天躁狠狠躁夜夜2020一|