摘 要:如今推薦系統(tǒng)在很多領(lǐng)域都有著較好的應(yīng)用,例如購物網(wǎng)站、新聞網(wǎng)站、檢索網(wǎng)站和音樂視頻網(wǎng)站等。尤其是視頻網(wǎng)站,推薦系統(tǒng)各式各樣,不同的視頻網(wǎng)站都使用特定的推薦系統(tǒng)向用戶進(jìn)行個性化推薦,不同的推薦系統(tǒng)所實(shí)現(xiàn)的推薦效果也是不同的,每個推薦系統(tǒng)都有各自的優(yōu)點(diǎn)和缺點(diǎn)。本文對近幾年視頻推薦系統(tǒng)的研究進(jìn)行綜述,介紹常用的推薦算法,并結(jié)合在實(shí)際中使用視頻網(wǎng)站的體驗(yàn),針對具體的視頻網(wǎng)站指出其存在的問題并提出改進(jìn)建議。
關(guān)鍵詞:推薦系統(tǒng);視頻網(wǎng)站;用戶行為
中圖分類號:TP391.41 文獻(xiàn)標(biāo)識碼:A 文章編號:2096-4706(2019)03-0018-03
Video Website Recommendation System Research
LIU Yanxin
(Shanxi University of Finance and Economics,Taiyuan 030006,China)
Abstract:Today’s recommendation system has good applications in many areas,such as shopping websites,news websites,search websites and music video websites. Particular in video websites have various recommendation systems. Different video websites use specific recommendation systems to personalize recommendations to users. Different recommendation systems implement different recommendation effects. Each recommendation system has its own advantages and diSadvantages. This paper summarizes the research of video recommendation system in recent years,introduces the commonly used recommendation algorithm,and combines the experience of using video website in practice,points out the existing problems and proposes improvement suggestions for specific video websites.
Keywords:recommended system;video website;user behavior
1 研究背景和意義
網(wǎng)絡(luò)信息技術(shù)的發(fā)展,使得信息逐漸過載,在過載的信息中,視頻信息由于其自身特性,更加引人注目,由此出現(xiàn)了形式多變的視頻網(wǎng)站。視頻網(wǎng)站上過多的視頻信息導(dǎo)致人們很難從海量的視頻信息中得到自己想要獲取的視頻信息,但是人們對視頻信息的需求又十分迫切,推薦系統(tǒng)較好地解決了視頻信息過載的問題。視頻網(wǎng)站使用推薦系統(tǒng)向用戶進(jìn)行個性化視頻推薦,通過對用戶的觀看記錄等信息進(jìn)行分析,把用戶可能感興趣的視頻推薦給用戶,大大提升了用戶的使用體驗(yàn)。作為視頻網(wǎng)站,采取較好的視頻推薦系統(tǒng),有效地向用戶推薦其感興趣的視頻,才會吸引更多的用戶訪問,并且節(jié)省費(fèi)用,所以對視頻推薦系統(tǒng)進(jìn)行研究是十分必要的。本文對視頻推薦系統(tǒng)的算法和應(yīng)用研究進(jìn)行分析,并針對嗶哩嗶哩視頻網(wǎng)站提出在推薦視頻時存在的問題和改進(jìn)建議。
2 視頻推薦算法
推薦算法是推薦系統(tǒng)中最為重要的部分,本文從采用單個算法推薦和采用混合算法推薦兩個角度進(jìn)行分析。
2.1 采用單個算法推薦
基于內(nèi)容的推薦算法一般是通過對目標(biāo)用戶的歷史行為進(jìn)行統(tǒng)計(jì),而行為又分為顯示反饋、隱式反饋,用戶觀看完視頻后對視頻所打的分就是對視頻的顯式反饋數(shù)據(jù),而用戶觀看了視頻但是沒有進(jìn)行打分的這些視頻就是隱式反饋數(shù)據(jù)。根據(jù)與目標(biāo)用戶有過交互的視頻得到用戶的偏好,然后基于用戶行為計(jì)算其他視頻的相似程度,將最相似的視頻推薦給用戶。匡俊[1]等針對點(diǎn)擊率預(yù)測準(zhǔn)確性較差的情形將特征工程和機(jī)器學(xué)習(xí)結(jié)合,提高了視頻點(diǎn)擊率預(yù)測算法的準(zhǔn)確率。對視頻進(jìn)行特征提取,有效地避免了冷啟動的問題,但是特征的提取可能會比較困難。
基于協(xié)同過濾算法是Goldberg[2]等人提出的,在實(shí)際生活中最為常用的一種推薦算法。算法通過找尋與目標(biāo)用戶相似的用戶進(jìn)而推薦視頻,文獻(xiàn)[3]中將協(xié)同過濾方法分成兩類,基于近鄰和基于模型,基于近鄰是直接使用收集到的數(shù)據(jù)進(jìn)行相似性判斷,基于模型則是對具體用戶構(gòu)建偏好模型然后進(jìn)行推薦。在傳統(tǒng)的協(xié)同過濾算法的基礎(chǔ)上,李珊珊[4]對相似度計(jì)算進(jìn)行了改進(jìn),有效地避免了熱門視頻對推薦結(jié)果的影響;蘇夢珂[5]等綜合考慮用戶的行為一致性和信息熵兩個指標(biāo)對數(shù)據(jù)進(jìn)行評價(jià),減少了因?yàn)閿?shù)據(jù)質(zhì)量問題導(dǎo)致推薦結(jié)果出現(xiàn)偏差的可能性。協(xié)同過濾推薦算法使用較為簡單,效果較好,適用于特征提取較為困難的數(shù)據(jù),例如視頻數(shù)據(jù),但是可能會因?yàn)橛脩舻臄?shù)據(jù)較少而遇到冷啟動問題。
深度學(xué)習(xí)是輸入目標(biāo)用戶和視頻的相關(guān)數(shù)據(jù),使用深度學(xué)習(xí)模型,得到給目標(biāo)用戶的視頻推薦。高睿[6]提出了兩種基于深度神經(jīng)網(wǎng)絡(luò)的視頻個性化推薦算法,分別為基于深度語義模型和基于概率語言模型的推薦算法,提升了推薦效果。李同歡等[7]提出了一種基于深度學(xué)習(xí)的多交互混合推薦模型,輸入在深度學(xué)習(xí)模型的基礎(chǔ)上得到的信息,使用多層交互的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行學(xué)習(xí),最后聚合進(jìn)行推薦。黃立威等[8]對基于深度學(xué)習(xí)的推薦系統(tǒng)的研究進(jìn)行分析,提出了未來推薦算法的發(fā)展方向。
除了單純考慮用戶和視頻之間的關(guān)聯(lián),也要考慮目標(biāo)用戶在做出某種行為時的具體場景,文獻(xiàn)[9]將情境信息添加到傳統(tǒng)的推薦中,使得推薦更加立體。
2.2 采用混合算法推薦
雖然每種推薦算法都有各自的優(yōu)點(diǎn),但是單獨(dú)使用一種推薦算法又有一定的缺陷,所以一般將不同的推薦算法進(jìn)行混合后再進(jìn)行推薦,能夠較好地避免各自的缺陷,提高整體推薦效果。比較常用的是將基于內(nèi)容和基于協(xié)同過濾的兩種算法結(jié)合,湯偉[10]提出了基于Web挖掘的個性化視頻推薦系統(tǒng),通過對用戶的Web日志進(jìn)行分析生成目標(biāo)用戶模型,針對稀疏數(shù)據(jù)使用PCA進(jìn)行降維,并使用內(nèi)容和協(xié)同過濾結(jié)合的算法進(jìn)行推薦。文獻(xiàn)[11]提出將傳統(tǒng)的推薦算法改進(jìn)為可以在分布式平臺上使用的算法,使用Hadoop平臺并結(jié)合其他工具來進(jìn)行推薦。翁小蘭等人[12]則針對在使用傳統(tǒng)協(xié)同過濾算法進(jìn)行推薦時遇到的數(shù)據(jù)稀疏、冷啟動等問題,將協(xié)同過濾算法與大數(shù)據(jù)技術(shù)、社會網(wǎng)絡(luò)等技術(shù)結(jié)合對算法進(jìn)行改進(jìn)研究。
3 視頻推薦具體應(yīng)用
視頻推薦也有著很多的應(yīng)用,國外用戶使用較多的視頻網(wǎng)站有YouTube、Netflix等,YouTube在全世界是被廣泛使用的視頻網(wǎng)站,每個用戶都可以在網(wǎng)站上上傳和觀看視頻,用戶上傳視頻所標(biāo)記的標(biāo)簽會影響用戶對視頻的關(guān)注程度,很多學(xué)者對視頻標(biāo)簽進(jìn)行了研究,Xu等人[13]提出了可以直接為用戶上傳的視頻生成標(biāo)簽的EventDemo系統(tǒng),保證了標(biāo)簽的準(zhǔn)確性。夏冬晨[14]提出了一種方法,可以提高YouTube視頻的關(guān)注度,使得視頻可能被更多用戶所觀看,增加視頻的點(diǎn)擊率。Netflix[15]是世界最大的收費(fèi)視頻網(wǎng)站,從Netflix的發(fā)展歷史來看,正是舉辦的Netflix Prize比賽,推動了視頻推薦的發(fā)展,并且吸引了更多的人來研究推薦系統(tǒng),網(wǎng)站本身也受益很多,早期比賽主要目標(biāo)是預(yù)測用戶對視頻的評分,現(xiàn)在則是通過分析用戶的觀看行為,來為用戶進(jìn)行推薦。
在國內(nèi),用戶普遍使用的是優(yōu)酷、騰訊、愛奇藝、嗶哩嗶哩等視頻網(wǎng)站,推薦視頻采用的是召回+排序,因?yàn)橐曨l數(shù)量大,全部排序會低效,所以先進(jìn)行召回找到值得推薦的視頻,然后再對已經(jīng)篩選過的視頻進(jìn)行排序,將最優(yōu)的視頻推薦給目標(biāo)用戶。
4 具體視頻網(wǎng)站推薦時存在的問題及相關(guān)建議
嗶哩嗶哩視頻網(wǎng)站視頻內(nèi)容的獨(dú)特性,吸引了很多的用戶使用,但是在向用戶推薦視頻時可能會遇到以下問題。
4.1 視頻標(biāo)題、標(biāo)簽與內(nèi)容不匹配
上傳者上傳視頻時會給視頻起標(biāo)題,并添加標(biāo)簽,方便用戶進(jìn)行搜索,但是可能會出現(xiàn)標(biāo)題、標(biāo)簽和視頻的具體內(nèi)容不匹配的情況,這會降低用戶的觀看體驗(yàn)。針對這個問題可以通過分析視頻的具體內(nèi)容,結(jié)合觀看過該視頻的用戶的評價(jià),對標(biāo)題和標(biāo)簽進(jìn)行適當(dāng)?shù)男薷模岣咂渑c視頻的匹配度。
4.2 用戶觀看信息難以區(qū)分
用戶對視頻的操作不能簡單的用“是否觀看”“是否評價(jià)”等標(biāo)準(zhǔn)來評判,因?yàn)橛脩魧σ曨l的喜好程度是不同的。例如用戶觀看視頻時是否有跳過、加速、手滑點(diǎn)錯等行為都會影響觀看視頻的時長,用戶的觀看信息也是不同的。所以在特征提取的時候再進(jìn)行細(xì)化,對用戶的觀看行為不能用一個標(biāo)準(zhǔn)來衡量,而是針對具體情形設(shè)置特征的取值。
4.3 評價(jià)信息沒有價(jià)值
用戶在手機(jī)上可以對視頻進(jìn)行點(diǎn)贊、差評等操作,但是在網(wǎng)頁上卻沒有差評這個選項(xiàng),這就導(dǎo)致用戶對同一視頻的評價(jià)產(chǎn)生差別。在收集用戶對視頻的評價(jià)時,不同等級的用戶對視頻的評價(jià)的重視程度應(yīng)該有一定的差異。還有部分的惡意行為,例如某些用戶不觀看視頻卻對視頻做出評價(jià),或者該用戶評價(jià)與其他用戶評價(jià)差距較大,這種評價(jià)會對推薦的結(jié)果造成一定影響。視頻網(wǎng)站可以結(jié)合用戶的觀看具體信息來判斷用戶的評價(jià)的價(jià)值。
5 結(jié) 論
本文通過對視頻推薦算法進(jìn)行分析,總結(jié)了常用的視頻推薦算法,在此基礎(chǔ)上,針對嗶哩嗶哩視頻網(wǎng)站在推薦視頻時存在的問題提出了改進(jìn)的建議,希望能有一些借鑒價(jià)值。
參考文獻(xiàn):
[1] 匡俊,唐衛(wèi)紅,陳雷慧,等.基于特征工程的視頻點(diǎn)擊率預(yù)測算法 [J].華東師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2018(3):77-87.
[2] David Goldberg,David Nichols,Brian M. Oki,et al. Using collaborative filtering to weave an information tapestry [J]. Communications of the ACM,1992,35(12):61-70.
[3] Deshpande M,KarypisG.Item-based top- N,recommendation algorithms [M].ACM,2004.
[4] 李姍姍.基于協(xié)同過濾的視頻推薦系統(tǒng)設(shè)計(jì) [D].南京:南京郵電大學(xué),2017.
[5] 蘇夢珂,楊煜普.基于信息熵和用戶行為一致性的協(xié)同過濾分組推薦 [J/OL].計(jì)算機(jī)應(yīng)用研究:1-6.http://kns.cnki.net/kcms/detail/51.1196.TP.20181009.1405.010.html,2018-10-26.
[6] 高睿.基于深度神經(jīng)網(wǎng)絡(luò)的視頻個性化推薦系統(tǒng)研究 [D].深圳:深圳大學(xué),2017.
[7] 李同歡,唐雁,劉冰.基于深度學(xué)習(xí)的多交互混合推薦模型 [J/OL].計(jì)算機(jī)工程與應(yīng)用:1-9.http://kns.cnki.net/kcms/detail/11.2127.TP.20180913.0636.010.html,2018-10-26.
[8] 黃立威,江碧濤,呂守業(yè),等.基于深度學(xué)習(xí)的推薦系統(tǒng)研究綜述 [J].計(jì)算機(jī)學(xué)報(bào),2018,41(7):1619-1647.
[9] Gediminas Adomavicius,Ramesh Sankaranarayanan,Shahana Sen,et al. Incorporating contextual information in recommender systems using a multidimensional approach [J]. ACM TranSactions on Information Systems,2005,23(1):103-145.
[10] 湯偉.基于Web挖掘的個性化視頻推薦系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn) [J].電子設(shè)計(jì)工程,2018,26(18):102-106+112.
[11] 韓皎.基于分布式平臺的個性化推薦算法研究 [D].西安:長安大學(xué),2017.
[12] 翁小蘭,王志堅(jiān).協(xié)同過濾推薦算法研究進(jìn)展 [J].計(jì)算機(jī)工程與應(yīng)用,2018,54(1):25-31.
[13] Xu H,Ye G,Li Y,et al. Large Video Event Ontology Browsing,Search and Tagging (EventNet Demo) [C]// ACM International Conference on Multimedia. ACM,2015:803-804.
[14] 夏冬晨.基于YouTube的視頻社會關(guān)注度提高方法的研究 [D].杭州:杭州電子科技大學(xué),2017.
[15] Netflix官網(wǎng).https://lunhem.com/s.php?t=Netflix.
作者簡介:劉焱昕(1995-),女,漢族,山西長治人,2016屆計(jì)算機(jī)應(yīng)用技術(shù)專業(yè),碩士研究生,研究方向:數(shù)據(jù)挖掘。