李芳芳 王占剛



摘要:根據(jù)用戶觀看的視頻時(shí)長(zhǎng)與視頻的實(shí)際時(shí)長(zhǎng)信息來計(jì)算用戶對(duì)該視頻的喜好度,在spark內(nèi)存計(jì)算框架下,以喜好度作為特征項(xiàng),使用樸素貝葉斯,TF-IDF和改進(jìn)了的TFC-IDFC分類算法,對(duì)視頻用戶屬性進(jìn)行分析,建立用戶年齡區(qū)間的分類模型。此分類模型適合視頻網(wǎng)站運(yùn)營(yíng)商將信息準(zhǔn)確的推薦給用戶,同時(shí)可提高信息的利用率??紤]到傳統(tǒng)的TF-IDF算法沒有體現(xiàn)特征項(xiàng)在類內(nèi)和類間的分布特點(diǎn),提出了改進(jìn)的TFC-IDFC算法,通過正確率和F1值兩個(gè)指標(biāo)對(duì)以上三種分類算法的評(píng)價(jià),證明了加權(quán)的分類算法比不加權(quán)的算法分類效果更好,改進(jìn)的TFC-IDFC算法比傳統(tǒng)的TF-IDF算法效果更優(yōu)。
關(guān)鍵詞:TF-IDF;喜好度;spark;視頻;用戶分類
0引言
在現(xiàn)今的日常生活中,網(wǎng)絡(luò)視頻已成為人們學(xué)習(xí)、娛樂、交流的主要途徑。然而用戶在享受豐富視頻資源的同時(shí),視頻查找過程卻消耗了越來越多的時(shí)間和精力。如何充分利用用戶在視頻網(wǎng)站瀏覽行為以及視頻觀看行為信息進(jìn)行分析,建立用戶標(biāo)簽,將用戶想要的信息準(zhǔn)確的推薦給用戶,實(shí)現(xiàn)精準(zhǔn)運(yùn)營(yíng),已成為近年數(shù)據(jù)分析領(lǐng)域的熱門研究之一。
由于視頻與文字、圖片、語音相比數(shù)據(jù)量大,分析過程復(fù)雜,目前基于用戶分析大部分都集中在對(duì)微博、手機(jī)上網(wǎng)日志,社交網(wǎng)絡(luò)等領(lǐng)域的研究,很少對(duì)視頻網(wǎng)站數(shù)據(jù)進(jìn)行分析。馮婷婷通過用戶瀏覽視頻的行為,利用支持向量機(jī)等分類器進(jìn)行性別推理;張慷通過大數(shù)據(jù)平臺(tái)對(duì)DPI上網(wǎng)日志和用戶信息進(jìn)行深度分析,形成手機(jī)用戶畫像;……