999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于會話記錄的Word2Vec音樂推薦算法研究*

2019-04-30 01:47:50周航帆周蓮英
通信技術 2019年4期
關鍵詞:音樂用戶模型

周航帆,周蓮英

(江蘇大學 計算機科學與通信工程學院,江蘇 鎮江 212013)

0 引 言

近年來,流媒體音樂服務在全球市場的強勢崛起,越來越多的聽眾愈加傾向于流媒體服務來欣賞音樂。與此同時,其產生龐大的異構音樂數據無疑超出了聽眾有限的承受能力。因此個性化音樂推薦幫助用戶過濾大量“冗余”音樂,為用戶定制個性化聽歌模式顯得尤為重要。大多數傳統推薦算法往往更注重用戶的歷史興趣,卻忽視了用戶短時間內的偏好趨向,而聽音樂是一種典型對于短時間內背景環境依賴的行為[1],例如:在鍛煉時,人們通常喜歡大聲,精力充沛的音樂,休息時享受安靜的音樂。隨著一系列電子產品的廣泛普及,人們可以隨時隨地的欣賞音樂。但是我們卻很難直接獲取用戶的實時的背景信息。

基于會話記錄[2]推薦的提出很好的解決了上文描述的情況,會話記錄(session)指的是用戶短時間內一連串的交互操作行為,典型場景比如購物車,服務器端為特定的對象創建了一定時間內特定的會話記錄,用于標識這個對象,并且跟蹤用戶的瀏覽點擊行為,可以將其理解為具有局部關系的一些記錄序列。然而因為涉及隱私等問題無法直接獲得會話數據集,在論文中我們將歷史記錄數據集以會話分割以及一些預處理方式形成會話記錄,關鍵在于時間戳相隔時間Δt超過30分鐘定義成兩個不同的會話記錄。通過這種形式合理模擬出會話記錄,滿足本文所需解決問題。

在論文中,提出了一種基于會話記錄的Word2Vec音樂推薦算法,可根據用戶當前所處背景實時個性化推薦。具體研究思路如下:通過基于負采樣(Negative Sampling)加速訓練的連續詞袋模型(Continuous Bag-of-Words Model,CBOW)學習會話記錄中音樂的低維、稠密的詞向量。其可描述基于會話記錄大數據背景下的音樂內在本質。同時會話記錄前驅的詞向量均值代表用戶,給其推薦處于當前背景下的最相似歌曲。為了驗證提出算法的有效性,在會話分割后的Last.fm數據集進行了實驗分析。實驗結果表明。本文提出基于會話記錄的Word2Vec推薦算法效用性明顯高于通用推薦算法。意味著用戶在短期會話過程中,用戶的即時心境受各種因素影響,當前歌曲的播放對用戶后續的聽歌狀態也有著關鍵的影響,基于會話分割后的即時會話序列更好地捕捉用戶心理的細膩變化。

1 相關工作

1.1 個性化音樂推薦

現階段一般物品所使用的推薦算法都是基于用戶的歷史記錄進行分析,在此基礎上給用戶推薦其想要的東西,因此基于內容的推薦算法、協同過濾推薦和混合推薦算法等傳統推薦算法同樣適用于音樂推薦系統。

Kuo等人分析用戶播放音樂的節拍和旋律,進一步對利用旋律偏好分類器分類。給用戶推薦相似節拍和旋律的歌曲[3]。

于帥等人提出大規模隱式反饋的詞向量音樂推薦模型原理類似于協同過濾算法,通過詞向量模型挖掘了用戶的長期歷史偏好,保證推薦效果的同時,模型收斂速度更快,擴展性強[4]。

李博等人將音頻特征分析與協同過濾算法相結合,通過基于狄利克雷分布主題挖掘模型(Latent Dirichlet Allocation,LDA)向用戶推薦音樂,取得了不錯的效果[5]。

但是相較于一般物品推薦,用戶在某個時間段內選擇的音樂更易反映用戶當時的心理狀態與需求,且一段時間內播放的音樂之間具備強關聯特性。

Karatzoglou A等人將單個用戶切分成多個重疊子文件,通過對子文件分析在特定上下文對用戶進行推薦,但是僅將一天分為兩個時間段,不足以挖掘用戶的潛在特征[6]。

Zimdars A等人基于馬爾科夫鏈提出一種序列推薦模型,推薦思想主要依據鄰居物品之間的轉移概率進行簡單的計算[7]。

Wang X等人具體分析不同日常活動下的聽歌習慣進而滿足用戶在不同情境下的聽歌偏好[8]。

1.2 詞的分布式表示

詞的概念通常在自然語言處理任務中,我們需將任務語料轉化成數學的形式交給機器學習算法處理。最初詞語的表示通過獨熱編碼的方式(One-hot Representation)表達,即對于詞典中D中的一個詞w,通過一個很長的向量表示,向量長度即詞典D的大小N,向量的分量只有一個1,其余全為0,1的位置對應詞w在詞典中的索引,然而在實際運用中,詞典規模大小通常在上萬甚至百萬,且不斷有新詞出現,故獨熱編碼方式不可取,總結而言,使用獨熱編碼存在以下缺陷:

(1)無法體現語義或者語法相似詞之間的關聯性。

(2)隨著數據樣本的不斷增加,向量維度也會增加,從而導致“維度災難”以及數據稀疏性問題。

于是人們為了能讓計算機充分理解語料中各個詞自身的含義,以及各詞之間的關聯,分布式假設概念的提出完美的詮釋了這個問題。何為分布式假設,若兩個詞的上下文內容相似,這兩個詞具有相似的語義。如今的詞表示模型都是以此為基礎,1986年,Hindon首次提出分布式表示(Distributed Representation)模型[9],該模型的目的通過訓練獲得詞的固定維度形式表示出來,詞維度范圍通常在[50,400]之間,遠小于獨熱編碼的維度。這種做法大大減少了自然語言處理時的計算量,將原本稀疏的獨熱編碼表示形式壓縮嵌入至小維度空間,故又稱為詞向量或詞嵌入。且詞與詞之間的關聯也可以通過余弦相似度衡量,余弦相似度定義:

詞的分布式表示具有以下優勢:

(1)通過無監督學習模型充分反映詞的隱式特性。

(2)以低維、緊密的向量表示,捕捉語義或者語法之間的關聯信息。

詞的分布式表示特性具有重大意義,具備代表性的詞向量模型如下所示:

Bengio提出神經概率語言模型(Neural Probabilistic Language Model,NPLM),模型主要思想即通過詞上下文預測該詞,但是其非線性隱層以及最后的softmax層導致模型訓練大型語料庫時非常耗時[10]。

谷歌Mikolov團隊基于NPLM進一步改進并于2013年開源了Word2Vec框架,去除了NNLM最耗時的非線性隱層且所有詞共享,可以快速有效的訓練詞向量[11]。

2 基于會話記錄的Word2Vec音樂模型搭建

2.1 問題的形式化定義

基于用戶會話記錄的音樂推薦問題形式化定義如下。令U={u1,u2,…,um}表示用戶集合,M={m1,m2,…,mn}表示音樂集合,用戶u歷史聽歌記錄中存在x條會話記錄表示為H會話記錄具體可表示為當前時段播放音樂構成的集合其中會話記錄由會話前驅和目標歌曲兩部分組成,目的就是給定會話記錄Su中前驅內容,預測下一首音樂是否存在于推薦列表中,換句話說,推薦結果是否符合用戶期望,論文問題的求解通過CBOW模型訓練完后,獲得輸入層至投影層權重矩陣即為每個詞的詞向量。用戶向量取其會話前驅音樂詞向量均值,衡量用戶詞向量與曲庫中歌曲詞向量余弦相似度,給其推薦K首最易被用戶接受的歌曲。圖1為用戶-歌曲空間嵌入模型示意圖。

圖1 用戶-歌曲空間嵌入示意

2.2 基于會話記錄的音樂詞向量建模

Word2vec是一種神經網絡模型,起初用于學習各種自然語言的實數向量表示形式。最近幾年,這項技術被更廣泛地用到其他機器學習問題上,如產品推薦。神經網絡分析輸入的文本語料庫,對詞匯表中的每個單詞生成代表這個單詞的向量。這些向量數字就是我們所需要的,因為這些向量編碼了詞義與上下文的關系這一重要信息,其中定義了兩個主要模型:連續詞袋模型(Continuous Bagof-Words Model,CBOW)和跳字模型(Continuous Skip-gram Model,Skip-gram),CBOW模型假設基于某中心詞在文本序列前后的背景詞生成該中心詞,Skip-gram模型假設基于某個詞生成它在文本序列周圍的詞。

由于在局部時間段內,用戶偏好穩定。我們可以認為會話記錄內一系列的歌曲具有一定的相似性,而CBOW模型恰好可以讓用戶當前時刻聽的音樂與其上下文內容緊密關聯,通過學習用戶會話記錄中心詞與上下文的關聯信息,得到音樂低維,稠密的分布式向量表示,即會話記錄中各種因素綜合影響下的特征表示。基于會話記錄的音樂詞向量訓練模型如圖2所示。我們對會話記錄進行建模,從而通過CBOW模型訓練學習出音樂在會話環境背景影響下的屬性表達,每一首音樂可通過唯一的屬性特征向量進行表達,其中特征向量的每一個取值都表征著音樂的該屬性對于音樂的貢獻程度。

圖2 基于會話記錄的音樂詞向量模型

2.3 音樂詞向量提取理論推導

我們將會話記錄看作Word2Vec處理文本時的一個句子,將其中的每一首音樂類比句中的每一個詞。給定一個會話序列S={m1,m2,…,mT},會話中每個時間戳對應的音樂為mt,背景窗口大小設置為w。構造CBOW模型的目標函數,目的是最大化會話序列中的背景詞生成任一中心詞的概率:

設vi∈Rd和ui∈Rd分別表示音樂詞典中索引為i的音樂作為背景詞和中心詞的向量,設中心詞mc在詞典中的索引為c,背景詞mo1,…,mo2w在詞典中的索引為o1,…,o2w,給定背景詞生成中心詞的條件概率為:

從式(3)分母可以看出,softmax運算取決于音樂詞典規模,對于一個成熟的音樂系統,音樂規模量級通常達到百萬級別,每一步的梯度計算都包含了詞典規模項累加,計算開銷難以承受,為了減少計算開銷,本文選用負采樣(Negative Sampling)近似訓練,即使用一個二分類激活函數sigmoid在同一個上下文背景中從neg(m)個虛構的噪聲詞中區分出真正的中心詞,論文中正例只有中心詞mc一個,負例服從噪聲詞分布P(m),隨機生成neg(m)個非中心詞的其余詞,詞頻越高被選為噪聲詞的概率越大,那么采樣詞p∈mc∪neg(m),在該二分類器中,當給定背景詞對應正例(中心詞)標記為正樣本D(p)=1,當給定背景詞對應負例(噪聲詞)標記為負樣本D(p)=0,模型優化目的即最大化預測準確中心詞的概率,同時最小化預測出噪聲詞的概率。條件概率被近似表示為:

將式(4)取log值代入式(2),負采樣后單個會話記錄的損失函數為:

通過式(5)明顯發現計算開銷由O(|M|)降至O(|neg(m)|),其中neg(m)<<M,近似訓練的同時,大幅度提升計算效率。將式(5)中(vo1+…+vo2w)/2w簡記為,大括號內容記作L(u,),即:p

下面我們給出基于Negative Sampling的CBOW模型音樂詞向量更新偽代碼:

Step1∶neule=0

當損失函數值收斂,結束權重迭代,算法結束。

3 實驗及分析

3.1 數據集

本文實驗采用Last.fm Dataset-1k users音樂數據集(http∶//www.last.fm),該數據集收集了992個用戶的19 150 868條收聽記錄,其中包含<user,timestamp,artist,song>四元組,同時Last.fm也提供了開放接口Last.fm API方便獲取用戶近期播放記錄,具體數據集參數見表1。

表1 Last.fm Dataset-1k users數據集

3.2 會話分割及會話記錄預處理

實驗中將時間戳相隔時間Δt超過30 min(1 800 s)定義成兩個不同的會話記錄。同時為了減少原始數據中的噪聲信息對數據做了必要的預處理操作,主要包括下面三點:

(1)推薦系統目的預測相似并非相同,重復推薦導致推薦新穎度降低,本文實驗中僅將會話記錄中連續重復歌曲當作一首歌曲。

(2)去除會話記錄小于5首,會話記錄超過40首,即去除短序列會防止用戶誤操作,去除過長序列防止播放器未關閉。

(3)設置會話記錄長度L最長為20首,當會話記錄20<L≤40時,分割成兩個序列,分割長序列的目的因為20首以后的歌曲與前文歌曲依賴性降低。

經過會話分割以及預處理過后,會話記錄規模大小為849 302,單個用戶交互歷史過程中產生的會話記錄約864.9,平均每條會話記錄中約有12.3首歌曲。

3.3 實驗設計

為了符合真實情景,我們將每個用戶的會話記錄以7∶1∶2的比例分成訓練集、驗證集和測試集三部分,若用戶的歷史記錄中共存在10個會話記錄,按時間戳順序,將其前7個作為訓練集擬合模型,后1個驗證模型擬合度,最后2個測試模型推薦效果,本文實驗在安裝了操作系統Ubuntu 16.04的個人計算機上進行,具體計算機硬件配置如表2所示。

表2 硬件環境配置參數

3.4 實驗結果度量標準

F測度(F1-Score):綜合正確率(Precision)和召回率(Recall)評估指標,反映推薦算法整體性能,論文通過對F測度評估合理選擇模型最佳參數。

因為本文推薦任務較特殊,引入平均倒數排名指數,以下做簡單介紹。

平均倒數排名指數(Mean Reciprocal Rank,MRR):將標準答案位于推薦列表中的具體位置作為推薦效果評估準則。衡量模型推薦效用性,用戶最終在推薦列表中點擊的音樂排名越靠前,模型效用性越高。

其中,|Q|表示推薦列表集合數量,ranki表示用戶在第i個推薦列表中用戶第一個點擊物品所在推薦列表位置。

3.5 實驗結果分析

實驗一:詞向量模型在不同窗口大小和維度大小下,評估F測度。論文選用Top-K推薦方式,在本次實驗中K取值為5。針對窗口大小w取值對于F測度影響做了實驗,固定維度大小為100,窗口取值w取值分別為2、4、6、8、10。圖3橫軸表示窗口取值,縱軸表示F1測度。

圖3 不同窗口取值對于F測度的影響

從圖3可以看出,當窗口取值較小時,窗口內的歌曲量過少,然而實際情況是中心歌曲很可能與窗口外歌曲仍具有聯系,卻未參與訓練過程之中,推薦準確性較低。當窗口取值過大時,包含了中心歌曲周圍更多的歌曲,會話記錄中播放間隔較長的兩首歌曲之間的關聯已慢慢減弱,雖會話記錄已經過處理,但合理的窗口取值在仍對推薦算法具有一定意義。

針對投影層維度N取值對于F測度影響做了實驗,固定窗口大小為6,維度N取值分別為50、75、100、125、150、175、200、225、250、275、300。圖4橫軸表示維度取值,縱軸表示F1測度。

圖4 不同維度取值對于F測度的影響

從圖4可以看出,當選擇的維度較小時,詞向量不足以表征歌曲的所有信息,逐漸加大維度,推薦準確率顯著提升,當維度達到150時,準確率上升幅度大幅減緩,然而當維度選擇過高時,反而出現下降趨勢,歌曲屬性通過大量神經元時表征反而顯得過于稀疏,且大幅度提升模型計算復雜度。

隨機抽取100首音樂經過t-SNE將詞向量降至2維,可視化效果圖如圖5所示,直觀的可以觀察到相似‘語義’的歌曲在二維空間中緊密相連。

圖5 t-SNE降維可視化效果

圖5 中可以觀察到,同一藝術家的音樂作品在空間中的分布更加靠近,如Queens of the Stone Age創作的《In My Head》,《Little Sister》,《Go With the Flow》,《No One Knows》緊緊挨在一塊。查看last.fm標簽信息發現,這四首歌曲共有標簽包括stonerrock、alternativerock、fip等,標簽具有很高的重合度,同時分析每首歌每分鐘的節拍數,通過BPM測試軟件(MixMeister BPM Analyzer)自動分析每首歌的歌曲速率,發現BPM值分別為134、176、162、85,都屬于中快類型節奏的歌曲,說明歌曲之間相似性也可以從節奏節拍反映出來。

實驗二:為了驗證基于會話分割后Word2Vec推薦算法的效用性,推薦序列長度K值取5、10、15、20,與以下基準方法進行實驗對比:

Session-pop:推薦當前會話中最受歡迎的物品。

Item-based CF:根據用戶選擇物品的歷史行為,通過評估用戶之前選擇的物品與待推薦物品間的相似度來給用戶推薦物品。該算法首先計算物品之間的相似度,其次通過物品的相似度和用戶的歷史行為生成推薦物品的列表。

貝葉斯個性化排序算法(Bayesian Personalized Ranking-Matrix Factorization,BPR-MF):BPR-MF方法為BPR模型與矩陣分解模型的結合,融合了用戶或物品的屬性,該模型較好地解決冷啟動問題。其通過梯度下降法優化了一個pairwise的排序目標函數。一般來說,由于新會話中缺少隱藏向量的表示,所以矩陣分解方法只能通過間接的方法應用于基于會話的推薦任務中,如用當前長度會話中物品隱藏因子向量的平均值來表示新會話。通過這種方法,最后的推薦分值可以由候選物品的隱藏因子和會話中每個物品的隱藏因子的相似度來表示。

經圖6發現,論文提出的session-Word2Vec在效用性方面取得不錯的效果,隨著推薦列表取值的增加,效用值MRR也逐漸增長,而后趨于平緩,當推薦列表取值為5時,列表直接命中用戶喜歡的物品概率較低,即使命中也有可能物品處于此推薦列表靠后的位置,所以MRR值較低。推薦列表取值為20時,列表中直接命中物品的概率增加。推薦列表長度再增加時,ranki值增加,用戶可能并不會對過長推薦列表中位置靠后的物品感興趣,所以MRR值趨于平緩。

圖6 不同推薦算法的效用性

4 結 語

論文提出Word2Vec結合會話記錄中的上下文信息學習出每首歌曲的詞向量強化了短期行為關聯性對于推薦效果的影響,不僅適用于時間,同樣也適用于地點、職業、愛好等具有范圍特征的推薦算法,然而本文仍然存在以下兩點不足:

(1)短期推薦并不是完全否定長期推薦,相反,結合用戶長期的歷史行為特征更有利于精準挖掘用戶的聽歌偏好。

(2)從Word2Vec模型架構上明顯發現輸入樣本之間沒有連接,意味著音樂之間沒有考慮到序列信息,對于存在連貫性和次序性特征的音樂序列可做進一步研究。

猜你喜歡
音樂用戶模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
圣誕音樂路
兒童繪本(2017年24期)2018-01-07 15:51:37
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
音樂
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
主站蜘蛛池模板: 亚洲视频影院| 亚洲首页国产精品丝袜| 91成人在线免费观看| 啪啪啪亚洲无码| 久久精品91麻豆| 日本91在线| 青青青视频91在线 | 国产日本视频91| 国产精品一线天| 久久国产亚洲欧美日韩精品| 国精品91人妻无码一区二区三区| 九九线精品视频在线观看| swag国产精品| 日韩精品无码免费一区二区三区| 一级看片免费视频| 亚洲毛片网站| 成人午夜久久| 在线观看无码av免费不卡网站| 99国产精品国产| 久久黄色小视频| V一区无码内射国产| 欧美在线一级片| 国产最爽的乱婬视频国语对白| 国产无遮挡猛进猛出免费软件| 亚洲精品自拍区在线观看| 日本欧美在线观看| 日韩精品亚洲人旧成在线| 国产91精品调教在线播放| 麻豆国产精品一二三在线观看| 国产精品30p| 色播五月婷婷| 三级国产在线观看| 美女被狂躁www在线观看| 精品福利一区二区免费视频| 香蕉视频在线精品| 国产大全韩国亚洲一区二区三区| 亚洲天堂视频网站| 区国产精品搜索视频| 国产亚洲现在一区二区中文| 亚洲va视频| 日韩精品高清自在线| 老司国产精品视频91| 成人av专区精品无码国产| 韩日午夜在线资源一区二区| 国产精品伦视频观看免费| 青青久久91| 99热这里只有精品免费国产| 亚洲男人天堂2018| 日韩欧美中文字幕在线韩免费| AV无码无在线观看免费| 少妇精品在线| 理论片一区| 欧美日韩午夜| 国产精品欧美在线观看| 中文字幕在线日本| 视频二区亚洲精品| 国产网友愉拍精品视频| 国产毛片不卡| 日韩无码白| 亚洲欧美日韩天堂| 一级成人a毛片免费播放| 最新国产你懂的在线网址| 亚洲精品国偷自产在线91正片| 国产国产人在线成免费视频狼人色| 国产精品福利导航| 韩国v欧美v亚洲v日本v| 麻豆国产精品一二三在线观看| 免费一级毛片在线播放傲雪网| 亚洲AⅤ无码国产精品| 国产av无码日韩av无码网站| 亚洲一区二区在线无码| 国产精品三级av及在线观看| 久久夜色精品国产嚕嚕亚洲av| 国产成人永久免费视频| 欧美第一页在线| 久久特级毛片| 伦伦影院精品一区| 欧美乱妇高清无乱码免费| 日韩视频免费| 精品国产网| 免费人成黄页在线观看国产| 日本人妻一区二区三区不卡影院 |