999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

注意力機制與改進RNN的混合音樂推薦算法研究

2020-10-20 10:06:04楊明極
小型微型計算機系統 2020年10期
關鍵詞:機制特征音樂

楊明極,劉 暢,宋 澤

1(哈爾濱理工大學 測控技術與通信工程學院,哈爾濱 150080) 2(中國船舶重工集團公司第七〇三研究所 蒸汽事業動力部,哈爾濱 150010)

1 引 言

伴隨互聯網技術的迅速普及,各類信息的數據呈現爆發式地增長.預計到2025年,全球數據總量將是2018年的5.3倍,高達到175ZB[1],即產生信息爆炸.面對如此龐大的信息總量,如何快速、準確地為用戶提供最感興趣的內容就成為一個非常有意義的研究課題.為此,諸多推薦技術應運而生[2],數字音樂領域中的個性化音樂推薦已然成為各類線上音樂服務中的必備服務,例如Spotify、QQ音樂、網易云音樂等都嵌入了各自的推薦算法,極大地增強了用戶對該產品的依賴程度,同時縮短了用戶找到喜愛音樂的時間.

傳統的音樂推薦算法隨著可感知數據的不斷增多,無法充分利用用戶和音樂之間的深層次特征,導致推薦質量下降.使用深度學習的方法可以從每一層中自動抽取特征,從而提升分類的精度[3].深度神經網絡(Deep Neural Network,DNN)的出現,解決了音樂數據難以處理的問題[4],但DNN以向量為輸入,并且不能捕捉音頻數據在時間序列上的關系,而這種關系對于音樂推薦十分重要.循環神經網絡(Recurrent Neural Network,RNN)理論上可以對任意長度的序列數據進行建模,并對過去的信息進行記錄.由于音頻的上下文是相關聯的,并且這種聯系直接影響到音樂推薦的準確度.因此,RNN更適合應用于音樂推薦領域.

Okura等人使用RNN從用戶的歷史行為列表中學習用戶偏好[5].Liu等人采用RNN建模用戶行為并提出一種循環Log雙線模型,實現對用戶下一時刻的行為類型預測[6].Van等人通過將用戶歷史收聽數據和音頻信號組合卷積神經網絡,將用戶和音樂映射到一個隱空間,得到用戶和歌曲的隱表示,從而較好解決音樂推薦系統中的冷啟動問題[7].盡管上述研究已經取得一定的成果,但由于RNN在序列上共享參數,會產生梯度消失或梯度爆炸的問題[8].而長短時記憶網絡(Long Short-term Memory,LSTM)模型可以較好的解決該問題[9].Jia等人提出一種基于特征分割的LSTM模型,推薦的精確度比基于RNN模型提高4%[10].但由于音樂領域音頻特征序列較長,LSTM無法捕捉較長的序列,同時存在著梯度衰減的問題.獨立循環神經網絡(Independent Recurrent Neural Network,IndRNN)可以通過調整反向傳播梯度和使用Relu非飽和激活函數解決梯度消失問題,并且增強模型的魯棒性,比LSTM更適合分析長時序特征[11].同時IndRNN將RNN層內的神經元進行解耦,使每個神經元之間相互獨立,增加可解釋性.但由于音頻信號特征較多且時間尺度較長,使用IndRNN網絡會將時間大量消耗在計算相關性較小的特征上.

近幾年一些學者為更好地學習用戶數據信息表征量大的部分,借鑒人類視覺機制提出了注意力機制.注意力機制的核心目標是從眾多信息中選擇對當前目標更重要的信息,被廣泛應用與圖像識別[12],自然語言處理和機器翻譯[13]等領域.在推薦領域注意力機制也取得了不錯的成果,張全貴等人提出了一種基于注意力機制的音樂深度推薦算法,使深度學習對用戶興趣偏好分析的可解釋性增強[14].Zhang等人使用注意力機融合深度神經網絡來預測用戶轉發行為[15].但目前推薦領域引入注意力機制的研究還比較少.

針對上述IndRNN耗時較長且準確率較低的不足,受到注意力機制的啟發,給出一種混合注意力機制的獨立循環神經網絡音樂推薦算法,通過使用注意力機制實現對用戶歷史收聽音樂分配動態權重,從而學習用戶的個性化喜好,此外還結合使用散射變換(Scattering Transform,ST)對音頻數據進行預處理,以減少音頻信息的損失.

2 混合注意力機制的獨立循環神經網絡算法

音樂推薦算法的任務是為用戶推薦喜愛的歌曲,將音樂分為用戶喜愛與不喜愛兩類,因此,該任務可以歸結為二分類問題.混合注意力機制的獨立循環神經網絡音樂推薦算法(Attention Independent Recurrent Neural Network,AIRNN)是在深度學習RNN的基礎上給出的.AIRNN整體混合算法框架如圖1所示.

圖1 AIRNN混合模型框架圖Fig.1 AIRNN model frame diagram

該模型將預測集中的音樂作為輸入,輸出是預測該音樂是否符合用戶的喜好.在訓練階段,首先將訓練集分為用戶歷史收聽音頻和用戶畫像兩個子部分.其中用戶畫像由用戶收聽歌曲語言、用戶年齡、收聽歌曲類型三部分組成.先將用戶歷史收聽音頻通過散射變換得到具有代表性的音頻特征,隨后將它輸入到AIRNN模型中進行特征提取,接著將上述特征池化為單一向量,并同時將訓練集的另一部分用戶畫像通過DNN模型抽取用戶特征,同樣將上述特征池化為單一向量.將上述AIRNN模型中得到的最終音頻抽取特征使用單層網絡并通過注意力機制和DNN模型得到的池化后的用戶特征相結合,其中注意力機制(Attention)將用戶對歌曲的收聽次數表征用戶對歌曲特征的喜好程度,從而學習用戶的個性化權重.最后再次通過歸一層(softmax)得到混合音樂推薦模型.

2.1 數據預處理

音頻作為一種語音信號無法直接被深度學習網絡所使用,且人耳對不同頻率的聲波有不同的聽覺靈敏度,較之高頻,人更喜歡低頻.針對上述客觀事實,學術界通常使用預加重、分幀、加窗、快速傅里葉變換、梅爾濾波器等步驟提取音頻信號的梅爾倒譜系數,對音頻進行預處理.梅爾倒譜系數(Mel-Frequency Cepstral Coefficient,MFCC)廣泛的應用于語音情感識別和音樂推薦算法中.式(1)為MFCC計算公式:

(1)

ψλ(ω)為梅爾濾波器,λ為每一個濾波器的中心頻率.

然而,MFCC只有在提取時間尺度為25ms以下的特征時才有效.但500ms以上的信號特征,例如節奏、音色等,對于音樂推薦算法同樣重要.因此,使用一種改進的MFCC算法——散射變換(Scattering Transform,ST)提取音頻的長時特征,Joakim證明散射變換在音樂推薦算法的預處理階段中十分有效[16].

散射變換通過小波卷積和模算子級聯計算多階調制譜系數,修復由MFCC產生的信息損失[16].信號x的散射系數為snx,x時不變局部變換為:

s0x(t)=x*φ(t)

(2)

φ(t)為低通濾波器,由于式(2)濾除了所有的高頻信號,可以由式(3)小波模組變換修復.

|W1|x=(x*φ(t),|x*ψλ1(t)|)t∈R,λ1∈σ1

(3)

對于連續音頻信號,散射變換設定小波和原有的梅爾濾波器具有相同的頻率分辨率.由于音頻信號在低頻時能量極低,因此可以忽略不計.推出一階散射系數為:

S1x(t,λ)=|x*ψλ1|*φ(t)

(4)

一階散射系數是由另一個小波模組變換W2計算得出,它補充了高頻的小波系數:

|W2||x*ψλ1|=(|x*ψλ1|*φ,|x*ψλ1|*ψλ2)

(5)

通過小波模組系數ψλ2恢復高頻信息.這些系數由相同的低頻濾波器進行均值得出,由于有第一階時移不變性作為保證,第二階散射系數為:

S2x(t,λ1,λ2)=||x*ψλ1|*ψλ2|*φ(t)

(6)

散射系數就像卷積神經網絡的結構,可以不停的拓展至第n層[17].

2.2 AIRNN推薦算法

為解決在音樂推薦領域使用RNN算法產生的梯度消失和梯度爆炸問題,在RNN算法的基礎上進行改進,得到IndRNN:

ht=σ(Wxt+u⊙ht-1+b)

(7)

ht是時間t時的隱狀態,與RNN不同,IndRNN的權重系數由矩陣U變成向量u,權重系數和上一個時刻隱狀態的運算變為⊙,即矩陣元素積.式(7)表示在t時刻,每個神經元只接受此刻輸入以及t-1時刻的自身狀態作為輸入,由此可以推導出第n層網絡的隱狀態:

hn,t=σ(WnXt+unhn,t-1+bn)

(8)

其中,Wn是n維向量的輸入權重,un是遞歸權重.由式(8)可以看出,IndRNN中的每個神經元都可以疊加兩層或多層使用,即后一層的每個神經元可以處理前一層所有神經元的輸出.Li等人提出的兩層IndRNN模型相當于一層激活函數為線性函數、遞歸權重為可對角化矩陣的傳統RNN[18].

通常,RNN是一個參數共享的多層網絡,RNN在t時刻每一個神經元都接受t-1時刻所有神經元的狀態作為輸入[19].與傳統的神經網絡不同,IndRNN中的每個神經元都可以獨立地處理.

(9)

式(9)為IndRNN在t-1時刻反向傳播梯度.σ′n,k+1是激活函數的導數,對于第n層神經元,假設目標在是在T時刻的最小化,偏置為0.由于IndRNN中神經元之間相互不起作用,所以IndRNN可以獨立計算每個神經元的梯度.與RNN相比,IndRNN的梯度直接由遞歸的權重決定,而不是矩陣的乘積,并且將激活函數的導數與遞歸權重系數相互獨立.神經元之間的相互連接依賴層間交互來完成,下一層的神經元將會接受上一層所有神經元的輸入作為輸出.

本文通過疊加IndRNN的基礎結構構建一個深度的IndRNN網絡,并將網絡輸入的處理方式由全連接改為殘差連接并引入注意力機制,給出一種混合注意力機制的AIRNN音樂推薦算法.算法結構圖如圖2所示.在每一個時間步長內,借助Relu非飽和激活函數,梯度可以恒等映射并直接傳播到其他層.

圖2 AIRNN推薦算法結構圖Fig.2 AIRNN Recommended algorithm structure diagram

問題定義:給定一首歌曲的音頻序列M={S1,S2,S3,…,St},t為音頻特征序列的長度.模型的預測問題是給出用戶的歷史收聽列表,并為該用戶推薦可能喜歡的歌曲.

用戶對這首歌音頻序列中第t個音頻的喜好函數為ft:

(10)

其中wt為該音頻特征對下一首待預測的音樂音頻所起作用的權重參數,bt為偏置參數.利用softmax函數將tanh函數所求的f非線性關系進行歸一化,得到用戶的個性化喜好權重wt:

(11)

音頻上下文關系的參數是在訓練過程中隨機初始化和共同學習得到的.

將用戶對整個音頻特征序列的個性化喜好權重求和得到權重向量:

H=∑tfuWt

(12)

最后,使用一個二分類器預測下一首歌是否符合用戶的喜好.使用一個交叉熵損失函數作為softmax層,將與注意力層結合的音頻特征權重向量作為輸入,得到預測的結果:

(13)

(14)

Wf和bf為學習參數.通過式(13)、式(14)可以得到一個排名列表,并且將符合用戶喜好的音樂推薦給他們.p=[0,1],將似然函數定義為:

(15)

對式(15)取似然負對數作為損失函數可得的交叉熵損失函數為:

(16)

圖3 AIRNN算法流程圖Fig.3 AIRNN algorithm flow diagram

AIRNN算法流程圖如圖3所示.首先按照順序從歌曲列表中取出數據,并將數據分為音頻數據和用戶畫像兩部分,隨后把用戶歷史音樂音頻數據進行散射變換,并將從中提取的特征作為AIRNN算法的輸入,同時將用戶畫像數據輸入到DNN模型中,將音頻數據分析結果通過注意力機制和用戶畫像抽取出的特征融入相同的歸一化層生成列表并記錄數據,并判斷當前是否將歌曲列表完全遍歷.如果記錄數量等于歌曲列表數量,便將所得列表排序并推薦給用戶;否則返回第一步繼續進行上述步驟,直至結束.

3 仿真設計與效果分析

本文在表1的仿真環境下驗證了所給出的混合注意力機制的獨立循環神經網絡算法(AIRNN),并將AIRNN算法與IndRNN[11]、LSTM[20]推薦算法從不同角度進行對比、仿真結果的分析.

表1 仿真環境Table 1 Lab environment

3.1 仿真數據集與模型訓練

仿真所使用的數據集是包含100多萬首歌曲元數據和預處理音頻特征的集合——百萬音樂數據集(Million Song Datasets,MSD),是目前音樂推薦領域使用最頻繁的公開數據集.對比試驗主要使用MSD核心數據集中的音樂音頻特征和子集Taste Profile所提供的評分數據.

鑒于所選數據集數據較多,為提高模型訓練速度,首先按照收聽歌曲數目大于200次進行篩選,得到70327名用戶數量和283293首歌曲.接著將篩選數據中每一個用戶歷史收聽記錄數據分為10份,采用十折交叉驗證(5-Fold Cross Validation)將其中的九份作為訓練集,其余作為測試集.對比仿真將訓練模型的過擬合參數設為0.5,學習率設為設為0.0005.當精度曲線收斂范圍穩定時,停止訓練并保存模型.

3.2 算法評定指標

推薦系統的評價指標不同于分類算法,較為多元化,有歸一化折損累計增益、準確率、滿意度等.過高的準確度會使得推薦列表多樣性變低,過高的驚喜度和新穎度會使得準確率有所下降,但用戶滿意度可以直觀綜合多方面評價推薦系統性能.因此,選取歸一化折損累計增益、準確率和用戶滿意度來對算法進行仿真驗證[20].

將算法得出的排名列表取前k,通過準確率可以直觀的判斷預測結果.準確率定義如式(17)所示.

(17)

歸一化折損累計增益(Normalized Discounted cumulative gain,NDCG)通過計算高關聯度的排序位置得分情況評價算法,是一個衡量推薦系統性能的重要指標.NDCG定義見式(18).

(18)

其中reli表示第i個結果產生的效益,|rel|表示按最優的方式對結果進行排序.

用戶滿意度采用問卷調查的方式.其中對指標的重要程度通過使用主觀賦權法李斯特量表進行評價,所得的重要性得分作為權重計算的數據,使用得分均值作為原始相對影響系數.問卷共有準確度和驚喜度兩個指標,打分等級從1-10,共有10個等級.

調查30名志愿者分別體驗基于IndRNN、AINRNN、LSTM三種不同音樂推薦算法,并對其進行打分,取加權和作為每個用戶滿意度的分數,并取30名志愿者滿意度分數的平均值作為算法整體的滿意度分數.

3.3 效果分析

首先設置兩個仿真實驗組對照MFCC和ST預處理對算法的影響,兩組使用相同的5層AIRNN網絡.從圖4中可以看出,在訓練達到70個epoch時,使用散射變換預處理的仿真組比使用梅爾倒譜系數的仿真組準確度高15%.這是由于使用梅爾倒譜系數預處理會使音頻信息缺失時間尺度為25ms以上的特征,而散射變換可以將損失的特征恢復.因此證明隨著可提取音頻特征數量的增多,預測的效果也越好,散射變換恢復的長時音頻特征捕獲到影響用戶是否喜歡該歌曲的相關潛在特征.

圖4 不同數據預處理方式對算法準確度的影響Fig.4 Effects of data preprocessing methods on theaccuracy of algorithm

圖5 k值對算法準確度的影響Fig.5 Effect of value k on algorithm accuracy

圖5展示三種典型神經網絡算法AINRNN、IndRNN、LSTM不同k值對算法準確度的影響.當k值小于5時,三個算法的準確度都較低,隨著k值增加,LSTM算法準確度始終最低,而IndRNN為65.3%,AINRNN為67.8%,兩個算法準確度相差較小.但是在圖6中AINRNN的歸一化折損累計增益要比IndRNN高7.3%.說明AINRNN可以較好提取音頻序列潛在特征,解決了RNN和LSTM梯度爆炸問題,證明該算法應用于音樂推薦領域具有良好的表現.

圖6 k值對歸一化折損累計增益的影響Fig.6 NDCG effect of value k on algorithm accuracy

同時,隨著k值的增大,3個算法準確度的增長趨勢為先上升后下降最后趨于平穩.可以看出k值為8-10的時候算法精確度最高.Spotify、QQ音樂等線上音樂服務每日推薦為15首,除去由于商業環境影響一部分歌曲推薦不由音樂推薦算法決定,剩余的歌曲與仿真結果相似.

圖7 不同算法之間的訓練時間Fig.7 Training time between different algorithms

圖7中對比AINRNN、IndRNN、LSTM三種算法在音樂推薦系統中的迭代時間.LSTM訓練時間最長但效果也最差.IndRNN算法每次迭代的訓練時間最短,但是它在圖6中的NDCG指標只有50.3%.而引入了注意力機制的AINRNN較

圖8 不同算法用戶滿意度對比Fig.8 Satisfaction on effect of different algorithms

IndRNN損失了1.1s的時間但NDCG指標提升了7.8%.由于目前商業音樂服務的音樂推薦主要為線下推薦,犧牲少量運行速度來換取更高的推薦性能是可接受的.此外,圖8顯示混合注意力機制的AINRNN算法的用戶滿意度也最高.由此可以表明所改進的混合注意力機制的獨立循環神經網絡算法可以很好的應用于音樂推薦領域.

圖9 歷史收聽歌曲數量對算法性能的影響Fig.9 Influence of history songs listened on algorithm performance

探究完k值對算法性能的影響,還要考慮歷史收聽列表中的歌曲數量是否會影響仿真結果.因此設置了融入注意力機制的AIRNN算法與未融入注意力機制的IndRNN算法作對比仿真,其中k值取10,仿真結果如圖9所示.對于MSD數據集,混合注意力機制的AIRNN音樂推薦算法可以在用戶歷史音樂收聽記錄僅有16首歌曲時,便很有效地學習用戶的個人音樂偏好,與此對照,未融入注意力機制的IndRNN推薦算法只有獲取更多的用戶歷史音樂收聽記錄(25首歌曲)才能更好地學習用戶個性化信息.證明AIRNN推薦算法可以在用戶歷史收聽記錄較少時,便可以達到較好的學習效果,從而降低計算復雜度,并且較好的解決冷啟動問題.

4 結 論

本文給出一種混合注意力機制的獨立循環神經網絡算法,并在數據預處理階段對用戶收聽歷史記錄的音頻使用改進的梅爾倒譜系數進行預處理.通過在MSD數據集上仿真,結果表明,該算法較比INDRNN算法提升了7.8%推薦準確度和4%用戶滿意度.與現有模型相比,仿真結果具有較強的競爭力.因此,結合散射變換和AINRNN可以很好地實現在MSD數據集上處理個性化音樂推薦任務.在今后的工作中,將考慮使用內部注意力機制(Intr-attention)有效地利用遠距離依賴特征,并平衡驚喜度、新穎性和多樣性之間的權重,使推薦性能進一步提升.

猜你喜歡
機制特征音樂
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
自制力是一種很好的篩選機制
文苑(2018年21期)2018-11-09 01:23:06
圣誕音樂路
兒童繪本(2017年24期)2018-01-07 15:51:37
抓住特征巧觀察
音樂
破除舊機制要分步推進
中國衛生(2015年9期)2015-11-10 03:11:12
注重機制的相互配合
中國衛生(2014年3期)2014-11-12 13:18:12
打基礎 抓機制 顯成效
中國火炬(2014年4期)2014-07-24 14:22:19
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 免费中文字幕在在线不卡| 国产人成网线在线播放va| 精品一区二区久久久久网站| 二级特黄绝大片免费视频大片| 视频二区国产精品职场同事| 色老二精品视频在线观看| 99精品影院| 国产波多野结衣中文在线播放| 精品国产自| 国产毛片基地| 免费观看男人免费桶女人视频| 日本一区二区三区精品国产| 一级不卡毛片| 亚洲黄色片免费看| 亚洲国产精品一区二区第一页免 | 色综合久久88色综合天天提莫| 99热这里只有精品免费国产| 在线日韩一区二区| 一级毛片免费播放视频| 精品无码国产一区二区三区AV| 久久婷婷色综合老司机| 毛片在线播放网址| 久久国产V一级毛多内射| 免费在线不卡视频| 久久永久精品免费视频| 国产丝袜无码一区二区视频| 奇米影视狠狠精品7777| 午夜国产精品视频| 1024国产在线| 亚洲欧洲日韩综合| 欧美成人一级| a天堂视频| 女人18毛片久久| 欧美高清三区| 青青青亚洲精品国产| 波多野结衣一级毛片| 亚洲一区国色天香| 色老头综合网| 手机永久AV在线播放| 毛片一级在线| 伊人久久福利中文字幕| 日韩国产综合精选| 国产肉感大码AV无码| 国产亚洲精品97AA片在线播放| 国产真实二区一区在线亚洲| 成人亚洲天堂| 特级欧美视频aaaaaa| 久久婷婷色综合老司机| 国产一区自拍视频| 91福利免费视频| 91精品视频播放| 国产免费一级精品视频 | 国产毛片基地| 日韩第九页| 91丨九色丨首页在线播放 | 欧美日韩高清| 亚洲国产日韩在线观看| 久久青草视频| 伊人成人在线视频| 国产在线97| 国产成人精品综合| 538国产在线| 97国内精品久久久久不卡| 午夜精品国产自在| 尤物在线观看乱码| 亚洲国产中文综合专区在| 国产69精品久久久久妇女| 亚洲人成成无码网WWW| 亚洲一级无毛片无码在线免费视频 | 亚洲成人播放| 亚洲欧美一区二区三区麻豆| 有专无码视频| 国产欧美日韩在线在线不卡视频| 欧美在线导航| 91精品国产情侣高潮露脸| 欧美一级黄色影院| 美女国内精品自产拍在线播放| 免费观看男人免费桶女人视频| 女人18毛片久久| a毛片免费观看| 国产高清在线观看91精品| 中日韩欧亚无码视频|