王詩(shī)俊, 陳 寧
(華東理工大學(xué)信息科學(xué)與工程學(xué)院,上海 200237)
基于混合判別受限波茲曼機(jī)的音樂(lè)自動(dòng)標(biāo)注算法
王詩(shī)俊, 陳 寧
(華東理工大學(xué)信息科學(xué)與工程學(xué)院,上海 200237)
對(duì)于音樂(lè)自動(dòng)標(biāo)注任務(wù),在很多情況下,未標(biāo)注的歌曲量遠(yuǎn)遠(yuǎn)超過(guò)已標(biāo)注的歌曲數(shù)據(jù),從而導(dǎo)致訓(xùn)練結(jié)果不理想。生成模型能夠在某種程度上適應(yīng)少量數(shù)據(jù)集的情況,得出較為滿意的結(jié)果,然而,在有充分?jǐn)?shù)據(jù)集的情況下生成模型的效果卻劣于判別模型。本文提出了一種結(jié)合生成模型與判別模型兩者優(yōu)勢(shì)的面向音樂(lè)自動(dòng)標(biāo)注的混合判別波茲曼機(jī)模型,該模型可明顯提升音樂(lè)自動(dòng)標(biāo)注的準(zhǔn)確率。實(shí)驗(yàn)結(jié)果表明,混合波茲曼機(jī)的效果不僅好于傳統(tǒng)的機(jī)器學(xué)習(xí)模型,同時(shí),模型在擁有足夠訓(xùn)練數(shù)據(jù)量的情況下與判別模型效果相當(dāng),且在訓(xùn)練集較少的情況下效果也好于判別模型。另外,為了防止模型過(guò)擬合,還引入了Dropout規(guī)則化方法以進(jìn)一步加強(qiáng)模型的性能。
音樂(lè)自動(dòng)標(biāo)注; 混合判別受限波茲曼機(jī); 機(jī)器學(xué)習(xí); 人工智能
隨著數(shù)字音樂(lè)的發(fā)展,在線歌曲的數(shù)量呈指數(shù)級(jí)增長(zhǎng)。讓用戶快速找到自己感興趣的歌曲,是目前互聯(lián)網(wǎng)服務(wù)必須解決的一個(gè)問(wèn)題。一個(gè)可行的方法是利用歌曲標(biāo)簽,即用戶可以通過(guò)搜索標(biāo)簽的方式找到自己喜歡的歌曲。
Tingle等[1]利用兩種新的特征——Echo Nest Timbre (ENT)和Echo Nest Songs (ENS),以聲學(xué)標(biāo)簽 (Acoustic tags) 和流派標(biāo)簽(Genre tags)作為標(biāo)注為音頻進(jìn)行自動(dòng)標(biāo)注。Sordo等[2]利用基于音頻內(nèi)容相似性的模型對(duì)具有近似風(fēng)格或感情的音樂(lè)進(jìn)行了自動(dòng)標(biāo)注。
除上述標(biāo)簽外,一種最容易獲得的標(biāo)簽是社群標(biāo)簽(Social tags)[3],社群標(biāo)簽的獲得不需要專業(yè)人士的參與,極大地節(jié)約了人力和時(shí)間成本。所有用戶都可以為歌曲進(jìn)行標(biāo)注,例如“女聲”、“舒緩”、“好聽(tīng)”等語(yǔ)義級(jí)別描述。文獻(xiàn)[4]提出了利用MFCC(Mel Frequency Cepstrum Coefficient)特征來(lái)訓(xùn)練AdaBoost模型,該模型能夠根據(jù)音頻特征和社群標(biāo)簽進(jìn)行自標(biāo)注。文獻(xiàn)[5]利用社群標(biāo)簽進(jìn)行情感音樂(lè)分類,使用聚類的方式將音樂(lè)分為“高興”、“悲傷”、“憤怒”和“溫和”4種情緒。文獻(xiàn)[6]利用文本挖掘和信息檢索技術(shù)對(duì)龐大的語(yǔ)義級(jí)社群標(biāo)簽進(jìn)行文本分析,從而最終對(duì)音樂(lè)進(jìn)行情感分類。文獻(xiàn)[7]結(jié)合利用用戶信息、社群標(biāo)簽以及音頻特征為用戶推薦音樂(lè)。
但社群標(biāo)簽存在一些問(wèn)題。第一,并不是所有的歌曲都擁有足夠的社群標(biāo)簽,只有少量的熱門歌曲擁有足夠多的標(biāo)簽,新歌或是冷門歌曲的標(biāo)簽都很缺乏。第二,用戶可能會(huì)使用同義詞(如Favorite,Favorites)、無(wú)用詞(如Awesome,Own it)、歧義詞(如Love可以代表用戶喜愛(ài)的歌曲也可代表是愛(ài)情歌曲)來(lái)標(biāo)注音樂(lè)。第三,由于社群標(biāo)簽是語(yǔ)義級(jí)特征,需要對(duì)其進(jìn)行語(yǔ)義分析。因此,可以參與模型進(jìn)行訓(xùn)練的歌曲量其實(shí)并不多。正因?yàn)槿绱?在少量訓(xùn)練數(shù)據(jù)集的情況下對(duì)音樂(lè)進(jìn)行準(zhǔn)確的自動(dòng)標(biāo)注非常重要。
目前,擁有高準(zhǔn)確率的深度學(xué)習(xí)模型被用于音樂(lè)自標(biāo)注研究中。文獻(xiàn)[8]利用深度置信網(wǎng)絡(luò)DBN(Deep Belief Network)來(lái)自動(dòng)提取輸入音頻的特征以進(jìn)行流派分類,不過(guò)該模型需要足夠的訓(xùn)練集,并且流派類別非常少,屬于某個(gè)流派的歌曲數(shù)量依舊十分龐大,無(wú)法使用戶快速找到自己喜歡的歌曲,本文不再對(duì)該方法進(jìn)行比較。
生成模型(Generative model)可以解決訓(xùn)練數(shù)據(jù)集數(shù)量較少的問(wèn)題,在少量數(shù)據(jù)集情況下的效果要好于分類問(wèn)題中常使用的判別模型(Discriminative model)[9],但在擁有大量訓(xùn)練數(shù)據(jù)的情況下,判別模型卻要好于生成模型。為了兼顧兩者的優(yōu)勢(shì),本文提出了一種將生成波茲曼機(jī)和判別波茲曼機(jī)混合組成的混合判別波茲曼機(jī)(Hybrid Discriminative Restricted Boltzmann Machines,HDRBM)。實(shí)驗(yàn)證明該模型即使在少量帶標(biāo)簽音樂(lè)訓(xùn)練集的情況下也能達(dá)到精準(zhǔn)標(biāo)注的結(jié)果。
另外在訓(xùn)練模型時(shí),可能因?yàn)橛?xùn)練數(shù)據(jù)集太少會(huì)導(dǎo)致過(guò)擬合的情況。為了防止過(guò)擬合,本文在混合判別波茲曼機(jī)中加入了Dropout[10]規(guī)則化方法。Dropout能夠提高模型的準(zhǔn)確率[11],本文實(shí)驗(yàn)證實(shí)了Dropout使混合波茲曼機(jī)在小規(guī)模數(shù)據(jù)集下也能保持準(zhǔn)確性。
混合判別波茲曼機(jī)模型在音樂(lè)數(shù)據(jù)訓(xùn)練集較為充分時(shí),標(biāo)注準(zhǔn)確率能達(dá)到與單一的判別波茲曼機(jī)相仿的效果,在小規(guī)模訓(xùn)練集上訓(xùn)練時(shí),混合判別波茲曼機(jī)的準(zhǔn)確度相比判別波茲曼機(jī)或是其他機(jī)器學(xué)習(xí)模型更為優(yōu)秀。同時(shí),本文的實(shí)驗(yàn)證實(shí)了Dropout方法確實(shí)能夠防止因?yàn)樯倭恳魳?lè)數(shù)據(jù)集而導(dǎo)致的過(guò)擬合現(xiàn)象。
1.1生成波茲曼機(jī)
如圖1所示,傳統(tǒng)波茲曼機(jī)是一種無(wú)向生成模型,擁有一層輸入層和一層隱層,層與層之間互相連接,層之內(nèi)無(wú)連接。通過(guò)訓(xùn)練,隱層可以學(xué)習(xí)到輸入層的概率分布模型,也可以理解為隱層學(xué)習(xí)到了輸入層的特征。

圖1 生成受限波茲曼機(jī)Fig.1 Generation restricted Boltzmann machines
傳統(tǒng)受限波茲曼機(jī)是無(wú)監(jiān)督學(xué)習(xí)模型,若將音頻放入模型中學(xué)習(xí),隱層將能夠?qū)W習(xí)到音頻特征,并重構(gòu)原始的輸入音頻信息。正因?yàn)檫@種特性,傳統(tǒng)波茲曼機(jī)常常被當(dāng)作多層深度學(xué)習(xí)模型中的一層,用來(lái)提取上一層輸入的特征。不過(guò),將原來(lái)的輸入(音頻)聯(lián)合其類別(社群標(biāo)簽)一同輸入波茲曼機(jī),就能使波茲曼機(jī)學(xué)習(xí)到輸入和標(biāo)簽的聯(lián)合分布,即生成波茲曼機(jī),如圖2所示。

圖2 判別受限波茲曼機(jī)Fig.2 Discriminative restricted Boltzmann machines
在音樂(lè)自標(biāo)注任務(wù)中,假設(shè)生成波茲曼機(jī)有n個(gè)隱節(jié)點(diǎn),輸入數(shù)據(jù)為d維音頻特征,有c種音樂(lè)標(biāo)簽,由此形成的概率分布為
(1)


-hTWx-bTx-cTh-dTy-hTUy
(2)
式(2)為波茲曼機(jī)的能量公式,其中,參數(shù)W為隱層和輸入層之間的連接權(quán)值系數(shù);U為隱層和標(biāo)簽之間的連接權(quán)重系數(shù);b,c,d分別為輸入層、隱層和標(biāo)簽的偏置系數(shù)。
假設(shè)有訓(xùn)練集Dtrain,以最小化負(fù)對(duì)數(shù)似然為目標(biāo),即最小化目標(biāo)函數(shù):
(3)
其中,p(xi,yi)為一個(gè)樣本x和一個(gè)標(biāo)簽y的聯(lián)合分布。
為了最小化式(3),使用隨機(jī)梯度下降法,得到由兩個(gè)期望組成的梯度公式:
(4)
式(4)的第1項(xiàng)可以通過(guò)給定的xi,yi計(jì)算得到;第2項(xiàng)卻因?yàn)樾枰械膞和y求和,不能通過(guò)直接的計(jì)算求得,可以通過(guò)逼近的方法得到。文獻(xiàn)[12]提出了一種對(duì)比散度方法(ContrastiveDivergence,CD),通過(guò)以(xi,yi)為起始點(diǎn)的有限步長(zhǎng)吉布斯采樣來(lái)逼近所要求的期望。
1.2判別波茲曼機(jī)
生成波茲曼機(jī)能得到音頻特征與社群標(biāo)簽之間的聯(lián)合概率分布,但本文關(guān)注的是社群標(biāo)簽的自動(dòng)標(biāo)注,因此,我們的目標(biāo)是對(duì)輸入音樂(lè)的精準(zhǔn)標(biāo)注,而不是概率分布,即可以將目標(biāo)函數(shù)p(x,y)替換為p(y|x)。繼續(xù)考慮負(fù)對(duì)數(shù)似然,目標(biāo)函數(shù)從式(4)的聯(lián)合分布變?yōu)闂l件分布:
(5)
通過(guò)與式(4)相似的式(6)計(jì)算梯度下降:
(6)
同生成波茲曼機(jī)一樣,在訓(xùn)練判別波茲曼機(jī)時(shí),同樣可以利用對(duì)比散度方法計(jì)算梯度,最大的區(qū)別是在計(jì)算式(6)的第2項(xiàng)時(shí),由于是計(jì)算后驗(yàn)概率,不需要考慮輸入xi的重構(gòu),因此將xi固定即可。
相比于生成波茲曼機(jī),判別波茲曼機(jī)的優(yōu)勢(shì)體現(xiàn)在訓(xùn)練時(shí)數(shù)據(jù)集的量上,大量的訓(xùn)練集將使判別波茲曼機(jī)發(fā)揮更出色,反之,生成波茲曼機(jī)在少量的數(shù)據(jù)集上更有優(yōu)勢(shì)。
因此,為了既能適應(yīng)本文音樂(lè)數(shù)據(jù)集較少的情況,又能在日后數(shù)據(jù)集足夠充足的情況下不影響性能,本文提出了一種結(jié)合兩者優(yōu)勢(shì)的基于混合判別波茲曼機(jī)模型的音樂(lè)自標(biāo)注模型,使得音樂(lè)標(biāo)注任務(wù)在不同數(shù)量的音樂(lè)數(shù)據(jù)集上的標(biāo)注結(jié)果達(dá)到比單一模型更好的效果,同時(shí)標(biāo)注的準(zhǔn)確度好于傳統(tǒng)的機(jī)器學(xué)習(xí)模型。
混合判別波茲曼機(jī)的目標(biāo)函數(shù)由式(3)和式(5)共同組成:
(7)
其中,可調(diào)參數(shù)α表示生成模型對(duì)于整個(gè)模型的影響比重。若α較大,則更偏重于生成波茲曼機(jī),即少量音樂(lè)數(shù)據(jù)集的情況;反之,則偏重于判別波茲曼機(jī)。在實(shí)際運(yùn)用中,可以利用交叉驗(yàn)證的方法調(diào)節(jié)α,以達(dá)到在不同音樂(lè)訓(xùn)練集的情況下都能為新的音樂(lè)標(biāo)注上準(zhǔn)確的社群標(biāo)簽。事實(shí)上,也可以將式(7)的后一項(xiàng)看成判別波茲曼機(jī)的正則化項(xiàng)。
另一方面,在機(jī)器學(xué)習(xí)訓(xùn)練中,有時(shí)由于訓(xùn)練數(shù)據(jù)集不充足,模型會(huì)產(chǎn)生過(guò)擬合問(wèn)題,最終訓(xùn)練得到的模型對(duì)在訓(xùn)練時(shí)“未見(jiàn)過(guò)”數(shù)據(jù)的分類效果很差。為此,本文引入了近些年在深度模型中廣泛使用的Dropout規(guī)則化方法。
在傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練過(guò)程中,層與層之間的權(quán)值和偏置都會(huì)在每一次的訓(xùn)練過(guò)程里強(qiáng)制更新,因此可能會(huì)導(dǎo)致一些系數(shù)過(guò)分地共適應(yīng)(co-adaption),也就是說(shuō),一些權(quán)重系數(shù)可能會(huì)收斂于某個(gè)值,而這個(gè)值可能會(huì)過(guò)分依賴于另一些權(quán)重系數(shù)所收斂的值。
在訓(xùn)練過(guò)程中,Dropout將一層單元中的一部分隨機(jī)置零,也就相當(dāng)于舍棄被置零的單元與下一層的鏈接,這樣便會(huì)阻止神經(jīng)元間的過(guò)分的共適應(yīng)。文獻(xiàn)[10]證實(shí)了帶有Dropout的受限波茲曼機(jī)將優(yōu)于傳統(tǒng)受限波茲曼機(jī)。
本文將Dropout應(yīng)用于混合判別波茲曼機(jī)中,使輸入音頻特征的一部分置零,以達(dá)到防止模型過(guò)擬合的效果。同時(shí),實(shí)驗(yàn)結(jié)果也證實(shí)了Dropout確實(shí)能使模型的標(biāo)注準(zhǔn)確率更高。
圖3為基于混合判別波茲曼機(jī)的音樂(lè)自標(biāo)注模型的訓(xùn)練流程圖。首先從原始音樂(lè)中提取出音色特征和旋律特征,然后送入混合波茲曼模型中進(jìn)行訓(xùn)練,以最小化負(fù)對(duì)數(shù)似然為目標(biāo)函數(shù),其中混合模型使用了Dropout方法防止過(guò)擬合。通過(guò)交叉驗(yàn)證方法,調(diào)整模型中的參數(shù)使模型達(dá)到最優(yōu)的效果。
與流派標(biāo)注或其他的標(biāo)注問(wèn)題不同的是,在為音樂(lè)標(biāo)注社群標(biāo)簽時(shí),一首歌曲一般有多個(gè)標(biāo)簽,如一首音樂(lè)可能被同時(shí)標(biāo)記為“男聲”、“搖滾”等,因此,在使用模型為測(cè)試集音樂(lè)標(biāo)注時(shí),將混合波茲曼機(jī)由softmax函數(shù)得到的一組概率值向量p(y|x),即表征模型將一首歌曲標(biāo)記為某個(gè)標(biāo)簽的把握程度,取其概率最大的一部分標(biāo)記與真實(shí)標(biāo)記進(jìn)行比較來(lái)計(jì)算模型的準(zhǔn)確率。

圖3 帶Dropout的混合判別波茲曼機(jī)的訓(xùn)練流程圖Fig.3 Training flowchart of the Hybrid discriminative restricted Boltzmann machines with Dropout
3.1數(shù)據(jù)集
本文實(shí)驗(yàn)采用混合判別波茲曼機(jī)模型為音樂(lè)自動(dòng)標(biāo)注。社群標(biāo)簽數(shù)據(jù)集采用Amazon.com的Mechanical Turk數(shù)據(jù)集[13]。Mturk讓用戶任意描述一段10 s的歌曲片段,用戶可以隨意去標(biāo)記片段的流派、情感和樂(lè)器類型等多種多樣的標(biāo)簽(例如“孤獨(dú)”、“快節(jié)奏”等語(yǔ)義標(biāo)簽)。本實(shí)驗(yàn)一共選取915首10 s片段,同時(shí)摘取最常用且有意義的25種社群標(biāo)簽。
模型輸入特征采用文獻(xiàn)[14]中的音色與旋律特征。音色特征是音頻梅爾倒譜系數(shù)(MFCC)協(xié)方差的均值與方差,這種特征能捕捉到音頻的樂(lè)器信息。旋律特征由4個(gè)頻帶得到,能夠提取到鼓樂(lè)器成分,還能夠分離具有強(qiáng)烈節(jié)奏的樂(lè)曲與其他樂(lè)曲,如舞曲與搖滾民謠。上述特征都進(jìn)行了歸一化預(yù)處理,具有零均值與單位方差。音色特征有189維,旋律特征有200維,將兩者合并,輸入為389維特征。
3.2實(shí)驗(yàn)?zāi)P?/p>
本文實(shí)驗(yàn)采用了判別波茲曼機(jī)、混合判別波茲曼機(jī)、帶有Dropout處理的混合判別波茲曼機(jī)、經(jīng)典分類器——支持向量機(jī)(SVM),以及多層感知機(jī)MLP模型。
所有的波茲曼機(jī)在建立模型時(shí)都引入了高斯單元[15]以適應(yīng)連續(xù)音頻特征x和二值標(biāo)簽序列y,具體來(lái)說(shuō),在訓(xùn)練時(shí),通過(guò)隱層生成的可視層具有正態(tài)分布(連續(xù)值序列),通過(guò)隱層生成的標(biāo)簽為二值序列。
實(shí)驗(yàn)還使用了線性核支持向量機(jī)(SVM)來(lái)進(jìn)行比較,由于是多分類問(wèn)題,故采用一對(duì)多分類器。
3.3實(shí)驗(yàn)
3.3.1 實(shí)驗(yàn)1 實(shí)驗(yàn)1比較了在訓(xùn)練數(shù)據(jù)集與測(cè)試數(shù)據(jù)集數(shù)量不同的情況下,判別波茲曼機(jī)、混合判別波茲曼機(jī)、SVM與多層感知機(jī)MLP結(jié)果的差異。實(shí)驗(yàn)結(jié)果如圖4所示。
訓(xùn)練過(guò)程中,采用10折交叉驗(yàn)證(10-fold validation)設(shè)置使模型最優(yōu)的參數(shù)。數(shù)據(jù)集被分為10折,模型將被訓(xùn)練10次,每一次的訓(xùn)練都采用9折的樣本集,剩下的1折樣本子集作為測(cè)試集。這種方法能最大限度地利用整個(gè)數(shù)據(jù)集樣本,并且由于驗(yàn)證集基本涵蓋了整個(gè)數(shù)據(jù)集,能最大限度考察模型的泛化能力并依據(jù)驗(yàn)證集設(shè)置模型參數(shù)。最終,本實(shí)驗(yàn)的波茲曼機(jī)與多層感知機(jī)的模型系數(shù)如表1所示,其中,將式(8)中的α設(shè)為0.005,以達(dá)到較為顯著的效果。
從圖4中可以看到,當(dāng)訓(xùn)練數(shù)據(jù)集足夠多時(shí),混合判別波茲曼機(jī)和判別波茲曼機(jī)都能達(dá)到較為滿意的準(zhǔn)確率,且兩者的結(jié)果非常接近且都優(yōu)于SVM與MLP。當(dāng)訓(xùn)練數(shù)據(jù)集開(kāi)始減少時(shí),所有的分類器的準(zhǔn)確率都開(kāi)始下降,但混合判別波茲曼機(jī)的優(yōu)勢(shì)開(kāi)始體現(xiàn)出來(lái),比判別波茲曼機(jī)準(zhǔn)確率高2%左右。當(dāng)訓(xùn)練數(shù)據(jù)集進(jìn)一步減少時(shí),混合判別波茲曼機(jī)的準(zhǔn)確率與判別波茲曼的準(zhǔn)確率之間的差距又有了進(jìn)一步的拉大。

表1 實(shí)驗(yàn)1中波茲曼機(jī)與多層感知機(jī)的模型參數(shù)Table 1 Model parameters of the Boltzmann machines and the MLP in experiment 1
更多的實(shí)驗(yàn)數(shù)據(jù)表明,在有足夠多的訓(xùn)練數(shù)據(jù)學(xué)習(xí)時(shí),混合判別波茲曼機(jī)與判別波茲曼的效果非常近似,當(dāng)不斷減少訓(xùn)練數(shù)據(jù)量時(shí),混合判別波茲曼機(jī)的優(yōu)勢(shì)逐漸體現(xiàn)出來(lái),最終的差距維持在3%左右。

圖4 不同數(shù)據(jù)集樣本數(shù)量下4種分類器的準(zhǔn)確率Fig.4 Accuracy of four classifiers in different amounts of datasets
3.3.2 實(shí)驗(yàn)2 實(shí)驗(yàn)2把經(jīng)Dropout處理后的混合判別波茲曼機(jī)與文獻(xiàn)[16]中的判別波茲曼機(jī)、多層感知機(jī)(MLP)、SVM進(jìn)行比較,觀察Dropout規(guī)則化處理方法的效果。訓(xùn)練采用5折交叉驗(yàn)證來(lái)設(shè)置參數(shù)與比較模型,其中3折是訓(xùn)練集,1折是驗(yàn)證集,1折是測(cè)試集,即549個(gè)訓(xùn)練樣本,驗(yàn)證集和測(cè)試集分別為189。同文獻(xiàn)[16]一樣,也采用AUC判別標(biāo)準(zhǔn)[17]。模型參數(shù)如表2所示,實(shí)驗(yàn)結(jié)果如表3所示。

表2 實(shí)驗(yàn)2中的模型參數(shù)Table 2 Model parameters in experiment 2

表3 實(shí)驗(yàn)2中5種分類器的AUC準(zhǔn)確率結(jié)果Table 3 AUC accuracy of five classifiers in experiment 2
實(shí)驗(yàn)結(jié)果表明,Dropout確實(shí)能夠提升混合判別波茲曼機(jī)的性能,防止因?yàn)橛?xùn)練樣本過(guò)少而產(chǎn)生的過(guò)擬合情況。在同樣的環(huán)境參數(shù)下,經(jīng)過(guò)Dropout的混合判別波茲曼機(jī)比未經(jīng)過(guò)Dropout的單一判別波茲曼機(jī)或混合判別波茲曼機(jī)的準(zhǔn)確率提高了0.5%左右。
本文通過(guò)實(shí)驗(yàn)論證了混合判別波茲曼機(jī)在音樂(lè)標(biāo)注上的效果不僅好于傳統(tǒng)分類器,且在訓(xùn)練數(shù)據(jù)集較少的情況下,效果也能優(yōu)于判別波茲曼機(jī)。這一優(yōu)勢(shì)在帶標(biāo)注數(shù)據(jù)較少的情況下,即帶標(biāo)注數(shù)據(jù)少,而未標(biāo)注數(shù)據(jù)量極大的情況下很有意義。同時(shí),為了進(jìn)一步應(yīng)對(duì)實(shí)驗(yàn)中少量訓(xùn)練集的情況,引入了Dropout方法,以解決混合判別波茲曼機(jī)模型過(guò)擬合問(wèn)題。
在音樂(lè)推薦系統(tǒng)中,往往需要計(jì)算得到符合用戶需求的音樂(lè),從而能夠?qū)?yōu)秀的推薦結(jié)果呈現(xiàn)給用戶,而通過(guò)人工對(duì)音樂(lè)進(jìn)行標(biāo)注、分類等工作需要耗費(fèi)大量的人力成本以及時(shí)間成本。本文研究的模型能夠在一定程度上為音樂(lè)進(jìn)行自動(dòng)標(biāo)注,從而能為后續(xù)的推薦系統(tǒng)算法,包括基于內(nèi)容或基于協(xié)同過(guò)濾等推薦算法提供便利。
目前的深度學(xué)習(xí)模型中,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network)或是深度置信網(wǎng)絡(luò)(Deep belief network)的分類準(zhǔn)確率很高,我們將把深度學(xué)習(xí)模型與本文研究的混合判別波茲曼機(jī)相結(jié)合,即可以將深度學(xué)習(xí)模型最后的線性回歸(Logistic regression)層替換為混唄判別波茲曼機(jī),同時(shí)加上Dropout等規(guī)則化方法,試圖能夠在少量樣本數(shù)量的情況下得到更好的標(biāo)注結(jié)果。
[1] TINGLE D,KIM Y E,TURNBULL D.Exploring automatic music annotation with acoustically-objective tags[C]//Proceedings of the International Conference on Multimedia Information Retrieval.Philadelphia,PA,USA:ACM,2010:55-62.
[2] SORDO M,LAURIER C,CELMA O.Annotating music collections:How content-based similarity helps to propagate labels[C]//Proceedings of the 8th International Conference on Music Information Retrieval.Vienna,Austria:DBLP,2007:531-534.
[3] LAMERE P.Social tagging and music information retrieval[J].Journal of New Music Research,2008,37(2):101-114.
[4] BERTIN-MAHIEUX T,ECK D,MAILLET F,etal.Autotagger:A model for predicting social tags from acoustic features on large music databases[J].Journal of New Music Research,2008,37(2):115-135.
[5] LAURIER C,SORDO M,SERRA J,etal. Music mood representations from social tags[C]//Proceedings of the 10th International Society for Music Information Retrieval Conference.Kobe,Japan:DBLP,2009:381-386.
[6] LEVY M,SANDLER M.A semantic space for music derived from social tags[C]//Proceedings of the 8th International Conference on Music Information Retrieval.Vienna,Austria:DBLP,2007:411-416.
[7] SYMEONIDIS P,RUXANDA M M,NANOPOULOS A,etal.Ternary semantic analysis of social tags for personalized music recommendation[C]//9th International Conference on Music Information Retrieval.Philadelphia,USA:DBLP,2008:219-224.
[8] HAMEL P,ECK D.Learning features from music audio with deep belief networks[C]//Proceedings of the 11th International Society for Music Information Retrieval Conference.Utrecht,Netherlands:DBLP, 2010:339-344.
[9] NG A,JORDAN M.On discriminative vs.generative classiers:A comparison of logistic regression and naive Bayes[C]//Advances in Neural Information Processing Systems.Vancouver,British Columbia,Canada:NIPS,2002:841-848.
[10] HINTON G E,SRIVASTAVA N,KRIZHEVSKY A.Improving neural networks by preventing co-adaptation of feature detectors[J].Computer Science,2012,3(4):212-223.
[11] SRIVASTAVA N,HINTON G,KRIZHEVSKY A,etal.Dropout:A simple way to prevent neural networks from overfitting[J].The Journal of Machine Learning Research,2014,15(1):1929-1958.
[12] HINTON G E.Training products of experts by minimizing contrastive divergence[J].Neural Computation,2002,14(8):1771-1800.
[13] MANDEL M I,ECK D,BENGIO Y.Learning tags that vary within a song[C]//Proceedings of the 11th International Society for Music Information Retrieval Conference.Utrecht,Netherlands:DBLP, 2010:399-404.
[14] MANDEL M I,ELLIS D P W.A web-based game for collecting music metadata[J].Journal of New Music Research,2008,37(2):151-165.
[15] WELLING M,ROSEN-ZVI M,HINTON G E.Exponential family harmoniums with an application to information retrieval[C]//Advances in Neural Information Processing Systems.Vancouver,British Columbia,Canada:NIPS,2004:1481-1488.
[16] MANDEL M,PASCANU R,LAROCHELLE H.Autotagging music with conditional restricted Boltzmann machines[C]//Asian Couference on Information and Database Systems.USA:IEEE,2012:284-293.
[17] CORTES C,MOHRI M.AUC optimization vs.error rate minimization[J].Advances in Neural Information Processing Systems,2004,16(16):313-320.
AnnotatingMusicwithHybridDiscriminativeRestrictedBoltzmannMachines
WANGShi-jun,CHENNing
(SchoolofInformationScienceandEngineering,EastChinaUniversityofScienceandTechnology,Shanghai200237,China)
For the music annotation,the amount of unlabeled music data is often much more than the labeled ones such that the training results are usually unsatisfying.Although generation model can be suitable for the smaller training data case to some extent and get higher quality results,it may be inferior to the discriminative model in the case of sufficient training data.By combining the advantages of the generation model and the discriminative model,this paper presents a hybrid discriminative restricted Boltzmann machines.The proposed hybrid model can improve the accuracy of the music annotation tasks.The experiment results show that the hybrid model is much better than the traditional machine learning models.Moreover,it is also better than the single discriminative Boltzmann machines for the case that the amount of training data is small and can attain the similar performance to the discriminative model in the case that the amount of training data is sufficient.Besides,the Dropout method is introduced in this paper to improve the model and prevent the overfitting for the smaller training data.
annotating music; hybrid discriminative restricted Boltzmann machines; machine learning; artificial intelligence
1006-3080(2017)04-0540-06
10.14135/j.cnki.1006-3080.2017.04.013
2016-09-28
國(guó)家自然科學(xué)基金(61271349)
王詩(shī)俊(1991-),男,碩士生,研究方向?yàn)橐纛l信號(hào)處理。
陳 寧,E-mail:chenning_750210@163.com
TP391
A