999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于混合判別受限波茲曼機(jī)的音樂(lè)自動(dòng)標(biāo)注算法

2017-09-19 05:35:57王詩(shī)俊
關(guān)鍵詞:音樂(lè)實(shí)驗(yàn)模型

王詩(shī)俊, 陳 寧

(華東理工大學(xué)信息科學(xué)與工程學(xué)院,上海 200237)

基于混合判別受限波茲曼機(jī)的音樂(lè)自動(dòng)標(biāo)注算法

王詩(shī)俊, 陳 寧

(華東理工大學(xué)信息科學(xué)與工程學(xué)院,上海 200237)

對(duì)于音樂(lè)自動(dòng)標(biāo)注任務(wù),在很多情況下,未標(biāo)注的歌曲量遠(yuǎn)遠(yuǎn)超過(guò)已標(biāo)注的歌曲數(shù)據(jù),從而導(dǎo)致訓(xùn)練結(jié)果不理想。生成模型能夠在某種程度上適應(yīng)少量數(shù)據(jù)集的情況,得出較為滿意的結(jié)果,然而,在有充分?jǐn)?shù)據(jù)集的情況下生成模型的效果卻劣于判別模型。本文提出了一種結(jié)合生成模型與判別模型兩者優(yōu)勢(shì)的面向音樂(lè)自動(dòng)標(biāo)注的混合判別波茲曼機(jī)模型,該模型可明顯提升音樂(lè)自動(dòng)標(biāo)注的準(zhǔn)確率。實(shí)驗(yàn)結(jié)果表明,混合波茲曼機(jī)的效果不僅好于傳統(tǒng)的機(jī)器學(xué)習(xí)模型,同時(shí),模型在擁有足夠訓(xùn)練數(shù)據(jù)量的情況下與判別模型效果相當(dāng),且在訓(xùn)練集較少的情況下效果也好于判別模型。另外,為了防止模型過(guò)擬合,還引入了Dropout規(guī)則化方法以進(jìn)一步加強(qiáng)模型的性能。

音樂(lè)自動(dòng)標(biāo)注; 混合判別受限波茲曼機(jī); 機(jī)器學(xué)習(xí); 人工智能

隨著數(shù)字音樂(lè)的發(fā)展,在線歌曲的數(shù)量呈指數(shù)級(jí)增長(zhǎng)。讓用戶快速找到自己感興趣的歌曲,是目前互聯(lián)網(wǎng)服務(wù)必須解決的一個(gè)問(wèn)題。一個(gè)可行的方法是利用歌曲標(biāo)簽,即用戶可以通過(guò)搜索標(biāo)簽的方式找到自己喜歡的歌曲。

Tingle等[1]利用兩種新的特征——Echo Nest Timbre (ENT)和Echo Nest Songs (ENS),以聲學(xué)標(biāo)簽 (Acoustic tags) 和流派標(biāo)簽(Genre tags)作為標(biāo)注為音頻進(jìn)行自動(dòng)標(biāo)注。Sordo等[2]利用基于音頻內(nèi)容相似性的模型對(duì)具有近似風(fēng)格或感情的音樂(lè)進(jìn)行了自動(dòng)標(biāo)注。

除上述標(biāo)簽外,一種最容易獲得的標(biāo)簽是社群標(biāo)簽(Social tags)[3],社群標(biāo)簽的獲得不需要專業(yè)人士的參與,極大地節(jié)約了人力和時(shí)間成本。所有用戶都可以為歌曲進(jìn)行標(biāo)注,例如“女聲”、“舒緩”、“好聽(tīng)”等語(yǔ)義級(jí)別描述。文獻(xiàn)[4]提出了利用MFCC(Mel Frequency Cepstrum Coefficient)特征來(lái)訓(xùn)練AdaBoost模型,該模型能夠根據(jù)音頻特征和社群標(biāo)簽進(jìn)行自標(biāo)注。文獻(xiàn)[5]利用社群標(biāo)簽進(jìn)行情感音樂(lè)分類,使用聚類的方式將音樂(lè)分為“高興”、“悲傷”、“憤怒”和“溫和”4種情緒。文獻(xiàn)[6]利用文本挖掘和信息檢索技術(shù)對(duì)龐大的語(yǔ)義級(jí)社群標(biāo)簽進(jìn)行文本分析,從而最終對(duì)音樂(lè)進(jìn)行情感分類。文獻(xiàn)[7]結(jié)合利用用戶信息、社群標(biāo)簽以及音頻特征為用戶推薦音樂(lè)。

但社群標(biāo)簽存在一些問(wèn)題。第一,并不是所有的歌曲都擁有足夠的社群標(biāo)簽,只有少量的熱門歌曲擁有足夠多的標(biāo)簽,新歌或是冷門歌曲的標(biāo)簽都很缺乏。第二,用戶可能會(huì)使用同義詞(如Favorite,Favorites)、無(wú)用詞(如Awesome,Own it)、歧義詞(如Love可以代表用戶喜愛(ài)的歌曲也可代表是愛(ài)情歌曲)來(lái)標(biāo)注音樂(lè)。第三,由于社群標(biāo)簽是語(yǔ)義級(jí)特征,需要對(duì)其進(jìn)行語(yǔ)義分析。因此,可以參與模型進(jìn)行訓(xùn)練的歌曲量其實(shí)并不多。正因?yàn)槿绱?在少量訓(xùn)練數(shù)據(jù)集的情況下對(duì)音樂(lè)進(jìn)行準(zhǔn)確的自動(dòng)標(biāo)注非常重要。

目前,擁有高準(zhǔn)確率的深度學(xué)習(xí)模型被用于音樂(lè)自標(biāo)注研究中。文獻(xiàn)[8]利用深度置信網(wǎng)絡(luò)DBN(Deep Belief Network)來(lái)自動(dòng)提取輸入音頻的特征以進(jìn)行流派分類,不過(guò)該模型需要足夠的訓(xùn)練集,并且流派類別非常少,屬于某個(gè)流派的歌曲數(shù)量依舊十分龐大,無(wú)法使用戶快速找到自己喜歡的歌曲,本文不再對(duì)該方法進(jìn)行比較。

生成模型(Generative model)可以解決訓(xùn)練數(shù)據(jù)集數(shù)量較少的問(wèn)題,在少量數(shù)據(jù)集情況下的效果要好于分類問(wèn)題中常使用的判別模型(Discriminative model)[9],但在擁有大量訓(xùn)練數(shù)據(jù)的情況下,判別模型卻要好于生成模型。為了兼顧兩者的優(yōu)勢(shì),本文提出了一種將生成波茲曼機(jī)和判別波茲曼機(jī)混合組成的混合判別波茲曼機(jī)(Hybrid Discriminative Restricted Boltzmann Machines,HDRBM)。實(shí)驗(yàn)證明該模型即使在少量帶標(biāo)簽音樂(lè)訓(xùn)練集的情況下也能達(dá)到精準(zhǔn)標(biāo)注的結(jié)果。

另外在訓(xùn)練模型時(shí),可能因?yàn)橛?xùn)練數(shù)據(jù)集太少會(huì)導(dǎo)致過(guò)擬合的情況。為了防止過(guò)擬合,本文在混合判別波茲曼機(jī)中加入了Dropout[10]規(guī)則化方法。Dropout能夠提高模型的準(zhǔn)確率[11],本文實(shí)驗(yàn)證實(shí)了Dropout使混合波茲曼機(jī)在小規(guī)模數(shù)據(jù)集下也能保持準(zhǔn)確性。

混合判別波茲曼機(jī)模型在音樂(lè)數(shù)據(jù)訓(xùn)練集較為充分時(shí),標(biāo)注準(zhǔn)確率能達(dá)到與單一的判別波茲曼機(jī)相仿的效果,在小規(guī)模訓(xùn)練集上訓(xùn)練時(shí),混合判別波茲曼機(jī)的準(zhǔn)確度相比判別波茲曼機(jī)或是其他機(jī)器學(xué)習(xí)模型更為優(yōu)秀。同時(shí),本文的實(shí)驗(yàn)證實(shí)了Dropout方法確實(shí)能夠防止因?yàn)樯倭恳魳?lè)數(shù)據(jù)集而導(dǎo)致的過(guò)擬合現(xiàn)象。

1 受限波茲曼機(jī)

1.1生成波茲曼機(jī)

如圖1所示,傳統(tǒng)波茲曼機(jī)是一種無(wú)向生成模型,擁有一層輸入層和一層隱層,層與層之間互相連接,層之內(nèi)無(wú)連接。通過(guò)訓(xùn)練,隱層可以學(xué)習(xí)到輸入層的概率分布模型,也可以理解為隱層學(xué)習(xí)到了輸入層的特征。

圖1 生成受限波茲曼機(jī)Fig.1 Generation restricted Boltzmann machines

傳統(tǒng)受限波茲曼機(jī)是無(wú)監(jiān)督學(xué)習(xí)模型,若將音頻放入模型中學(xué)習(xí),隱層將能夠?qū)W習(xí)到音頻特征,并重構(gòu)原始的輸入音頻信息。正因?yàn)檫@種特性,傳統(tǒng)波茲曼機(jī)常常被當(dāng)作多層深度學(xué)習(xí)模型中的一層,用來(lái)提取上一層輸入的特征。不過(guò),將原來(lái)的輸入(音頻)聯(lián)合其類別(社群標(biāo)簽)一同輸入波茲曼機(jī),就能使波茲曼機(jī)學(xué)習(xí)到輸入和標(biāo)簽的聯(lián)合分布,即生成波茲曼機(jī),如圖2所示。

圖2 判別受限波茲曼機(jī)Fig.2 Discriminative restricted Boltzmann machines

在音樂(lè)自標(biāo)注任務(wù)中,假設(shè)生成波茲曼機(jī)有n個(gè)隱節(jié)點(diǎn),輸入數(shù)據(jù)為d維音頻特征,有c種音樂(lè)標(biāo)簽,由此形成的概率分布為

(1)

-hTWx-bTx-cTh-dTy-hTUy

(2)

式(2)為波茲曼機(jī)的能量公式,其中,參數(shù)W為隱層和輸入層之間的連接權(quán)值系數(shù);U為隱層和標(biāo)簽之間的連接權(quán)重系數(shù);b,c,d分別為輸入層、隱層和標(biāo)簽的偏置系數(shù)。

假設(shè)有訓(xùn)練集Dtrain,以最小化負(fù)對(duì)數(shù)似然為目標(biāo),即最小化目標(biāo)函數(shù):

(3)

其中,p(xi,yi)為一個(gè)樣本x和一個(gè)標(biāo)簽y的聯(lián)合分布。

為了最小化式(3),使用隨機(jī)梯度下降法,得到由兩個(gè)期望組成的梯度公式:

(4)

式(4)的第1項(xiàng)可以通過(guò)給定的xi,yi計(jì)算得到;第2項(xiàng)卻因?yàn)樾枰械膞和y求和,不能通過(guò)直接的計(jì)算求得,可以通過(guò)逼近的方法得到。文獻(xiàn)[12]提出了一種對(duì)比散度方法(ContrastiveDivergence,CD),通過(guò)以(xi,yi)為起始點(diǎn)的有限步長(zhǎng)吉布斯采樣來(lái)逼近所要求的期望。

1.2判別波茲曼機(jī)

生成波茲曼機(jī)能得到音頻特征與社群標(biāo)簽之間的聯(lián)合概率分布,但本文關(guān)注的是社群標(biāo)簽的自動(dòng)標(biāo)注,因此,我們的目標(biāo)是對(duì)輸入音樂(lè)的精準(zhǔn)標(biāo)注,而不是概率分布,即可以將目標(biāo)函數(shù)p(x,y)替換為p(y|x)。繼續(xù)考慮負(fù)對(duì)數(shù)似然,目標(biāo)函數(shù)從式(4)的聯(lián)合分布變?yōu)闂l件分布:

(5)

通過(guò)與式(4)相似的式(6)計(jì)算梯度下降:

(6)

同生成波茲曼機(jī)一樣,在訓(xùn)練判別波茲曼機(jī)時(shí),同樣可以利用對(duì)比散度方法計(jì)算梯度,最大的區(qū)別是在計(jì)算式(6)的第2項(xiàng)時(shí),由于是計(jì)算后驗(yàn)概率,不需要考慮輸入xi的重構(gòu),因此將xi固定即可。

2 基于混合判別波茲曼機(jī)的音樂(lè)自標(biāo)注模型

相比于生成波茲曼機(jī),判別波茲曼機(jī)的優(yōu)勢(shì)體現(xiàn)在訓(xùn)練時(shí)數(shù)據(jù)集的量上,大量的訓(xùn)練集將使判別波茲曼機(jī)發(fā)揮更出色,反之,生成波茲曼機(jī)在少量的數(shù)據(jù)集上更有優(yōu)勢(shì)。

因此,為了既能適應(yīng)本文音樂(lè)數(shù)據(jù)集較少的情況,又能在日后數(shù)據(jù)集足夠充足的情況下不影響性能,本文提出了一種結(jié)合兩者優(yōu)勢(shì)的基于混合判別波茲曼機(jī)模型的音樂(lè)自標(biāo)注模型,使得音樂(lè)標(biāo)注任務(wù)在不同數(shù)量的音樂(lè)數(shù)據(jù)集上的標(biāo)注結(jié)果達(dá)到比單一模型更好的效果,同時(shí)標(biāo)注的準(zhǔn)確度好于傳統(tǒng)的機(jī)器學(xué)習(xí)模型。

混合判別波茲曼機(jī)的目標(biāo)函數(shù)由式(3)和式(5)共同組成:

(7)

其中,可調(diào)參數(shù)α表示生成模型對(duì)于整個(gè)模型的影響比重。若α較大,則更偏重于生成波茲曼機(jī),即少量音樂(lè)數(shù)據(jù)集的情況;反之,則偏重于判別波茲曼機(jī)。在實(shí)際運(yùn)用中,可以利用交叉驗(yàn)證的方法調(diào)節(jié)α,以達(dá)到在不同音樂(lè)訓(xùn)練集的情況下都能為新的音樂(lè)標(biāo)注上準(zhǔn)確的社群標(biāo)簽。事實(shí)上,也可以將式(7)的后一項(xiàng)看成判別波茲曼機(jī)的正則化項(xiàng)。

另一方面,在機(jī)器學(xué)習(xí)訓(xùn)練中,有時(shí)由于訓(xùn)練數(shù)據(jù)集不充足,模型會(huì)產(chǎn)生過(guò)擬合問(wèn)題,最終訓(xùn)練得到的模型對(duì)在訓(xùn)練時(shí)“未見(jiàn)過(guò)”數(shù)據(jù)的分類效果很差。為此,本文引入了近些年在深度模型中廣泛使用的Dropout規(guī)則化方法。

在傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練過(guò)程中,層與層之間的權(quán)值和偏置都會(huì)在每一次的訓(xùn)練過(guò)程里強(qiáng)制更新,因此可能會(huì)導(dǎo)致一些系數(shù)過(guò)分地共適應(yīng)(co-adaption),也就是說(shuō),一些權(quán)重系數(shù)可能會(huì)收斂于某個(gè)值,而這個(gè)值可能會(huì)過(guò)分依賴于另一些權(quán)重系數(shù)所收斂的值。

在訓(xùn)練過(guò)程中,Dropout將一層單元中的一部分隨機(jī)置零,也就相當(dāng)于舍棄被置零的單元與下一層的鏈接,這樣便會(huì)阻止神經(jīng)元間的過(guò)分的共適應(yīng)。文獻(xiàn)[10]證實(shí)了帶有Dropout的受限波茲曼機(jī)將優(yōu)于傳統(tǒng)受限波茲曼機(jī)。

本文將Dropout應(yīng)用于混合判別波茲曼機(jī)中,使輸入音頻特征的一部分置零,以達(dá)到防止模型過(guò)擬合的效果。同時(shí),實(shí)驗(yàn)結(jié)果也證實(shí)了Dropout確實(shí)能使模型的標(biāo)注準(zhǔn)確率更高。

圖3為基于混合判別波茲曼機(jī)的音樂(lè)自標(biāo)注模型的訓(xùn)練流程圖。首先從原始音樂(lè)中提取出音色特征和旋律特征,然后送入混合波茲曼模型中進(jìn)行訓(xùn)練,以最小化負(fù)對(duì)數(shù)似然為目標(biāo)函數(shù),其中混合模型使用了Dropout方法防止過(guò)擬合。通過(guò)交叉驗(yàn)證方法,調(diào)整模型中的參數(shù)使模型達(dá)到最優(yōu)的效果。

與流派標(biāo)注或其他的標(biāo)注問(wèn)題不同的是,在為音樂(lè)標(biāo)注社群標(biāo)簽時(shí),一首歌曲一般有多個(gè)標(biāo)簽,如一首音樂(lè)可能被同時(shí)標(biāo)記為“男聲”、“搖滾”等,因此,在使用模型為測(cè)試集音樂(lè)標(biāo)注時(shí),將混合波茲曼機(jī)由softmax函數(shù)得到的一組概率值向量p(y|x),即表征模型將一首歌曲標(biāo)記為某個(gè)標(biāo)簽的把握程度,取其概率最大的一部分標(biāo)記與真實(shí)標(biāo)記進(jìn)行比較來(lái)計(jì)算模型的準(zhǔn)確率。

圖3 帶Dropout的混合判別波茲曼機(jī)的訓(xùn)練流程圖Fig.3 Training flowchart of the Hybrid discriminative restricted Boltzmann machines with Dropout

3 實(shí)驗(yàn)結(jié)果與分析

3.1數(shù)據(jù)集

本文實(shí)驗(yàn)采用混合判別波茲曼機(jī)模型為音樂(lè)自動(dòng)標(biāo)注。社群標(biāo)簽數(shù)據(jù)集采用Amazon.com的Mechanical Turk數(shù)據(jù)集[13]。Mturk讓用戶任意描述一段10 s的歌曲片段,用戶可以隨意去標(biāo)記片段的流派、情感和樂(lè)器類型等多種多樣的標(biāo)簽(例如“孤獨(dú)”、“快節(jié)奏”等語(yǔ)義標(biāo)簽)。本實(shí)驗(yàn)一共選取915首10 s片段,同時(shí)摘取最常用且有意義的25種社群標(biāo)簽。

模型輸入特征采用文獻(xiàn)[14]中的音色與旋律特征。音色特征是音頻梅爾倒譜系數(shù)(MFCC)協(xié)方差的均值與方差,這種特征能捕捉到音頻的樂(lè)器信息。旋律特征由4個(gè)頻帶得到,能夠提取到鼓樂(lè)器成分,還能夠分離具有強(qiáng)烈節(jié)奏的樂(lè)曲與其他樂(lè)曲,如舞曲與搖滾民謠。上述特征都進(jìn)行了歸一化預(yù)處理,具有零均值與單位方差。音色特征有189維,旋律特征有200維,將兩者合并,輸入為389維特征。

3.2實(shí)驗(yàn)?zāi)P?/p>

本文實(shí)驗(yàn)采用了判別波茲曼機(jī)、混合判別波茲曼機(jī)、帶有Dropout處理的混合判別波茲曼機(jī)、經(jīng)典分類器——支持向量機(jī)(SVM),以及多層感知機(jī)MLP模型。

所有的波茲曼機(jī)在建立模型時(shí)都引入了高斯單元[15]以適應(yīng)連續(xù)音頻特征x和二值標(biāo)簽序列y,具體來(lái)說(shuō),在訓(xùn)練時(shí),通過(guò)隱層生成的可視層具有正態(tài)分布(連續(xù)值序列),通過(guò)隱層生成的標(biāo)簽為二值序列。

實(shí)驗(yàn)還使用了線性核支持向量機(jī)(SVM)來(lái)進(jìn)行比較,由于是多分類問(wèn)題,故采用一對(duì)多分類器。

3.3實(shí)驗(yàn)

3.3.1 實(shí)驗(yàn)1 實(shí)驗(yàn)1比較了在訓(xùn)練數(shù)據(jù)集與測(cè)試數(shù)據(jù)集數(shù)量不同的情況下,判別波茲曼機(jī)、混合判別波茲曼機(jī)、SVM與多層感知機(jī)MLP結(jié)果的差異。實(shí)驗(yàn)結(jié)果如圖4所示。

訓(xùn)練過(guò)程中,采用10折交叉驗(yàn)證(10-fold validation)設(shè)置使模型最優(yōu)的參數(shù)。數(shù)據(jù)集被分為10折,模型將被訓(xùn)練10次,每一次的訓(xùn)練都采用9折的樣本集,剩下的1折樣本子集作為測(cè)試集。這種方法能最大限度地利用整個(gè)數(shù)據(jù)集樣本,并且由于驗(yàn)證集基本涵蓋了整個(gè)數(shù)據(jù)集,能最大限度考察模型的泛化能力并依據(jù)驗(yàn)證集設(shè)置模型參數(shù)。最終,本實(shí)驗(yàn)的波茲曼機(jī)與多層感知機(jī)的模型系數(shù)如表1所示,其中,將式(8)中的α設(shè)為0.005,以達(dá)到較為顯著的效果。

從圖4中可以看到,當(dāng)訓(xùn)練數(shù)據(jù)集足夠多時(shí),混合判別波茲曼機(jī)和判別波茲曼機(jī)都能達(dá)到較為滿意的準(zhǔn)確率,且兩者的結(jié)果非常接近且都優(yōu)于SVM與MLP。當(dāng)訓(xùn)練數(shù)據(jù)集開(kāi)始減少時(shí),所有的分類器的準(zhǔn)確率都開(kāi)始下降,但混合判別波茲曼機(jī)的優(yōu)勢(shì)開(kāi)始體現(xiàn)出來(lái),比判別波茲曼機(jī)準(zhǔn)確率高2%左右。當(dāng)訓(xùn)練數(shù)據(jù)集進(jìn)一步減少時(shí),混合判別波茲曼機(jī)的準(zhǔn)確率與判別波茲曼的準(zhǔn)確率之間的差距又有了進(jìn)一步的拉大。

表1 實(shí)驗(yàn)1中波茲曼機(jī)與多層感知機(jī)的模型參數(shù)Table 1 Model parameters of the Boltzmann machines and the MLP in experiment 1

更多的實(shí)驗(yàn)數(shù)據(jù)表明,在有足夠多的訓(xùn)練數(shù)據(jù)學(xué)習(xí)時(shí),混合判別波茲曼機(jī)與判別波茲曼的效果非常近似,當(dāng)不斷減少訓(xùn)練數(shù)據(jù)量時(shí),混合判別波茲曼機(jī)的優(yōu)勢(shì)逐漸體現(xiàn)出來(lái),最終的差距維持在3%左右。

圖4 不同數(shù)據(jù)集樣本數(shù)量下4種分類器的準(zhǔn)確率Fig.4 Accuracy of four classifiers in different amounts of datasets

3.3.2 實(shí)驗(yàn)2 實(shí)驗(yàn)2把經(jīng)Dropout處理后的混合判別波茲曼機(jī)與文獻(xiàn)[16]中的判別波茲曼機(jī)、多層感知機(jī)(MLP)、SVM進(jìn)行比較,觀察Dropout規(guī)則化處理方法的效果。訓(xùn)練采用5折交叉驗(yàn)證來(lái)設(shè)置參數(shù)與比較模型,其中3折是訓(xùn)練集,1折是驗(yàn)證集,1折是測(cè)試集,即549個(gè)訓(xùn)練樣本,驗(yàn)證集和測(cè)試集分別為189。同文獻(xiàn)[16]一樣,也采用AUC判別標(biāo)準(zhǔn)[17]。模型參數(shù)如表2所示,實(shí)驗(yàn)結(jié)果如表3所示。

表2 實(shí)驗(yàn)2中的模型參數(shù)Table 2 Model parameters in experiment 2

表3 實(shí)驗(yàn)2中5種分類器的AUC準(zhǔn)確率結(jié)果Table 3 AUC accuracy of five classifiers in experiment 2

實(shí)驗(yàn)結(jié)果表明,Dropout確實(shí)能夠提升混合判別波茲曼機(jī)的性能,防止因?yàn)橛?xùn)練樣本過(guò)少而產(chǎn)生的過(guò)擬合情況。在同樣的環(huán)境參數(shù)下,經(jīng)過(guò)Dropout的混合判別波茲曼機(jī)比未經(jīng)過(guò)Dropout的單一判別波茲曼機(jī)或混合判別波茲曼機(jī)的準(zhǔn)確率提高了0.5%左右。

4 結(jié)束語(yǔ)

本文通過(guò)實(shí)驗(yàn)論證了混合判別波茲曼機(jī)在音樂(lè)標(biāo)注上的效果不僅好于傳統(tǒng)分類器,且在訓(xùn)練數(shù)據(jù)集較少的情況下,效果也能優(yōu)于判別波茲曼機(jī)。這一優(yōu)勢(shì)在帶標(biāo)注數(shù)據(jù)較少的情況下,即帶標(biāo)注數(shù)據(jù)少,而未標(biāo)注數(shù)據(jù)量極大的情況下很有意義。同時(shí),為了進(jìn)一步應(yīng)對(duì)實(shí)驗(yàn)中少量訓(xùn)練集的情況,引入了Dropout方法,以解決混合判別波茲曼機(jī)模型過(guò)擬合問(wèn)題。

在音樂(lè)推薦系統(tǒng)中,往往需要計(jì)算得到符合用戶需求的音樂(lè),從而能夠?qū)?yōu)秀的推薦結(jié)果呈現(xiàn)給用戶,而通過(guò)人工對(duì)音樂(lè)進(jìn)行標(biāo)注、分類等工作需要耗費(fèi)大量的人力成本以及時(shí)間成本。本文研究的模型能夠在一定程度上為音樂(lè)進(jìn)行自動(dòng)標(biāo)注,從而能為后續(xù)的推薦系統(tǒng)算法,包括基于內(nèi)容或基于協(xié)同過(guò)濾等推薦算法提供便利。

目前的深度學(xué)習(xí)模型中,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network)或是深度置信網(wǎng)絡(luò)(Deep belief network)的分類準(zhǔn)確率很高,我們將把深度學(xué)習(xí)模型與本文研究的混合判別波茲曼機(jī)相結(jié)合,即可以將深度學(xué)習(xí)模型最后的線性回歸(Logistic regression)層替換為混唄判別波茲曼機(jī),同時(shí)加上Dropout等規(guī)則化方法,試圖能夠在少量樣本數(shù)量的情況下得到更好的標(biāo)注結(jié)果。

[1] TINGLE D,KIM Y E,TURNBULL D.Exploring automatic music annotation with acoustically-objective tags[C]//Proceedings of the International Conference on Multimedia Information Retrieval.Philadelphia,PA,USA:ACM,2010:55-62.

[2] SORDO M,LAURIER C,CELMA O.Annotating music collections:How content-based similarity helps to propagate labels[C]//Proceedings of the 8th International Conference on Music Information Retrieval.Vienna,Austria:DBLP,2007:531-534.

[3] LAMERE P.Social tagging and music information retrieval[J].Journal of New Music Research,2008,37(2):101-114.

[4] BERTIN-MAHIEUX T,ECK D,MAILLET F,etal.Autotagger:A model for predicting social tags from acoustic features on large music databases[J].Journal of New Music Research,2008,37(2):115-135.

[5] LAURIER C,SORDO M,SERRA J,etal. Music mood representations from social tags[C]//Proceedings of the 10th International Society for Music Information Retrieval Conference.Kobe,Japan:DBLP,2009:381-386.

[6] LEVY M,SANDLER M.A semantic space for music derived from social tags[C]//Proceedings of the 8th International Conference on Music Information Retrieval.Vienna,Austria:DBLP,2007:411-416.

[7] SYMEONIDIS P,RUXANDA M M,NANOPOULOS A,etal.Ternary semantic analysis of social tags for personalized music recommendation[C]//9th International Conference on Music Information Retrieval.Philadelphia,USA:DBLP,2008:219-224.

[8] HAMEL P,ECK D.Learning features from music audio with deep belief networks[C]//Proceedings of the 11th International Society for Music Information Retrieval Conference.Utrecht,Netherlands:DBLP, 2010:339-344.

[9] NG A,JORDAN M.On discriminative vs.generative classiers:A comparison of logistic regression and naive Bayes[C]//Advances in Neural Information Processing Systems.Vancouver,British Columbia,Canada:NIPS,2002:841-848.

[10] HINTON G E,SRIVASTAVA N,KRIZHEVSKY A.Improving neural networks by preventing co-adaptation of feature detectors[J].Computer Science,2012,3(4):212-223.

[11] SRIVASTAVA N,HINTON G,KRIZHEVSKY A,etal.Dropout:A simple way to prevent neural networks from overfitting[J].The Journal of Machine Learning Research,2014,15(1):1929-1958.

[12] HINTON G E.Training products of experts by minimizing contrastive divergence[J].Neural Computation,2002,14(8):1771-1800.

[13] MANDEL M I,ECK D,BENGIO Y.Learning tags that vary within a song[C]//Proceedings of the 11th International Society for Music Information Retrieval Conference.Utrecht,Netherlands:DBLP, 2010:399-404.

[14] MANDEL M I,ELLIS D P W.A web-based game for collecting music metadata[J].Journal of New Music Research,2008,37(2):151-165.

[15] WELLING M,ROSEN-ZVI M,HINTON G E.Exponential family harmoniums with an application to information retrieval[C]//Advances in Neural Information Processing Systems.Vancouver,British Columbia,Canada:NIPS,2004:1481-1488.

[16] MANDEL M,PASCANU R,LAROCHELLE H.Autotagging music with conditional restricted Boltzmann machines[C]//Asian Couference on Information and Database Systems.USA:IEEE,2012:284-293.

[17] CORTES C,MOHRI M.AUC optimization vs.error rate minimization[J].Advances in Neural Information Processing Systems,2004,16(16):313-320.

AnnotatingMusicwithHybridDiscriminativeRestrictedBoltzmannMachines

WANGShi-jun,CHENNing

(SchoolofInformationScienceandEngineering,EastChinaUniversityofScienceandTechnology,Shanghai200237,China)

For the music annotation,the amount of unlabeled music data is often much more than the labeled ones such that the training results are usually unsatisfying.Although generation model can be suitable for the smaller training data case to some extent and get higher quality results,it may be inferior to the discriminative model in the case of sufficient training data.By combining the advantages of the generation model and the discriminative model,this paper presents a hybrid discriminative restricted Boltzmann machines.The proposed hybrid model can improve the accuracy of the music annotation tasks.The experiment results show that the hybrid model is much better than the traditional machine learning models.Moreover,it is also better than the single discriminative Boltzmann machines for the case that the amount of training data is small and can attain the similar performance to the discriminative model in the case that the amount of training data is sufficient.Besides,the Dropout method is introduced in this paper to improve the model and prevent the overfitting for the smaller training data.

annotating music; hybrid discriminative restricted Boltzmann machines; machine learning; artificial intelligence

1006-3080(2017)04-0540-06

10.14135/j.cnki.1006-3080.2017.04.013

2016-09-28

國(guó)家自然科學(xué)基金(61271349)

王詩(shī)俊(1991-),男,碩士生,研究方向?yàn)橐纛l信號(hào)處理。

陳 寧,E-mail:chenning_750210@163.com

TP391

A

猜你喜歡
音樂(lè)實(shí)驗(yàn)模型
一半模型
記一次有趣的實(shí)驗(yàn)
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
圣誕音樂(lè)路
兒童繪本(2017年24期)2018-01-07 15:51:37
3D打印中的模型分割與打包
音樂(lè)
NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
太空探索(2016年5期)2016-07-12 15:17:55
主站蜘蛛池模板: 久久99国产乱子伦精品免| 黄色网址免费在线| 亚洲精品第五页| 日韩a级毛片| 欧美成人午夜视频免看| 欧美福利在线观看| 午夜无码一区二区三区在线app| 99在线观看免费视频| 91在线精品麻豆欧美在线| 亚洲精品制服丝袜二区| 亚洲男人的天堂在线观看| 最近最新中文字幕在线第一页| 欧美日韩国产在线人| 国产对白刺激真实精品91| 成人福利免费在线观看| 亚洲精品男人天堂| 免费99精品国产自在现线| 最新亚洲人成网站在线观看| 国产一区二区丝袜高跟鞋| 欧美成人午夜影院| 亚洲欧美成人在线视频| 亚洲无码高清一区二区| 伊人精品视频免费在线| 四虎永久在线精品影院| 欧美专区在线观看| 在线国产欧美| 亚洲成人免费在线| 九色视频最新网址 | 日韩少妇激情一区二区| 亚洲成人在线网| 日韩福利在线视频| 久久亚洲国产视频| 日韩精品资源| 午夜视频在线观看免费网站 | 日韩高清一区 | 夜夜高潮夜夜爽国产伦精品| 亚洲色图欧美视频| 天天综合网色中文字幕| 亚洲三级色| 国产91小视频在线观看| 国产不卡一级毛片视频| 一本大道香蕉久中文在线播放| 亚洲美女AV免费一区| 国产呦精品一区二区三区网站| 狠狠综合久久久久综| 国产综合无码一区二区色蜜蜜| 91丨九色丨首页在线播放| 亚洲无线观看| 国产午夜精品鲁丝片| 日本精品视频一区二区| 高清国产在线| 色爽网免费视频| 午夜精品一区二区蜜桃| 国产乱子伦手机在线| 国产内射在线观看| 婷婷五月在线| 天天干伊人| 黄色免费在线网址| 黄片在线永久| 婷婷丁香在线观看| 国产18在线| 99这里只有精品免费视频| 亚洲色偷偷偷鲁综合| 日本人又色又爽的视频| 亚洲区欧美区| 91成人免费观看在线观看| 岛国精品一区免费视频在线观看| 国产成人禁片在线观看| 亚欧成人无码AV在线播放| 91久久青青草原精品国产| 欧美日韩亚洲国产主播第一区| 中文字幕va| 久久久精品国产SM调教网站| 日本三区视频| 欧美亚洲国产精品久久蜜芽| 99精品影院| 亚洲av无码牛牛影视在线二区| 在线中文字幕网| 国产成人毛片| 一本大道香蕉久中文在线播放| 日本欧美在线观看| 奇米精品一区二区三区在线观看|