999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

音樂情感識別中的遷移學習方法研究

2018-04-24 12:17:18于超
現代計算機 2018年6期
關鍵詞:情感音樂實驗

于超

(四川大學計算機學院,成都 610065)

0 引言

近年來,隨著移動智能設備硬件性能和產品設計水平的不斷提高。人們可以隨時隨地享受諸多便捷的服務,而作為藝術一大領域的音樂,也成為人們生活不可或缺的一部分。得益于大數據和計算力的增長以及智能算法的研究,機器學習技術開始廣泛應用到互聯網產品中,使得用戶可以獲得更加個性化的體驗。

基于機器學習的個性化音樂推薦系統也逐漸成為研究熱點,而音樂的情感則是音樂內容本身非常重要的語義信息。本文主要研究了基于卷積神經網絡的音樂情感識別遷移學習方法,并在公開音樂情感數據集上進行了實驗及分析。

1 音樂情感識別現狀

音樂情感識別的研究可以追溯到1988年[1],在隨后的三十年里越來越受到相關研究者的重視。時至今日,音樂情感識別的研究仍然面臨諸多困難和挑戰。

首先,當前領域由于缺乏高質量和統一的研究數據集,不同研究員只能自建數據集進行研究,這樣不利于研究者之間進行比較和判斷,因而影響了研究的發展。現有的音樂識別方面的公開數據集,較多是曲風識別以及社交網絡標簽識別,少量的專注于音樂情感識別的數據集中,也存在數據量太少或類別嚴重不平衡的問題。自2007年起,音樂信息檢索領域的知名競賽MIREX[2](Music Information Retrieval Evaluation eX?change)開始加入了音樂情感分類的任務,并提供了一套建立情感分類數據集的方法,并構建了相應的數據集供參賽者進行評估和比較,MIREX每年一次的舉辦為該領域的研究發展起到了很好的作用,但其數據集僅僅開放給參賽者使用。Panda Renato和Rui Pedro Paiva在2012年采納MIREX的數據集收集方法,構建了一套公開的音樂情感分類數據集,稱為類MIREX數據集[3],從而為不同研究者在該領域進行研究提供了很好的助益,因此,本文也將在此數據集上開展實驗。

此外,近年來大數據的發展讓人們認識到,少量的采樣會影響對真實世界的認知,對于機器智能算法來說也是一樣,而相比于音樂曲風識別的公開數據集已經達到了十萬首的數量級[4],目前的音樂情感數據集在曲目數量上仍較少,本文將研究基于卷積神經網絡的遷移學習方法,在當前數據量較少的情況下改善系統的識別能力。

2 基于梅爾聲譜圖及遷移學習的音樂分類方法

2.1 音樂的梅爾聲譜圖表示

圖1 一首音樂的原始波形(上)與對應的聲譜圖(下)

梅爾聲譜圖是一種常用的音頻信號表示方法,圖1展示了一首音樂的原始波形極其對應的聲譜圖。在數字信號領域中,將時間信號轉換為時間-頻率表示是一種有助于信號分析的方法,聲譜圖的生成原理也類似,即先將音頻信號根據設置的時間窗口分成許多幀,對每一幀音頻,通過短時傅立葉變換生成頻譜圖,同時考慮到梅爾頻率更加符合人類的聽覺特點,將頻譜圖映射到梅爾頻率上,再把所有幀的頻譜在時間軸上拼接成一張完整的聲譜圖。

將音樂信號表示為梅爾聲譜圖,有助于通過圖像這個載體,進行后續的音樂情感識別。

2.2 卷積神經網絡分類模型

自2012年基于卷積神經網絡的AlexNet[5]在Ima?geNet圖像識別競賽上大放異彩起,深度學習技術在圖像領域得到了快速發展,相較于傳統人工設計的特征,卷積神經網絡通過逐層卷積和反向傳播算法,從數據當中自動學習出對于當前問題更合適的特征表示,已經在圖像領域顯示出強大的能力。一個典型的卷積神經網絡分類器包含卷積層、激活函數、池化層、全連接層和Softmax分類器,同時還有一些防止網絡過擬合的結構和措施。受Aaron和Sander Dieleman等人將圖像卷積用于解決音樂推薦問題[6]的啟發,本文將采用聲譜圖結合卷積神經網絡的方式對音樂數據進行分析。

2.3 特征提取與遷移學習方法

卷積神經網絡出色的表現一部分來源于其逐層提取特征的能力,也就是通過低層特征的不同組合形成高層特征。Zeiler,Matthew D.和Rob Fergus通過對訓練完成的卷積神經網絡進行了可視化[7],發現隨著網絡層次的加深,提取出來的特征在語義上也更高級。得益于ImageNet大規模圖像數據集的發布和深度學習算法的研究,使得人們可以在數據量較小的情況下,通過遷移學習的方法更好更快地訓練一個新的任務的模型。

基于深度學習的遷移學習技術,即在當前任務數據樣本量較少的情況下,首先尋找擁有大量數據的相關問題,通過對相關問題的學習之后,再將網絡學習到的知識(即特征表示)應用到當前要解決的任務上來。具體可以采用兩種方式進行知識遷移。其一,將預訓練好的網絡作為特征提取器,后續增加的網絡或者分類器在前序提取的特征基礎上進行訓練。其二,使用預訓練好的網絡參數初始化當前更改過結構的網絡參數,整個網絡與新增加的部分一同訓練。

Google的聲音理解小組在2017年初發布了大規模音頻數據集AudioSet[8],其中包含了兩百萬個帶有人工標簽的視頻音軌,并且在此數據集上預訓練了一個音頻事件檢測網絡[9],本文的遷移學習研究將在此基礎上展開。

3 實驗部分

3.1 實驗數據及評測標準

本文采用公開的類MIREX(MIREX-like)音樂情感數據集進行相關實驗。數據集包含903首30秒的音樂片段,如表1所示,每個片段屬于一個特定的類別(聚簇),每個類別由語義上相似的情感詞聚合而成。其中每個類別150首歌曲構成平衡訓練集,剩下20%的曲目則構成測試集。

表1 M IREX-like音樂情感數據集類別構成

實驗的評價指標采用分類正確率(Accuracy)衡量。正確率的定義為下式,其中I為指示函數,當括號內的等式為真時,該值為1。

3.2 數據預處理

為便于后續在AudioSet模型上進行遷移學習,首先將MIREX-like數據集中所有的音樂片段按1秒分割提取成96×64的梅爾聲譜圖,構成相應的切片訓練樣本和切片測試樣本,同時將同屬于一首測試歌曲的切片組合成完整的測試樣本。

3.3 遷移學習模型

實驗中所采用的卷積神經網絡架構如表2所示。由于遷移學習的方式,該網絡的輸入層直至第三全連接層(FC3)的結構與AudioSet模型結構相同,包含了6個卷積層、4個池化層及3個全連接層,這部分的輸出稱為嵌入層(Embedding)。在AudioSet模型的基礎上增加一個小型神經網絡(FC4+FC5+Softmax)或直接增加Softmax分類器(FC5+Softmax),用于學習Embed?ding層的高層語義特征與音樂情感之間的映射關系。

3.4 實驗結果與分析

本文首先進行了普通的學習方式與遷移學習方式的對比試驗,其中遷移學習方式采用了前述的兩種方法進行了實驗。實驗結果如表3所示:

表3 普通學習方式與遷移學習方式的對比

訓練過程在30輪左右已經基本收斂,所以基于同樣的訓練輪數對結果進行觀察。

一方面,使用遷移學習的方式最終獲得的分類正確率均高于直接從少量數據中訓練的結果,說明從音頻大數據訓練得到的特征表示在音樂情感識別的任務上也具有較好的能力。對于遷移學習方式2,由于要訓練的網絡容量比方式1大得多,所以在不改變網絡架構的情況下,正確率會較低一些。

另一方面,在預訓練網絡結構之上增加更多的層次,只對正確率略有提升,也從另一角度說明遷移學習過來的特征表示已經具有較好的能力。

同時,本文也進行了實驗,分析從AudioSet預訓練網絡遷移音頻特征表示對音樂情感識別任務學習速度的影響,監測訓練過程收斂所花費的訓練輪次,實驗結果如表4所示:

表4 普通學習方式與遷移學習方式的對比

實驗顯示,采用遷移學習方法對網絡進行訓練將收斂速度提升了一倍以上,與此同時,將預訓練網絡部分與新增網絡部分協同訓練會進一步提高收斂速度。

4 結語

本文基于梅爾聲譜圖、卷積神經網絡及AudioSet模型研究了音樂情感識別的遷移學習方法。實驗中著重對音頻遷移學習帶來的音樂情感識別能力提升和訓練速度提升進行了考察。由于AudioSet音頻事件檢測任務同音樂情感識別任務存在語義上的相關性,應用遷移學習方式提高了原神經網絡的分類性能,同時大幅提升了訓練過程的收斂速度,證明了相關音頻領域中的特征表示在音樂情感識別任務中具有較好效果。在未來工作中,我們仍需要進一步解決許多現存問題,第一,情感類別對于不同主體的歧義性導致訓練數據的質量不穩定,產生的誤差將會進一步影響后續的學習與識別。第二,研究基于不同的大規模數據的遷移學習對音樂情感識別效果的影響。

參考文獻:

[1]Katayose,Haruhiro,M.Imai,and Seiji Inokuchi.Sentiment Extraction in Music.Pattern Recognition,1988.,9th International Conferenceon.IEEE,1988.

[2]http://www.music-ir.org/mirex/wiki/MIREX_HOME

[3]Panda,Renato,and RuiPedro Paiva.Music Emotion Classification:Dataset Acquisition and Comparative Analysis.15th International Conferenceon Digital Audio Effects(DAFx-12).2012.

[4]Defferrard,Micha?l,et al.FMA:A Dataset For Music Analysis.arXiv Preprint arXiv:1612.01840(2016).

[5]Krizhevsky,Alex,Ilya Sutskever,Geoffrey E.Hinton.Imagenet Classification with Deep Convolutional Neural Networks.Advances in Neural Information Processing Systems,2012.

[6]Aaron Van den Oord,Sander Dieleman,Benjamin Schrauwen.Deep Content-Based Music Recommendation.Advances in Neural Information processing systems.2013.

[7]Zeiler,Matthew D.,and Rob Fergus.Visualizing and Understanding Convolutional Networks.European Conferenceon Computer Vision.Springer,Cham,2014.

[8]Gemmeke,Jort F.,etal.Audio Set:An Ontology and Human-Labeled Dataset for Audio Events.IEEE ICASSP,2017.

[9]Hershey,Shawn,etal.CNN Architectures for Large-Scale Audio Classification.arXiv preprint arXiv:1609.09430(2016).

猜你喜歡
情感音樂實驗
記一次有趣的實驗
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
做個怪怪長實驗
如何在情感中自我成長,保持獨立
圣誕音樂路
兒童繪本(2017年24期)2018-01-07 15:51:37
音樂
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
主站蜘蛛池模板: 国产情侣一区| 亚洲成在线观看| 欧美日本在线一区二区三区| 四虎永久在线精品国产免费| 国产精品人莉莉成在线播放| 亚洲AV成人一区二区三区AV| 欧美人与动牲交a欧美精品| 在线免费不卡视频| 亚洲天堂777| 国产精品人人做人人爽人人添| 麻豆精品国产自产在线| 久久77777| 高清国产va日韩亚洲免费午夜电影| 久热精品免费| www.亚洲国产| 国产亚洲精久久久久久无码AV| 一区二区理伦视频| 麻豆国产在线观看一区二区| 91日本在线观看亚洲精品| 免费 国产 无码久久久| 在线毛片免费| 亚洲日本一本dvd高清| 亚洲国产精品成人久久综合影院| 99热精品久久| 国产精品所毛片视频| 亚洲黄色成人| 亚洲专区一区二区在线观看| 亚洲首页在线观看| 999精品在线视频| 欧美啪啪视频免码| 中文无码精品A∨在线观看不卡| 欧美精品成人| 亚洲永久视频| 广东一级毛片| 日韩精品亚洲人旧成在线| 婷五月综合| 这里只有精品国产| 日韩第一页在线| 国产精品片在线观看手机版| 99久久国产综合精品2023| 五月天综合婷婷| 欧美成人A视频| 免费看黄片一区二区三区| 超薄丝袜足j国产在线视频| 国产毛片基地| 一级一级一片免费| 国产精品久久自在自线观看| 亚洲嫩模喷白浆| Aⅴ无码专区在线观看| 国产精品久久久久无码网站| 婷婷99视频精品全部在线观看| 国产91麻豆视频| 亚洲国产成人无码AV在线影院L| 国产极品嫩模在线观看91| 成人精品视频一区二区在线| 波多野结衣中文字幕一区| 人妻一本久道久久综合久久鬼色| 9cao视频精品| 欧美在线伊人| 亚洲无码高清一区| 国产亚洲精品yxsp| 欧美在线一二区| 欧美国产在线一区| 精品国产免费人成在线观看| 永久在线播放| 91欧美亚洲国产五月天| 国产精品极品美女自在线网站| 网友自拍视频精品区| 香蕉视频在线观看www| 国产精品午夜福利麻豆| 国产精品免费电影| 欧美区在线播放| 午夜性爽视频男人的天堂| 久久成人免费| 亚洲精品成人福利在线电影| 亚州AV秘 一区二区三区| 欧美日韩精品一区二区视频| 国产精品女熟高潮视频| 久久久久亚洲Av片无码观看| 色婷婷亚洲十月十月色天| 国产精品亚欧美一区二区| 9久久伊人精品综合|