999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進BP神經(jīng)網(wǎng)絡的音樂流派分類

2021-09-13 02:27:43樊思含
軟件工程 2021年9期
關鍵詞:機器學習特征提取

摘? 要:針對傳統(tǒng)音樂流派分類模型性能不穩(wěn)定、音樂信號特征單一導致分類準確率低的問題,提出了改進的BP神經(jīng)網(wǎng)絡(Back Propagation Neural Network)音樂流派分類模型,通過Python的Librosa庫提取了音樂的均方根能量、過零率、頻譜質(zhì)心、頻譜對比度等多種特征,并使用PCA(Principal Component Analysis)和LDA(Linear Discriminant Analysis)數(shù)據(jù)降維方法對特征數(shù)據(jù)進行可視化分析,證明了特征選取的合理性。最后對四類音樂流派進行仿真實驗,并與傳統(tǒng)的分類模型對比。實驗證明,提出的模型10 折交叉驗證的準確率為93.12%,優(yōu)于KNN(K-Nearest Neighbor)、SVM(Support Vector Machine)等傳統(tǒng)的分類模型。

關鍵詞:機器學習;特征提取;支持向量機;梅爾頻率倒譜系數(shù)

中圖分類號:TP39? ? ?文獻標識碼:A

文章編號:2096-1472(2021)-09-17-04

Abstract: Classification models of traditional music genre have problems of unstable performance and low classification accuracy caused by single characteristics of music signals. In view of these problems, this paper proposes an improved BP (Back Propagation) Neural Network music genre classification model. Various features such as root mean square energy, zero crossing rate, spectral centroid, and spectral contrast of music are extracted through the Librosa library of Python. Then, visual analysis of the feature data using PCA (Principal Component Analysis) and LDA (Linear Discriminant Analysis) data dimensionality reduction methods has proved the rationality of feature selection. Finally, simulation experiments are conducted on four types of music genres, and compared with the traditional classification model. The experiment proves that the accuracy of the 10-fold cross-validation of the model proposed in this paper is 93.12%, which is better than traditional classification models such as KNN (K-Nearest Neighbor) and SVM (Support Vector Machine).

Keywords: machine learning; feature extraction; SVM; MFCC

1? ?引言(Introduction)

隨著多媒體技術的發(fā)展,音樂以各種方式出現(xiàn)在人們身邊,面對網(wǎng)絡上海量的音樂,不同的人喜好差異較大,為方便檢索,對音樂流派進行分類尤為重要。莊嚴[1]等人提出了一種基于譜圖分離的音樂流派分類算法,通過對音樂信號的譜圖濾波,分離出音樂的打擊與和聲部分,對特征進行優(yōu)化,通過SVM分類器對8 種音樂流派進行仿真實驗,最終達到73%的準確率。陸歡[2]則采用梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficients, MFCC)特征矩陣作為音樂信號的特征,訓練了卷積神經(jīng)網(wǎng)絡作為分類器,在4 種音樂流派上得到88%的結果。本文借助于Python的Librosa庫,研究了音樂信號的某些時域特征和頻域特征,選取了過零率、均方根能量、頻譜質(zhì)心、滾降截止頻率、頻譜對比度、梅爾頻率倒譜系數(shù)作為音樂數(shù)據(jù)集的特征,有效解決了單一特征造成的分類準確率低的問題。最后借助機器學習的工具,建立了一個4層的BP神經(jīng)網(wǎng)絡模型,實現(xiàn)了有效分類。音樂流派分類主要流程如圖1所示。

2? 數(shù)據(jù)處理和特征提取(Data processing and feature extraction)

2.1? ?數(shù)據(jù)集

本文中使用的數(shù)據(jù)集是公開的GTZAN數(shù)據(jù)集[3],該數(shù)據(jù)集包含10 種音樂流派,每種流派各有100 段時長為30 秒,采樣頻率為22.05 kHz的16 bit的數(shù)字信號。本文選取了布魯斯(bules)、古典(classical)、鄉(xiāng)村(country)、金屬(metal)共4 種音樂流派,共400 個樣本。

2.2? ?特征提取

語音信號具有短時平穩(wěn)性,即在一個短時間范圍(10 ms—30 ms)內(nèi),其特性基本保持不變,因此,對于語音信號的分析都是建立在“短時”的基礎上[4]。在提取語音信號的特征時,首先對信號進行分幀加窗處理,特征提取函數(shù)的返回值是每一幀上的結果,選取每個特征在所有幀上的平均值和方差作為該文件的特征,這樣,對于一個音頻文件,提取出來的特征向量的維度是46。特征提取在音樂流派分類中占有非常重要的地位,針對單一特征導致分類準確率低的問題,本文基于Python中的Librosa庫提取了過零率、均方根能量等多種特征[5],特征名稱及其維度如表1所示。

(1)過零率是信號相鄰兩個采樣點取值為異號的次數(shù),它可以對敲打的聲音進行區(qū)分[6]。

(2)均方根能量是每一幀內(nèi)采樣點能量的標準差,可以用來區(qū)分有聲和無聲,輕音和濁音[1]。

(3)頻譜質(zhì)心是用來表征頻譜的度量,表示“質(zhì)心”的位置,與聲音的亮度有關,值越小,說明越多的能量集中在了低頻的范圍內(nèi)。圖2(a)和圖2(b)分別展示了blues和metal兩種不同流派的音樂頻譜質(zhì)心的位置,可以看到,相比于metal,blues的頻譜質(zhì)心“更低”,且能量主要在低頻范圍。

(4)滾降截止頻率是譜形狀的重要測度,85%的幅度分布低于該頻率[6],表示能量大幅上升(或大幅下降)、失去“阻止”(或失去“通過”)信號效果的位置。

(5)頻譜對比度是信號的幅度譜在每個子波段上峰值與峰谷平均能量的差,高對比度值通常對應于清晰的窄帶信號,而低對比度值對應于寬帶噪聲。

(6)梅爾頻率倒譜系數(shù)是語音信號處理中被廣泛使用的

特征,由于人耳聽到聲音的高低與聲音的頻率之間的關系并不是線性關系,頻率尺度更符合人耳的聽覺特性[4],頻率與實際頻率之間的關系可以表示為:它的計算方式在文獻[4]中都有詳細描述,這里不再贅述。

2.3? ?特征數(shù)據(jù)的降維分析

數(shù)據(jù)降維方法有多種,線性降維算法因其實現(xiàn)簡單快速的特點應用廣泛,主成分分析(PCA)和線性判別分析(LDA)是線性降維中兩種經(jīng)典的算法。實驗中,分別使用PCA和LDA對提取的46維特征數(shù)據(jù)進行降維分析,并將其可視化,圖3為PCA降維的結果,圖4為LDA降維的結果。

從圖3中可以看到,通過PCA算法將46 維特征降為2 維后,classical和metal可以被很好的分開。與PCA不同的是,LDA在計算類內(nèi)散度和類間散度時應用了數(shù)據(jù)的標簽[7],因此LDA是一種有監(jiān)督的降維方法。從圖4中可以看到,經(jīng)過LDA降維,特征數(shù)據(jù)被分成了較為明顯的四類,其中,classical、country和metal分類效果較好,從而反映出本文特征選取的合理性。

3? 基于正則化的BP神經(jīng)網(wǎng)絡(BP neural network based on? regularization)

3.1? ?神經(jīng)網(wǎng)絡基礎

BP(Back Propagation)神經(jīng)網(wǎng)絡是1986 年由Rumelhart和McClelland為首的科學家提出的,它是基礎的也是目前應用最廣泛的神經(jīng)網(wǎng)絡之一。圖5展示了具有兩個隱藏層的神經(jīng)網(wǎng)絡結構圖。

信號通過輸入層、隱藏層、輸出層前向傳播得到預測值,利用損失函數(shù)衡量預測值與真實值之間的誤差,從最后一層反向傳播誤差[8],通過適當?shù)膬?yōu)化器,比如梯度下降,隨機梯度下降等更新權重參數(shù)和偏置參參數(shù),最小化誤差,從而使預測值與真實值更接近。神經(jīng)網(wǎng)絡中前向傳播和反向傳播的偽代碼如表2和表3所示。

其中,是由樣本數(shù)據(jù)為行向量組成的輸入矩陣,代表神經(jīng)網(wǎng)絡的層數(shù),表示第層神經(jīng)網(wǎng)絡的輸出,是激活函數(shù),是層到層的權重矩陣,,表示樣本的真實標簽組成的向量,表示梯度下降的學習率,表示哈達瑪積(Hadamard Product),即對于向量,

3.2? ?網(wǎng)絡結構

本文設計的神經(jīng)網(wǎng)絡包含3 個隱藏層,神經(jīng)元的個數(shù)分別為128、64、32。ReLU激活函數(shù)又稱為修正線性單元,表達式為,由于其具有單側(cè)抑制,稀疏激活等優(yōu)點,故選其作為隱藏層的激活函數(shù)。選擇多分類對數(shù)損失作為損失函數(shù),如果目標值為時預測結果為,分類的交叉熵為:。優(yōu)化器則選擇隨機梯度下降,這是因為相比于普通的梯度下降算法,隨機梯度下降的收斂速度更快。本文研究的是四分類問題,所以輸出層的神經(jīng)元個數(shù)為4,輸出層的激活函數(shù)為Softmax函數(shù)。由于本文的數(shù)據(jù)量較少,并且樣本的特征差異不大,為了防止過擬合,在設計神經(jīng)網(wǎng)絡結構時加入正則項,因此優(yōu)化模型可以表示為:

其中,是損失函數(shù),是權重矩陣的列向量,為正則項,為正則化系數(shù)。經(jīng)過多次調(diào)試,最終確定正則化系數(shù)為0.004。圖6展示了增加正則項與未增加正則項時模型在訓練集和測試集上準確率和損失值隨著每期訓練的變化曲線(圖6(a)和圖6(c)為增加正則項后曲線圖,圖6(b)和圖6(d)為未增加正則項曲線圖)。從圖6(a)和圖6(b)中可以看出,模型在訓練集上表現(xiàn)較好,準確率達到1,而增加正則項后,無論是測試集上的準確率還是損失值變化曲線都更貼近訓練集,且經(jīng)過300 期訓練后準確率略微有些提高。

4? 實驗結果與分析(Experimental results and analysis)

本文按照4∶1的比例劃分訓練集和測試集,從總樣本中選取80 個樣本組成測試集,其中每種音樂流派各20 個。剩余320 個樣本作為訓練集,在訓練集上進行10 折交叉驗證,即將訓練集分成10 個非重疊的部分,每次選其中一部分作為驗證集,其余9 部分作為訓練集。共進行10 次訓練,選取模型在驗證集上10 次準確率的平均值為模型最終得分。具體分類結果如表4所示,可以看到,除決策樹外,其他模型的準確率均在80%左右,本文建立的神經(jīng)網(wǎng)絡模型(NN)得到的準確率最高,達到93.12%。

接下來分析模型對每種音樂流派具體的分類結果,我們繪制出模型在測試集上的混淆矩陣如圖7所示,其中0代表blues,1代表classical,2代表country,3代表metal。橫坐標軸表示的是預測類別的標簽,縱坐標軸代表的是真實類別的標簽。該模型對blues、classical和metal三種流派能做到精準分類,對于country的區(qū)分效果相對較差,誤將3 個country類別的文件識別成了blues,我們猜想原因與所提取的特征不能有效將這兩種音樂類別區(qū)分有關,圖3和圖4可視化的結果也驗證了這一點。

5? ?結論(Conclusion)

音樂流派分類作為音樂信息檢索領域比較熱門的方向,涉及信號處理、模式識別、計算機、數(shù)學等多門學科,引起眾多學者的研究,無論是在特征提取還是分類器的選擇上都提出了許多新方法。本文選取的音樂特征雖能夠?qū)Σ煌髋傻囊魳愤M行區(qū)分,但也存在一定的不足,需要尋求更多特征以保證分類的準確率。其次,本文建立的神經(jīng)網(wǎng)絡分類模型在四分類上有不錯的表現(xiàn),但是當音樂種類增多時,分類效果會有一定程度的下降,需要在模型上做進一步的優(yōu)化。

參考文獻(References)

[1] 莊嚴,于鳳芹.基于節(jié)奏和韻律調(diào)制譜特征的音樂流派分類[J].計算機工程,2015,41(1):186-189.

[2] 陸歡.基于卷積神經(jīng)網(wǎng)絡的音樂流派分類[J].電子測量技術,2019,42(21):149-152.

[3] TZANETAKIS G, COOK P. Musical genre classification of audio signals[J]. IEEE Transactions on Speech and Audio Processing, 2002, 10(5):293-302.

[4] 趙力.語音信號處理[M].北京:機械工業(yè)出版社,2016:6-84.

[5] 張俊生,郭彩萍,樓國紅,等.Python在數(shù)字信號處理中的應用[J].電氣電子教學學報,2015,37(04):115-117.

[6] 黃琦星.基于卷積神經(jīng)網(wǎng)絡的音樂流派分類模型研究[D].長春:吉林大學,2019.

[7] 趙玉娟.數(shù)據(jù)降維的常用方法分析[J].科技創(chuàng)新導報,2019,32(16):118-119.

[8] NIELSEN M. Neural networks and deep learning[M]. San Francisco: Determination Press,2015:34-109.

作者簡介:

樊思含(1995-),女,碩士生.研究領域:機器學習,計算數(shù)學.

猜你喜歡
機器學習特征提取
特征提取和最小二乘支持向量機的水下目標識別
基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
Bagging RCSP腦電特征提取算法
基于詞典與機器學習的中文微博情感分析
基于網(wǎng)絡搜索數(shù)據(jù)的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
基于支持向量機的金融數(shù)據(jù)分析研究
機器學習理論在高中自主學習中的應用
基于MED和循環(huán)域解調(diào)的多故障特征提取
主站蜘蛛池模板: 无码免费视频| 91小视频在线观看| 麻豆AV网站免费进入| 欧美在线导航| 国产精品视频3p| 日韩第一页在线| 在线中文字幕网| 久久永久精品免费视频| 99re热精品视频中文字幕不卡| 40岁成熟女人牲交片免费| 激情爆乳一区二区| 亚洲二区视频| 欧洲熟妇精品视频| 亚洲成人免费在线| 久久精品国产免费观看频道| 免费人成视网站在线不卡| 狠狠色噜噜狠狠狠狠奇米777| 亚洲天堂日韩在线| 六月婷婷精品视频在线观看| 71pao成人国产永久免费视频| 国产情精品嫩草影院88av| 无码av免费不卡在线观看| 国产迷奸在线看| 99热6这里只有精品| 99成人在线观看| 国产杨幂丝袜av在线播放| 高清亚洲欧美在线看| 乱人伦视频中文字幕在线| 亚洲香蕉伊综合在人在线| 欧美第九页| 亚洲无码高清免费视频亚洲| 在线精品亚洲国产| 夜夜拍夜夜爽| 欧美97色| 成人亚洲国产| 国产午夜小视频| 99人妻碰碰碰久久久久禁片| 精品日韩亚洲欧美高清a| 亚洲精品无码久久毛片波多野吉| 精品天海翼一区二区| 国产va在线观看| 2021精品国产自在现线看| 国产麻豆精品手机在线观看| 尤物在线观看乱码| 99久久精品国产综合婷婷| a级毛片免费播放| 中文字幕人妻av一区二区| 成人在线第一页| 本亚洲精品网站| 国产香蕉国产精品偷在线观看 | 夜夜高潮夜夜爽国产伦精品| 国产91精选在线观看| 综合天天色| 欧美一区二区福利视频| 99re经典视频在线| 亚洲va在线∨a天堂va欧美va| 亚洲成人网在线播放| 四虎影视库国产精品一区| 国产9191精品免费观看| 99免费视频观看| 亚洲人成人伊人成综合网无码| 欧洲av毛片| 熟女日韩精品2区| 国产AV无码专区亚洲精品网站| 亚洲另类第一页| 无码AV高清毛片中国一级毛片| 国产成人高清亚洲一区久久| 亚洲国产日韩欧美在线| 多人乱p欧美在线观看| 国产视频你懂得| 2048国产精品原创综合在线| 国产九九精品视频| 国产激情无码一区二区APP| 国产精品内射视频| 成人年鲁鲁在线观看视频| 免费一级毛片在线播放傲雪网| 亚洲aⅴ天堂| 91午夜福利在线观看精品| 欧美亚洲国产视频| 久久这里只精品国产99热8| 最新国产麻豆aⅴ精品无| 91久久夜色精品国产网站|