999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于分層結構的音樂自動分類方法

2018-07-04 13:12:12孫建偉姚愷豐
小型微型計算機系統 2018年5期
關鍵詞:分類特征效果

杜 威,林 滸,孫建偉,于 波,姚愷豐

1(中國科學院 沈陽計算技術研究所,沈陽 110168)2(中國科學院大學,北京 110049)3(國家電網公司東北分部 國網東北電力調控分中心,沈陽 110180)

1 引 言

隨著互聯網和移動互聯網技術的飛速發展,以音頻、視頻為代表的數字化媒體資源得到了廣泛應用[1].以音樂媒體為例,數以百萬計的音樂資源通過互聯網的方式為用戶所消費,這使得用戶在隨時、隨地、使用任何可以接入網絡的設備訪問媒體資源成為了可能.但與此同時,一系列的問題也得以出現.例如,對于用戶來說,如何能夠高效地從海量的媒體資源中快速檢索到自己感興趣的媒體,甚至幫助自己發現自己潛在感興趣的媒體;對于商家來說,如何能夠結合重尾效應,為用戶提供符合消費者品味的冷門的音樂媒體資源.因此,研究媒體資源具有重要的意義.

音樂流派自動分類在音樂信息檢索中具有重要作用[2].通過將音樂分為不同的類別,一方面可以為音樂的存儲提供方便,使得相同類型的音樂存放在一起;另一方面可以降低音樂檢索的工作量,提升檢索效率.與人工分類相比,自動分類方法能夠顯著地降低分類任務的工作量,同時保證了最終分類結果的準確率.音樂流派自動劃分本質是通過抽取音樂的核心特征,結合機器學習的相關方法把不同流派的音樂分為不同的類型.

當前主流的音樂流派自動分類方法主要包括以下幾個步驟:首先,從音樂數據中抽取特征參數;然后,使用數據處理方法完成數據的預處理,以便于進一步的分類操作;最后,使用基于監督學習或半監督學習的分類方法將數據進行分類[4].當前主流的特征參數包括以Mel頻率倒頻譜系數(MFCC)為核心的音色(Timbre)、音高(pitch)和旋律(Rhythm).主要的分類方法有支持向量機(Support Vector Machines,SVM),K最近鄰居(K Nearest Neighbors,KNN),Gaussian混合模型(Gaussian Mixture Model,GMM)等,其中以SVM在音頻分類中應用最為廣泛[5].

本文在分析國內外主流研究成果的基礎上,提出了基于分層結構的音樂流派自動分類方法.該方法首先使用K均值聚類方法分析不同類別之間的關系,并構建了基于類別關系的層次結構圖,在此基礎上,使用支持向量機完成對不同類別間的音樂分類.通過將該方法應用在GTZAN數據集上,對比單屬性及平面結構的分類方法,實驗結果表明該方法取得了較好的分類效果.

本文的結構如下:第二部分主要描述了模型本身,并詳細介紹了包括特征抽取、數據處理、分類過程等細節;第三部分,通過開放數據集GTZAN結合本文所提出的分層結構結合支持向量機方法進行了相關的對比實驗,實驗結果表明該方法可以取得較好的分類效果;第四部分總結全文并提出了進一步的研究方向.

2 模 型

2.1 模型概要

以支持向量機、K最近鄰居、高斯混合分布模型等為代表的傳統分類方法在音頻分類中得到廣泛應用中,并取得了不錯的效果,但隨著計算能力的提高和計算技術的進步,包括音頻、MIDI文件、上下文場景等在內的多種屬性被應用于音樂流派自動分類,并試圖提升分類的準確率[6].事實上,過多的屬性導致分類的計算過程過于復雜,且有可能導致分類的準確率下降.此外,某些單一屬性針對不同的音樂流派表現出不同的分類效果.例如,描述打擊強度的屬性可以很好地區分classical和pop音樂,但對于chamber音樂的子類別不能夠很好地區分[7].因此,本文使用基于分層結構的分類方法來完成對不同流派的音樂進行自動分類.

分層結構分類方法與傳統的平面型分類方法的區別在于其結構的層次關系.分層結構通過將特征部署到不同的層級內,在保證分類準確率的前提下,降低了計算的復雜度.與其他分類方法類似,分層分類方法也包括特征抽取、數據預處理、自動分類等若干步驟,但其不同在于需要提前基于現有數據結合其不同屬性的不同分類效果,構造一個具有特定層次結構并保證分類效果的分層模型.

本文所提出的音樂流派自動分類方法基于包括MFCC在內的相關音樂特征,結合監督化分類方法,采用分層結構的分類模型,以完成對音樂流派的自動分類.該方法是在傳統平面模型的基礎上,結合不同流派音樂的統計學屬性和單一屬性的在不同數據子集的不同分類效果,構建的基于分層結構的模型.模型中所使用的分類特征來自于不同層級的考慮,第一層主要是基于音樂的核心特征并結合其統計學屬性而展開,該統計學屬性主要集中于均值、標準差、中位數,針對單值屬性,使用該數值本身,而不需要再做任何處理;第二層及以下層級,則使用基于音樂流派的各種分類效果較好的屬性完成對不同子數據集的分類.

使用該方法存在以下幾個問題:第一,層次結構如何構建;第二,使用何種特征來完成針對不同層次和不同大小數據集的分類任務,即每個層次結構中其特征選擇如何進行.這其中涉及到一個如何判斷哪個屬性分類效果最好的問題,因為不同的屬性對于不同的數據集呈現不同的分類效果.如果簡單地將所有屬性堆疊在一起進行分類,一方面增加了分類的計算任務;另一方面,有可能不同屬性之間的相關關系導致分類的準確率下降.

因此,本文使用了單一屬性來分別驗證單一屬性的分類效果,在具體到每個層次所使用特征的效果,本文提出了特征分類效果判斷指標.針對參數維度較大的情況,本文使用了主成份分析(PCA)和線性判別分析(LDA)的方法來降低維度,以實現降低運算復雜度的目標.在此基礎上,使用支持向量機(SVM)和K最近鄰居來完成對音樂流派的自動分類.

2.2 特征抽取

特征抽取的目標是從原始數據中抽取出最能夠代表該流派特征的若干指標,以此來區別于其他類別[8].本文使用的基本特征包括:音色(timbre)、音高(pitch)、旋律(rhythm)及其他相關參數.其中,音色、音高和旋律是屬于核心特征,其他特征包括短時過零率、短時能量、譜中心、低能量等.選擇這些特征的依據是這些特征具有較高的區分度,且易于抽取和進行相關的計算.

由于本文使用的是分層結構,因此一個核心的問題就是判斷哪些特征應該應用到哪個層次及哪個數據集?考慮到模型的目標是提高分類的準確率并降低計算量,此外如果上層的分類出現錯誤,則下層的處理會保留該錯誤(該子集即為類別的終點)或者進一步加大該錯誤(該數據子集進一步分類),因此需要每一步的分類準確率都得到保證.

當前音樂分類研究所涉及的主流特征主要包括過零率(zero-crossings),譜中心(Spectral centroid),滾降(rolloff),波動(flux),色度(chroma),MFCC,Beat、onsets、energy特征等[8].在此基礎上進行合理的特征組合、統計屬性抽取等操作,以實現抽取分辨率最高的特征.由于目前沒有針對特征抽取的最優的解決方案,具體到本文的分層結構所使用的特征,主要從以下兩個方面開展了研究:

針對第一層特征的選擇,本文使用了音色、音高和旋律作為基本的判斷指標,結合其統計學屬性,一起構成了基本的分類特征.因為第一層是需要對全體數據集進行基本的分類操作,同時該層分類因為需要考慮到對下層分類的影響,需要使用盡可能獲取高準確率的分類結果.因此,本文中使用了音色和音高作為第一層的核心分類屬性,在此基礎上使用了包括均值、方差、最大、最小、域值范圍、中位數(Median)及偏度(skewness)和峰度(kurtosis)等.具體的分類特征包括:以MFCC為基礎的均值、方差、最大、最小等共計156維度的MFCC、ΔMFCC和ΔΔMFCC的特征[11],Zerocross(1),flat(1),rolloff(1),flux(mean(1),var(1),median(1)),entropy(1),kurtosis(1),skewness(1),spread(1),key(1),mode(1),Chroma(12).

針對第二層及以下的層次結構,一個核心的功能是針對若干類別組合的數據集,如何能夠分辨出具有最高分類準確率的屬性.考慮到數據集的規模已經縮小了,因此需要結合該數據集中最能夠達到最高分類效果的屬性來完成數據的分類.本文的解決辦法是使用高分類效果的屬性,在對其參數與已選定的屬性進行相關性分析后,再將不同的屬性疊加使用.結合分層分類的特點,上層的特征通常情況下不再適用于下層的分類操作.但具體到本應用的特征有限和類別有限的特點,在第二層和第三層的分類中,首先使用若干單屬性對若干子數據集進行分類,再從中選擇出最優分類指標的特征,對其進行相關性分析,并對無關特征進行組合疊加,構成針對若干特征數據集的候選特征[12].

2.3 數據處理

數據處理的主要工作是將數據完成相應的操作,使得全體數據集合理地分布于一定的數據范圍內.由于不同的屬性具有不同的數據分布范圍,而不同的數據值影響不同屬性的表征特性,甚至對于最終分類結果將產生不可預見的影響[13].因此,數據處理能夠消除不同屬性對于最終分類結果的影響.本文使用Z-score標準化預處理所有數據,使所有數據經映射后符合標準正態分布.其處理辦法如下

A=(A-mean(A))/std(A)

(1)

本文的實驗結果表明,Z-score標準化數據預處理可以顯著地提升特征數據分類的準確率.

針對數據集維度較多的情況,使用合理的降維方法以降低運算量,同時保證分類的準確率.當前主流方法是主成份分析(Principal Component Analysis,PCA)和線性判別分析(Linear Discriminant Analysis,LDA),本文實驗結果表明主成份分析在音樂數據集上降維效果不如線性判別式分析效果明顯.因此,在具體的實驗過程中使用了LDA來完成針對數據集的降維操作.

2.3 自動分類

自動分類的工作是在數據集特征抽取的,結合機器學習方法來完成特征的自動分類,并保證分類的準確率.當前主流方法包括支持向量機、K最近鄰居、決策樹、Gaussian混合分布等[14],這些方法各有優缺點,如何能夠結合本文的應用場景,使用合適的分類方法非常關鍵.

在參考了眾多文獻中所使用的分類方法后,結合本文的應用場景,本文使用了支持向量機(SVM)作為音樂類別分類方法[13].該方法能夠使得在低緯度空間不容易分辨的特征,在保證核心參數不發生改變的情況下,通過增加維度進而提高分辨的準確率.本文使用了由libSVM庫所實現的SVM方法,并使用了徑向基核函數(Radial Basis Kernel Function)結合10折交叉驗證來驗證特征對分類效果的影響[9].

2.4 分層支持向量機

在匯總以上信息的基礎上,本小節提出了分層支持向量機的實施流程.

本方法的整體框架如圖1所示,具體包括三個層次.這三個層次的構造都是使用K-Means聚類針對不同的數據集而得到.第一層,主要是使用K-Means對全體數據集進行聚類而得到的四個基本類別,分為四個類是為了使得數據不太過于集中,同時又能夠保證分類的準確率不至于太低.第二層是考慮當前的子數據集特征,而具體地分析分為幾類合適.經過分析Hiphop、Pop、Reggae組可以合理地分為三類,但在Blues、Country、Metal、Disco和Rock組中如果分為五類,則分類準確率太低,尤其是Country和Rock,其正確分類的個數只占總數的41%和47%,因此,考慮將其分為四類,將Country和Rock作為一類由下一層次進行再次劃分.第三層針對Country和Rock組進行分類,以提高分類的準確率.

在構造完層次結構以后,使用SVM對該層次所對應的數據集進行分類.由于高層次的分類結果對低層次分類結果產生不可糾正的影響,因此,在高層次盡可能使用足夠的屬性以提升分類的準確率.

圖1 音樂類別層次結構圖Fig.1 Genre hierarchical structure for music

3 實 驗

該部分主要描述實驗相關信息,具體包括實驗數據、實驗步驟和實驗結果及分析等.

3.1 實驗數據

本文中所用的數據集是音樂流派劃分研究中主流的GTZAN數據集[3].該數據集包括10個類,每個類有100個長度為30秒的文件,共計1000首歌曲片段,每個片段的采樣速率為22050Hz.這10個類別是:blues,classical,country,disco,hiphop,jazz,metal,pop,reggae和rock.在實驗過程中使用了基于Matlab 語言的MIRtoolbox 1.6.1程序包[10],該程序包由丹麥的Olivier所開發,該程序包內嵌了Auditory toolbox等程序包,通過該程序包可以直接從后綴名為.au的音頻文件中獲取包括MFCC、Rolloff、fluctuation、low energy等屬性在內的信息,也可以使用圖形的形式將相關信息表達出來.

3.2 實驗步驟

實驗過程主要包括三個主要部分.第一,使用數據集驗證包括統計特征在內的單一特征分類效果;第二,使用數據集驗證組合特征分類效果;第三,使用K-Means聚類方法構建分層模型;第四步,使用分層結構進行音樂流派分類,即使用數據集驗證分層架構的分類效果.其中,單一特征就是從音頻文件中直接提取出來的相關數據信息,組合特征是將若干特征組合起來而構成的特征.通過使用不同的特征,進而區分不同特征間的分類能力.結合不同子數據集,使得分類能力最好的特征得以抽取出來.本實驗過程中使用的KNN和SVM兩種分類器,并對這兩種分類器的分類效果進行了對比驗證.

3.3 實驗結果及分析

本文首先驗證了單一屬性的分類效果,對比其他幾個屬性,該數據顯示MFCC具有較高的分類效果,其準確率達到42%.其中,MFCC使用的是1行13列的原始數據,Pitch信息是Pitch信息在Mono狀態下獲取的,Beat信息是通過計算自相關函數(An Autocorrelation Function)而得到.通過實驗驗證,MFCC分類的準確率為42%,Entropy分類的準確率為18%,Pitch分類的準確率為23%.

本文然后驗證了組合屬性分類效果,圖2結果了包括MFCC及其統計學特征和其他特征在內的180維特征在全體數據集的分類效果.該組合屬性結果表明Classical類型具有典型的特征而不同于其他屬性,Country、Disco和Rock類別具有較為相似的特征.這也大體符合本文分層結構中對于不同類型音樂層次的劃分.由于結果是基于多種屬性特征經SVM分類而得到,且該分類效果準確率較高,該結果顯示了在相同條件下,組合屬性通常要優于單一屬性.本文認為這是由于單一屬性所獲取的信息有限,多特征構成的組合屬性,尤其是經過標準化以后的組合屬性則能夠更全面地獲取多類型的音樂特征,因而取得更好的分類準確率.

圖2 基于180維度特征分類效果Fig.2 Classification Results for 180 Features

然后本文使用了K-Means聚類方法分析了音樂的基于MFCC的156維特征進而構建音樂的層次結構,在聚類過程中.首先,對全體數據集以4組進行聚類分析,這四個組分別是Classical、Jazz、(Hiphop、Pop、Reggae)和(Country、Blues、Metal、Rock、Disco).這其中較為難以分辨的是Reggae和Rock,Reggae與Hiphop、Pop的特征較為接近,與由Country等類型所組成的組也較為接近,但考慮到Country等類型組已經包含了5個流派,而且從聚類結果看Reggae也更接近Hiphop等類型組多一些,因此將其分為了由Hiphop和Pop所構成的組.與組合特征類似,Rock由于其數據特征的原因,很難從其他類別中區分出來,尤其是將Rock從Country和Disco中區分出來.在此基礎上,使用K-Means對兩個分類未完全的組進行分類,以此進行,進而構建分層結構,最終結果如圖1所示.在實際的聚類中,不同組由于分類的不同所需特征個數也不同.例如,使用LDA降為4個維度即可以對Hiphop、Pop和Reggae取得較好的分類效果.而對于Blues、Country、Disco、Metal和Rock分為四個組時,則需要使用LDA降低為40維度,則可以取得能夠接受的結果.對于Country和Rock則只需要LDA降低到2個維度即可以完全區分清楚.以Blues等所在組進行4個簇的聚類分析其結果如下:

當使用分層結構時,首先根據上文提出的分層結構使用支持向量機對全體數據分為四個組,經過數據標準化以后,該步驟的分類準確率為90.2%,而與此對比KNN分類方法的準確率在未經標準化處理前為67.4%,經過標準化處理后其準確率為87.5%.該結果表明在音樂分類過程中,支持向量機要優于K最近鄰居分類方法.然后,對其中的兩個組進行再次分類.其中Hiphop、Pop和Reggae組結合上文的分析,使用較少特征就能夠取得較好的分類效果,該組最終分類準確率為89%,KNN在未標準化預處理時分類準確率為59%,預處理后準確率為79.33%.而Blues、Country等分類結果準確率為85.6%,KNN未標準化預處理分類準確率為55%,預處理后準確率為76.2%.最后,對Country和Rock進行了SVM分類,其分類準確率為84%,而對比方法KNN在未標準化預處理時分類準確率為69%,經預處理以后為78.5%.經過以上分析可知,分層分類的準確率高于平面性分類的準確率.本文認為,分層分類準確率高的原因在于限制了數據的數量和分類的個數,在分類過程中只需要對數據子集內的類型進行分析,當某些特征區分能力強時,能夠取得較好的分類效果;對于所添加的其他區分能力不強特征,則在標準化預處理過程中提升了其對結果產生的部分影響.

表1 針對Blues等子數據集的K-Means聚類結果Table 1 K-Means clustering results for blues etc subsets

綜上所述,本文所提出的基于分層結構的分類方法能夠獲取比平面結構分類方法和KNN分類方法更好的分類效果,而且可以顯式地描述不同流派之間的層次結構.因此,基于分層結構的分類方法是一種較好的分類方法.

4 結 論

音樂流派自動分類方法是當前音樂信息獲取領域的一個研究熱點,如何能夠自動地判斷出一首音樂的類別能夠減少人力費用,同時保證了判斷的準確率.盡管當前流行的K最近鄰居、Gaussian混合模型、支持向量機模型能夠取得可以接受的效果,但由于平面結構的分類方法并不能夠充分顯示不同流派之間的相對距離和層次關系.本文使用K-Means聚類方法,構建了基于音樂特征的分層結構,在此基礎上使用支持向量機進行音樂流派自動分類,一方面,通過層次結構顯示了不同流派之間的層次關系,另一方面,在保證分類準確率的同時,降低了分類的計算復雜度.通過使用開源的GTZAN數據集進行驗證,本文所提出的基于分層結構的分類方法可以取得較好的分類效果.

[1] Lerch Alexander.An introduction to audio content analysis:applications in signal processing and music informatics[M].John Wiley & Sons,2012.

[2] Correa Debora C,Rodrigues Francisco Ap.A survey on symbolic data-based music genre classification[J].Expert Systems with Applications,2016,60(C):190-210.

[3] Tzanetakis George,Cook Perry.Musical genre classifi-cation of audio signals[J].IEEE Transactions on Speech and Audio Processing,2002,10(5):293-302.

[4] Eric D Scheirer.Tempo and beat analysis of acoustic musical signals[J].The Journal of the Acoustical Society of America,1998,103(1):588-601.

[5] Prockup Matthew,Ehmann Andreas F,Gouyon Fabien,et al.Modeling genre with the music genome project:comparing human-labeled attributes and audio features[C].16thInternational Society for Music Information Retrieval Conference(ISMIR 2015),2015:31-37.

[6] Loris Nanni,Yandre M G Costa,Alessandra Lumini,et al.Combining visual and acoustic features for music genre classification[J].Expert Systems with Applications,2016,45(C):108-117.

[7] Wu Ming-ju,Jang JYH-Shing R.Combing acoustic and multilevel visual features for music genre classification[J].ACM Transactions on Multimedia Computation Communication,2015,12(10):1-17.

[8] Lykartsis Athanasios,Lerch Alexander.Beat histogram features for rhythm-based musical genre classification using multiple novelty functions[C].Proceedings of the 16thInternational Conference on Digital Audio Effects(DAFx-15),2015:434-440.

[9] Chang Chih-chung,Lin Chih-jen.LibSVM:a library for support vector machines [J].ACM Transactions on Intelligent Systems and Technology,2011,2(27):1-27.

[10] Lartillot Olivier,Toiviainen Petri.A matlab toolbox for musical feature extraction from audio[C].Proceedings of the 10thInternational Conference on Digital Audio Effects(DAFx-07),2007:127-130.

[11] Sergio Oramas,Luis Espinosa-Anke,Aonghus Lawlor,et al.Exploring customer reviews for music genre classification and evolutionary studies[C].17thInternational Society for Music Information Retrieval Conference(ISMIR 2016),2016:150-156.

[12] Dong Ruihai,Schaal Markus,Mahony Michael P O,et al.Topic Extraction from online reviews for classification and recommendation[C].Proceedings of the Twenty-Third International Joint Conference on Artificial Intelligence(IJCAI′13),2013:1310-1316.

[13] Alastair Porter,Dmitry Bogdanov,Robert Kaye,et al.Acousticbrainz:a community platform for gathering music information obtained from audio [C].16thInternational Society for Music Information Retrieval Conference(ISMIR 2015),2015:786-792

[14] Vladimir Vapnik.The nature of statistical learning theory [M].Springer,2000.

猜你喜歡
分類特征效果
按摩效果確有理論依據
分類算一算
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
迅速制造慢門虛化效果
數據分析中的分類討論
抓住“瞬間性”效果
中華詩詞(2018年11期)2018-03-26 06:41:34
教你一招:數的分類
抓住特征巧觀察
主站蜘蛛池模板: 男女性色大片免费网站| 中文字幕久久波多野结衣| 女同久久精品国产99国| 在线免费a视频| 婷婷色中文网| 91香蕉视频下载网站| 久久精品中文无码资源站| 国产手机在线小视频免费观看| 国产成人精品一区二区| 无码中文AⅤ在线观看| 日韩福利在线观看| 99久久精品免费看国产免费软件| 欧美一级黄片一区2区| 色综合天天操| 欧美成人a∨视频免费观看| 国产精品妖精视频| 日韩av高清无码一区二区三区| 成人国产免费| 国产欧美中文字幕| 99re在线免费视频| 色婷婷在线播放| 久草热视频在线| 香蕉蕉亚亚洲aav综合| 91福利国产成人精品导航| 国产又爽又黄无遮挡免费观看| 亚洲熟女中文字幕男人总站| 成年人国产网站| 成年人午夜免费视频| 精品三级在线| 国产日韩欧美精品区性色| 国产不卡在线看| 日韩中文字幕亚洲无线码| 国产一在线| 女人18毛片久久| 国产又黄又硬又粗| 亚洲伦理一区二区| 亚洲区第一页| 国产a网站| 欧美中文字幕在线播放| 精品人妻AV区| 最新日韩AV网址在线观看| 波多野结衣久久高清免费| 福利在线一区| 久久精品国产免费观看频道| 97免费在线观看视频| 第一区免费在线观看| 这里只有精品在线| 国产成人免费观看在线视频| av手机版在线播放| 美女一级毛片无遮挡内谢| 免费人成视网站在线不卡| 精品99在线观看| 日本一区二区不卡视频| Jizz国产色系免费| 亚洲愉拍一区二区精品| 亚洲人成网站色7799在线播放| 久久免费成人| 成人国产免费| 亚洲无线一二三四区男男| 国产h视频免费观看| 国产SUV精品一区二区6| 久热re国产手机在线观看| 色天堂无毒不卡| 免费国产高清视频| 国产麻豆va精品视频| 91国内在线观看| 亚洲中文字幕无码mv| 国产一二三区在线| 久久香蕉欧美精品| 亚洲色图另类| 色噜噜在线观看| 日韩av手机在线| 亚洲天堂网在线视频| 国产麻豆aⅴ精品无码| 亚洲黄色高清| 国产一级片网址| 国产亚洲成AⅤ人片在线观看| 亚洲视频免| 亚洲日韩图片专区第1页| 多人乱p欧美在线观看| 国产菊爆视频在线观看| 国产精品性|