999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于DistilHuBERT模型微調在樂器演奏技術檢測應用

2024-02-09 00:00:00鄧穎岸
電腦知識與技術 2024年36期
關鍵詞:分類檢測模型

關鍵詞:DistilHuBERT模型;深度學習;樂器演奏技術(IPT) 檢測;模型微調;快速動態時間規整

中圖分類號:TP391 文獻標識碼:A

文章編號:1009-3044(2024)36-0099-04 開放科學(資源服務) 標識碼(OSID) :

0 引言

樂器演奏技術(IPT) 檢測的準確率直接影響音樂轉錄[1]的效果,同時IPT檢測還可用于樂器音準檢測,例如檢查各音符的準確性,確保樂器調音正確、判斷樂器的磨損情況等,為樂器修復提供憑證。樂器演奏技術(IPT) 檢測通過記錄演奏過程中的音頻,對這些音頻進行轉換和特征提取,再進行特征計算以獲得檢測結果,在某種程度上與語音識別[2]的過程類似。

早期的IPT檢測工作多采用機器學習方法,并結合手工創建的特征;隨著卷積神經網絡的發展,Su等提出使用卷積神經網絡(CNN) [3] 取代支持向量機(SVM) [4],顯著提升了IPT檢測的效果。近年來,深度學習預訓練大模型的泛化能力得到顯著提升,Di? chucheng Li等人提出使用預訓練模型針對具體的樂器演奏數據集進行模型微調[5],進一步提高了IPT檢測的準確率。

然而,在中國傳統樂器演奏技法檢測方面,一方面由于缺少高質量、有標簽的數據集;另一方面,由于使用其他數據集訓練的模型受到泛化能力的限制,直接應用于IPT檢測任務時效果并不理想。針對這些問題,不少學者提出了解決方案。例如,李榮鋒等希望能找到每種中國樂器各自獨有的聲音特征,并通過卷積神經網絡結合對數Mel聲譜圖作為輸入特征,在所構建的兩個子數據集中實現了超過97%的分類準確率,表明所構建的模型能夠較好地學習到每種樂器的特征[6]。李子晉等針對中國民族復音音樂的樂器活動檢測問題,提出了一種基于卷積循環神經網絡(CRNN) 的復音樂器活動檢測方法,發現相較于CNN,CRNN能夠更好地識別具有旋律信息的多樂器復音音頻中的樂器[7]。Zehao Wang等針對二胡演奏技法提出了基于全連接網絡(FCN) 的可變長度音頻檢測算法,并在二胡演奏技法的不同分類數據集上進行訓練,平均準確率分別為87.31%(4 分類) 、67.94%(7 分類) 、48.26%(11分類) [8]。此外,Dichucheng Li等建議應用一種在大規模無標記音樂數據上預先訓練的自監督學習模型,并在IPT檢測任務中對其進行微調,在一些數據集上取得了良好的效果[5]。

總體而言,由于中國傳統樂器的發聲具有各自的特點,模型需要針對IPT相關的下游任務進行專門訓練才能取得良好的效果。針對中國傳統樂器演奏技法檢測,相關研究中很少使用卷積與Transformer組合的預訓練模型。本文提出了一種基于DistilHuBERT 預訓練模型微調的方法,以期在少量數據集上訓練后獲得較好的準確率。

1 DistilHuBERT模型

DistilHuBERT保持了HuBERT的基本結構,將HuBERT作為教師模型,采用知識蒸餾完成Distil-HuBERT的訓練。DistilHuBERT參數量為23.49M,包含7層卷積層,可有效壓縮并提取長時間序列的有效信息,2層Transformer用于特征融合,并采用GELU激活函數。總體來說,DistilHuBERT模型淺而寬,適合提取長序列音頻的特征。此外,DistilHuBERT在多個數據集上取得了良好的效果,非常適合用于下游任務的微調。模型的具體結構和各層輸出形狀如表1所示。

2 二胡演奏技法數據集簡介

二胡演奏技法數據集最初來源于用于MIR多功能音樂數據庫(CCMusic) [13],數據由專業音樂演奏人員錄制。錄制者具有較高的音樂素養,錄制環境和設備專業,錄音質量較高。本研究使用的數據集是經過整理后的版本[14],數據集共分為11個類標簽,共有1253個樣本,總時長約為1552.44秒。訓練集、驗證集和測試集的樣本數分別為748、251和254,每個樣本的平均時長約為1.24 秒。數據集中各類別的占比統計見表2。

本數據集由專業人員錄制和標注,數據質量較高。然而,數據集存在樣本數量分布不平衡的問題。如果每個分類的數量平均分布,那么每個分類的數量占比應為9%。但分類Trill 的數量最多,占比接近20%,遠高于9%;分類Harmonic的數量最少,占比僅為2.39%,遠低于9%。此外,分類Trill的數量是分類Harmonic數量的8倍多。數量占比低于9%的分類包括Vibrato、Ricochet、Percussive、Harmonic、Diangong和Detache,這些分類的總占比約為39%。數據集的樣本數量偏向于Trill、Tremolo、Staccato 和Legato_Slide_ Glissando這幾個分類。

深度學習模型高度依賴于數據的質量和分布。樣本數量分布不平衡[15]會對模型的微調帶來不良影響。在模型訓練過程中,可能導致模型偏向于數量較多的分類,而數量占比較少的分類可能因訓練不充分而出現類別偏差。這種情況會導致最終訓練的模型存在偏差,從而影響模型的推理結果。

3 實驗過程與結果

模型主要參數:卷積層為7層,采用GELU激活函數,隱藏層大小為768,注意力機制中的多頭注意力頭數為12,損失函數使用交叉熵損失函數。

模型的實現基于PyTorch框架(版本:2.01) [16]。微調訓練[17]使用Adam優化器[18],為防止學習率過大對預訓練模型[19]參數造成破壞,學習率設置較小,為5e-5,并采用Warmup策略。初始學習率設置為5e-5,批量訓練的大小為8,隨機種子設為42。訓練過程中,每5 個Step記錄一次訓練日志,每個Epoch后計算驗證集的性能,共完成10個Epoch。

模型配置的主要參數與訓練過程的主要參數如表3所示。

首先從音頻原始文件讀取數據。由于DistilHu? BERT模型要求輸入音頻的頻率為16 kHz,因此需將源音頻重采樣為16 kHz,并對音頻數據進行標準化處理。隨后,將處理后的數據送入DistilHuBERT模型進行訓練。訓練完成后,加載微調后的模型,對測試集數據進行推理,并記錄推理結果。

模型訓練過程中,驗證集的Loss曲線和準確率曲線分別如圖1、圖2所示。從圖1可以看出,驗證集的Loss初始值大于1.6,隨后穩定下降,最終約為0.24,表明選擇了合適的模型參數和訓練參數。從圖2可以看出,驗證集的準確率逐步上升,第一個Epoch結束時低于60%,訓練結束后最終達到約92%。從圖3可以看出,DistilHuBERT模型最后分類頭的權重參數穩定在一定范圍內,各分類的輸出未出現較大的偏差。總體而言,這些結果表明模型的微調訓練符合預期。

使用微調后的DistilHuBERT模型對測試集進行推理,得到的總體準確率為88%,具體各項指標如表4 所示。

由于使用同一個數據集(二胡演奏技法數據集) 作為訓練數據的研究較少,本文將文獻[8]作為對比參考。該論文使用全連接卷積網絡(FCN) [20]模型,在11分類任務上的平均準確率為48.26%。本研究的模型與該論文的模型對比結果見表5。

表5中,FCN模型的發表時間為2019年,當時預訓練模型尚未普及,Transformer技術也未完全發展成熟。而本研究使用的預訓練模型DistilHuBERT經過大量數據集的訓練,具有較強的泛化能力,并能夠在多個任務中取得良好效果。在本研究中,DistilHu? BERT經過微調后,在完成第一個Epoch時驗證集準確率已達到58%,隨后準確率逐步提升,最終達到92%。

通過對比分析可以看出,微調后的DistilHuBERT 模型在二胡演奏技法檢測任務上表現出色,顯著優于傳統的FCN模型。

本研究的創新點在于使用DistilHuBERT模型,加載預訓練的權重參數后,在少量的二胡演奏技法數據集上進行微調,克服了模型訓練需要大量數據的難點。微調后的模型學習到了二胡演奏技法數據集的特征,準確率達到88%,具有較好的泛化能力。本研究表明,深度學習模型可以用于IPT檢測,并且效果顯著。然而,直接使用未經過微調訓練的深度學習模型,準確率會很低。例如,DistilHuBERT模型在加載預訓練權重參數后,第一個Epoch的準確率低于60%。這說明需要先進行微調訓練,再使用微調后的模型進行推理,準確率才能達到滿意的效果。本研究使用的模型參數和訓練參數,為進一步利用少量數據集優化DistilHuBERT 模型在IPT 檢測中的應用提供了參考依據。

4 模型推理錯誤分析

加載訓練后的模型,在測試集上進行推理,并將結果繪制成混淆矩陣(如圖4所示) 。從圖4可以看出,大部分推理結果是正確的,但錯誤主要集中在Vi? brato和Harmonic 這兩個類別。其中,Vibrato 有20% 被錯分類為Trill,10%被錯分類為Detache。接下來將使用動態時間規整(Dynamic Time Warping, DTW) 和波形圖對其進行分析。

動態時間規整(Dynamic Time Warping, DTW) 是一種用于比較兩個時間序列相似性的算法[20],音頻序列可以看作是時間序列的一種。本研究的音頻序列每秒采樣16 kHz,如果按照標準的DTW算法計算,時間復雜度為O(N2) ,直接計算兩個音頻序列的DTW值會耗時較長。為了縮短計算時間并簡化計算過程,本研究采用了快速DTW(FastDTW) 方法。具體實現中,使用了Python第三方庫FastDTW[21]的快速計算方法,估算出大致結果。

由于數據集中單個樣本的時間長度不統一,為了方便計算,僅選取超過1.56秒的音頻樣本,并截取這些音頻樣本的前1.56秒作為計算輸入。因此,Fast? DTW的計算并未包含所有樣本,但能夠得到合理的估算結果。結果如表5所示。FastDTW的數值越小,說明兩個時間序列的相似性越高,模型正確分類的難度也越大。從表6可以看出,Vibrato類別相似度從高到低依次為:Trill、Detache、Detache、Legato_Slide_Glis? sando、Tremolo。

為了更加直觀地觀察類別之間的差異,選取了Vibrato、Trill、Tremolo這三個分類,繪制了類別均值波形圖進行比較。具體方法是:僅選取超過1.56秒的音頻樣本,截取這些樣本的前1.56秒作為計算輸入,計算總和(保留維度) ,然后除以某一類參與計算的樣本數量,得到類別均值,最終繪制均值波形圖(如圖5所示) 。從圖5可以看出,Vibrato與Trill的波形圖相似性非常高,兩者的FastDTW值為338.34;而Vibrato與Tremolo的波形圖相似性較低,兩者的FastDTW值為505.01。

5 結論和下一步工作

IPT研究面臨著缺乏大量高質量數據集的難題。直接使用初始化參數的模型進行訓練時,如果模型參數過少,可能無法很好地擬合數據集;如果模型參數過多,由于數據集規模較小,可能導致模型過擬合[17]。本研究提出的基于DistilHuBERT預訓練模型的微調方法,在數據集較小的情況下,實現了對二胡演奏技法的高準確率檢測,有效緩解了數據匱乏的問題,充分發揮了預訓練模型的優勢。同時,本研究表明,由于個別分類樣本具有較高的相似度,導致模型推理出現錯誤。在專業領域中,可以先選取部分樣本,計算不同類別的FastDTW值,根據FastDTW值的結果,專門針對相似度較高的類別增加數據收集和標注,再進行微調訓練,從而提高模型的效果。總體而言,微調后的DistilHuBERT模型能夠較好地學習二胡演奏技法數據集的特征,并具有較好的泛化能力。

下一步研究方向有兩個:

1) Harmonic類別有67%的樣本被錯誤分類為Le-gato_Slide_Clissando。在訓練集中,Harmonic類別共有18個樣本,而Legato_Slide_Glissando類別共有98個樣本。經過初步分析,可能是南丁數據集不平衡導致的。在數據量較少的情況下,由于學習率較小且訓練Epoch次數不足,模型權重參數的更新幅度較小,Har-monic分類受到原有預訓練模型參數的影響較大。后續研究將增加訓練Epoch次數和學習率參數,觀察訓練后的效果。同時,可以收集容易被錯誤分類的演奏技法音頻,例如Harmonic和Legato_Slicle_Glissando,專門對模型進行再次微調。

2) 在保留現有模型權重參數的基礎上,在模型第12層后(模型結構見表1) 新增Transformer層,以增強特征融合的效果,然后對新模型進行再次微調訓練。

致謝:

感謝星海音樂學院提供計算資源,感謝中國傳統樂器音響數據庫(CTIS) [22]與多功能音樂數據庫(CCMu?sic) 提供數據集支持[22]。

猜你喜歡
分類檢測模型
一半模型
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
主站蜘蛛池模板: 国产原创第一页在线观看| 大陆精大陆国产国语精品1024| 欧美伦理一区| 久草视频中文| 91视频区| 蜜芽国产尤物av尤物在线看| 欧美黄色网站在线看| 手机成人午夜在线视频| 99热这里只有精品国产99| 亚洲第一国产综合| 亚洲精品欧美日韩在线| 亚洲综合第一区| 夜精品a一区二区三区| 99久久婷婷国产综合精| 亚洲欧美日韩另类| 经典三级久久| 一级毛片在线播放| 狂欢视频在线观看不卡| 国产成人久久综合一区| 手机永久AV在线播放| 成人夜夜嗨| 国产丝袜无码精品| 国产成人亚洲综合A∨在线播放| 美女一级毛片无遮挡内谢| a级毛片免费播放| 亚洲男人在线天堂| 米奇精品一区二区三区| 国产69精品久久久久妇女| 亚洲欧美激情小说另类| 亚洲国产日韩一区| 影音先锋丝袜制服| 99草精品视频| 久久久无码人妻精品无码| 香蕉伊思人视频| 国产成人综合网| 天天综合色网| 亚洲综合婷婷激情| 真实国产乱子伦视频| 日韩av无码DVD| V一区无码内射国产| 国产一区在线视频观看| 日本在线视频免费| 亚洲天堂网在线视频| 国产日韩丝袜一二三区| 久久国产精品影院| 欧美a级完整在线观看| 久久动漫精品| 国内精品小视频在线| 亚洲va欧美va国产综合下载| 亚洲国产精品日韩专区AV| 自慰高潮喷白浆在线观看| 国产专区综合另类日韩一区| 亚洲欧美另类日本| 久久综合婷婷| 国产无码精品在线| 中文字幕 日韩 欧美| 伊人色在线视频| 日本国产一区在线观看| 国产成人综合久久| a在线亚洲男人的天堂试看| 国产亚洲精品97在线观看| 国产精品视频系列专区| 国产a v无码专区亚洲av| 无码国内精品人妻少妇蜜桃视频| 欧美午夜网站| 99在线视频精品| 在线观看91香蕉国产免费| 久久99精品国产麻豆宅宅| 2021天堂在线亚洲精品专区| 亚洲天堂精品视频| 国产情精品嫩草影院88av| 色综合久久88色综合天天提莫 | 久久久成年黄色视频| 99er精品视频| 无码乱人伦一区二区亚洲一| 鲁鲁鲁爽爽爽在线视频观看| 亚洲丝袜第一页| 99视频在线免费| 有专无码视频| 国产成人h在线观看网站站| 国产乱人伦偷精品视频AAA| 亚洲精品成人片在线观看|