劉紅梅
(阿克蘇職業技術學院 人文藝術學院,新疆 阿克蘇 843000)
隨著人們生活水平不斷的提高,對音樂需求更加廣泛,同時隨著聲樂技術不斷的成熟,出現了許多音曲,樂曲節拍具有多樣性,如何對樂曲節拍進行準確識別,是當前音樂研究領域中的一個重要課題[1-3]。
針對樂曲節拍識別問題,許多學者和研究機構進行了廣泛、深入的研究,提出許多有效的樂曲節拍識別方法[4-6]。樂曲節拍識別與語音識別具有一定的相似性,識別原理大致相同,如基于卷積神經網絡的樂曲節拍識別方法等[7-9]。在實際應用中,這些樂曲節拍識別方法還存在許多不足,如樂曲節拍識別的精度低,經常出現誤識現象,拒識率相當高,難以滿足樂曲節拍識別的實際要求[10-12]。
音頻指紋是一種重要的語音信號特征,其可以描述樂曲節拍類型,為了提高樂曲節拍識別精度,克服當前樂曲節拍識別過程中存在的不足,提出基于音頻指紋技術的樂曲節拍識別系統,并與當前其它樂曲節拍識別系統進行了對比測試。結果表明,本文系統得到了理想的樂曲節拍識別結果,樂曲節拍誤識率低于對比系統,驗證了本文系統的優越性。
一個完整的樂曲節拍識別系統包括硬件部分和軟件部分,其中硬件部分是樂曲節拍識別系統的基礎,而軟件部分是樂曲節拍識別系統的靈魂,兩部分協調工作完成樂曲節拍識別。
基于音頻指紋技術的樂曲節拍識別系統硬件結構如圖1所示。

圖1 樂曲節拍識別系統的硬件結構
主要包括:樂曲節拍信號采集模塊、樂曲節拍信號的存儲和傳輸模塊,樂曲節拍識別模塊。樂曲節拍信號通過傳感器進行采集,通過TMS320VC5402 微處理器對樂曲節拍信號進行放大處理,將放大處理后的樂曲節拍信號輸入到存儲器保存起來,同時將樂曲節拍信號數據根據計算機能夠識別的形式存儲到樂曲數據庫中,其中樂曲節拍識別模塊是最為關鍵的部分,其直接影響樂曲節拍識別結果的好壞,本文采用音頻指紋算法的樂曲節拍識別技術。
由于樂曲節拍信號具有一定的特殊性,為了防止樂曲節拍信號被放大處理產生變形現象,處理器的電路采用二級阻容耦合模式。一級電路為射極跟隨電路,其主要用于去除樂曲節拍信號中的噪聲,保證輸入與輸出信號的相位不發生變化,將未失真信號輸入到下一級電路進行處理;二級電路為共射極放大電路,主要用于對樂曲節拍信號進行放大處理,同時使放大后的樂曲節拍信號不發生變形。
在進行樂曲節拍識別時,首先要建立樂曲節拍識別的指紋數據庫,對于待識別的樂曲節拍信號,計算其與數據庫中指紋的匹配度,根據匹配度得到樂曲節拍識別結果[12]。
1.2.1 提取樂曲節拍信號的指紋
對于待識別的樂曲節拍信號,通過以下步驟提取其指紋。
Step1:采集待識別的樂曲節拍信號,對原始樂曲節拍信號進行一定的預處理,去掉無用的信號,保留有用的樂曲節拍信號。
Step2:對預處理后的樂曲節拍信號進行分幀處理,第i幀音頻信號為g(i),所有幀的樂曲節拍信號采樣周期和幀的長度是一致的。
Step3:對分幀的樂曲節拍信號進行復倒譜轉換,第2i-1,2i,2i+1幀樂曲節拍信號之間的關系可以描述為式(1)。
(1)
其中,N表示幀數量。
Step4:提取樂曲節拍的指紋系數p*(i),具體計算為式(2)。
(2)
Step4:將樂曲節拍的指紋系數與閾值t進行比較,根據比較結果得到一個由1和0組成的指紋序列如式(3)。

(3)
1.2.2 基于指紋的樂曲節拍識別
數據庫中的樂曲節拍指紋集合為H={H1,H2,…,Hn},對于待識別的樂曲節拍,其指紋序列為P={P1,P2,…,Pn},為了找到一種映射方式可以對p進行估計,從而實現并置運算,最終得到式(4)。
p=ω1+ω2+…+ωn
(4)
其中,ωi表示樂曲節拍信號的子串[13]。
為了指紋數據庫構建立q-grams子串,一個串長度為n串包括n-q+1個q-grams子串。如當q=2時,存在5個q-grams子串,分別為poss、ossi、ssib、sibl、ible,把它們的值作為待識別樂曲節拍的指紋索引值,計算樂曲節拍指紋子串匹配的數量,根據打分方式得到數據庫的樂曲節拍序列和待識別樂曲節拍的匹配分值,選擇分值最高序列作為初始列,具體打分方式為式(5)。
(5)
其中,p(i)和h(i)為目標序列和源序列的索引值。
為了獲得樂曲節拍指紋最優匹配結果,需要找到樂曲節拍指紋最長的公用子串,根據最長公用子串的軌跡,就可以找到最長子串在樂曲節拍源序列中的位置。
綜合上述分析可知,基于音頻指紋的樂曲節拍識別系統的工作流程如圖2所示。

圖2 基于音頻指紋的樂曲節拍識別流程
為測試基于音頻指紋的樂曲節拍識別系統的性能,使用采樣頻率是23 kHz、分辨率是17 bit、8 s長的MP3音樂文件實施測試,此音樂文件中有多種某類型樂曲。樂曲節拍原始指紋和待識別的樂曲節拍音頻指紋分別為H(i)、P(i),具體計算如式(6)、式(7)。
(6)
(7)
首先對樂曲節拍識別系統的魯棒性進行測試,當前樂曲節拍受到外界環境影響的主要因素包括:重采樣、低通濾波、重量化等,對于各種影響因素,采用信噪比和互相關系數評價樂曲節拍識別系統的性能,結果如圖3和圖4所示。

圖3 本文系統的采集信號信噪比

圖4 本文系統的提取指紋相關系數
對圖3和圖4的結果進行分析可以知道,本文系統的信噪比高,而且原始指紋信息和提取指紋信息之間的互相關系數高,它們兩者之間的相似度比較高,這表明,外界因素對本文樂曲節拍識別系統的干擾比較小,具備較顯著的魯棒性,可以獲得理想的樂曲節拍信號。
測試本文系統的樂曲節拍識別精度,識別精度的計算如式(8)。

(8)
選擇6種樂曲作為測試對象,它們分別為:交響曲、協奏曲、圓舞曲、進行曲、浪漫曲、奏鳴曲,為了使數字更為直觀清晰,對6種樂曲的詳細情況分別以圖和表形式進行描述,測試對象分布如圖5所示。

圖5 6種樂曲的數量詳細分布
本文系統對樂曲節拍中有效音頻信號識別錯誤數如表1所示。

表1 本文系統的樂曲節拍識別錯誤數
分析表1可知,本文系統僅對奏鳴曲的節拍識別存在錯誤,其它5種樂曲節拍識別結果不存在錯誤,證明了本文系統的有效性。
本文系統對樂曲節拍識別精度計算結果如圖6所示。

圖6 本文系統的樂曲節拍識別精度
從圖6可以發現,本文系統樂曲節拍識別精度很高,完全可以滿足樂曲節拍識別的實際應用要求。
對于采樣、低通濾波、重量化環境,統計本文系統的樂曲節拍識別精度,結果如圖7所示。

圖7 不同因素影響下的樂曲節拍識別精度
從圖7可以發現,在重采樣、低通濾波、重量化條件下,本文系統的樂曲節拍識別精度仍然很高,獲得了理想的樂曲節拍識別結果。
為了分析本文系統的樂曲節拍指紋提取效果,計算樂曲節拍指紋漏識率(ERROR),如式(9)。
ERROR=(δ-γ)×100%
(9)
式中,γ和δ分別表示提取和實際指紋數量。
樂曲節拍的實際指紋數量變化曲線如圖8所示。

圖8 樂曲節拍的指紋實際數量
計算本文系統的樂曲節拍指紋漏識率,具體如圖9所示。

圖9 本文系統的樂曲節拍指紋漏識率
對圖9樂曲節拍的指紋漏識率進行分析可以發現,本文系統的樂曲節拍的指紋漏識率極低,甚至可以忽略不計,可以有效提取樂曲節拍的指紋。
樂曲節拍識別是當前研究的熱點,其識別結果可以為樂曲智能創作提供有價值的參考信息,為了改善樂曲節拍識別效果,提出基于音頻指紋技術的樂曲節拍識別系統,并通過仿真實驗可知:無論有噪無噪環境,本文系統都可以獲得較高精度的樂曲節拍識別結果,對噪聲具有一定的魯棒性,樂曲節拍識別漏識率低,解決了當前樂曲節拍識別過程中存在的問題,具有較高的實際應用價值。