孫夢(mèng)青
(華北水利水電大學(xué),河南 鄭州 450000)
計(jì)算機(jī)科技和網(wǎng)絡(luò)科技在高速發(fā)展,數(shù)字音樂(lè)信息的信息量也隨著不斷增大,用戶(hù)對(duì)數(shù)字音樂(lè)信息的需求也日益增長(zhǎng)。互聯(lián)網(wǎng)的發(fā)展使人們?cè)絹?lái)越方便快捷的接觸到了數(shù)字媒體,對(duì)娛樂(lè)產(chǎn)品也提出了更高的要求,數(shù)字音頻的獲取變得更加容易。如何從海量的數(shù)字音樂(lè)中快速獲取蘊(yùn)含著用戶(hù)所需情感與較高音質(zhì)的音樂(lè),已成為當(dāng)前待解決的問(wèn)題之一。
文獻(xiàn)[1]提出一種音式階的合理性模識(shí)別方法。首先根據(jù)頻率域和時(shí)間域確定轉(zhuǎn)錄音符,通過(guò)諧振濾波器獲得瞬時(shí)頻率與中心頻率之間存在的差值,在此基礎(chǔ)上引入頻譜圖、譜平滑性和調(diào)和性估計(jì)建立HMM模型。再利用對(duì)閾值的合理運(yùn)算,完成數(shù)字音頻的識(shí)別與校對(duì)。該方法識(shí)別能對(duì)數(shù)字音頻進(jìn)行識(shí)別,但是該方法對(duì)樂(lè)音處理信號(hào)量雜亂無(wú)序現(xiàn)象不具有改善作用,無(wú)法完成音式階有效識(shí)別。文獻(xiàn)[2]提出一種基于魯棒音階特征和測(cè)度學(xué)習(xí)SVM的音樂(lè)和弦識(shí)別方法,能夠降低人聲對(duì)和弦進(jìn)程的影響,且恢復(fù)和弦所對(duì)應(yīng)的諧波信息。對(duì)頻譜中和弦相對(duì)應(yīng)的諧波信息和人聲信息建立模型,構(gòu)建雙目標(biāo)優(yōu)化問(wèn)題,使和弦所對(duì)應(yīng)的諧波信息進(jìn)行有效重建,同時(shí)去除人聲。對(duì)諧波信息進(jìn)行降維處理,獲得魯棒性的音階輪廓特征。運(yùn)用測(cè)度學(xué)習(xí)的方法得到馬氏距離,再將其進(jìn)行合理替換,促使支持向量機(jī)的判別函數(shù)包含有數(shù)據(jù)的空間分布信息,現(xiàn)實(shí)和弦識(shí)別的目的。該方法對(duì)音頻信號(hào)的雜亂現(xiàn)象有的很好的抑制作用,但是音符識(shí)別效果不理想。
上述兩種方法在對(duì)音頻進(jìn)行提取時(shí)的準(zhǔn)確率較低,不能夠很好的去除干擾。此次研究方法通過(guò)數(shù)字音頻標(biāo)準(zhǔn)音的匹配濾波器,進(jìn)行去噪處理,根據(jù)Goertzel算法將離散譜線(xiàn)能量歸一化處理,從而在更大程度上實(shí)現(xiàn)樂(lè)音的高效識(shí)別。
電子樂(lè)器數(shù)字接口與音樂(lè)樂(lè)譜文件中均不具有真實(shí)的聲音數(shù)據(jù),所以能將音樂(lè)文件作為字符串做進(jìn)一步處理[3]。但在部分格式的音樂(lè)文件中存在少許真實(shí)的聲音數(shù)據(jù),需對(duì)其進(jìn)行信號(hào)分析,提取相應(yīng)特征并進(jìn)行處理。
基音作為語(yǔ)音信號(hào)中較為重要的一部分,是根據(jù)聲音信號(hào)中聲源振動(dòng)形成的周期性特征,基音周期所描述的是聲源振動(dòng)頻率的倒數(shù)。音頻信號(hào)中基音的高低與音頻文件中音調(diào)的高低是相互對(duì)應(yīng)的,因此對(duì)其進(jìn)行特征提取極其重要[4]。
音頻信號(hào)的主要特征分別是時(shí)域特征與頻域特征兩部分。時(shí)域特征能夠?qū)r(shí)域波形進(jìn)一步處理分析,從而獲得時(shí)域參數(shù),其中具有短時(shí)平均能量、過(guò)零率以及線(xiàn)性預(yù)測(cè)系數(shù)等。
短時(shí)平均能量作為在較短音頻信號(hào)幀內(nèi)的采樣點(diǎn)信號(hào)聚集,以此作為平均能量,它會(huì)隨時(shí)間的增長(zhǎng)而增加,可以準(zhǔn)確的展現(xiàn)出信號(hào)在時(shí)域中的主要特征,其表達(dá)式為

(1)
在式(1)中,x(n)所描述的是音頻信號(hào)幀內(nèi)存在的第n個(gè)信號(hào)值,w(n-m)所描述的是長(zhǎng)度為N的窗口函數(shù),t所描述的是信號(hào)時(shí)域取值。
信號(hào)過(guò)零次數(shù)所描述的是信號(hào)幅度值由正變負(fù)或由負(fù)變正的次數(shù)[5]。短時(shí)過(guò)零率是指短時(shí)段內(nèi)信號(hào)通過(guò)零值的次數(shù),其表達(dá)式為

(2)
在式(2)中,x(n)所描述的是第m個(gè)音頻信號(hào)幀內(nèi)的第n信號(hào)值,w(n)所描述的是長(zhǎng)度為N的窗口函數(shù)。在x(n)≥0的情況下,那么sign[x(n)]=1,若與其相反,那么sign[x(n)]=0。
線(xiàn)性預(yù)測(cè)系數(shù)能將有限參數(shù)的數(shù)學(xué)模型進(jìn)行線(xiàn)性近似作為音頻信號(hào)x(n)(1≤n≤N),其參數(shù)作為x(n)的有效特征,x(n)作為模擬音頻信號(hào)x(n)的數(shù)學(xué)模型,其表達(dá)式為

(3)
在式(3)中,x(n-N)所描述的是音頻采樣時(shí)的信號(hào),P所描述的是模型的階數(shù),{ak}所描述的是線(xiàn)性預(yù)測(cè)系數(shù)。運(yùn)用延時(shí)信號(hào)采樣值進(jìn)一步實(shí)施加權(quán)處理,并疊加生成音頻信號(hào)序列x(n)(1≤n≤N)。線(xiàn)性預(yù)測(cè)系數(shù)能夠準(zhǔn)確地呈現(xiàn)出音頻信號(hào)不同的變化,可以作為通用的音頻信號(hào)特征。
頻域特征主要根據(jù)音頻信號(hào)實(shí)施傅立葉轉(zhuǎn)換,然后將原始信號(hào)轉(zhuǎn)變至頻域后[6]。再對(duì)其中所包含的數(shù)據(jù)信息進(jìn)一步分析,從而提取到準(zhǔn)確、有效的頻域參數(shù)。其中具有能譜特征。平均功率、功率譜以及熵特征等。


熵特征作為度量音頻信息復(fù)雜程度的重要標(biāo)準(zhǔn),其表達(dá)式為:

(4)
在式(4)當(dāng)中,M(i)所描述的是將音頻幀額頻帶進(jìn)行區(qū)分,使其成為N個(gè)頻率子帶后,其中的第i個(gè)能量。
Mel作為成立在傅立葉轉(zhuǎn)換和倒譜分析的情況下的系數(shù)。音頻幀信號(hào)通過(guò)傅立葉經(jīng)轉(zhuǎn)變后,之中的頻譜寬度是音頻采樣頻率的二分之一。合理將其進(jìn)行劃分,將整體頻帶分割成N個(gè)子帶,并運(yùn)算出其中的總體能量,從而生成短音頻幀的N個(gè)Mel系數(shù)[7]。通過(guò)上述公式能對(duì)時(shí)頻域信息進(jìn)行有效提取。
在一段音頻中,出現(xiàn)一組連續(xù)的樂(lè)音,可以判斷其是依據(jù)大部分高低不同的音符按照時(shí)間順序組成的。音符的頻域主要是根據(jù)基音頻率與泛音頻率形成的,其中基音頻率能夠準(zhǔn)確判斷樂(lè)音的聲線(xiàn)高低,泛音頻率能夠準(zhǔn)確判斷聲線(xiàn)的音色。泛音是根據(jù)基音頻率的各個(gè)整數(shù)倍頻率形成的,兩者間存在的諧波幅度比不發(fā)生改變[8]。因此,采用合理的方式運(yùn)用音符的特定頻譜特性,可以較好的完成對(duì)音頻的有效識(shí)別,其具體算法如圖1所示。

圖1 音頻識(shí)別算法
樂(lè)音信號(hào)通常作為一種狀態(tài)不穩(wěn)定的信號(hào),其處理方式也與傳統(tǒng)處理方法大不相同。但它可以保證在較短時(shí)段內(nèi)的頻譜特性趨于穩(wěn)定,從而得出其具有短時(shí)平穩(wěn)的特性[9]。
十二平均律通常被稱(chēng)為1/12的倍頻程,能對(duì)音階進(jìn)行有效分割,一個(gè)頻程的音高為八度音,然后把頻程劃分為12個(gè)半度音階,在樂(lè)音符合十二平均律的基礎(chǔ)上,用數(shù)學(xué)表示為:每2個(gè)臨近半度音階的頻率比值為2的1/12次方,其表達(dá)式為:

(5)
式(5)作為臨近半度音階的頻率比值。
伴隨網(wǎng)絡(luò)信息科技的快速發(fā)展,數(shù)字化音樂(lè)也隨之大量增加,如何對(duì)其進(jìn)行有效識(shí)別十分重要。首先將數(shù)字音頻標(biāo)準(zhǔn)音通過(guò)匹配濾波器進(jìn)行轉(zhuǎn)化,去除干擾。大幅度提高音樂(lè)制作效率,同時(shí)確保了音樂(lè)的品質(zhì)和效果[10]。
根據(jù)Goertzel算法可以獲得整體數(shù)字音頻的標(biāo)準(zhǔn)音,以及較多基音頻率基礎(chǔ)上的頻譜幅度值。利用C4#信號(hào)的標(biāo)準(zhǔn)音繪制的離散頻譜,如圖2所示。

圖2 離散頻譜


(6)
最終,將序列翻轉(zhuǎn)過(guò)程中轉(zhuǎn)換成M=26路分支的標(biāo)準(zhǔn)音匹配濾波器,與26個(gè)標(biāo)準(zhǔn)音模板相對(duì)應(yīng)。在該過(guò)程中,根據(jù)n=0,1,…,N-1、j=1,2,…,M,得出濾波器的單位沖擊響應(yīng)表達(dá)式即
hj[n]=Sj[N-1-n]
(7)
通過(guò)式(6)、式(7)得出,匹配濾波器能夠高效地對(duì)數(shù)字音頻中冗余噪聲處理,去除外界因素的干擾,使音質(zhì)更加生動(dòng)、悅耳。
當(dāng)所輸入的數(shù)字音頻信號(hào)通過(guò)時(shí)域管理后被劃分成多個(gè)單音信號(hào),此信號(hào)再根據(jù)Goertzel算法合理運(yùn)算后得出離散頻譜序列,再依次經(jīng)過(guò)M=26路分支的標(biāo)準(zhǔn)音匹配濾波器[12]。卷積后的序列中心點(diǎn)n=N-1進(jìn)一步實(shí)施采樣和輸出,并以此代表信號(hào)之間相互關(guān)聯(lián)的度量,將采樣所得的最大數(shù)值路匹配濾波器相互對(duì)應(yīng)的音符進(jìn)行有效輸出,并以此作為輸入信號(hào)的接收與識(shí)別,基于此得出的采樣輸出結(jié)果如式(8)所示
Si[n]*hj[n]|n=N-1=rij[0]
(8)
從式(8)中可知,將采樣輸出的整個(gè)過(guò)程進(jìn)行相關(guān)運(yùn)算,并以此作為輸入信號(hào)和數(shù)字音頻標(biāo)準(zhǔn)音信號(hào)的頻譜,兩者間的相互關(guān)聯(lián)內(nèi)容的度量。故將此相關(guān)性度量稱(chēng)之為檢測(cè)樂(lè)音與識(shí)別樂(lè)音的憑據(jù)。
Si[n]所描述的是輸入單音信號(hào)Xi(t)的離散頻譜序列,當(dāng)ri是Si[n]通過(guò)Xi(t)相對(duì)應(yīng)的標(biāo)準(zhǔn)音匹配濾波器處理后的采樣輸出值,rj所描述的是Si[n]通過(guò)其它標(biāo)準(zhǔn)音匹配濾波器處理后i≠j的采樣輸出值,將離散譜線(xiàn)能量歸一化,那么可得出以下公式為

(9)
在經(jīng)過(guò)歸一化處理后,所輸入的單音信號(hào)頻譜與標(biāo)準(zhǔn)音頻譜兩者之間存在相互關(guān)聯(lián)性,可以實(shí)現(xiàn)對(duì)數(shù)字音頻樂(lè)音的識(shí)別。
為了驗(yàn)證基于時(shí)頻域信息提取的數(shù)字音頻樂(lè)音識(shí)別方法的音符識(shí)別準(zhǔn)確率和抗干擾效果,將研究方法設(shè)置為實(shí)驗(yàn)組,將文獻(xiàn)[1]、文獻(xiàn)[2]方法作為對(duì)照組,在相同的實(shí)驗(yàn)環(huán)境下進(jìn)行對(duì)比實(shí)驗(yàn)。
實(shí)驗(yàn)涉及的參數(shù)如下:

表1 實(shí)驗(yàn)參數(shù)設(shè)置
將英國(guó)傳統(tǒng)兒歌《Twinkle Twinkle Little Star》的《小星星》中 12 個(gè)單音符音樂(lè)片段作為實(shí)驗(yàn)樣本,并對(duì)源音樂(lè)進(jìn)行數(shù)字頻譜音符提取。圖3是源音樂(lè)的信號(hào)波形,橫坐標(biāo)表示的是音頻數(shù)據(jù)信號(hào)點(diǎn),縱坐標(biāo)表示經(jīng)過(guò)歸一處理的信號(hào)幅值。

圖3 數(shù)字頻譜音符提取結(jié)果
為了得到研究方法的音符識(shí)別性能,在仿真中,首先設(shè)置兩個(gè)匹配閾值,分別為能量高閾值和能量低閾值,再運(yùn)用研究方法分別對(duì)兩者相互對(duì)應(yīng)的音樂(lè)起點(diǎn)與終點(diǎn)的音符進(jìn)行檢測(cè)。檢測(cè)準(zhǔn)確率越高,對(duì)音符的識(shí)別精度越高。在能量中,閾值將作為平均能量,數(shù)值取值為1,高閾值的取值為0.4,之間的距離取值范圍是1.2~0.1。低閾值的取值為0.15,之間的距離取值范圍是0.95~0.1。
針對(duì)數(shù)能量而言,其中的閾值也將作為平均能量,數(shù)值取值為1。高閾值的取值為0.9,之間的距離取值范圍是1~0.02,低閾值的取值為0.85,之間的距離取值范圍即0.95~0.02。能量閾值與數(shù)能量閾值的最佳參數(shù)及相應(yīng)的音符識(shí)別準(zhǔn)確率如表2和表3所示。

表2 能量最優(yōu)閾值和總準(zhǔn)確率

表3 數(shù)能量的最優(yōu)閾值和總準(zhǔn)確率
從表2和表3中能夠看出,運(yùn)用研究方法對(duì)能量閾值相對(duì)應(yīng)的音符識(shí)別準(zhǔn)確率高于80%,數(shù)能量閾值對(duì)應(yīng)的音符準(zhǔn)確識(shí)別率高于85%。可以得出,研究方法的音符識(shí)別準(zhǔn)確率高,是因研究方法充分利用了音符的泛音分量,進(jìn)而增加了檢測(cè)結(jié)果的可靠性。
為了驗(yàn)證研究方法音頻去噪效果,基于上述實(shí)驗(yàn)環(huán)境,與對(duì)照組進(jìn)行音頻去噪對(duì)比實(shí)驗(yàn)。在實(shí)驗(yàn)樣本中選取連續(xù)的40個(gè)音頻采樣點(diǎn),幅度波動(dòng)越小,說(shuō)明去噪效果越好。具體實(shí)驗(yàn)結(jié)果如圖4所示。

圖4 不同方法音頻識(shí)別效果
從圖4的音頻識(shí)別結(jié)果圖來(lái)看,文獻(xiàn)[1]、文獻(xiàn)[2]方法的音頻識(shí)別幅度波動(dòng)范圍較大,且波形較不穩(wěn)定;而研究方法的音頻識(shí)別幅度較小,介于-5~5/V,且波形較為穩(wěn)定。說(shuō)明研究方法較傳統(tǒng)方法去噪效果好,音頻識(shí)別穩(wěn)定。是因研究方法通過(guò)匹配濾波器對(duì)數(shù)字音頻進(jìn)行轉(zhuǎn)化,能較好地去除干擾,所以音頻識(shí)別效果好,為音頻樂(lè)音識(shí)別提供了有利依據(jù)。
綜合上述實(shí)驗(yàn)結(jié)果可以得出基于時(shí)頻域信息提取方法音頻識(shí)別的準(zhǔn)確率更高,并且具較強(qiáng)的抗干擾性能。
音頻信號(hào)識(shí)別在音樂(lè)數(shù)據(jù)庫(kù)檢索技術(shù)和計(jì)算機(jī)自動(dòng)譜曲等多個(gè)領(lǐng)域中都具有較高實(shí)用性。此次研究方法首先對(duì)樂(lè)音信號(hào)進(jìn)行時(shí)頻域信息提取,并且采用Goertzel算法獲得整體數(shù)字音頻的標(biāo)準(zhǔn)音,在通過(guò)匹配濾波器進(jìn)行進(jìn)一步處理,能夠有效去除外界因素干擾以及在運(yùn)算時(shí)的復(fù)雜度。實(shí)驗(yàn)證明,研究方法能有效提高有音無(wú)音在識(shí)別準(zhǔn)確率,且精確度高,具有良好的抗噪性能和優(yōu)質(zhì)的魯棒性。