劉遵雄,許金鳳,曾麗輝
(華東交通大學信息工程學院,江西南昌 330013)
經典的Logistic回歸(Logistic Regression,LR)是一種統計分析方法,根據一個或多個連續性或屬性型的自變量來分析和預測0/1二值型因變量的多元量化分析方法,屬于概率型非線性回歸。與線性回歸不同,LR是一種非線性模型,普遍采用的參數估計方法是最大似然估計法。可以證明,在隨機樣本條件下,LR模型的最大似然估計具有一致性、漸進性和漸進正態性[1]。LR模型所用假設簡單,不要求滿足誤差分布趨于正態分布的假設,也不要求自變量符合正態分布的條件,模型對識別變量的分布未作任何要求;能用于因變量二值的判別并計算出其歸屬的概率,而且可以給出判別結果在概率意義上的解釋。目前,該方法已廣泛應用于經濟、社會科學以及醫學等諸多科學領域。
LR通過二元取值,直接利用樣本所屬類別的后驗概率來進行分類[2]。由于采用的是線性模型,所以對概率估計的精度有限,因此一些學者利用SVM中的核技巧手法將經典的Logistic回歸(Logistic Regression,LR)推廣到RKHS(Reproducing Kernel Hilbert Space)空間從而得到非線性的核Logistic回歸(Kernel Logistic Regression,KLR)[3-4],以提高概率估計的精度。
音頻自動分類是解決音頻結構化問題和提取音頻內容語義的重要手段之一,是當前基于內容的音頻檢索領域的研究熱點。目前,該領域的研究重點主要在以下兩個方面:音頻特征分析與抽取以及分類器的設計。在音頻分類的問題上,國內外的研究人員進行了大量的研究。為了提高分類精度,研究者們提出了不同的分類方法,包括最近鄰準則(NN),支持向量機(SVM),高斯混和模型(GMM),神經網絡,隱形馬爾科夫模型(HMM)[5-10]等。上述方法處理的分類問題比較單一,通常只是對語音、音樂及環境音等進行分類,在簡單的分類中分類精度比較滿意,但是在相似度較高的音頻信號例如同類型的樂器音樂等音頻分類精度不高。
本文通過在KLR模型中采用不同的核函數、線性核函數、多項式核函數和徑向基核函數,建立多類KLR模型[11]。通過對弦樂器中小提琴、中提琴、大提琴的音樂信號進行特征提取,運用多類KLR模型進行分類試驗,從而實現對同類別樂器信號的辨識。使用傳統的LR多分類模型和SVM進行對比試驗,比較算法之間的分類性能差別。
在音頻分類中,所選取的特征應該能充分刻畫音頻在時域和頻域上的重要分類特性[12],對環境的改變具有魯棒性和一般性。
一般來說,音頻特征提取是基于兩種不同的時間長度:一種是基于音頻幀(audio frame)的特征提取,時間為幾十毫秒;另一種是基于音頻段(audio clip)的特征提取,持續時間一般是幾秒。本文通過將原始的音頻信號切分成每3 s的音頻段,然后將音頻段通過加23.21 s(512個采樣點)的漢寧窗(hanning)處理形成音頻幀(audio frame),幀間重疊25%。計算每一幀的傅里葉變換系數F(ω)和頻域能量E。然后對每一音頻幀進行特征提取,最后再根據所獲得的幀層次上的特征來計算音頻段層次上的特征,從而獲得一個長度為3 s音頻樣本的特征數據集。
本文選擇的音頻幀(frame)上的特征:


(3)關鍵子帶能量比(Critical Sub-band Power Ratios):在頻域中劃分子帶區間,選取部分關鍵子帶區間。關鍵子帶能量比定義為每個關鍵子帶的能量對數值與整個音頻幀的能量對數值之比。
基于音頻段(audio clip)上的特征:
(1)子帶能量比均值定義為片段(clip)中每個關鍵子帶能量比的均值。
(2)帶寬均值與方差定義為clip中各個幀的帶寬均值。
(3)頻譜中心均值和方差定義為clip中亮度均值和方差。

在Logistic回歸中,我們用一個線性函數 f(X)=βTX+β0去估計 f(X)。


由此得到后驗概率i=1


加入正則化項后(為避免訓練數據的過擬合,加入懲罰項以防止估計參數 β出現較大的波動),得到最小化下面的目標泛函:

在核Logistic回歸中,樣本概率估計的負對數似然可以寫成:
λ為平衡回歸函數光滑性與損失函數的系數(正則化項的參數)。求解回歸參數是一個無約束的凸優化問題,利用Newton-Raphson規則解等式,得到回歸參數 αnew:

P是擬合概率向量,它的第i個元素是P(αold,Xi),W是N×N權重矩陣,對角線上元素為 P(αold,Xi)(1-P(αold,Xi))。
本文從標準樂器錄音數據庫[14]中獲取三類樂器原始音樂信號樣本:小提琴、中提琴和大提琴。所有原始音頻樣本均為單聲道,采樣頻率為44.1 kHz,精度為16位,AIFF格式。利用音頻格式轉換軟件轉化為WAV格式后,將原始音頻樣本在時域上分割成每3 s的片段(clip),每個類別獲得100個音頻片段,共300個音頻信號樣本。再對每段加23.21(512個采樣點)的漢寧窗(hanning)形成幀,幀間重疊25%。
選取clip中每一音頻幀中的22個關鍵子帶,獲得各個子帶的子帶能量比,然后基于幀層次上計算音頻段中22個關鍵子帶能量比均值和標準差共44維特征;根據每一幀的頻率和帶寬,然后計算音頻段上的頻率均值和標準差,帶寬均值和標準差共4維向量,最終構建48維的分類特征數據集。
最終實驗特征數據集組成如表1所示。

表1 音頻實驗數據集組成
本文在Matlab平臺下,使用核Logistic回歸模型對上述特征數據集進行分類仿真實驗,為評價本文算法提出的有效性使用傳統的Logistic回歸和支持向量機SVM完成相同的音頻分類任務。其中核Logistic回歸和SVM中核函數分別選擇線性核、多項式核和RBF核進行實驗。
通過大量實驗統計,在核Logistic回歸和SVM中多項式核函數參數均取d=2;logistic回歸中RBF核函數的參數取σ=2,正則化項參數λ=1E-5;SVM中RBF核函數的參數σ=2,懲罰因子λ=1E-2。
本文采用分類準確度評價分類器的性能。其定義如下:分類準確率=分類正確的樣本數/樣本總數。實驗結果如表2所示。

表2 不同分類器下的分類準確率 %
從實驗結果來看,應用核Logistic回歸算法建立的分類模型分類性能良好,準確度均在90%以上。分析表1中數據,可以得到如下結論:(1)在訓練樣本尺寸相同時,KLR算法的分類準確率要高于支持向量機(SVM)和傳統的LR回歸。(2)三類算法在訓練樣本尺寸增加的情況下,分類準確度隨之提高。(3)總體看來,KLR和SVM中選取RBF核函數時,分類準確率和穩定性要高于選擇線性核函數和多項式核函數。
三類算法的準確度的曲線如圖 1所示,其中KLR和SVM中的核函數均選擇RBF核函數。
在訓練樣本尺寸不同的情況下,KLR算法的分類性能始終優于或等于LR算法,因為在KLR算法將廣義線性模型LR擴展為RKHS空間的非線性模型,較好的解決了在特征空間中相似度較大音頻樣本線性不可分的問題。KLR算法分類性能與SVM相比,在每個類別的訓練樣本尺寸為50時,二者的分類性能相等,只有在訓練樣本尺寸為70時SVM的分類準確度要高于KLR,KLR通過學習能給出樣本所屬類別在概率意義上的解釋,更具實際意義。

圖1 三種分類算法的準確度曲線圖
本文使用核Logistic回歸(KLR)算法進行音頻分類。利用對樣本數據的后驗驗概率估計判定樣本所屬的類別,并對三類弦樂器音頻信號:小提琴、大提琴、中提琴進行分類實驗,實驗結果表明:KLR算法分類的誤差明顯小于傳統的LR算法和SVM算法,取得了較為滿意的分類準確度。
在KLR中,由于其解不存在稀疏性,意味著計算新樣本后驗概率時需要所有的訓練樣本參與運算,計算量較大,這樣就限制了KLR在大規模數據集中的應用。下一步的工作是對KLR解的稀疏性問題進行研究。
[1]王濟川,郭志.Logistic回歸模型方法與應用[M].北京:高等教育出版社,2001.
[2]HASTIE T,TIBSHIR ANI R,FRIEDMAN J.The Elements of Statistical Learning:Data Mining,Inference,And Prediction[M].Berlin:Springer Verlag,2002.
[3]JAAKKOLA T S,HAUSSLER D.Probabilistic Kernel RegressionModels[C]//Proceedings of the Conference on AI and Statistics.San Francisco.USA:Morgan Kaufmann,1999:99-108.
[4]OTH V.Probabilistic Discriminative Kernel Classifiers for Multi-class Problems,Lecture Notes in Computer Science[R].London,UK:Springer Verlag,2001:246-253.
[5]WOLD E,BLU M T,KEISLAR D,et al.Content-based classification,search and retrieval of audio[J].IEEE Multimedia Magazine,1996,3(3):27-36.
[7]MUBARAK O M,AMBIKAIRAJAH E,EPPS J.Novel Features for Effective Speech and Music Discrimination[C]//Proc of the IEEE Int'l Conf on Engineering of Intelligent Systems.2006:22-23.
[8]盧堅,陳毅松,孫正興,等.基于隱馬爾可夫模型的音頻自動分類[J].軟件學報,2002,13(8):1 593-1 597.
[9]孟永輝,蔣冬梅,付中華,等.一種新穎的語言/音樂分割與分類方法[J].計算機工程與科學,2009,31(4):106-109.
[10]MAR QUES J,MORENO P J.A Study of Musical Instrument Classification Using Gaussian Mixture Models and Support Vector Machines[R].COMPAQ:Cambridge Research Laboratory,1999.
[11]HASTIE T,TIBSHIRANI R.Classification by pairwise coupling[J].Ann Statist,1998,26(2):451-471.
[12]AUCOUTURIER J,PACHET F,SANDLERM.“ The way it sounds” :timbre models for analysis and retrieval of music signals[J].IEEE Transactions onMultimedia,2005,7(6):1-8.
[13]李濤,王俊普,吳秀清,唐金輝.后驗概率估計及其應用:基于核Logistic回歸的方法[J].模式識別與人工智能,2006,19(16):589-695.
[14]FRITTS L.Musical Instrument Samples[DB/OL].[2009-12-26],http://theremin.music.uiowa.edu/.