章宗標
浙江樹人大學現代教育技術中心,杭州 310015
一種基于PCA-BP神經網絡的示例優選方法
章宗標
浙江樹人大學現代教育技術中心,杭州 310015
隨著網絡技術、多媒體技術的迅猛發展,多媒體數據的信息量呈現出規模巨大,增長快速,質量參差不齊的特點,如何快速準確地找到感興趣的內容,為人們在娛樂、教育等方面提供更好的服務是一個研究熱點。在多媒體檢索中,音頻檢索就成為了一個既迫切又具有挑戰性的研究課題[1],得到了廣泛關注。
目前音頻檢索可以分為兩大類:一類是基于認知的,需要理解和抽象音頻的具體內容,對數據源中的語義信息進行識別和標注構建索引,例如利用語音識別實現對目標詞匯、說話人的檢索[2],利用自動音樂標注技術識別樂曲的旋律和節拍等信息[3];另一類是基于感知的,不需要理解和識別音頻的具體內容,通常采用音頻例子的方式提交查詢輸入,即示例檢索(Query by Example,QBE)。其基本原理就是比較音頻例子與目標文件的特征相似程度來判斷檢索結果[4-6],檢索方法主要有基于距離的方法、基于直方圖的方法和兩者相結合的算法等[7]。
通常,示例檢索大多將查詢示例作為一個整體進行直接檢索,隨著示例長度的增加,特征數據量更是呈幾何級增長,致使計算代價大,檢索時間長,噪聲魯棒性差,嚴重影響檢索性能。考慮到音頻文件被“污染”的情況下,抗噪能力強即信號魯棒性高的示例比抗噪能力弱魯棒性低的檢出率高,基于此,如果能從大數據的示例中優選出對噪聲具有較好魯棒性的部分作為查詢,可以充分發揮人在音頻內容理解和系統在數據質量評估兩方面的優勢,確保示例在內容合適的同時具有較高的數據質量,有利于提高檢索的召回率,而且示例優選后的數據量小,能減少用戶從客戶端上傳示例到檢索服務器的網絡傳輸代價[8-10]。
目前,從整體上看,國內外關于示例檢索的研究主要集中在檢索的理論模型和實用算法上,與示例相關的研究很少,但在檢索系統的實際應用中,有非常重要的意義。為此,本文提出一種基于主成分分析(Principal Component Analysis,PCA)和BP神經網絡(Back Propagation Neural Network,BPNN)的示例優選方法(PCA-BPNN)。首先以信號的噪聲魯棒性評分為依據構建數據集合,使用PCA方法得到片段級特征,實現數據降維,減少BPNN輸入變量,加快BPNN預測速度并提高預測精度;利用BPNN對保留成分進行建模預測,實現示例優選。實驗結果表明,經過PCA篩選的輸入變量用于BPNN運行時間大大減少,預測精度明顯提高,通過示例魯棒性預測分值的高低來進行示例優選是完全可行的。
2.1 建模基本思想
音頻示例優選是指從一段目標音頻文件中選取最優片段作為查詢示例,該示例在檢索數據即使存在噪聲的情況下也能獲得較高的檢出率。在進行示例優選時,認為原始信號受到噪聲的干擾越小,即加噪信號和原始信號的變化越小,則信號的噪聲魯棒性越好。基于此,為了更準確地反映信號的魯棒性,構建了基于PCA-BPNN魯棒性預測模型,其基本思想如圖1所示。首先通過實驗測試,根據不同信噪比下加噪信號和原始信號的相似度作為魯棒性打分,將打分較高的數據作為正例集合,打分較低的作為反例集合,采用PCA方法構造片段級特征,然后利用正反例集合來進行BPNN的學習與訓練,建立魯棒性預測模型,最后以預測模型的打分為依據,從中選取最優的一段作為示例優選結果,保證了內容代表性和系統召回率。

圖1 PCA-BPNN模型基本思想
2.2 數據集合的獲取
根據噪聲魯棒性分析,令示例添加不同分貝的高斯白噪聲,然后分別提取原始信號和加噪信號的MFCC特征參數,計算原始信號與加噪信號的對應位置幀相似度。將不同信噪比的加噪信號的幀相似度均值作為該幀與原始信號的相似度,最后以相似度作為魯棒性打分依據來建立數據集合,其中打分較高的數據作為正例集合,打分較低的數據作為反例集合;相似度度量采用歐式距離。
歐式距離的計算公式:

Xi與Yi分別表示兩個做歐式距離比較的向量維數值,計算得到的歐式距離數值越小,說明該幀數據在加噪之后受到的影響越小,噪聲魯棒性越好。
2.3 主成分分析
根據PCA方法的基本原理[11-13],具有大變化方向的數據比有小變化方向的數據攜帶更多信息,因而只要尋找具有最大方差可稱之為主軸的方向來表征原始數據,就可以在最小均方意義下將高維數據投影到低維空間,這樣原來多維的問題就可以得到大大的簡化。

其主要算法步驟如下:
(1)利用協方差矩陣度量X中存在的冗余信息,即特征之間的相關性,X的協方差矩陣Σ為:

(3)對所有的超矢量采用式(2)進行降維處理,得到段級特征。
2.4 PCA-BPNN模型
BP神經網絡即反向傳播神經網絡,是一種適用于非線性模式識別和分類評價問題的人工神經網絡,利用它來解決實際問題不需要構建數學模型,而是利用輸入和輸出數據通過迭代校驗來尋找最優解[14-15]。因此,PCA與BPNN之間存在著互補關系,在示例的魯棒性預測中,能夠充分發揮各自的優勢。
根據上述建模思想的分析,構建PCA-BPNN示例魯棒性預測模型的結構如圖2所示。首先利用PCA構造片段級的特征,把選擇得到的片段特征作為BPNN的輸入變量,然后根據經驗和多次測試來確定BPNN的隱層神經元個數,最后計算出魯棒性預測值作為BPNN的輸出。

圖2 PCA-BPNN示例魯棒性預測模型
其中Xi=(ai1,ai2,…,aiG)表示第i段示例片段特征向量組成的超矢量集,其中ai為幀級特征;Zi=(ai1,ai2,…,aiP)表示經過PCA處理后第i段示例片段的超矢量集;Yi表示第i段示例片段的魯棒性估計值。
3.1 PCA-BPNN預測模型訓練
本文選擇50組中央電視臺的廣告為實驗數據,其中40組作為訓練集,用于調整模型參數,提高預測精度;10組作為測試集,用于評價準確率。模型的訓練和檢測準確率采用交叉檢驗的方法進行驗證。每組實驗數據均包含12段獨立且內容完整的廣告,1段包含此12段廣告數據的大數據音頻,12段廣告數據在此段大數據中各自出現很多次,且彼此之間的次數無關。對包含了12段廣告數據的大數據音頻進行噪聲處理,分別添加0 dB、5 dB、10 dB、15 dB以及20 dB的高斯白噪聲。
在示例特征提取階段,本文提取了37維特征向量,包括13維段層次的基本特征,12維的MFCC特征值和12維的一階差分MFCC特征值。
主要訓練步驟如下:
(1)計算加噪信號和原始信號每幀特征向量距離,將得到的向量距離按由小到大進行排序歸為正例集合,反之歸為反例集合。
(2)將集合進行PCA處理,根據主成分的個數和歸一化后的特征分別確定BPNN輸入神經元的個數和輸入值,將輸入神經元個數設為100。
(3)將輸出神經元個數設為1,隱層神經元的個數則由輸入和輸出神經元的個數通過測試確定。根據迭代次數和訓練時間,當隱層神經元個數為35時,訓練誤差最小,網絡結構也最為合理。
(4)根據樣本和網絡結構特點確定隱層和輸出層的傳遞函數分別為tansig和logsig,網絡訓練函數采用trainlm,網絡學習算法采用Levenberg-Marquardt算法,訓練次數為10 000,訓練目標位0.001,學習速率為0.36。
通過實驗,PCA-BPNN預測模型的實驗訓練數據如表1所示。

表1 PCA-BPNN預測模型的實驗訓練數據
3.2 PCA-BPNN預測模型測試
本文在不考慮噪聲影響以及信噪比為20 dB、15 dB、10 dB、5 dB、0 dB的情況下,對基于PCA-BPNN音頻示例檢索的性能進行測試,不同的信噪比通過加白噪聲的方式獲得。以PCA-BPNN預測模型的打分為依據,從每個廣告中選取8個抗噪能力評分不同的示例,分別在原始數據和添加了不同信噪比噪聲的音頻數據中進行檢索。統計各個示例的檢出次數,如表2、表3和表4所示;計算各個示例檢出率,即各個示例在不同信噪比文件中檢出率的算術平均,如圖3、圖4和圖5所示。通過對比檢出率來判斷示例優選方法是否有效。

表2 廣告1的示例檢出情況

表3 廣告2的示例檢出情況

表4 廣告3的示例檢出情況

圖3 廣告1的示例檢出率
表2、表3、表4和圖3、圖4、圖5是3個廣告片段的不同抗噪能力評分的示例檢出情況及檢出率,在其他廣告中的實驗也獲得類似的結果。從中可以看出,示例抗噪能力評分不同,對應的示例檢出率也不同,并且評分高的示例比評分低的示例有更高的檢出率,特別是優選示例的檢出率明顯高于隨機選取的示例。因此,以PCA-BPNN預測模型的魯棒性打分為依據,從中選取最優的一段作為示例優化結果,這種方法是可行的。

圖4 廣告2的示例檢出率

圖5 廣告3的示例檢出率

表5 不同組合的BPNN識別效果
3.3 結果分析
為了驗證本文提出模型的優劣性,進行了以下實驗:
(1)對比各模型的BP神經網絡參數,對比數據如表5所示。
結果表明,基于所有特征參數的BPNN模型輸入變量有480個,而基于PCA-BPNN模型減少到100個,大大降低了BPNN模型輸入變量數,在預測過程中,BPNN模型用時2分30秒,而PCA-BPNN模型則只用時1分,預測速度顯著提高。從預測的效果來看,基于所有因子的BPNN模型的預測精度比PCA-BPNN模型要差。
因此,PCA-BPNN模型無論是在BP網絡的構造、識別率、訓練時間強度以及誤差控制等方面均優于BPNN模型,能更好地保證曲線的高度聚斂。
(2)分別在不考慮噪聲影響以及信噪比為20 dB、15 dB、10 dB、5 dB、0 dB的情況下,對檢索性能的算法進行測試,不同的信噪比通過添加白噪聲的方式獲得。不同模型在不同信噪比情況下的平均檢出率,如表6所示。

表6 不同模型在不同信噪比情況下的平均檢出率(%)
結果表明,在無噪聲環境下,BPNN模型和PCA-BPNN模型的檢出率基本相等,而隨著噪聲的增加,BPNN模型檢出率下降較快,PCA-BPNN模型下降較為平緩,因此,PCA-BPNN模型具有較強的抗噪性能,魯棒性更好。
(3)對比PCA-BPNN模型的段級特征和幀級特征的平均檢出率,其中段長分別為L={1,2,…,8},段移分別為G={1,2,…,8},實驗結果如表7所示。
由表7可見,當段長固定時,隨著段移的增加,檢出率逐漸降低;當段移固定時,隨著段長的增加,檢出率也逐漸降低;當段長、段移均為1時,等效為直接用PCA方法對幀級特征進行變換,該特征具有較高的檢出率。結合表7的結果,兼顧檢出率和檢出速度,選取段長為6,段移為4時,段級特征的模型具有較高性能。

表7 段長和段移的實驗結果(%)
以中央電視臺的廣告為實驗數據,進行驗證性的測試和分析。實驗結果表明:PCA-BPNN模型在音頻示例檢索中是高效而準確的。將PCA數據分析方法與非線性BPNN模型進行有機結合,充分利用PCA與BPNN模型的優勢,并應用到音頻示例檢索中,屬于全新的研究內容;而從PCA-BPNN模型理論自身所具備的特性,這一應用是完全可行的,在實證研究中所取得的結果也充分說明了這一結論。雖取得了較精確的結果,但其是否具有偶然性還有待于進一步研究與探討。
[1]Foote J.An overview of audio information retrieval[J].Multimedia Systems,1999,7(1):2-10.
[2]Chen B,Chen Y T.Extractive spoken document summarization for information retrieval[J].Pattern Recognition Letters,2008,29(3):426-437.
[3]Fujihara H,Goto M,Kitahara T,et al.A modeling of singing voice robust to accompaniment sounds and its application to singer identification and vocal-timbre-similarity-based music information retrieval[J].IEEE Transactions on Audio,Speech and Language Processing,2010,18(3):638-648.
[4]張衛強,劉加.網絡音頻數據庫檢索技術[J].通信學報,2007,28(12):152-155.
[5]Smith G,Murase H,Kashino K.Quick audio retrieval using active search[C]//Proceedings of IEEE International Conference on Acoustics,Speech and Signal Processing.New York,USA:IEEE Press,1998:3777-3780.
[6]Kashino K,Kurozumi T,Murase H.A quick search method for audio and video signals based on histogram pruning[J].IEEE Transactions on Multimedia,2003,5(3):348-357.
[7]楊繼臣,王偉凝.一種基于隨機段的固定音頻檢索方法[J].計算機應用,2010,1(1):230-232.
[8]Kim K M,Kim S Y,Jeon J K,et al.Quick audio retrieval using multiple feature vectors[J].IEEE Trans on Consumer Electronics,2006,52(1):200-205.
[9]江星華,李應.基于LPCMCC的音頻數據檢索方法[J].計算機工程,2009(11):246-247.
[10]Hanna P,Robine M.Query by tapping system based on alignment algorithm[C]//Proceeding of the IEEE International Conference on Acoustics,Speech,and Signal Processing,2009.
[11]許新征,丁世飛,史忠植,等.煤與瓦斯突出的PCA-BP神經網絡預測模型研究[J].計算機工程與應用,2011,47(28):219-222.
[12]蔡則蘇,祝丁丁,何健.基于PCA特征提取和距離哈希K近鄰分類的人臉表情識別[J].智能計算機與應用,2012,1(2):1-4.
[13]蔡紅,陳榮耀.基于PCA-BP神經網絡的股票價格預測研究[J].計算機仿真,2011,28(3):365-368.
[14]Shi Zelin,Kang Jiao,Sun Rui.BPNN-based method for lens distortioncorrectionoflarge-fieldimaging[J].Opticsand Precision Engineering,2005,13(3):348-353.
[15]廖凱華,徐紹輝,吳吉春,等.一種基于PCA和ANN的土壤水力性質估計方法[J].水利學報,2012,43(3):333-338.
ZHANG Zongbiao
Modern Education Technology Center,Zhejiang Shuren University,Hangzhou 310015,China
This paper proposes the example preferred method based on Principal Component Analysis(PCA)and BP Neural Network(BPNN)to solve computational cost,long retrieval time and poor noise robustness by the amount of example data in audio sample retrieval study.The paper builds the segment level features by principal component analysis,eliminates redundant data,and reduces the input variables,then models and predicts reserved ingredients by the BPNN.It tests the experimental data by the PCA-BPNN model confirmatory.Finally,experimental results show that the method can select optimization example from an audio accurately and efficiently.
Principal Component Analysis(PCA);Back Propagation Neural Network(BPNN);optimum selection of audio sample;multimedia;audio retrieval
在音頻示例檢索的研究中,針對示例數據量大而導致計算代價大、檢索時間長和噪聲魯棒性差等問題,提出了一種基于主成分分析(PCA)和BP神經網絡(BPNN)的示例優選方法。以信號魯棒性評分為依據構建數據集合,使用主成分分析得到段級特征,消除數據冗余,減少輸入變量,最后利用BPNN對保留成分進行建模預測。用PCA-BPNN模型對實驗數據進行了驗證性測試和分析,結果表明,該方法可以準確而高效地從一段音頻中選取魯棒性好的示例。
主成分分析;BP神經網絡;示例優選;多媒體;音頻檢索
A
TN912.3;TP391
10.3778/j.issn.1002-8331.1212-0179
ZHANG Zongbiao.Optimum selection method of audio sample based on PCA and BP Neural Network.Computer Engineering and Applications,2013,49(19):108-111.
浙江省教育廳項目(No.Y201122220)。
章宗標(1983—),男,實驗師,研究方向:多媒體技術,計算機應用。E-mail:answern@163.com
2012-12-14
2013-04-26
1002-8331(2013)19-0108-04
CNKI出版日期:2013-05-21http://www.cnki.net/kcms/detail/11.2127.TP.20130521.1030.014.html