999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于自適應結構圖的半監督語音情感特征選擇

2021-08-09 01:30:56羅輝韓紀慶
智能計算機與應用 2021年3期

羅輝 韓紀慶

摘 要: 本文研究了語音情感識別中的半監督特征選擇問題,即如何利用未標記語音情感數據來幫助選擇具有情感判別性的特征。為了解決這個問題,提出了一種新的基于圖的半監督特征選擇方法。其可以根據標簽適應度和流形平滑度,在圖上估計一個預測標簽矩陣,從而有效地利用標記數據中的標簽信息,以及標記數據和未標記數據中的流形結構信息。與現有的基于圖的方法相比,該方法能同時進行特征選擇和局部結構學習,從而自適應地確定圖相似度矩陣。同時,還對圖相似度矩陣進行了約束,使其包含更準確的數據結構信息,從而可以選擇更有判別性的特征。此外,提出了一種有效的迭代算法來優化該問題。在典型語音情感數據集上的實驗結果表明,本文提出的方法是有效的。

關鍵詞: 語音情感識別; 半監督特征選擇; 自適應結構圖

文章編號: 2095-2163(2021)03-0001-08 中圖分類號:TP391.41 文獻標志碼:A

【Abstract】This paper considers the problem of semi-supervised feature selection in speech emotion recognition, that is, how to use unlabeled speech emotion data to help select the features with emotion discriminability. To address this problem, the paper proposes a novel graph-based semi-supervised feature selection method. The proposed method can estimate a prediction label matrix on the graph with respect to the label fitness and the manifold smoothness, thus it can effectively utilize label information from labeled data as well as a manifold structure information from both labeled and unlabeled data. In comparison with the existing graph-based algorithms, the proposed approach can perform feature selection and local structure learning simultaneously, so the graph similarity matrix can be determined adaptively. At the same time, the paper constrains the similarity matrix to make it contain more accurate data structure information, therefore the proposed approach can select features that are more discriminative. Moreover, an efficient iterative algorithm is proposed to optimize the problem. Experimental results on typical speech emotion datasets show that the proposed method is effective.

【Key words】 speech emotion recognition; semi-supervised feature selection; adaptive structured graph

0 引 言

隨著電子技術和計算機技術的發展,人們需要具有情感識別能力的新型語音對話系統。然而,要實現這一目標,還需要克服許多困難。首先,在特征提取方面,尚不清楚哪些語音特征能有效區分語音情感[1]。其次,不同的句子、說話者、說話風格和語速等因素都會引起不同的聲學變化,給語音情感識別增加了新的挑戰[1-2]。

特征選擇不僅可以突出情感所帶來的可變性,還能減少情感之外其它因素的干擾,并能保留原始特征的可解釋性[1]。根據標簽信息的可用性,特征選擇方法可分為有監督方法、無監督方法和半監督方法。其中,由于半監督特征選擇能夠通過同時使用標記和未標記數據來最大化數據的有效性,因此,可將其作為有監督方法和非監督方法之間一個很好的折衷方案[3-5]。

在目前的研究工作中,有許多不同的半監督特征選擇方法,總地來說大致可分為3種類型,即:濾波式方法、封裝式方法和嵌入式方法[6]。其中,由于嵌入式方法在許多方面都具有優勢,因此受到了越來越多的關注[5,7-8]。在各種嵌入式特征選擇方法中,基于圖的半監督特征選擇方法因其非參數性、判別性和直推性而受到了廣大研究者的青睞[9]。由于局部流形結構在計算效率和表征能力上優于全局結構,因此大多數嵌入式方法都試圖發掘數據內部的局部結構,并用其進行特征選擇[10]。經典的基于圖的半監督特征選擇方法主要包含2個獨立的步驟。首先,通過挖掘局部內部結構信息,來構造相似圖矩陣。然后,利用稀疏約束來選擇有價值的特征[11-12]。盡管如此,這些方法依然存在一些缺點。一方面,傳統的基于圖的特征選擇方法將構造相似圖矩陣和選擇特征分成2個獨立的步驟,其在原始數據中構造的相似圖矩陣并不會隨著后續的處理而改變。然而,實際數據中往往包含大量的噪聲樣本和特征,使得所構造的相似圖矩陣不可靠[13],從而破壞數據的局部流形結構,最終導致特征選擇的性能下降。另一方面,傳統方法得到的相似圖矩陣通常不能反映理想的鄰域結構。根據局部連通性可知,最優相似圖矩陣中的連通分量應與類別數保持一致,使得每個連通分量對應一個情感類別[14-15]。然而,簡單地使用k最近鄰準則進行鄰域分配,很難得到理想的相似圖。

為了解決上述問題,本文提出一種新的基于自適應結構圖的半監督語音情感特征選擇(Adaptive Structured Graph based Feature Selection,ASGFS)方法。該方法可以同時進行特征選擇和局部結構學習,從而選擇出更有判別性的語音情感特征。此外,使用基于圖拉普拉斯的半監督學習,來更好地利用標記數據和無標記數據的特征選擇和標簽同時進行預測,在滿足標簽數據的標簽適應度和整個數據結構的流形平滑度的前提下,同時進行特征選擇和標簽預測。在3個典型的語音情感數據上的實驗表明,本文所提出的方法能夠改善語音情感識別的性能。

之前的研究工作分別通過約束標簽的適應度和流形的平滑度,介紹了利用局部和全局一致性(Local and global consistency, LGC)[16],以及高斯場和諧波函數(Gaussian fields and harmonic functions, GFHF)[17],在圖上估計預測標簽矩陣的方法。此外,許多方法利用流形正則來進行半監督擴展[18-19],例如嶺回歸(ridge regression)、支持向量機(Support Vector Machine, SVM)和線性判別分析(Linear Discriminant Analysis,LDA)。靈活流形嵌入(Flexible Manifold Embedding,FME)是一個半監督流形學習的統一框架[20],可表示為以下優化問題:

考慮到圖拉普拉斯是半監督學習的基礎,并且由于語音情感數據通常包含多種結構,可由流形正則進行刻畫,因此就可將流形正則用于語音情感分析[21-22]。基于此,本文將提出一種基于圖的半監督語音情感特征選擇方法,其可在特征選擇中自適應地學習局部流形結構。

2 基于自適應結構圖的半監督特征選擇

本節將詳細介紹文中所提出的ASGFS模型,并針對其給出一種有效的優化求解算法。

3 實驗與分析

3.1 數據集

本節將在3個典型的語音情感數據集上驗證ASGFS方法的性能,包括Berlin[25]、eNTERFACE[26]和CASIA[27]。這些數據集記錄了各種離散的情緒狀態,例如憤怒、快樂、悲傷等。在語音情感特征提取方面,采用2010 副語言挑戰賽的配置,并利用開源工具openSMILE 進行特征提取[28]。首先,為每個情感音頻文件提取34個低階特征(Low-level Descriptors,LLDs),例如音高、梅爾倒譜系數和響度等,并計算其一階差分,得到68個低階特征表示。然后,將19個統計函數部分或全部作用于每一個低階特征上,得到超音段特征。此外,還為每個情感音頻文件提取音高的起始時間以及會話的持續時間。最終,得到1 582 維的語音情感特征表示。在提取特征之后,采用說話人依賴的歸一化策略,對數據進行獨立的預處理,并將每個特征值標準化,使其均值為0,標準差為1。

3.2 實驗設置

在數據庫的劃分方面,首先采用說話人依賴的策略,將各數據集中每個類的樣本隨機分為2部分。其中,一半作為訓練數據,另一半作為測試數據。然后,分別將訓練集中每個類5%、10% 和15%的樣本作為半監督學習中的標注數據,其余的作為未標注數據。

為了驗證特征選擇方法的有效性,利用基于徑向基(Radial Basis Function,RBF)核函數的支持向量機(Support Vector Machine,SVM)和隨機森林(Random-Forest,RF)作為分類器來評價所選特征的分類性能,并采用是非加權平均召回率(Unweighted Average Recall,UAR) 作為性能評價指標。其計算公式如下:

本節使用全部原始特征的分類結果作為基線(記作All-fea)。除此之外,用于對比的特征選擇方法主要包括:基于L2,1范數最小化的有監督特征選擇(Feature Selection via L2,1-Norms Minimization,FSNM)方法[23]、局部敏感特征選擇(Locality Sensitive Feature Selection,LSFS)方法[29]、以及結構化稀疏特征選擇(Structural Feature Selection with Sparsity,SFSS)方法[11]。

在參數設置方面,對于所有采用正則技術的方法,各正則化參數的取值范圍為{0.001,0.01,0.1,1,10,100,1 000}。對于所有需要構建鄰接Laplacian圖矩陣的方法,最近鄰個數k固定取值為5。由于如何確定所選特征的最優數量仍然是特征選擇研究中一個亟待解決的問題,因此本文采用在對數域的10,1 582區間內取20個數值作為所選特征的維數,并評估每個特征維數的性能。[JP2]此外,為了更好地反映各方法的性能,每個數據集均進行10 次獨立的采樣,以得到不同的訓練集和測試集,并在其上驗證各方法的性能,將10 次結果的均值作為最終的性能。[JP]

3.3 性能對比

圖1~圖3分別展示了不同特征維數時,SVM 和RF在5% 、10% 和15%標注數據上的分類結果。

從圖1~圖3中的結果可看出,當選擇的特征數量較少時,所有特征選擇方法的識別性能低于All-fea的性能。主要原因在于,這些特征丟失了大量對情感識別有用的信息。隨著特征維數的增加,所有特征選擇方法的性能整體呈現上升趨勢。并且,在特征維數的較大變化范圍內,都能取得明顯優于All-fea的性能。這說明原始特征中包含不相關和冗余特征,導致對語音識別系統的性能產生負面影響。此外,在所有的特征選擇方法中,ASGFS方法的整體性能最優。在特征維數相同時,其識別性能優于其它對比方法。而且,其能以最少的特征維數來獲得與其它方法相近的性能。因此,本文所提出的方法可以選擇更具判別性的語音情感特征。

根據圖1~圖3的結果,總結了各方法的最高精度參見表1、表2。

表1、表2中,粗體數字表示在所有方法中表現最優。從結果可以看出:

(1) 在2個分類器中,隨著標記數據的增加,所有對比方法在各數據集上的識別性能都會提高。

(2) 所有特征選擇方法在SVM和RF上的識別性能都優于基線系統,說明特征選擇可以提高語音情感分類的性能。

(3) 對于Berlin數據集和eNTERFACE數據集,有監督特征選擇方法FSNM優于半監督特征選擇方法LSFS和SFSS,這說明在原始特征空間中所構造的相似圖可能會對特征選擇的性能產生負面影響。

(4) 對于CASIA數據集,在大多數情況下,LSFS和SFSS方法的性能都優于FSNM方法,這意味著在原始特征空間中所構造的相似圖可以在一定程度上刻畫該數據的內在結構信息。

(5) 在3種不同的標注數據量中, ASGFS方法在2種分類器上的性能都是最優的。相比于基線系統,該方法有著大約10%的性能提升;相比于 FSNM方法,有著2%的性能提升;相比于LSFS方法,有著4%的性能提升;相比于SFSS,有著3%的性能提升。主要因為,ASGFS方法能同時進行特征選擇和局部結構學習,從而選擇更具判別性的語音情感特征。

3.4 圖相似度矩陣分析

本節將對ASGFS方法所得到的自適應結構圖進行分析,并與傳統的根據高斯函數構建的圖[11]進行對比。圖4~圖6分別展示了Berlin、CASIA和eNTERFACE數據集的2種不同的圖相似度矩陣。從結果可以看到,與傳統的方法相比,ASGFS方法所得到的自適應結構圖能夠更清晰、更準確地刻畫出數據內部的結構信息,從而可以利用其來幫助選擇更具判別性的語音情感特征。這也進一步解釋了ASGFS方法的性能優于其它對比方法的原因。

3.5 參數敏感性分析

本節將分析ASGFS方法對各參數的敏感性。該方法共包含2個正則參數:γ和μ,分別控制著組稀疏約束和分類損失函數對模型的影響程度。圖7展示了ASGFS方法在各參數取不同值時,使用5%標記數據進行訓練的語音情感識別模型的性能。從圖7中的結果可以看出,不同的參數取值有著不同的識別性能。在Berlin數據集上,ASGFS方法對于參數γ和μ的不同取值有著較強的魯棒性。在CASIA數據集上,當參數γ的取值大于μ時,ASGFS方法的識別性能更優。與之相反,在eNTERFACE數據集上,當參數γ的取值小于μ時,ASGFS方法能取得更好的性能。

3.6 收斂性分析

本節通過實驗的方式來研究優化算法1的收斂性。在求解ASGFS的過程中,通過記錄每次迭代后的目標函數值,得到算法的收斂曲線,如圖8所示。由于算法1在不同數量的標注數據上的收斂性是一致的,為簡潔起見,圖8中只展示了5%標記數據的結果。從圖8中可以看到,算法1是收斂的,且收斂速度非常快。一般來說,算法在10 次迭代之內就能收斂到一個穩定點。

4 結束語

本文提出了一種新的半監督語音情感特征選擇方法。該方法將組稀疏約束、流形正則和直推式分類整合到一個聯合特征選擇模型中,并且能夠同時進行特征選擇和局部結構學習,從而得到自適應結構的圖。在3個離散語音情感數據集上的實驗表明,本文所提出的方法能夠選擇更具判別性的語音情感特征,從而改善語音情感識別系統的性能。

參考文獻

[1] ?AYADI M E, KAMEL M S, KARRAY F. Survey on speech emotion recognition: Features, classification schemes, and databases[J]. Pattern Recognition, 2011, 44(3): 572-587.

[2] PARK J S, KIM J H, OH Y H. Feature vector classification based speech emotion recognition for service robots[J]. IEEE Transactions on Consumer Electronics, 2009, 55(3): 1590-1596.

[3] HAN Y, PARK K, LEE Y K. Confident wrapper-type semi-supervised feature selection using an ensemble classifier[C] // Proceedings of Artificial Intelligence, Management Science and Electronic Commerce. Deng Feng, China: IEEE, 2011: 4581-4586.

[4] LV S, JIANG H, ZHAO L. Manifold based fisher method for semi-supervised feature selection[C] // Proceedings of International Conference on Fuzzy Systems and Knowledge Discovery. Shenyang, China:IEEE, 2013: 664-668.

[5] WANG Jinyan, YAO Jin, SUN Yijun. Semi-supervised local-learning-based feature selection[C] // Proceedings of International Joint Conference on Neural Networks. Beijing, China: IEEE, 2014: 1942-1948.

[6] GUYON I, ELISSEEFF A. An introduction to variable and feature selection[J]. Journal of Machine Learning Research, 2003, 3(6): 1157-1182.

[7] XU Z, KING I, LYU M R, et al. Discriminative semi-supervised feature selection via manifold regularization[J]. IEEE Transactions on Neural Networks, 2010, 21(7): 1033-1047.

[8] ZENG Z, WANG X, ZHANG J, et al. Semi-supervised feature selection based on local discriminative information[J]. Neurocomputing, 2016,172(JANA15PTA1): 102-109.

[9] ZHU X. Semi-supervised learning literature survey[J]. Computer Science, 2008, 37(1): 63-77.

[10]SILVA V D, TENENBAUM J B. Global versus local methods in nonlinear dimensionality reduction[C] // Proceedings of Advances in Neural Information Processing Systems 15. Vancouver, British Columbia, Canada: Nips, 2002: 1959-1966.

[11]MA Z, NIE F, YANG Y, et al. Discriminating joint feature analysis for multimedia data understanding[J]. IEEE Transactions on Multimedia, 2012, 14(6): 1662-1672.

[12]SHI C, RUAN Q, AN G. Sparse feature selection based on graph Laplacian for web image annotation[J]. Image and Vision Computing, 2014, 32(3): 189-201.

[13]WANG D, NIE F, HUANG H. Feature selection via global redundancy minimization[J]. IEEE Transactions on Knowledge and Data Engineering, 2015, 27(10): 2743-2755.

[14]NIE F, WANG X, HUANG H. Clustering and projected clustering with adaptive neighbors[C] // Proceedings of ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York:ACM, 2014: 977-986.

[15]NIE F, ZHU W, LI X. Unsupervised feature selection with structured graph optimization[C]// Proceedings of Thirtieth AAAI Conference on Artificial Intelligence. Phoenix, Arizona, USA:AAAI, 2016: 1302-1308.

[16]ZHOU D Y, BOUSQUET O, LAL T N, et al. Learning with local and global consistency[M]// THRUN S, SAUL L, SCH-LOPF Proceedings of Advances in Neural Information Processing Systems16. Cambridge:MIT Press, 2004: 321-328.

[17]ZHU X, GHAHRAMANI Z B, LAFFERTY J D. Semi-supervised learning using gaussian fields and harmonic functions[C] // Proceedings of the Twentieth International Conference on Machine Learning.Washington DC:AAAI, 2003: 912-919.

[18]SINDHWANI V, NIYOGI P, BELKIN M, et al. Linear manifold regularization for large scale semi-supervised learning[C] // Proceedings of ICML Workshop on Learning with Partially Classified Training Data. Bonn, Germany:ICML, 2005:80-83.

[19]CAI D, HE X, HAN J. Semi-supervised discriminant analysis[C] // Proceedings of IEEE International Conference on Computer Vision. Rio de Janeiro,Brazil:IEEE, 2007: 1-7.

[20]NIE F, XU D, TSANG I W H, et al. Flexible manifold embedding: A framework for semi-supervised and unsupervised dimension reduction[J]. IEEE Transactions on Image Processing, 2010, 19(7): 1921-1932.

[21]YOU M, CHEN C, BU J, et al. Emotional speech analysis on nonlinear manifold[C] // Proceedings of International Conference on Pattern Recognition. Las Vegas,Nevada,USA:dblp, 2006: 91-94.

[22]KIM J, LEE S, NARAYANAN S S. An exploratory study of manifolds of emotional speech[C] // Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing. Dallas, Texas, USA:IEEE, 2010: 5142-5145.

[23]NIE F, HUANG H, CAI X, et al. Efficient and robust feature selection via joint L_2,1-norms minimization[C] // Proceedings of Advances in Neural Information Processing Systems 23. Vancouver, British Columbia,Canada:NIPS, 2010: 1813-1821.

[24]BOYD S, VANDENBERGHE L. Convex optimization[M]. New York, USA:Cambridge University Press, 2004.

[25]BURKHARDT F, PAESCHKE A, ROLFES M, et al. A database of German emotional speech[C] // Proceedings of Interspeech. ?Lisbon, Portugal: ISCA, 2005: 1517-1520.

[26]MARTIN O, KOTSIA I, MACQ B, et al. The enterface'05 audio-visual emotion database[C] // Proceedings of the 22nd International Conference on Data Engineering Workshops. ?ATLANTA, GA, USA:IEEE, 2006: 8.

[27]Chinese LDC. CASIA-Chinese emotional speech corpus[EB/OL]. [2015-02-24]. http://www.Chineseldc.Org/en/doc/cldc-spc-2005-010/intro.htm.

[28]SCHULLER B, STEIDL S, BATLINER A, et al. The Interspeech 2010 paralinguistic challenge[C] // Proceedings of Interspeech. Makuhari, Chiba, Japan:ISCA, 2010: 2794-2797.

[29]ZHAO Jidong, LU Ke, HE Xiaofei. Locality sensitive semi-supervised feature selection[J]. Neurocomputing, 2008, 71(10): 1842-1849.

主站蜘蛛池模板: 亚洲最新地址| 免费毛片全部不收费的| 久草视频中文| 国产精品永久久久久| 国产人碰人摸人爱免费视频| 亚洲人成人伊人成综合网无码| 青青草久久伊人| 极品私人尤物在线精品首页| 天堂va亚洲va欧美va国产| 欧美精品啪啪| 亚洲精品少妇熟女| 中文精品久久久久国产网址| 国产麻豆aⅴ精品无码| 一边摸一边做爽的视频17国产| AV不卡无码免费一区二区三区| 日a本亚洲中文在线观看| 国产91无码福利在线| 18禁高潮出水呻吟娇喘蜜芽| 欧美国产日韩另类| 国产一区二区影院| 精品国产网站| 91久久大香线蕉| 久久人人97超碰人人澡爱香蕉| 麻豆国产在线观看一区二区| 午夜精品区| 91久久偷偷做嫩草影院免费看| 国产成人综合久久精品尤物| 精品欧美一区二区三区在线| 精品一区二区三区视频免费观看| 99久久精品国产麻豆婷婷| 91区国产福利在线观看午夜| 日韩在线观看网站| 9999在线视频| 国产精品999在线| 免费全部高H视频无码无遮掩| 免费三A级毛片视频| 久久久成年黄色视频| 国产精品亚洲欧美日韩久久| 欧美啪啪精品| 乱人伦视频中文字幕在线| 成人在线综合| 伊人久久大香线蕉综合影视| 国产原创演绎剧情有字幕的| 真实国产乱子伦视频| 欧美一级专区免费大片| 国产一区二区福利| 91麻豆精品视频| 美女视频黄频a免费高清不卡| 国产乱人乱偷精品视频a人人澡| 国产性爱网站| 国产在线拍偷自揄拍精品| 五月综合色婷婷| a欧美在线| 40岁成熟女人牲交片免费| 欧美专区日韩专区| 久久夜色撩人精品国产| 三上悠亚一区二区| 久久精品亚洲热综合一区二区| а∨天堂一区中文字幕| 午夜视频日本| 免费一极毛片| 波多野结衣一级毛片| 中文字幕在线视频免费| 色成人亚洲| 亚洲一区二区精品无码久久久| 亚洲无线视频| 茄子视频毛片免费观看| 亚洲天堂网在线播放| 国产精品夜夜嗨视频免费视频| 欧洲日本亚洲中文字幕| 91无码视频在线观看| 亚洲第一综合天堂另类专| 欧美曰批视频免费播放免费| 国产情侣一区二区三区| 久久国语对白| 国产亚洲视频播放9000| 日本精品αv中文字幕| 伊人久综合| 久久精品无码一区二区国产区| 伊人天堂网| 日韩AV手机在线观看蜜芽| 日本免费精品|