999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于自主學習的ART算法研究

2014-01-25 09:07:40鄭學偉
電大理工 2014年3期
關鍵詞:分類策略信息

鄭學偉

1遼寧廣播電視大學,(沈陽 110034)2遼寧裝備制造職業技術學院,(沈陽 110161)

傳統的自主學習需要一組足夠多的已標記樣例作為訓練集,否則無法獲得足夠泛化性能的自主學習方法,而在實際應用中,得到大量標記樣例是非常困難的,甚至無法實現;試圖通過發現未標記樣例中的隱含結構,從而構造出相應的學習器,這導致自主學習通常很難保證較高的學習精度。因此,將少量帶標記樣例和大量無標記樣例結合的半自主學習成為機器學習研究熱點。

Tri-training算法是Zhou等提出的一種新的Co-training模式半監督分類算法,本文提出一種能夠降低誤標記樣例數的ART算法。該算法結合SVM自主學習輔助策略和富信息策略到Tri-training學習過程,在每次迭代生成新訓練集時,首先用SVM自主學習輔助策略降低新標記樣例中可能的誤標記樣例數以減少新訓練集的噪聲,其次采用富信息策略訓練學習器,獲得另一個學習模型;重復這個過程,直到滿足停止準則,學習過程結束。實驗表明,ART算法優于Tri-training算法。

1 ART算法

1.1 Tri-training訓練過程

假設初始少量帶標記的樣例集為L,由L訓練得到3個不同的初始學習器H1,H2和H3,x是無標記樣例集U內任意一點,Tri-training迭代訓練基本過程為:如果H2和H3對x的分類結果H2(x)和H3(x)一致,那么可將x標記為H2(x)并加入H1的訓練集,如此 形成H1的新訓練集S1=L∪{x|x∈U且H2(x)=H3(x)}。類似地,H2和H3的訓練集也分別擴充為S2和S3,然后3個學習器重新訓練,如此重復迭代,直至H1,H2,H3都沒有變化,訓練過程結束。

顯然,Tri-training迭代訓練過程中H2和H3共同標記x為H2(x),并給H1作訓練數據時,如果準確性足夠高,會優化H1的訓練結果,否則會在H1的訓練集中加入噪聲,影響訓練效果。為此,Zhou等分析得出一個能使假設分類錯誤率迭代降低的充分條件,并以該充分條件作為判斷準則來決定新標記的樣例集是否應該被加入新訓練集。由于Tri-training算法所采用的判斷準則不僅沒有移除噪聲,而且限制了無標記樣例被加入新訓練集的數量,因此導致Tri-training算法不能充分地利用無標記樣例,進而提出本文算法。

1.2 ART算法學習策略

對機器學習來說,采樣策略是必須的。富信息策略是一種特殊的采樣策略,即,一個弱學習器不能很好學習的樣例,將盡可能成為下一個弱學習器著重學習的樣例。本文中,“富信息”樣本的選取方法:如果某個樣例被當前弱學習器準確分類,則在構造下一個分量學習器的訓練集時,它被選中的概率為0;相反,如果某個樣例沒有被正確分類,則它入選下一個分量學習器訓練集的概率為1。通過這種方式,學習器能夠聚焦于那些比較容易出現錯分的樣本,從而使學習器獲得較好的學習效果,提高分類精度。

1.3 ART算法描述

算法的基本設置是給定一個具有N類數據的已標記樣例集、驗證集、無標記樣例集以及測試集,所采用的三個分量學習器為SVM1(多項式核函數)、KNCN、SVM2(RBF核函數),輔助學習器為SVM3(線性核函數),當在驗證集上的集成測試達到穩定狀態后算法終止。

2 算法應用

2.1 實驗數據

本實驗共150個音頻數據,其中包括:有說話聲樣本、音樂鈴聲、各種動物聲音、環境音以及交通工具聲等。音頻數據的長度為4s,采樣率為8kHz,量化精度為16Bit。實驗中采用的音頻信號幀長為32ms、幀移10ms、預加重系數α取0.97、Mel濾波器的個數為24,并提取每個訓練樣本的14維特征:第3層小波低頻系數的MFCC均值、質心方差、譜熵方差。

2.2 實驗結果及分析

為比較驗證Tri-training算法、僅采用富信息策略R-Tri-training算法以及結合富信息策略與輔助學習策略ART,本文對已標記樣例數為5、10、20,無標記樣例數分別為1、10、20、30、40、50、60的情況進行了以上3種算法的實驗。所進行的實驗都是基于相同的驗證集、測試集,標記樣例數和無標記樣例在測試集上測試率的比較結果如圖1所示。

通過實驗結果可得出,在具有相同已標記樣例,無標記樣例比例的情況下,本文算法優于前兩者算法。

在已標記樣例個數相同的情況下,由于Tri-training算法不能充分地利用無標記樣例,因此Tri-training算法的測試率逐漸降低;然而R-Tri-training算法在Tri-training算法的基礎上添加驗證集,能夠使得算法聚焦于出錯樣本,從而提高測試率,但噪聲數據依然存在;本文算法在增加1個學習器的基礎上結合富信息策略與輔助策略,達到降低誤標記樣例的目的,充分地利用無標記樣例的信息,進一步提高測試率,并且體現半自主學習的本質特點。

同時,為了證明本文算法具有降低噪聲的能力,我們對ART算法、RT算法在訓練過程中所出現的噪聲數進行了統計。在已標記樣例數為10的情況下,無標記樣例數分別為10、20、30、40、50、60的統計結果如表1所示。從表中我們很容易看出,本文算法ART有效的降低了噪聲。隨著樣本數的增加,ART算法優于R-Tri-training算法,如,無標記樣本數為60時,本文算法統計結果是4,而R-Tri-training統計結果是18。由此可見,本文算法結合富信息策略與輔助策略,充分利用了無標記樣例信息,有效的降低了誤標記樣例,起到了降低噪聲的能力。

表1 兩種算法在訓練過程中出現的噪聲數統計結果

3 結語

針對Tri-training算法引起積累噪聲以及無標記樣例利用率低,本文提出了基于輔助學習的ART算法,并將其引入說話聲識別。該算法采用富信息策略,使得錯分樣例成為弱學習器著重學習的樣例,從而提高學習器的分類精度;采用輔助學習策略,能夠有效地降低ART算法訓練過程中積累的噪聲,同時提高了無標記樣例的利用率。實驗驗證了該算法在噪聲性能方面的有效性。

[1]李昆侖,張偉,代運娜.基于Tri-training的半監督SVM[J].計算機工程與應用.2009,45(22):103-106.

[2]張雁,呂丹桔,吳保國.基于Tri-Training半監督分類算法的研究[J].計算機技術與發展,2013,23(7):77-79.

[3]鄧超,郭茂祖.基于自適應數據剪輯策略的Tri-training算法[J].計算機學報,2007,30(8):1213-1226.

[4]徐慶伶,汪西莉.一種基于支持向量機的半監督分類方法[J].計算機技術與發展,2010,20(10):115-117.

猜你喜歡
分類策略信息
分類算一算
例談未知角三角函數值的求解策略
我說你做講策略
分類討論求坐標
數據分析中的分類討論
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
教你一招:數的分類
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
Passage Four
主站蜘蛛池模板: 婷婷六月天激情| 国产99免费视频| 噜噜噜久久| 国产成熟女人性满足视频| WWW丫丫国产成人精品| 国产一区二区三区免费| 中文成人在线视频| 天天婬欲婬香婬色婬视频播放| 99性视频| 国产综合色在线视频播放线视| 国产成人福利在线视老湿机| 99热这里只有精品久久免费| 亚洲综合色区在线播放2019| 青青热久免费精品视频6| 激情在线网| 欧美黄色a| 制服丝袜无码每日更新| 国产综合欧美| 亚洲国产综合第一精品小说| 久久免费成人| 在线国产三级| 一本视频精品中文字幕| h网址在线观看| 精品1区2区3区| 国产成人精品2021欧美日韩| 色吊丝av中文字幕| 国产精品久线在线观看| 亚洲精品自在线拍| 91精品亚洲| 免费又爽又刺激高潮网址| 国产日韩久久久久无码精品| 高清乱码精品福利在线视频| 人妻丰满熟妇AV无码区| 国产理论一区| 亚洲精品无码久久久久苍井空| 国产免费a级片| 久青草国产高清在线视频| h视频在线播放| 国产18在线播放| 国产精品yjizz视频网一二区| 欧美日本激情| 欧美另类视频一区二区三区| 9久久伊人精品综合| 色噜噜狠狠色综合网图区| 热久久综合这里只有精品电影| 午夜毛片免费观看视频 | 在线亚洲小视频| 3p叠罗汉国产精品久久| 亚洲国产无码有码| 国产高清无码第一十页在线观看| 国产区在线观看视频| 性色在线视频精品| 成人免费视频一区| 无码电影在线观看| 欧美在线伊人| 五月婷婷丁香综合| 黄色网址免费在线| 中文字幕自拍偷拍| 国产熟女一级毛片| 国产成人高清精品免费软件| 国产精品第一区| 99精品免费在线| 亚洲色欲色欲www网| 狠狠色狠狠综合久久| 欧美va亚洲va香蕉在线| 天堂成人av| 伊人AV天堂| 无码精品一区二区久久久| 欧美日韩在线亚洲国产人| 国产欧美日韩另类| 国产免费精彩视频| 99re这里只有国产中文精品国产精品 | 国产喷水视频| 伊人91在线| 亚洲热线99精品视频| 国产导航在线| 亚洲精品国产精品乱码不卞| 欧美乱妇高清无乱码免费| 97se亚洲综合在线| 国产在线精品网址你懂的| 伊人久久综在合线亚洲2019| 午夜成人在线视频|