姜高霞 王文劍,2
1(山西大學計算機與信息技術(shù)學院 太原 030006)2 (計算智能與中文信息處理教育部重點實驗室(山西大學) 太原 030006)
數(shù)據(jù)質(zhì)量是決定機器學習模型可靠性的關(guān)鍵因素之一,尤其在高風險智能應(yīng)用(如癌癥檢測、貸款分配等)中數(shù)據(jù)質(zhì)量至關(guān)重要.然而數(shù)據(jù)質(zhì)量在機器學習中起到的作用正在被低估,“每個人都想做模型工作,而不是數(shù)據(jù)工作”[1].監(jiān)督學習是機器學習中比較成熟的學習模式,在人臉表情識別、醫(yī)學診斷等領(lǐng)域不斷取得成功應(yīng)用,但都特別依賴以較高成本獲得的大規(guī)模、高質(zhì)量標注數(shù)據(jù)[2-4].實際中的多數(shù)數(shù)據(jù),包括大量公開的標準數(shù)據(jù)集(如MNIST,CIFAR,ImageNet等),可能存在大量的標簽噪聲,QuickDraw數(shù)據(jù)的標簽錯誤率甚至超過10%[5].諾貝爾獎得主Kahneman認為噪聲是影響人類判斷的黑洞,實際存在的噪聲遠比人們預(yù)期的要多[6].加州大學的知名專業(yè)學者都將噪聲的干擾列為人工智能和機器學習領(lǐng)域的重要挑戰(zhàn)之一[7].
監(jiān)督學習根據(jù)輸出數(shù)據(jù)類型分為分類和回歸任務(wù).標簽噪聲在兩類任務(wù)中分別對應(yīng)了類別型標簽噪聲(如將性別標簽“男”誤標為“女”)和數(shù)值型標簽噪聲(如將年齡標簽“3”誤標為“20”).通常數(shù)值型標簽噪聲問題更為復雜也更難解決,主要原因是數(shù)值型噪聲取值范圍更廣、分布類型更復雜[8-10].實際中人們不知道一個數(shù)據(jù)集中是否有標簽噪聲,即使有噪聲也不知道哪些樣本有噪聲、噪聲有多大、噪聲有多少、噪聲服從什么分布等.因此解決回歸任務(wù)中的數(shù)值型標簽噪聲問題是一項具有挑戰(zhàn)性的任務(wù).
對于標簽噪聲問題主要有2種解決思路:1)從算法層通過重構(gòu)損失函數(shù)、樣本加權(quán)或集成方式建立噪聲魯棒模型[11-13],這些模型并非對噪聲完全魯棒,還會在一定程度上受到噪聲干擾[14],在未知噪聲和強噪聲情況下這些模型表現(xiàn)不夠滿意[15];2)從數(shù)據(jù)層面實施噪聲過濾或糾正,也就是要將錯誤標簽數(shù)據(jù)去除或改正[16].相比于魯棒建模方法,噪聲過濾方法只需要給出樣本過濾結(jié)果,不需要對模型進行任何改動,因此噪聲過濾的普適性更強、門檻更低.這類方法雖能降低數(shù)據(jù)噪聲水平,但無法保證模型泛化能力,而且難以適應(yīng)不同噪聲環(huán)境.
針對回歸任務(wù)中的數(shù)值型標簽噪聲問題,本文從泛化誤差界視角分析了數(shù)據(jù)因素(樣本量和噪聲水平)對模型泛化能力的影響,并據(jù)此構(gòu)建了樣本過濾框架和噪聲過濾算法.本文工作的主要貢獻包括4個方面:
1) 修正了標簽噪聲環(huán)境下回歸模型的泛化誤差界,明確了影響模型泛化能力的關(guān)鍵因素,為提升模型泛化能力的樣本過濾算法提供了理論指導.
2) 以降低泛化誤差界為目標,提出一種關(guān)于相對噪聲水平和相對樣本量的可解釋樣本過濾框架,它可以與一般噪聲估計方法結(jié)合,形成新的過濾算法.
3) 分析了噪聲與覆蓋區(qū)間中心和半徑的單調(diào)關(guān)系,據(jù)此提出一種相對噪聲估計方法,并與前面所提樣本過濾框架結(jié)合設(shè)計了相對噪聲過濾算法.
4) 在標準數(shù)據(jù)集和真實人臉年齡估計數(shù)據(jù)集的實驗結(jié)果表明,所提算法可以有效提升數(shù)據(jù)質(zhì)量和模型的泛化能力.
標簽噪聲過濾通過去除噪聲樣本提升含標記數(shù)據(jù)的質(zhì)量,進而提高監(jiān)督學習模型的預(yù)測性能.
由于k近鄰模型對標簽噪聲較為敏感,k近鄰模型常用于檢測和過濾標簽噪聲.其主要思想是,如果一個樣本的標簽與其多數(shù)近鄰的標簽不一致,則認為出現(xiàn)標簽噪聲.典型算法有編輯近鄰(edited nearest neighbor, ENN)過濾器、全編輯近鄰(all edited nearest neighbor, ANN)過濾器[17]、近鄰感知(perception of nearest neighbor, PNN)過濾器[18].在回歸任務(wù)中,如果模型誤差超過一定閾值,則認為出現(xiàn)數(shù)值型標簽噪聲,這是一種面向回歸的編輯近鄰過濾算法(edited nearest neighbor for regression, RegENN)[9].
集成過濾方法利用多個分類模型產(chǎn)生樣本預(yù)測標簽,如果多數(shù)預(yù)測標簽與其實際標簽不一致,則認為標簽存在錯誤應(yīng)當去除[19-20].這些基模型可以采用不同類模型(如多數(shù)投票過濾),也可能是經(jīng)不同子集訓練過的同類模型(如迭代劃分過濾).
受到特征選擇的啟發(fā),文獻[21]提出一種基于互信息(mutual information, MI)的噪聲過濾算法.如果樣本去除其近鄰后特征與標簽之間的互信息均發(fā)生明顯的變化(超過某個閾值),則認為此樣本存在標簽噪聲.
回歸任務(wù)的標簽可以通過離散化的方式將其轉(zhuǎn)化為分類任務(wù),這樣就可以利用分類標簽噪聲過濾算法來識別回歸中的數(shù)值型標簽噪聲.離散編輯近鄰(edited nearest neighbor based on discretization, DiscENN)對數(shù)值型標簽做離散化處理后采用近鄰過濾來識別噪聲[22].
多數(shù)噪聲過濾算法雖然能夠降低數(shù)據(jù)的噪聲水平,但無法保證提升模型預(yù)測性能.為此文獻[10]從泛化誤差界視角提出一種噪聲過濾的最優(yōu)樣本過濾框架和覆蓋距離過濾(covering distance filtering, CDF)算法.此框架為降低過濾后模型的泛化誤差界提供了理論保障,對指導噪聲過濾具有重要意義.
上述方法中,MI,RegENN,DiscENN,CDF是面向回歸任務(wù)的數(shù)值型標簽噪聲過濾算法.部分算法的過濾效果比較依賴閾值,而閾值通常根據(jù)經(jīng)驗指定,缺乏對噪聲數(shù)據(jù)的自適應(yīng)性.閾值設(shè)置不當容易導致過度清洗,也就是去掉大量無噪樣本.雖然文獻[10]給出了過濾的理論依據(jù),但過濾目標函數(shù)中包含參數(shù)較多且形式復雜,不利于直觀理解和實際應(yīng)用.在這些參數(shù)中,誤差界的置信度對結(jié)果影響不大,但增加了目標函數(shù)復雜度;有些模型的VC維是無窮或不可計算,在實際應(yīng)用中需要根據(jù)經(jīng)驗指定.
本節(jié)通過修正無噪條件下的學習理論得到含標簽噪聲情況下的泛化誤差界,并據(jù)此提出含噪數(shù)據(jù)的過濾框架.
(1)
定義1.真實經(jīng)驗誤差.回歸模型f(x)經(jīng)數(shù)據(jù)D訓練后基于無噪標簽的真實經(jīng)驗誤差:
(2)
定義2.實際經(jīng)驗誤差.模型在第i個樣本的實際誤差ri=f(xi)-yi,基于含噪標簽的實際經(jīng)驗誤差:
(3)
引理1[23-25].對于平方損失下的無噪回歸任務(wù),以下泛化誤差(上)界以1-δ概率成立:
R(f,D)≤Remp(f,D)×ε(D),
(4)



(5)
證明.含標簽噪聲時的真實經(jīng)驗誤差:
2Cov(ei,ri)+2ED(ei)ED(ri)=
(6)
其中模型誤差ri=f(xi)-yi,E(·)為期望函數(shù),Cov(ei,ri)表示噪聲ei與模型誤差ri的協(xié)方差.
ε(D)不受標簽噪聲的影響.由引理1可得模型具有泛化誤差(上)界:
(7)
證畢.

本節(jié)利用定理1的結(jié)果確定影響泛化誤差界的關(guān)鍵因素,并據(jù)此來構(gòu)造合理的噪聲過濾目標函數(shù).
噪聲過濾的目的是通過去除含噪樣本來提升數(shù)據(jù)質(zhì)量和模型泛化能力.將原始數(shù)據(jù)D經(jīng)過過濾后的數(shù)據(jù)記為D*.為使得回歸模型f(x)經(jīng)數(shù)據(jù)D*訓練后的泛化性能最佳,根據(jù)定理1可得誤差界最低的目標:

(8)

其中Var(·)和ρ(·,·)分別表示方差和相關(guān)系數(shù).將協(xié)方差代入目標函數(shù)可得:
(9)

(10)

式(10)利用相對樣本量和相對噪聲水平來獲得較低的泛化誤差界,因此只需給出每個樣本的噪聲相對估計值即可計算出目標函數(shù)值.式(10)可以與任意的噪聲相對估計方法和絕對估計方法相結(jié)合,因此它是一種適用面較廣的噪聲過濾框架.相比于文獻[10]中的過濾框架,式(10)放棄了次要因素(誤差界的置信度和模型VC維),精簡了目標函數(shù),使其可解釋性更強,且其中不需要預(yù)先指定任何參數(shù).
圖1給出了噪聲過濾框架的模擬結(jié)果.圖中橫坐標表示去噪比例γ=1-n*/n,直線表示相對樣本量隨γ的變化趨勢,曲線表示相對噪聲水平隨γ的變化趨勢.其中樣本量設(shè)為1 000,噪聲比例為25%,噪聲服從正態(tài)分布N(0,0.52).由于實際中無法將所有噪聲準確估計和排序,這里設(shè)定75%的噪聲能夠正確排序.按照噪聲先大后小的順序依次去除,重復200次后得到平均相對噪聲水平曲線.

Fig. 1 Simulation of noise filtering framework圖1 噪聲過濾框架模擬
總體上,隨著γ增大,過濾后數(shù)據(jù)集的相對樣本量變少,噪聲水平也變低,但噪聲水平的變化一般遵從先快后慢的規(guī)律.這是因為剛開始去除較大的噪聲,噪聲水平下降較快;后面噪聲較小后難以準確去除明顯很大的噪聲,故噪聲水平下降緩慢;當噪聲水平相差不大或噪聲估計難以區(qū)分低噪聲樣本時,噪聲水平趨于穩(wěn)定.實際上,當噪聲水平下降較慢時應(yīng)當停止樣本去除,這個位置處于兩條線的最大間隔處,也就是使得式(10)達到最優(yōu)的過濾結(jié)果.圖1中約為γ=0.16,即應(yīng)當去除16%的具有較大噪聲的樣本.
本節(jié)提出一種相對噪聲估計方法,結(jié)合所提過濾框架得出新的過濾算法.


真實標簽有一定概率落入模型預(yù)測值之間.令:
(11)
則其覆蓋概率:
(12)
(13)
顯然J越大,覆蓋概率越大.但過大的J值可能使得訓練子集規(guī)模過小,模型預(yù)測誤差過大.實際中取J=5以平衡訓練數(shù)據(jù)規(guī)模和覆蓋概率,此時覆蓋概率pC=0.937 5.


(14)
其中區(qū)間半徑s=(v-u)/2,實際標簽到區(qū)間中心的距離d=|yi-c|.
證明.期望絕對噪聲:
(15)
不妨設(shè)yi>c,則實際標簽到區(qū)間中心的距離d=yi-c>0,
(16)
由奇偶函數(shù)積分的性質(zhì)可知:
(17)
(18)
因此有:
(19)
根據(jù)函數(shù)求導法則可得:
(20)
(21)

(22)
此時覆蓋概率
(23)
其中,Φ(·)表示標準正態(tài)分布的分布函數(shù).

由J為正整數(shù)可知-Φ-1(2-J)>0,因此:
(24)
當yi 證畢. 定義4.相對噪聲的定義為 (25) 其中,c和s分別為式(11)區(qū)間的中心和半徑,即c=(u+v)/2,s=(v-u)/2,實際標簽到區(qū)間中心的距離d=|yi-c|. 式(25)中對s做開方處理是由于其影響比d弱.公式中考慮了噪聲與其關(guān)鍵因素的正反比關(guān)系,并未設(shè)定噪聲與d和s的比例常數(shù),因此是一種相對噪聲估計方法.直觀上,標簽噪聲越大,則yi到區(qū)間中心的距離越遠(d越大);噪聲越大,則分布的方差和區(qū)間半徑越大.總體上相對噪聲與d和s成正比. 通常大噪聲樣本應(yīng)當先被去掉以獲得較低的噪聲水平.利用式(25)來估計所有標簽噪聲,然后逐個去除剩余子集中的最大噪聲樣本,并計算式(10)中的目標函數(shù)值.根據(jù)最大目標函數(shù)值即可找到最佳過濾結(jié)果. 算法1.相對噪聲過濾(RNF)算法. 輸出:過濾后數(shù)據(jù)集D*. ① 將數(shù)據(jù)集D隨機劃分為5個子集,然后用每個子集數(shù)據(jù)對回歸模型f(x)進行訓練,并在全部數(shù)據(jù)上進行預(yù)測; ② 根據(jù)式(11)計算覆蓋區(qū)間[u,v],并用式(25)計算噪聲估計值; ③ 將數(shù)據(jù)按照噪聲從大到小順序排列得到D′; ④ fort=0 ton-1 ⑥ end for 算法1在有限集合中求解固定的優(yōu)化目標函數(shù),因此一定存在最優(yōu)解.實際中采用3近鄰回歸作為基模型.算法1中模型訓練和預(yù)測的時間復雜度為O(nlogn),其余部分均為線性時間復雜度,因此算法總時間復雜度為T(RNF)=O(nlogn).如果基模型采用其他模型,則算法總時間復雜度與基模型復雜度相同. 本節(jié)首先介紹了過濾算法在標準數(shù)據(jù)集的實驗框架、理論結(jié)果驗證、實驗結(jié)果與分析,然后在真實人臉年齡估計數(shù)據(jù)上做了標簽噪聲檢測和泛化性能分析. 實驗中首先將原始標準回歸數(shù)據(jù)集隨機劃分為訓練集和測試集,兩者的樣本比例為7∶3;然后隨機在訓練集的部分輸出標簽上添加人工噪聲,并用各種噪聲過濾算法來識別噪聲和過濾樣本;最后將回歸模型在過濾后的數(shù)據(jù)集上進行訓練,并在測試集上測試其泛化能力.實驗中每輪數(shù)據(jù)劃分、加噪聲、過濾和預(yù)測環(huán)節(jié)均重復5次以獲得穩(wěn)定結(jié)果. 表1列出了實驗中使用的15個標準回歸數(shù)據(jù)集[26-27].數(shù)據(jù)的數(shù)值型特征均被歸一化到區(qū)間[-1,1]. Table 1 Dataset Information表1 數(shù)據(jù)集信息 實驗中包括8種數(shù)值型標簽噪聲,分別服從均勻分布U(-1,1)、均勻分布U(-1.5,1.5)、高斯分布N(μ=0,σ=1)、高斯分布N(μ=0,σ=1.5)、拉普拉斯分布Lp(μ=0,σ=1)、拉普拉斯分布Lp(μ=0,σ=1.5)、高斯混合分布N(μ=1,σ=0.3)+N(μ=-1,σ=0.3)、高斯混合分布N(μ=1,σ=0.1)+N(μ=-1.2,σ=0.5).最后2個混合分布中單個高斯分布噪聲各占50%.噪聲比例NR=0.1,0.2,0.3,0.4. 對比過濾算法包括基于互信息(MI,閾值為0.05,近鄰數(shù)為9)的過濾[21]、回歸近鄰過濾(RegENN,閾值為5,近鄰數(shù)為9)[9]、離散近鄰過濾(DiscENN,近鄰數(shù)為9)[22]、覆蓋距離過濾(CDF,子集數(shù)為5)[10].此外,所提相對噪聲過濾算法(RNF)還與未過濾(NoF)數(shù)據(jù)做了對比分析. 測試模型包括k近鄰回歸模型(kNN)、支持向量回歸模型(SVR)、高斯過程回歸(GPR)和隨機森林(RF).模型在測試集上的泛化能力采用均方誤差(mean square error,MSE)來度量: (26) 圖1噪聲過濾框架模擬結(jié)果顯示,當相對樣本量和相對噪聲水平具有最大間隔時,式(10)取得最優(yōu)解,此時的去噪比例較為合適,能夠使模型獲得較好的泛化能力.為驗證此結(jié)論,在2個數(shù)據(jù)集上人工添加2類噪聲,并在不同去噪比例下測試了模型的預(yù)測誤差.具體設(shè)置為:1)對表1中第7個數(shù)據(jù)訓練集30%的標簽添加服從均勻分布U(-1.5,1.5)的噪聲;2)對表1中第9個數(shù)據(jù)訓練集30%的標簽添加服從高斯分布N(μ=0,σ=1)的噪聲.2種情況下均設(shè)置去噪比例γ=0∶0.02∶0.5對數(shù)據(jù)進行過濾,然后使用SVR,GPR和RF模型進行訓練(kNN的測試誤差較大),并在無噪測試集上測試模型誤差. 圖2顯示了2種設(shè)置下模型測試誤差(MSE)在不同去噪比例下的變化趨勢.各模型最低測試誤差采用實心圓點標出.目標函數(shù)曲線對應(yīng)右側(cè)坐標軸,在目標函數(shù)最大值(即相對樣本量與相對噪聲水平的最大間隔)處用豎虛線標出.圖2(a)中,GPR模型在目標函數(shù)最大值處具有最小測試誤差,其余2個模型在目標函數(shù)最大值處的誤差非常接近最小測試誤差.圖2(b)中,3個模型在目標函數(shù)最大值附近具有最小測試誤差.由此可見,模型最小測試誤差下的去噪比例通常位于目標函數(shù)最大值附近.根據(jù)目標函數(shù)最大值來確定去噪比例,能夠使模型獲得最低或較低的測試誤差,實驗證實了所提框架的有效性. Fig. 2 Model test errors under different denoising ratios圖2 不同去噪比例下的模型測試誤差 定理2表明期望噪聲與d和s均成正比,其中覆蓋區(qū)間半徑s=(v-u)/2,實際標簽到覆蓋區(qū)間中心的距離d=|yi-c|.為驗證此結(jié)論,在表1所有數(shù)據(jù)上添加6種人工噪聲,并構(gòu)造覆蓋區(qū)間.根據(jù)絕對噪聲|ei|和區(qū)間特征s,d可以分別計算出它們的Pearson相關(guān)系數(shù)及其相關(guān)性檢驗的p值.相關(guān)系數(shù)和p值在所有數(shù)據(jù)上的平均值在表2中列出,其中p值越小表明相關(guān)性越顯著. Table 2 Correlations Between Noise and the Characteristics of Covering Interval表2 噪聲與覆蓋區(qū)間特征的相關(guān)性 由表2可見,所有噪聲情況下2組相關(guān)性檢驗的p值均<0.05且相關(guān)系數(shù)為正值,表明|ei|與s,d均顯著正相關(guān);|ei|與d的相關(guān)系數(shù)明顯大于|ei|與s的相關(guān)系數(shù),表明前者的相關(guān)性更強;從噪聲分布來看,拉普拉斯分布噪聲所對應(yīng)的相關(guān)系數(shù)最大,均勻分布噪聲的相關(guān)系數(shù)較小.表2的實驗結(jié)果表明定理2所表達的正反比關(guān)系在實際中是成立的. 表3列出了不同噪聲比例下各數(shù)據(jù)集上不同過濾算法的測試誤差結(jié)果.通常噪聲比例越大,測試誤差也越大.當噪聲水平較低(NR=0.1,0.2)時,所提RNF過濾算法能夠使得模型的測試誤差最小,且有明顯優(yōu)勢;當噪聲水平較高(NR=0.3,0.4)時,RNF算法在大多數(shù)數(shù)據(jù)上取得了最小測試誤差. Table 3 Average Test Error ±Standard Deviation of Four Models with Different Noise Ratios表3 不同噪聲比例下4種模型的平均測試誤差±標準差 續(xù)表3 圖3給出各模型測試誤差的臨界差異圖(critical difference, CD).CD圖不僅能給出不同算法的排名,還能顯示算法之間的差異是否顯著.圖3中算法排名越小表示算法對應(yīng)的測試誤差越小;算法平均排名之間的距離不超過CD值時使用橫線連接,表示算法之間差異不顯著.圖3中算法的平均排名是基于15個數(shù)據(jù)集和8種噪聲水平的模型測試誤差. Fig. 3 CD diagram of each regression model error圖3 各回歸模型誤差CD圖 由圖3可見,所提RNF算法在各個模型上都取得了最小測試誤差.在kNN模型中,RNF與CDF算法無顯著性差異;在其他模型中,RNF比其他算法均有顯著性優(yōu)勢.已有過濾算法中,CDF表現(xiàn)最佳,RegENN,DiscENN和MI無明顯差異.所有過濾算法均比未過濾數(shù)據(jù)(NoF)效果更好,即過濾能夠提升模型泛化能力,所提RNF算法的提升效果最明顯. 表4列出了不同噪聲比例下各模型平均測試誤差.總體上噪聲比例越大,測試誤差也越大.所提RNF算法的測試誤差最小.同時注意到,當噪聲比例較低時,RNF的測試誤差明顯小于其他算法的誤差;當噪聲比例較大(NR=0.4)時,RNF的測試誤差略微優(yōu)于CDF算法.總之,在低噪聲比例情況下RNF的優(yōu)勢更加明顯. Table 4 Average Test Error of Each Model表4 各模型平均測試誤差 圖4顯示了各個過濾算法在5個不同數(shù)據(jù)規(guī)模上的過濾運行時間.其中MI算法運行時間最長;RegENN和DiscENN運行時間略短;CDF和RNF的運行時間最短,而且比其他算法快至少一個數(shù)量級.在小規(guī)模數(shù)據(jù)上,RNF的效率比CDF略高,兩者一般相差不大. Fig. 4 Runtime of filtering algorithms圖4 過濾算法的運行時間 人臉年齡估計是一個具有挑戰(zhàn)性的監(jiān)督學習問題,ICCV和CVPR等計算機視覺頂會在競賽任務(wù)中曾公開過人臉圖像和年齡標注數(shù)據(jù)[28-29].每個圖像的年齡標簽是多個標記者所給年齡估計的均值,這些數(shù)據(jù)中存在部分標記與人臉圖像不匹配的情況.通過RNF噪聲過濾可以找到這些標簽噪聲數(shù)據(jù),進而提升模型預(yù)測性能. 原始數(shù)據(jù)來自ICCV 2015和CVPR 2016[28-29],共有18 424張圖像和對應(yīng)年齡標簽,其中2個數(shù)據(jù)子集中存在一些重復圖像,每個圖像通過左右翻轉(zhuǎn)做了增強.圖像特征采用經(jīng)典的VGG16深度網(wǎng)絡(luò)提取特征.重復執(zhí)行5次RNF得到平均年齡標簽噪聲估計結(jié)果,表5列出了平均相對噪聲排名前60的部分年齡標簽噪聲,圖像按照相對噪聲從大到小排列.表5中部分圖像相同(如編號為4,7的圖像),但它們所屬子集不同,年齡標簽也不同. Table 5 Age Label Noises Recognized by Relative Noise表5 根據(jù)相對噪聲識別的年齡標簽噪聲 續(xù)表5 表5中既有年齡標簽偏高的情況(如編號為1,5,8的圖像),也有年齡標簽偏低的情況(如編號為4,6,18的圖像).在因特爾8核3.6 GHz處理器8 GB內(nèi)存的單機上進行實驗,每輪RNF過濾的時間不超過10 s.可見RNF過濾算法能夠快速準確地找到標簽噪聲. 經(jīng)RNF過濾后的數(shù)據(jù)集大約包括86%的原始樣本,回歸模型在過濾后的數(shù)據(jù)集上訓練后,在另一個wiki年齡數(shù)據(jù)[30]上進行測試.表6中列出了誤差較小的k近鄰和隨機森林模型的測試結(jié)果.年齡測試誤差采用平均絕對誤差(mean absolute error,MAE)度量. Table 6 Comparison of Test Errors with Various Filters表6 各種過濾算法的測試誤差比較 表6中對比了2個模型經(jīng)未過濾原始數(shù)據(jù)(NoF)、CDF和RNF過濾數(shù)據(jù)訓練后的測試誤差.對比的測試樣本集包括wiki全部有效年齡在0~80歲樣本集、不過濾情況下測試誤差大于5和10的樣本集.結(jié)果表明,與不過濾NoF原始數(shù)據(jù)相比,RNF在所有情況下都能夠降低模型測試誤差,在多數(shù)情況下能顯著降低測試誤差(t檢驗的p<0.05).與CDF過濾算法相比,RNF在wiki全部樣本上與其無顯著差異,在大噪聲樣本MAE>10上有明顯優(yōu)勢. 總體上,RNF過濾算法在人臉年齡數(shù)據(jù)上檢測出許多標簽噪聲數(shù)據(jù),能夠有效提升數(shù)據(jù)質(zhì)量和模型預(yù)測性能. 數(shù)值型標簽噪聲問題給回歸任務(wù)帶來嚴峻挑戰(zhàn).噪聲過濾可以有效識別噪聲數(shù)據(jù),但缺乏模型泛化能力提升的理論保障,實際中還存在過度清洗、自適應(yīng)差、依賴參數(shù)設(shè)置等問題.本文根據(jù)無噪回歸任務(wù)中的學習理論給出了面向數(shù)值型標簽噪聲數(shù)據(jù)的泛化誤差界,從而明確了影響模型泛化能力的關(guān)鍵數(shù)據(jù)因素(數(shù)據(jù)量和噪聲水平).在此基礎(chǔ)上提出一種可解釋的噪聲過濾框架,其目標是以較小的樣本去除代價最大程度地降低噪聲水平.此框架不僅適用于普通噪聲估計方法,也適用于相對噪聲估計,只需知道噪聲之間的比值關(guān)系即可. 針對噪聲估計問題,從理論上分析了噪聲與覆蓋區(qū)間關(guān)鍵指標之間的變化趨勢,進而構(gòu)建了相對噪聲估計方法.此方法與所提框架結(jié)合形成了RNF過濾算法.在標準數(shù)據(jù)集和真實人臉年齡估計數(shù)據(jù)上均驗證了算法的有效性.所提框架和相對噪聲估計方法均有理論支撐,可以確保算法取得良好的過濾效果.實驗結(jié)果證實了RNF算法在不同噪聲分布、不同噪聲比例、不同數(shù)據(jù)集、不同回歸模型等復雜情況下具有較好的適應(yīng)性. 所提過濾框架可用于解決其他過濾算法的超參數(shù)優(yōu)化和適應(yīng)性問題;所提噪聲估計和過濾算法為有序回歸或分類任務(wù)中的標簽噪聲問題提供了新思路.
3.2 相對噪聲過濾


4 實驗結(jié)果及分析
4.1 實驗框架

4.2 理論結(jié)果驗證


4.3 實驗結(jié)果與分析





4.4 年齡標簽噪聲過濾



5 結(jié) 論