999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

對(duì)不平衡數(shù)據(jù)的多源在線(xiàn)遷移學(xué)習(xí)算法

2023-03-10 00:11:04周晶雨王士同
計(jì)算機(jī)與生活 2023年3期

周晶雨,王士同

江南大學(xué) 人工智能與計(jì)算機(jī)學(xué)院,江蘇 無(wú)錫214122

在機(jī)器學(xué)習(xí)領(lǐng)域中,遷移學(xué)習(xí)作為一項(xiàng)重要的技術(shù),多年來(lái)進(jìn)行了廣泛的研究[1-2]。許多應(yīng)用中的模型是根據(jù)大量訓(xùn)練數(shù)據(jù)構(gòu)建的,然而收集和標(biāo)記足夠的數(shù)據(jù)是困難且昂貴的[3-4]。遷移學(xué)習(xí)的主要目的是利用從一個(gè)或多個(gè)源域中提取的有用信息來(lái)提高目標(biāo)域的學(xué)習(xí)性能。一個(gè)典型的例子是,收集足夠的老虎數(shù)據(jù)是困難的,但貓的數(shù)據(jù)是豐富的,遷移學(xué)習(xí)可以用來(lái)建立一個(gè)利用貓數(shù)據(jù)的老虎分類(lèi)模型。因此遷移學(xué)習(xí)顯著的好處就是,利用源域中的有用知識(shí)提高整體函數(shù)預(yù)測(cè)性能,并減少昂貴的數(shù)據(jù)標(biāo)記工作。因此,遷移學(xué)習(xí)已經(jīng)被應(yīng)用到各個(gè)領(lǐng)域,趙鵬飛等人[5]闡述了不同的遷移學(xué)習(xí)方法在人機(jī)對(duì)話(huà)系統(tǒng)的意識(shí)識(shí)別任務(wù)中的應(yīng)用。任豪等人[6]介紹了遷移學(xué)習(xí)在跨領(lǐng)域的推薦算法上的應(yīng)用。

遷移學(xué)習(xí)研究之初僅從一個(gè)源域遷移知識(shí)到目標(biāo)域[1,7-8],但在某些實(shí)際應(yīng)用的情況中,可以輕松地從多個(gè)源域中將學(xué)習(xí)到的知識(shí)遷移到目標(biāo)域[9]。以五種語(yǔ)言文檔分類(lèi)應(yīng)用為例,為了對(duì)英文編寫(xiě)的文檔進(jìn)行分類(lèi),可以利用從法語(yǔ)翻譯成英語(yǔ)的文檔、德語(yǔ)翻譯成英語(yǔ)的文檔、西班牙語(yǔ)和意大利語(yǔ)翻譯成英語(yǔ)的文檔中學(xué)習(xí)知識(shí),每個(gè)翻譯文檔都可以被作為源域[10]。然而,不同的源域?qū)τ谀繕?biāo)域的貢獻(xiàn)也是不相同的,為了克服此限制,可以采用基于Boosting[9,11]的方法來(lái)設(shè)計(jì)更復(fù)雜的多源遷移學(xué)習(xí)算法。

大多數(shù)多源遷移學(xué)習(xí)是在離線(xiàn)環(huán)境下進(jìn)行的[12-14]。在某些實(shí)際應(yīng)用中,目標(biāo)域的訓(xùn)練數(shù)據(jù)并不是事先提供的,而是在目標(biāo)域函數(shù)學(xué)習(xí)的過(guò)程中以順序的方式接受的,稱(chēng)為在線(xiàn)遷移學(xué)習(xí)[1-2,15]。在大數(shù)據(jù)時(shí)代,在線(xiàn)學(xué)習(xí)能夠處理傳統(tǒng)批處理算法無(wú)法勝任的大量的且快速增長(zhǎng)的數(shù)據(jù)任務(wù)。在線(xiàn)學(xué)習(xí)中,目標(biāo)域函數(shù)每輪接受一個(gè)樣本及其對(duì)應(yīng)標(biāo)簽,然后使用目標(biāo)函數(shù)對(duì)當(dāng)前樣本進(jìn)行預(yù)測(cè),得到預(yù)測(cè)結(jié)果。然后根據(jù)當(dāng)前樣本的真實(shí)標(biāo)簽和預(yù)測(cè)結(jié)果之間的損失信息更新目標(biāo)函數(shù)。孫勇等人[16]將在線(xiàn)學(xué)習(xí)應(yīng)用到大規(guī)模服務(wù)計(jì)算中,改善了預(yù)測(cè)的時(shí)間效率,同時(shí)也滿(mǎn)足了計(jì)算的實(shí)時(shí)性要求。對(duì)于多源在線(xiàn)遷移學(xué)習(xí),每輪到達(dá)樣本的最終預(yù)測(cè)結(jié)果通過(guò)組合多個(gè)源分類(lèi)器和目標(biāo)分類(lèi)器的預(yù)測(cè)結(jié)果得到。

目前,大多數(shù)的遷移學(xué)習(xí)算法都沒(méi)有關(guān)注不平衡的數(shù)據(jù)集,而是默認(rèn)數(shù)據(jù)的類(lèi)別分布是平衡的,但是不平衡數(shù)據(jù)往往存在于許多現(xiàn)實(shí)世界的分類(lèi)問(wèn)題中。對(duì)于不平衡的數(shù)據(jù)集,傳統(tǒng)的分類(lèi)器對(duì)不同類(lèi)別假設(shè)相同的誤分類(lèi)代價(jià),雖然可以給出較高的分類(lèi)精度,但算法的性能會(huì)受到不平衡數(shù)據(jù)的嚴(yán)重影響,因?yàn)閷⒁粋€(gè)少數(shù)類(lèi)樣本錯(cuò)分為多數(shù)類(lèi)樣本的代價(jià)是極其昂貴的。以前的文章提出了多種方法來(lái)處理類(lèi)別不平衡的數(shù)據(jù)集,大致可以分為以數(shù)據(jù)為基礎(chǔ)的采樣方法、成本敏感方法和算法級(jí)的方法[17]。以數(shù)據(jù)驅(qū)動(dòng)的采樣方法在訓(xùn)練分類(lèi)器之前對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理,通過(guò)分布均衡的數(shù)據(jù)來(lái)解決不平衡的問(wèn)題。成本敏感的方法對(duì)錯(cuò)誤分類(lèi)少數(shù)類(lèi)樣本的決策函數(shù)施加更高的懲罰。而算法級(jí)的方法則是修改像支持向量機(jī)[18-19]這樣的分類(lèi)器來(lái)解決類(lèi)別不平衡的問(wèn)題。

多源在線(xiàn)遷移學(xué)習(xí)中,目標(biāo)域從多個(gè)源域提取有用的知識(shí)來(lái)幫助目標(biāo)函數(shù)分類(lèi)。Wu 等人[20]提出了一種可以利用多個(gè)與目標(biāo)域相關(guān)的源域來(lái)進(jìn)行在線(xiàn)遷移學(xué)習(xí)的算法。Kang 等人[21]提出一種多源在線(xiàn)遷移學(xué)習(xí)的多類(lèi)分類(lèi)算法,通過(guò)兩階段集成策略進(jìn)行多類(lèi)分類(lèi)。周晶雨等人[22]提出一種多源在線(xiàn)遷移學(xué)習(xí)方法,在線(xiàn)訓(xùn)練的過(guò)程中對(duì)目標(biāo)域的少數(shù)類(lèi)樣本進(jìn)行擴(kuò)增,從而提高整體分類(lèi)性能。然而在現(xiàn)實(shí)環(huán)中,大多數(shù)分類(lèi)任務(wù)中的數(shù)據(jù)通常是類(lèi)別分布不平衡的。不平衡數(shù)據(jù)分類(lèi)是機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)重要的研究課題,它在多源在線(xiàn)遷移學(xué)習(xí)中也很重要。在多源在線(xiàn)遷移學(xué)習(xí)中,源域和目標(biāo)域的數(shù)據(jù)類(lèi)別都有可能是不平衡的。當(dāng)目標(biāo)域數(shù)據(jù)不平衡時(shí),目標(biāo)域函數(shù)的預(yù)測(cè)結(jié)果偏向于多數(shù)類(lèi);當(dāng)源域數(shù)據(jù)不平衡時(shí),組合多個(gè)源分類(lèi)器和目標(biāo)分類(lèi)器的結(jié)果極有可能偏向于多數(shù)類(lèi);當(dāng)源域和目標(biāo)域的數(shù)據(jù)都不平衡時(shí),會(huì)產(chǎn)生更加復(fù)雜的情況。顯然,針對(duì)不平衡數(shù)據(jù)集的多源在線(xiàn)遷移學(xué)習(xí)是一個(gè)重要而富有挑戰(zhàn)性的課題,值得廣泛研究。

本文提出了一種稱(chēng)為OTLMS_STO(multi-source online migration learning based on oversampling in source and target domain feature space)的多源在線(xiàn)遷移學(xué)習(xí)算法,該算法主要研究不平衡數(shù)據(jù)的二分類(lèi)問(wèn)題?,F(xiàn)有的方法將源域和目標(biāo)域函數(shù)通過(guò)權(quán)重向量在在線(xiàn)學(xué)習(xí)的過(guò)程中動(dòng)態(tài)地組合起來(lái),但是并未考慮源域數(shù)據(jù)和目標(biāo)域數(shù)據(jù)類(lèi)別分布同時(shí)不平衡的情況,而本文提出的OTLMS_STO 算法分別在源域和目標(biāo)域的特征空間中對(duì)少數(shù)類(lèi)樣本進(jìn)行過(guò)采樣,使用平衡的數(shù)據(jù)訓(xùn)練源函數(shù),并在在線(xiàn)預(yù)測(cè)的過(guò)程中改進(jìn)目標(biāo)函數(shù),有效解決了類(lèi)別分布不平衡的問(wèn)題。在對(duì)源域過(guò)采樣階段,每個(gè)源域都使用SVM 作為分類(lèi)器,在源域的特征空間中合成少數(shù)類(lèi)樣本,通過(guò)平衡數(shù)據(jù)生成的Gram 矩陣來(lái)訓(xùn)練各個(gè)源域的SVM 分類(lèi)器。對(duì)在線(xiàn)的目標(biāo)域過(guò)采樣階段,采用被動(dòng)攻擊算法(passive-aggressive,PA)[23]構(gòu)建目標(biāo)域的決策函數(shù)。目標(biāo)域每輪到達(dá)一批數(shù)據(jù),從前面已經(jīng)達(dá)到批次的少數(shù)類(lèi)樣本中尋找k近鄰。然后在種子和鄰居樣本對(duì)之間的線(xiàn)段上合成少數(shù)類(lèi)新樣本,使用生成的新樣本和當(dāng)前批次中原始樣本去訓(xùn)練目標(biāo)域的決策函數(shù)。最后通過(guò)權(quán)重向量組合改進(jìn)后的源和目標(biāo)函數(shù)。源和目標(biāo)域中生成的樣本具有線(xiàn)性可分的性質(zhì),可以克服SMOTE(synthetic minority oversampling technique)[24]方法在過(guò)采樣過(guò)程中對(duì)于非線(xiàn)性問(wèn)題的局限性。并且在多個(gè)文本和圖像數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),結(jié)果表明提出的算法與在線(xiàn)遷移學(xué)習(xí)的基線(xiàn)算法相比具有更好的性能。

1 多源在線(xiàn)遷移學(xué)習(xí)簡(jiǎn)介

在本章中,主要介紹多源在線(xiàn)遷移學(xué)習(xí)算法HomOTLMS[20]。HomOTLMS 將在多個(gè)源域和目標(biāo)域上構(gòu)建的分類(lèi)器結(jié)合在一起,實(shí)現(xiàn)有效的集成分類(lèi)器。通過(guò)利用多個(gè)源域的有用信息,解決目標(biāo)域樣本數(shù)據(jù)不足的問(wèn)題,最終提升目標(biāo)域的性能。

HomOTLMS 首先根據(jù)預(yù)先給出的m個(gè)源域的訓(xùn)練數(shù)據(jù),在離線(xiàn)批處理學(xué)習(xí)范式中構(gòu)建它們的決策函數(shù)。而對(duì)于目標(biāo)域,采用在線(xiàn)被動(dòng)攻擊算法構(gòu)建一個(gè)以在線(xiàn)的方式更新的決策函數(shù)gT(x)。目標(biāo)域每輪接受一個(gè)樣本,在第i輪,目標(biāo)域接受到實(shí)例(xi,yi),然后使用函數(shù)對(duì)給定的實(shí)例xi進(jìn)行預(yù)測(cè),并根據(jù)真實(shí)標(biāo)簽yi計(jì)算目標(biāo)域決策函數(shù)的鉸鏈損失:

如果決策函數(shù)在實(shí)例xj上遭受非零損失,那么就將其作為支持向量添加到支持向量集中來(lái)更新目標(biāo)域的決策函數(shù):

其中,τi=min{C,Li/k(xi,xi)},k(·,·)是核函數(shù)。

HomOTLMS 通過(guò)每輪目標(biāo)域的樣本來(lái)訓(xùn)練目標(biāo)域決策函數(shù),并同時(shí)調(diào)整各分類(lèi)器權(quán)重來(lái)更新最終的集成決策函數(shù),從而進(jìn)行有效的多源在線(xiàn)遷移學(xué)習(xí)。但是HomOTLMS 算法并不能有效地應(yīng)對(duì)源域或者目標(biāo)域數(shù)據(jù)類(lèi)別分布不均勻的情況。下面介紹了一種新的多源在線(xiàn)遷移學(xué)習(xí)方法,可以通過(guò)人工平衡源域和目標(biāo)域類(lèi)別的分布,降低總體分類(lèi)誤差。

2 對(duì)不平衡數(shù)據(jù)的多源在線(xiàn)遷移學(xué)習(xí)

2.1 問(wèn)題描述

本節(jié)正式介紹多源在線(xiàn)遷移學(xué)習(xí)中數(shù)據(jù)類(lèi)別分布不均的問(wèn)題。對(duì)于給定的m個(gè)源域,使用DS=來(lái)表示,目標(biāo)域使用DT表示。使用表示第j個(gè)源域的數(shù)據(jù)空間,其中該源域的特征空間是。對(duì)于目標(biāo)域,其數(shù)據(jù)空間使用X×Y 表示,其中特征空間是X=Rd。并且這里的源域和目標(biāo)域共享相同的標(biāo)簽空間=Y={+1,-1},也同時(shí)共享相同的特征空間,即對(duì)?j=1,2,…,m,=Rd。

與HomOTLMS 不同的是,提出的算法主要應(yīng)用于目標(biāo)域每次以在線(xiàn)的方式到達(dá)一批數(shù)據(jù)的問(wèn)題。對(duì)于目標(biāo)域,第t個(gè)批次的數(shù)據(jù)是。當(dāng)一個(gè)批次的樣本到達(dá)時(shí),目標(biāo)域的決策函數(shù)依次預(yù)測(cè)每個(gè)樣本并更新自身,而m個(gè)源域則直接預(yù)測(cè)本批次的樣本,得到m組預(yù)測(cè)結(jié)果。最后遍歷m個(gè)源域和目標(biāo)域的預(yù)測(cè)結(jié)果來(lái)調(diào)整集成決策函數(shù)的各項(xiàng)權(quán)重,并得到當(dāng)前批次的最終預(yù)測(cè)結(jié)果。

源域采用SVM 訓(xùn)練分類(lèi)器,目標(biāo)域采用在線(xiàn)被動(dòng)攻擊算法(PA)訓(xùn)練分類(lèi)器,源域和目標(biāo)域都是在特征空間通過(guò)訓(xùn)練得到一個(gè)最佳的分離超平面來(lái)預(yù)測(cè)樣本。當(dāng)類(lèi)別不平衡時(shí),這個(gè)超平面可能會(huì)對(duì)多數(shù)類(lèi)樣本更加敏感,預(yù)測(cè)結(jié)果偏向多數(shù)類(lèi)。對(duì)于源域和目標(biāo)域的數(shù)據(jù),它們的類(lèi)別分布都可能是不均勻的,假設(shè)類(lèi)別為+1 的樣本是少數(shù)類(lèi),類(lèi)別為-1 的樣本是多數(shù)類(lèi)。使用不平衡的源域數(shù)據(jù)訓(xùn)練出來(lái)多個(gè)源分類(lèi)器,這時(shí)目標(biāo)域從源域遷移的知識(shí)可能會(huì)偏向多數(shù)類(lèi),會(huì)對(duì)目標(biāo)域的數(shù)據(jù)造成負(fù)面的影響。如果目標(biāo)域數(shù)據(jù)本身就是不平衡的,那么有極大的可能會(huì)使目標(biāo)決策函數(shù)向多數(shù)類(lèi)偏斜,從而影響最終的集成決策函數(shù)的結(jié)果。當(dāng)源域和目標(biāo)域的數(shù)據(jù)都不平衡時(shí),往往會(huì)產(chǎn)生更加復(fù)雜的情況。本文提出的OTLMS_STO 算法通過(guò)在源域和目標(biāo)域的樣本特征空間中進(jìn)行過(guò)采樣,提高集成決策函數(shù)的整體分類(lèi)性能,更好地實(shí)現(xiàn)知識(shí)遷移。

2.2 在源域的特征空間中過(guò)采樣

提出的OTLMS_STO 算法首先在源域的特征空間中過(guò)采樣,利用采樣后平衡的數(shù)據(jù)集改進(jìn)源域的分類(lèi)器。在多個(gè)源域中使用SVM 這樣的基本分類(lèi)器,SVM 在高維隱式特征空間中識(shí)別分離超平面來(lái)對(duì)樣本進(jìn)行分類(lèi)。對(duì)于不平衡的數(shù)據(jù)集,SMOTE[24]是一種優(yōu)秀的采樣方法,利用領(lǐng)域的信息來(lái)綜合生成少數(shù)類(lèi)樣本點(diǎn),它在兩個(gè)相鄰的樣本之間的線(xiàn)段上生成新樣本。但是對(duì)于高維的文本和圖像數(shù)據(jù),SMOTE 局限于這樣的非線(xiàn)性可分的問(wèn)題。

由于多個(gè)源域的SVM 分類(lèi)器是在特征空間中運(yùn)行的,可以在同一個(gè)特征空間中生成合成樣本來(lái)處理類(lèi)不平衡的問(wèn)題。圖1 展示了提出的OTLMS_STO算法在改進(jìn)多個(gè)源域階段時(shí)的結(jié)構(gòu),主要分為兩個(gè)關(guān)鍵步驟:第一步,在源域的特征空間中生成合成的少數(shù)類(lèi)新樣本,使得源域的數(shù)據(jù)集變平衡;第二步,使用修改后的平衡數(shù)據(jù)集訓(xùn)練得到多個(gè)源域的分類(lèi)器。下面詳細(xì)描述各個(gè)步驟。

圖1 OTLMS_STO 算法在處理源域階段的結(jié)構(gòu)Fig.1 Structure of OTLMS_STO algorithm in process of source domain

其中,k(·,·)是核函數(shù),通過(guò)核函數(shù)計(jì)算種子和鄰居之間的距離而不需要知道φ(x)函數(shù)的具體形式。

當(dāng)求得了源域中所有少數(shù)類(lèi)樣本的k近鄰后,會(huì)得到許多組種子和鄰居對(duì),從中選擇適量組數(shù)的樣本對(duì)并在它們之間的線(xiàn)段上生成一個(gè)新的樣本。生成的新的少數(shù)類(lèi)樣本的數(shù)量Lt_new要使當(dāng)前源域的類(lèi)別分布相對(duì)平均,并且為每個(gè)新樣本分配一個(gè)標(biāo)簽。根據(jù)下面公式在特征空間中合成新樣本:

其中,αmn是一個(gè)0 到1 之間的隨機(jī)數(shù),在公式使用的過(guò)程隨機(jī)生成,參照文獻(xiàn)[25]中的設(shè)置。

注意,當(dāng)目標(biāo)域中+1 標(biāo)簽的樣本是少數(shù)類(lèi)時(shí),并不能肯定在每個(gè)源域中+1 標(biāo)簽的也是少數(shù)類(lèi),因此在平衡源域數(shù)據(jù)時(shí)需要根據(jù)兩種類(lèi)別具體的樣本數(shù)確定少數(shù)類(lèi)。

通過(guò)Gram 矩陣K1可以訓(xùn)練源域的SVM 分類(lèi)器,K1是由源域中每對(duì)樣本的內(nèi)積組成的:

將生成的Lt_new個(gè)新樣本添加到Gram 矩陣K1中訓(xùn)練源域的SVM 分類(lèi)器,新的Gram 矩陣表示為:

根據(jù)式(9)和式(10)可知,增廣核矩陣K僅由源域中的訓(xùn)練樣本和核函數(shù)k(·,·)構(gòu)成,而不需要知道映射函數(shù)φ(x)的具體形式。因此,任何一個(gè)有效的核函數(shù)都可以用來(lái)訓(xùn)練源域的SVM,而提出的OTLMS_STO 算法使用高斯核函數(shù)來(lái)訓(xùn)練SVM。

2.3 在目標(biāo)域的特征空間中過(guò)采樣

本節(jié)主要介紹提出的OTLMS_STO 算法對(duì)不平衡目標(biāo)域的處理步驟。目標(biāo)域使用PA 算法進(jìn)行訓(xùn)練,PA 算法也出現(xiàn)類(lèi)似于SVM 的優(yōu)化問(wèn)題,預(yù)測(cè)機(jī)制基于一個(gè)超平面,該超平面將實(shí)例空間分成兩個(gè)半空間。在對(duì)目標(biāo)域函數(shù)改進(jìn)的階段中,目標(biāo)決策函數(shù)能夠利用與SVM 分類(lèi)器相同的核技巧,合成樣本利用特征空間中的點(diǎn)積生成而不需要知道特征映射函數(shù)φ(x)。因此可以通過(guò)相同的核函數(shù)和帶寬來(lái)控制源域和目標(biāo)域生成的新樣本處于相同的特征空間。目標(biāo)域生成的數(shù)據(jù)點(diǎn)在高維的空間具有更好的線(xiàn)性可分性,可以用來(lái)改進(jìn)目標(biāo)決策函數(shù)。

圖2 展示了提出的OTLMS_STO 算法在改進(jìn)目標(biāo)域階段的結(jié)構(gòu),目標(biāo)域的樣本分成多個(gè)批次到達(dá),目標(biāo)域到達(dá)一批數(shù)據(jù)時(shí)的處理過(guò)程分為三步:第一步,對(duì)當(dāng)前批次中的少數(shù)類(lèi)樣本過(guò)采樣,使類(lèi)別分布相對(duì)均衡。圖2中是原始樣本,表示合成的新樣本。第二步,遍歷生成的新樣本,依次訓(xùn)練目標(biāo)決策函數(shù)gT(x)。第三步,使用當(dāng)前批次中的原始樣本進(jìn)行多源在線(xiàn)遷移學(xué)習(xí)。對(duì)所有的批次采用相同的三個(gè)步驟處理就可得到最后訓(xùn)練好的集成函數(shù),下面詳細(xì)描述各個(gè)步驟。

圖2 OTLMS_STO 算法在處理目標(biāo)域階段的結(jié)構(gòu)Fig.2 Structure of OTLMS_STO algorithm in process of target domain

在目標(biāo)域第t個(gè)批次的樣本到達(dá)時(shí),OTLMS_STO 算法會(huì)從中挑選出所有的少數(shù)類(lèi)樣本。然后從前面已經(jīng)到達(dá)的多個(gè)批次中尋找當(dāng)前到達(dá)批次中每個(gè)少數(shù)類(lèi)樣本的k近鄰。對(duì)于當(dāng)前批次中少數(shù)類(lèi)種子φ(xm) 和前面批次中的少數(shù)類(lèi)鄰居φ(xn),使用式(5)計(jì)算兩者在特征空間的距離。并且用表示種子和鄰居組成的樣本對(duì)的集合,一共對(duì),同時(shí)給每對(duì)樣本分配+1 的標(biāo)簽。然后從集合中隨機(jī)選取min_num個(gè)少數(shù)類(lèi)的樣本對(duì),根據(jù)式(6)在特征空間中合成新的樣本。其中,min_num的大小要使當(dāng)前批次中的少數(shù)類(lèi)和多數(shù)類(lèi)樣本的數(shù)量近似,即數(shù)據(jù)類(lèi)別平衡。

在對(duì)當(dāng)前批次的樣本進(jìn)行多源在線(xiàn)遷移學(xué)習(xí)之前,先用生成的新樣本改進(jìn)目標(biāo)決策函數(shù)gT(x)。然而,根據(jù)式(6)生成的新少數(shù)類(lèi)樣本利用通常未知的特征映射函數(shù)φ(x),因此新的合成樣本φ(xmn)并不能具體得到。目標(biāo)決策函數(shù)采用PA 算法,每次通過(guò)核函數(shù)計(jì)算兩個(gè)樣本的內(nèi)積來(lái)添加支持向量,從而改進(jìn)目標(biāo)函數(shù)。因此當(dāng)目標(biāo)函數(shù)接收到在特征空間生成的新樣本時(shí),可以根據(jù)式(9)計(jì)算普通樣本和合成樣本的內(nèi)積,根據(jù)式(10)計(jì)算合成樣本和合成樣本的內(nèi)積,從而利用新樣本訓(xùn)練目標(biāo)決策函數(shù)。與改進(jìn)源域階段類(lèi)似,只需知道訓(xùn)練樣本和核函數(shù)k(·,·),而不需要知道映射函數(shù)φ(x)的具體形式。

使用合成實(shí)例改進(jìn)目標(biāo)域決策函數(shù),當(dāng)鉸鏈損失大于0 時(shí),將合成實(shí)例作為支持向量添加到支持向量集,并且也能保持特征空間的可分性,即:

定理1在目標(biāo)域的特征空間中生成合成的少數(shù)類(lèi)樣本同樣能保證類(lèi)別可分。

證明目標(biāo)域函數(shù)由支持向量組成,可以表示為:

將式(6)生成少數(shù)類(lèi)樣本φ(xpq))代入目標(biāo)函數(shù):

其中,gT(xm),gT(xn)≥0,xm,xn都屬于少數(shù)類(lèi),αmn∈[0,1]。

因此在目標(biāo)域的特征空間中生成的樣本同樣可以保證類(lèi)別可分。每批次生成的新樣本都會(huì)優(yōu)化目標(biāo)函數(shù)在特征空間中的超平面,提高目標(biāo)函數(shù)的性能。然后對(duì)當(dāng)前批次中的所有樣本進(jìn)行多源在線(xiàn)遷移學(xué)習(xí),得到本批次的最終結(jié)果。

2.4 算法描述與復(fù)雜度分析

提出的OTLMS_STO 算法總共分為兩個(gè)階段:(1)改進(jìn)多個(gè)源域的分類(lèi)器;(2)改進(jìn)目標(biāo)域的分類(lèi)器,使用改進(jìn)的源分類(lèi)器進(jìn)行多源在線(xiàn)遷移學(xué)習(xí)。

第一階段的算法描述和復(fù)雜度分析:

上述算法中,步驟2.1 尋找所有的少數(shù)類(lèi)樣本的時(shí)間復(fù)雜度為O(N),N是當(dāng)前源域的樣本總數(shù)。步驟2.2 尋找所有少數(shù)類(lèi)樣本的k近鄰的時(shí)間復(fù)雜度是O(n_min2),n_num是當(dāng)前源域中少數(shù)類(lèi)樣本的個(gè)數(shù)。步驟2.4 中計(jì)算Gram 矩陣的時(shí)間復(fù)雜度是O((N+n_num)2d),其中d是樣本的維度。因此總的時(shí)間復(fù)雜度是O(n(N+n_min2+(N+n_num)2d)),n是源域的個(gè)數(shù),可以近似為O(nd(N+n_num)2)。

第二階段的算法描述和復(fù)雜度分析:

上述算法中,步驟1.1 尋找k近鄰的時(shí)間復(fù)雜度是O(3m1m2d),其中m1和m2分別是當(dāng)前批次和前面批次中的少數(shù)類(lèi)和多數(shù)類(lèi),d是樣本的維數(shù)。步驟1.3 利用合成樣本改進(jìn)目標(biāo)決策函數(shù)的時(shí)間復(fù)雜度是O(4svd),s是新樣本的總數(shù),v是支持向量的個(gè)數(shù)。步驟1.4 訓(xùn)練當(dāng)前批次原始樣本的時(shí)間復(fù)雜度是O(2nvd),一共n個(gè)樣本。整個(gè)目標(biāo)域共有N個(gè)批次,總的時(shí)間復(fù)雜度是O(N(3m1m2d+4svd+2nvd)),可以近似為O(N(m1m2d+svd+nvd))。

3 實(shí)驗(yàn)

本章將提出的OTLMS_STO 算法與多個(gè)在線(xiàn)學(xué)習(xí)的基線(xiàn)算法進(jìn)行了比較,并在真實(shí)世界的數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn):20Newsgroups 數(shù)據(jù)集、Office-Home數(shù)據(jù)集、Modern Office-31 數(shù)據(jù)集和DomainNet 數(shù)據(jù)集。為了獲得可靠的結(jié)果,在相同參數(shù)設(shè)置的前提下,將多個(gè)源域的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),將目標(biāo)域的數(shù)據(jù)作為測(cè)試數(shù)據(jù),通過(guò)更改測(cè)試實(shí)例的到達(dá)順序來(lái)將每個(gè)實(shí)驗(yàn)重復(fù)10 次。結(jié)果表明,提出的算法比基線(xiàn)算法獲得了更好的性能。

3.1 數(shù)據(jù)集介紹

(1)20Newsgroups

20 個(gè)新聞組數(shù)據(jù)集(http://qwone.com/~jason/20Newsgroups/)是機(jī)器學(xué)習(xí)技術(shù)中進(jìn)行文本應(yīng)用的流行數(shù)據(jù)集,該數(shù)據(jù)集收集了大約20 000 個(gè)新聞組文檔,平均分成20 個(gè)不同主題的新聞組。其中,每個(gè)新聞組都對(duì)應(yīng)一個(gè)不同的主題,一些新聞組彼此之間有著非常緊密的聯(lián)系,而其他新聞組則高度不相關(guān)。高度相關(guān)的構(gòu)成5 個(gè)大的主題,如os、ibm、mac和x 是comp 主題的新聞組,crypt、electronics、med 和space 是sci 主題的新聞組。在實(shí)驗(yàn)中,將comp 主題中的新聞組標(biāo)記為正例,sci 主題的新聞組標(biāo)記為負(fù)例。從而可以構(gòu)建4 個(gè)相關(guān)的學(xué)習(xí)域:os_vs_crypt、ibm_vs_electronics、mac_vs_med 和x_vs_space。從中隨機(jī)選擇1 個(gè)域作為目標(biāo)域,其余3 個(gè)域作為源域,可以生成4 個(gè)遷移學(xué)習(xí)任務(wù)。每組任務(wù)的不平衡率都為0.3。

(2)Office-Home

Office-Home[26]數(shù)據(jù)集包含來(lái)自4 個(gè)不同鄰域的圖像藝術(shù)圖像(Art)、剪貼畫(huà)(Clipart)、產(chǎn)品圖像(Product)和現(xiàn)實(shí)世界圖像(Real World),共有15 500張左右的圖像。其中每個(gè)域都包含65 個(gè)類(lèi)別的圖像。在實(shí)驗(yàn)設(shè)置中,將Real World 領(lǐng)域的圖像作為目標(biāo)域,Art、Clipart 和Product 這3 個(gè)域作為源域。在Real World 域的65 個(gè)類(lèi)別中選擇1 個(gè)樣本數(shù)少的和1個(gè)樣本數(shù)多的構(gòu)成二分類(lèi)任務(wù)的目標(biāo)域,3 個(gè)源域也選取相同的類(lèi)別,形成一個(gè)遷移學(xué)習(xí)的任務(wù)。在實(shí)驗(yàn)之前,對(duì)任務(wù)中的原始圖片進(jìn)行簡(jiǎn)單的預(yù)處理,將每張圖片都處理成一個(gè)1×10 000 的向量。實(shí)驗(yàn)一共生成了33 組遷移學(xué)習(xí)任務(wù)。在33 組任務(wù)中,Real World 域有1 組任務(wù)不平衡率在[0.1,0.2)之間,不平衡率在[0.2,0.3)之間的有14 組任務(wù),不平衡率在[0.3,0.4)之間的有18 組任務(wù)。

(3)DomainNet

DomainNet 數(shù)據(jù)集[13]是迄今為止最大的域適應(yīng)數(shù)據(jù)集,該數(shù)據(jù)集由6 個(gè)不同的域、345 個(gè)類(lèi)別和約60 萬(wàn)張圖片組成。6 個(gè)域分別是Clipart、Infograph、Painting、Quickdraw、Real 和Sketch,而類(lèi)別則是從家具、布料、電子到哺乳動(dòng)物、建筑等。在實(shí)驗(yàn)中,從Real照片和真實(shí)世界圖像域中選取1 個(gè)樣本少的和1個(gè)樣本多的類(lèi)構(gòu)成目標(biāo)域,其余5 個(gè)域作為源域,構(gòu)成一個(gè)遷移學(xué)習(xí)任務(wù)。實(shí)驗(yàn)中一共生成了45 組遷移學(xué)習(xí)任務(wù)。在45 組任務(wù)中,Real域有5 組任務(wù)不平衡率在[0,0.1)之間,不平衡率在[0.1,0.2)之間的有7組任務(wù),不平衡率在[0.2,0.3)之間的有33 組任務(wù)。

自2012年全面啟動(dòng)新型職業(yè)農(nóng)民培育工作以來(lái),農(nóng)業(yè)農(nóng)村部制定了一系列支持新型職業(yè)農(nóng)民培育和發(fā)展的文件,明確了新型職業(yè)農(nóng)民的培育原則,細(xì)分了培育類(lèi)型和標(biāo)準(zhǔn)。尤其在“十三五”中,把習(xí)總書(shū)記提出的“堅(jiān)持把科教興農(nóng)、人才強(qiáng)農(nóng)、新型職業(yè)農(nóng)民固農(nóng)”作為農(nóng)業(yè)農(nóng)村發(fā)展的重大戰(zhàn)略,也為新型職業(yè)農(nóng)民培育工作指出了方向。

(4)Modern Office-31

Modern Office-31 數(shù)據(jù)集[27]是一個(gè)用于圖像分類(lèi)的遷移學(xué)習(xí)數(shù)據(jù)集。其包含4 個(gè)領(lǐng)域的子集:Amazon(A)、Webcam(W)、Synthetic、Dslr(D),分為31 個(gè)類(lèi)別,共有7 210 張圖片。在Modern Office-31 數(shù)據(jù)集中,不僅各個(gè)領(lǐng)域的樣本總數(shù)不同,而且各個(gè)域內(nèi)部類(lèi)別分布也不平衡,可以通過(guò)不平衡方法處理Modern Office-31 數(shù)據(jù)集,促使遷移學(xué)習(xí)效果提升。實(shí)驗(yàn)中,預(yù)處理數(shù)據(jù)集,每個(gè)圖片都是1×10 000 的向量。將Webcam 作為目標(biāo)域,其余3 個(gè)域作為源域。然后選取Webcam 中的一個(gè)樣本數(shù)多的和一個(gè)樣本數(shù)少的類(lèi)別構(gòu)成一組遷移學(xué)習(xí)任務(wù),一共生成了20 組任務(wù)。在20組任務(wù)中,Webcam域有5組任務(wù)不平衡率在[0.2,0.3)之間,不平衡率在[0.3,0.4)之間的有9 組任務(wù),不平衡率在[0.4,0.5)之間的有6 組任務(wù)。

3.2 基線(xiàn)算法和評(píng)價(jià)指標(biāo)

為了評(píng)估提出的OTLMS_STO 算法的性能,將該算法與最新的幾種在線(xiàn)學(xué)習(xí)方法進(jìn)行了對(duì)比實(shí)驗(yàn)。PA 算法[23]是一種經(jīng)典的在線(xiàn)學(xué)習(xí)算法,使用PA作為對(duì)比算法并不需要進(jìn)行知識(shí)遷移。使用各個(gè)源域的數(shù)據(jù)先對(duì)PA 進(jìn)行初始化來(lái)實(shí)現(xiàn)PA 算法的一種變體“PAIO”。同時(shí)還與一種著名的多源在線(xiàn)遷移學(xué)習(xí)算法HomOTLMS[20]進(jìn)行了對(duì)比,該算法可以利用多個(gè)源域的有用知識(shí)來(lái)提高目標(biāo)域的分類(lèi)性能。另外將提出的算法與OTLMS_IO[22]以及OTLMS_FO[22]進(jìn)行了比較,兩種算法都是通過(guò)對(duì)不平衡的目標(biāo)域過(guò)采樣提升性能,前者在輸入空間采樣,后者在特征空間采樣。所有算法均由Python 語(yǔ)言實(shí)現(xiàn)。

對(duì)不平衡數(shù)據(jù)集上的分類(lèi)器進(jìn)行性能評(píng)價(jià),如果使用準(zhǔn)確率或者錯(cuò)誤率這樣單一的評(píng)價(jià)標(biāo)準(zhǔn)通常是無(wú)效的。本文實(shí)驗(yàn)采用準(zhǔn)確度和G-mean 來(lái)評(píng)估數(shù)據(jù)集的性能,G-mean 可以評(píng)價(jià)不平衡數(shù)據(jù)的模型表現(xiàn)。當(dāng)樣本都被劃分到同一個(gè)類(lèi)時(shí),G-mean 的值是0,表1 是二分類(lèi)混淆矩陣,G-mean 的計(jì)算公式是:

表1 二分類(lèi)混淆矩陣Table 1 Two-classification confusion matrix

3.3 參數(shù)設(shè)置和實(shí)驗(yàn)結(jié)果

3.3.1 參數(shù)設(shè)置

在20Newsgroups、Office-Home、DomainNet和Modern Office-31 數(shù)據(jù)集上,將提出的OTLMS_STO 算法與4 種遷移學(xué)習(xí)的基線(xiàn)算法進(jìn)行了對(duì)比實(shí)驗(yàn)。為了使比較更加公平,所有算法都采用了盡可能相似的實(shí)驗(yàn)設(shè)置。對(duì)于每批次少數(shù)類(lèi)樣本的k近鄰,OTLMS_STO 會(huì)自動(dòng)設(shè)置k值,保證生成的少數(shù)類(lèi)新樣本能夠使當(dāng)前批次的類(lèi)別分布相對(duì)均衡。由于高斯核函數(shù)的廣泛應(yīng)用,本文采用高斯核訓(xùn)練函數(shù),本文提出的算法也可以使用其他的核函數(shù),并且在[10-2,102]范圍中搜索最優(yōu)的帶寬σ。在3.3.7 小節(jié)的實(shí)驗(yàn)中分析了不同折衷參數(shù)C值帶來(lái)的實(shí)驗(yàn)性能的影響,并設(shè)置所有算法在全部數(shù)據(jù)集上的折衷參數(shù)C為5。根據(jù)文獻(xiàn)[20]對(duì)算法錯(cuò)誤界的分析,可以得到權(quán)重折扣參數(shù)β=,其中m是算法所犯的錯(cuò)誤數(shù),n是源分類(lèi)器的個(gè)數(shù)。

3.3.2 20Newsgroups數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果

表2 列出了20Newsgroups 數(shù)據(jù)集上多種比較算法的性能,評(píng)價(jià)指標(biāo)包括準(zhǔn)確率和G-mean。從實(shí)驗(yàn)結(jié)果可以觀察到,提出的OTLMS_STO 算法在4組學(xué)習(xí)任務(wù)中取得了比所有基線(xiàn)算法更好的性能。OTLMS_STO 算法的性能優(yōu)于PA 和PAIO,這表明提出的算法能有效地從多個(gè)源域中提取知識(shí)。在4 組任務(wù)中,提出的OTLMS_STO 算法比HomOTLMS 的結(jié)果更好,這是因?yàn)镠omOTLMS算法忽略了源域和目標(biāo)域數(shù)據(jù)類(lèi)別不平衡的問(wèn)題。比較算法OTLMS_IO 和OTLMS_FO 的性能要優(yōu)于HomOTLMS,但是兩個(gè)比較算法都只考慮了在目標(biāo)域中擴(kuò)增樣本,而提出的OTLMS_STO 算法在源域和目標(biāo)域的特征空間中擴(kuò)增少數(shù)類(lèi)的樣本。圖3 給出了4 組任務(wù)中不同算法的錯(cuò)誤率隨著樣本數(shù)增加而變化的折線(xiàn)圖。從圖3可以看出,隨著訓(xùn)練樣本數(shù)的增加,6種算法的錯(cuò)誤率也顯著降低。并且OTLMS_STO 算法在os_vs_crypt、mac_vs_med 和x_vs_space 的任務(wù)中始終比對(duì)比方法的錯(cuò)誤率低。其中,HomOTLMS、OTLMS_IO、OTLMS_FO和OTLMS_STO 算法在開(kāi)始樣本數(shù)少的時(shí)候有著更好的結(jié)果,這證明上述算法都可以有效地從多個(gè)源域提取知識(shí)。本文提出的OTLMS_STO 算法的錯(cuò)誤率在大多數(shù)任務(wù)上比其他算法更低,證明了提出的算法能有效改進(jìn)不平衡源域和目標(biāo)域。

圖3 20Newsgroups數(shù)據(jù)集上各算法隨樣本數(shù)增加的錯(cuò)誤率Fig.3 Error rate of each algorithm on 20Newsgroups dataset with increase of the number of samples

表2 在20Newsgroups數(shù)據(jù)集上應(yīng)用不同學(xué)習(xí)算法的結(jié)果(平均±標(biāo)準(zhǔn)差)Table 2 Results of different learning algorithms on 20Newsgroups dataset(mean±standard deviations) 單位:%

在圖像數(shù)據(jù)集Office-Home上進(jìn)行了33組實(shí)驗(yàn)任務(wù),表3 給出了所有對(duì)比算法在兩種指標(biāo)上的數(shù)值結(jié)果。其中,HomOTLMS、OTLMS_IO、OTLMS_FO和OTLMS_STO算法比普通的在線(xiàn)學(xué)習(xí)算法有著更好的性能,這表明從多個(gè)源域遷移知識(shí)有助于目標(biāo)域的預(yù)測(cè)。而OTLMS_STO、OTLMS_IO 和OTLMS_FO 比HomOTLMS 的評(píng)價(jià)更好,因?yàn)榍懊嫒N算法都考慮到目標(biāo)域類(lèi)別不平衡的情況。

表3 在Office-Home數(shù)據(jù)集上應(yīng)用不同學(xué)習(xí)算法的結(jié)果(平均±標(biāo)準(zhǔn)差)Table 3 Results of different learning algorithms on Office-Home dataset(mean±standard deviations) 單位:%

但是OTLMS_STO 算法的性能更優(yōu),該算法可以同時(shí)從源域和目標(biāo)域的核空間中擴(kuò)增少數(shù)類(lèi)的樣本,有效修正特征空間中的超平面,從G-mean 指標(biāo)能夠清晰看到分類(lèi)器的變化。圖4 展示三種主要算法在33 組任務(wù)上準(zhǔn)確率的柱狀圖,圖5 展示了33 組任務(wù)G-mean 指標(biāo)的折線(xiàn)圖。在絕大多數(shù)任務(wù)上,OTLMS_STO 算法的性能都要更優(yōu),并且對(duì)少數(shù)類(lèi)有著更好的效果。這表明提出的算法不僅能從多個(gè)源域遷移知識(shí),還能很好地應(yīng)對(duì)不平衡的數(shù)據(jù)集。

圖4 Office-Home數(shù)據(jù)集的33 組任務(wù)的準(zhǔn)確率Fig.4 Accuracy of 33 groups of tasks on Office-Home dataset

圖5 Office-Home數(shù)據(jù)集上各組任務(wù)的G-meanFig.5 G-mean of each group of tasks on Office-Home

3.3.4 DomainNet數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果

為了更好地驗(yàn)證OTLMS_STO 算法的性能,在圖像數(shù)據(jù)集DomainNet 上一共進(jìn)行了60 組實(shí)驗(yàn)任務(wù)。表4 給出了4 組任務(wù)的數(shù)值結(jié)果,實(shí)驗(yàn)結(jié)果中的數(shù)據(jù)顯然是支持提出的方法,并在所有任務(wù)中都獲得了超越對(duì)比算法的最優(yōu)性能。這表明提出的OTLMS_STO 算法能夠從多個(gè)源域提取有效知識(shí),并對(duì)于源域和目標(biāo)域不平衡的情況也有很好的效果。DomainNet 數(shù)據(jù)集一共包含5 個(gè)源域,組合源域和目標(biāo)域時(shí),目標(biāo)域所占的比重只有1/6,因此OTLMS_FO通過(guò)擴(kuò)增目標(biāo)域的樣本改進(jìn)目標(biāo)決策函數(shù)的性能一般。而提出的OTLMS_STO 算法可以在源域的核空間中合成少數(shù)類(lèi)樣本,然后使用增廣的核矩陣訓(xùn)練源域分類(lèi)器,通過(guò)組合多個(gè)源分類(lèi)器和目標(biāo)分類(lèi)器就能實(shí)現(xiàn)更好的性能。受空間性和可觀測(cè)性的影響,圖6 展示了PA、HomOTLMS 和OTLMS_STO 算法在45 組任務(wù)中的結(jié)果,而忽略了其他算法的結(jié)果。在大多數(shù)任務(wù)中,提出的算法都要優(yōu)于兩種比較算法。圖7展示了3種主要算法的G-mean值,結(jié)果表明提出的OTLMS_STO 算法能夠應(yīng)對(duì)不平衡的數(shù)據(jù),尤其對(duì)源域數(shù)量較多的數(shù)據(jù)集有著更好的性能。

圖6 DomainNet數(shù)據(jù)集的45 組任務(wù)的準(zhǔn)確率Fig.6 Accuracy of 45 groups of tasks on DomainNet dataset

圖7 DomainNet數(shù)據(jù)集上各組任務(wù)的G-meanFig.7 G-mean of each group of tasks on DomainNet dataset

表4 在DomainNet數(shù)據(jù)集上應(yīng)用不同學(xué)習(xí)算法的結(jié)果(平均±標(biāo)準(zhǔn)差)Table 4 Results of different learning algorithms on DomainNet dataset(mean±standard deviations) 單位:%

3.3.5 Modern Office-31 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果

在Modern Office-31 圖像數(shù)據(jù)集上一共進(jìn)行了20 組實(shí)驗(yàn)任務(wù)。表5 給出了在幾個(gè)隨機(jī)選擇的任務(wù)上使用所有算法的準(zhǔn)確率和G-mean 的數(shù)值結(jié)果。本文提出的OTLMS_STO 算法通過(guò)利用多個(gè)源域的有用信息來(lái)增強(qiáng)目標(biāo)域的分類(lèi)性能,因此在準(zhǔn)確率指標(biāo)上,OTLMS_STO 實(shí)現(xiàn)了具有競(jìng)爭(zhēng)力的性能。與此同時(shí),OTLMS_STO 在源域和目標(biāo)域的特征空間上對(duì)少數(shù)類(lèi)樣本進(jìn)行擴(kuò)增,同時(shí)改進(jìn)源域和目標(biāo)域的函數(shù),避免最終的集成決策函數(shù)偏向于多數(shù)類(lèi)別。從表5中觀察到,OTLMS_STO算法在G-mean指標(biāo)上達(dá)到了最優(yōu)的性能。

表5 在Modern Office-31 數(shù)據(jù)集上應(yīng)用不同學(xué)習(xí)算法的結(jié)果(平均±標(biāo)準(zhǔn)差)Table 5 Results of different learning algorithms on Modern Office-31 dataset(mean±standard deviations) 單位:%

圖8 展示了Modern Office-31 數(shù)據(jù)集上20 組實(shí)驗(yàn)任務(wù)在PA、HomOTLMS和OTLMS_STO算法上的平均準(zhǔn)確率結(jié)果。從圖中可以看到提出的OTLMS_STO算法在絕大多數(shù)的任務(wù)上都有著最優(yōu)的性能,這證明了提出的算法可以有效利用源域的知識(shí)來(lái)提高性能,并且證明了同時(shí)在源域和目標(biāo)域的特征空間中擴(kuò)增樣本對(duì)函數(shù)性能的有效性。圖9給出了20組實(shí)驗(yàn)任務(wù)在PA、HomOTLMS和OTLMS_STO算法上的G-mean結(jié)果,證明了OTLMS_STO應(yīng)對(duì)不平衡數(shù)據(jù)的有效性。

圖8 Modern Office-31 數(shù)據(jù)集的20 組任務(wù)的準(zhǔn)確率Fig.8 Accuracy of 20 groups of tasks on Modern Office-31 dataset

圖9 Modern Office-31 數(shù)據(jù)集上各組任務(wù)的G-meanFig.9 G-mean of each group of tasks on Modern Office-31 dataset

3.3.6 在全部數(shù)據(jù)集上準(zhǔn)確率的rank值

表6 給出了在3 種數(shù)據(jù)集上一共102 組實(shí)驗(yàn)任務(wù)準(zhǔn)確率的rank 值結(jié)果以及每個(gè)數(shù)據(jù)集上的平均rank值。在5 種算法的準(zhǔn)確率排名中,排名第一的rank 值為1,排名第二的rank 值為2,后面的以此類(lèi)推。對(duì)于20Newsgroups 數(shù)據(jù)集,task1~4 表示任務(wù)1、任務(wù)2、任務(wù)3和任務(wù)4,后面的1 1 1 1是task1~4 的rank值結(jié)果。從表格中可以看出,在絕大多數(shù)的任務(wù)中,提出的OTLMS_STO 算法的實(shí)驗(yàn)結(jié)果排名都處于第一名的位置,并且平均rank 值也有很好的表現(xiàn)。

表6 每組任務(wù)準(zhǔn)確率的rank 值以及平均rank值Table 6 Rank value and average rank value of task accuracy in each group

3.3.7 參數(shù)調(diào)整

本文提出的方法涉及一些可調(diào)參數(shù),包括折衷參數(shù)C。圖10展示了不同C值對(duì)20Newsgroups數(shù)據(jù)集的潛在影響。從圖中可以觀察到,OTLMS_STO 和其他方法的精度隨著不同的C而顯著變化。對(duì)于同一任務(wù),不同的算法在不同的C值上獲得最佳性能。從圖10 中可以得出結(jié)論,在不同的C值下,OTLMS_STO 算法比其他遷移學(xué)習(xí)算法更準(zhǔn)確且更加穩(wěn)定,這驗(yàn)證了所提出算法的有效性。在實(shí)驗(yàn)中,將所有算法的C值設(shè)為5。

圖10 20Newsgroups數(shù)據(jù)集上不同C 值的全部算法評(píng)價(jià)Fig.10 Evaluation of all algorithms with different C values on 20Newsgroups dataset

3.4 時(shí)間成本

為了評(píng)估提出算法隨著訓(xùn)練樣本增加的時(shí)間效率,本文在多個(gè)任務(wù)上測(cè)試了所有的算法。實(shí)驗(yàn)使用python 實(shí)現(xiàn),運(yùn)行在一臺(tái)6×2.6 GHz CPU 處理器和16 GB 內(nèi)存的Windows 機(jī)器上。本文算法的平均運(yùn)行時(shí)間記錄并總結(jié)在圖11 中。從圖中可以發(fā)現(xiàn),隨著樣本數(shù)量的增加,本文算法的平均運(yùn)行時(shí)間比其他算法花費(fèi)得更多。然而,考慮到更好的性能,增加的時(shí)間成本是可以接受的。

圖11 隨著樣本數(shù)增加的各個(gè)算法的時(shí)間成本Fig.11 Time cost of each algorithm with increase of the number of samples

4 結(jié)束語(yǔ)

本文考慮了不平衡數(shù)據(jù)的在線(xiàn)遷移學(xué)習(xí)問(wèn)題,其中目標(biāo)域的數(shù)據(jù)分批次到達(dá),并從多個(gè)離線(xiàn)源域中遷移知識(shí)。針對(duì)不平衡的源域,本文算法在源域的特征空間中擴(kuò)增少數(shù)類(lèi)樣本至源域類(lèi)別平衡,然后使用增廣的核矩陣訓(xùn)練源域,形成多個(gè)改進(jìn)后的離線(xiàn)源域分類(lèi)器。針對(duì)不平衡的目標(biāo)域,該算法從前面到達(dá)批次中的少數(shù)類(lèi)樣本中尋找當(dāng)前批次樣本中少數(shù)類(lèi)的k近鄰,然后使用合成的新樣本改進(jìn)目標(biāo)函數(shù)。最后組合多個(gè)改進(jìn)后的源分類(lèi)器和目標(biāo)分類(lèi)器進(jìn)行多源在線(xiàn)遷移學(xué)習(xí),并在文本和圖像數(shù)據(jù)集上進(jìn)行了廣泛的實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,提出的算法不僅能夠有效地從多個(gè)源域遷移知識(shí),而且能夠很好地應(yīng)對(duì)源域和目標(biāo)域的數(shù)據(jù)類(lèi)別分布不均衡的情況。本文研究了不平衡源域和目標(biāo)域的二值分類(lèi)問(wèn)題,多類(lèi)分類(lèi)問(wèn)題更具有挑戰(zhàn)性,離線(xiàn)函數(shù)和在線(xiàn)目標(biāo)函數(shù)要同時(shí)考慮多個(gè)類(lèi)以及其中類(lèi)別不平衡的情況。未來(lái)會(huì)繼續(xù)研究不平衡源域和目標(biāo)域的多分類(lèi)多源在線(xiàn)遷移學(xué)習(xí)問(wèn)題。

主站蜘蛛池模板: 久久这里只精品国产99热8| av无码久久精品| 青青久久91| 黄色一及毛片| 亚洲日韩精品综合在线一区二区| 夜夜高潮夜夜爽国产伦精品| 久夜色精品国产噜噜| 无码电影在线观看| 精品视频91| 黄色网页在线播放| 久久人搡人人玩人妻精品一| 日本久久久久久免费网络| 少妇人妻无码首页| AV熟女乱| 91美女在线| 美女视频黄又黄又免费高清| 国模私拍一区二区| 国产精品第一区在线观看| 麻豆精品久久久久久久99蜜桃| 欧美日韩91| 欧美精品亚洲日韩a| 国产黑丝视频在线观看| 九色在线观看视频| 亚洲日韩精品无码专区97| 深夜福利视频一区二区| 久久精品国产在热久久2019| 国产三级成人| 福利视频99| 一级毛片在线免费视频| 久久精品波多野结衣| 看你懂的巨臀中文字幕一区二区| jizz国产视频| 四虎成人精品在永久免费| 欧美特黄一级大黄录像| 无码高潮喷水专区久久| 99精品这里只有精品高清视频| 丝袜无码一区二区三区| 国产精品男人的天堂| 黄色网站在线观看无码| 暴力调教一区二区三区| 蜜臀av性久久久久蜜臀aⅴ麻豆| 99久久精品久久久久久婷婷| 伊人中文网| 中文字幕无码制服中字| 香蕉色综合| 97成人在线视频| 亚洲日本精品一区二区| 毛片基地视频| 欧美精品黑人粗大| 大陆精大陆国产国语精品1024| 亚洲爱婷婷色69堂| 久久伊人操| 久久青草热| 国产99在线| 日韩成人在线网站| 欧美日韩一区二区三| 91成人免费观看| 久久久久无码精品国产免费| 亚洲va欧美va国产综合下载| 亚洲福利一区二区三区| 久久婷婷五月综合97色| 欧美第一页在线| 国产精品无码在线看| 国产青榴视频| 亚洲精品中文字幕无乱码| 91久久偷偷做嫩草影院电| 人人看人人鲁狠狠高清| 久久精品一品道久久精品| 亚洲性影院| 丁香六月激情综合| 日韩精品一区二区三区视频免费看| 茄子视频毛片免费观看| 亚洲一区二区日韩欧美gif| 国产玖玖玖精品视频| 亚洲Aⅴ无码专区在线观看q| 国产精品太粉嫩高中在线观看| 天天色天天综合网| 国产精品久久久久鬼色| 国产真实二区一区在线亚洲| 亚洲精品视频网| 99精品免费在线| 亚洲福利网址|