999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

深度度量學習綜述

2019-02-27 08:53:28劉冰李瑞麟封舉富
智能系統學報 2019年6期
關鍵詞:特征

劉冰,李瑞麟,封舉富

(1.北京大學 信息科學技術學院,北京 100871; 2.北京大學 機器感知與智能教育部重點實驗室,北京 100871)

在機器學習領域,距離(distance)的概念從誕生之日起就一直有著廣泛的應用。它提供了一種數據間相似性的度量,即距離近的數據要盡可能相似,距離遠的數據要盡可能不同[1-2]。這種相似性學習的思想應用在分類問題上是著名的最近鄰(nearest neighbors, NN)[3]分類,該方法將待測樣本的類別分配為距其最近的訓練樣本的類別。這種最近鄰分類思想催生了距離度量學習(distance metric learning)的產生[4]。

歐氏距離作為一種簡潔有效的度量工具得到了度量學習算法的廣泛青睞,然而,單一形式的距離度量無法普適所有實際問題。因此,度量學習希望能夠結合數據自身特點,學習一種有效的度量方式,用于求解目標問題。

早期度量學習算法的產生,極大地改善了基于距離分類器的分類性能[5-6]、基于距離聚類的無監督問題[1]以及特征降維[7]的表現。而后,隨著深度學習[8-14]的飛速發展,結合深度神經網絡在語義特征抽取、端到端訓練優勢的深度度量學習,逐步進入人們的眼簾。

相比于經典度量學習,深度度量學習可以對輸入特征做非線性映射,在計算機視覺領域得到了廣泛的應用,例如:圖像檢索[15-16]、圖像聚類[17]、遷移學習[18-19]、驗證[20]、特征匹配[21]。除此之外,對于一些極端分類[22-24]任務(類別數目很多,但每類僅有幾個樣本),深度度量學習仍有不錯的表現。例如,基于深度度量學習,FaceNet[25]在8 M個個體、260 M 張圖像的人臉識別任務中,表現結果已經超越了人類水平。

標準的深度度量學習通過挖掘2 個[26]或3 個[25]正負樣本對來約束類內距、擴大類間距。這為訓練樣本的采樣帶來了挑戰:由于訓練樣本數量極多,因此只能挖掘有意義的樣本參與訓練。若負樣本選取過難,則易導致訓練不穩定;若選取過簡單,則易導致損失函數無梯度,不利于模型的收斂。

代理損失[16]的提出為每種類別分配了一個代理點,由于代理點數量遠遠小于樣本集合,因而可以完整存儲起來,在訓練過程中參與梯度回傳,從而為訓練過程提供了全局的語義信息,取得了更好的結果。

此外,我們發現改進后的代理近鄰損失與標準的分類任務有些相似:一方面,損失函數同時優化所有類別實現縮小類內距、擴大類間距;另一方面,如果我們移除了softmax 線性變換的偏置項[27],權重W的物理含義即為該類別的代理點。

標準分類任務結合softmax 與交叉熵建立損失函數,可以輸出特征向量分別屬于每一類的概率。然而softmax 不具有較強的判別性,因而很多算法提出溫度值概念[27-29],從特征梯度層面改進其性能,具體細節我們將在后文展開綜述。

度量學習起源于分類問題的最近鄰思想,經歷了逐步演化最終至代理近鄰損失函數。已有文獻[27]證明移除偏置項、正則化輸入特征x和權重W后的softmax 分類任務可視為基于代理點的度量學習。考慮到代理近鄰損失與softmax 的相關性—softmax 的權值可視為該類別學到的代理點,我們借鑒了帶溫度值的softmax 分類思想,將溫度值引入代理損失,從而進一步擴大類間距,提高了度量學習的判別性能。至此,我們將度量學習與分類這兩條看似獨立的分支建立了聯系,深入挖掘出二者背后統一的思想,可謂“殊途同歸”。

1 深度度量學習

在人臉識別、指紋識別等開集分類的任務中,類別數往往很多而類內樣本數比較少,在這種情況下基于深度學習的分類方法常表現出一些局限性,如缺少類內約束、分類器優化困難等。這些局限可以通過深度度量學習來解決:深度度量學習通過特定的損失函數,學習到樣本到特征的映射fθ(?)。在該映射下,樣本特征間的度量d(i,j)(通常為歐式距離便可以反映樣本間的相似程度:類內樣本對應的特征距離更近,類間樣本對應的特征距離更遠。

1.1 對比損失

對比損失(contrastive loss)[26,30]是深度度量學習的開篇之作,它首次將深度神經網絡引入度量學習。在此之前,經典度量學習最早應用于聚類問題[1],如:局部線性嵌入(locally linear embedding,LLE)[31]、Hessian 局部線性嵌入(Hessian LLE)[32]、主成分分析(principal component analysis, PCA)[33]等。它們通過定義樣本x和樣本y之間的馬氏距離d(x,y)=(x?y)TM(x?y),約束相似樣本馬氏距離小,不相似樣本馬氏距離大。其中M為馬氏距離,為d×d的半正定矩陣。相比于歐氏距離,馬氏距離考慮了特征之間的權重與相關性,且凸問題易被優化,因而得到了廣泛應用。

然而,傳統方法主要存在兩個弊端:一是依賴于原始輸入空間進行距離度量;二是不能很好地映射與訓練樣本關系未知的新樣本的函數。作者利用深度學習特征提取的優勢,將原始的輸入空間映射到歐氏空間,直接約束類內樣本的特征盡可能接近而類間樣本的特征足夠遠如式(1):

其中,若Xi與Xj類別編號相同則y(i,j)=1,否則y(i,j)=0。d(i,j)即為歐式距離,α控制類間樣本足夠遠的程度。

1.2 三元組損失

對比損失僅僅只約束類內對的特征盡量近而類間對的特征盡量遠,三元組損失(triplet loss)[5,25]在對比損失的基礎上進一步考慮了類內對與類間對之間的相對關系:首先固定一個錨點樣本(anchor),希望包含該樣本的類間對(anchornegative)特征的距離能夠比同樣包含該樣本的類內對(anchor-positive) 特征的距離大一個間隔(margin),如式(2):

式中Xa、Xp、Xn分別為錨點樣本、與錨點樣本同類的樣本以及與錨點樣本異類的樣本;m即為間隔。

然而,對于三元組的選取,采樣策略是至關重要的:假設訓練集樣本數為n,那么所有的三元組組合數為O(n3),數量非常龐大。其中存在大量的平凡三元組,這些平凡三元組類間對的距離已經比類內對的距離大一個間隔,它們對應的損失為0。簡單的隨機采樣會導致模型收斂緩慢,特征不具有足夠的判別性[14,34-35]。因此一種合理的解決方案是僅挖掘對訓練有意義的正負樣本,也稱為“難例挖掘”[25,36-39]。例如:HardNet[36]旨在在一個訓練batch 中挖掘一些最難的三元組。然而如果每次都針對錨點樣本挖掘最困難的類間樣本,模型又很容易坍縮。因此,文獻[25]提出了一種半難例(semi-hard)挖掘的方式:選擇比類內樣本距離遠而又不足夠遠出間隔的類間樣本來進行訓練。

1.3 提升結構化損失

由于三元組損失一次采樣3 個樣本,雖然能夠同時考慮類內距、類間距以及二者的相對關系,但該損失沒有充分利用訓練時每個batch 內的所有樣本,因此文獻[18]提出在一個batch 內建立稠密的成對(pair-wise)的連接關系,具體實現是:對于每一個類內對,同時選擇兩個難例,一個距離xa最近,一個距離xp最近。提升結構化損失(lifted structured loss)[18]對應的損失函數為

這種設計結構性損失函數,以在一個訓練batch 中考慮所有可能的訓練對或三元組并執行“軟化的”難例挖掘在文獻[40]中也得到了相似的應用。

1.4 多類N 元組損失

Sohn 等[15]將對比損失和三元組收斂比較慢的原因歸結于訓練時每次只挖掘一個負樣本,缺少了與其他負樣本交互過程。因此他們提出多類N元組損失(multi-classN-pair loss)[15]:同類樣本的距離不應每次只小于一組類間距,而應同時小于n-1 組類間距離,從而實現類內對相似度顯著高于所有類間對相似度。損失函數的設計借鑒了(neighborhood component analysis, NCA)[6]的表達形式,具體如式(4)所示:

式中:i,j表示同類樣本;k表示不同類樣本;P為一個batch 內的所有正樣本;m為batch size 的大小。另一方面,為了使分類面只與向量Xi的方向有關,與模長無關,作者對一個batch 內的所有輸入特征Xi利用L2正則化。

1.5 成對聚類損失

由于三元組損失[25]在錨點選取時的任意性,因此有些不滿足類間距>類內距+間隔的樣本,可能并沒有被挖掘到,如圖1 所示。

圖1 構建三元組時的兩種不同方法[41]Fig.1 Two different cases when building triplets[41]

若樣本以左側方式組合,則負樣本很易被檢測到,從而距離得到優化;但若以右邊方式設置錨點、正樣本,則負樣本由于滿足約束,因而loss 為0,導致同類物體的距離沒有被拉近,這一定程度上減緩了收斂的速度。這說明三元組損失對錨點的選取十分敏感,考慮到相似樣本應該聚集成簇[42],不同類樣本應保持相對較遠,因此他們[36]提出成對聚類損失函數(coupled clusters loss,CCL)為同類樣本估計了一個類內中心c p:

從而希望所有的正樣本到聚類中心c p的距離加間隔α小于其他類間樣本到聚類中心c p的距離,對應的損失函數為

式中:為正樣本;為負樣本;Np為同類正樣本的數目;c p為正樣本的聚類中心。

1.6 中心損失

處理開集識別問題的深度特征,不僅需要具有可分離性(separable),還應具有判別性(discriminative)。可判別性特征可以很好地容忍類內變化、分離類間變化,進而可以應用在最近鄰(nearest neighbor, NN)[3]和k近鄰(k-nearest neighbor,k-NN)[43]算法中。然而,softmax loss 僅能約束特征具有可分離性、不具有判別性,因此為CNN設計一個有效的損失函數是極為重要的。

中心損失(center loss)[44]結合了成對聚類損失(CCL)和softmax loss 的優勢,用CCL 約束類內,softmax 約束類間。具體做法是:為每一類特征學習一個聚類中心,隨著訓練的進行,同步更新類內中心以及最小化特征與對應中心的距離。將聚類的loss 與softmax 聯合訓練,利用超參平衡兩個監督信號的權重。主觀上,softmax 損失可以分離不同類別特征,center loss 可以使同類特征聚在一起中心點周圍,從而擴大類間距、縮小類內距,學到了更具有判別性的深度特征。對應的損失函數為

其中cyi表示第yi類深度特征中心。

1.7 設備定位損失

Oh 等[45]認為,當前存在的大多數方法[15,18,25,46]通常只關注數據的局部區域(如:二元組、三元組或n元組),并沒有考慮到全局的結構信息,因而降低了聚類和檢索的表現。

作者指出,一旦正樣本對距離較遠且二者之間被其他類別的負樣本間隔開,那么正樣本對間相互吸引的梯度信號被負樣本相互排斥的梯度信號所超過,從而同類樣本很難聚成一類,而被錯誤地分開成了兩類。因此,他們提出一組聚類損失—設備定位損失(facility location loss)[45]來解決這個問題。

式(8)也被稱為設備定位函數(facility location function),現已被廣泛應用于數據求和[48-49]與聚類。

由于最大化式(8)是一個NP-hard 問題[50-51],因此作者通過對子模塊的貪婪求解,找到了一個完備的優化下界,復雜度為具體方法是:通過設計一個打分函數,基于真實類別標簽y*來評估聚類的好壞,對應的公式為

由于希望打分函數越大越好,因此借鑒三元組損失的間隔思想,F比相差一個間隔即

其中,

其中,NMI 表示正則化互信息(normalized mutual information, NMI)[52]。由于這種聚類方法在特征空間中有一個全局的感受野,因此可以解決局部最優的問題。聚類的損失函數可以約束全局樣本向類內中心靠攏、間隔項中的NMI 矩陣可以使不同類別遠離。

1.8 代理損失

為了克服三元組樣本對采樣困難的問題,代理損失[16]提出了一種用小規模的代理點來代替大規模的原始樣本點的方法:將原始樣本用代理點來近似,這樣約束類內對和類間對的距離便可以轉化為約束錨點樣本與同類樣本對應代理點和錨點與異類樣本對應代理點的距離。隨著訓練的進行,樣本的特征與代理點都獲得更新。

假設原始樣本點和代理點的集合分別為X,P,且有如下兩種分配代理點的方式:1)動態分配策略:選取距該樣本最近的代理點作為代表該樣本的代理點(式(12));2)靜態分配策略:選取與樣本類別數相同的代理點數目,某一類樣本被固定分配至對應該類別的代理點。

代理損失借鑒了近鄰成分分析(neighborhood component analysis, NCA)[6]的思路,希望錨點樣本與其同類代理點的距離盡可能近而與其異類代理點的距離盡可能遠:

圖2 展示了三元組損失與代理損失在優化時的差別,代理點的設定使得“樣本對”的數量大大減少:對于每一個錨點樣本,圖(a) 中可以組成12 個三元組,而圖(b)中僅存在2 個錨點?代理點對,樣本挖掘的困難很大程度被克服了。

圖2 三元組損失VS 代理損失示意圖Fig.2 Triplet loss VS proxy loss

另一方面,作者也論證了代理損失與三元組損失的優化目標是一致的,通過三角不等式證明了代理損失是三元組損失的上界。

1.9 其他損失

除此之外,最近還有一些使用深度網絡進行度量學習的工作。Hershey 等[17]在二值化的真實標簽和成對估計的親和度矩陣之間的殘差上使用了Frobenius 范數;他們將此應用于語音譜信號聚類。然而,直接使用Frobenius 范數是次優的,因為它忽略了親和矩陣是正定的這一事實。為了克服這個問題,矩陣反向傳播[53]首先將真實和預測的親和度矩陣投影到歐氏空間。然而,這種方法需要計算數據矩陣的特征值分解,具有數據樣本量三次方的時間復雜度,因此對于大數據問題不適用。Ranked loss[54]則是從秩的角度優化距離度量。

2 深度度量學習與softmax 分類

利用深度神經網絡的倒數第二層(也叫瓶頸層)特征,搭配softmax 與交叉熵損失訓練得到的分類器,同樣適用于許多基于深度度量學習的應用[55],例如諸如:物體識別[17,51-58]、人臉驗證[59-61]、手寫數字識別[62]等。然而,分類器訓練與度量學習的目標實際是不同的[29]。前者旨在尋找最佳分類面,而后者旨在學習特征嵌入,使得相同類別的樣本嵌入是緊湊的,而不同類別的樣本嵌入是遠離的。這促使我們研究度量學習和分類器訓練之間的關系。

2.1 代理損失與softmax 的關系

如果我們將代理近鄰損失式(13)的分母中加入正樣本項,則變為

這樣log 函數內的式子可以看成是樣本被分配到其對應代理點的概率,這里用q來表示概率即:

這樣式(14)可以看作上述后驗概率結合交叉熵損失以及類別標簽所得。

代理損失與softmax 不同之處在于,softmax將樣本經過線性變換wx+b之后進行歸一化作為后驗概率,而此處則是將樣本與對應代理點的距離d2(x,pi)進行歸一化作為后驗概率。如果我們將樣本特征以及代理點的模長固定為常數s,有:

代入到式(15)中:

可以看作將線性變換參數的模長固定且去掉偏置項的softmax,這與Zhai 等[27]的發現也是一致的。由此,我們在度量學習中的代理損失與softmax 分類之間建立了聯系。

2.2 溫度放縮

softmax 損失函數對不同類別的特征有著較好的分離性,卻不具有足夠的判別性。因此,現階段的工作提出了幾種變體[44,63-71]來增強其判別性。最早在2015 年,Hinton 為解決模型壓縮[72]、知識遷移等問題,提出了溫度值[28]的概念。他認為不同類別間的關系不應是非0 即1 的問題(如:將貓誤判為狗的損失直觀上應該要比將貓誤判為汽車的損失小),因此,粗暴地使用one-hot 編碼丟失了類間和類內關聯性的額外信息。由此作者提出帶溫度值的softmax 函數,弱化不同類別之間的差異。損失函數:

式中:zi為logit,即為軟化后的類別標簽;qi為壓縮模型的輸出。由式(14)可知,當T=1 時,恢復到普通的softmax 變換。文中令T>1,就得到了軟化后的softmax。這一思想在Zhai 等[27]的實驗中得到了進一步驗證。

文獻[27]通過移除最后一層的偏置項,并對權重與輸入特征施加L2正則,從而完成了將任意分類網絡向基于代理損失的度量學習轉換的過程。考慮到在高維空間中,單位球面上兩個樣本點之間的距離接近正態分布其中dim 表示特征維數[28]。為了使網絡對類別差異變化更敏感,他們引入溫度值 放縮余弦距離:

σ

作者在CUB-200-2011[73]數據集上,探索了不同溫度參數 σ 對實驗結果的影響,如表1 所示。

表1 不同溫度值下Recall@1 結果Table 1 Recall@1 on CUB-200-2011 dataset across varying temperature

由表1 可知,與Hinton[28]的思想一致,當溫度值 σ<1 時,類別間差異放大,學到的特征具有更強的判別性,當溫度值 σ=1 時,判別性能急劇下降;類似地,溫度值太低也會降低性能。然而,針對這一現象,本文作者并未做出合理的解釋。

Zhang 等[29]從樣本特征梯度的角度分析了溫度值如何影響特征分布。為方便起見,作者令 α =1/T,即:

式中:m為類別數為模型softmax 預測概率輸出。假設p(m|x)為訓練樣本真實分布,則可得到交叉熵損失函數:

進而得到對特征f的梯度:

3 結束語

本文綜述了最近的一系列具有代表性的深度度量學習算法的文章,并探討了其與softmax 分類的關系。深度度量學習最早源于對比損失,由于未同時兼顧類內與類間的相對關系,進而衍生出改進后的三元組損失。由于成對的二元組、三元組樣本數量極多,難例挖掘、半難例挖掘等采樣策略針對正負樣本采樣問題起著關鍵作用。為減輕采樣負擔,許多結構化的損失函數,利用batch 內更豐富的樣本間結構關系來設計損失函數,約束特征。還有一些基于聚類思想的損失函數,如:中心損失、代理損失等,為每類樣本學習一個代理點,從而大大減少了類間樣本數量,使模型更易優化。

綜述中,我們發現搭配softmax 與交叉熵損失訓練得到的分類器,同樣適用于許多基于深度度量學習的任務,這促使我們研究度量學習和分類器訓練之間的關系。隨著研究的深入,我們發現代理損失與softmax 分類這兩條看似平行的研究思路,實則背后有著一致的思想。針對softmax 判別性不高的缺點,許多算法引入溫度值概念,對原始的softmax logit 作出改造,并取得了很好的實驗結果。在未來的研究中,我們希望繼續深入探索二者之間的關系。例如,我們可以將softmax 變體中間隔margin 的概念引入代理近鄰損失,從而進一步縮小類內距離、擴展類間距。

猜你喜歡
特征
抓住特征巧觀察
離散型隨機變量的分布列與數字特征
具有兩個P’維非線性不可約特征標的非可解群
月震特征及與地震的對比
如何表達“特征”
被k(2≤k≤16)整除的正整數的特征
中等數學(2019年8期)2019-11-25 01:38:14
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
詈語的文化蘊含與現代特征
新聞傳播(2018年11期)2018-08-29 08:15:24
抓住特征巧觀察
基于特征篩選的模型選擇
主站蜘蛛池模板: 国产丝袜91| 亚洲欧美激情小说另类| 99热精品久久| 丁香亚洲综合五月天婷婷| 免费看一级毛片波多结衣| 又黄又湿又爽的视频| 人人妻人人澡人人爽欧美一区 | 国产在线视频福利资源站| 在线国产资源| 国产精品亚洲一区二区三区在线观看| 亚洲精品成人片在线观看| 国产精品成人AⅤ在线一二三四| 国产成人精品亚洲日本对白优播| 国产精品天干天干在线观看| 国产成人无码播放| 青青操国产| 国产美女在线免费观看| 中文字幕欧美日韩| 99视频精品在线观看| 婷婷色狠狠干| 亚洲国产天堂在线观看| 久久综合九九亚洲一区| 色播五月婷婷| 日韩精品一区二区三区免费| 亚洲欧美另类视频| 综合成人国产| 欧美午夜网| 午夜啪啪网| 狠狠色婷婷丁香综合久久韩国| 国产一级毛片网站| 国产成人精品视频一区二区电影| 青草视频在线观看国产| 久久激情影院| 日本一区二区不卡视频| 成人午夜视频免费看欧美| 精品视频91| 亚洲大尺度在线| 毛片免费在线视频| 欧美日本二区| 超碰91免费人妻| 亚洲欧洲天堂色AV| 日本不卡在线| 亚洲天堂网在线观看视频| 中文字幕在线一区二区在线| 欧美在线导航| 欧美成人看片一区二区三区 | www.亚洲一区| 影音先锋亚洲无码| 国产自在线播放| 色天天综合久久久久综合片| 99久视频| 伊人久久大线影院首页| 亚洲精品久综合蜜| 97在线观看视频免费| 亚洲精品777| 91人人妻人人做人人爽男同| 中国国产A一级毛片| 国产精品99一区不卡| 国产成人禁片在线观看| 亚洲精品欧美日本中文字幕| 国产美女丝袜高潮| 欧美午夜理伦三级在线观看| 成人午夜免费观看| 欧美69视频在线| 永久毛片在线播| 午夜毛片福利| 久久99热这里只有精品免费看| 真实国产精品vr专区| 国产成人1024精品| 99久久这里只精品麻豆| 日韩一级二级三级| AV天堂资源福利在线观看| 午夜日本永久乱码免费播放片| 欧美一级专区免费大片| 国产网站免费观看| 久久久久88色偷偷| 白浆视频在线观看| 九九免费观看全部免费视频| 中日韩一区二区三区中文免费视频| 97久久免费视频| 91视频精品| 国产精品一区二区国产主播|