史澤林,劉天賜,劉云鵬
(1.中國科學(xué)院沈陽自動(dòng)化研究所·沈陽·110016; 2. 中國科學(xué)院機(jī)器人與智能制造創(chuàng)新研究院·沈陽·110169; 3. 中國科學(xué)院光電信息處理重點(diǎn)實(shí)驗(yàn)室·沈陽·110016)
在計(jì)算機(jī)視覺中,基于黎曼幾何的流形方法已成為了一個(gè)重要的研究方向。其前提是數(shù)據(jù)滿足流形假設(shè),即呈現(xiàn)在高維空間中的源自現(xiàn)實(shí)世界的真實(shí)數(shù)據(jù)往往分布在一個(gè)低維流形空間上,流形的維度與其所“嵌入”的高維歐氏空間的維度相比要低很多。這種先驗(yàn)假設(shè)似乎特別適合于完成人工智能(Artificial Intelligence, AI)領(lǐng)域的相關(guān)任務(wù),如涉及圖像、聲音或文本識(shí)別處理等的工作任務(wù)。因此,研究人員很自然地考慮到用流形來表示輸入空間的變化分布,從數(shù)據(jù)的流形觀點(diǎn)出發(fā),對(duì)數(shù)據(jù)潛在的流形結(jié)構(gòu)進(jìn)行建模。這一方法論充分利用了黎曼流形的幾何性質(zhì),因而又被稱作黎曼幾何流形方法,即黎曼流形方法。
在圖像分析領(lǐng)域中,有學(xué)者將特征協(xié)方差矩陣作為區(qū)域描述子[1]。此時(shí),該描述子即為分布在正定對(duì)稱矩陣流形上的數(shù)據(jù)點(diǎn)。例如,對(duì)于圖像集合而言,用子空間來表示圖像集是一種常見的方法[2]。此時(shí),用來表示圖像集合的子空間便可被視為分布在Grassmann流形[3]上的數(shù)據(jù)點(diǎn)。這樣,圖像集合也可被視為分布在Grassmann流形上的不同的數(shù)據(jù)點(diǎn)。
本文重點(diǎn)介紹了黎曼流形方法在計(jì)算機(jī)視覺領(lǐng)域中的研究現(xiàn)狀。首先,簡(jiǎn)要介紹了黎曼流形的一些重要概念,并結(jié)合若干典型視覺任務(wù),介紹了幾種常用的黎曼流形;隨后,就黎曼流形的視覺應(yīng)用,總結(jié)了目前國內(nèi)外相關(guān)的研究現(xiàn)狀及具有代表性的工作,著重介紹了近幾年來黎曼流形與深度學(xué)習(xí)相結(jié)合的研究進(jìn)展;最后,對(duì)在機(jī)器學(xué)習(xí)領(lǐng)域中引入黎曼流形的未來發(fā)展方向進(jìn)行了討論。
拓?fù)淞餍危?jiǎn)稱流形,是在局部與歐氏空間同胚的拓?fù)淇臻g,而微分流形是具有全局可定義微分結(jié)構(gòu)的拓?fù)淞餍巍?duì)于微分流形而言,流形上每個(gè)點(diǎn)都對(duì)應(yīng)著切空間,該點(diǎn)的切空間是由經(jīng)過該點(diǎn)所有曲線的切向量組成的向量空間。
黎曼流形是一種特殊的微分流形,即一種具有黎曼度量的微分流形。具體而言,黎曼流形在其上的每個(gè)點(diǎn)的切空間中均賦予了相應(yīng)內(nèi)積,而所有切空間上對(duì)應(yīng)的內(nèi)積便被稱作黎曼度量。黎曼度量是黎曼流形最重要的性質(zhì),它使我們能夠在流形上定義各種幾何概念,例如兩條曲線之間的角度和曲線的長(zhǎng)度。對(duì)于黎曼流形而言,將流形上兩點(diǎn)之間的最短距離定義為連接兩點(diǎn)間的最短曲線的長(zhǎng)度,并將該最短距離稱為測(cè)地距離;相應(yīng)地,連接此兩點(diǎn)的最短曲線則被稱作測(cè)地線,該最短曲線類似于歐氏空間中兩點(diǎn)間的直線段。由黎曼度量推導(dǎo)出的測(cè)地距離是度量黎曼流形上兩點(diǎn)之間距離的最本質(zhì)的幾何度量,在圖像處理和模式識(shí)別領(lǐng)域中有著重要應(yīng)用。
定義1:設(shè)M是m維光滑流形,對(duì)于流形上的任一點(diǎn)x∈M,存在切空間TxM,其上切向量長(zhǎng)度的定義為對(duì)M的每個(gè)切空間TxM賦予一個(gè)內(nèi)積g(x)=<,>x:TxM×TxM→R。任意的切向量U,V∈TxM,若滿足以下性質(zhì):
? 對(duì)稱性:g〈U,V〉x=g〈V,U〉x;
? 正定性:g〈U,U〉x>0,如果X≠0
則稱(M,g)為一個(gè)m維黎曼流形,g稱為黎曼度量。
在黎曼流形(M,g)上,曲線γ:[a,b]→M的長(zhǎng)度為
(1)
而黎曼流形(M,g)上的任意兩點(diǎn)x,y∈M的黎曼距離為

(2)
式(2)中,Γ是M上連接點(diǎn)x和點(diǎn)y的所有曲線的集合。其中,黎曼距離滿足以下性質(zhì):
?正定性:dist(x,y)≥0。其中,當(dāng)且僅當(dāng)x=y時(shí),有dist(x,y)=0;
?對(duì)稱性:dist(x,y)=dist(y,x);
?三角不等性:dist(x,z)+dist(z,y)≥dist(x,y)
測(cè)地線指的是連接任意兩點(diǎn)x,y∈M的所有連續(xù)可微曲線γ:[a,b]→M中長(zhǎng)度最小的曲線,即

(3)
從圖像的幾何角度出發(fā),測(cè)地線距離為圖像集合的內(nèi)在關(guān)系在流形空間上的度量。
給定黎曼流形M上的任意兩點(diǎn)X,Y∈M,X和Y之間的最短路徑定義為連接這兩點(diǎn)的測(cè)地線γ(t),t∈[0,1]。切空間TXM是由所有切向量V∈TXM構(gòu)成的。其中,切向量V的長(zhǎng)度等于流形M上點(diǎn)X和點(diǎn)Y之間測(cè)地線的長(zhǎng)度。黎曼對(duì)數(shù)映射RlogX:M→TXM通過映射RlogX(Y)=V將點(diǎn)X和點(diǎn)Y之間的測(cè)地線(如圖1中的虛線所示)從流形M映射到切空間TXM中,而黎曼指數(shù)映射RexpX:TXM→M通過映射RexpX(V)=Y,將切向量V映射回原始的流形空間。在黎曼流形中,通過這一方法,流形上測(cè)地線的長(zhǎng)度等價(jià)于根據(jù)黎曼對(duì)數(shù)映射在切空間中獲得的對(duì)應(yīng)切向量的長(zhǎng)度。即對(duì)于流形上的任意兩點(diǎn)X,Y∈M,結(jié)合測(cè)地線和黎曼指數(shù)映射可知,黎曼流形上兩點(diǎn)間測(cè)地距離的計(jì)算公式為

(4)

圖1 黎曼流形上的指數(shù)映射和黎曼對(duì)數(shù)映射示意圖Fig.1 Schematic diagram of exponential mapping and Riemannian logarithmic mapping on Riemannian manifolds
對(duì)于計(jì)算機(jī)視覺而言,許多視覺數(shù)據(jù)與黎曼流形有著密不可分的聯(lián)系。例如:在目標(biāo)跟蹤過程中,圖像的幾何變換構(gòu)成SL(3)群;圖像序列和視頻可以依據(jù)特征子空間進(jìn)行建模,從而具有Grassmann流形結(jié)構(gòu);在圖像處理與模式識(shí)別領(lǐng)域中,協(xié)方差矩陣作為圖像的特征表征,具有良好的正定對(duì)稱結(jié)構(gòu),進(jìn)而可以利用正定對(duì)稱進(jìn)行流形建模。總體而言,圖像與黎曼流形的關(guān)系主要體現(xiàn)在兩個(gè)方面,一方面是圖像中目標(biāo)發(fā)生的幾何變換在流形空間中的分布;另一方面,是圖像特征空間構(gòu)成了圖像在黎曼流形空間中的幾何分布。接下來,總結(jié)了在計(jì)算機(jī)視覺領(lǐng)域中被廣泛應(yīng)用的幾種李群及黎曼流形,以此來具體介紹黎曼幾何與圖像的關(guān)系。
在計(jì)算機(jī)視覺中,在跟蹤和檢測(cè)目標(biāo)時(shí),目標(biāo)不可避免地會(huì)經(jīng)歷幾何變換。考慮到圖像的幾何結(jié)構(gòu),可以通過某些具有群結(jié)構(gòu)的運(yùn)動(dòng)變換群來描述視覺模式的特征[4-5]。對(duì)圖像中的幾何變換群進(jìn)行分析,在包括目標(biāo)跟蹤、目標(biāo)檢測(cè)和圖像配準(zhǔn)等[6-9]在內(nèi)的許多視覺任務(wù)中均有著廣泛應(yīng)用。
在計(jì)算機(jī)視覺中,可以通過齊次坐標(biāo)系下的線性方程來表示圖像的幾何變換,相應(yīng)的幾何變換矩陣可以用一個(gè)3×3的非奇異矩陣表示,該矩陣被稱為單應(yīng)矩陣。具體而言,給定任意的圖像I1,其灰度值可表示為I1(p),而I1經(jīng)過幾何變換后的圖像I2的灰度值可表示為I2(T(p;r))。相應(yīng)地,兩幅圖像的灰度值關(guān)系可用下列線性方程表示
I2(T(p;r))=I1(p)
(5)
在這種情況下,經(jīng)過幾何變換后的圖像像素間的關(guān)系可表示為
(6)
式(5)表示的是變換后的圖像相對(duì)于原始圖像的幾何變換,且p=(x,y)T是圖像像素的位置坐標(biāo),r=(r1,r2,…,r8)T表示的是對(duì)應(yīng)的參數(shù)向量。
因此,單應(yīng)矩陣的定義如下
(7)
進(jìn)而,歸一化后的單應(yīng)矩陣具有了特殊線性群的流形結(jié)構(gòu),構(gòu)成了具有以下結(jié)構(gòu)的李群
SL(3,R)={X∈GL(3,R):det(X)=1}
(8)
式(8)中,GL(3,R)是由可逆的3 × 3實(shí)矩陣組成的一般線性群。
李群是具有黎曼流形可微分結(jié)構(gòu)的矩陣?yán)钊? 可以將其理解為一種特殊的黎曼流形。同一目標(biāo)在不同角度下獲得的圖像,其圖像間經(jīng)歷的幾何變換構(gòu)成的幾何變換矩陣,分布在黎曼流形空間中。針對(duì)圖像幾何變換與黎曼流形的關(guān)系的研究,文獻(xiàn)[4]通過建立目標(biāo)在圖像中經(jīng)歷的幾何變換矩陣的可視化模型,直觀驗(yàn)證了圖像幾何變換在流形空間中的幾何分布,揭示了圖像與黎曼流形之間的內(nèi)在聯(lián)系,其目標(biāo)的圖像幾何變換的可視化結(jié)果如圖2所示:(a)為體育場(chǎng)目標(biāo)在不同距離下的拍攝圖像;(b)為在不同距離下成像的目標(biāo)圖像間的幾何變換關(guān)系所對(duì)應(yīng)的可視化結(jié)果。在圖2(b)中,其坐標(biāo)軸對(duì)應(yīng)三維空間中的虛擬坐標(biāo),其點(diǎn)間距離反映了圖像幾何變換的劇烈程度。

(a)

(b)圖2 圖像幾何變換的可視化結(jié)果Fig.2 Visualization results of image geometric transformation
近年來,利用特征協(xié)方差矩陣描述目標(biāo)的目標(biāo)建模方法受到日益廣泛的關(guān)注。如圖3所示,用目標(biāo)的灰度、梯度、小波和空域信息等多種特征構(gòu)建協(xié)方差矩陣以描述目標(biāo),特征協(xié)方差矩陣的集合構(gòu)成了正定對(duì)稱流形。正定對(duì)稱(Symmetry Positive Definite,SPD)流形在計(jì)算機(jī)視覺領(lǐng)域中有著各種各樣的應(yīng)用[10]。比如,特征協(xié)方差矩陣可被應(yīng)用在目標(biāo)檢測(cè)[11]、紋理分類[12-13]、動(dòng)作識(shí)別[14-15]等領(lǐng)域,分散張量成像(Diffusion Tensor Imaging,DTI)是SPD流形的另一個(gè)主要應(yīng)用方向[16]。關(guān)于正定對(duì)稱流形的幾何學(xué)論述可參見文獻(xiàn)[17-18],其給出了正定對(duì)稱流形上的黎曼指數(shù)映射及其逆映射的解析表達(dá)式。特別地,文獻(xiàn)[17]給出了正定對(duì)稱流形上的兩種不同的數(shù)學(xué)結(jié)構(gòu),即具有仿射不變黎曼度量的普通黎曼結(jié)構(gòu)和具有雙不變黎曼度量的新的李群結(jié)構(gòu)。需要特別指出的是,后者并不是普通意義上的矩陣?yán)钊海渖系碾p不變黎曼度量的存在使得流形上的測(cè)地距離和黎曼均值的計(jì)算變得十分簡(jiǎn)單。另外,文獻(xiàn)[19]研究了正定對(duì)稱流形上的多變量正態(tài)分布,分析了黎曼曲率對(duì)正態(tài)分布的影響,值得關(guān)注。

圖3 目標(biāo)的特征協(xié)方差矩陣建模Fig.3 Target characteristic covariance matrix modeling
當(dāng)所涉及數(shù)據(jù)集的單個(gè)數(shù)據(jù)均位于某個(gè)線性空間的子空間時(shí),可用格拉斯曼(Grassmann)流形描述該數(shù)據(jù)集。Grassmann流形主要可用于對(duì)圖像集和視頻進(jìn)行建模,圖像集合間的內(nèi)在關(guān)系可以表示在流形空間上,圖像在黎曼流形上的空間分布如圖4所示。利用Grassmann流形對(duì)圖像進(jìn)行建模具有不受光照條件、拍攝角度影響等優(yōu)點(diǎn),進(jìn)而可被廣泛地應(yīng)用在人臉識(shí)別[20-21]、動(dòng)作識(shí)別[22]和運(yùn)動(dòng)群分析[23]等方向。在基于圖像集的人臉識(shí)別中,同一個(gè)人的人臉圖像集被表示為線性子空間。由于線性子空間具有嚴(yán)格的Grass-mann流形結(jié)構(gòu),可以將這些人臉圖像集表示為Grassmann流形上的數(shù)據(jù)點(diǎn)。比如,在寬松的假設(shè)下,同一目標(biāo)(如人臉)在變化的光照條件下,所得到圖像的集合分布在一個(gè)多維子空間中[24],全部的子空間集合構(gòu)成 Grassmann 流形。如圖5所示,假設(shè)每幅圖像的大小是n×n,每組圖像集有p幅圖像,則圖中的四組圖像集分別對(duì)應(yīng) Grassmann 流形G(n2,p)上的四個(gè)點(diǎn)。文獻(xiàn)[25]綜合核函數(shù)方法和稀疏編碼的優(yōu)點(diǎn),拓展核稀疏子空間聚類模型至Grassmann流形,將稀疏子空間聚類方法與核函數(shù)方法相結(jié)合,學(xué)習(xí)Grassmann流形的核稀疏表示,提出了一種基于Grassmann流形的圖像集聚類方法,用于人臉聚類。在動(dòng)作識(shí)別中,特征子空間則由包含特定動(dòng)作的圖像序列計(jì)算獲得。文獻(xiàn)[26]從黎曼流形的幾何角度出發(fā),提出了一種從流形到流形的Grassmann幾何降維方法。該模型提出了一種具有正交約束的降維方法,進(jìn)而將降維問題轉(zhuǎn)化為Grassmann流形上的優(yōu)化問題,在降維的同時(shí)提升了動(dòng)作識(shí)別的識(shí)別效果。關(guān)于 Grassmann 流形的數(shù)學(xué)分析及幾何屬性,詳見文獻(xiàn)[27]和文獻(xiàn)[28] 。文獻(xiàn),給出了關(guān)于 Grassmann 流形的不同理解和矩陣描述,以及 Grassmann 流形上的黎曼指數(shù)映射和對(duì)數(shù)映射,還特別分析了 Grassmann 流形上的各種優(yōu)化算法。許多計(jì)算機(jī)視覺領(lǐng)域的相關(guān)文獻(xiàn)(如文獻(xiàn)[29]和文獻(xiàn)[30])引用了 Grassmann 流形上的各種距離度量,有關(guān)這些距離度量的理論分析均源自關(guān)于 Grassmann 流形微分幾何學(xué)的文獻(xiàn)[31]。目前,針對(duì)Grassmann 流形方法的應(yīng)用研究方興未艾,這些研究包括通信信道中的最優(yōu)預(yù)測(cè)和編碼問題,航天飛機(jī)外形設(shè)計(jì)中的流形插值運(yùn)算,以及運(yùn)動(dòng)分割問題所涉及到的流形聚類問題等。

圖4 圖像在黎曼流形上的空間分布Fig.4 Spatial distribution of images on Riemannian Manifolds

圖5 變化光照條件下的圖像集構(gòu)成Grassmann流形Fig.5 Grassmann manifolds constructed by image sets under varying illumination conditions
早期的流形方法經(jīng)歷了不同的發(fā)展階段。主成分分析(Principal Component Analysis,PCA)方法[32]可以看作是最初的流形幾何方法原型。PCA方法以線性流形為模型,其最初的設(shè)計(jì)目的是找出最接近數(shù)據(jù)點(diǎn)云的線性流形。主成分是指輸入數(shù)據(jù)映射在流形上的成分,它對(duì)應(yīng)著流形上的內(nèi)蘊(yùn)坐標(biāo)。對(duì)于非線性流形而言,其學(xué)習(xí)模型主要基于構(gòu)建鄰接圖來學(xué)習(xí)參數(shù)映射矩陣。基于鄰接圖的流形幾何方法主要將從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到的參數(shù)映射矩陣應(yīng)用到新的數(shù)據(jù)中,從而獲得新數(shù)據(jù)的流形映射。流形學(xué)習(xí)這一概念的提出可以追溯到2000年局部線性嵌入(Locally linear Embedding)方法[33]和等距映射(Isomap)方法[34]在國際著名期刊Science上的發(fā)表。局部線性嵌入方法是一種無監(jiān)督的流形學(xué)習(xí)方法,它認(rèn)為數(shù)據(jù)在局部滿足線性關(guān)系,即每個(gè)數(shù)據(jù)均可由其鄰域中的幾個(gè)樣本線性表示,通過構(gòu)建加權(quán)鄰接圖來獲得高維數(shù)據(jù)的低維表示,并在學(xué)習(xí)到的低維表示中保持原始數(shù)據(jù)間的局部線性關(guān)系;等距映射方法是一種全局模型,該方法通過構(gòu)建數(shù)據(jù)的全局鄰接圖,將計(jì)算兩點(diǎn)間的測(cè)地線距離轉(zhuǎn)換為計(jì)算兩點(diǎn)間在鄰接圖上的最短路徑距離,通過測(cè)地線距離替代歐氏距離。拉普拉斯特征映射方法[35]通過構(gòu)建無向加權(quán)圖來描述數(shù)據(jù)的流形結(jié)構(gòu),然后通過圖嵌入方法獲得數(shù)據(jù)的低維表示;半監(jiān)督嵌入方法[36]通過學(xué)習(xí)鄰接圖對(duì)流形結(jié)構(gòu)進(jìn)行直接編碼,該方法中的參數(shù)化神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)可同時(shí)對(duì)流形嵌入映射和分類器進(jìn)行學(xué)習(xí)。此類流形方法的主要目的是學(xué)習(xí)數(shù)據(jù)樣本中的潛在流形結(jié)構(gòu),而其潛在流形結(jié)構(gòu)是未知的。這類方法常常假設(shè)數(shù)據(jù)樣本中的噪聲較少,不帶噪聲的樣本分布在流形上,而噪聲樣本的分布遠(yuǎn)離流形,因此此類方法往往對(duì)噪聲敏感。
然而,現(xiàn)實(shí)數(shù)據(jù)中的復(fù)雜數(shù)據(jù)具有更為復(fù)雜的非線性流形結(jié)構(gòu)。當(dāng)構(gòu)建的鄰接圖難以有效表達(dá)數(shù)據(jù)間的結(jié)構(gòu)時(shí),對(duì)于復(fù)雜數(shù)據(jù)的建模要借助局部線性切空間方法[37-42]。與早期基于構(gòu)建鄰接圖的流形方法相比,此類方法的最大不同之處在于其所使用的流形種類是已知的,即可以清楚地知道數(shù)據(jù)中所蘊(yùn)含的流形的種類。而在計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)領(lǐng)域,許多相關(guān)算法,包括支持向量機(jī)(Support Vector Machine,SVM)、PCA等經(jīng)典算法,均無法被直接應(yīng)用于流形數(shù)據(jù)。如果忽略流形數(shù)據(jù)的幾何結(jié)構(gòu),直接把這些基于歐氏結(jié)構(gòu)的方法應(yīng)用在流形數(shù)據(jù)上,正如文獻(xiàn)[43]和文獻(xiàn)[44]所提及,通常會(huì)產(chǎn)生不理想的效果。當(dāng)需要處理的流形數(shù)據(jù)具有黎曼結(jié)構(gòu)時(shí),一種常用的方法是通過將流形數(shù)據(jù)映射到流形上某一特定點(diǎn)的切空間來處理流形的非線性結(jié)構(gòu),這一特定點(diǎn)通常選取為數(shù)據(jù)的均值點(diǎn)。文獻(xiàn)[11]是基于切空間映射方法的最成功的算法之一,它提出了一種在黎曼流形上進(jìn)行學(xué)習(xí)的行人檢測(cè)方法。該方法將協(xié)方差矩陣作為目標(biāo)特征描述子,在靜態(tài)圖像中檢測(cè)行人。然而,將流形數(shù)據(jù)映射到切空間的方法僅僅是對(duì)流形非線性結(jié)構(gòu)的一階近似。該方法的局限在于,當(dāng)數(shù)據(jù)分布遠(yuǎn)離切空間原點(diǎn)時(shí),該框架下的近似結(jié)構(gòu)易發(fā)生扭曲。除此之外,迭代地進(jìn)行流形空間與切空間之間的映射操作具有極高的計(jì)算復(fù)雜度。對(duì)于基于切空間映射的方法而言,切空間原點(diǎn)(即參考點(diǎn))的選擇至關(guān)重要。切空間原點(diǎn)選擇的質(zhì)量嚴(yán)重影響著近似方法的準(zhǔn)確性,選擇幾何特性良好的切空間原點(diǎn)以達(dá)到出色的算法性能并不容易。
黎曼流形與向量空間(歐氏空間)的最大區(qū)別在于,歐氏空間具有簡(jiǎn)單且容易理解的數(shù)學(xué)特性,如歐氏距離、范數(shù)、向量?jī)?nèi)積等。在計(jì)算機(jī)視覺領(lǐng)域中的許多以歐氏空間為幾何基礎(chǔ)的算法中,對(duì)于核函數(shù)方法的使用也取得了不錯(cuò)的效果[45-46]。因此,完全可以通過類似方法,將黎曼流形嵌入到高維的重構(gòu)核希爾伯特空間(Reproducing Kernel Hilbert Space,RKHS)中。此高維空間可以看作是一個(gè)無窮維的線性空間,因此許多歐氏空間中的算法均可被直接應(yīng)用到RKHS空間中,這是由于RKHS空間也具有向量空間的重要幾何特性——內(nèi)積。雖然RKHS空間具有良好的幾何結(jié)構(gòu),但如何將流形空間嵌入到RKHS空間是最重要的問題,即如何找到合適的、定義在黎曼流形上的映射核函數(shù),進(jìn)而把流形空間的非線性結(jié)構(gòu)映射到無窮高維的重構(gòu)希爾伯特空間中,以將線性空間中的算法拓展至流形空間。
對(duì)于流形上的映射核函數(shù),文獻(xiàn)[47]使用了SPD流形上的核函數(shù),并將其與局部保留映射(Locality Preserving Projections)方法進(jìn)行了結(jié)合,其使用的映射核函數(shù)是根據(jù)仿射不變距離推導(dǎo)的。文獻(xiàn)[48]提出了SPD流形上的核稀疏編碼方法,其使用的映射核函數(shù)為高斯映射核函數(shù);在文獻(xiàn)[49]中,映射距離核函數(shù)及其變型被應(yīng)用于Grassmann流形的分類問題。根據(jù)Mercer定理,核函數(shù)必須是正定的。然而,盡管許多正定核函數(shù)在歐氏空間下具有很好的效果,但是當(dāng)將同樣的正定核函數(shù)應(yīng)用于流形數(shù)據(jù)時(shí),效果卻并不理想。因此,對(duì)于流形上的核函數(shù)方法而言,關(guān)鍵點(diǎn)在于找到適合的映射核函數(shù)形式。
近幾年來,在計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)領(lǐng)域的各種任務(wù)中,深度神經(jīng)網(wǎng)絡(luò)的性能表現(xiàn)遠(yuǎn)超傳統(tǒng)的淺層學(xué)習(xí)網(wǎng)絡(luò)。正是由于深度學(xué)習(xí)在計(jì)算機(jī)視覺、自然語言處理和人工智能等在內(nèi)的多個(gè)領(lǐng)域的廣泛應(yīng)用中取得了空前的成功[50-56],最近幾年,研究者們將深度學(xué)習(xí)與黎曼流形進(jìn)行了結(jié)合,以充分發(fā)揮深度神經(jīng)網(wǎng)絡(luò)在解決涉及幾何結(jié)構(gòu)的相關(guān)任務(wù)中的潛力[57],并提出了一些新的代表性方法,包括測(cè)地線卷積[58]和矩陣反向傳播方法[59]。基于這些工作,越來越多的新型神經(jīng)網(wǎng)絡(luò)建立在非歐空間中[60-65]。例如,文獻(xiàn)[60]通過圖傅里葉變換提出了一種面向圖數(shù)據(jù)的變形卷積網(wǎng)絡(luò),并定義了一種圖拉普拉斯算子,進(jìn)而將拉普拉斯算子推廣到了圖數(shù)據(jù)上。之后,文獻(xiàn)[64]在空域-時(shí)域圖上提出了一種深度學(xué)習(xí)方法。該方法將空域-時(shí)域圖看作是一個(gè)前向的遞歸混合網(wǎng)絡(luò)。文獻(xiàn)[65]在正定對(duì)稱流形上構(gòu)建了深度網(wǎng)絡(luò),同時(shí)將該網(wǎng)絡(luò)通過矩陣反向傳播方法進(jìn)行了訓(xùn)練。
流形上的深度學(xué)習(xí)網(wǎng)絡(luò)建立在矩陣反向傳播框架[59]的基礎(chǔ)上,進(jìn)而將傳統(tǒng)的向量數(shù)據(jù)間的梯度計(jì)算推廣到了流形數(shù)據(jù)。在這一理論框架中,一些現(xiàn)代矩陣分析方法(包括矩陣鏈?zhǔn)椒▌t及矩陣微分原理等)同樣是必不可少的工具。在這些理論基礎(chǔ)得以發(fā)展的前提下,文獻(xiàn)[66]提出了在正交限制條件下處理矩陣數(shù)據(jù),進(jìn)而將數(shù)據(jù)空間轉(zhuǎn)換到Stiefel流形上。該方法在卷積神經(jīng)網(wǎng)絡(luò)框架下,為網(wǎng)絡(luò)后端的參數(shù)空間賦予了正交結(jié)構(gòu),進(jìn)而達(dá)到了優(yōu)化參數(shù)空間的目的。在之后一系列的相關(guān)研究中,在傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中基于向量結(jié)構(gòu)的操作(如卷積、池化、標(biāo)準(zhǔn)化等操作層)也針對(duì)流形結(jié)構(gòu)數(shù)據(jù)進(jìn)行了重新設(shè)計(jì)。對(duì)于卷積操作而言,文獻(xiàn)[64]提出了測(cè)地線卷積這一概念。該方法能夠在諸如姿態(tài)識(shí)別任務(wù)中建立形狀對(duì)應(yīng)性和恢復(fù)形狀時(shí)發(fā)揮優(yōu)勢(shì)。然而,僅僅經(jīng)過改進(jìn)的神經(jīng)網(wǎng)絡(luò)層不能直接擴(kuò)展到流形數(shù)據(jù)以支持流形上的深度學(xué)習(xí)方法,因?yàn)檫@其中的大多數(shù)操作(如線性或非線性變換等)均無法保留流形的幾何結(jié)構(gòu)。為了在深度網(wǎng)絡(luò)的學(xué)習(xí)過程中保持流形幾何結(jié)構(gòu),目前現(xiàn)存的方法主要可歸為兩類:第一類是基于流形幾何結(jié)構(gòu)的內(nèi)蘊(yùn)方法,另一類是基于映射的嵌入方法。二者的主要區(qū)別在于是否需要將黎曼流形嵌入到一個(gè)更高維的歐氏空間中。對(duì)于不同的黎曼流形而言,相應(yīng)的內(nèi)蘊(yùn)方法也有所不同,這是因?yàn)椴煌愋偷牧餍尉哂胁煌膸缀谓Y(jié)構(gòu)。對(duì)于第一類方法而言,文獻(xiàn)[65]以正定對(duì)稱流形作為輸入,根據(jù)正定對(duì)稱流形的幾何特性,設(shè)計(jì)了正定對(duì)稱流形上的映射層、特征分解層、對(duì)數(shù)映射層等,進(jìn)而實(shí)現(xiàn)了正定對(duì)稱流形上的深度學(xué)習(xí)。文獻(xiàn)[61]以Grassmann流形作為輸入,通過轉(zhuǎn)換層、正交化層、映射層等學(xué)習(xí)了分類能力更強(qiáng)的流形數(shù)據(jù),之后再將流形數(shù)據(jù)嵌入到歐氏空間,最后接入softmax層進(jìn)行識(shí)別,進(jìn)而實(shí)現(xiàn)了Grassmann流形上的圖像集識(shí)別網(wǎng)絡(luò)。第二類方法基于外部空間映射的思想,通過將黎曼流形上的數(shù)據(jù)映射到切空間中,從而把流形空間中的深度學(xué)習(xí)問題轉(zhuǎn)換為向量空間中的深度學(xué)習(xí)問題。由于流形上某點(diǎn)的切空間是向量空間,傳統(tǒng)深度網(wǎng)絡(luò)中的各種常規(guī)線性操作層則可在切空間中進(jìn)行計(jì)算。換言之,可以訓(xùn)練常規(guī)的深度神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)從數(shù)據(jù)的輸入空間(即歐幾里得空間)到黎曼流形切空間的映射,之后再通過黎曼對(duì)數(shù)映射將數(shù)據(jù)從切空間拉回到流形空間。總體而言,基于流形的深度學(xué)習(xí)網(wǎng)絡(luò)在視頻/圖像集分類、表情分類、動(dòng)作識(shí)別、精細(xì)圖像分類等領(lǐng)域中都取得了出色的表現(xiàn)。
近幾年來,隨著深度學(xué)習(xí)方法的火速發(fā)展,現(xiàn)階段對(duì)于黎曼流形學(xué)習(xí)方法而言,既是機(jī)遇,又是挑戰(zhàn)。黎曼流形學(xué)習(xí)方法在計(jì)算機(jī)視覺中的發(fā)展,趨于如下幾個(gè)方向:
(1)將黎曼幾何嵌入深度網(wǎng)絡(luò):近年來,人們對(duì)基于黎曼幾何的深度神經(jīng)網(wǎng)絡(luò)越來越感興趣,并且認(rèn)為該方向有可能成為提高深度學(xué)習(xí)準(zhǔn)確性和魯棒性的主流方法。在這個(gè)方向上,黎曼流形學(xué)習(xí)技術(shù)將起到關(guān)鍵作用,因?yàn)橥ㄟ^該方法,數(shù)據(jù)的結(jié)構(gòu)信息可被嵌入到網(wǎng)絡(luò)中。盡管取得了一些初步進(jìn)展[67-68],但基于幾何的深度神經(jīng)網(wǎng)絡(luò)意味著網(wǎng)絡(luò)幾何結(jié)構(gòu)上的轉(zhuǎn)換,其中仍然存在許多挑戰(zhàn),例如通過對(duì)黎曼流形進(jìn)行正則化來克服過度擬合問題,為非歐結(jié)構(gòu)層設(shè)計(jì)更為有效的優(yōu)化方法,以及如何從真實(shí)世界數(shù)據(jù)集中獲取幾何特征等。
(2)幾何深度學(xué)習(xí):即對(duì)具有幾何結(jié)構(gòu)的數(shù)據(jù)進(jìn)行深度學(xué)習(xí)的方法的研究,該領(lǐng)域代表了深度學(xué)習(xí)領(lǐng)域的新趨勢(shì)之一。這些具有幾何結(jié)構(gòu)的數(shù)據(jù)不僅包括圖像/視頻,還包括其他類型的數(shù)據(jù),如黎曼結(jié)構(gòu)數(shù)據(jù)、三維立體目標(biāo)數(shù)據(jù)、圖結(jié)構(gòu)數(shù)據(jù)和社交網(wǎng)絡(luò)數(shù)據(jù)等[67]。
(3)魯棒機(jī)器學(xué)習(xí):機(jī)器學(xué)習(xí)方法模型的一個(gè)最顯著的弱點(diǎn)是其容易受到惡意對(duì)抗性干擾的影響,對(duì)抗性攻擊對(duì)諸如深度神經(jīng)網(wǎng)絡(luò)之類靈活性較強(qiáng)的模型而言更是如此。這些對(duì)抗干擾會(huì)誤導(dǎo)模型做出錯(cuò)誤決策[69-70]。研究表明,Grassmann流形學(xué)習(xí)方法對(duì)于小擾動(dòng)表現(xiàn)出了一定程度的魯棒性[71],最直觀的原因是小擾動(dòng)很難將一個(gè)子空間更改為另一個(gè)子空間。 因此,如何利用Grassmann流形及其他黎曼流形設(shè)計(jì)出魯棒性更強(qiáng)的機(jī)器學(xué)習(xí)模型,具有重要的研究?jī)r(jià)值。
數(shù)據(jù)幾何結(jié)構(gòu)的重要性是不容忽視的,即便如此,傳統(tǒng)方法仍然通常將數(shù)據(jù)在向量空間中進(jìn)行處理。然而,黎曼流形方法可充分利用數(shù)據(jù)的幾何結(jié)構(gòu),從非歐幾何角度入手設(shè)計(jì)和優(yōu)化學(xué)習(xí)模型,在計(jì)算機(jī)視覺領(lǐng)域的諸多任務(wù)中往往能獲得更好的學(xué)習(xí)效果。除了從學(xué)習(xí)模型的優(yōu)化角度考慮,視覺任務(wù)中數(shù)據(jù)的黎曼結(jié)構(gòu)特性也使得黎曼學(xué)習(xí)方法成為了解決相應(yīng)任務(wù)的關(guān)鍵手段。對(duì)于近年來備受矚目的深度學(xué)習(xí)技術(shù)而言,如何巧妙地將黎曼流形方法與深度學(xué)習(xí)方法相結(jié)合,進(jìn)而為解決深度學(xué)習(xí)方法在模型訓(xùn)練、模型設(shè)計(jì)及模型可解釋性等環(huán)節(jié)存在的相關(guān)問題,提供了一個(gè)強(qiáng)有力的工具。