深度神經網絡內部遷移的信息幾何度量分析

2019-04-13 13:23:22陳力費洪曉李海峰何嘉寶譚風云

湖南大學學報·自然科學版 2019年2期

陳力費洪曉李海峰何嘉寶譚風云

摘 ??要：使用深度神經網絡處理計算機視覺問題時，在新任務數據量較少情況下，往往會采用已在大數據集上訓練好的模型權值作為新任務的初始權值進行訓練，這種訓練方式最終得到的模型泛化能力更好.對此現象，傳統解釋大多只是基于直覺分析而缺少合理的數學推導.本文將深度神經網絡這種網絡結構不變下層間的學習轉為深度神經網絡內部的遷移能力，并將學習過程變化形式化到數學表達式.考慮數據集對訓練過程帶來的影響，利用信息幾何分析方法，確定不同數據集流形之上的度量和聯絡，實現不同數據集之間的嵌入映射，同時將參數空間的變化也放入流形空間，探究其對學習過程的共同影響，最終實現對這種內部遷移現象的數學解釋.經過分析和實驗驗證可得內部遷移過程其實是一種能使網絡可以在更廣空間進行最優搜索的變化，有利于模型可以在學習過程中獲得相對的更優解.

關鍵詞：深度學習; 遷移學習; 信息幾何

中圖分類號：TP183 ?????????????????????????????????文獻標志碼：A

Analysis on Information Geometric Measurement

of Internal Transfer of Deep Neural Network

CHEN Li1，2，FEI Hongxiao2，LI Haifeng1？覮，HE Jiabao2，TAN Fengyun2

（1. School of Geosciences and Info-Physics，Central South University，Changsha 410083，China;

2. School of Software Engineering， Central South University， Changsha 410083，China）

Abstract： When deep learning is used to deal with the computer vision tasks， under little number of new task data， the pre-trained model weight based on a very large data is trained as an initial weight to get better generalization ability. At this?point， former explanations are based on the intuitive analysis and lack of reasonable mathematical methods. In this paper， deep neural network， which trains on internal layers with fixed structure，changed into internal transfer ability in deep neural network. The changes of learning process are formalized into a mathematical expression. Considering the influence of the data set on the training process， the information geometric analysis method is used to determine the metrics and connections over manifolds of different data sets， which can realize the embedding mapping between different data sets. At the same time， the change of parameter space is also put into a manifold space to explore its common influence on learning process. Finally， a mathematical explanation is provided for the internal transfer phenomenon. Meanwhile， after the analysis and experiments， the process of internal transfer is identified as a change which can make the network search for optimal search in a wider space. Therefore， the model can obtain a relative better solution in learning process.

Key words： deep learning; transfer learning; information geometry

計算機視覺是人工智能非常重要的研究領域，視覺也是人和動物最重要的感覺，至少有80%以上的外界信息經視覺獲得.大數據環境下，圖像與視頻類數據增長速度達到前所未有的高度.然而，Science雜志認為現狀可描述為：“data-rich but analysis-poor”[1].如何學習到好的“特征”，一直是計算機視覺中的基礎性問題[2].傳統圖像識別方法中，大多通過設計者的先驗知識，手工設計特征，如SIFT[3]，HOG[4]等，往往很難真正捕捉到物體的本征特征.近年來深度學習[5]方法的興起，在圖像識別和理解等諸多任務上，獲得許多令人印象深刻的成績.本質上深度學習可以看成是一種“端到端”的特征學習方法[6]，借助強大的計算力，通過大量訓練樣本從低層特征組合成更加抽象的高級特征來揭示事物的屬性和特征，這也是其在圖像識別應用中成功的重要原因.

雖然借助深度學習技術[7]，圖像識別問題取得了突破性進展，但深度學習也存在很多局限性.如果新的視覺任務上缺少大量標注的數據，通常需要消耗大量人力物力對數據進行標注和清洗.而且在許多特定視覺識別任務中，例如糖尿病視網膜病變分析，大量標定的數據往往沒有那么容易獲得.這使得深度神經網絡在小樣本學習問題上表現不是非常好，泛化性較差且容易過擬合.對此深度學習提供了一種遷移學習的方法，確定網絡結構，在訓練過程中，參數不再隨機初始化，可以利用已在大庫上學習到的收斂模型，將其權值作為新任務網絡模型的初始值進行再訓練，將這種神經網絡的遷移過程叫做微調[8].深度神經網絡遷移學習的結果往往比直接在新任務上重新隨機初始化參數訓練的收斂速度更快，泛化能力更強.Abràmoff等人[9]利用深度學習和微調等方法，輕易將糖尿病視網膜病變檢測能力提高到專家水平.

微調的方法也具有很強的技巧性，針對不同的任務需要遷移不同的信息.例如在圖像任務中，固定前面幾層權值信息，然后重新訓練后幾層參數，而在語音識別任務中，會固定后幾層參數，需要重新訓練前幾層的參數.并且遷移的層數對遷移的效果也會產生不同的影響，Yosinski等人[10]分析，隨著固定遷移層的參數增加，識別效果會先上升然后急速下降，因此遷移學習具有不穩定性和不確定性.深度神經網絡的訓練過程大多采用類梯度下降算法，雖然類隨機梯度下降算法在非凸優化問題上對初始點敏感，但在深度學習中，在高維參數的情況下主要以鞍點的形式存在，即得到的局部最小可以近似等于全局最小[11].可是遷移學習這種表面上只影響了初始化參數而得到的效果又十分突出.現有的分析大多是基于直覺和特征可視化的直觀分析，認為在大庫上的信息更加豐富，所以卷積核獲取的特征也更加豐富，對于新任務圖片的響應，只需要在原有響應上做調整就能很輕松地適用于新任務.而且由于原有豐富的特征表達能力，這種特征表達在新任務學習過程中難以獲取，但又對新任務識別具有非常大的幫助作用，這就使得微調效果變得非常好.但這種解釋太過于依賴直覺分析，缺少更好的數學解釋，這種層間變化過程很難用傳統統計學的理論進行分析.

信息幾何是一套研究流形內蘊幾何性質變化的理論體系[12]，它將概率論、統計學和信息論中許多概念當作概率分布空間的幾何結構，使用微分幾何的手段進行分析.學習過程中，深度神經網絡層之間的變化可以看成是參數概率分布的改變，而這種變化也不斷受到數據帶來的信息影響，這就為使用信息幾何的方法分析深度神經網絡學習變化過程提供了可行性.

綜上，本文將深度神經網絡在視覺任務下，卷積核變化更新以適應新任務的能力稱為其內部遷移能力，并將神經網絡在遷移過程中的變化進行形式化，使用嚴謹的數學模型進行表示.學習過程中，主要變化的是學習到的權值信息，將權值信息的變化放入到流形空間中，同時考慮樣本空間，利用信息幾何度量的方法對其進行分析，并通過實驗重現深度神經網絡內部遷移變化的過程.結果表明在大庫上學到的模型可以提供更大的參數探索空間，為深度神經網絡遷移變化提供一種可能的數學解釋.

1 ??深度神經網絡內部遷移

1.1 ??深度神經網絡符號定義

深度神經網絡通常由多個隱含層堆疊而成，輸入層所有神經元的連接都與輸出層神經元相連.假設有訓練樣本（x1，y1），（x2，y2），…，（xn，yn），xn表示第 n個樣本的輸入信息，yn表示對應的標簽信息.神經網絡由d+1層構成，分別記為第0，1，…，d層.每層的節點數目分別為mi（i = 0，1，…，d） .在本文中進一步假設第d層的節點數目為1，即輸出為一維數值.假設每個節點的激活函數表示為σ，根據需要可以選擇Sigmoid函數或者其它threshold函數等，使偏置b = x0對應權值w0 = 1，每層線性組合統一為

mij=0wj xj.神經網絡最核心的要素是層與層之間的連接權重矩陣，假設第i層與第i + 1層之間的連接權重矩陣wi（i + 1） ∈Mmi × mi + 1（R）（i = 0，1，…，d-1）.假設

x是一個輸入向量，那么輸出數值為σ（WT ??????（d-1）d

σ（WT ????????????????（d-2）（d-1）…σ（WT ??????0×1x）…））.為了表述方便，定義集合M表示與神經網絡匹配的連接權重矩陣集合，W表示集合M中的一個元素，具體如下所示：

M = Mm0 × m1（R）×…×Mmd-1 × md（R）

W = （W0 × 1，…，W（d-1）d），Wi（i+1）∈Mmi × mi+1（R）

（1）

此時神經網絡的學習過程簡單表述為

Fw（x）=σ（WT ??????（d-1）dσ（WT ????????????????（d-2）（d-1）…σ（WT ??????0×1x）…））

（2）

1.2 ??內部遷移學習

在計算機視覺任務中，神經網絡在大數據集上學習的信息往往比在小數據集上學習的信息更加完備.通常將在ImageNet[13]上學習的模型作為新任務的預訓練模型，使用訓練好的模型的權值信息進行初始化訓練，網絡結構并不需要發生變化.網絡逐層的調整權值以適應新任務的需求，這種內部變化的過程叫做深度神經網絡的內部遷移學習.

為了更好地分析網絡的內部遷移變化，首先將學習過程進行數學抽象.對于訓練樣本（x1，y1），（x2，y2），…，（xn，yn），其中數據集X = {x1，…，xn}={xi}n ???i=1，每個數據對應相關的數據類別，數據的類別標簽是一個用來區分數據的映射，使用Y表示標簽集，Y = {y1，…，yn}={yi}n ???i=1，CY表示標簽類別數量.則上述映射過程可以表示成

label：X→Y

s.t.，label（xi）∈Y ???？坌i = 1，…，n

（3）

因此給定一個數據集X，可以產生一個與之對應的標簽向量

label（X） = （label（xi），…，label（xn））∈RCy ???（4）

當給定一個神經網絡，數據集輸入神經網絡可以得到輸出向量，神經網絡的學習過程如下所示，

Fx（x）=（Fw（x1），…，Fw（xn））∈RCy ????（5）

數據集的學習可以表示成在整個假設空間中，選擇合適的目標函數，并在給定一個損失函數loss：R+→R最小的情況下，尋找神經網絡的最優連接權重矩陣，即如下的優化問題：

mlabel（xi）-Fw（xi））+αΩ（w）

s.t. ???w∈m （6）

其中Ω（w）表示正則化項，上式可等價描述為

Argminw∈? ? ? ? （7）

由公式（7）可知，學習過程求解最優解屬于一個無約束的優化問題.如果神經網絡中選擇的激活函數足夠光滑（如Sigmoid函數），或者寫成求偏導數的形式，可以利用既有的優化算法，如隨機梯度下降法等實現求解.

此時定義內部遷移學習過程.給定一個神經網絡如下所示：

Fw（·）=σ（WT ??????（d-1）dσ（WT ????????????????（d-2）（d-1）…σ（WT ??????0×1x）…））

（8）

給定一個損失函數loss：R+→R.給定兩個數據集A，B.其中A數據集較大，表現在類別豐富度更多，數據量更大.具體可以表示為

A = {a1，…，an1} = {ai}n1 ???i=1

B = {b1，…，bn2} = {bj}n2 ???j=1

（9）

根據上文可得關于數據集A的學習模型如下所示：

Argmin

同理可得數據集B的學習模型如下所示：

Argminw∈m（label（bj）-Fw（bj））+αΩ（w）

（P2）

首先求解問題，過程如下：

Step 1.確定算法G;

Step 2.確定停止準則S;

Step 3.隨機選定初始連接權重矩陣W0∈M;

Step 4.從W0開始按照停止準則S運行算法G

迭代，得到結果WA.

其次求解問題（P2）.為了對比內部遷移學習變化，同時定義在新任務上隨機初始化進行學習，可以選擇兩個不同的過程.

過程一：

Step 1.確定算法G;

Step 2.確定停止準則S;

Step 3.隨機選定初始連接權重矩陣W0∈M;

Step 4.從W0開始按照停止準則S運行算法G迭代，得到結果WB.

過程二：

Step 1.確定算法G;

Step 2.確定停止準則S;

Step 3.初始連接權重矩陣選定問題（P1）的結果，即是W0 ：=WA;

Step 4.從WA開始按照停止準則S運行算法G迭代，得到結果WB′.

過程一屬于直接隨機初始化權值進行訓練，過程二屬于內部遷移學習，通常而言WB′模型比WB模型的泛化能力更強，且過程二的收斂速度更快.

2 ??內部遷移信息幾何分析

上文對內部遷移學習進行了形式化的描述，明確了遷移學習的內涵，構建了遷移學習的模型，但是這樣的描述只有形式上的意義，如果需要進一步進行可行、可操作的研究，需要對數據集和連接權重矩陣進行幾何化的描述以簡化模型并且給予最直觀的解釋.

假設數據集先驗位于某個分布族之中，即假設有一個分布族F，這個族構成的流形記為MF，坐標卡系記為f，其上的Fisher度量記為

ds2F =F df ?i × df ?j ???????????????（10）

根據Amari信息幾何理論[14]，可以確定流形MF上的度量ds2F與相容的聯絡DF，和聯絡形式ωF以及對應的Christoffel系數Γk ???ij，F.

假設數據集A的概率分布來源于分布族A，則其對應的某些分布構成流形MA，顯然MA是MF的子流形，假設嵌入方式為

？準：MA→MF ????????????????????????????????（11）

根據嵌入方式的拉回，可得到流形MA的坐標卡系為a：=φ*（f），其上的Fisher度量記為

ds2Adai × da j = φ*（ds2F） ????????????（12）

根據Amari信息幾何理論[14]，可以確定流形MA上的度量ds2A與相容的聯絡DA，和聯絡形式ωA以及對應的Christoffel系數Γk ???ij，A.顯然MA上的聯絡、聯絡形式和Christoffel系數還可以通過嵌入映射？準的拉回得到，即

前文已知數據集B在規模上遠遠小于數據集 A的規模，且同作為計算機視覺任務，假設數據集被采樣的分布在結構上相似.這個基本的假定在數學上可用子流形來表示，即假設數據集B的概率分布來源于分布族B，某些可能分布構成流形MB，那么上面的基本假設可以表示為一個嵌入映射

φ：MB→MA ????????????????????????（14）

根據嵌入方式的拉回，可得到流形MB的坐標卡系為b：=φ*（a），其上的Fisher度量記為

ds2B = bi × db j = φ*（ds2A） ????????????（15）

根據Amari信息幾何理論[14]，可以確定流形MB上的度量ds2B與相容的聯絡DB，和聯絡形式ωB以及對應的Christoffel系數Γk ???ij，B.顯然MB上的聯絡、聯絡形式和Christoffel系數還可以通過嵌入映射φ的拉回得到，即

DB = φ*（DA）

ωB = φ*（ωA）

Γk ???ij，B= φ*（Γk ???ij，A）

（16）

由流形MA到MF的嵌入和從MB到MA的嵌入

φ：MB→MA，？準：MA→MF ?????????（17）

可以產生一個從MB到MF的直接嵌入

？準·φ：MB→MF ?????????（18）

根據嵌入方式的拉回，可得到流形MB的坐標卡系為b：= （φ·？準）*（f），其上的Fisher度量記為

ds2B j，B dbi × db j = （φ·？準）*（ds2F） ???????（19）

顯然MB上的聯絡、聯絡形式和Christoffel系數還可以通過嵌入映射φ·？準的拉回得到，即

DB = （φ·？準）*（DF）

ωB = （φ·？準）**（ωF）

Γk ???ij，B= （φ·？準）*（Γk ???ij，F）

（20）

固定神經網絡的拓撲結構，那么所謂學習，即確定連接權重矩陣W.一般而言，神經網絡的節點個數是大規模的，具體確定一個連接權重矩陣是不現實的，需要對連接權重矩陣空間進行簡化.假設神經網絡連接權重矩陣也落在某種分布族G之中，這個分布族構成的流形結構為MG，坐標卡系為θ，其上的Fisher度量記為

ds2GG dθi × dθ j ?????（21）

根據Amari信息幾何理論[14]，可以確定流形上的度量ds2G與相容的聯絡DG，和聯絡形式ωG以及對應的Christoffel系數Γk ???ij，G.

學習過程不僅與數據集相關，還與神經網絡的聯接分布相關，因此考察學習的過程，即考察流形MA × MG，MB × MG上的曲線過程，不同的學習算法和機制對應于曲線的不同性質.

定理1 ??當神經網絡結構不變，且數據集數據量大小，以及類豐富度小于數據集A時，神經網絡在數據集B上獲得的連接權重矩陣即流形MB × MG為神經網絡在數據上流形MA × MG的子流形.

證 ??對于流形MA × MG，其上的Fisher度量為

ds2 ????A+G = （da，dθ）gij，A ????00 ?????gij，GdaTdθT ?????（22）

根據Amari信息幾何理論[14]，可以確定流形MA × MG上的度量ds2 ????A+G與相容的聯絡DA+G，和聯絡形式 ωA+G以及對應的Christoffel系數Γk ????????ij，A+G.它們之間顯然有如下的簡單關系：

DA+G = DA ????00 ?????DG;ωA+G = ωA ????00 ?????ωG ??（23）

對于流形MB × MG，其上的Fisher度量為

ds2 ????B+G = （db，dθ）gij，B ????00 ?????gij，GdbTdθT ?????????????（24）

根據Amari信息幾何理論[14]，可以確定流形MB × MG上的度量ds2 ????B+G與相容的聯絡DB+G，和聯絡形式 ωB+G以及對應的Christoffel系數Γk ????????ij，B+G.它們之間顯然有如下的簡單關系

DB+G = DB ????00 ?????DG;ωB+G = ωB ????00 ?????ωG ??（25）

流形MA × MG和流形MB × MG之間有自然的嵌入關系

（φ，id）：MB × MG→MA × MG（26）

因此流形MB × MG是流形MA × MG的子流形.

證畢.

整個學習過程如圖1左所示，在問題（P1）中通過隨機初始化的模型W0在數據庫上進行訓練得到最終模型權值WA.在問題（P2）中，過程一是使用隨機初始化模型W0重新進行訓練得到最后模型WB，過程二是使用得到的模型權值WA作為初始值，在數據庫B上進行訓練得到模型WB′.通常情況下，模型WB′比模型WB具有更好的泛化能力.

根據定理1，以及內部遷移信息幾何分析可知，問題（P2）的學習過程一，可當作在MB × MG流形上進行探索，它屬于MA × MG的子流形.因此模型隨機初始化永遠也逃不出MB × MG的流形空間，模型參數在優化過程中的探索空間有限.而通過WA進行初始化的模型可以在整個MA × MG流形上進行探索，則能很容易達到模型較為理想的參數WB′.整個過程可簡化為如圖1右所示.

3 ??實驗與分析

為了更好地體現不同數據集之間模型遷移的效果，選用3種計算機視覺數據集.具體實驗設置數據集為ImageNet[13]，數據集大小約為138 G，其中包含1 281 167張圖，1 000類，每類大約1 300張.數據集B采用Cal101[15]，數據集約131 M，其中包含102類，每類大約50張圖.數據集C使用Cal256[16]，數據大小約1.2 G，其中包含257類，每類約110張圖片.其中數據集A數據量大小和類別數都大于數據集 B，C.根據前文分析，數據集B，C可以實現到數據集A的嵌入映射.同理數據集B也能變化為數據集C的嵌入映射.例如，ImageNet包含大多數Cal101中的類別，而未包含的類別可以通過形態變化[17]的方法實現嵌入映射.同理可實現Cal101嵌入映射到Cal256數據集.深度神經網絡結構使用AlexNet[18]，GoogleNet[19].

分析不同數據集上的學習問題，首先解決問題（P1），隨機初始化神經網絡進行訓練，通過不斷的迭代，最終收斂得到模型WA.其次對比過程一和過程二網絡訓練的差別.

過程一通過在數據集上直接初始化網絡權值進行訓練.過程二通過在ImageNet上訓練得到的模型WA的權值進行初始化，然后進行微調.為了更好地分析大庫對小庫的影響，再次通過在數據集Cal256上訓練得到的模型作為新任務Cal101的初始化值進行訓練.圖2表示Alexnet網絡在不同數據集和情況下的表現，圖3所示GoogleNet網絡在幾種情況下的表現.分析實驗結果可知，在AlexNet網絡中，對于Cal101數據集而言，隨機初始化訓練的網絡迭代約60輪左右時收斂，且在測試集上的準確率為73.275 9%.而通過模型對網絡進行微調，可以發現網絡在迭代40次左右時已經開始收斂，且在測試集上的準確率為90.625%，遠超過重新訓練權值的結果，具有非常好的泛化能力.即使是通過Cal256數據集得到的網絡模型進行微調，最終也能得到比直接初始化網絡得到的結果更好.

同理對比圖3，GoogleNet的最終正確率雖跟AlexNet在各個數據集上不同，但都表現出同樣的性質.通過在大數據集上學習得到的模型對小數據集進行微調，模型可以得到比直接在小數據集上學習更好的表現.具體在各個任務上，各網絡最終的準確率如表1所示.

通過對比隨機初始化訓練的網絡與微調學習方法的網絡，還可以發現在學習過程中使用微調的網絡，訓練誤差和測試誤差下降速度非?？?，并且在網絡開始收斂時，誤差的波動都較小.這些實驗結果都說明了，通過在大數據集上學習的模型作為新任務的初始化權值信息，可以使得模型的參數探索的空間更大，使之能找到相對較優的結果.

4 ??結 ??論

深度神經網絡的內部遷移過程本質上只是參數的初始化方法不同.根據Im分析[20]，即使得到的局部最小值不同，其表現的泛化能力并沒有太大的差異，這與Dauphin等[21]分析的結果相符.然而通過大數據集訓練的網絡進行參數初始化，往往可以得到一個更好的結果.本文通過形式化整個學習過程，將這種參數信息的變化放入流形空間中.在考慮參數變化的同時，也融合了樣本的分布信息.通過信息幾何理論對學習過程中流形的變化進行討論.分析可得大數據集下訓練的網絡作為權值更新，與小數據集上重新訓練相比，隱含的包含了原樣本的數據空間，使得其具備更大的探索空間且更容易找到一個更好的模型參數.通過多組實驗對比重現這一過程，該分析也為深度神經網絡內部遷移過程提供了一種可能的數學解釋.并且在深度遷移學習問題中有關遷移變化過程中定量的分析還缺少合理的手段，該方法可進一步探究深度神經網絡在學習過程中獲取的有用信息量，以及相對應丟失的冗余信息量，探索網絡學習過程中的不變性分析，試圖打開學習過程的黑盒，實現不同應用場景下又快又準的遷移.

參考文獻

[1] ??CLERY D，VOSS D. All for one and one for all[J]. Science，2005，308（5723）：809—809.

[2] ???DENèVE S，MACHENS C K. Efficient codes and balanced networks[J]. Nature Neuroscience，2016，19（3）：375.

[3] ??NG P C，HENIKOFF S. SIFT： predicting amino acid changes that affect protein function[J]. Nucleic Acids Research，2003，31（13）：3812—3814.

[4] ??DALAL N，TRIGGS B. Histograms of oriented gradients for human detection[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society，2005：886—893.

[5] ??HINTON G E，OSINDERO S，TEH Y W. A fast learning algorithm for deep belief nets[J]. Neural Computation，2014，18（7）：1527—1554.

[6] ??LEVINE S，FINN C，DARREL T，et al. End-to-end training of deep visuomotor policies[J]. Journal of Machine Learning Research，2016，17（1）：1334—1373.

[7] ??LECUN Y，BENGIO Y，HINTON G. Deep learning[J]. Nature，2015，521（7553）：436—444.

[8] ??OUYANG W，WANG X，ZHANG C，et al. Factors in fine tuning deep model for object detection with long-tail distribution[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society，2016：864—873.

[9] ??ABRàMOFF M D，LOU Y，ERGINAY A，et al. Improved automated detection of diabetic retinopathy on a publicly available dataset through integration of deep learning[J]. Investigative Ophthalmology & Visual Science，2016，57（13）：5200.

[10] YOSINSKI J，CLUNE J，BENGIO Y，et al. How transferable are features in deep neural networks？[C]//Advances in Neural Information Processing Systems 2014. 2014： 3320-3328.

[11] ?DAUPHIN Y，PASCANU R，GULCEHRE C，et al. Identifying and attacking the saddle point problem in high-dimensional non-convex optimization[J]. Mathematics，2014，111（61）：2475—2485.

[12] AMARI S I. Information geometry of statistical inference-an overview[C]//Information Theory Workshop，2002. Proceedings of the 2002 IEEE. IEEE，2002： 86-89.

[13] ?DENG J，DONG W，SOCHER R，et al. ImageNet： A large-scale hierarchical image database[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society，2009：248—255.

[14] AMARI S，NAGAOKA H. Methods of information geometry[M]. American Mathematical Society，2000：13-206.

[15] ?LI F F，FERGUS R，PERONA P. Learning generative visual models from few training examples： an incremental Bayesian approach tested on 101 object categories[J]. Computer Vision and Image Understanding，2007，106（1）：59-70.

[16] ?GRIFFIN G，HOLUB A，PERONA P. Caltech-256 object category dataset[EB/OL]. http：//www.vision.caltech.edu/Image_Datasets/Caltech101，April 5，2006.

[17] SCHMITZER B，SCHNORR C. Globally optimal joint image segmentation and shape matching based on Wasserstein modes[J]. Journal of Mathematical Imaging & Vision，2015，52（3）：436—458.

[18] ?KRIZHEVSKY A，SUTSKEVER I，HINTON G E. ImageNet classification with deep convolutional neural networks[C]// International Conference on Neural Information Processing Systems. Curran Associates Inc，2012：1097—1105.

[19] ?SZEGEDY C，LIU W，JIA Y，et al. Going deeper with convolutions[C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）. IEEE，2015：1—9.

[20] IM D J，TAO M，BRANSON K. An empirical analysis of the optimization of deep network loss surfaces[J]. ArXiv Preprint ArXiv：1612.04010，2016.

[21] DAUPHIN Y N，PASCANU R，GULCEHRE C，et al. Identifying and attacking the saddle point problem in high-dimensional non-convex optimization[C]// International Conference on Neural Information Processing Systems. MIT Press，2014：2933-2941.