深度學習的研究進展與發展

2018-05-21 06:20:18史加榮馬媛媛

計算機工程與應用 2018年10期

關鍵詞：深度監督模型

史加榮，馬媛媛

1.西安建筑科技大學建筑學院，西安 710055

2.省部共建西部綠色建筑國家重點實驗室，西安 710055

3.西安建筑科技大學理學院，西安 710055

1 引言

機器學習是人工智能的核心研究領域之一，其最初的研究動機是為了讓計算機系統具有人的學習能力以實現人工智能[1]。深度學習（深度結構學習或分層學習）是基于數據表示的一類更廣的機器學習方法，它通過組合低級特征形成更加抽象的高級表示特征，以發現數據的分布式特征[2]。深度學習使機器學習能夠實現更多的應用，并拓展了人工智能的服務范圍，已成為諸多領域新的研究熱點，如：語音識別[3]、視頻識別[4]、圖像識別[5]、自然語言處理[6]和信息檢索[7]等。

Hinton等人于2006年提出了一種無監督學習模型：深度置信網絡，該模型解決了深度神經網絡訓練的難題，掀起了深度學習的浪潮[8]。此后，深度學習發展非常迅速，涌現出諸多模型。深度置信網絡、自編碼器[9]、卷積神經網絡[10]和循環神經網絡[11]構成了早期的深度學習模型，隨后由這些模型演變出許多其他模型，主要包括稀疏自編碼器[12]、降噪自編碼器[13]、堆疊降噪自編碼器[14]、深度玻爾茲曼機[15]、深度堆疊網絡[16]、深度對抗網絡[17]和卷積深度置信網絡[18]等。本文主要探討了深度學習的幾種典型模型以及研究與發展。

2 深度學習簡介

為簡化表示，下面給出深度學習幾種典型模型的名稱表，如表1所示。

表1 深度學習典型模型名稱表

深度學習的概念不僅起源于對人工神經網絡的研究[19]，而且受到統計力學的啟發[20]。1986年，Smolensky提出了一種以能量為基礎的模型：RBM，該模型由BM發展而來[21]，主要用于語音識別[22]和圖像分類[23]。2006年，Hinton和Salakhutdinov提出了一種貪婪的逐層學習網絡：DBN，它由多個RBM堆疊而成[24]，避免了梯度消失[2，8]，主要用于圖像識別和信號處理[25]；2009年，他們又提出了另一種貪婪的逐層學習模型：DBM[15]，該模型也是由多個RBM堆疊而成，主要應用于目標識別和信號處理[26]。

與RBM的發展相獨立，Rumelhart于1986年提出了一種無監督學習算法：AE，該算法通過編碼器和解碼器工作完成訓練[12]，主要用于語音識別和特征提取[27]。隨著AE的發展，它的衍生版本不斷出現，如：SAE和DAE。SAE是另一種無監督學習算法，它在AE的編碼層上加入了稀疏性限制，主要用于圖像處理和語音信號處理[28]。DAE在AE的輸入上加入了隨機噪聲，用來預測缺失值[13]。

與前述模型不同，CNN是一種較流行的監督學習模型，它受貓的視覺皮層研究的啟發[10]，已成為圖像識別[29]和語音識別[30]領域的研究熱點。RNN是另一種重要的監督學習模型，專門用來處理序列數據[11]，通常用于語音識別、文本生成和圖像生成[31]。DSN是一種深度堆疊神經網絡，是為研究伸縮性問題而設計的[16]。

機器學習有無監督學習與監督學習之分，不同學習框架下的模型有很大的差異。根據結構和技術應用領域的不同，可以將深度學習分為無監督（生成式）、監督（判別式）和混合深度學習網絡[32]，而無監督學習可為監督學習提供預訓練[2]。最常見的無監督學習模型有RBM，DBN，DBM，AE，SAE，DAE，其中前3個模型以能量為基礎，后兩個模型以AE為基礎。典型的監督學習模型有CNN、RNN和DSN等?；旌仙疃葘W習通常以生成式或者判別式深度學習網絡的結果作為重要輔助，克服了生成式網絡模型的不足[33]，其代表模型有混合深度神經網絡[34]（如：DNN-HMM和DNN-CRF）和混合深度置信網絡[35]（DBN-HMM）。

3 無監督學習模型

先引入以能量為基礎的無監督學習模型：RBM、DBN和DBM，再介紹以AE為基礎的模型：SAE和DAE。

3.1 RBM

作為一種特殊類型的馬爾可夫隨機場，RBM由一個可視層和一個隱層組成[2]，如圖1所示，其中v和h分別表示可視層和隱層，可視單元和隱單元間均存在連接，而同層單元間無連接。記可視層和隱層的神經元個數分別為I和J，可視單元vi∈{0,1}和隱單元hj∈{0,1}之間的連接權值為wij，ai和bj分別為可視層和隱層的偏置，θ={wij,ai,bj}。

圖1 RBM的網絡結構

通常假設RBM的隱單元服從伯努利分布，可視單元服從伯努利分布或高斯分布。為了學習模型參數θ，先定義可視單元不同分布下的兩種能量函數[2]：

其中E1關于v、h是雙線性的，E2是h的線性函數、v的二次函數。對于一般形式的能量函數E(v,h;θ)，可視單元和隱單元的聯合概率分布為[21]：

其中Z(θ)是歸一化因子。

RBM模型關于可視單元的邊緣分布為[2]：

當可視層v給定時，第 j個隱層節點被激活的條件概率為[2]：

式中，sigm(x)=1/(1 +exp(-x))。當隱層h給定時，在伯努利分布和高斯分布假設下第i個可視層節點被激活的條件概率分別為[2]：

其中式（7）右邊表示高斯分布。

對式（4）取負對數并對θ求偏導有[21]：

在上式中，是在 p(h|v)下的期望，被稱為正向位的期望，它降低了訓練數據的能量；Ep是在 p(v,h)下的期望，被稱為負向位的期望，它提高了模型所有可視單元的能量。

正向位易于計算，而負相位計算相對復雜。可根據采樣近似計算負相位，即給定可視層狀態，更新隱層狀態；給定隱層狀態，更新可視層狀態[2，21]。為了更好地計算負相位，先根據k步吉布斯采樣得到v(k)，再利用式（8）對權值wij求偏導：

最后采用對比散度對權值進行更新。類似可計算ai和bj。

RBM使用隱變量來描述輸入數據的分布，而未涉及數據的標簽信息。當有可利用的標簽數據時，可將標簽信息與數據一起使用，并計算與數據相關的近似目標函數[23]。一般而言，RBM主要用來對神經網絡進行預訓練，其目的是初始化權值，從而使網絡盡可能擬合輸入數據。

3.2 DBN

DBN是由多個RBM堆疊而成的神經網絡，通常由一個可視層和多個隱層組成，最高的兩個隱層存在無向對稱邊連接，其余隱層形成一個有向的無環圖[2，36]，如圖2所示。該圖由一個可視層v和三個隱層h1、h2、h3組成，連接方式是自上向下，可以看出：DBN的每一層有兩個作用，即前一層的隱層和后一層的輸入層。

圖2 DBN示意圖

考慮有l個隱層的DBN，令h0=v，p(hk|hk+1)是與第k+1層相關聯的RBM的條件分布，k=0,1,…,l-1。DBN最高兩個隱層間的連接相當于一個RBM，滿足如下公式[20]：

于是DBN關于可視層與隱層的聯合概率分布為[20]：

DBN可以通過無監督預訓練（自上向下）和有監督反向微調（自下而上）來訓練整個網絡[7，8，29]，其訓練過程如下。先使用無標簽數據訓練第一層，學習該層參數。再分層訓練各層參數，此無監督學習的訓練過程相當于網絡參數的初始化。最后利用有標簽數據進行訓練，并使用BP算法將實際輸出與預計輸出的誤差逐層向后傳播，此監督學習的訓練過程相當于網絡參數的微調。作為一種快速貪婪的逐層學習算法，DBN結合了有監督學習與無監督學習各自的優點，能更好地挖掘出有價值的特征[8-9，36]。在預訓練過程中，DBN能高效地計算出最深的隱層變量，且能有效地克服過擬合、欠擬合問題。

3.3 DBM

DBM由多個RBM堆疊而成，是一個完整的無向圖模型。與RBM相比，DBM可有多層隱變量[2，37-38]，且每一層中不同節點都是相互獨立的。圖3給出了由一個可視層和兩個隱層組成的DBM。為簡化表示，此處省略偏置。

圖3 DBM示意圖

對于圖3所示的模型，定義能量函數[15]：

式中W(1)和W(2)分別表示可視層到隱層和隱層到隱層的對稱連接權值矩陣，θ={W(1),W(2)}。因此，關于可視單元和隱單元的聯合概率分布為[15]：

于是有DBM關于可視單元的邊緣分布：

下面給出可視層和隱層的條件分布[15]：

作為一種貪婪的逐層學習算法，DBM的訓練過程與DBN相似，其學習算法對復雜的輸入結構有一個很好的表示[2，37]。但由于直接計算DBM的后驗分布較復雜，故采用KL散度和EM算法來計算后驗分布，具體計算過程可參考文獻[39]。在訓練時，以RBM的后驗分布對樣例進行建模。

3.4 AE

AE通常由三層構成：數據（特征向量）的輸入層，特征轉換的隱層，用于重構信息的輸出層[12]。AE由編碼器（encoder）和解碼器（decoder）來完成訓練[2]，其原理如圖4所示。將輸入向量x映射到隱層向量h的過程叫做編碼，將隱層向量h映射到輸出向量r的過程叫做解碼，分別定義如下形式的編碼函數和解碼函數[61]：

其中W1和b1分別表示編碼器的權值矩陣和偏置向量，W2和b2分別表示解碼器的權值矩陣和偏置向量。

圖4 AE編碼與解碼原理圖

AE一般不能復制輸入本身，只能讓輸出盡可能地逼近輸入，可通過最小化損失函數求出網絡參數[61]：

其中，N為訓練樣例個數，L為損失函數。通常要求AE的輸入維度與輸出維度相等，隱層的維度小于輸入維度[16-17]。此時，AE對應的變換就是降維。如果隱層的維度大于輸入維度，則很難學習數據中的特征，這時可以給AE加入稀疏性[27]等限制性條件來發現數據中的結構。

AE模型結構簡單，訓練過程與RBM類似，可以充分利用無標簽數據得到網絡的初始化權值，從而有效地提取特征[2，40]。訓練AE的目的是讓輸出盡可能逼近輸入，但當訓練樣本與預測樣本不符合相同分布時，所提取到的特征往往較差。

3.5 SAE

SAE是在AE的編碼層上加入稀疏項[12，41]。當隱層節點被激活的節點數遠遠小于被抑制的節點數目時，隱層才具有稀疏響應特征[41-42]。SAE正則化的重構誤差為[40]：

其中g(h)為輸出向量，λ(h)為稀疏項?？蓪L散度作為稀疏性約束[42]，即：

式中λ是懲罰因子，m是隱層神經元的個數，p是隱層神經元激活程度的一個稀疏性參數，pi是第i個隱層神經元的平均活躍度。pi的計算公式如下[42]：

其中，fi(·)表示第i個隱層神經元的激活函數，mj為與此神經元連接的數目。

SAE實現了降維的目的[41]，可以為監督學習提供預訓練。與多層BP神經網絡相比，SAE只是在反向傳播時添加了一個稀疏項，從而抑制了大多數神經元的輸出。

3.6 DAE

DAE是在AE的輸入中加入了隨機噪聲，將含噪數據經過一個編碼器使其形成輸入信號的壓縮表示，再經過一個解碼器得到不含噪聲的輸出數據，然后計算期望輸出與原始輸入的誤差，最后采用隨機梯度下降法來更新網絡權值[13]。圖5繪出了DAE的原理圖。在該圖中，表示加入噪聲后的輸入，f和y分別為編碼函數和解碼函數，z表示解碼層的輸出，L( )x,y(f()) 為損失函數。DAE與AE的編碼函數和解碼函數相同，只是輸入了含有噪聲的數據。

圖5 DAE的原理圖

圖6 CNN架構圖

訓練DAE是為了去除隨機噪聲以獲得沒有被噪聲污染的輸入，這就迫使DAE學習比輸入信號更加魯棒的表示，從而更好地預測夾雜在數據中的噪聲。因此，DAE也被用來預測缺失值[13，42]。

4 監督學習模型

本章將研究三種典型的監督學習模型：CNN、RNN和DSN。

4.1 CNN

CNN是一種特殊類型的深度前饋神經網絡，由輸入層、隱層、全連接層和輸出層組成。隱層由卷積層和下采樣層交替連接組成，即通過卷積操作提取特征，再通過下采樣操作得到更加抽象的特征，并將其輸入到一個或多個全連接層。最后一個全連接層連接到輸出層[43-44]，典型的CNN架構如圖6所示。卷積層和下采樣層構成了CNN的主要模塊，下面對它們進行研究。

4.1.1 卷積層

在卷積層中，先將輸入圖像與卷積核進行卷積，再傳遞給非線性函數 f，從而得到輸出特征圖[43]。假設第l-1層為下采樣層，第l層為卷積層，則第l層的第 j個特征圖的激活值為[43]：

其中Mj是某個特征圖像的子集，是第l-1層的第i個特征映射所對應的像素值，是卷積核，是第 j個單元所對應的偏置，“*”代表卷積運算。當卷積層提取的特征維數過高時，很容易出現過擬合現象，而下采樣層的加入可以在一定程度上減少該現象的發生。

4.1.2 下采樣層

下采樣層可以減少像素信息，實現圖像壓縮[45-46]。該層一般采用最大池化或平均池化方法。假設第l-1層為卷積層，第l層為下采樣層。下采樣層的輸入特征圖與輸出特征圖數目相同，只是特征圖變小了。下采樣層的計算公式如下[43]：其中Nl表示第l層輸入特征圖的大小，和分別為乘性偏置和加性偏置，down(·)表示下采樣函數。

CNN有三個重要的特性：稀疏連接、權值共享和池采樣[43-47]，這些特性可以幫助改善機器學習系統，并使得CNN在一定程度上具有平移、縮放和扭轉不變性。

（1）稀疏連接

CNN采用了前向傳播計算輸出值，反向傳播調整權值和偏置。CNN的相鄰層之間的（去掉）是稀疏連接，這既減少了模型的內存需求，又提高了計算效率。假設CNN模型有m個輸入節點和n個輸出節點，全連接共有m×n個參數；在稀疏連接中，限制每個輸出可能具有的連接數為k(k?m)，則有k×n個參數[46]。

（2）權值共享

當計算某層的輸出時，傳統的神經網絡僅使用一次權值矩陣。但在CNN中，卷積核共享相同的權值矩陣和偏置向量。圖7給出了一個二維卷積操作的例子，其中：左上角為輸入數據（4×4矩陣），右上角為卷積核（2×2濾波器），下方為卷積操作結果。由此可以看出：卷積核被重復應用于整個輸入數據中。這種權值共享降低了網絡復雜度[44]。

圖7 卷積運算示意圖

（3）池化

在卷積層獲得圖像特征后，再對特征進行分類，這通常會產生極大的計算量。采用池化（或下采樣）方法對卷積特征進行降維，可在一定程度上保留一些重要或者有用的信息[43-44]。

與傳統的圖像處理方法相比，CNN避免了前期對圖像的預處理。但CNN的特征受到特定的網絡結構、學習算法及訓練集等諸多因素影響，對其原理的分析與解釋更加抽象和困難[2，47]。卷積層的權值共享和下采樣層的池化策略降低了網絡模型的復雜度，但在訓練過程中耗費大量的時間和計算資源，也會出現過擬合現象[45]。模型結構的合理設置及訓練速度的提升是CNN亟待解決的問題。

4.2 RNN

RNN是指一個隨著時間推移而重復發生的結構，即為時間軸上的循環神經網絡[2，48]。它是由輸入層、隱層和輸出層組成的有向無環結構。隱層是循環實現的基礎，其取值不僅取決于本次的輸入，還取決于上次隱層的輸出，且層級較高的隱層不會向較低的隱層傳播。RNN中的“循環”會把系統隱層的輸出保留在網絡中，再與下一時刻的輸入共同決定輸出[49]。

給定輸入序列和ht分別為t-1時刻和t時刻所對應的隱變量的狀態，Ot表示t時刻所對應的輸出，建立如下模型[49]：

其中U和V分別表示從輸入層到隱層和隱層到輸出層的連接權值，W表示從隱層到隱層的循環連接權值，b和c分別表示輸入層和隱層的偏置，f和g是預先定義的激活函數。一般取 f為tanh或ReLU函數，g為softmax函數。將 ht和 ht-1帶入Ot得[50]：

由上式可以看出：輸出值Ot依賴于 x(t),x(t-1),x(t-2),…，即存在長期依賴問題。

在訓練RNN時，仍使用反向傳播算法，且在每一個時刻均共享參數。每次的梯度不僅依賴于當前時刻的值，也依賴于之前所有時刻的結果，稱此為時間的反向傳播（BPTT）[48-49]。BPTT導致參數與隱層狀態之間的高度不穩定，從而對梯度下降產生直接影響，即出現“梯度消失問題”。長短時記憶網絡（LSTM）是RNN的一種修改結構[50]，在學習時仍具有長期依賴性。LSTM通過門的開關來實現時間上的記憶功能，并防止了梯度消失問題。對于多任務學習，LSTM優于RNN。目前，LSTM已被成功應用于語音和手寫體識別中。

圖8是RNN在時間軸的展開示意圖，其中Lt表示t時刻所對應的損失函數。在每一時步，RNN先接受一個輸入向量，再通過非線性函數來更新隱層狀態，最后對輸出進行預測。RNN常用的損失函數有均方誤差函數和交叉熵函數。

圖8 RNN在時間軸的展開圖

由于RNN在所有時刻都共享參數U、V和W，這極大地減少了需要學習的參數[2，51]。在應用RNN時，往往只需回顧之前的幾步，不需要每一刻的輸出。雖然RNN在理論上可以建立長時間的間隔狀態之間的依賴關系，但由于梯度消失問題，只能學習到短期的依賴關系。

4.3 DSN

DSN（或深度凸網絡）強調學習網絡的凸性質。它由多個模塊堆疊而成，每一個模塊都是一種特殊類型的神經網絡且具有相同的結構，即線性輸入層、非線性隱層和線性輸出層。但每一個模塊的輸入有所不同，它們將原始輸入單元與低層模塊中的輸出單元連接起來[52-53]。

DSN的最底層模塊是構建模型的基礎，也由輸入單元的線性層、隱單元的非線性層和輸出單元的線性層組成[16，52]。記訓練樣例x(i)為B維列向量，對應的輸出標簽t(i)為C維列向量。最底層模塊輸出的計算公式為[2]：

其中下層權值矩陣W1為B×A維，上層權值矩陣U1為A×C維，hi表示隱層的輸出單元，yi表示底部模塊的輸出，A為隱單元的數量。采用均方誤差來學習模型參數U1和W1，其公式如下[2]：

其中N表示訓練樣例的總數目。在計算E之前，需要先對W1進行經驗性設置，下面給出兩種方法：隨機生成各種分布，將結果用于設置W1；使用對比散度算法訓練RBM，將權值用于設置W1。

令E關于U1的偏導數為0，得U1=F(W1)。而在傳統的反向傳播中，U1和W1是相互獨立的。構造拉格朗日函數[2]：

通過最小化上述函數，得到最優化的參數W1。

圖9繪出了DSN示意圖，它由3個模塊相互堆疊而成，且構造非常相似，僅在輸入層有一個擴展。以塊堆疊的目的是從大數據中學習復雜的函數，而學習復雜函數的方法是把簡單函數組合在一起形成一個鏈[52-53]。

圖9 DSN示意圖

5 深度學習典型模型對比及在MNIST數據集上的實驗

5.1 深度學習典型模型對比

隨著深度學習的發展，不斷涌現出各種衍生模型。它們都基于深度學習的幾種典型模型，因此快速地理解深度學習典型模型及它們之間的關系是至關重要的。表2匯總了深度學習的幾種典型模型，該表包括模型、模型結構、訓練方式和相關算法等[54-59]。

神經網絡（NN）是深度學習的基礎；DBN的出現不僅掀起了深度學習的浪潮，而且加快了深度學習的發展；CNN是深度學習最具有代表性的模型。下面在MNIST數據集上對上述三種模型進行評價和對比。

5.2 MNIST數據集與實驗參數設計

本文實驗使用MNIST手寫體數字數據集（http：//yann.lecun.com/exdb/mnist/）。該數據集由Google實驗室的Corinna和Facebook人工智能負責人Yann LeCun建立，其訓練集和測試集分別由60 000和10 000個樣例組成[60-61]。每個樣本是一幅0～9的手寫體數字圖片，分辨率為28×28。本文主要使用DeepLearn Toolbox程序，其下載網址如下：https：//github.com/rasmusbergpalm/DeepLearnToolbox。此程序使用MATLAB語言編寫，在2.9 GHz CPU的個人電腦上運行。

NN由輸入層、隱層和輸出層組成，每層節點個數分別設置為784、100和10，其中“784”為輸入樣本的維數（28×28），“10”為類別數目。DBN由輸入層、第一隱層、第二隱層和輸出層等四層組成，每層節點個數分別設置為784、100、100和10。將 CNN設置為一個含輸入層在內的五層網絡，包含兩個卷積層和兩個下采樣層。CNN的卷積層C1和C3分別包含6個和12個大小均為5×5的卷積核，下采樣層S2和S4對應的采樣核大小均為2×2。

5.3 實驗結果分析

5.3.1 不同策略下的NN

為了更好地驗證NN的有效性，對NN采用了dropout技術[62]和權值衰減策略[61]。Dropout技術是指在模型訓練時隨機讓網絡某些隱層節點的權值不工作，此處將dropout的概率設置為0.5。權值衰減是為了避免由于權值越來越大而出現的過擬合現象，設置懲罰因子為10－4。此外，令迭代次數epoch=1，批大小minibatch=100。

NN、NN+dropout技術、NN+權值衰減策略對應的誤分率分別為7.41%、8.65%、1.86%?？梢钥闯觯翰捎脵嘀邓p策略，誤分率降低了5.55%；而采用dropout技術，誤分率反而增加了1.24%。因此，權值衰減策略可明顯提升神經網絡的性能。

5.3.2 學習率和epoch對DBN的影響

學習率（LearnRate）是深度學習技術的重要參數[59]，它決定了每次循環訓練過程中所產生的權值變化量。學習率過大或過小都會對實驗結果造成影響。通常需要多次調節學習率，或者基于先驗知識對其進行設置。一次迭代（epoch）就是將訓練集中的全部樣例訓練一次。分別考慮三種不同的學習率和epoch，DBN的識別率和運行時間如表3所示。

表2 深度學習的典型模型匯總

表3 不同學習率和epoch下DBN的實驗結果

表4 不同學習率和epoch下CNN的實驗結果

從表3可以看出：當epoch=1時，網絡的誤分率隨學習率的增加而降低；當學習率固定時，網絡的識別能力隨epoch的增加而增強；隨epoch或學習率的增加，實驗運行時間往往也變長。

5.3.3 學習率和epoch對CNN的影響

對于CNN模型，同樣考慮不同學習率和epoch組合下的識別結果，如表4所示。從表4可以看出，當學習率一定時，網絡的誤分率隨著epoch的增加而降低；當epoch固定時，網絡的誤分率隨著學習率的增加而降低。當LearnRate=1、epoch=50時，網絡的識別效果最佳。

6 發展趨勢

本文主要探討了深度學習的幾種典型模型，闡述了它們的模型結構、建立、求解和評價，并對這些典型模型進行了總結和對比。DBN等無監督學習模型通常用來協助隨后的監督學習，并為其提供預訓練；預訓練結束后，再使用監督學習進行反向微調。雖然深度學習已被成功應用于語音、視頻、圖像、自然語言處理和信息檢索等諸多科學領域，但仍面臨一些挑戰[2，33，40，42，55，63-64]：

（1）數學理論的缺乏。對于深度學習框架，業界普遍存在一系列疑問，例如：算法的收斂性與穩定性；深度學習需要多少隱層；在大規模網絡中，需要多少有效參數。不管是構建更好的深度學習系統，還是提供更好的解釋，深度學習都需要完善的理論支持。

（2）深度學習的應用推廣。在應用經典的深度學習模型時，實驗結果可能不理想，這就要求根據特定的問題與數據來制定和優化深度學習的網絡結構。

（3）深度網絡訓練的求解問題。這些問題主要包括：隨網絡層數增加而帶來的梯度消失問題；如何有效地設置深度學習的模型參數和進行大規模并行訓練。

（4）新模型對人工智能發展的影響。深度學習不斷涌現出新的模型，如：生成對抗網絡和膠囊網絡等。這些模型可能會從觀念上挑戰傳統的深度學習，也可能會改變計算機視覺傳輸的方式，重塑人工智能。

隨著人工智能的蓬勃發展，我國越來越多的學者開始關注深度學習。深度學習將智能技術從實驗室帶到了產業及應用層面，但許多學者仍將深度學習當做一種工具來使用，忽略了它的分類及基礎概念、技術的歷史進程和發展方向，從而導致人們對此人工智能技術的整體發展趨勢及可用性缺乏宏觀認識。因此，為了加深對深度學習的理解，需要完善深度學習的數學理論，并將深度學習技術應用于大數據相關問題的求解上，尤其是數據的高維度、學習算法的可擴展性及分布式計算等。

：

[1]Arel I，Rose D C，Karnowski T P.Deep machine learninga new frontier in artificial intelligence research[J].IEEE Computational Intelligence Magazine，2010，5（4）：13-18.

[2]Deng L，Yu D.Deep learning：methods and applications[J].Foundations and Trends in Signal Processing，2014，7（3/4）：197-387.

[3]王山海，景新幸，楊海燕.基于深度學習神經網絡的孤立詞語音識別的研究[J].計算機應用研究，2015，32（8）：2289-2291.

[4]Lee H，Pham P，Largman Y，et al.Unsupervised feature learning for audio classification using convolutional deep belief networks[C]//Advances in Neural Information Processing Systems（NIPS），2009：1096-1104.

[5]許可.卷積神經網絡在圖像識別上的應用的研究[D].杭州：浙江大學，2012.

[6]林奕鷗，雷航，李曉瑜，等.自然語言處理中的深度學習：方法及應用[J].電子科技大學學報，2017，46（6）：913-919.

[7]Deng L，He X，Gao J.Deep stacking networks for information retrieval[C]//IEEE InternationalConferenceon Acoustics，Speech and Signal Processing（ICASSP），2013：3153-3157.

[8]Hinton G E，Osindero S，Teh Y W.A fast learning algorithm for deep belief nets[J].Neural Computation，2006，18（7）：1527-1554.

[9]Bengio Y，Lamblin P，Popovici D，et al.Greedy layerwise training of deep networks[C]//Advances in Neural Information Processing Systems，2007：153-160.

[10]Abdel-Hamid O，Deng L，Yu D.Exploring convolutional neural network structures and optimization techniques for speech recognition[C]//Interspeech，2013：3366-3370.

[11]Martens J，Sutskever I.Learning recurrent neural networks with hessian-free optimization[C]//Proceedings of the 28th International Conference on Machine Learning（ICML），2011：1033-1040.

[12]Sainath T N，Kingsbury B，Ramabhadran B.Auto-encoder bottleneck features using deep belief networks[C]//IEEE International Conference on Acoustics，Speech and Signal Processing（ICASSP），2012：4153-4156.

[13]Vincent P，Larochelle H，Bengio Y，et al.Extracting and composing robust features with denoising autoencoder[C]//Proceedings of the 25th International Conference on Machine Learning（ICML），2008.

[14]Vincent P，Larochelle H，Lajoie I，et al.Stacked denoising autoencoders：Learning useful representations in a deep network with a local denoising criterion[J].Journal of Machine Learning Research，2010：3371-3408.

[15]Salakhutdinov R，Hinton G.Deep Boltzmann machines[C]//Artificial Intelligence and Statistics，2009：448-455.

[16]Deng L，Yu D，Platt J.Scalable stacking and learning forbuilding deep architectures[C]//IEEE International Conference on Acoustics，Speech and Signal Processing（ICASSP），2012：2133-2136.

[17]Goodfellow L，Pouget-Abadie J，Mirza M，et al.Generative adversarial networks[C]//Advances in Neural Information Processing Systems（NIPS），2014.

[18]Lee H，Grosse R，Ranganath R，et al.Unsupervised learning of hierarchical representations with convolutional deep belief networks[J].Communications of the ACM，2011，54（10）：95-103.

[19]Ajith A.Artifical neural networks[M].Sydenham P H，Thorn R.Handbook of measuring system design.New York：John Wiley&Sons，2005.

[20]Bengio Y.Learning deep architectures for AI[J].Foundations and trends in Machine Learning，2009，2（1）：1-127.[21]Hinton G.A practical guide to training restricted Boltzmann machines[J].Momentum，2012，9（1）：926.

[22]Mohamed A R，Hinton G.Phone recognition using restricted Boltzmann machines[C]//IEEE International Conference on Acoustics，Speech and Signal Processing（ICASSP），2010：4354-4357.

[23]Larochelle H，Bengio Y.Classification using discriminative restricted Boltzmann machines[C]//Proceedings of the 25th International Conference on Machine Learning（ICML），2008：536-543.

[24]Hinton G E，Salakhutdinov R R.Reducing the dimensionality of data with neural networks[J].Science，2006，313（5786）：504-507.

[25]Mohamed A R，Yu D，Deng L.Investigation of fullsequence training of deep belief networks for speech recognition[C]//Eleventh Annual Conference of the International Speech Communication Association，2010.

[26]Ngiam J，Chen Z.Learning deep energy models[C]//Proceedings of the 28th International Conference on Machine Learning（ICML），2011：1105-1112.

[27]Deng L，Seltzer M L，Yu D，et al.Binary coding of speech spectrograms using a deep auto-encoder[C]//Eleventh Annual Conference of the International Speech Communication Association，2010.

[28]Bengio Y，Courville A，Vincent P.Representation learning：A review and new perspectives[J].IEEE Transactions on Pattern Analysis and Machine Intelligence，2013，35（8）：1798-1828.

[29]Lawrence S，Giles C L，Tsoi A C，et al.Face recognition：A convolutional neural-network approach[J].IEEE Transactions on Neural Networks，1997，8（1）：98-113.

[30]張晴晴，劉勇，王智超，等.卷積神經網絡在語音識別中的應用[J].網絡新媒體技術，2014（6）：39-42.

[31]Graves A.Sequence transduction with recurrent neural networks[J].arXiv：1211.3711，2012.

[32]Deng L.An overview of deep-structured learning for information processing[C]//Proceedings of Asian-Pacific Signal&Information Processing Annual Summit and Conference（APSIPA-ASC），2011.

[33]Bengio Y.Deep learning of representations for unsupervised and transferlearning[C]//ProceedingsofICML Workshop on Unsupervised and Transfer Learning，2012：17-36.

[34]Dahl G E，Yu D，Deng L，et al.Context-dependent pretrained deep neural networks for large vocabulary speech recognition[J].IEEE Transactions on Audio，Speech，and Language Processing，2012，20（1）：30-42.

[35]Dahl G E，Yu D，Deng L，et al.Context-dependent DBNHMMs in large vocabulary continuous speech recognition[C]//Proceedings of International Conference on Acoustics，Speech and Signal Processing（ICASSP），2011.

[36]Mohamed A R，Dahl G E，Hinton G E.Acoustic modeling using deep belief networks[J].IEEE Transactions on Audio，Speech，and Language Processing，2012，20（1）：14-22.

[37]Goodfellow L，Mirza M，Courville A，et al.Multi-prediction deep Boltzmann machines[C]//Advances in Neural Information Processing Systems（NIPS），2013：548-556.

[38]Salakhutdinov R R，Hinton G E.A better way to pretrain deep boltzmann machines[C]//Advances in Neural Information Processing Systems（NIPS），2012：2447-2455.

[39]Tzikas D G，Likas A C，Galatsanos N P.The variational approximation forBayesian inference[J].IEEE Signal Processing Magazine，2008，25（6）：131-146.

[40]焦李成，趙進，楊淑媛，等.稀疏認知學習，計算與識別的研究進展[J].計算機學報，2016，39（4）：835-851.

[41]Coates A，Ng A Y.The importance of encoding versus training with sparse coding and vector quantization[C]//Proceedings of the 28th International Conference on Machine Learning（ICML），2011：921-928.

[42]焦李成，趙進，楊淑媛，等.深度學習、優化與識別[M].北京：清華大學出版社，2017：100-120.

[43]Bouvrie J.Notes on convolutional neural networks[J/OL].（2006）.http：//cogprints.org/5869/1/cnn_tutorial.pdf.

[44]Deng L，Abdel-Hamid O，Yu D.A deep convolutional neural network using heterogeneous pooling for trading acoustic invariance with phonetic confusion[C]//IEEE InternationalConferenceonAcoustics，Speech and Signal Processing（ICASSP），2013：6669-6673.

[45]Zeiler M D，Fergus R.Visualizing and understanding convolutional networks[C]//European Conference on Computer Vision（ECCV）.Cham：Springer，2014：818-833.

[46]Goodfellow L，Bengio Y，Courvile A.Deep learning[M].[S.l.]：MIT Press，2016.

[47]李彥冬，郝宗波，雷航.卷積神經網絡研究綜述[J].計算機應用，2016，36（9）：2508-2515.

[48]LeCun Y，Bottou L，Bengio Y，et al.Gradient-based learning applied to document recognition[J].Proceedings of the IEEE，1998，86（11）：2278-2324.

[49]Gulcehre C，Cho K，Pascanu R，et al.Learned-norm pooling for deep feedforward and recurrent neural networks[C]//Joint European Conference on Machine Learning and Knowledge Discovery in Databases.Berlin，Heidelberg：Springer，2014：530-546.

[50]Hochreiter S，Schmidhuber J.Long short-term memory[J].Neural Computation，1997，9（8）：1735-1780.

[51]鄧力，俞棟.深度學習方法及應用[M].謝磊，譯.北京：機械工業出版社，2015：48-57.

[52]Huang P S，Deng L，Hasegawa-Johnson M，et al.Random features for kernel deep convex network[C]//IEEE International Conference on Acoustics，Speech and Signal Processing（ICASSP），2013：3143-3147.

[53]Hutchinson B，Deng L，Yu D.A deep architecture with bilinear modeling of hidden representations：Applicationsto phonetic recognition[C]//IEEE International Conference on Acoustics，Speech and Signal Processing（ICASSP），2012：4805-4808.

[54]馬世龍，烏尼日其其格，李小平.大數據與深度學習綜述[J].智能系統學報，2016，11（6）：728-742.

[55]劉帥師，程曦，郭文燕，等.深度學習方法研究新進展[J].智能系統學報，2016，11（5）：567-577.

[56]孫志軍，薛磊，許陽明，等.深度學習研究綜述[J].計算機應用研究，2012，29（8）：2806-2810.

[57]Yu D，Deng L.Deep learning and its applications to signal and information processing[J].IEEE Signal Processing Magazine，2011，28（1）：145-154.

[58]Schmidhuber J.Deep learning in neural networks：An overview[J].Neural Networks，2015，61：85-117.

[59]Huang F J，Boureau Y L，LeCun Y.Unsupervised learning of invariant feature hierarchies with applications to object recognition[C]//IEEE Conference on Computer Vision and Pattern Recognition（CVPR），2007：1-8.

[60]Deng L.The MNIST database of handwritten digit images for machine learning research[J].IEEE Signal Processing Magazine，2012，29（6）：141-142.

[61]Palm R B.Prediction as a candidate for learning deep hierarchical models of data[J].Technical University of Denmark，2012，5.

[62]Ba J，Frey B.Adaptive dropout for training deep neural networks[C]//Advances in Neural Information Processing Systems（NIPS），2013：3084-3092.

[63]范竣翔，李琦，朱亞杰，等.基于RNN 的空氣污染時空預報模型研究[J].測繪科學，2017，42（7）：76-83.

[64]尹寶才，王文通，王立春.深度學習研究綜述[J].北京大學學報，2015，41（1）：49-58.