徐 彥,熊迎軍,楊 靜
(1.南京農業大學信息科技學院,南京210095; 2.北京師范大學珠海分校管理學院,廣東珠海519087)
(*通信作者電子郵箱xuyannn@njau.edu.cn)
脈沖神經網絡被稱為第三代神經網絡[1],其以更接近真實神經元的方式運行,具有強于傳統神經網絡的性能[2]。脈沖神經元以脈沖激發時間作為輸入和輸出,可以更好地模擬生物神經元進而可以成為更有效模擬人工智能的基礎。
在人工神經網絡的研究中,有監督學習理論一直屬于核心研究內容。由于人腦神經系統中神經元激發的脈沖序列為各種認知活動的生理基礎[3],因此脈沖神經元與網絡的有監督學習具有重要的應用價值,成為其研究領域中一個極重要的組成部分。而這其中,以脈沖的激發時間編碼的有監督學習又成為研究者重點關注的研究方向。
基于時間編碼的脈沖神經網絡有監督學習方法按照激發的脈沖個數可以大致分為單脈沖學習(如Tempotron[4])和多脈沖學習方法兩類。很顯然,多脈沖學習更加符合生物神經元運行的特征并且也具有更強的應用性能。如果按照適用的網絡結構可以把脈沖神經網絡有監督學習方法分為單神經元學習和網絡學習方法兩類。已有有監督學習方法在網絡結構和脈沖個數上的一個普遍規律是單神經元學習方法的多脈沖學習能力普遍較強,可以通過學習控制更多的脈沖激發時刻,而多層網絡的學習方法一般只控制較少的輸出脈沖個數。
這里先介紹幾個概念的定義。脈沖神經網絡的有監督學習是指通過學習使得輸出神經元激發出一串特定的期望輸出脈沖序列。基于時間編碼的脈沖神經網絡有監督學習是指在一段運行時間內通過學習使得輸出神經元精確地在指定的時刻激發出脈沖。基于時間編碼的單脈沖神經元的多脈沖有監督學習(以下簡稱單神經元學習)是指具有多個輸入突觸的單個脈沖神經元通過學習在期望的時刻激發出多個脈沖,即脈沖序列,所以本文又稱之為脈沖序列學習。
脈沖神經元是構成脈沖神經網絡的基本單元,單脈沖神經元的有監督學習可以更好地借鑒已明確的生物神經元突觸調整機制,同時是實現更復雜神經網絡有監督學習的基礎[5],因此具有重要的意義。單神經元脈沖序列學習的過程受到諸多因素的影響,包括輸入輸出脈沖序列長度、激發率,神經元突觸個數等。序列越長、激發率越高會導致學習的難度越大;但是,諸多的因素也使得脈沖序列學習具有更加靈活的權值調整可用信息。
目前,已有不同的研究者提出了若干單神經元學習方法。其中,有一類是基于隨機模型提出的[6-7],這類非確定性方法難以分析比較它們對復雜目標序列的學習能力。文獻[8]利用線性代數的方法給出了一種脈沖序列學習方法,但是這種方法的理論脫離脈沖神經元的特點過多,因此較少被研究者關注。另外,也已經有綜述性的文獻介紹脈沖神經網絡的學習方法[9-10],但是這些研究的介紹都比較廣泛,沒有特別針對脈沖序列學習方法,或者沒有進行實驗比較不同方法的序列學習能力。序列學習能力是脈沖序列學習方法的核心性能,同時對于越長越復雜脈沖序列學習能力越強的方法將具有更強的應用能力,也更能體現脈沖神經元的特征。
本文以確定性的學習方法為對象,較詳細地介紹了幾種目前主要的脈沖序列學習方法,這些方法基于不同的理論依據,具有不同的權值調整方式,在性能上存在較大的差別。本文通過實驗比較了這幾種方法的學習性能,分析和總結了它們的特點。
目前,存在多種脈沖神經元模型,這些模型大多從生物神經元內部物理化學活動的規律抽象出模型表達式,這其中,集成激發模型(Leaky Integrate-and-Fire model,LIF)[11]與脈沖反應模型(Spike Response Model,SRM)[12]是脈沖序列學習方法研究中最常見的模型對象。
LIF是最基本、也是最常被研究的一種閾值 激發模型,這個模型基于生物神經元在生物電子學上表現出的一些特征。一個通過突觸在時刻t(g)輸入的脈沖經過一個低通濾波器,這個低通濾波器將脈沖形式的短暫脈沖轉換成一個電流脈沖I(g)(t)。這個電流脈沖會升高神經元內部電路的電壓,升高的電壓可以看成是神經元的突觸后膜電位值的改變量。神經元內部電路中并聯著一個電阻Rm和一個電容C。一旦在神經元內部電容上的電壓超過激發閾值,神經元會激發出一個脈沖。根據電路中電流、電壓和電容的相互關系,這個模型的神經元膜電位u隨著時間的表達式為:

其中τm=RmC,稱為膜時間常數。一個具體的LIF神經元由電流I(t)決定,I(t)為沿著所有突觸到達神經元的輸入脈沖在神經元內部形成的電流脈沖并且在突觸強度影響下的總和,即:

其中:N是神經元輸入突觸個數;wi是神經元第i個突觸的權值;Ii(t)是第i條突觸所有輸入脈沖引起的電流脈沖的總和,而每一個輸入脈沖通過一個核函數轉換為電流脈沖。因此,有:

其中:H(t)是Heaviside階躍函數;K(t)為核函數。
LIF的表達式是微分方程形式,而SRM則具有直觀的表達式,一種通用的SRM神經元的膜電位表達式為:

一個輸入脈沖產生的突觸后電位(PostSynaptic Potential,PSP),由反應函數ε(t)決定。當神經元的膜電位由低到高超過神經元的激發閾值,神經元會在這個時刻激發出一個脈沖(這里用表示),隨后神經元進入絕對不應期和相對不應期,這兩個過程會對神經元在后面時間的內部狀態和脈沖激發產生影響。膜電位表達式中加入不應期函數η(t-)描述相對不應期的影響,為當前時刻之前的最靠近當前時刻的脈沖激發時刻。
不同的脈沖神經元模型之間并不獨立,通過求解微分方程的通解可以得到LIF一個確定性的表達式[12],而這個表達式可以看成是一種SRM。

圖1 脈沖序列學習Fig.1 Spike sequence learning
在神經元運行過程中實際激發脈沖的時刻記為To={,…,},期望輸出脈沖的時刻記為Td=,,…},沿著第i個突觸輸入神經元的脈沖的到達時刻記為={,…};則實際輸出脈沖序列可以記期望輸出脈沖序列可以記為
基于梯度下降的脈沖反向傳播(Spike Back Propagation,SpikeProp)方法[13]是最早出現的脈沖神經網絡有監督學習方法之一,這個方法將著名的BP(Back Propagation)算法推廣到脈沖神經網絡。在SpikeProp的研究基礎上,帶動量的反向傳 播、QuickProp(Quick Back Propagation)、Levenberg-Marquardt BP等提高學習性能的反向傳播算法被應用到脈沖神經網絡上[14–16]。這幾種方法所采用的是純粹的單脈沖結構,即輸入、隱層、輸出神經元都被限制僅僅激發一個脈沖或者僅僅控制一個脈沖的激發時間。文獻[17]首先提出了一種基于多脈沖激發的反向傳播學習模型,但是這個方法中僅僅是隱層神經元可以激發多脈沖,而輸出神經元只能通過學習控制第一個脈沖的激發時間,所以仍然屬于單脈沖學習模型。類似的,文獻[18]提出了一個多脈沖輸出網絡結構,稱之為MuSpiNN(Multi-Spiking Neural Network)網絡模型,以及這個模型上的多脈沖輸出反向傳播學習算法Multi-SpikeProp,但是這個模型的多脈沖特性同樣僅僅體現在隱層神經元上,作為構建誤差函數的輸出神經元同樣只能為單脈沖輸出。
文獻[19]通過構造多脈沖情形下的誤差函數實現了基于梯度下降的脈沖序列學習方法。基于梯度下降的方法需要構造誤差函數,脈沖序列學習中誤差函數由期望輸出和實際輸出脈沖序列構成。文獻[19]中的方法當神經元運行完成得到完整的實際輸出脈沖序列后再與期望輸出脈沖序列構成誤差函數,其權值調整是在神經元運行完成后進行,因此屬于離線學習方式。
由生物學研究可知,生物神經元大多數情況下是在有脈沖激發時按照一定的機制立刻調整突觸強度,也就是屬于在線調整。在線方式的脈沖神經元有監督學習方法更符合生物學基礎,而且預期也會有更強的學習性能,因此在理論研究和實際應用上都有一定優勢。在線的脈沖序列學習方法在神經元運行過程中一旦有脈沖激發就立刻調整突觸權值。文獻[20-21]提出了在線的基于梯度下降的脈沖序列學習方法(Online Gradient-Descent-Based Multi-Spike,OnMSGDB)。這個方法基于SRM神經元提出,并且在神經元有脈沖激發時立刻根據當前激發脈沖和對應的期望輸出脈沖構造實時誤差函數。具體的,設當前激發的為第f個實際輸出脈沖,第 f個期望輸出脈沖為,則由這兩個脈沖構建的誤差函數定義如下:

接著就是利用梯度下降法最小化這個誤差函數得到權值調整公式,即:


基于梯度下降的方法是傳統神經網絡研究中常用的方法,另一種傳統神經元常用的權值調整方法是Widrow-Hoff規則。這個規則目前也成為幾種脈沖神經元脈沖序列學習方法的理論基礎。標準的Widrow-Hoff規則表達式為:

其中xin、yd、yo分別代表神經元的輸入、期望輸出與實際輸出。由此表達式可知Widrow-Hoff規則中神經元依據實際與期望輸出之差并且乘以輸入計算調整權值。
Widrow-Hoff規則只能處理實數形式的輸入輸出,因此不能直接應用于脈沖神經元。因為脈沖神經元與真實生物神經元的密切聯系,其學習方法可以借鑒生物神經元的突觸調整機制,例如依賴時間的突觸可塑性(Spike-Timing-Dependent-Plasticity, STDP)[22]規 則。 ReSuMe(Remote Supervised Method)方法[23]使用窗口函數首次克服了Widrow-Hoff規則的限制并且結合STDP規則實現脈沖序列學習,其權值調整表達式為:

其中:a是一個權值更新的常數,表示一個恒定不變的更新量;W(s)稱為學習窗口函數,它將離散的輸入脈沖的時刻轉換成Widrow-Hoff規則可以處理的形式。由式(9)可知權值更新幅度由輸入脈沖與實際輸出脈沖或者期望輸出脈沖之間的時間間隔根據窗口函數計算而得。
在式(9)中,Sd(t)-So(t)在形式上表示期望與實際輸出的差別,但是如果將輸入脈沖序列與輸出脈沖序列分別考慮,ReSuMe方法的權值更新實際上可以分為兩部分。第一部分是權值的增強:當神經元運行時遇到任何一個期望輸出脈沖所在的時間點,就要在這個時間點根據輸入脈沖的時刻計算增強突觸權值;第二部分是權值的減弱:當神經元在運行過程中一旦激發出脈沖,就要在這個實際輸出脈沖的時間點根據輸入脈沖的時刻計算減弱突觸權值。由于ReSuMe的窗口函數獨立于神經元的內部狀態表達式,因此其可以適用于多種神經元模型,并且具有較好的綜合性能。在標準ReSuMe方法的基礎上,不少研究者對其進行了推廣,例如在算法中加入時間延遲[24]。
文獻[25-26]提出了一種稱為脈沖模式聯想神經元(Spike Pattern Assoiation Neuron,SPAN)的學習方法,這個方法也是基于Widrow-Hoff規則。SPAN方法采用卷積方式將離散的脈沖輸入與輸出時刻轉換為實數形式,其首先用一個卷積核函數(t)作用于輸入、期望與實際輸出脈沖序列,即:

卷積之后得到每一個輸入或輸出脈沖激發時刻在時刻t對應的實數值。接著將卷積后得到的(t)(t)代入Widrow-Hoff規則得到權值調整公式的連續形式為:

因此有:

其中λ是學習速率。SPAN方法可以采用多種不同的卷積核函數,這增加了它的靈活性。
文獻[27]提出了一種稱為精確脈沖驅動突觸調整(Precise-Spike-Driven synaptic plasticity,PSD)的方法,該方法基于LIF神經元模型提出,也是采用卷積方式將脈沖的時間轉換為實數以采用Widrow-Hoff規則調整權值。與SPAN方法不同的是PSD方法只對輸入脈沖進行卷積,而且由于采用與神經元表達式(3)中相同的卷積核函數K(t),因此PSD實際上是依據神經元的輸入電流大小調整權值。其權值調整表達式為:

因此:

其中Ii(t)如式(3)所示,表示神經元內部由輸入脈沖引起的電流大小,這個電流與神經元內部膜電位的變化直接相關,因此PSD方法的權值調整計算公式與LIF神經元的內部狀態密切相關。式(16)右端的兩部分表明PSD方法的運行方式類似于ReSuMe方法,即在期望輸出脈沖處增強權值,在實際輸出脈沖處減弱權值。
文獻[28]中較詳細地討論了脈沖神經元的的有監督學習問題,包括一個神經元存儲輸入輸出模式的能力以及學習脈沖序列的能力等。文獻[28]提出了一種可以實現脈沖序列學習的有限精度(Finite Precision,FP)算法,并且對脈沖的激發提出了時間容錯的概念,即在學習時并不要求精確地在期望輸出時刻激發脈沖,而是在期望輸出時刻的一個時間鄰域內激發即可。基于容錯的概念,FP算法當期望輸出脈沖時刻的鄰域內沒有脈沖激發,則增強權值;如果在鄰域外有脈沖激發或者在鄰域內有多于一個脈沖激發則減弱權值,其權值調整的具體規則與ReSuMe類似。
文獻[29]提出了一種稱為非線性脈沖序列核(nonlinear Spike Train Kernels,nSTK)的學習方法,這個方法也是基于Widrow-Hoff規則。nSTK將一個卷積核作用于輸入脈沖序列,與PSD不同的是可以選擇多種核函數并且增加一個非線性函數與卷積核一起完成對輸入脈沖序列的轉換。其權值更新規則為:

其中:ρ為學習速率;k(t)是卷積核函數;f(x)為非線性函數,這個非線性函數通常可以選擇tanh(x/ζ)或者(1-e-x/ζ)。
文獻[30]提出一種名為Chronotron的方法。Chronotron方法有兩種學習機制:E-learning和 I-learning。其中,E-learning機制也是基于梯度下降的思想,通過梯度下降縮小實際輸出脈沖序列與期望輸出脈沖序列之間的差別。與OnMSGDB不同的是E-learning機制采用VP(Victor-Purpura)距離[31]來度量兩種輸出脈沖之間的差別。
VP距離依據從實際輸出脈沖序列轉換為期望輸出脈沖序列所需要的最小代價來度量兩種序列的距離。這個轉換包含三種操作:在實際激發脈沖序列中增加期望的輸出脈沖、刪除不期望的并且在上次學習中沒有移動的輸出脈沖、移動某一個脈沖的激發時間到達對應的期望輸出脈沖的時間。基于VP距離的期望與實際輸出脈沖序列的誤差函數表達式為:


Chronotron的第二種學習機制稱為I-learning。I-learning基于LIF神經元提出,一個突觸的權值依據沿著這個突觸到達神經元的脈沖引起的帶權值電流進行調整,具體規則為:

其中:γ是學習速率;wiIi表示帶權值的電流;sign(wi)是權值wi的符號。由式(20)可知,I-learning在期望輸出脈沖的時刻增強權值,在實際輸出脈沖的激發時刻減弱權值,這一運行機制也與ReSuMe方法的運行機制類似。
文獻[32]提出了一種脈沖序列學習方法稱為濾鏡誤差(FILTered-error,FILT)。這種方法基于隨機的學習模型提出,但是最終被轉化為確定性的學習方法,從而克服了隨機模型不利于實現精確脈沖激發時間控制的缺陷。FILT方法將期望與實際輸出脈沖之間的誤差先用一個濾鏡函數作用,然后調整權值減少這種濾鏡作用后的誤差。其權值調整公式為:

其中λ是學習速率。由于引入了濾鏡函數,使得FILT沒有直接采用PSP或者神經元突觸電流作為權值調整公式,其權值計算函數σ(x)與其他學習方法的權值計算函數最大的區別是當輸入脈沖的時間晚于當前調整權值的輸出脈沖時刻時,依然會有效地調整權值,因此FILT更符合生物神經元突觸前與突觸后脈沖都會影響突觸強度的生理機制。
文獻[33]提出了一種基于感知機規則的脈沖序列學習方法(Perceptron Based Spiking Neuron Learning Rule,PBSNLR)。感知機是以硬極限函數作為激活函數的最簡單的傳統人工神經元,其學習方法感知機規則是最簡單的傳統神經元學習方法。感知機通過神經元的輸出是1還是0來實現簡單的樣本分類,而其權值W的調整根據期望輸出d與實際輸出a之間的差別進行,具體規則為:

其中:p是樣本輸入;Wold和Wnew分別表示調整前與調整后的權值。
PBSNLR將脈沖神經元的運行時間分為有脈沖激發與無脈沖激發兩類,從而將其有監督學習轉換為兩分類問題,然后使用感知機規則來解決這個分類問題。PBSNLR以SRM神經元模型為對象,首先在神經元運行時間上的任一時刻珋t處得到用于感知機規則學習的樣本輸入,這個樣本輸入直接由神經元內部膜電位表達式(4)去掉權值wi計算得到。對應于第i個輸入突觸的樣本輸入的分量為:

在目前已有的脈沖序列學習方法中,PBSNLR、E-learning是離線學習方法;OnMSGDB、ReSuMe、PSD、SPAN、FP、nSTK、I-learning和FILT可以以在線方式運行。同時在基本的學習方法的基礎上,也有研究者從脈沖神經元本身的特點出發研究提高脈沖序列學習方法性能的通用方法。例如,選擇適當個數的輸入脈沖進行權值更新計算[36],或者采用帶噪聲的激發閾值[37]等。
不同脈沖序列學習方法的理論基礎或者具體的權值調整規則各不相同,因此它們的性能肯定存在差異。衡量一個學習方法脈沖序列學習能力的性能指標通常為學習精度與效率。下面進行兩組實驗考察上述幾種脈沖序列學習方法的性能。
在這幾種學習方法中,PSD、SPAN、I-learning都是基于LIF神經元模型提出,而ReSuMe方法和nSTK方法可以適用于不同的神經元模型,OnMSGDB、PBSNLR、E-learning和FILT基于SRM模型提出。因為LIF模型可以轉換為SRM模型,所以我們選擇在LIF神經元上運行實驗。另外因為FP方法的權值調整規則與ReSuMe類似,同時其特有的容錯區間使其不適合與其他方法直接比較性能,因此本文的實驗中不考慮FP方法。實驗中LIF神經元的卷積核函數取為:

其中τ是一個常數。此時,通過解微分方程得到的對應SRM模型的表達式為:



因為ReSuMe方法的窗口函數選擇并不唯一,本文中采用如下形式的窗口函數:

其中:A是一個常數;τ+是決定學習窗口函數性態的時間延遲常數。
SPAN方法的卷積核函數選擇與文獻[13]中相同的形式,即:

對于nSTK方法,采用和PSD方法相同的核函數,即神經元表達式中轉換電流的核函數 K(t),非線性函數選擇tanh(x/ζ)。FILT方法的權值調整函數取和文獻[32]相同的形式,即:

實驗中神經元與學習方法的相關參數設置如表1所示。

表1 神經元與學習方法的參數Tab.1 Parameters of spiking neurons and learning methods
在脈沖序列學習中,評價學習結果的好壞就是判斷神經元在學習結束后實際激發的脈沖序列與期望輸出脈沖序列接近的程度,這實際上就是度量兩個脈沖序列之間的距離。本文采用基于相關性的度量C[38]來描述這個距離。C的值在區間[0,1]內,如果學習結束后根據實際與期望輸出脈沖序列計算得到的C值越接近1,則說明兩個序列越接近,即學習精度越高,越接近0則精度越低。因為采用計算機編程模擬神經元運行,因此需要將連續的運行時間離散化,本文中離散精度設置為1 ms。
在第一組實驗中,一個含有400個突觸的LIF神經元學習輸出1600 ms的脈沖序列。輸入與輸出脈沖序列分別為激發率為10 Hz和100 Hz的Poisson序列。神經元的初始權值取區間(0,1.2·10-3)上的均勻分布。各方法的學習速率設定如下:OnMSGDB(On)和 E-learning(E-l)為 0.01;PSD(PS)、PBSNRL(PB)和 ReSuMe(Re)為 0.2;nSTK(nS)、SPAN(SP)、I-learning(I-l)和FILT(FI)為0.1。每種方法進行50次實驗,實驗中最大的學習周期數設定為5000步,實驗后計算每種方法最高學習精度的平均值以及達到最高精度需要的學習周期數的平均值,實驗結果如圖2所示。

圖2 當脈沖序列長度為1600 ms,期望輸出激發率為100 Hz時的學習結果Fig.2 Learning results when the length of spike sequence is 1600 ms and the desired output excitation rate is 100 Hz
圖2 中,PBSNLR具有最高的精度(C=0.95)和效率,這一點也符合文獻[33]的結論。這再次驗證了PBSNLR獨特的離線學習機制可以獲得很高的性能。在其他方法中,因為權值調整規則與LIF神經元模型密切相關,所以在5000步學習周期以內,PSD的精度較高(C=0.82),然后依次為ReSuMe和OnMSGDB。剩下的幾種方法精度都在C=0.75左右。考察達到最高精度所需要的學習周期數,OnMSGDB和E-learning最多,這說明雖然基于梯度下降的方法可以獲得較高的精度,但是效率普遍較低。PSD雖然具有較高的精度,但是也需要較多的學習周期。ReSuMe和SPAN的效率較高。由此說明,幾種學習方法都可以比較有效地實現脈沖序列學習,除了PBSNLR之外總體上精度差別不明顯,但是效率差異較明顯。
第二組實驗考察當期望輸出脈沖序列激發率提高時各方法的性能。一個有400個突觸的LIF神經元學習激發一個長度是1200 ms的序列,輸入與輸出脈沖序列分別為激發率為10 Hz和180 Hz。神經元的初始權值取區間(0,3.6·10-3)上的均勻分布。實驗中最大的學習周期數依然設定為5000步,學習速率設定與上一組實驗相同。實驗結果如圖3所示。
由圖3可知,在5 000步學習周期內,PBSNLR依然獲得最高的精度,說明期望輸出脈沖序列激發率的增加沒有顯著影響其優勢。OnMSGDB的精度(C=0.88)和E-learning的精度(C=0.80)也高于其他幾種學習方法。這說明基于梯度下降的學習方法在輸出脈沖激發率較高時具有較強的學習能力。在其他幾種方法中,PSD與FILT的精度依然較高,但是總體上相差不明顯(值大約都在0.72~0.80內)。觀察學習周期,此時各種方法差別更大。其中OnMSGDB需要的學習周期數最多,其次是Chronotron和PSD。和上一組實驗類似,PBSNLR和SPAN的效率最高,僅需要大約500步學習就達到了最高精度。
綜合圖2和圖3可知,兩種情況下PBSNLR的學習性能最強。兩種基于梯度下降的方法以及PSD具有較高的學習精度,但是這三種方法都需要較多的學習周期。雖然學習精度較低,但是SPAN卻是效率最高的學習方法。ReSuMe的綜合性能較好,并且對各種神經元模型的適應性最好,因此是較好的學習方法。

圖3 當脈沖序列長度為1200 ms,期望輸出激發率為180 Hz時的學習結果Fig.3 Learning results when the length of spike sequence is 1200 ms and the desired output excitation rate is 180 Hz
不同學習方法在實驗中性能的差異主要是由不同的學習機制造成的。PBSNLR采用獨特的離線學習方式,在學習之前將數據全部轉換成感知機的輸入,訓練開始后就完全脫離脈沖神經元的運行。這是其獲得最高精度與效率的原因,同時也因此使得該方法與脈沖神經元內在聯系偏弱。另外該方法自身也受到很多因素的影響,比如運行時間上反例點的選擇、神經元運行時間離散的精度等,不同的設定可能對學習結果造成較大的影響。因此PBSNLR更適合作為一種衡量其他具有更好生物學基礎學習方法的性能指標。
基于梯度下降的方法調整實際輸出脈沖的激發時間不斷地靠近對應的期望輸出脈沖時刻。在調整激發時刻的同時還要控制權值調整的幅度以免當前脈沖激發被抑制或者又出現額外的脈沖激發,因此權值調整必須控制在一個合理的范圍內。這是實驗中選擇較小學習速率的原因,同時也導致它的收斂速度較慢,在5000步內達到最高精度需要的學習周期數最多。但是這種權值調整方式也使其可以更加精細地控制實際輸出脈沖的激發時間,這又使其學習精度具有更好的上升性。這體現在學習精度隨著周期數的增加還可以顯著增加,例如在第一組實驗中,當學習周期上線增加至20 000,OnMSGDB的學習精度可以從C=0.75增加至C=0.90左右。
基于梯度下降學習方法的另一個優勢體現在高激發率期望輸出序列的學習中。實驗結果顯示其精度高于除PBSNLR以外的其他學習方法,這一優勢的主要原因還是來自于其學習機制。兩種基于梯度的下降方法都需要控制實際輸出脈沖的激發時間靠近對應期望輸出脈沖的時刻。期望輸出脈沖序列的激發率提高,雖然會增加脈沖的數量,但是也會導致對應實際與期望輸出脈沖之間的時間差別分布更加平均,從而降低調整實際輸出脈沖激發時間的難度。
其他的幾種學習方法都可以以在線方式運行,在線學習過程中幾乎都可以采用類似ReSuMe的權值調整方式,即在期望輸出脈沖時刻增強權值以激勵其激發,在實際輸出脈沖時刻減弱權值以抑制其激發。這種權值調整機制直接針對輸出脈沖增強或者減弱權值,因此權值調整的效果明顯,收斂速度較快。這體現在實驗中幾種方法達到最高精度的學習周期數都明顯少于基于梯度下降的方法。但是這種機制在學習過程中達到精度上限后權值增強與減弱達到平衡,此時再增加學習周期或者改變學習速率其精度的提高都不明顯。在這幾個方法中PSD的精度最高,PSD僅僅對輸入脈沖序列進行卷積處理,并且采用與神經元內部相同的卷積核函數,因此其盡量保留了脈沖神經元的特征,同時采用與神經元最直接相關的信息調整權值。
下面對脈沖序列學習方法進行簡單的總結。首先,每一種學習方法都遵循一定的理論基礎,這些理論基礎往往衍生于傳統神經網絡已有的研究結果。例如,ReSuMe、SPAN、nSTK和PSD方法都是基于Widrow-Hoff規則,ReSuMe方法采用學習窗口函數來將Widrow-Hoff規則應用于離散的脈沖激發時間,而SPAN、nSTK和PSD方法都是采用卷積方式達到這個目的,FILT方法雖然始于隨機模型,但是轉換為確定性方法后依然采用類似于ReSuMe的窗口函數調整權值。從某種程度上來說窗口函數與卷積核函數本質上是類似的,不同的是函數的形式和處理的對象。PBSNLR直接采用了感知機規則進行學習。OnMSGDB和E-learning則是利用梯度下降法最小化實際輸出與期望輸出之間的差別,它們之間的區別則在于誤差的計算與表示方法。
除了學習方法的理論基礎,另一個區分各種不同方法的依據為學習時權值調整采用的計算方法。無論是哪種學習方法,針對一條突觸權值的調整都要依據沿著這條突觸到達神經元的輸入脈沖信息,所不同的是以何種方式根據輸入脈沖信息計算權值的調整幅度。在上述方法中,OnMSGDB和E-learning方法的權值更新計算公式中都以輸入脈沖引起的突觸后電位(PSP)作為權值調整的核心組成部分。PBSNLR在離散時間點計算感知機輸入時也基于PSP,所以這一類基于SRM神經元模型的方法可以總結為突觸后電位調整方法。PSD、SPAN、I-learning都是基于LIF神經元提出,并且都采用卷積方法計算權值調整。PSD采用與神經元膜電位表達式相同的卷積核函數對輸入脈沖序列作用卷積,I-learning在此基礎上在權值調整時攜帶了該突觸的權值信息。SPAN則可以選擇多種卷積核函數并且對輸入、期望與輸出脈沖序列都進行卷積計算。nSTK在卷積的基礎上增加了非線性函數。FILT方法采用了獨特的權值調整函數,使得輸出脈沖之后傳輸進神經元的輸入脈沖也成為有效的突觸調整信息。ReSuMe方法利用學習窗口函數計算調整權值,由于可以選用不同的窗口函數,因此體現出較高的靈活性。對幾種方法的綜合分析與對比結果如表2所示。
目前脈沖神經元脈沖序列學習方法的研究還存在如下幾個問題。
脈沖神經元是構建脈沖神經網絡的基本單元,脈沖神經網絡相對于單神經元來說無論是應用性能還是生物學的合理性都更強。多層脈沖神經網絡的學習方法往往以單神經元的學習方法為基礎。目前,除了OnMSGDB方法因其梯度下降的特性可以比較方便地擴展到多層網絡的學習,其他方法都缺乏直接推廣到多層網絡的機制。已有的關于多層網絡學習的研究結果中層與層之間往往缺乏內在聯系,即前層和后層相互獨立,分別負責不同的功能。例如在文獻[39]中,前層完成對模式的編碼,而后層利用單神經元的Tempotron方法實現對模式的分類。在神經網絡研究中,網絡層與層之間使用緊密聯系的統一學習機制是更加合理的策略,因此,如何將多種脈沖序列學習方法推廣到多層網絡實現多層網絡的序列學習是一個非常值得研究的問題。

表2 多種脈沖序列學習方法的比較Tab.2 Comparison of different spike sequence learning methods
目前脈沖序列學習方法的研究中缺乏對于序列整體可學習性的評價方法。脈沖序列學習的性能除了和方法本身有關,還和輸入、輸出脈沖序列的特點有關。脈沖序列激發率、脈沖激發時間間隔、輸入與期望輸出脈沖的位置關系等都可以影響學習性能,而目前為止缺乏一個從序列本身出發的對于整個學習可能達到性能的評價方法。
目前大多數研究者都從偏向生物學模擬的角度將重點放在序列本身的學習能力上,而對于脈沖序列學習的應用研究略有不足。已有的脈沖神經元應用研究主要集中在如下幾個方面:通過將模式用脈沖序列進行編碼從而使用脈沖序列學習方法進行模式的識別和分類[40-41];對于脈沖序列模式或者用脈沖序列進行編碼的普通模式的存儲[25];對于某些易于用脈沖序列表達的特殊信號如疾病腦電波信號的識別[18];利用脈沖序列編碼圖形從而實現圖像的分類[42]等。
這些應用中一部分是基于傳統神經網絡的應用方式在脈沖神經網絡上的擴展,一部分則是基于脈沖序列特點的與脈沖神經元適應性更高的應用方式。這些應用中通用的方式是將應用對象用脈沖序列進行編碼,然后使用學習方法調整權值,從而得到期望輸出脈沖序列。因此,脈沖序列編碼方式、神經元參數選擇、學習方法的選擇為脈沖神經元應用的三個要素。
但是總體來看目前脈沖神經元的應用研究還比較簡單,并沒有很好地體現出脈沖神經元與脈沖序列學習方法的特點和優勢。由于脈沖神經元模擬真實生物神經元的運行方式,因此其對于模擬人腦復雜模式的記憶、識別、分類,動作控制等,甚至更進一步模擬更加高級的智能活動都具有潛在的優勢。另外,脈沖序列的時間特性還使得脈沖神經網絡適合于解決與時間相關的問題,如連續動作圖像的識別等。脈沖神經元應用研究關鍵在于如何將實際應用的對象用最合適的脈沖序列表示出來,并且如何確定最合適的神經元模型和參數。
脈沖神經元的運行方式完全模擬真實的生物神經元,脈沖序列學習是脈沖神經元特有的有監督學習方式,對脈沖神經網絡理論和應用的研究具有重要意義。本文較全面地介紹了典型的脈沖序列學習方法,詳細闡述了它們的理論基礎和特點并且通過實驗比較了它們的學習性能。本文的研究結果可以作為脈沖序列學習應用與進一步研究的基礎,進而可以有效地推動整個脈沖神經網絡學習理論的發展和完善。