季江飛,郭久森
(浙江理工大學 信息學院,杭州 310018)
迄今為止,在與機器學習有關的諸多研究方向中,人工神經網絡正起著越來越重要的作用,常見的相關應用包括圖像處理、模式識別和控制等領域。當下的研究也已表明,針對不同的預測問題,只要選定了單隱層前饋網絡(SLFN)的激活函數,就能夠確定相應的決策邊界。
單隱層前饋網絡結構簡單,訓練代價小,在許多場合中都有不俗表現。目前經常見到的SLFN有極限學習機(Extreme Learning Machine,ELM)和隨機向量函數連接網絡(Random vector functional-link network,RVFL)。其中,ELM網絡結構簡單,訓練和預測時計算速度較快,在做分類時有較好的性能。然而現如今的批處理系統在執行任務過程時數據會不斷更新,如果反復進行批量訓練,就會使計算成本偏高。基于此,則有學者提出了在線順序的極限學習機(OSELM),能夠在線地訓練模型,不斷更新輸出權重。RVFL也是一種SLFN網絡,在結構上與ELM類似,最主要的不同就在于RVFL直接將輸入層與輸出層做了直接映射。盡管RVFL在一定程度上提升了網絡復雜度,但也提升了網絡的泛化能力。為了降低奇異點和噪聲的影響,引入了核函數來替代激活函數,再無需對隱藏層神經元數量進行調整,但是核函數的參數選擇上卻又面臨了靈活多樣、難以固定的困擾。Zhang等人使用了在線的RVFL網絡來預測高爐鐵水質量,但是并未引入正則化思想,神經網絡的泛化能力略有不足。Zhou等人使用范數的方式提升結構的稀缺性,通過整體消除神經元來降低模型的內在復雜性,降低損失函數中的經驗損失和結構損失。
綜合前述研究,本文將在線順序模式引入RVFL,使其具有即時處理新輸入的小塊訓練集的能力,而不用重復計算整體大量的數據集。同時,利用范數對輸出權重的表達進行正則化,可有效降低模型的內在復雜性。


圖1 RVFL的網絡結構Fig.1 Network structure of RVFL

其中,()為激活函數;w為輸入權重,w=[w,w,,w];b為隱含層增強節點的偏置;β=[β,β,......,β]為輸出權重。w和b一般是隨機確定的。
公式(1)可以簡化成矩陣,矩陣形式為:

其中,



相較于傳統的RVFL網絡,正則化的RVFL能夠提升網絡的泛化能力,并能有效地預防模型的過擬合問題。常用的做法是求出訓練誤差和輸出權重的最小值:

其中,輸出的誤差,是正則化系數,用于權衡訓練誤差和模型復雜度之間的影響。為了求得該最小值,可以通過將RVFL與有關的梯度設為零,進而推得的封閉形式解為:

其中,是維度為()的單位矩陣。
在數據集的收集和整理的過程中,難免會錄入一些受到噪聲影響或者偶然性較大的數據點,這些由于人為因素或環境因素造成的誤差,可能會使由常規樣本訓練而來的神經網絡的性能難以達到預期。為了減少或者消除奇異點所帶來的影響,這里定義了正則化和損失函數在模的最小化表達:

從上文對模的定義可知,對矩陣處理時先按行求其范數,再對結果求范數,如此操作能夠將權重矩陣的部分行值減小到零。從而達到剔除可忽略不計的特征值的目的,同時也能減少網絡的復雜性。基于KKT條件,可以得到最優解:


為了計算輸出權重的解,分別對α,β,e求偏導并使其為零,那么就可以得到輸出權重的最終解為:

RVFL能夠批量訓練全部個樣本值,而在實時場景中,樣本數據可能會不斷地更新,此時RVFL網絡則要去重新計算所有的訓練數據。為了能夠對更新的數據進行實時處理,故將研究重點關注在即時的數據上,引入了在線順序的方式。通過不斷地調整新參與的訓練數據與已有數據之間的關聯關系,計算和更新輸出權重。讓網絡對新樣本也能有好的預測效果,同時又大大減少了重復訓練整塊樣本數據的計算量。
文中不妨假設初始訓練樣本數,那么初始輸出權重可以由初始輸出矩陣和輸出向量得到:

其中,是一個的對角矩陣。當一個大小為的新數據塊加入時,此時的輸出權重有:



為了評估OSRVFL算法的效果,本節將提出的算法和一些已有的RVFL相關算法進行比較,選用的數據集來自于UCI機器學習存儲庫。使用的數據集中,隨機選取數據集80%樣本用作于訓練集,將剩余20%的樣本作為測試集。在數據被劃分為訓練集和測試集之前,則會將數據集的順序重新打亂并隨機選取出新的訓練集和測試集。
使用不同的統計學上的指標來對算法的性能做出評價,主要包括相關系數、均方根誤差。對此擬做研究分述如下。
(1)相關系數。數學定義公式具體如下:

(2)均方根誤差。數學定義公式具體如下:

相關系數越接近1則表示模型預測效果越好,而均方根誤差衡量的是實際值和觀測值之間的誤差分布,取值越小,說明模型預測效果越好。
表1給出了幾種算法運用不同的激活函數,運行在不同的數據集上的性能比較結果。由表1中看出,對于不同的數據集而言,使用不同的激活函數能夠有不同的均方根誤差。
在表1基礎上,確定了適用于每個數據集的最佳激活函數后,對相關系數進行了評估。研究得到的不同算法的相關系數見表2。

表1 不同激活函數結果Tab.1 Results of different active functions

表2 不同算法的相關系數Tab.2 Correlation coefficients of different algorithms
從實驗結果來看,本文提出的OSRVFL方法與經典的RVFL和RVFL相比,在UCI的多個數據集中,多數情況下均取得了最佳表現。本文算法的預估值更為貼近真實值,與真實值的相關性更強。
針對單隱層前饋神經網絡在批處理問題中,需要反復訓練網絡、更新權重的問題,本文將在線順序機制與RVFL相結合,并且為了降低模型復雜度,引入了范數對輸出權重進行正則化。在UCI部分分類數據集中,與另外2種同源算法進行了比較。從實驗結果來看,本文提出的算法的預測表現更為出色。