999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于p階Welsch損失的魯棒極限學習機

2020-05-07 12:04:16陳劍挺葉貞成
關鍵詞:模型

陳劍挺, 葉貞成, 程 輝

(華東理工大學化工過程先進控制和優化技術教育部重點實驗室,上海 200237)

極限學習機(ELM)[1]是一種機器學習算法,一種有監督的單隱層前饋神經網絡(SLFN)。它通過隨機生成輸入權重和偏置的方式將輸入映射到高維隱層空間,具有訓練速度快、泛化精度高的特點,并且該算法已被證明具有通用逼近能力[2],因此,ELM已被廣泛應用于回歸、分類等問題之中,如風電預測[3]、故障檢測[4]、醋酸精餾軟測量[5]、圖像識別[6]等。針對該算法輸入權重不能改變的缺點,近些年開發了一些新的技術對ELM算法進行改進[7-8],但都是基于最小二乘法(Least Square,LS)來求解ELM的輸出權重矩陣。最小二乘法的目標是學習未知的映射(線性或非線性),使得模型輸出和標簽值之間的均方誤差(Mean Square Error,MSE)最小化。在均方誤差損失中所有數據樣本所占的權重都相同,因此當數據中有異常值存在時,最小二乘法為了達到極小化殘差平方和的目標,必須遷就異常值,這往往會導致參數估計存在較大的偏差[9]。

為了減少數據中的異常值對算法參數估計的影響,Deng等[10]提出了一種基于加權最小二乘法的正則化魯棒ELM,通過對各個數據樣本賦予不同的權重以增加算法的魯棒性。Zhang等[11]提出了基于范數的損失函數和 l2范數正則項的魯棒ELM,該算法使用增廣拉格朗日乘子算法來極小化目標損失函數,有效地減少了異常值的影響。Xing等[12]用最大相關熵準則(Maximum Correntropy Criterion,MCC)代替最小均方誤差準則,從而提高了算法的泛化性能和魯棒性。Horata等[13]提出了基于Huber損失函數的魯棒ELM,并使用迭代重加權最小二乘(IRLS)算法來求解Huber損失函數的優化問題,但是該損失函數中并沒有引入避免參數過擬合的機制。依據M估計理論,Chen等[14]提出了一個統一的魯棒ELM框架,分別利用 l1范數正則項和 l2范數正則項來避免過擬合,利用4種損失函數( l1范數、Huber、Bisquare、Welsch)提高ELM網絡的魯棒性,并采用IRLS算法來求解,但同時指出對于 l1范數正則項,IRLS算法并不是最佳選擇,快速迭代閾值收縮算法(FISTA)[15]算法在解決 l1范數正則項問題時比IRLS 算法更高效。

Welsch估計方法是穩健估計(Robust Estimation)M估計中的一種方法。Welsch損失是基于Welsch估計方法的損失函數。當數據誤差呈正態分布時,它與均方誤差損失效果相當,但當誤差呈非正態分布,如誤差是由異常值引起時,Welsch損失比均方誤差損失更具魯棒性[14]。而且基于二階統計度量的均方誤差損失函數對數據中的異常值敏感,容易受到異常值的影響,并不是魯棒學習中的好方法[16-18]。

為了使算法兼具極限學習機的高效性和Welsch估計對異常值的魯棒性,本文提出了一種基于 p 階Welsch損失的魯棒極限學習機算法。首先,提出了基于MPE(Mean p-Power Error)[17]改進的 p

階Welsch

損失函數,并用該損失函數替代ELM目標函數中的均方誤差損失;其次,在目標函數中引入 l1范數正則項來獲得稀疏的ELM網絡模型,防止模型過擬合,提高模型的穩定性,并采用快速迭代閾值收縮算法極小化改進的目標函數。在人工數據集和典型的UCI數據集上的仿真實驗結果表明,本文算法在保證ELM網絡穩定性的同時提高了模型的魯棒性,并且縮短了訓練時間。

1 極限學習機

ELM模型結構如圖1所示。

圖 1 ELM模型結構圖Fig. 1 Model structure of ELM

{xi,xi}Ni=1

對于數據集,ELM的隱層輸出為

T是數據集標簽:

β∈RL×m是輸出權重矩陣:

輸出節點對輸入 xi的預測結果如下:

對于ELM算法,其輸入權重矩陣 a 和偏置量 b是隨機確定的,確定之后即不再改變。因此,網絡訓練的目標函數為

其中,‖·‖2為 l2范數。

采用最小二乘法求解式(6)中的目標函數,得到隱層的輸出矩陣:

其中,H?是隱層輸出矩陣H的Moore-Penrose廣義逆矩陣:

為了進一步提高ELM的穩定性以及泛化能力,文獻[2]提出了正則化ELM(RELM),網絡的目標函數如下:

2 基于p階Welsch損失的魯棒ELM

ELM算法中的目標函數是均方誤差(MSE)損失,該損失項對每個樣本數據給予了相同的權重,這使得異常值對誤差平方和的影響比其他數據大,導致參數估計對于異常值相當敏感。如圖2所示,均方誤差損失相比Welsch損失對異常數據更敏感。為此,本文提出了一種基于MPE改進的 p 階Welsch損失作為損失函數來改進算法的魯棒性。

圖 2 有異常值數據時不同損失函數下的擬合效果圖Fig. 2 Fitting effect graph of different loss functions with outlier data

2.1 基于MPE改進的p階Welsch損失函數

Welsch損失[14]表示如下:

文獻[16-18]提出將誤差的 p 階次函數作為損失函數,并指出適當的 p 值可以更好地處理異常值。本文基于MPE對Welsch損失函數進行改進,提出了 p 階Welsch損失函數,如式(12)所示。

每個樣本的 p 階Welsch損失可以表示為

yi為對應樣本xi模型的響應值,ti為樣本的標簽值,ti-yi代表殘差,med(|err|)代表所有殘差絕對值的中位數。

p 階Welsch損失的梯度函數如下:

圖3為 p 階Welsch損失函數、MSE損失函數及其梯度函數的比較圖。從圖中可以看出, p 階Welsch損失中每個樣本的誤差控制在了0~1之內,且其梯度函數在誤差超過一定值之后會減小,并不會像平方損失項的梯度函數一樣隨著誤差的增大而增大,從而降低了異常值引起的大誤差項對于參數估計的影響力。

圖 3 損失函數及其梯度函數比較圖Fig. 3 Comparison graph of loss function and its gradient function

對于不同的 p 和 c , p 階Welsch損失函數的曲線如圖4、5所示。分析圖4中的變化趨勢可以看出,對于任意 p值,p 階welsch損失函數都會隨著誤差的增大而增大,最終會在誤差達到一定閾值時趨近于1.0,之后即使誤差再增加, p 階Welsch損失也只是再向1.0靠近,變化甚微,從而降低了異常值帶來的大誤差對模型訓練的影響程度。并且,隨著 p 值的減小, p階Welsch損失函數的梯度函數的極值點會隨著 p 值的減小而前移,即 p 階Welsch損失函數關于誤差變化最敏感的部分相對前移,因此,當 p 值過大時, p階Welsch函數對于異常值的敏感程度會增加。

圖 4 p 階Welsch損失在不同參數 p 下的曲線Fig. 4 Curves of p-power Welsch loss functions under different P

圖 5 p 階Welsch損失在不同參數 c 下的曲線Fig. 5 Curves of p-power Welsch loss functions under different c

圖5示出了 p 階Welsch損失函數在不同 c 值下的變化趨勢,從中可以看出,隨著c值的增大, p 階Welsch損失趨近于1.0時對應的誤差值也會相應地增大。因此可以通過調整 p、c來降低 p 階Welsch損失函數對于異常值的敏感程度。

為了得到對異常值更具魯棒性的ELM網絡模型,將 p 階Welsch損失函數代入到式(6)中,代替均方 誤差損失,得到目標函數如式(15)所示:

2.2 優化算法

為了控制ELM網絡模型的復雜度,提高模型的穩定性,本文在目標函數中引入了正則項。最簡單的正則化形式之一是 l2范數,在目標函數中加入它可以促使輸出權重矩陣 β 中的值向0逼近但不為0。另一種常用的正則化是 l1范數,也被稱為lasso,當正則化因子 λ 足夠小時,該范數的加入可以將輸出權重矩陣 β 中一些值訓練為0,從而得到稀疏模型

[14]。本文在目標函數中引入了 l1范數正則項

將式(16)改寫為

其中: L(β)=L(Hβ,T);q(β)=λ‖β‖l1。損失函數 L(β)的梯度可以表示為

Λ 是對角線矩陣,并且

本文采用FISTA算法對目標函數(式(16))求極小值。優化算法計算步驟如下:

Algorithm 1 Robust ELM based on p-power Welsch loss and l1regularization: ELM-PW-l1Lλpcitermax

Input:

Output: β

Step 1 Randomly generate input weights matrix a ,and bias weight b

Step 2 Calculate the output weight matrix H

Step 3 Calculate Lipschitz constant y=max(eig(HT.H)) and the gradient of loss function ?L

y1=β0∈Rnt1=1j=1

Step 4 Initialize

Step 5 Repeat when j < itermax

3 仿真實驗

采用3.0 GHz CPU,16 GB RAM,64位主機,在Matlab2016b Win10環境下對算法進行測試。并與ELM、ELM-huber[13]、ELM-Welsch[14]、ELM-p-Welsch、ELM-PW-l1在人工合成回歸數據集和UCI回歸數據集上進行對比。其中ELM-Welsch、ELM-p-Welsch采用迭代重加權最小二乘(IRLS)[14]方法。選擇均方根誤差RMSE作為評價指標:

其中: ti和 yi分別表示樣本的實際標簽值和相應的算法預估值; N 為樣本的數量。

3.1 算法參數設置

(1)輸入權重矩陣 aN×L和隱層偏置量 bL×1在[-1,1]內 隨機選取,隱層激活函數為 s igmoid 函數,定義為

(2)正則化參數 λ ,隱層節點{個數L通過交叉驗}證的方式進行優選,其中 λ:10-10,10-9,···,1010;L:{10,20,30,···,150,200,300,500,1000} 。

(3)算法迭代次數 itermax=20

(4)參數 c 和階次 p 也通過交叉驗證的方式進行優選,其中 c:{0.1,0.2,0.3,···,2.5,3.0,3.5,5.0};p:{0.1,0.2,0.3,0.4,0.5,···,3.0} 。

3.2 人工數據集實驗結果

人工數據集由函數 (i)=sinc(x(i))+v(i) 生 成,其中:

g(0,v2)表示均值為0、方差為 v2的高斯噪聲; B(i) 模擬脈沖噪聲;A用來控制添加到數據中的噪聲類型。x(i) 均勻選自[-6,6],生成數據集 {(x(i),y(i))}2i=0

10。通過交叉驗證后,參數設置如下: L=100,λ=10-6,p=1.5,c=0.9 。

圖6為5種方法在20% 異常值水平下的訓練集回歸效果圖。其中ELM、ELM-huber、ELM-Welsch、ELM-p-Welsch、ELM-PW-l1的測試回歸誤差分別為0.216 3、0.115 9、0.107 2、0.105 9、0.103 9。由圖6可知,與其他4種方法相比,常規的ELM對于異常值更敏感。

圖 6 人工數據集在20%異常值下的訓練結果Fig. 6 Training results of synthetic datasets with 20% outliers

表1示出了5種方法在不同異常值水平下的測試結果。由ELM和ELM-PW-l1的測試結果對比可得,隨著異常值水平的增加,ELM的RMSE明顯上升,而ELM-PW-l1的RMSE變化幅度不大,基本保持穩定,驗證了該方法的有效性。

表 1 5種算法測試結果的RMSE和訓練時長Table 1 RMSE and training time of five algorithms under different outlier levels

通過對比ELM-huber、ELM-Welsch、ELM-PWl1可得,ELM-PW-l1在訓練效率上優于ELM-huber和ELM-Welsch,且RMSE也略優于二者,驗證了該方法的先進性。

最后,通過對比ELM-p-Welsch和ELM-PW-l1的測試結果可得,在引入了 l1范數正則項后,ELM-PWl1的標準差要小于ELM-p-Welsch的標準差,該方法的穩定性得到了提高。

圖7示出了不同參數 p 下算法的收斂結果。可以看出,不同參數 p 下算法的收斂結果不同,且當p=1.5 時,在上述參數中的收斂效果最好。

圖 7 不同參數 p 下測試集的RMSE Fig. 7 RMSE of testing dataset under different p

3.3 UCI回歸數據集實驗結果

為了進一步驗證本文方法的性能,通過UCI中的部分回歸數據集對ELM、ELM-huber、ELM-Welsch,ELM-p-Welsch、ELM-PW-l1方法進行測試。所選數據集的信息如表2所示,隨機選取其中的50%作為訓練集,剩下的50%作為測試集,并且在訓練集標簽中添加了10%的異常值。表3為5種算法的參數設置表。

表 2 UCI回歸數據集信息表Table 2 UCI regression dataset

由表4可知,ELM-PW-l1回歸誤差小于ELM、ELM-huber、ELM-Welsch和ELM-p-Welsch,同 時RMSE的標準差相比其他4種算法也更小,說明本文方法在抗異常值方面具有更好的魯棒性,同時也具有更好的穩定性。

表 3 算法參數設置Table 3 Parameter settings of algorithms

表 4 UCI回歸數據集測試結果Table 4 Test results of UCI regression datasets

4 結束語

本文針對ELM在魯棒性上的不足提出了一種 p階Welsch損失函數,進而提出了一種基于 p 階Welsch損失的魯棒極限學習機。該方法使用 p 階Welsch損失,降低了異常值數據對算法性能的影響,提升了算法的魯棒性。在目標函數中引入 l1范數正則項,降低了模型的復雜度,提高了模型的穩定性。在極小化目標函數時采用FISTA算法提高了計算效率。通過對人工數據集和UCI回歸數據集的仿真實驗驗證了本文算法的有效性,結果表明該算法對異常值具有更好的魯棒性和穩定性,且算法的訓練耗時更短。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 欧美成人第一页| 国产在线欧美| 国产Av无码精品色午夜| 亚洲成人在线网| 久久精品中文字幕少妇| 色婷婷啪啪| 久久香蕉国产线看精品| 精品中文字幕一区在线| 亚洲中文字幕97久久精品少妇| 97成人在线观看| 不卡色老大久久综合网| 国产精品99久久久久久董美香| 亚亚洲乱码一二三四区| 国产成人喷潮在线观看| 欧美性天天| 国产91线观看| 日韩免费视频播播| 欧美午夜性视频| 日韩av无码DVD| 波多野结衣在线一区二区| 91福利国产成人精品导航| 1级黄色毛片| 激情综合图区| 国产色偷丝袜婷婷无码麻豆制服| 中文精品久久久久国产网址| 亚洲永久精品ww47国产| 日韩av电影一区二区三区四区| 国产精品一区二区国产主播| 亚洲天堂啪啪| 色视频久久| 青青草一区| 国产打屁股免费区网站| av性天堂网| 亚洲欧美激情另类| 久热精品免费| 狠狠五月天中文字幕| 四虎在线高清无码| 亚洲人精品亚洲人成在线| 视频二区中文无码| 国产青榴视频| 国产一级无码不卡视频| 欧美a网站| 婷婷综合色| 久996视频精品免费观看| 亚洲第一视频网| 国产精品永久在线| swag国产精品| 91最新精品视频发布页| 亚洲色无码专线精品观看| 亚洲va在线∨a天堂va欧美va| 欧美精品不卡| 黄色网页在线播放| 一区二区三区四区日韩| 久久久精品国产SM调教网站| 国产91小视频| 波多野结衣在线一区二区| 久久免费视频6| 免费亚洲成人| 亚洲综合一区国产精品| 国产精欧美一区二区三区| 欧美一区国产| 午夜日本永久乱码免费播放片| 在线视频一区二区三区不卡| 国内精品小视频在线| 四虎永久免费地址| 日本黄色a视频| 国产打屁股免费区网站| 欧美人在线一区二区三区| a毛片免费观看| 亚洲成a∧人片在线观看无码| 国产午夜福利片在线观看| 国产菊爆视频在线观看| 2048国产精品原创综合在线| 欧美怡红院视频一区二区三区| a毛片在线| 国产精品免费p区| 国产理论最新国产精品视频| 成人午夜精品一级毛片| 麻豆精品在线| 色天天综合久久久久综合片| 亚洲全网成人资源在线观看| 午夜国产大片免费观看|