摘 要:核回歸方法是比較常用的一種非參數估計方法。討論了核回歸方法在一維信號估計中的理論與應用,實驗比較了高斯核函數的平滑參數h及多項式階數N對估計效果的影響。結果是在相同階數N下,較小的h使所有的估計點都收斂到觀察值,反之則是一個N階多項式擬合。在相同h下,階數N越大,誤差越小,計算量也較大,但重構效果的提升并不明顯。
關鍵詞:非參數估計;核回歸;重構;平滑參數;加權
中圖分類號:TN911 文獻標識碼:B
文章編號:1004-373X(2008)11-024-02
Kernel Regression in Signal Estimation
WAN Qing,XIE Qinlan
(Department of Electronics and Information Engineering,South-Central University for Nationalities,Wuhan,430074,China)
Abstract:The kernel regression method now is the most popular non-parametric estimation method.This paper discusses the theory and application of the kernel regression method in the 1-D signal estimating,and compares the influence how the smoothing parameter h of Gaussian kernel function and the polynomial order N impact the estimation effect through experiments.Result shows that,under same order N,estimators converge to observations as h decreases and on the contrary,they form a polynomial with order N,under same h,higher order N leads to small errors with more computational cost,but effect is not obvious.
Keywords:non-parametric estimation;kernel regression;reconstruction;smoothing parameter;weight
1 引 言
在實際應用中,真實信號的表達式往往十分復雜,而進行觀察的同時伴隨有噪聲,為了去除噪聲,對信號進行采樣,對這些觀察數據進行數學處理來估計原始信號是比較常用的方法。
一維信號的觀察模型可以表示如下:
yi=f(xi)+nii=1,…,P[JY](1)
這里f(#8226;)為回歸函數[1],yi表示第i個采樣點xi處的觀察值,ni是獨立同分布的零均值噪聲(回歸函數可以是N維的)。核回歸的目標是通過觀察數據yi估計未知(回歸)函數f(#8226;)。同時,該過程也可以看作是對目標函數進行去噪的過程。
2 信號估計的核回歸方法
假設回歸函數f(#8226;)局部N階平滑,為了估計在任意點x處的函數值f(x),將x附近的采樣點xi的值f(xi)在x處展開為N階泰勒級數:
f(xi)[WB]f(x)+f′(x)(xi-x)+12!f″(x)(xi-x)+…
[DW]+1N!f(N)(x)(xi-x)N
=β0+β1(xi-x)+β2(xi-x)2+…+βN(xi-x)N[JY](2)
上式是將函數局部擬合為N階多項式。估計的目標就是f(x),即β0。這里采用的估計方法是最小二乘法,即:
min{βn}∑Pi=1[WB]\\[yi-β0-β1(xi-x)-β2(xi-x)2-…
[DW]-βN(xi-x)N\\]21hK(xi-xh)[JY](3)
式中K(#8226;)為核函數,其作用是控制不同采樣點的權重:距離x較近的點,權值越大。h為核函數的徑向寬度參數,也稱為平滑參數[1]。核函數的形式可以是任意的,只要滿足如下兩個條件:
∫R1tK(t)dt=0,∫R1t2K(t)dt=c[JY](4)
即關于零點對稱且在零點取最大值。常用的核函數為高斯核[2]:
K(u)12πexp(-12u2)[JY](5)
下面分別以N=0及N=1為例討論核回歸方法的具體形式。
(1) N=0時,式(3)變為:
minβ0∑Pi=1\\[yi-β0\\]21hK(xi-xh)[JY](6)
設f(β0)=[yi-β0]21hK(xi-xh),則式(6)的解就是求f′βo(β0)=0的解,解之得:
β0=∑Pi=1Kh(xi-x)yi∑Pi=1Kh(xi-x)[JY](7)
(2) N=1時,式(3)變為:
minβ0∑Pi=1\\[yi-β0-β1(x1-x)\\]21hK(xi-xh)[JY](8)
與N=0情況類似,設:
f(β0,β1)=∑Pi=1\\[yi-β0-β1(x1-x)\\]21hK(xi-xh)[JY](9)
分別求β0,β1的偏導數并令其為0:
由以上分析可以看出,核回歸方法不需要信號的具體形式而直接估計點的函數值,同時也可以方便地估計各階導數,使用起來更靈活,應用范圍更廣。
3 仿真實驗與結果
設一個待估計函數f(x)=114(x+1)(x-2)(x-7)(x-9),對其加入均值為0,方差為0.5 dB的高斯白噪聲,然后進行均勻采樣,獲得[-1,9]之間的112個采樣點。選取高斯核來估計原函數在采樣點的函數值,對不同的平滑參數h及階數N進行仿真,通過均方根誤差(RMSE)來衡量估計的效果。由于平滑參數與回歸階不相關,因此首先比較在同一回歸階下不同平滑參數的影響,其次比較在同一平滑參數下不同回歸階的效果,并分析兩者的作用。
[HTH]實驗[STHZ]1[STBZ] [HTSS]固定N=0,對不同的h進行實驗,實驗結果如圖1所示。圖1中(a),(b),(c),(d),(e),(f)所取的h分別為0.01,0.1,0.5,1,2,4,相應的RMSE分別為1.23,0.51,0.88,1.8,4.1,6.25。根據實驗結果可以看出,當h=0.01時,估計結果是經過所有采樣點的曲線;而當h=4時,估計結果趨近于常數。由此可以看出,h過小導致偏差較小,方差較大;而h過大則導致偏差較大,方差較小。因此過大或過小的平滑參數都將導致均方誤差較大。
圖1 不同平滑參數h的仿真結果
[HT5”]注:圖1中藍色線條表示原始函數,綠色點表示經過采樣的觀察數據,紅色線條表示重構函數。[HT10.SS]
[HTH]實驗[STHZ]2[STBZ] [HTSS]固定h=1,對不同的階數N進行實驗,實驗結果如圖2所示(注:圖中的表示法同圖1)。圖2中(a),(b),(c),(d)的階數分別為N=0,1,2,3,相應的RMSE分別為1.73,1.15,0.58,0.54。由實驗2可以看出,階數N越大,重構效果越好。然而,隨著階數的提高,計算更為復雜,計算量也更大,但重構效果的提升并不明顯,譬如從N=0到N=1,RMSE降低33.5%;N=1到N=2,誤差降低49.5%;而N=3相對于N=2,只降低了6.8%。
圖2 不同展開階數N的仿真結果
4 結 語
本文探討了核回歸方法在一維信號中的應用。與經典的參數估計方法不同,它充分利用了觀察數據提供的信息,對信號或系統的先驗知識要求不多,其對任意點的估計就是對所有觀察數據進行加權,即每個觀察數據對估計結果都有貢獻,因而它更符合實際應用中先驗知識所知不多的情況。
另外研究了影響估計效果的兩個主要因素[CD2]平滑參數h和回歸階數N,并實驗比較了這兩個參數對估計結果的影響。在未來的工作中,將著重解決如何在計算量及重構效果之間進行取舍來自適應地選擇這兩個參數這一重要問題。
參 考 文 獻
[1]Wand M P,Jones M C.Kernel Smoothing [M].ser.Monpgraphs on Statistics and Applied Probability.New York:[LL]Chapman Hall,1995.
[2]Silverman B W.Density Estimation for Statistics and Data Analysis[M].ser.Monographs on Statistics and Applied Probability.New York:Chapman Hall,1986.
[3]Hiroyuki Takeda,Sina Farsiu,Peyman Milanfar.Kernel Regression for Image Processing and Reconstruction [J].IEEE Trans.Image Process,2007,16(2):349-366.
[4]Hardle W,Muller M,Sperlich S,et al.Non-parametric and Semi-parametric Models [M].ser.Springer Series in Statistics.New York:Springer,2004.
[5]Nadaraya E A.On Estimating Regression[M].Theory Probabil,1964.
注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。