關海洋,唐燕武,楊聯強
(1.安徽大學 數學科學學院,安徽 合肥 230601; 2.安慶師范學院 數學與計算科學學院,安徽 安慶 246133)
?
基于懲罰回歸樣條的函數導數擬合
關海洋1,唐燕武2,楊聯強1
(1.安徽大學 數學科學學院,安徽 合肥 230601; 2.安慶師范學院 數學與計算科學學院,安徽 安慶 246133)
摘要:在函數形式未知,而已知該函數的帶誤差的離散數據點情況下,運用基于p次截斷冪基的懲罰回歸樣條擬合數據點,并在擬合出的曲線基礎上求出函數的一階導數。該方法將經典最小二乘法和懲罰樣條方法進行結合,既考慮了擬合優度,又兼顧擬合曲線的光滑性,模擬和實際應用的例子顯示此種方法效果較理想。
關鍵詞:數據擬合;回歸;懲罰樣條;導數
函數導數的計算是理論分析和實際應用中最常見的運算,但在很多情況下并不知道函數的初等形式,直接基于函數表達式的求導法則此時是無法使用的。例如,在現實世界中,有些函數只能收集到一些離散數據點(xi,yi),而且這些點是受到誤差影響的,即yi=f(xi)+εi,εi是隨機誤差項,且f未知,此時如何估計該函數的導數值。該類問題在工程技術、數據分析等實際問題中非常普遍,所以對它的研究頗為重要。已有的導數估計方法有Bessel方法和Akima方法[1],而邢永旭,張彩明[2]在此基礎上得到了基于三次參數曲線新的導數估計方法。JiguoCao,JingCai,LiangliangWang[3]提出參數懲罰樣條回歸方法估計函數及導函數曲線,并得出此種估計方法的精確性較高。江桂清[4]給出了連續約束和離散約束這兩種對風洞試驗所得的數據進行導數擬合方法,樊天薇[5]則給出了基于離散數據點的一階導數估計方法。本文給出一種新的基于p次截斷冪基的懲罰樣條回歸方法來擬合帶有噪音數據的函數及其導數,并通過模擬和實際例子來演示該方法的有效性。
1懲罰回歸樣條擬合函數及其導數
對于給定的帶有噪音的數據點(xi,yi),i=1,2,…,n,設其隱含的函數關系表示為
yi=f(xi)+εi
其中εi~N(0,σ2)為隨機誤差項。f未知,將基于p次截斷冪基的樣條函數設為
其中
β=(β0,β1,…,βp,βp1,…,βpk)T
Y=(y1,y2,…,yn)T
X=(X1,X2,…,Xn)T
ε=(ε1,ε2,…,εn)T
則
Y=Xβ+ε
(1)

(2)
則Y的估計值
(3)
D=diag(0p+1,1k)
即D表示前p+1個元素為0后K個元素為1的對角矩陣。并設模型(1)擬合目標函數為
‖Y-Xβ‖2+λ2βTDβ
(4)
其中λ2βTDβ稱作懲罰項,λ稱作懲罰參數,則β的廣義最小二乘估計量為
(5)
從目標函數的設置易知,懲罰參數λ是用其來控制擬合曲線的對數據的擬合優度與曲線總體光滑度之間的平衡。如果太大的話會使得曲線整體過于光滑,而太小導致曲線波動性較大,對于它最優值的選擇本文采用的是廣義交叉驗證GCV(generalized cross-validation)法,即通過搜索最佳的λ,使得如下定義的GCV得分達到最小[6,7]


則有擬合函數的一階導函數估計式為
2模擬
本節給出兩個模擬實例,以顯示本文所提出方法的擬合效果,所有計算、作圖、分析工作均在R3.02中完成。
圖1,圖2中擬合的均方誤差分別為


圖4函數及其擬合 圖5導數及其擬合
圖4,圖5中的擬合均方誤差為
3應用
圖7是某次物理實驗測得的小車位移x隨時間t變化的散點圖以及利用本文提出的方法得出的擬合函數圖形。取截斷冪基的次數p=2,節點取所有時間點,圖8是圖7曲線的一階導函數圖,即本次實驗中的小車的瞬時速度曲線。

圖7位移隨時間變化圖 圖8速度隨時間變化圖
4總結
本文以基于截斷冪基的懲罰回歸樣條為工具,給出了一種在已知函數帶誤差的離散數據點集的情形下,估計該函數的導函數的方法。該方法首先針對離散數據點集,通過懲罰樣條回歸擬合出函數的近似表達式,該近似表達式是以多項式形式給出的,通過該多項式表達式從而可以簡潔的求出其導函數。該方法理論簡單,計算快捷,模擬效果顯示精確度較高,在實際應用中,具有較好的應用價值。
參考文獻:
[1] 法中.計算機輔助幾何圖形設計與非均勻有理 B樣條[M]. 北京:北京航天航空大學出版社,1994:78.
[2] 邢永旭,張彩明.基于三次參數曲線的導數估計方法[C].中國圖學新進展2007——第一屆中國圖學大會暨第十屆華東六省一市工程圖學學術年會論文集,2007:105-107.
[3] Cao J,Cai J,Wang L.Estimating curves and derivatives with parametric penalized spline smoothing[J].Statistics and Computing,2012,22(5):1059-1067.
[4] 江桂清.風洞試驗曲線及其導數的兩個擬合計算方法[J].空氣動力學學報,1982(1):60-65.
[5] 樊天蔚.用于曲線擬合的一個一階導數估計方法[J].數值計算與計算機應用,1982,3(1):1-11.
[6] Ruppert D,Wand M P,Carroll R J. Semiparametric regression[M]. Cambridge university press, 2003:69.
[7] 靳云匯,金賽男.高級計量經濟學(上冊)[M].北京:北京大學出版社,2007:39-40.
[8]Trevor Hastie, Robert Tibshirani,Jerome Friedman.The Elements of Statistical Learning [M].2004:81-83.
Fitting Derivative Function Based on Penalized Regression Spline
GUAN Hai-yang1,TANG Yan-wu2,YANG Lian-qiang1
(1.School of Mathematics and Computation Science, Anhui University, Hefei 230601, China;
2. School of Mathematics and Computation Science,Anqing Teachers College,Anqing 246133,China)
Abstract:When the function is not identified but its discrete data points are given, fitting function based on penalized spline with pth-degree truncated power basis is constructed, and the first derivative of function is given. The method combines classical ordinary least squares and penalized spline smoothing, both the goodness and the smoothness of fitting curve are considered, simulations and application show its good efficiency.
Key words:data fitting, regression, penalized spline, derivative
中圖分類號:O212.7
文獻標識碼:A
文章編號:1007-4260(2015)01-0013-03
DOI:10.13757/j.cnki.cn34-1150/n.2015.01.004
通訊作者:楊聯強,男,安徽桐城人,博士,安徽大學數學科學學院副教授,研究方向為數據分析與統計計算。
作者簡介:關海洋,男,安徽阜陽人,安徽大學數學科學學院碩士研究生,研究方向為統計學。