李 叢,吳傳生*
(武漢理工大學,湖北武漢,430070)
?
一維連續隨機變量概率密度估計
李 叢,吳傳生*
(武漢理工大學,湖北武漢,430070)
摘要:由概率密度估計問題的定義可知概率密度估計問題可歸結為概率分布函數的求導問題。將積分算子法應用于一維概率密度估計問題中,借助Taylor展開式得出基于積分算子法的概率密度估計;
關鍵詞:概率密度估計;積分法
模式識別、回歸估計、概率密度估計是統計學習理論的三個基本問題。在解決學習問題的傳統模式中,模式識別和回歸估計都是建立在密度估計的基礎之上。
在密度分布未知的情況下,我們需要通過已知的樣本點數據對未知的分布進行估計,以達到預測概率密度的目的。大多數學者采用的密度估計方法主要分為兩種:參數估計和非參數估計。非參數方法包括正態化方法,直方圖方法、離散化方法、核方法、以及今年來人們將正則化方法應用到概率密度估計問題上產生的基于支持向量機的概率密度估計方法,以及基于TSVD方法的概率密度估計。
而上述提到的方法都只在一維情況下對概率密度估計問題進行了討論,而對二維或高維的情況由于方法的限制或其他原因鮮有討論。但在實際應用中概率密度所服從的分布是未知的,且在大多數情況下二維的隨機變量相互之間并不是獨立的,二維的隨機變量的概率密度無法由兩個一維隨機變量的乘積得到,即f( x, y)≠f( x)?f( y )。所以只討論一維的情況是不完全的。
本文將積分方法引入概率密度估計問題,將概率密度求解問題轉化為數值微分問題,并提供了解決高維概率密度估計問題的新方法。
在進行概率密度估計之前,我們首先引入新的概率密度估計。

所以當樣本個數足夠大時,Fn(x )是總體分布函數F( x)的一個良好近似。

所以我們構造的經驗分布函數Fn(x )具有如下性質:

②Fn(x )為絕對連續函數;


但在實際情況中,由于樣本量的限制,經驗分布函數與真實分布函數之間必定存在差異,而這些微小的誤差可能會造成數值結果的巨大誤差。為了克服這種不穩定性,所以我們采用積分算子的方法,逼近F( x )的導數p( x)。
1.1一維數值微分的積分方法
假定f( x)∈Ck[ a, b],fδ(x)∈C[ a, b]且滿足J( x)∈C[?1,1]為非負偶函數,∫1J( x) dx =1且滿足J(i )(1)=J(i)(?1)=0,
?1i=0,1,2,…,k?1.滿足以上條件的J( x)是存在的,比如取:

定義積分算子:

其中h>0為參數,r=1,2,…,k .(Drf)(x)可作為f(r)(x)的
h近似。
又由于概率密度估計的特殊性,我們只需要考慮經驗分布的一次導數,即為我們的概率密度函數。因此

上式即作為我們的積分算子,其中F( x)為分布函數。
接下來,我們來介紹一維情況下積分算子對導函數的逼近效果。

而在概率密度估計問題中,由于樣本量的限制,經驗分布函數與真實分布函數間存在一定的差異,當經驗分布函數與真實分布函數F之間滿足如下條件時:

則有如下定理。
1.2概率密度函數性質的證明
眾所周知,密度函數具有以下兩個性質:
1)非負性的證明:

由于J( x)有良好的連續性,F( x )是絕對連續函數,且F′( x)勒貝格可積,所以根據勒貝格積分的分部積分公式可得:

由于J(1)=J(?1)=0,所以

又由于J( x)≥0恒成立,且F( x)為分布函數,滿足右連續性且為非降函數,所以F′( x )>0恒成立。至此,非負性得證。
2)正則性的證明:

同樣地,根據勒貝格分部積分法可得:

根據經驗分布函數性質④我們可以得到:

運用積分方法,筆者構造新的概率密度估計的正則化方法,將概率密度問題看作數值微分問題,很好的解決了一維情況下的概率密度估計問題。
同時積分方法也存在一定的缺陷,當樣本量過大時,計算量將快速增加。下一步繼續分析誤差產生的原因,并對精度進行提高,同時尋找減小計算量的方法。
參考文獻
[1]VLADIMIR NV.統計學習理論的本質[M].張學工,譯.北京:清華大學出版社,2000:12-98
[2]George H. John, Pat Langley. Estimating Continuous Distributions in Bayesian Classifiers. In
Proceedings of the Eleventh Conference on Uncertainty in Artificial Intelligence, San Mateo, 1995.
[3] David W. Scott. Multivariate Density Estimation: Theory, Practice, and Visualization. New York, John Wile and Sons, 1992.
[4] J. Dougherty, R. Kohavi and M. Sahami. Supervised and Unsupervised Discretization of Continuous Features. ICML, 1995: 194-202.
[5] Emanuel Parzen. On Estimation of a Probability Density Function and Mode. Annals of Mathematical Statistics, 1962, 33(3): 1065-1076.
[6] 曹華孝等,一種基于改進W-SVM算法的概率密度估計[J].電子科技,第27卷第9期,2014年:40~43
[7] 吳笛,劉文.基于TSVD正則化方法的概率密度估計[J].武漢理工大學學報(信息與管理工程版).2012(01):60~63
[8] 黃小為,吳傳生,高飛,高階數值微分的積分方法[J].數學雜志,2008(04):431~434
作者簡介
李叢(1990-),男,漢族,河北廊坊人,武漢理工大學碩士研究生,統計學基礎研究
*通訊作者:吳傳生(1957-),博士生導師,教授,研究方向:反問題、智能計算。
One-dimensional Continuous Random Variable Probability Density Estimation
Li Cong,Wu Chuangsheng
(Wuhan University of Technology, Wu han 430070,Hubei Province,China)
Abstract:According to definition of probability density estimation,probability density estimation can come down to the derivation of probability distribution function.The probability density estimation based on integral operator method using integral operator method into one-dimensional probability density estimation could be presented under the help of Taylor expanding.
Keywords:probability density estimation;integral method