李俊華, 李海軍
(1.河北大學(xué) 數(shù)學(xué)與計算機(jī)學(xué)院,河北 保定 071002;2.中國地質(zhì)大學(xué) 長城學(xué)院,河北 保定 071000)
統(tǒng)計學(xué)習(xí)理論(SLT)是由Vapnik等[1-2]于20世紀(jì)60年代提出的一種針對小樣本情況研究統(tǒng)計學(xué)習(xí)規(guī)律的理論, 被認(rèn)為是處理小樣本學(xué)習(xí)問題的最佳理論. SLT是建立在概率空間上基于實隨機(jī)樣本的, 而概率測度是一個滿足可加性的非負(fù)集函數(shù), 由于可加性條件非常苛刻, 在現(xiàn)實應(yīng)用中往往得不到滿足, 同時注意到現(xiàn)實中還存在大量的非實(復(fù))隨機(jī)樣本, 因此建立非概率空間上和基于非實隨機(jī)樣本的學(xué)習(xí)理論就成為了新的研究方向, 許多學(xué)者已經(jīng)開始了該方向的研究并取得了一些重要成果[3-8]. 其次, 對 SLT 的研究多是在較為理想的情況下進(jìn)行的, 即假設(shè)樣本不受外界的干擾. 但由于人為、 環(huán)境等諸多因素的影響, 這種假設(shè)往往得不到滿足. 在諸多影響因素中, 研究較多的是噪聲[9-10]. 基于上述考慮, 提出并證明了在一類非可加測度空間——機(jī)會空間上受噪聲影響的復(fù) hybrid 樣本的學(xué)習(xí)理論的關(guān)鍵定理, 為進(jìn)一步研究機(jī)會空間上的 SLT奠定了理論基礎(chǔ).
定義1[11]設(shè)(Θ,P,Cr)是可信性空間,(Ω,A,Pr)是概率空間,則(Θ,P,Cr)×(Ω,A,Pr)稱為機(jī)會空間.
定義2[11]設(shè)(Θ,P,Cr)×(Ω,A,Pr)是機(jī)會空間.若Λ?Θ×Ω滿足:對任意θ∈Θ,都有Λ(θ)∈A,稱Λ為一個事件.
定義3[11]設(shè)(Θ,P,Cr)×(Ω,A,Pr)是機(jī)會空間.事件Λ的機(jī)會測度定義為:

性質(zhì)1[11]設(shè)(Θ,P,Cr)×(Ω,A,Pr)是機(jī)會空間,則機(jī)會測度Ch滿足以下性質(zhì):
1)Ch{?}=0,Ch{Θ×Ω}=1;
2)對任意事件Λ,有0≤Ch{Λ}≤1;
3)若事件Λ1?Λ2,則Ch{Λ1}≤Ch{Λ2};
4)對任意事件Λ,有Ch{Λ}+Ch{Λc}=1;
5)對任意事件Λ1和Λ2,有Ch{Λ1∪Λ2}≤Ch{Λ1}+Ch{Λ2}.
定義4[11]設(shè)ξ是一個從機(jī)會空間(Θ,P,Cr)×(Ω,A,Pr)到實數(shù)集R的可測函數(shù),若對任意R上的Borel集B,都有{ξ∈B}={(θ,ω)∈Θ×Ω|ξ(θ,ω)∈B}是一個事件,稱ξ是一個hybrid變量.
定義5[11]若對任意R上的Borel集B,hybrid變量ξ和η都滿足Ch{ξ∈B}=Ch{η∈B},稱ξ和η是同分布的.
定義6[11]設(shè)ξ是一個hybrid變量.若Φ:R→[0,1]滿足Φ(x)=Ch{ξ≤x},稱Φ為ξ的機(jī)會分布函數(shù).


定義9[11]設(shè)hybrid變量ξ1和ξ2的機(jī)會密度函數(shù)分別是φ1(x)和φ2(x),φ(x,y)是(ξ1,ξ2)的聯(lián)合密度函數(shù).若對任意x,y∈R,都有φ(x,y)=φ1(x)φ2(y),稱ξ1和ξ2是相互獨立的.
性質(zhì)2[11]設(shè)ξ是一個hybrid變量且期望值有限,則對任意實數(shù)a和b,有E[aξ+b]=aE[ξ]+b.
定義10[11]設(shè)ξ是一個hybrid變量且期望值e有限,則稱V[ξ]=E[(ξ-e)2]為ξ的方差.
性質(zhì)3[11]設(shè)ξ是一個hybrid變量且期望值e有限,則對任意實數(shù)a和b,有V[aξ+b]=a2V[ξ].
定理1(Chebyshev不等式)[11]設(shè)ξ是一個hybrid變量且方差V[ξ]存在,則對任意ε>0,有



定義12若ξ=α+iβ,其中α,β都是hybrid變量,則稱ξ為復(fù)hybrid變量.
定義13設(shè)ξn=αn+iβn,n=1,2,…,是復(fù)hybrid變量序列,若αn和βn,n=1,2,…,都相互獨立,稱復(fù)hybrid變量序列ξn=αn+iβn,n=1,2,…,相互獨立.
定義14設(shè)ξn=αn+iβn,n=1,2,…,是復(fù)hybrid變量序列,若αn,n=1,2,…,同分布,且βn,n=1,2,…,也同分布,稱復(fù)hybrid變量序列ξn=αn+iβn,n=1,2,…,是同分布的.
定義15設(shè)ξ=α+iβ是復(fù)hybrid變量,若E[α]和E[β]都存在,稱E[ξ]=E[α]+iE[β]為ξ的期望.
性質(zhì)4設(shè)ξ,η是2個復(fù)hybrid變量,則對任意復(fù)數(shù)a和b,有E[aξ+bη]=aE[ξ]+bE[η].
證明設(shè)ξ=α+iβ,η=ζ+iγ,a=x1+iy1,b=x2+iy2,則
E[aξ+bη]=E[(x1+iy1)(α+iβ)+(x2+iy2)(ζ+iγ)]=
E[x1α-y1β+x2ζ-y2γ+i(x1β+y1α+x2γ+y2ζ)]=
(x1+iy1)E[ξ]+(x2+iy2)E[η]=aE[ξ]+bE[η].
定義16[12]如果X是一個實(或復(fù))線性空間,對X中的每一個元素x,都有一個非負(fù)實數(shù)‖x‖與之對應(yīng),對應(yīng)關(guān)系滿足:
1)‖x‖≥0(?x∈X),‖x‖=0?x=θ(θ是指零元);
2)‖x+y‖≤‖x‖+‖y‖(?x,y∈X);

稱‖·‖是定義在X上的準(zhǔn)范數(shù),X是一個實(或復(fù))的賦準(zhǔn)范線性空間.特別當(dāng)X是實數(shù)空間時,假設(shè)
‖·‖=|·|.
定義17設(shè)ξ是一個復(fù)hybrid變量,如果E[‖ξ-E(ξ)‖2]存在,則稱E[‖ξ-E(ξ)‖2]為ξ的方差,記為V[ξ].
性質(zhì)5設(shè)ξ是一個復(fù)hybrid變量,則對任意復(fù)數(shù)a和b,有V[aξ+b]=‖a‖2V[ξ].
證明利用性質(zhì)4即可證明.

證明假設(shè)ξ=α+iβ,Φ(x,y)為(α,β)的聯(lián)合分布函數(shù)[11],


證明在定理3中令p=2即可證明.
急性胰腺炎(AP)恢復(fù)期,胰腺外分泌處于低下水平,部分可出現(xiàn)PEI,常見于酒精性AP[4]、重癥急性胰腺炎(SAP)和AP伴假性囊腫患者[5]。約1/3的SAP患者可出現(xiàn)PEI,發(fā)生率高于輕癥AP[6]。隨著病情的緩解,AP患者的胰腺外分泌功能可逐漸恢復(fù)[7]。

定理5設(shè)ξn=αn+iβn,n=1,2,…,是復(fù)hybrid變量序列,若{αn}和{βn}分別依機(jī)會測度收斂到α和β,則ξn=αn+iβn,n=1,2,…依機(jī)會測度收斂到ξ=α+iβ.







注1由上述假設(shè)和定義19可得
R*(α)=E[Q′(z,α)]=E[Q(z,α)+ξ]=R(α)+e,


定義21把復(fù)期望風(fēng)險泛函替換為復(fù)經(jīng)驗風(fēng)險泛函,并用使復(fù)經(jīng)驗風(fēng)險泛函最小化的函數(shù)Q′(z,αl)逼近使復(fù)期望風(fēng)險泛函最小化的函數(shù)Q′(z,α0),這一原則稱作復(fù)經(jīng)驗風(fēng)險最小化原則(CERM原則).



證明必要性:設(shè)CERM原則在復(fù)函數(shù)集Q′(z,α),α∈Λ上是嚴(yán)格一致的.根據(jù)嚴(yán)格一致性的定義,對于非空子集Λ(c)={α:‖R*(α)‖≥c},c∈(-∞,+∞),有

(1)




(2)













另一方面,假設(shè)事件N2發(fā)生,則存在函數(shù)Q′(z,α**),α**∈Λ(c)使得:



考慮到噪聲對樣本的影響, 在一類非可加測度空間——機(jī)會空間上給出了受噪聲影響的復(fù)hybrid 樣本的學(xué)習(xí)理論的關(guān)鍵定理, 為進(jìn)一步建立機(jī)會空間上的統(tǒng)計學(xué)習(xí)理論奠定了重要的理論基礎(chǔ).
參 考 文 獻(xiàn):
[1] VAPNIK V N. Statistical learning theory[M]. New York: A Wiley-Interscience Publication, 1998.
[2] VAPNIK V N. An overview of statistical learning theory[J]. IEEE Transactions on Neural Networks, 1999, 10(5):988-999.
[3] 周彩麗, 哈明虎, 鮑俊艷, 等. 基于模糊數(shù)的模糊學(xué)習(xí)理論的關(guān)鍵定理[J].河北大學(xué)學(xué)報:自然科學(xué)版, 2008, 28(5): 449-451.
ZHOU Caili, HA Minghu, BAO Junyan, et al. Key theorem of learning theory based on fuzzy number[J]. Journal of Hebei University:Natural Science Edition, 2008, 28(5): 449-451.
[4] 魯淑霞, 曹貴恩, 孟潔, 等. 基于取樣的潛在支持向量機(jī)序列最小優(yōu)化算法[J].河北大學(xué)學(xué)報:自然科學(xué)版, 2011, 31(2): 113-117.
LU Shuxia, CAO Guien, MENG Jie, et al. A sequential minimal optimization algorithm for the potential support vector machine based on sampling[J]. Journal of Hebei University:Natural Science Edition, 2011, 31(2): 113-117.
[5] 哈明虎, 李顏, 李嘉, 等. Sugeno測度空間上學(xué)習(xí)理論的關(guān)鍵定理和一致收斂速度的界[J]. 中國科學(xué)E輯: 信息科學(xué), 2006, 36(4): 398-410.
HA Minghu, LI Yan, LI Jia, et al. The key theorem and the bounds on the rate of uniform convergence of learning theory on Sugeno measure spaces[J]. Science in China: Series E, Informationg Science, 2006, 36(4): 398-410.
[6] 哈明虎, 馮志芳, 宋士吉, 等. 擬概率空間上學(xué)習(xí)理論的關(guān)鍵定理和學(xué)習(xí)過程一致收斂速度的界[J]. 計算機(jī)學(xué)報, 2008, 31(3): 476-485.
HA Minghu, FENG Zhifang, SONG Shiji, et al. The key theorem and the bounds on the rate of uniform convergence of statistical learning theory on quasi-probability spaces[J]. Chinese Journal of Computers, 2008, 31(3): 476-485.
[7] SUN Xiaojing, WANG Chao, HA Minghu, et al. The key theorem of learning theory based on hybrid variable[Z]. Proceedings of the International Conference on Machine Learning and Cybenetics, Guilin, 2011.
[8] 哈明虎, 王超, 張植明, 等. 不確定統(tǒng)計學(xué)習(xí)理論[M]. 北京: 科學(xué)出版社, 2010.
[9] CHERKASSKY V, MA Y Q. Practical selection of SVM parameters and noise estimation for SVM regression[J]. Neural Networks, 2004, 17 (1): 113-126.
[10] JUMARIE G. Approximate solution for some stochastic differential equations involving both Gaussian and Poissonian white noises[J]. Applied Mathematics Letters, 2003, 16(8): 1171-1177.
[11] LIU Baoding. Uncertainty theory[M].2nd ed.Berlin:Springer-Verlag,2007.
[12] 定光桂. 巴拿赫空間引論[M]. 北京: 科學(xué)出版社, 2001.