摘要:本文主要介紹統(tǒng)計學習理論的基本思想,特點和研究發(fā)展現(xiàn)狀,以引起國內學者的進一步關注。
關鍵詞:機器學習 統(tǒng)計學習理論 推廣性能
中圖分類號:G64 文獻標識碼:A 文章編號:1674-098X(2011)10(b)-0000-00
Abstract: This paper introduces the basic ideas of statistical learning theory, the major characteristics and some current research trends to attract further attention of the domestic scholars.
Keywords: Learning machine; statistical learning theory; generalization performance
1 前言
統(tǒng)計學習理論(Statistical Learning Theory,簡稱SLT[1])是一種專門研究小樣本情況下機器學習規(guī)律的理論,它為人們系統(tǒng)研究有限樣本情況下的學習機器問題提供了有力的理論基礎。統(tǒng)計學習理論系統(tǒng)地研究了經驗風險和實際風險之間的關系,也即推廣性的界。
2 基本概念
機器學習的問題就是從給定的函數集中選擇出能夠最好地逼近訓練器響應的函數。機器學習問題可形式化地表示為:根據個獨立同分布的觀測樣本,在一組函數中求出一個最優(yōu)函數對訓練器的響應進行估計,使期望風險最小,即其中,是未知的概率分布函數,為損失函數。
對于未知的概率分布,若要最小化風險函數,只有樣本的信息可以利用,這導致了定義的期望風險是無法直接計算和最小化的問題。根據概率論中大數定理的思想,人們用算術平均代替數學期望,于是定義了經驗風險泛函:來逼近期望風險。用使經驗風險最小的函數來代替使期望風險最小的函數,就是所謂的經驗風險最小化(Empirical Risk Minimization,簡稱ERM)[1]原則。
3 研究進展
Vapnik,Cucker和Smale[1]等人已經證明了,當樣本數趨于無限時基于獨立同分布序列學習機器的經驗風險一致收斂到它的期望風險。對于基于獨立同分布序列的學習機器的一致收斂速率的界的研究取得了很多的成果。
定理1:對于具有有限VC維的指示函數集,下列兩個不等式成立:
3.1 估計一致雙邊收斂速率的不等式
其中為樣本個數 3.2 估計相對一致收斂速率的不等式
Bousquet[2]利用函數集“大小”的測量新方法,即局部Rademacher平均,得到了相對誤差的泛化性能。
定理2:
1、Q為函數集,對于所有的,.當時,下述不等式以至少的概率成立。任意,
2、Q為函數集,對于所有的,.設是非負的,非遞減函數。對于,是非增函數。
是方程的解。當時,下述不等式以至少的概率成立。
任意,
以上結論都是基于獨立同分布序列下對學習機器推廣性能的研究。隨著隨機變量的相依性概念的提出,引起許多概率統(tǒng)計學家的興趣和研究。對于基于相依序列下的學習機器推廣性能的研究也取得了不少的研究成果。
Zou[3-5]研究了相依序列下采用ERM算法的學習機器的推廣性能。
定理3:
1、設是概率空間上的-混合序列,滿足 假設對所有和,方差,則對任意,
(5)
其中,為函數集Q的覆蓋數,N為樣本個數。
2、設是概率空間上的-混合序列,滿足 對于任意的,下述不等式以至少的概率對函數集Q中的所有函數成立。
其中, ,,N為樣本個數。
定理3建立了基于指數強混合序列的學習機器一致收斂和相對一致收斂的界。定理3中用覆蓋數來度量函數集的容量。覆蓋數,VC維和局部Rademacher平均都是度量函數集容量的工具。對于實數集來說用覆蓋數來度量更為合適,能夠得到更好的界。
參考文獻
[1] Vapnik V.Statistical Learning Theory[M].New York:John Wiley,1998.
[2] Bousquet O.New approaches to statistical learning theory[J].Ann Inst Statist Math,2003,55(2):371-389.
[3] Zou B,Li L Q,Wan C G.Bounds on the Rate of Uniform Convergence for Learning Machine with -mixing Sequences[J].應用概率統(tǒng)計,2007,23(2):188-196.
[4] Zou B,Li L Q,Wan C G.Bounds on the Rate of Relative Uniform Convergence for Learning Machine with Beta-mixing Sequences[J].工程數學學報,2008,25(3):531-538.
[5] Zou B, Li L Q.The performance bounds of learning machines based on exponentially strongly mixing sequences[J].Comput Math Appl.2007,53(7):1050-1058.