王凱平
(山東大學 管理學院,濟南 250100)
基于函數型數據分析的數據挖掘功能研究
王凱平
(山東大學 管理學院,濟南 250100)
數據挖掘功能是數據挖掘研究與應用的一個重要方面。數據挖掘功能用于指定數據挖掘任務中要找的模式類型。當前,數據挖掘的功能所處理的主要是傳統的數據,對于函數型數據的研究還不是很多。文章探討了數據挖掘中可以挖掘的幾種函數型數據模式,包括數據描述、分類、聚類和回歸。
函數型數據;數據挖掘;模式
近年來,數據挖掘的研究與應用引起了統計學、計算機科學、管理學、金融學等學術領域以及眾多知名企業的廣泛關注。數據挖掘在功能模式、方法、應用領域和軟件開發等各個方面都得到了廣泛的研究。數據挖掘研究與應用的一個重要方面就是關于數據挖掘功能的研究。數據挖掘功能用于指定數據挖掘任務中要找的模式類型。數據挖掘的任務一般可以分為兩類[1]:描述和預測。描述性任務刻劃數據庫中數據的一般特性。預測性任務在當前數據上進行推斷,以進行預測。運用各式理論技術,數據挖掘可以建立的模式包括數據描述、分類、聚類、回歸等[2]。
當前,數據挖掘的功能所處理的主要是傳統的數據,即把數據作為離散的數據點來看待,這能夠滿足很多應用領域的需要。然而,隨著社會的進步和科學技術的發展,有些領域中出現了一種新的數據——函數型數據。當觀測的時間點十分密集時,這些數據就會呈現出一種函數特征。函數型數據是一系列的曲線或形狀對象,更一般地,是一系列的函數型數據值。例如,在線拍賣數據是函數型數據的一個典型代表。在線拍賣不是傳統拍賣在Internet上的簡單移植,它在商務模式、買賣雙方行為特征和拍賣方式等方面都有自身獨特的性質,從而使得在線拍賣數據與傳統的數據相比具有很大的區別。文獻[3]詳細分析了在線拍賣數據的函數型數據特點。
本文探討了數據挖掘功能中可以挖掘的幾種函數型數據模式,包括數據描述、分類、聚類和回歸。
數據描述的目的是對數據進行概括,以給出它的總體特征。最簡單的數據描述方法是利用統計學中的方法,計算出數據庫中各個數據項的總和、平均值、方差等。
分類是找出描述并區分數據類別的模型(或函數),以便能夠使用該模型(或函數)來確定未知類型的對象所屬的類別。
目前對于傳統數據的分類技術有很多種,例如Bayes分類、決策樹分類、神經網絡分類、k-最臨近分類、遺傳算法分類、粗集分類等等,不同的分類方法適用于不同特點的數據。下面介紹一下貝葉斯分類。
令q-維向量X代表一個觀測對象,它來自于多個類中的某一個。假設第i個類的密度為fi(x),先驗概率為πi。由Bayes公式,有后驗概率

Bayes分類將X歸于具有最高后驗概率的那個類。如果我們進一步假設第i個類具有正態分布,其均值為μi,協方差陣為∑,則可以證明以上Bayes分類等價于按下述線性判別函數進行分類[4]

其中,

聚類是指按被處理對象的特征分類,將有相同特征的對象歸為一類,其目的是將類間的差異找出來,同時也將類內成員的相似性找出來。例如,對在一個商場購買力較大的顧客居住地進行聚類分析,以幫助商場針對相應顧客群采取有針對性的營銷策略。其與分類的區別在于聚類前并不知道會以何種方式或根據來分類。
目前的聚類算法大體上可以劃分為以下幾類[5]:層次的方法、劃分的方法、基于密度的方法、基于網格的方法以及基于模型的方法等。
基于模型的方法為每一類假定了一個模型,尋找數據對給定模型的最佳擬合。假定觀測xi,…xn來自于具有G個分量組成的混合分布。令fk(x|θk)為第k個類的密度,θk為參數,再令zi=(zi1,…,ziG)為第i個觀測的類成員向量,其中

所有的zi都是未知的,一般通過兩種方式處理:分類似然法和混合似然法。
(1)分類似然法
該方法將zi看作參數,模型通過最大化如下似然函數來擬合:

(2)混合似然法
該方法將看作是具有參數(π1,…,πG)的多項分布,其中 πk為觀測屬于第k個類的概率。參數由最大化下式來估計:

回歸是研究因變量與一系列的自變量之間相關關系的一個有力工具。確定了因變量與自變量的關系后,就可以通過回歸模型根據自變量的觀測值預測因變量的值。回歸有三種類型:參數回歸(包括線性回歸和非線性回歸)、非參數回歸和半參數回歸[6]。
(1)參數回歸
參數回歸包括線性回歸(一元和多元線性回歸)和非線性回歸(如廣義線性模型)。參數回歸應用最為廣泛,其原因在于:第一,對于某領域的專業人員來說,一個模型的參數經常會有重要的實際含義;第二個原因在于其統計上的簡單性——對于整個函數的估計歸結為推斷幾個參數值;第三個原因在于,如果參數假設是正確的,那么參數回歸非常有效。
(2)非參數回歸
非參數回歸具有很大的靈活性,它并不對真實模型作結構方面的假設,或者說,它不假設真實模型可以被有限維參數所控制。非參數回歸在降低模型偏差方面非常靈活,然而,在多變量情況下,由于維數問題的影響,它對真實函數的估計達不到合理的準確度。
(3)半參數回歸
在參數回歸和完全的非參數回歸之間有許多可能的選擇。最為典型的就是假設所估計的函數具有某種形式(如可加形式),然而這種形式并不同于完全的參數結構。由此產生的模型我們稱為半參數回歸模型。與參數回歸相比,這種半參數模型能夠降低模型錯誤所導致的偏差;而與非參數回歸相比,它又比完全的非參模型要小的多,從而對于未知參數及函數的估計能夠達到合理的準確度。典型的半參數模型,包括可加模型、部分線性模型及其推廣模型。
函數型數據分析的研究對象是一系列的函數型觀測值x(t)。近年來,許多傳統的統計方法被推廣到了函數型數據的場合,具體可參見文獻[7]。然而,在數據挖掘領域,對于函數型數據的研究還不是很多。本文從數據挖掘的功能出發,探討了數據挖掘中可以挖掘的幾種函數型數據模式,包括數據描述、分類、聚類和回歸。
傳統的描述統計量同樣適用于函數型數據。例如,函數型數據的均值函數可以表示為,而方差函數為
由于函數型數據是無窮維的,因此,傳統的基于有限維數據的分類方法不能直接應用于函數型數據。
令g(t)為從第i個類中隨機抽取的個體曲線。假設如果g(t)屬于第i個類,則其分布為如下的Gauss過程:

由于隨機因素的影響,我們在不同的時間點t1,…,tn對于函數曲線的觀測向量Y是有誤差的,假設誤差不相關,且均值為0,方差為σ2。則Y的分布為
N(μI,Ω+σ2I),其中

可以將 μi和∑=Ω+σ2I代入(2)式得到 Bayes分類。 現有的函數型數據分類方法就是通過估計μi(t)和ω(t,t'),然后將其估計值代入(1)中進行分類。其估計方法通常有兩種[4]:正則化方法和濾波方法。例如,濾波方法是使用基函數來估計μi(t)和 ω(t,t')。
基于模型的函數型數據聚類方法與分類方法有共通之處。 對于曲線 g(t),有(2)、(3)兩式,函數型數據聚類就是首先估計μi(t)和ω(t,t'),然后根據其估計值進行聚類。以μi(t)為例,常用的濾波方法是使用基函數 準(t)=(準1(t),…,準p(t))來估計 g(t),即g(t)=準(t)η,使用最小二乘法分別估計每條曲線的系數向量η,然后使用基于有限維數據的聚類方法對估計的系數向量進行聚類,所產生的聚類均值乘以準(t)后就得到了μi(t)的估計。ω(t,t')的估計與此類似。詳細的聚類過程可參見文獻[8]。
分層的聚類方法可參見文獻[9]。
與傳統的回歸類似,函數型數據回歸也分為參數、非參數和半參數三種形式。
(1)參數形式
參數形式的函數型數據回歸分為線性和非線性兩種情況,文獻[10]考慮了函數型數據的廣義線性模型,將線性回歸與非線性回歸統一在一個模型中進行研究,并給出了具體的估計方法。
(2)非參數和半參數形式
關于非參數和半參數形式的函數型數據回歸是目前研究的一個熱點領域,具體可參見文獻[11,12]。
當前,數據挖掘對于傳統數據的各種功能模式已經得到了相當廣泛的研究和應用,而對于函數型數據的研究還處于起步階段。其原因在于,就函數型數據分析自身來講,其研究時間并不長,很多問題并沒得到完善的解決。
然而,許多學科其大量的方法和思想都來源于現實的需求。隨著數據挖掘在各行各業的廣泛應用,必然會越來越多的處理函數型數據、挖掘函數型數據的各種模式。這反過來也會促進函數型數據分析的不斷深入和完善。
[1]J.W.Han,M.Kamber.Data Mining:Concepts and Techniques[M].Sinagpore:Elsevier,2006.
[2]朱世武,崔嵬,張堯庭,謝邦昌.數據挖掘運用的理論與技術[J].統計研究,2003,(8).
[3]Jank W,Shmueli G.Functional Data Analysis in Electronic Commerce Research[J].Statistical Science,2006,21(2).
[4]James G M,Hastie T J.Functional Linear Discriminant Analysis for Irregularly Sampled Curves[J].Journal of the Royal Statistical Society,Series B(Statistical Methodology),2001,63(3).
[5]中國人民大學統計系數據挖掘中心.數據挖掘中的聚類分析[J].統計與信息論壇,2002,17(3).
[6]Hürdle W,Müller M,Sperlich S,Werwatz A.Nonparametric and Semiparametric Models[M].Heidelberg:Springer Verlag,2004,(3).
[7]Valderrama M J.An Overview to Modelling Functional Data[J].Computational Statistics,2007,22(3).
[8]James G M,Catherine A.Clustering for Sparsely Sampled Functional[J].Journal of the American Statistical Association,2003,98(462).
[9]Ferreira L,Hitchcock D B.A Comparison of Hierarchical Methods for Clustering Functional Data[J].Communications in Statistics-Simulation and Computation,2009,38(9).
[10]James G M.Generalized Linear Models with Functional Predictors[J].Journal of the Royal Statistical Society,Series B (Statistical Methodology),2002,64(3).
[11]Ferraty F,Mas A,Vieu P.Nonparametric Regression on Functional Data:Inference and Practical Aspects[J].Australian&New Zealand Journal of Statistics,2007,49(3).
[12]Dabo-Niang S,Guillas S.Functional Semiparametric Partially Linear Model with Autoregressive Errors[J].Journal of Multivariate Analysis,2010,101(SI).
O212.4
A
1002-6487(2011)04-0160-02
山東省軟科學研究計劃項目(2009RKA036);山東大學自主創新基金資助項目(2010TS073)
王凱平(1975-),男,山東人,博士,講師,研究方向:數據挖掘。
(責任編輯/易永生)