吳 菲,陳迪榮
?
基于函數主成分的函數型數據分類研究
吳 菲,陳迪榮*
(武漢紡織大學 數學與計算機學院,湖北 武漢 430200)
不同屬性特征可以反映出數據不同的內在信息,越多的差異性特征對機器識別就更有利,但是越多的特征數目引起數據更高復雜度。針對函數型數據最主要的函數性和導數性這兩大特征,本文提出對函數型數據函數特征、一階導數特征和二階導數特征的組合集成方法,然后引入函數型主成分分析的方法解決數據的復雜性問題,最后通過函數型主成分距離度量方式,采用k近鄰(knn)分類以達到分類的效果。實驗分析表明了函數型主成分分析方法與混合多特征組合距離的結合,在函數型數據分類中的有效性。
函數型數據;函數型主成分分析;特征組合;距離度量;knn
通過數據分析進行學習是機器學習的重要方式,因此,數據的組織和分析方法對機器學習有重要的影響。隨著“互聯網+”模式的興起,“大數據時代”已經來臨,互聯網將世界緊密的聯系在一起,使得收集的樣本數據更加密集和連續,甚至呈現出某種函數型規律。在數據空間中呈現了某種非常復雜函數關系的數據,稱為函數型數據( 簡稱 FDA)。函數型數據最初由加拿大統計學家 Ramsay于1982年發表的論文《When the Data are Functions》[1]引入。1991年,Ramsay與Dalzell結合統計學、拓撲學和泛函分析的思想,在論文《Some Tools for Functional Data Analysis》中正式提出了函數型數據分析(Funtional data analysis,FDA)的概念和分析處理的方法[2]。2005年,Ramsay和Silverman撰寫了《Functional Data Analysis,FDA》[3]一書,針對函數型數據改進了傳統統計分析方法,提出對應的函數線性回歸分析(FLR)、函數型主成分分析(FPCA)、函數型相關分析(FCCA)等方法。此后,函數型數據分析開始受到更廣泛的關注并掀起了在各鄰域的研究熱潮,應用成果涉及醫學診斷[4, 5]、金融工程[6, 7]、電子商務[8, 9]等領域。
函數型數據分析思想就是將觀測數據擬合成光滑曲線進行處理,相較于傳統的數據分析,觀測數據被賦予了動態屬性,以便挖掘出更多函數型數據內在規律和隱藏特征。實際上,光滑性一般指估計曲線的一階或更高階導數,是函數型數據分析框架中最為顯著的重要特征之一。較之靜態的情況,借鑒多元統計提出的FPCA[10-15]不僅很好地解決了高數據密度情況下的降維問題,還能顯示出結果隨時間而改變的動態特征。
分類識別中,每一種特征都是數據內在屬性的反映,不同屬性特征的分類識別結果不同,而且結果之間互補性很強[16]。因此,本文對具有函數特征的離散觀測數據,首先利用B樣條基函數的非參數平滑技術[17, 18]擬合成函數表示;再進一步集成函數曲線特征及其導數特征進行進行函數型主成分分析;最后,對分析出的綜合特征采用最簡單的k近鄰值(Knn)[19]分類方法進行分類識別。
受函數型數據的異常值[21]樣例間特征未對齊等因素的影響,函數主成分對函數型數據的表示能力退化,使函數型數據的模式識別能力變弱。函數型數據主成分分析前,若類內函數樣例未進行特征對齊或各個函數樣例的值域差異較大時,可以先對函數型數據進行縱向標準化變換,然后對變換后的數據進行函數主成分分析。

上式稱為縱向標準化變換。值得注意的是,上述變換并不改變函數型數據的整體趨勢,且該變換使得每個函數型數據的值域均為區間[0,1]。













或者寫成:

圖1 本文研究方法的簡要流程圖
為了驗證本文方法在函數型數據分類中的有效性,本文在兩個數據集上進行了實驗,其中Tecator數據集來源于UCI數據庫中的標準數據集[23],另外青光眼數據集由北京同仁醫院眼科學協會提供。
Tecator數據集主要是對碎肉樣品的脂肪含量進行研究(數據來源:http://lib.stat.cmu.edu/datasets/ tecator)。每個樣本對(x_i, y_i)中,x_i是第i個樣品的吸光率(波長范圍是850~1050nm),y _i是脂肪含量。把脂肪含量超過20%的標為負類(Bad),把脂肪含量低于20%的標為正類(Good)。該數據集由215個碎肉樣品構成,每個碎肉樣品包括100個不同波長的近紅外光的吸收度值,其中,正類樣本138個,負類樣本77個。根據訓練樣本構造算法,使得利用測試樣本的吸光率x,可以預測其脂肪含量是否超過20%。


圖2 Tecator數據集光譜吸收度的函數曲線

圖3 Tecator數據集光譜吸收度的一階導數

圖4 Tecator數據集光譜吸收度的二階導數

圖5 Tecator數據集的樣本協方差曲面

表1 Tecator數據集函數主成分組合距離分類識別率
觀察樣本協方差曲面(圖5),對角線表面的高度變化很大,特別是[925,950]這段波長范圍內,各點的方差較大。兩類數據的函數曲線圖(圖2)以及導數曲線圖(圖3、圖4)也都體現這一點,特別是二階導數曲線,它基本與整個協方差曲面的特征保持整體上較高的一致性。此次實驗,當函數主成分數為1,一階導數主成分數為0,二階導數主成分數為2時,驗證集的平均識別率最高(0.9766234)。測試集數據實驗結果如表1所示,其中(q0:函數的主成分數,q1:一階導數主成分數,q2:二階導數主成分數)。
實驗結果顯示,此次試驗通過交叉驗證獲得的最優參數在測試集上也表現出很好的效果,平均識別率高達0.9956926,基本接近于1了,比其他組合結果和單一結果都要優。與協方差曲面(圖5)表現結果一樣,二階導數更能反映出數據的差異特征,單一二階導數的情況比其他單一情況好很多,只比最優組合結果差一點點;單一一階導數距離識別效果比單一函數距離識別率高一點,但是這兩個單一距離的識別效果與其他相比還是不夠的。文獻[25]中利用穩健主成分分析方法與支持向量機分類器對Tecator數據脂肪含量進行分類的準確率最優結果為0.9818,本文的組合結果的分類精度仍具有一定優勢。
青光眼是一種以視神經乳頭(Opticnerve head,ONH)結構改變為特征的進展性視神經病變,世界衛生組織將其列為全球第二大致盲眼病。目前,計算機輔助診斷是青光眼診斷研究的重點。2002年,國際知名青光眼專家W.Einreb[24]及其合作者提出了應用機器學習輔助青光眼診斷的方法。他們應用主成分分析(PCA)方法對視野檢測結果進行數據降維,進而應用支持向量機(SVM)等機器學習算法做青光眼數據分類問題,取得比傳統統計方法更優的預測性能。這一成果引起人們對機器學習用于青光眼診斷的重視。
對我們提出算法進行測試的眼底照OCT圖像數據,來源于北京同仁醫院眼科學協會這些樣本包含了346例眼底照組成的數據集,每個樣例有360個特征數據,其中正常眼258個樣例,青光眼88例。本實驗利用函數型數據方法,將360維的杯盤半徑比向量擬合為杯盤比曲線函數,利用曲線函數的一階導數距離作為距離度量,并分別畫出了前50個正常眼和青光眼的函數曲線,一階導數曲線和二階導數曲線分別如圖6、圖7、圖8所示:

圖6 青光眼數據的函數曲線


圖8 青光眼數據的二階導數曲線
青光眼數據實驗方式與Tecator數據集的實驗方式一樣,也是將樣本隨機分成10份,分別取1份作為測試集和驗證集,剩下的8份作為訓練集,利用驗證集通過交叉驗證的方法獲取最佳的平均識別率對應參數取值,再將此參數應用到測試集中,以10次平均識別率作為最終的識別率。青光眼數據驗證集的平均識別率最高為0.9766234,此時函數主成分數為4,一階導數主成分為數1,二階導數主成分數為0。測試集數據實驗結果如表2所示:

表2 青光眼數據集函數主成分組合距離分類識別率
實驗結果可以看到,此次青光眼試驗通過交叉驗證獲得的最優參數在測試集上也取得了較為理想的結果,平均識別率高達0.9596639,比其他組合情況和單一情況都要優。從青光眼單一特征距離分類效果來看,函數距離效果最好,一階導數次之,二階導數最差,這個跟上面光譜數據的數據屬性相反,并不是越高階導數,特征越明顯。從圖6-圖8的曲線圖展現了二階導數曲線的弱差異性,兩類樣本的二階導數曲線基本相差無幾。青光眼的原始函數特征在這三個屬性特征中占主導地位。2015年文獻[26]通過神經網絡的分割方法對117名青光眼患者和123名正常眼患者進行分類實驗,由于分割方式造成分類結果的不一樣,文獻中Specificity最高為95.12%時對應的Sensitivity為58.12%;當Sensitivity最高為77.78%時對應的Specificity為80.49%;雖然該文章通過Sensitivity和Sensitivity分別計算青光眼和正常眼的分類準確率,但總體而言,本文的綜合準確率還是更加穩定。
本文主要介紹了函數型主成分分析方法在函數型數據分類中的作用,并在以往距離度量的基礎上提出了組合多種特征的函數型主成分距離度量方法,巧妙地利用不同特征的主成分個數的選取差異性來體現不同特征的權重意義,避免加入新的權重參數,增加實驗的復雜性。即使通過最簡單的knn分類器,也能達到一個較為理想的效果,總體來說是驗證了此方法的有效性。一般來說,函數特征或者導數特征都是數據本身的信息表現,都有其存在的價值,只是針對不同數據實例,最主要差異性特征屬性會不一樣,甚至有時候某個主導特征非常明顯,單一結果會比組合結果好也是有可能的。并不是所有特征屬性都是正向加強的作用,有時候組合疊加后也會出現負向抑制作用,這需要對具體問題進行具體分析。
作者對北京化工大學徐永利副教授表示衷心感謝,他為本文提出了不少建設性建議,并提供了青光眼數據。
[1] Ramsay,J O.When the data are functions[J].Psychometrika,1982,47:379-396.
[2] Ramsay,J O,Delzall,C J.Some tools for functional data analysis (with discussion)[J].Journal pf the Roval Statistical Socieyv,B,1991,53:539-572.
[3] Ramsay J O,Silverman B W. Functional data analysis(Second ed.)[M]. New York:Springer. 2005.
[4] Hu Y,He X M,Tao J,et al.Modeling and prediction of children’s growth data via functional principal component analysis[J].Science in China Series:Mathematics,2009,52(6):1342-1350.
[5] 王劼,黃可飛,王惠文.一種函數型數據的聚類分析方法[J].數理統計與管理,2009,28(5):839-844.
[6] Müller H G,Sen R,Stadtmüller U.Functional data analysis forvolatility[J].Journal of the Econometrics,2011,(165 ):233-245.
[7] 郭均鵬,孫欽堂,李汶華.Shibor市場中各期限利率波動模式分析—基于 FPCA方法[J].系統工程,2012,30(12):84-88.
[8] Jank W,Shmueli G,Zhang S.A flexible model for estimating pricedynamics in on-line auctions[J].Journal of the Royal StatisticalSociety:Series C, 2007,59(5):781-804.
[9] Zhang S,Wjank,etal.Real-Time Forecasting of Online Auctions via Functional K-Nearest Neighbors[J].InternationalJournal of Forecasting,2010,(26):666-638
[10]王潔丹,朱建平,付榮.函數型死亡率預測模型[J].統計研究,2013,30(9):87-93.
[11]Jiang C,Wang J L.Covariate adjusted functional principal components analysis for longitudinal data[J].The Annals of Statistics,2010,38:1194-1226.
[12]Sun Y,Genton M G.Functional Boxplots[J].Journal of Computational and Graphical Statistics,2011,20:316-334.
[13]Boente G,Salibian-Barrera M.S-estimators for funcitonal principal component analysis[J].Journal of the American Statistical Association,2014 110(51):1100-1111.
[14]Chiou J M,Li P L.Functional clustering and identifying substructures of longgitudinal data[J].Journal of the Royal Statistical Scoiety:Series B,2007,69:679-699.
[15]Hall P, Müller H G,Wang J L.Properties of principal component methods for functional and longitudinal data analysis [J].Annals of Statistics,2012,34(3): 1493-1517.
[16]Ho T K,Hull J J,Sirhari S N.Decision Combination in Multiple Classfier Systems[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1994,16(1):66-75.
[17]Eubank R L.Nonparametric Regression and Spline Smoothing(2 ed)[M].New York: MarcelDekker,Inc,1999.
[18]Fan J,Gijbels I.Local Polynomial Modelling and its Applications[M].New York:CRC Press,1996.
[19]Nenad T,Krisztian Ba.Hubness-aware kNN classification of high-dimensional data in presence of label noise[J].Neurocomputing, 2015,157:172.
[20]Jacques J,Preda C.Functional data clustering: a survey[J].Ad-vances in Data Analysis and Classification,2014,8(3):1-24.
[21]Shang H L.A survey of functional principal component analysis[J].AStA Advances in Statistical Analysis,2014,98(2):121-142.
[22]Castro,PE,Lawton WH,Sylvestre EA.Principal modes of variation for processes with continuous sample curves[J].Technometrics,1997,28,329-337.
[23]UCI machine learning repository[EB/OL].http://archive.Ics.Uci.edu/ml/datasets/ Hill-valley,2014-03-17.
[24]Chan K,Lee T W,Sample P A,etal.Comparison of machine learning and traditionalclassifiers in glaucoma diagnosis [J].IEEE transactions on bio-medical engineering,2002,49(9):936-97474.
[25]孟銀鳳,梁吉業.函數型數據分類中的穩健主成分分析[J].小型微型計算機系統,2016,37(7):1499-1503.
[26]Larrosa J M,Polo V,Ferreras A,et al. Neural Network Analysis of Different Segmentation Strategies of Nerve Fiber Layer Assessment for Glaucoma Diagnosis[J].Journal of Glaucoma,2014,24(9).
Functional Data Classification based on Function Principal Component
WU Fei, CHEN Di-rong
(College of Mathematics and Computer,Wuhan Textile University, Wuhan Hubei 430200, China)
Different attribute characteristics reflect different intrinsic information of data. The more different features, the more favorable for machine recognition. On the other hand, more feature numbers cause the higher complexity of data. According to the two main features of functional data, that is functional and derivative property. This paper proposes a combined method of functional data with function, first and second derivative property.And then it introduces functional principal component analysis(FPCA) to treatthe complexity of the data. Finally k-nearest neighbor (knn) is used to achieve the classification by functional principal component distance metric. The experiment shows the effectiveness of combination of functional principal component analysis(FPCA) withmixed Multi-distance Metricsto functional data classification.
functional data; functional principal component analysis; mixed multi-distance metrics; k-nearest neighbor(knn)
陳迪榮(1961-),男,教授,博士生導師,研究方向:機器學習.
國家自然科學基金資助項目(11571267).
TP391
A
2095-414X(2019)02-0048-09