梁勝杰,張志華,高紹忠,胡俊波,李大偉
(1.91697部隊,山東 青島 266405;2.海軍工程大學 科研部,武漢 430033;3.91550部隊,遼寧 大連116023)
基于變點分析思想的高維機械噪聲數據本征維估計方法
梁勝杰1,張志華2,高紹忠1,胡俊波2,李大偉3
(1.91697部隊,山東 青島 266405;2.海軍工程大學 科研部,武漢 430033;3.91550部隊,遼寧 大連116023)
利用變點分析思想,針對高維數據協方差矩陣的特征值曲線特點,提出一種本征維估計方法:基于均值估計的特征值變點法,并應用于某雙層圓柱殼體的機械噪聲數據處理中。通過與其他現有常用方法的比較分析,驗證了基于均值估計特征值變點法的可行性。結果顯示:基于均值估計的特征值變點法理論簡單、計算簡便,計算結果客觀、合理,對某雙層圓柱殼體機械噪聲數據的處理效果較好。
高維數據;本征維;變點分析;判別分析;機械噪聲數據
智能計算技術的發展使得工程上待處理的數據對象變得越來越復雜,數據維數越來越高,如遙感圖像數據、機械振動信號、雷達目標信號、地震資料數據等等。高維數據的特征空間中通常含有許多冗余特征,這些特征增加了學習、訓練的時間及空間復雜度,降低了分析處理的精度。因此,在對高維數據進行分析前,應進行降維預處理[1]。
降維是指從原始數據較多的特征量中利用數學統計方法提取出具有代表意義的典型特征變量,以達到簡化數據的目的。常用方法如主成分分析法、因子分析法等。為敘述方便,我們將提取出來的典型特征量稱為本征特征量(如主成分分析法中的主元、因子分析法中的因子等),典型特征量的個數稱為本征維。降維過程中,一個重要步驟就是確定本征維,如主成分分析方法中的主元數目[2]。錯誤的本征維(低估或高估)將導致數據分析結果的錯誤,如低估本征維將導致有用信息的損失及造成對計算結果本質的曲解;高估本征維將保留具有較少重要載荷的特征量,這些特征量很難被解釋其意義[3]。
目前本征維估計方法主要分為兩類:基于特征值的估計方法和基于分形思想的估計方法。基于分形思想的估計方法可以較準確地估計出數據的本征維[4],但為了獲得D維數據準確的本征維,要求觀測樣本量滿足的條件,樣本量過大,大大增加了試驗難度;基于特征值的估計方法原理簡單、計算方便,在工程上得到廣泛應用,常用方法如以“特征值大于1”為標準的方法(Eigenvalue-greaterthan-one rule,K1法)[5]、平行分析法(Parallel Analysis,PA法)[6],碎石圖檢驗法(Scree Test,SCREE法)[7],最小平均偏相關法(Minimum Average Partial,MAP法)[8-9]和累計貢獻率法(Proportion of total variation,PTV法)[10]等。因此,本文將基于特征值研究高維數據的本征維估計方法。
基于特征值的估計方法均依據原始數據協方差矩陣的特征值進行計算,其原理不同,估計結果也不盡相同,各有特點:K1法過于主觀,人們無法解釋為什么認為特征值1.01對應的主元是重要的,而認為特征值0.99對應的主元不重要[11];PA法是一種蒙特卡洛模擬法,計算中將花費大量時間,不適宜處理大樣本和高維數據集;SCREE法比K1法更加主觀和模棱兩可,尤其是在“肘點”不明顯或多于兩個“肘點”情況下[12];MAP法相比上述幾種方法來說能夠得到較精確的結果,但要求主元中含有較多的原始變量[3],不適宜處理維數較低的數據集;PTV法在確定累計貢獻率標準時同樣具有較強的主觀性,如可選50%[13]、80%[14]或95%[15]等。由于上述方法的種種缺點,導致目前比較普遍使用的統計程序也未能為使用者提供最精確的本征維估計方法[16]。
鑒于上述問題,本文將針對特征值曲線簡單、直觀的優點,利用統計學中成熟的變點分析思想,提出一種明確、客觀的高維數據本征維估計方法:基于均值估計的特征值變點法(Eigenvalue Chang-point Method based mean estimating,meanECP),并應用于某雙層圓柱殼體機械噪聲數據的預處理之中。與現有方法相比,本文方法效果較好。
變點分析研究始于20世紀50年代。自誕生以來,變點問題一直是統計中的一個熱門話題。變點技術早期主要應用于工業自動控制領域,隨著計算機技術的發展,現在已在醫學、金融、水文研究、交通流研究等[17-21]領域得到廣泛應用。
1.1 特征值變點定義
變點是指“模型中的某個或某些量起突然變化之點”[22]。這種突然變化往往反映事物的某種質的變化。對工程中的高維數據來說,在利用降維方法降維過程中,首先需要計算其協方差矩陣的特征值,并將這些特征值按從大至小的次序排列。則在高維數據協方差矩陣的特征值曲線中某個特征值起突然變化之點就是變點,就稱為特征值變點。
利用特征值變點可以將高維數據協方差矩陣特征值對應的特征量按典型和非典型分開,得到的典型特征量即認為是原始數據經降維后的本征維,典型特征量的個數即原始數據的本征維。特征值變點分析的主要任務是對這種突變點給予客觀的劃分標準。事實上,SCREE法利用觀測所確定的“肘點”也是特征值曲線的一個變點,而此變點是通過觀察碎石圖得到,受主觀影響較大。本文將利用變點分析的統計知識給出特征值曲線變點的客觀數值解。
1.2 數學模型
變點分析包括兩類模型:離散型和連續型。已知高維數據協方差矩陣的特征值是按從大到小排列的離散值,本文將建立離散型特征值變點分析模型。設λ1,λ2,…,λn為來自母體的特征值抽樣,且

λ1,λ2,…,λn之間相互獨立,若

現在成熟的變點分析方法有:最小二乘法、極大似然法、Bayes法和局部比較法等[23]。本文將在上述方法的基礎上,利用變點分析思想提出一種用于估計高維數據本征維的特征值變點法。
1.3 均值估計法
對于相互獨立的λ1,λ2,…,λn特征值抽樣,設

其中:a1≠a2,隨機誤差ξ1,ξ2,…,ξn相互獨立,期望為0,方差為σ2,則稱k為特征值變點。
在特征值曲線上取第i個特征值點,位置坐標為(i,λi),記為b點。其前后兩個特征值點c點:(i+ 1,λi+1)和a點記線段與夾角為B。
由 λi-1≥λi≥λi+1可知如圖1中(Ⅰ)、(Ⅱ)兩種情況所示。

圖1 相鄰三個特征值點夾角示意圖Fig.1 Sketch map of included angle between the three contiguous eigenvalue points
當B=π時,點a、b、c在同一直線上,此時無變點,三點對應的特征值均值相同。如圖1(Ⅲ)所示;隨著夾角B逐漸趨向于當λi-1=λi≠λi+1或λi-1≠λi=λi+1時,B達到最小值,此時變點最明顯,變點位置為i。由上述分析可知:當無變點時,有即點a、c的縱坐標均值估計與點b的橫坐標相等;當有變點時即點a、c的縱坐標均值估計與點b的橫坐標存在一定誤差,且當時誤差最大,此時變點最明顯。因此,本文將利用均值估計誤差Δλi(1≤i≤n)對變點位置進行估計:

除變點估計技術外,變點分析方法還應包括變點檢驗技術[22]。由于本文處理的對象是特征值曲線,且主要是通過估計一個較小的本征維達到降低觀測數據維數的目的,故認為該特征值曲線存在變點,而不需要做變點檢驗。
1.4 估計步驟
設高維數據Y是一n×N型矩陣,即

其中:n為維數,N為樣本個數。為簡化敘述,通常假定Y是經過中心化后樣本矩陣。則meanECP法估計高維數據本征維的步驟如下:
(1)標準化高維數據矩陣:

其中:Q是Y的協方差矩陣平方根的逆矩陣;
(3)計算

其中:i=2,…,n-1;
將meanECP法用于某雙層圓柱殼體機械噪聲數據的本征維估計中,并與其它常用方法進行比較。
2.1 數據來源
某雙層圓柱殼體的機械振動噪聲數據主要來自三個設備:海水泵、電機和激振器。在殼體的不同位置布置19個加速度傳感器(每個傳感器稱為一通道),設定八個不同工況,如表1所示[24]。
設定采樣時間8 s,采樣頻率2 048 Hz,則每一工況在每一通道上都可測得16 384個樣本數據。
由于同一個通道下的采樣點較多,且特征單一,不易分析數據的規律特點,因此需要對樣本點進行預處理:
(1)選定信號處理中常用的10個特征量[24]:波形因數,峰值因數,脈沖因數,振動加速度總級,期望,方差,標準差,三階累量,四階累量,有效值;
(2)以2 048個相鄰樣本點為一個樣本段,并以70個樣本點為步長,將樣本段逐步向后平移,可在16 384個樣本點內得到約205個樣本段;
(3)每一工況下隨機選擇100個樣本段,在每個樣本段內計算選定的十個特征量。
本文是為了驗證基于變點分析思想估計本征維的可行性,及比較與現有方法的效果好壞,故只選取10個常用的特征量和隨機抽取了100個樣本段作為舉例,實際上可以選擇更多的特征量和樣本段。
預處理后,在每一工況下的每一通道上可得到一個10*100噪聲數據。其中,10是維數,100是樣本量。則在八種工況下,每一條通道上可得到一個10*800數據。
2.2 計算結果
對2.1節的試驗數據,分別使用K1法、PA法、SCREE法、MAP法、PTV法及meanECP法進行處理,得到噪聲數據在19條通道上的本征維,及不同方法的程序運行時間(程序運行平臺為Matlab R2009a),結果如表2和表3所示。

表2 本征維估計結果Tab.2 Latent characteristic variables dimensionality

表3 不同估計方法運算時間(單位:秒)Tab.3 Computing time of different methods(Unit:s)

續表3
表3中最后一行“時間”表示不同方法在19條通道上程序執行時間的平均值。為直觀比較不同方法效果,圖2~7以第7通道為例,顯示了6種方法的本征維估計結果。其中PA法以蒙特卡洛模擬的特征值均值線和0.95百分位線為標準[25],兩個標準估計的結果相同;MAP法中原始MAP指的是Velicer于1976年提出的以偏相關系數平方的最小平均值為標準,改進MAP是指Velicer于2000年提出的以偏相關系數四次方的最小平均值為標準;PTV法中以0.95為標準[15]。

圖2 第七通道上K1法估計結果圖Fig.2 Evaluating result of K1 method in seventh sensor

圖3 第七通道上PA法估計結果圖Fig.3 Evaluating result of PA method in seventh sensor

圖4 第七通道上SCREE法估計結果圖Fig.4 Evaluating result of SCREE method in seventh sensor

圖5 第七通道上MAP法估計結果圖Fig.5 Evaluating result of MAP method in seventh sensor

圖6 第七通道上PTV法估計結果圖Fig.6 Evaluating result of PTV method in seventh sensor

圖7 第七通道上meanECP法估計結果圖Fig.7 Evaluating result of meanECP method in seventh sensor
2.3 比較分析
表2中結果顯示,MAP方法估計的本征維較其他方法大,且在不同通道上的變化波動也較大;同時,第18、19通道上估計的本征維為0,說明MAP方法對這兩通道不適用;由K1法、PA法、SCREE法、PTV法的計算結果可知,在所有19條通道上的某雙層圓柱殼體機械噪聲數據的本征維在2與3范圍內,由meanECP法估計的本征維同樣也在2、3兩位置浮動(只在第18通道上估計結果為4),從而驗證了meanECP的可行性。
由表3可知,PA方法的程序運算時間明顯高于其他方法,說明該法不適宜處理大樣本或高維數的觀測數據。同時,由于SCREE法與PTV法受主觀影響較大。因此,對于某雙層圓柱殼體機械噪聲數據來說K1法與meanECP法較合適。
為進一步比較K1法與ECP法的效果,下面將利用判別分析方法確定噪聲數據在兩種方法估計的本征維下對每一條通道上來自不同工況樣本的判別分析結果。基本思想是:限定某一通道,對該通道上來自八個不同工況的100個觀測樣本組成的10*800數據矩陣進行主成分分析,并分別利用K1法和meanECP法估計本征維,然后根據估計的本征維對來自不同工況的樣本利用判別分析進行分類,依據分類正確率的大小比較估計效果:分類正確率越高,說明估計的本征維越合理,估計方法效果越好。19條通道上的判別分析結果如表4所示(程序運行平臺:SPSS 17.0)。

表4 K1法與meanECP法的判別分析結果比較Tab.4 Results of discrimnant analysis between the K1 method and the meanECP method
表4中,除第17、18通道外,其余通道上均顯示meanECP法的估計效果比K1法的估計效果好。
基于均值估計的特征值變點法是在現有常用本征維估計方法基礎上,充分利用變點分析思想提出來的。通過對現有變點位置估計技術的改進,基于均值估計提出了一種針對特征值曲線特點的變點估計方法。通過在某雙層圓柱殼體機械噪聲數據中的實際應用,驗證了基于均值估計的特征值變點法(meanECP法)在高維數據本征維估計中的可行性。最后通過分析,與現有常用的本征維估計方法進行了比較。結果顯示:meanECP法理論簡單、計算簡便,計算結果客觀、合理,對某雙層圓柱殼體機械噪聲數據具有較好的處理效果。
參 考 文 獻:
[1]van der Maaten L J P,Postma E O,van den Herik H J.Dimensionality reduction:a comparative review[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2009(10):1-35.
[2]Rubén D L,Pedro V.Determining the number of factors to retain in EFA:An easy-to-use computer program for carrying out Parallel Analysis[J].Practical Assessment,Research&Evaluation,2007,12(2):1-11.
[3]Zwick W R,Velicer W F.Comparison of five rules for determining the number of components to retain[J].Psychological Bulletin,1986,99(3):432-442.
[4]Camastra F,Vinciarelli A.Estimating the intrinsic dimension of data with a fractal-based method[J].IEEE Trans.Pattern Anal Mach Intell,2002,24(10):1404-1407.
[5]Kaiser H F.The application of electronic computers to factor analysis[J].Educational and Psychological Measurement, 1960,20:141-151.
[6]Horn J L.A rationale and test for the number of factors in factor analysis[J].Psychometrika,1965,30(2):179-185.
[7]Cattell R B.The scree test for the number of factors[J].Multivariate Behavioral Research,1966(1):245-276.
[8]Velicer W F.Determining the number of components from the matrix of partial correlations[J].Psychometrika,1976,41 (3):321-327.
[9]Velicer W F,Eaton C A,Fava J L.Construct explication through factor or component analysis:A review and evaluation of alternative procedures for determining the number of factors or components[M].Problems and solutions in human assessment:Honoring Douglas N.Jackson at seventy,Boston:Kluwer Academic Publishers,2000:41-71.
[10]Jolliffe I T.Principal component analysis(second edition)[M].New York:Springer-Verlag,2002.
[11]Fabrigar L R,Wegener D T,Maccallum R C,et al.Evaluating the use of exploratory factor analysis in psychological research[J].Psychological Methods,1999(3):272-299.
[12]Hayton J C,Allen D G,Scarpello V.Factor retention decisions in exploratory factor analysis:a tutorial on parallel analysis[J].Organizational Research Methods,2004,7:191-205.
[13]Streiner D L.Figuring out factors:The use and misuse of factor analysis[J].Canadian Journal of Psychiatry,1994,39: 135-140.
[14]Floyd F J,Widaman K F.Factor analysis in the development and refinement of clinical assessment instruments[J].Psychological Assessment,1995,7:286-299.
[15]Jackson D A.Stopping rules in principal components analysis:a comparison of heuristical and statistical approaches[J]. Ecology,1993,74(8):2204-2214.
[16]Costello A B,Osborne J W.Best practices in exploratory factor analysis:four recommendations for getting the most from your analysis[J].Practical Assessment Research&Evaluation,2005,10(7):1-9.
[17]Andreou E,Ghysels E.Structural breaks in financial time series[M].Handbook of Financial Time Series,Berlin Heidelberg:Springer-Verlag,2009:6,839-870.
[18]關文韜,金百鎖,繆柏其.原油價格與黃金價格的變點分析[J].中國科學技術大學學報,2014,44(6):502-507. Guan Wentao,Jin Baisuo,Miao Baiqi.Change-point analysis of crude oil and gold prices[J].Journal of University of Science and Technology of China,2014,44(6):502-507.
[19]熊立華,于坤霞,董磊華等.水文時間序列變點分析的可靠性檢驗[J].武漢大學學報(工學版),2011,44(2):137-141. Xiong Lihua,Yu Kunxia,Dong Leihua,et al.Reliability test for detecting change point of hydrological time series[J]. Engineering Journal of Wuhan University,2011,44(2):137-141.
[20]危潤初,肖長來,方 樟.黑龍江建三江地區地下水動態趨勢突變點分析[J].吉林大學學報:地球科學版,2016,46 (1):202-210. Wei Runchu,Xiao Changlai,Fang Zhang.Trends mutation nodes of groundwater dynamic in jiangsanjiang area of heilongjiang province[J].Journal of Jilin University(Earth Science Edition),2016,46(1):202-210.
[21]Céline L,Fran?ois R.Detection and localization of change-points in high-dimensional network traffic data[J].The Annals of Applied Statistics,2009,3(2):637-662.
[22]陳希孺.變點統計分析簡介(I)[J].數理統計與管理,1991,10(1):55-58. Chen Xiru.The overview of statistical analysis and case study of change points(I)[J].Journal of Applied Statistics and Management,1991,10(1):55-58.
[23]Csorgo M,Horvath L.Limit theorems in change-point analysis[M].London:John Wiley&Sons,1997.
[24]張志華,梁勝杰,尹曰建等.基于SVM的雙層圓柱殼體機械振動噪聲數據特征提取方法比較[J].船舶力學,2015,19 (1-2):215-220. Zhang Zhihua,Liang Shengjie,Yin Yuejian,et al.Comparison of feature extraction methods on mechanical vibrating noise of ribbed cylindrical double-shells based SVM[J].Journal of Ship Mechanics,2015,19(1-2):215-220.
[25]Raiche G,Riopel M,Blais J G.Non Graphical Solutions for the Cattel’s Scree Test[C]//International Meeting of the Psychometric Society(IMPS 2006).HEC,Montreal,2006.
A method of latent characteristic variables dimensionality evaluating of High-dimensional mechanical noise data based Change-Point analysis
LIANG Sheng-jie1,ZHANG Zhi-hua2,GAO Shao-zhong1,HU Jun-bo2,LI Da-wei3
(1.91697 PLA troops,Qingdao 266405,China;2.Dept.of Scientific Research,Naval University of Engineering, Wuhan 430033,China;3.91550 PLA troops,Dalian 116023,China)
According to eigenvalue-curve’s characteristic of covariance matrix from a High-dimensional data,a new method of latent characteristic variables dimensionality evaluating is proposed based change-point analysis technology,which called Eigenvalue Change-point method based mean estimating,and then apply it to deal with the mechanical noise data of ribbed cylindrical double-shells.Through the analysis comparing with other methods,the proposed method was validated in its feasibility.It is also verified that Eigenvalue Change-point method based mean estimating is simply in theory and convenient in computing;its compute result is impersonal and reasonable;meanwhile,it has attained a preferable result when dealing with the mechanical noise data of a ribbed cylindrical double-shells.
High-dimensional data;latent characteristic variables dimensionality;Change-Point Analysis; Discriminant Analysis;mechanical noise data
TB53 O212.4
A
10.3969/j.issn.1007-7294.2016.07.015
1007-7294(2016)11-1485-09
2016-07-20
國家自然科學基金(50775218)
梁勝杰(1981-),男,博士,E-mail:lsj990308@163.com;張志華(1965-),男,教授,博士生導師;高紹忠(1963-),男,高級工程師;胡俊波(1982-),男,博士;李大偉(1985-),男,博士。