999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

因子分析應用中一些常見問題的解析

2012-09-26 09:11:36林海明
統計與決策 2012年15期
關鍵詞:標準化模型

林海明

1 因子分析應用中的一些常見問題

因子分析是多元分析中降維的一種方法[1]。在心理學、教育學、社會學、經濟學、管理學、自然科學等眾多領域的多指標(變量)體系中,如員工績效指標體系、學生課程指標體系、節約型社會指標體系、生態環境可持續型指標體系、和諧社會指標體系、對外投資環境指標體系等,因子分析常應用于綜合評價與監控。

傳統的因子分析模型是[2]:有p維的可觀測隨機向量X=(X1,…,Xp)′,E(X)= μ =(μ1,…,μp)′,Cov(X)=∑=(σij)p×p,要求X是線性依賴于幾個不能觀測的稱之為公因子的隨機向量F=(F1,…,Fm)′和附加的稱之為誤差(或特殊因子)的隨機向量ε=(ε1,…,εp)′。具體是:

或矩陣表示是:

L=(lij)p×m是公因子載荷陣,且設:

Cov(ε,F)=0,E(F)=0,Cov(F)=Im(單位陣),E(ε)=0

上述關系與假設構成傳統的正交因子分析模型。

因子分析的估計方法與理論較多,但實際上,因子分析的應用并沒有達到較成熟的狀態,據歸納,一些使用者在應用因子分析時,常出現以下8個問題或困惑:

(1)因子分析的模型有傳統的因子分析模型和近期改進的因子分析模型L(見第二部分),使用哪個模型更好?

(2)因子分析解不唯一,有初始因子、旋轉后因子,何時使用初始因子更好?何時使用旋轉后因子更好?

(3)初始因子與旋轉后因子的計量值能混合使用嗎?

(4)現行因子個數的確定方法有時會失去一些原始變量的解釋,如何確定因子個數更好?

(5)因子如何命名、正向化,能保持原始變量與因子的內在關系?

(6)前k個因子能加權綜合的條件是什么?

(7)用綜合因子對樣品進行分類客觀嗎?

(8)綜合評價結果,如何能深入到決策相關性程度?

有關文獻并沒有清楚地闡述上述問題,以至應用因子分析時,不易把握。本文應用近期改進的因子分析模型L的理論,逐一解析了上述問題,給出了因子分析應用中的一個綜合評價步驟,以實例說明它的有效性,并給出了因子分析應用中的一些建議。

2 因子分析應用中8個問題的解析

問題(1)解析:傳統的因子分析模型沒有優化條件,參照主成分分析能降維[1],是因為主成分有方差最大化的條件,故傳統的因子分析模型要能降維,沒有優化條件是一個缺陷。文[3](1982)指出:因子分析的模型和理論是很不完善的,還存在許多問題。為此,文[4](2006)用因子對變量的方差貢獻和最大化替代誤差項方差陣為對角陣的條件式(1.3),提出了改進的因子分析模型L;文[5](2007)用因子分析模型L求出了傳統因子分析模型的解,得出:傳統因子分析模型的公因子解不能降維,且有時會丟失一些變量的解釋,故使用傳統的因子分析模型不是更好的,同時,傳統因子分析模型解的求出,為因子分析更好模型的確立提供了深入和充分的理論依據;文[6](2009)用標準化主成分法等證明了:因子分析模型L的因子解是前k個標準化主成分或其旋轉。因為前k個主成分能降維,故前k個標準化主成分或其旋轉能降維,能解釋所有變量(見問題②、問題④解析),有:

結論1因子分析模型L有因子對變量方差貢獻和最大化的條件,其因子能降維、能解釋所有變量,故因子分析模型L是更好的。

為了便于應用,這里給出近期改進的因子分析模型L及其解:

因子分析模型L[4]有p維的可觀測隨機向量X=(X1,…,Xp)′,E(X)=μ=(μ1,…,μp)′,Cov(X)=∑=(σij)p×p,要求X是線性依賴于少數幾個不能觀測的稱之為因子的隨機向量f=(f1,…,fk)′(k<p)和附加的稱之為誤差的δ=(δ1,…,δk)′,即

Xi-μi=bi1f1+bi2f2+…+bikfk+δi,i=1,…,p. 矩陣表示是

B=(bij)p×k稱為因子載荷陣,bij稱為變量 Xi在因子fj上的載荷,且

求B、f,使:

式(1)~(3)稱為正交因子分析模型L。

設∑的特征值為λ1、…、λp,λ1≥…≥λp≥0,相應的單位正交特征向量為e1,…,ep,記:

B0=(λ121e1,…,λ12kek),f0=[λ-1/21e1′(X-μ),…,λ-1/2kek′(X-μ)]′(前k個標準化主成分),稱B0為初始因子載荷陣,f0為初始因子。

設Г是使B0Г達到方差最大化的正交旋轉陣[3],記BГ=B0Г,fГ=Г′f0(前k個標準化主成分f0方差最大化的正交旋轉),稱BГ為旋轉后因子載荷陣,fГ為旋轉后因子。

引理1[6]因子分析模型L 的解:B=B0,f=f0,max{tr(B′B)}=

引理2[6]因子分析模型L的解:B=BГ,f=fГ,max{tr(B′B)}=

為了優化現有因子分析理論,為了能用流行統計軟件計算因子分析模型L的解,文[6]建立了因子分析模型L的解與傳統因子分析模型中主成分法估計、回歸法估計的關系:

引理3[6]設L是主成分法的前k列公因子載荷陣(含旋轉后),F是L回歸的因子,則因子分析模型L的解:B=L,f=F。

即引理3說明:統計軟件中,計算因子分析主成分法的前k列公因子載荷陣L*及其回歸的因子F*,是因子分析模型L的解。

注:因為主成分法誤差項的方差陣不是對角陣,故主成分法估計的因子載荷陣L及其回歸的因子F,不是傳統因子分析模型的解。

由結論1,因子分析模型以下指的是:因子分析模型L;由引理3,因子分析模型的解以下指的是:主成分法的因子載荷陣L及其回歸的因子F。

問題(2)解析:因子分析是用因子f解釋變量X的,故要求每個變量Xi(i=1,2,…,p)僅在某個因子fj(1≤j≤p)上有高額的載荷bij[2]。由式(2.3),tr(B′B)=達到最大,非零載荷bij的絕對值—bij—總體上會更大,故因子分析模型L解釋所有變量是更好的,由引理3,主成分法的因子載荷陣是更好的。變量X標準化時,因子載荷陣B是變量X與因子f的相關陣,載荷bij是變量Xi與因子fj的相關系數,考慮到降維,該要求用因子載荷陣B描述是:B的每行有一個高額載荷的絕對值較靠近1,B的列數較小,稱此為結構簡化。因此,有:

結論2變量X標準化時,主成分法下,多個不同列旋轉后因子載荷陣中選出的因子載荷陣B0Г達到結構簡化,B0Г與 B0比較(見注 2)。

(1)如果B0Г達到更好的結構簡化,則使用相應的旋轉后因子;

(2)如果B0達到更好的結構簡化或B0Г、B0都是差異不大的結構簡化,則使用相應的初始因子。

注2旋轉后因子載荷陣B0Г是逐次對初始因子載荷陣B0每兩列元素進行方差最大化正交旋轉的結果,初始因子載荷陣B0是列元素平方和(因子方差貢獻vj)降序排列達到最大化的結果[3],即B0Г、B0的最大化方向不同,故一般情況下B0Г、B0的結果是不同的。

問題(3)解析:由注2,一般情況下B0Г、B0的結果是不同的,故初始因子、旋轉后因子解釋的變量一般都發生了變化,這使得兩者因子的計量值、方差貢獻都不一樣,故有:

結論3初始因子、旋轉后因子有最大化方向不同的條件,結果不同,故初始因子、旋轉后因子不能混淆、不能混合使用。

問題(4)解析:現行因子個數的確定方法有時是不合理的,如用累計方差貢獻率達到85%確定因子個數,有時會失去一些原始變量解釋。因為因子分析中是用因子解釋變量,故選取的因子應該與變量有顯著相關性(大樣本時至少應達到中度相關),于是有:

結論4記達到更好結構簡化的m列因子載荷陣是Bm,若(Bm,λ12m+1em+1,…,λ12pep)前k列元素絕對值大于顯著相關的臨界值(大樣本取0.5-0.8),則因子個數為k,相應因子載荷陣記為Bk。

問題(5)解析:變量標準化時,因子載荷陣Bk是變量X與因子f=(f1,…,fk)′的相關陣,Bk的第j列bj是變量X與因子fj的相關系數,絕對值大于顯著相關臨界值(大樣本取0.5-0.8)的對應變量與fj相關性高,因此有:

結論5在Bk的第j列bj的元素中,選出絕對值大于顯著相關臨界值(大樣本取0.5~0.8)的對應變量,歸為因子fj一組,由這組變量的內在關系對因子fj進行命名及其正向化,這樣的因子分析能保持一些變量與因子的內在關系。正向化后因子載荷陣及其因子記為B、f。

問題(6)解析:因子是標準化的、彼此不相關,參照普通中學學生,語文、英語、數學考試成績可總分的條件:標準化、不相關、同方向,有:

結論6如果因子f=(f1,…,fk)′是正向的,則因子可進行相應方差貢獻率的加權綜合。

問題(7)解析:綜合因子是前k個因子方差貢獻率的加權平均。綜合因子的樣品值反映的是n個樣品在綜合因子中的綜合相對位置(樣品相應的優勢、劣勢、差距狀況等),前k個因子的樣品值反映的是n個樣品在前k個因子中的相對位置。僅用綜合因子進行分析會失去前k個因子的特征,僅用前k個因子進行分析會失去綜合因子的特征,這樣是不客觀的,因此,有:

結論7因子分析中既要進行綜合因子的樣品分析,又要進行前k個因子的樣品分析,兩者的結合分析才是較客觀、較可靠的。

樣品數量較多,逐個樣品分析看不出共性規律。僅按綜合因子值給出分類結果,失去了前k個因子的多因素特征,事實上,樣品的共性規律表現在前k個因子的樣品值中,對前k個因子樣品值進行聚類分析(前k個因子是標準化,不相關的,選取歐式距離的聚類分析效果較好),并按綜合因子值相應順序給出分類,便找出了樣品之間較為客觀、可靠性的共性規律,故有:

結論8對前k個因子樣品值進行系統聚類分析,按綜合因子值相應順序給出樣品的分類,能較客觀、可靠地反映樣品之間的共性規律,便于進行樣品的共性分析。

問題(8)解析:因子分析、聚類分析給出了樣品客觀、可靠的個性與共性特征。但因子fj有綜合性,決策的相關性有待與原始指標結合起來,由結論5,因子fj是按與其顯著相關(大樣本時達到中度相關)的原始變量歸為因子fj這一類命名的,故將相應原始變量對應替換為因子fj進行聯系性分析,便得出了較為可靠的決策相關性結果。

結論9將因子fj對應替換為與其顯著相關(大樣本時達到中度相關)的原始變量,對這些聯系性的原始變量逐組(當作因子fj)和綜合地進行數據分析,得出的是較為客觀、可靠的決策相關性結果。

3 因子分析的一個綜合評價步驟

現行論文和文獻中,應用因子分析的步驟大部分是:指標的標準化;求變量樣本相關陣R、初始因子載荷陣、旋轉后因子載荷陣、旋轉后因子;用因子方差累計貢獻率確定因子個數;旋轉后因子的命名。以下步驟增加了:指標的正向化,指標高度相關性的判定,因子是否旋轉的確定、因子的正向化,更新了因子個數確定方法,更新了因子命名方法,建立了因子、綜合因子與原始變量的對應關系,因子中變量的內在關系,能進行深入的數據分析。

(1)指標正向化[7]、標準化;

(2)指標間高度相關性判定:用變量相關陣R判定,若變量間有高度相關,因子分析繼續,否則,直接進行逐個指標分析,用x進行綜合分析(x是正向化、標準化ii的);

(3)選取用于比較的因子載荷陣:主成分法下(引理3),對多個旋轉后因子載荷陣,找出結構簡化的旋轉后因子載荷陣B0Г:即B0Г每行有一個元素的絕對值較靠近1、列數較小;

(4)確定因子是否旋轉:B0Г、B0比較,若B0Г達到更好的結構簡化,則用旋轉后因子(結論2);若B0達到更好的結構簡化或B0Г、B0都是差異不大的結構簡化,則用初始因子(結論2);記達到更好結構簡化的m列因子載荷陣是Bm;

(5)確定因子個數k:若(Bm,λ12m+1em+1,…,λ12pep)前k列元素絕對值大于顯著相關的臨界值(大樣本取0.5-0.8),則因子個數為k(結論4),相應的因子載荷陣記為Bk[(λ12m+1em+1,…,λ12pep)是p列初始因子載荷陣后面的p-m列];

(6)因子的命名及其正向化:在Bk的第j列bj的元素中,選出絕對值大于顯著相關臨界值(大樣本取0.5-0.8)的對應變量,歸為因子fj一組,由這組變量的內在關系對因子fj進行命名(結論5);正向化是:如果歸為因子fj一組變量的內在關系是越大越好,則因子fj取正號,否則,取負號。

正向化后因子載荷陣及其因子記為B、f=(f1,…,fk)′(k≥m時,f的前m個因子是Bm回歸的正向化因子,第m+1、…、k個因子是p列初始因子載荷陣回歸的第m+1、…、k個正向化初始因子;k<m時,f是Bm前k列因子載荷陣回歸的正向化因子,引理3);

(8)對前k個因子f1,…,fk的樣品值、綜合因子f綜的樣品值進行排序;

(9)用前k個因子f1,…,fk的樣品值做系統聚類分析(如類平均法),按綜合因子f綜樣品值順序給出樣品相應的分類結果(結論 8);

(10)結合前k個因子樣品值的聚類分析結果,因子、綜合因子樣品值和排序,因子、綜合因子與原始變量的對應關系,因子中變量的內在關系,進行優勢、劣勢、潛力狀況和原因等的綜合評價,給出較客觀、可靠的決策相關性建議(結論7、結論9)。

4 應用實例

為驗證上述因子分析綜合評價步驟的有效性,用廣東省2008年規模以上9大產業發展水平的數據進行綜合評價。指標選取為:X1-企業科技活動人員(人)、X2-當年科技活動經費支出總額(千元)、X3-企業單位數(個)、X4-工業總產值(億元)、X5-工業增加值(億元)、X6-全部從業人員年均人數(萬人)、X7-主營業務收入(億元)、X8-利稅總額(億元)、X9-全員勞動生產率(元/人)、X10-百元固定資產原價實現利稅(元)。9個行業為:1-電子信息業、2-電氣機械及專用設備、3-石油及化學、4-紡織服裝、5-食品飲料、6-建筑材料、7-森工造紙、8-醫藥、9-汽車及摩托車,數據見表1。

表1 廣東省規模以上9大產業發展水平的數據

⑴指標都是正向的,僅對變量進行標準化;

⑵由表1數據,用SPSS軟件計算得,X4與X7的相關系數為0.972,X5與X7的相關系數為0.974,變量間有高度相關性,因子分析繼續;

⑶多個不同列的旋轉后因子載荷陣挑選得,m=3時,旋轉后因子載荷陣B0Г達到結構簡化(見表2),旋轉后因子方差貢獻v1=4.863、v2=2.252、v3=1.914;

表2 因子載荷陣

⑷初始因子載荷陣B0(見表2)與B0Г比較:由表2得表3,表3表明,B0Г達到更好的結構簡化,故用旋轉后因子;

表3 因子載荷陣每行載荷最大絕對值靠近1對比表

⑸前3個旋轉后因子,變量正態分布下,取顯著水平為5%,顯著相關的臨界值是r(7)=0.666[8],由B0Г和r(7)判斷,前3個旋轉后因子與變量顯著相關;其它因子與變量沒有顯著相關,故因子個數k=3,前三個因子的累計方差貢獻率為90.29%;

⑹因子命名與正向化:由B0Г和r(7)判斷,f1Γ與X7-主營業務收入、X4-工業總產值、X5-工業增加值、X6-全部從業人員年均人數、X3-企業單位數顯著正相關,因子f1稱為產值人力因子;f2Γ與X9-全員勞動生產率、X10-百元固定資產原價實現利稅、X8-利稅總額顯著正相關,因子f2Γ稱為效益因子;f3Γ與X1-企業科技活動人員、X2-當年科技活動經費支出總額顯著正相關,因子f3Γ稱為科技水平因子。因子f1Γ、f2Γ、f3Γ是正向化的;

⑺以旋轉后方差貢獻率vip為權數構造綜合因子(xi是 Xi的標準化):

⑻旋轉后因子、綜合因子樣品值及排序見表4;

⑼用系統聚類分析類平均法,選用歐氏距離,通過表4三個旋轉后因子f1Γ、f2Γ、f3Γ的樣品值對樣品進行聚類。取分類閾值為1.68時,分成五類,結合綜合因子樣品值排名順序給出相應共性分類結果如表4:

表4 旋轉后因子、綜合因子樣品值及排序

第一類:3-石油及化學;第二類:1-電子信息業;第三類:2-電氣機械及專用設備:6-建筑材料;第四類:4-紡織服裝、7-森工造紙;第五類;5-食品飲料、8-醫藥、9-汽車及摩托車。

(10)結合前3個旋轉后因子樣品值的聚類分析結果,因子、綜合因子樣品值和排序,因子、綜合因子,原始數據,原始變量名稱的意義,進行優勢、劣勢和影響因素等的綜合評價,給出客觀、可靠的決策相關性建議。

建議:3-石油及化學行業在繼續保持效益因子f2Γ中X9-全員勞動生產率、X8-利稅總額、X10-百元固定資產原價實現利稅均排第1優勢;產值人力因子f1Γ中應保持和提高X7-主營業務收入排第3、X4-工業總產值排第3、X5-工業增加值排第3、X3-企業單位數排第3、X6-全部從業人員年均人數排第5的較好優勢;科技水平因子f3Γ中,適當增加X1-企業科技活動人員和發揮好他們的作用,加大X2-當年科技活動經費的投入,必然產生更強的優勢。

第三類:2-電氣機械及專用設備、6-建筑材料,綜合因子fΓ綜值依次排3、4,2-電氣機械及專用設備高于平均水平,6-建筑材料略低于平均水平。其產值人力因子f1Γ值依次排2、5,2-電氣機械及專用設備高于平均水平,有較大優勢,6-建筑材料低于平均水平;效益因子f2Γ值依次排6、7,低于平均水平;科技水平因子f3Γ值依次排1、2,高于平均水平。即該類行業是科技水平高,但效益較差的行業。原因及問題、建議,與第一類行業的分析類似。

第二類行業綜合評價、建議方法與第一類行業類似,第四類、第五類行業綜合評價、建議方法與第三類行業類似,此略。

以上分析及結論,找到了研究對象的共性、優勢、不足、潛力狀況和原因等,用具有可控性的原始指標給出了較可靠的決策相關性建議,驗證了因子分析模型L方法的有效性。

5 結論與建議

(1)模型選擇。傳統的因子分析模型沒有優化條件,公因子解不能降維或會丟失一些變量(指標)的解釋,即傳統因子分析模型不是更好的。因子分析模型L有優化條件,能降維、能較清晰地解釋所有變量,是因子分析更好的模型,故應用因子分析解決實際問題時,建議使用近期改進的因子分析模型L和方法。

(2)初始因子或旋轉后因子的確定。因子載荷陣達到更好的結構簡化時,因子解釋所有變量是更好的。因子分析模型L的解(主成分法的因子載荷陣及其回歸的因子或它們的旋轉)是更好的,建議對主成分法因子載荷陣及其旋轉進行比較,用達到更好結構簡化的因子載荷陣確定相應的因子。

(3)因子應用的一致性。初始因子與旋轉后因子的計量值不同,建議應用中不要混淆。

(4)因子個數的確定。因子是解釋變量的,選出的因子應該與變量顯著相關(大樣本時至少達到中度相關,下同)。故建議用與變量顯著相關因子的個數,確定為因子個數。

(5)因子的命名、正向化。因子是解釋與其顯著相關的變量的,故建議用與因子顯著相關的變量對該因子進行命名、正向化。

(6)因子綜合。因子是標準化、互不相關的,建議對這些因子正向化后進行加權綜合。

(7)樣品的分類。樣品的共性特征表現在前k個因子樣品值中,建議用前k個因子樣品值作系統聚類分析進行分類。

(8)綜合評價。因子及與其顯著相關的原始變量有對應關系,綜合因子是原始變量的線性組合,因子中與其顯著相關的原始變量有內在的相關關系,建議用這些關系,對綜合因子、逐個因子的變量組進行深入的數據分析,盡可能深入到決策相關性程度。

[1]方開泰編著.實用多元統計分析[M].上海:華東師范大學出版社,1989.

[2]Johnson,R.A.,Wichern,D.W.,Applied Multivariate Statistical Analysis(6thEdition)[M].New York:Published by Pearson Education,2007.

[3]張堯庭,方開泰著.多元統計分析引論[M].北京:科學出版社,1982.

[4]林海明.因子分析精確模型及其解[J].統計與決策(理論版),2006,(7).

[5]林海明,王翊.因子分析模型L及其解是更好的[J].統計研究,2007,(8).

[6]林海明.因子分析模型的改進與應用[J].數理統計與管理,2009,28(6).

[7]陳軍才.主成分與因子分析中指標同趨勢化方法探討[J].統計與信息論壇,2005,(2).

[8]峁詩松等編著.概率論與數理統計[M].北京:中國統計出版社,2000.

猜你喜歡
標準化模型
一半模型
標準化簡述
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
企業標準化管理信息系統
標準化是綜合交通運輸的保障——解讀《交通運輸標準化體系》
中國公路(2017年9期)2017-07-25 13:26:38
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
以標準化引領科技創新
論汽車維修診斷標準化(上)
主站蜘蛛池模板: 国产91高跟丝袜| 亚洲男人的天堂在线| www.国产福利| jizz在线免费播放| 亚洲成人免费看| 久久这里只精品国产99热8| 2020极品精品国产| 97se亚洲| 亚洲日韩在线满18点击进入| 99视频只有精品| 熟妇丰满人妻av无码区| 久久黄色免费电影| 亚洲欧美日韩精品专区| 久久99热这里只有精品免费看| 国产青青操| 国产乱子伦精品视频| 大陆精大陆国产国语精品1024| 亚洲成人一区二区| 亚洲一区二区三区中文字幕5566| 国产成本人片免费a∨短片| 国产综合另类小说色区色噜噜 | 秋霞一区二区三区| 成年A级毛片| 国产麻豆精品手机在线观看| 性激烈欧美三级在线播放| 无码专区国产精品第一页| 亚洲一区二区视频在线观看| 婷婷五月在线视频| 免费观看成人久久网免费观看| 精品欧美一区二区三区在线| 亚洲精品欧美日本中文字幕| 特级精品毛片免费观看| 又爽又黄又无遮挡网站| 国产亚洲精品97AA片在线播放| 国产一区二区三区在线无码| 欧美性久久久久| 欧美国产综合色视频| 亚洲色图综合在线| 国产91小视频| 99精品一区二区免费视频| 成人国产三级在线播放| 国产经典在线观看一区| 不卡午夜视频| 午夜影院a级片| 国产十八禁在线观看免费| 国产女人在线| 国产黑丝视频在线观看| 日韩欧美国产另类| 亚洲精品少妇熟女| 青草视频久久| 国产乱子伦手机在线| 国产成人91精品| 久久国产免费观看| 免费国产一级 片内射老| 毛片国产精品完整版| 国产另类视频| 亚洲无码熟妇人妻AV在线| 内射人妻无码色AV天堂| 国内熟女少妇一线天| 国产精品三区四区| 亚洲三级网站| 国产亚洲精品yxsp| 国产三级视频网站| 国产麻豆另类AV| 久久久噜噜噜| 视频二区亚洲精品| 动漫精品啪啪一区二区三区| аⅴ资源中文在线天堂| 日韩精品欧美国产在线| 日本精品一在线观看视频| 国内精品视频在线| 九色在线观看视频| 欧美精品影院| 亚洲伦理一区二区| 国产午夜福利片在线观看| 91久久偷偷做嫩草影院精品| 女人爽到高潮免费视频大全| 国产精品久久久久无码网站| 亚洲成aⅴ人片在线影院八| 亚洲精品777| 日韩精品毛片人妻AV不卡| 日本一区二区三区精品AⅤ|