摘要 介紹在教育裝備管理中使用主成分分析前對采集的數據進行數據預處理的過程,并針對統計軟件SPSS的使用敘述進行數據預處理的方法。
關鍵詞 主成分分析;數據預處理;SPSS
中圖分類號 G48 文獻標識碼 A 文章編號 1671-489X(2008)016-0001-03
1 數據預處理的必要性
教育裝備的評價問題與許多其他領域評價問題的研究方法不同,在對教育裝備本身特點、教育裝備配置條件、教育裝備使用效果等方面建立評價指標體系時,由于管理部門已經掌握大量的原始數據,更多注重主成分分析(簡稱PCA),而將Delphi法放在次要地位[1]。但是,PCA法對原始數據的可靠性、一致性以及規范性十分敏感,如果不做相應的處理將不能得到滿意的結果。圖1是未做預處理的數據用SPSS軟件進行PCA的輸出結果,而圖2是經過預處理的數據進行PCA的輸出結果。兩個結果對比可見,在最大特征值和主成分的累計貢獻上存在著很大差異。

2 數據的可靠性分析與處理
在教育裝備管理部門進行數據統計時,由于管理上的疏漏或下級單位對呈報數據的不理解,往往造成原始數據中存在大量的虛假數據。在進行PCA前必須對這些數據做預處理,剔除虛假數據。用SPSS軟件進行這方面的分析和處理是十分方便的[2]。
首先,可以用SPSS的數據分布圖像的功能(“Graphs”→“Histogram”)對原數據進行處理,得到數據分布的直方圖。圖3是國內某地區1 200個小學專用教室個數分布的直方圖。

從該圖可以看出,樣本數(學校數N)為1 200個,學校具有專用教室數的平均值(Mean)為5.8,標準差(Std.Dev)為7.25。同時還可以從分布圖上看出,數據存在大量的偏離值,而且最大偏離值已經超過200(即一個小學有200多個專用教室已經非常不可信了)。進一步,用SPSS的頻數分析功能(“Analyze”→“Descriptive Statistics”→“Frequencies”)可得數據頻數統計分析表(見圖4)。由該分析表可見,具有專用教室數在20個以內的學校已經占全部學校總數的99.3%,具有20個以上專用教室數的學校只有8個,其中有59個、77個和221個專用教室的學校各有1個。顯然應將這3個學校的數據剔除掉。進一步根據實際情況分析,可將具有30個以上專用教室學校的數據剔除掉。

剔除可靠性差的數據,可以借助SPSS軟件來完成(“Data”→“Select Cases”→“If Condition”→“if”→“選擇篩選條件”→“Continue”→“Unselected Cases Are-Deleted”)。上述數據經篩選剔除后再進行頻數統計,分析和輸出數據分布直方圖(圖5)。
當然,對所有評價項目(變量)的數據都應做類似的處理。做過可靠性分析和處理的數據可以進一步做一致性分析與處理。
3 數據的一致性分析
數據的一致性是針對PCA對數據的要求提出的。PCA的原理是通過對變量之間相關性分析,達到整合變量而實現降維(降低變量個數)的目的。PCA要求各變量的樣本值基本呈正態分布,并且許多變量之間存在線性相關性(即多重共線性);如果各個變量之間是相互獨立的或線性無關的,也就不能或沒有必要做PCA了。
用SPSS軟件的分析功能(“Analyze”→“Data Reduction”→“Factor”)可以對數據中各變量的線性相關性做分析。表1是某地區小學辦學條件數據的相關性分析,由SPSS輸出的相關系數矩陣;其中各個變量所代表的意義開列在表2中。

一般認為相關系數大于0.8時兩變量才是具有強線性相關性的。從表1中的數據可見,各個變量的相關性是比較弱的。例如:變量X05和X06的相關系數僅為0.586,這兩個變量分別代表學校運動場地和學生室外活動面積,而一般學校的這兩項指標應該是一致的,即運動場地多,學生活動空間就相應大一些。可以使用SPSS軟件的相關性分析功能(“Analyze”→“Correlate”→“Bivariate”)對該兩項數據做進一步的比對分析。表3顯示的是數據分析的結果。其中0.586是兩變量的相關系數,0.000是兩變量完全不相關假設成立的概率,1 200是樣本數。分析說明兩變量應有較強的相關性。如果將兩個變量的分布直方圖進行比對(圖6),可以發現它們在橫坐標原點附近存在較大差異。

在教育裝備管理中,上述分析結果說明大量學校雖然具有較大的學生活動空間,但是由于裝備設施的缺乏,運動場地(足、籃、排球場)嚴重不足。應該加強這些學校運動場地的設備投入和建設。同樣,如果學校藏書數與雜志種類數、實驗設備數與實驗教室數、學生人數與班級個數等有嚴重的不一致,則說明在這些方面的管理存在問題。
4 數據的規范性處理

PCA前數據的規范性處理是指數據的無量綱化(如:歸一化處理)和規格化(如:將數據整理成均值為0,方差為1的Z標準化處理)。這些處理是進行PCA時必須事先進行的。但是,如果使用SPSS軟件做PCA,則因為SPSS軟件在做PCA前自動對數據進行上述處理,所以可以免去人工對數據進行規范性處理的過程。
參考文獻
[1]艾倫,艾霽野.馬爾可夫分析在達標評價預測上的應用[J].中國教育技術裝備,2008(14):1-2
[2]陳平雁,黃浙明.SPSS 10.0 統計軟件應用教程[M].第1版.北京:人民軍醫出版社,2002,4