紀宏偉(江蘇教育學院如皋分院 江蘇 如皋 226500)
基于SPSS的試卷分析與解讀
紀宏偉
(江蘇教育學院如皋分院 江蘇 如皋 226500)
試卷質量分析是考試中的一項重要任務,也是教學效果檢測的重要依據??茖W、合理、有效的試卷分析顯然有助于教師的教學和考試命題工作。本文通過實例,采用SPSS對數學考試進行各種定量分析,旨在為反饋教學效果、評價教學質量和科學編制試題提供依據。
SPSS;試卷分析;統計解讀
試卷質量分析是考試之后的一項重要工作。根據試卷分析所得到的反饋信息,可以判斷學生對知識的掌握情況,以總結教學經驗和方法,反思教學過程的各個環節,及時調控教學策略和做出科學有效的決策,為不斷進行教學改革、提高教學質量提供客觀依據。同時,考試后對試卷進行量化分析,對于提高教師編制試卷的能力,指導課程試題庫的建設,促進試卷標準化、考試科學化,都有積極的意義和應用價值。
但是,面對大量的考試數據,教師常感到束手無策,對如何分析和解讀數據以及如何對考試和教學進行客觀評價感到困難重重,致使考試結果中蘊藏的大量信息白白浪費,極大削弱了考試的教育評價機能。筆者的目的就是幫助廣大數學教師借助SPSS對數學考試試卷進行科學、合理、有效的分析,為教學質量評價、教學水平評估和從題庫遴選試題并有效施考提供科學依據。本文所述內容,對于其他學科教師而言同樣具有參考價值。
(一)數學試卷結構試卷結構見表1。

表1 題型和題值分布表
(二)定義變量和數據錄入
啟動SPSS,在SPSS的數據編輯器界面,點擊 Variable view標簽,在Name標題下定義:學號(ID)、題號(T1,T2,T3,……,T18)、總成績(sum)、平時成績(ps)。單擊Data view標簽,將共計40份試卷按照各題的得分情況依次輸入SPSS。平時成績由兩部分構成:作業+課堂表現,將其數據輸入表格的最后一列。
(一)描述性測度分析
用來描述考試分數的數字稱為描述性測度。運行菜單【Analyze→Descriptive Statistics→Frequencies】,出現Frequencies計算對話框,將要計算的變量名(sum)導入“Variable(s)”下的方框中,同時在“Frequencies:Statistics”對話框中確定要計算的描述性統計量,如“Mean”、“Range”等,最后輸出結果,見表2。

表2 測度統計量表
這里是對試卷總分(sum)進行測度分析。通過計算總分的平均值(Mean)、眾數(Mode)等指標,反映考生成績集中所在的分數段,代表了考生的集體水平,通過計算總分的標準差(Std. Deviation)、 方 差(Variance)等指標,反映考生之間的差異,通過偏度(skewness)、峰度(kurtosis)等指標來檢查樣本是否符合正態分布,幫助判斷其與正態分布的異同。在Frequencies對話框中,點擊Charts按鈕,勾選Histograms和With normal curve,輸出頻率直方圖及正態分布表,如圖1所示。

圖1 頻率分布圖
(二)難度分析
試題難度是指全體被測試對象對該題的失分率。建立一個包含均值Mean和各題滿分W的數據文件,單擊【Transform→Compute】,在Numeric expression中,輸入公式:Mean/W,在Target Variable中,輸入難度系數P,即可得到各題的難度系數,見表3。

表3 各題的難度系數表
試題難度值與試題實際難易程度正好相反,P值越大表示能夠正確解答該題的學生越多,說明試題越容易,而難度值越小則試題越難。難度適中更能客觀地反映出學生的學習情況。一般來講,對于試題難度的測量,可以參照表4來評價。

表4 試題難度評價表
(三)區分度分析
區分度是指試題對學業水平不同的學生的區分程度或鑒別能力,是反映試題效用高低的參數。在進行區分度分析時,常以考試總分作為被測試對象的實際能力水平,而把被測試對象在某題上的得分與總分之間的相關關系作為該題的區分度。區分度的計算方法很多,一般對客觀題采用皮爾曼(Spearman)等級相關分析,對主觀題采用皮爾遜(Pearson)相關分析。單擊【Analyze→Correlate→Bivariate】,在彈出的Bivariate Correlations對話框中選擇各個客觀題字段(T1~T12)和總分(sum)字段進入,點擊Spearman,完成后便可得客觀題區分度。主觀題的區分度分析方法同上。選擇主觀題(T13~T18)和總分字段進入,選擇Pearson。輸出結果的最后一行或最后一列,每小題與總分之間的相關系數即為區分度。輸出整理結果如表5。

表5 各題的區分度表
對試題區分度的評價如表6所示。

表6 區分度評價標準表
(四)信度分析
信度是衡量一次考試的可靠性、穩定性的統計指標。信度高低反映了考試受隨機因素影響的大小,且與隨機因素影響呈反比關系。試卷信度的檢驗一般采用的是同質性信度,其衡量一般采用克倫巴赫 (Cronbach)α系數,取值范圍為0~1。單擊【Analyze→Scale→Reliability Analysis】,在“Reliability Analysis”中選擇要進入分析的項目T1~T18共18個變量,使之進入Items框中,在Model中選擇Alpha模型,點擊Statistics按鈕,在彈出的對話框Descriptive for欄中勾選Item、Scale和Scale'if item deleted項,輸出分析結果見表7和表8。

表7 信度統計值表

表8 刪除變量后項目統計值表
表8反映的是刪去某一題后考生的平均成績,此題與總分的相關系數及信度系數α的改變情況。
對信度的解釋如表9所示。

表9 信度系數解釋表
(五)效度分析
效度是指測試的有效程度,即試卷準確地測量了欲測內容的多少,換言之,在多大程度上實現了測試目的。效度的取值范圍在0~1之間,一般來說,效度系數在0.4~0.7之間,值越大效度越高。常用的效度檢驗方法有效標關聯效度法和構想效度法。在此利用效標關聯效度法進行分析,因為平時成績對于評價學生來說具有一定的正確性和有效性,所以把學生的平時成績作為效度分析的效標。由于平時成績已在數據表格中,故單擊 【Analyze→Correlate→Bivariate】,選擇字段sum和ps進入Variable(s)中,點擊Pearson,最后輸出結果見表10。

表10 相關性分析
第一,由表1可見,本次測試的平均成績為73.05分,最高分97分,最低分53分,偏度0.165和峰度-0.401都較小,趨近于0,成績服從正態分布,說明試卷命題基本合理,考試總體情況良好。標準方差為10.568,數值較高,說明數據變化較大,學生個體之間存在較大差異,主要影響因素是上課聽講、完成作業、課后鞏固、考前復習等。在教學中,教師應注意這個問題,通過因材施教、分類指導等措施努力縮小學生之間差距。從圖1可知,處于80~100分數段的人數是12人,60分以下的3人,峰值出現在70~75分數段,說明大多數學生對知識掌握較好,但成績多集中在平均分附近,建議適當加大一些試題的區分度,有利于激勵學生的學習積極性。
第二,在難度分析中,了解到除了T12、T18題難度較大,T14、T17題難度適中外,其余各題均偏易,特別是T3、T8、T13題,可以認為過于簡單,需適當增加難度,以便更好地反映學生掌握知識的情況。若需提高平均分,可以考慮將T12、T18題刪除。由表3可見,本次考試大多數題難度系數在0.7以上,總體來看還是一次容易的考試,比較適合像期末考試這類屬于目標參照性的考試。
第三,從表5可見,T18題的區分度非常高,為0.786,說明學生成績在此題被顯著拉開,而該題的標準方差值在所有題目中是最大的,達到3.202,而其分值又是全卷中最高的,所以,在日后教學工作中,教師應該針對該題和該題所含的知識點對學生多加訓練和輔導。T2、T5、T6、T12題區分度較低,說明學生之間的差距沒有拉開,學生所掌握的知識范疇及對知識的理解程度和運用能力難以得到充分體現,因此,有必要加以調整、改進。
第四,從表7可知,本次考試的信度為0.576。一般來說,學校教師自編考卷的信度應在0.6以上,所以,本試卷信度一般。為提高試卷信度,可從適當增加試題數量、保持所有試題的難度接近正態分布等方面改進。從表8可見,T2題的質量相對要差一些,與總分的相關程度較低,刪去這一題后的信度系數上升為0.593,運用類似的方法可以觀測其他題刪去后信度的變化,這對改進試題有指導意義。
第五,從表10可見,效度值為0.952,顯著相關,說明平時成績好的學生此次考試成績也較好,平時成績差的學生此次考試成績亦較差,可見此次考試反映了學生的實際真實水平,符合效度要求。
[1]張文彤,閆潔.SPSS統計分析基礎教程[M].北京:高等教育出版社,2004.
[2]楊麗軍.高校教學水平評估中試卷質量分析系統的研究與實現[J].微電子學與計算機,2006,23(8):198-201.
[3]于水華,鄭任兒.淺談SPSS在教育信息處理中的應用[J].電腦與電信,2006,(10):55-58.
(
:)
G712
A
1672-5727(2011)08-0169-02
紀宏偉(1977—),男,江蘇南通人,理學碩士,江蘇教育學院如皋分院講師,研究方向為數學教育、泛函分析、信息技術等。本文責任編輯楊在良