
測試評估是學校教育中檢測教學大綱執行情況、教學質量、學生水平必不可少的手段。我們期望編制出高質量試卷,并通過測試結果分析獲取反饋信息,做出正確判斷,進一步改進和提高教學質量。然而相當一部分教師在使用測試結果時常常做出錯誤的解釋、推斷或決策,導致高質量測試的無效使用,并且不利于改進和提高教學質量。下文逐一討論糾正這些認識和使用誤區。
一、測試結果使用與測試質量的關系
測試結果解釋和使用似乎是判定與決策問題,且一般認為通過高質量測試即可獲取可信的測試結果,進而做出合理推斷或決策。恰恰相反,測試結果使用的合理性,即基于測試分數做出的解釋或特定推斷是否有效,決定著測試實施的有效程度。
正確理解測試質量與結果分析的關系要從測試質量衡量標準說起,它有兩項指標。其一是信度,指測試結果的可信程度,是教育測量心理學借用其他學科研究成果,探索發展為一個穩定、成熟的概念。其二是效度,傳統解釋為檢驗是否考了應該考查的內容。幾十年來它是一個不斷發展變化的概念,但當代效度研究表明效度并不僅僅是對試卷本身質量的評價,是關于測試結果使用與證據和理論的一致性問題。測試結果的解釋與使用不僅僅是測試使用的歸屬,也是效度證據的重要支撐,是驗證測試實施有效性的重要證據。如果測試分數被誤用或濫用,即使測試設計非常周全,其實施也是無效的。
二、測試結果的使用是相對于測試目的而言
任何測試均有其特定目的和用途,如檢驗教學效果、評估學生能力水平、選拔學生、診斷學習弱點等。測試目的不僅是測試實施的起點,決定著不同測試類型的選用(水平測試、成績測試、診斷測試、潛能測試等),也是測試使用的歸屬,即獲取何種信息,決定如何解釋和使用測試結果。
我們常見的兩種測試類型分別為成績測試和水平測試,我們應注意兩類測試以下三方面特性的區別。
首先是時間特性。成績測試檢測時間范圍為特定的學習階段,如一單元、一學期等。水平測試則強調從當前時間點追溯至過去,是從過去到現在的一個較長累積時間,有的甚至可追溯至嬰幼兒期。
其次是命題依據特性。成績測試基于所講授的知識與技能,其設計須依據教學大綱的規定范疇。水平測試不參照任何教學大綱或教材,也不考慮是自學還是通過學校教育途徑等,而是依據學科理論標準進行設計,檢測受試者的現有能力水平。
再次是學生差異表現特性。成績測試關注的焦點是教學大綱規定內容是否掌握,界定作為學生個體的合格與不合格問題,換句話說是關心具體分數的高低或絕對值大小,并不關注與其他學生的比較。
上述三方面特性的差異,決定了成績測試與水平測試結果的解釋使用應不同。下文藉此進一步糾正教師們對成績測試結果的使用誤區。
1.整體教學效果檢驗誤區:試題偏難或易,不能區別好、中、差三類學生
整體教學效果的檢驗可通過學生分數分布圖直觀了解,該分布曲線圖通常有三類:正態分布、正偏態分布和負偏態分布(如圖1至3所示)。多數教師錯誤地認為成績測試分數的最佳分數分布圖為正態分布,體現了學生間的差異,較好地區分了好、中、差三類學生。
從成績測試與水平測試學生差異體現特性的不同可知,正態分布應為水平測試的最佳分布。當出現正偏態情況時說明試題偏難,多數受試者得了低分,測試不能體現中低水平間的差異;相反為負偏態則說明試題偏易,多數受試者得了高分,測試不能體現中高水平間的差異。
唯有負偏態分布才是成績測試的最佳分數分布。嚴格依照教學大綱要求科學設計的成績測試實施后,多數學生得了高分,不應解釋為試題偏易,反而說明教學效果好,多數掌握了規定內容,這正是我們教育教學應達到的目標。出現正偏態情況時,多數學生得了低分,若解釋為試題偏難,會使教師注重試題難易分析,而忽視了關鍵問題分析,即多數學生未掌握規定內容的原因。
對成績測試分數分布狀態的錯誤認識不僅造成教師對教學效果檢驗的錯誤判斷,且不利于查找教學中存在的問題,進一步改進和提高教學質量。
2.個體分數解釋誤區:分數差異反映了學生能力水平差異
學校教育中教師們習慣對學生分數進行排序,依此解釋評判個體學生的能力水平差異,這便混淆了成績測試與水平測試結果的不同解釋和使用。
首先,兩類測試時間特性的不同表明,成績測試檢測時間范疇為一定的階段,它僅體現本階段學生的知識技能掌握情況,顯然不能代表長時間積累的能力水平,這樣的錯誤解釋評判不僅誤傷學生學習能動性,且不利學生查找本階段學習問題并加以糾正。
其次是體現學生差異的排序問題。上述表明成績測試關心具體分數的高低或絕對值大小,其分數常用百分制,體現學生個體掌握程度的百分比。因此,對成績測試結果排序比較不關注焦點,也是不科學的。而水平測試才關心分數后面所隱藏的相對于特定團體的位置信息,并不是具體分數的高低。它常采用并建立百分位來體現個體分數在整體中的相對位次,同時使得不同時間的測試分數具有可比性。
3.決斷分數確認誤區:劃定60分為合格分數線
決斷分數的掌握是個程度問題,怎樣及在哪里劃定決斷分數,其合理性也是一個不容忽視的測試效度問題。
首先,決斷分數的傳統、統一劃分法是不科學的。歷來的研究及做法常以學生為中心或以測試為中心展開確認,而本文主張以測試為中心,即依照測試內容確定決斷分,這也是由成績測試目的及其命題依據特性所決定的。
成績測試決斷分的確定可像駕駛執照考試一樣,預先設定是否具有獨立駕駛能力的關鍵判斷標準。這要求我們充分熟悉教學大綱,融會貫通教學內容,把握各知識技能點的相互關系,確定哪些為學生獨立自學與進一步研究必須的,即本階段的基礎、必備、以點概全的學習內容,體現這些內容的各試題分數總和即為該測試的決斷分數。但尚有兩問題需重視。其一是判斷學生分數是否合格,不應僅看總分,須考察該分數的獲取是否是通過正確回答了確認決斷分組成的試題。其二是測試含主觀與客觀試題時,客觀題可進行正誤的絕對判斷,而主觀題卻又是案中案的程度決斷問題,并涉及評分標準的詳細、具體和可操作性。合理的主觀測試評分標準不僅有利對掌握程度的判定,且能使不同閱卷員盡可能一致地理解評分標準并執行,減少分歧,提高測試分數可信度。
其次,由于測試自身或閱卷等因素均有測量誤差,個體分數的真實性相對于一定的把握度總在測量誤差上下這個范圍內,同時決斷分數的確定也是依據經驗和主觀判斷的近似合理量化。因此對距決斷分數較近的上下分數判定,特別是關系學生個體命運時,建議結合學生平時表現慎重重新評判。
其實決斷分數確定并不是新問題,正是由于其確定的復雜性和難度使得我們投入的人力和研究精力相對較少,有時甚至被習慣性忽略。
測試結果合理解釋與使用不僅僅是正確判斷與決策的問題,更是提供測試有效實施的重要證據,它是相對于測試目的而言的。因此,解釋和使用測試結果時,應注意兩類不同用途的測試,避免成績測試運用中整體教學效果檢驗和個體分數解釋上的誤判。同時筆者期望測試決斷分數確定的合理性能得到進一步深入研究,以保障測試的有效使用,確保測試結果解釋與判斷的正確合理,進一步改進和提高教育教學質量。
參考文獻
[1] Ebel, Robert & Frisbie,David.Essentials of Educational Measurement(5th ed..New Jersey:Prentice Hall.1991.
[2] Payne,David.Applied Educational Assessment.Wadsworth Publishing Company.1997.
[3] 鄒申.語言測試.上海:上海外語教育出版社,2005.
(責任編輯 白文軍)