張敏強/華南師范大學心理學院教授、中國教育學會統計與測量分會理事長
凡細珍 /華南師范大學心理學院博士生
教育測評技術的發展及創新應用
張敏強/華南師范大學心理學院教授、中國教育學會統計與測量分會理事長
凡細珍 /華南師范大學心理學院博士生

2014年 9 月 4 日,國務院頒布了《關于深化考試招生制度改革的實施意見》,明確提出“啟動高考綜合改革試點”,要“改革考試科目設置。增強高考與高中學習的關聯度……”為貫徹落實此改革意見,教育部先后頒布了《關于普通高中學業水平考試的實施意見》和《關于進一步推進高中階段學??荚囌猩贫雀母锏闹笇б庖姟穬蓚€文件,正式拉開了新一輪招生考試制度改革的大幕。
在新一輪招生考試制度改革方案中,高考改革的關鍵詞是“多元錄取”“一年兩考”,探索基于統一高考和高中學業水平考試成績、參考綜合素質評價的多元錄取機制??忌偝煽冇山y一高考的語文、數學、外語三個科目成績和高中學業水平考試三個科目成績組成。保持統一高考的語文、數學、外語科目不變、分值不變,不分文理科,外語科目提供兩次考試機會。高中學業水平考試科目,由考生根據報考高校要求和自身特長,在思想政治、歷史、地理、物理、化學、生物等科目中自主選擇。最新出臺的高中階段學校招生制度改革的關鍵詞是“兩考合一”,積極探索基于初中學業水平考試成績、結合綜合素質評價的招生錄取模式。推行初中學業水平考試不是取消中考,而是將初中畢業考試與高中招生考試合二為一,一考多用,避免多次考試給學生造成負擔。
分析方案中的關鍵內容,我們不難發現,新一輪招生考試制度改革的根本宗旨在于改變過去“唯分數論”“一考定終身”的弊端,形成分類考試、綜合評價、多元錄取的考試招生模式,堅持全面考核,促進學生完成國家規定的各門課程的學習;堅持自主選擇,為每個學生提供更多的選擇機會,促進學生發展學科興趣與個性特長,繼續為提高教育質量、提升國民素質、促進社會縱向流動、服務國家現代化建設發揮重要作用。
(一)教育大數據的處理問題
今天,社會各界都在講大數據,實際上教育領域的數據更是大數據,它實現了對學生數據的全方位、全過程采集,覆蓋了學生學業、知識技能、身心健康等各個方面。同時,它又是動態發展的,匯集了學生從幼兒園到高中的發展全過程的縱向數據?!耙荒陜煽肌焙途C合評價都必然會帶來更多的教育數據,這些數據在實際的處理和應用中會產生不少問題和困難。
第一,教育大數據來源多樣,有來自不同區域、不同學校、不同學科測評的數據,以及學生發展的不同方面及類型的數據,這些都缺乏標準化的數據定義,不利于數據間的比較。
第二,數據類型多元,但不具有一致性,不利于數據間的比較與整合。綜合評價涉及到學業水平、身心健康、思想品德等各個方面,不同方面的數據可能是連續型數據,也可能是類別型數據,這給考試分數和問卷數據的解釋與評價帶來困難。目前,教育行業對不同類型數據的整合不足,從而對學生各種指標數據的解釋與評價尚顯不夠。
第三,縱向數據收集難度大,且對其分析欠缺。目前,教育測評注重對橫斷面數據的應用分析,對數據進行橫向比較,較少進行縱向的追蹤與比較。
第四,數據容量大但深層挖掘不易,對數據的利用不夠充分。一是由于目前數據的收集缺乏規劃,不夠細致和到位;二是相關的教育工作者缺乏測量方面的專業知識,缺乏數據背后深層次的隱性信息的挖掘。
4)隨著網架高度增加,網架用鋼量變化不大,且正放四角錐網架和斜放四角錐網架用鋼量也基本相同,說明在一定范圍內增加網架高度并不能顯著節省用鋼量。
第五,非學業數據的獲取和處理難度都更大。過去,我們一直以學業成績為主導,以“分”評價學業的優劣,以“率”評價學校、區域的績效,而對學生成長的非學業因素,比如說思想品德、身心健康、興趣愛好等關注不夠。而綜合素養的評價作為錄取標準之一,重要前提是要對非學業數據進行科學合理的處理。
(二)測評的實施與結果解釋
綜合評價的各大類指標如何進行綜合,才能公正、公平、合理,才能獲得使用這些評價結果的各個層面的認可?多元錄取如何實現,各“元”之間如何分配和綜合?高考外語一年兩考,兩次考試的成績如何比較?這些都是非常實際而又無法避開的問題。招生考試制度的改革不僅僅是政策的頒布與貫徹,其背后的技術支撐如果不能跟上,改革的效果將得不到保障。因此,作為招生考試制度重要技術支撐的測評技術也應隨之發展與創新。
(一)三大基本測評理論
經典測評理論(Classical Test Theory, CTT)、項目反應理論(Item Response Theory, IRT)、認知診斷理論(Cognitive Diagnosis Theory, CDT)是測評領域應用最廣泛的基本理論。CTT因其對題目和測驗作統計分析的方法在計算上較為簡單,意義上也明了直觀,易于教育工作者理解和掌握,因此有著廣泛的應用。但其也存在著較為明顯的缺陷——最突出的是“千人一卷”,不能實現“因人而測”。IRT是針對CTT的不足而發展起來的,它可以精確估計每個考生的能力水平,從而為實現“因人而測”的計算機自適應測驗(Computerized Adaptive Testing,CAT)提供了必要的條件。而CDT則實現了對個體知識結構、加工技能或認知過程的診斷評估,彌補了CTT和IRT只能提供一個測驗分數(或能力參數)的不足,實現了對學生更為精細的診斷與區分。
這三大測評理論為多次考試的分數比較、綜合評價指標整合和計算機化的測驗形式提供了基本的理論基礎。但僅有此是不夠的,測評技術還需在此基礎上進一步發展和創新,才能解決當前招生考試制度改革下的技術難題。
(二)測評技術的發展及創新應用
在教育新形勢的推動下,測評技術也有了發展和創新,并在廣州市2015年的“中小學教育質量陽光評價”中得到了應用。這些創新應用都為新的招生考試制度的具體實施提供了重要參考。
采用“學業測試+問卷調查+非學業量表”相結合的方式,可從多層面對學生進行評價:(1)對學生進行學業測試,了解學生學業發展水平;(2)對學生進行和學業測試配套的問卷調查,探討影響學生學業發展的相關因素;(3)對學生進行非學業問卷調查,從多方面了解和評價學生的綜合素質。
2.“大量表+小量表”整體評估非學業素養
綜合評價涉及多方面、多指標。各個指標與各個方面不應割裂開來,應該視為整體與局部的關系。但如果每一項指標都分別用不同的量表測試,那么指標間的整體關系將被破壞,無法合成一個綜合分數用于整體評價。在廣州市的“教育質量陽光評價”中,由華南師范大學心理學院教授組成的專家團隊經過研討,決定采用“大量表”形式實現測試,“大量表”統領“小量表”,量表間分工合作,不破壞它們之間的整體關系。測驗結果表明,各小量表及大量表都達到了測量學標準。
3.基于潛變量模型的學生分類方法
傳統的依據學生分數對學生進行分層的方法,根據預先的假設,把學生學業分數上的量化差異進行人為分類,這種方法不能確定不同組別的學生學業發展是否具有質性差異。潛在剖面分析(Latent Profile Analysis,LPA)以學生為中心,依據學生的不同表現,診斷學生潛在的質性差異,把學生分成組內一致、組間差異的組別,實現了對學生更為精準的分層。
4.新一代多元概化理論框架下的分數合成方法
綜合評價中一個突出的問題,是各指標分數的合成問題。由于指標繁多,且獲取的數據類型可能并不一致,用經典測量理論來進行分數合成會造成評估誤差。新一代多元概化理論(Multivariate Generalizability Theory,MGT)則很好地解決了這個問題,它可以同時考慮題目因素與維度因素,并且將每個維度固定起來各自作為一個“元”。
5.傳統紙筆測驗+計算機線上測試雙模式并行
對學生進行評價會增加教師工作量和學校的管理難度,從而給評價的實施和推廣帶來阻力。檔案袋評價沒能推廣開來,原因就在于此。因此,綜合評價的具體實施一定要考慮到一線教學和管理的便利。在廣州市的陽光評價中,我們同時采用了傳統的紙筆測驗和計算機線上測驗,從而極大地減少了教師和學校的工作量,評價的推行也進行順利。因此,在高中階段的綜合評價中也可以嘗試采用這種紙筆測驗+計算機線上測試的雙模式。
考試招生制度的改革是一件關乎民生的大事,盡管挑戰重重,但只要社會各界,尤其是學界積聚力量,互相學習和交流,共同為提高國家教育質量、促進學生健康全面發展貢獻一份力量,一定能夠使我們的改革順利推行下去,實現我國教育改革發展的宏偉目標。