張家勇 朱玉華
摘 要:英國普通中等教育證書考試具有很多優勢的同時存在改進空間:模塊化考試很難做到等值,考試難度偏低不利于甄別優秀人才,受控評價的信度和效度不高,等級分制度難以有效區分學生全部成績序列,分卷模式可能導致地板效應和天花板效應。2013年2月,英國宣布啟動普通中等教育證書考試綜合改革,2017年9月所有普通中等教育證書考試科目全面實施新內容。改革后,考試難度有所增加;絕大多數科目的考試安排在夏季,重考次數大幅減少;統一卷是首選,保留下來的分卷模式更具彈性;筆試是絕大多數科目的唯一評價方式;評分制度保留等級制,但等級用1~9表示。英國普通中等教育證書考試改革強調分工合作、科學決策、民主決策,并持續回應社會關切的問題。
關鍵詞:綜觀評價;受控評價;分卷;模塊化考試
自1986年英國普通中等教育證書(GCSE)推出以來,教育內外部環境發生了比較大的變化:教育發展階段、考試服務的目的、中學績效考核制度均已改變,國家課程、普通中等教育證書考試高級水平課程(A-Level)考試相繼改革。GCSE必須進行改革以適應這些新變化。2013年2月,英國宣布啟動GCSE綜合改革,2017年9月所有GCSE科目全面實施新內容。原有GCSE存在哪些問題?改革后的GCSE有哪些新變化?這些改革有哪些基本特點?本文擬就這些問題作出簡要回答。
一、改革的緣由
(一)模塊化考試很難做到等值
2009年9月以前,GCSE科目考試都是采用線性評價(linear assessment),所有考試都安排在學生兩年學習結束時進行。此后,絕大多數GCSE科目增加了模塊評價(modular assessment),允許同一科目的不同模塊分散在不同時段教學,每個模塊單獨測試并獲得統一量表分數(UMS)①及等級分,如果某一模塊成績達不到及格等級,將不予計分,完成全部課程后綜合三個模塊得分得到最終等級分,學生可以重復參加模塊考試以提高最終等級分,但最多可重考一次。例如,GCSE數學B由三個模塊組成:統計及概率占30%,算術、代數及幾何I占30%,算術、代數及幾何II占40%,學生可以在中學三至五年級(13~16歲)期間分三次完成考試。如果模塊考試成績不理想,可改為最后一年參加線性考試。這種模塊化設計難免干擾學校的正常教學計劃,妨礙學生對一門課程建立完整的理解,考試機構很難確保資格證書年度標準的一致性。學生何時參加考試、學生擁有的重考次數等因素都會影響最終結果。僅僅因為他們選擇的路徑不同,部分學生就能夠比其他同學考得更好,這就可能對考生不公平。
(二)考試難度低不利于甄別優秀人才
證書及考試監管辦公室(Ofqual)調查發現,GCSE科學和地理試題過于簡單且要求太低、多項選擇題太多,科學試題偏少。GCSE生物考試標準逐年降低,短篇論文、簡答題和多項選擇題增多,不能有效檢測學生的知識深度和廣度。此外,考試機構為了爭奪市場份額、獲得更高收益,漠視行業職業道德,違規為授課教師舉辦講座和考前輔導,提供考題信息,圈定考試范圍,幫助學生獲得高分。此外,GCSE考試更加公式化且更易預測,GCSE課程教學傾向于應試教育,不利于學生真正學習和掌握知識,不能為學生成功提供最佳機會。現行制度導致逐底競爭(race to the bottom),難以甄別拔尖人才。為選拔優秀的生源,很多大學增設入學考試,特別是醫學、法律等熱門專業。2013年牛津大學要求65%的報考者參加自己學校組織的入學考試。學生獲得更高等級分的比例不斷上升,但是更多的雇主不滿意中學畢業生的讀寫算能力,大約42%的雇主因此為中學或大學畢業的雇員增加培訓。
(三)受控評價的信度和效度備受質疑
內部評價(internal assessment)是GCSE考試的重要特色,早期是通過課程作業評價,現在采用受控評價(controlled assessment)②。首先,受控評價有時并沒有評價應該評價的內容,不能像筆試那樣有效地對學生的不同能力水平做出區分。例如,考生通過背誦范文備考外語寫作,受控評價即評價考生記憶力而非外語寫作能力。在備考壓力下,往往最終成果也不能代表學生的真實水平。其次,受控評價很難組織和實施。部分科目的受控評價比例太高,高級監管措施增加了教師負擔,很有可能干擾正常教學或打亂教學時間安排。學校之間也彼此不信任,因為各校對考試機構評價指導的使用方式不同。提高師生一致性的具體控制措施往往沒有發揮作用。最后,受控評價很難保持連貫性和一致性。部分受控評價剝奪了學生反思和改進的機會,考試機構設定的任務限制了考生的創造性。教師還反映考試機構編寫的評價指導解讀空間較大,容易讓人產生困惑且存在一致性缺陷。
(四)等級分不能均衡有效地呈現全部成績序列
學生得分分布過于集中在A~D等級,增加A*等級后區分度仍顯不足,C以下設置太多等級顯得區分過度。獲得A等級考生之間的成績差距比E和F等級之間的差距更大。2012年,所有科目考試獲得D等級的學生占16%,高于E~G等級學生所占比例(14%),獲得B~D三個等級的考生更是高度集中,為63%[1]。同時,不同科目的等級分難易程度相差甚遠,量化并處理不同科目等級分成為難題。例如,21%選擇化學的學生獲得A*,只有6%選擇英語文學的學生獲得A*。此外,單純等級分不能很好地滿足學校招生需求,部分考試機構將考生試卷各單元得分也反饋給學校。等級分并不絕對可靠,較易受到時間、試卷和考官等因素的影響。
(五)分卷可能導致地板效應和天花板效應
現有GCSE科目考試一般分為基礎卷和高級卷,C~E等級在兩卷中都有出現。分卷模式很難通過確定合理邊界為擁有不同知識水平的考生設計不同試卷。分卷難以確保不同途徑獲得的同一等級分等值,目前主要依據統計信息進行專業判斷。同時,考生可能因為選擇錯誤導致零分,即地板效應(floor effect)③;也可能導致被低評,即天花板效應(ceiling effect)④。此外,分卷可能限制考生的發展潛力和抱負水平。因為基礎卷最高等級是C,如果被錯誤地編入基礎卷教學組,即便學生水平再高也不能升到A-level或其他同級資格證書水平。最后,如果與學校績效考核捆綁,分卷也存在負面效應。等級C是學校績效考核的門檻,因為基礎卷獲得C等級更容易,學校更傾向于安排中等水平學生參加基礎卷考試。endprint
二、改革的基本內容
(一)重考次數將大幅減少
2016年5月,Ofqual出臺《關于正式規則的決定》(Decisions on Formal Rules),對重考等事項作出了新的規定。除了英語語言和數學外,其他科目不再有分期、分批的重考機會。對于尚未改革的模塊化科目,不再允許考生重考某個模塊,但是考生可以選擇重考所有模塊,大部分科目重考要等一年之后,受控評價材料重新提交則因科目不同要求會有不同。改革后,兩年課程不再分模塊,幫助學生融合主題的不同方面形成對一門課程的整體認識,所有科目的綜觀考試⑤都安排在課程修完之后的夏季學期(5~6月)舉行,以減少考試對正常教學的影響,保證標準的公平性和一致性。因為英語語言和數學兩科的資格證書對于學生升學或求職至關重要,故每年11月繼續安排重考,但考生必須在當年8月底年滿16周歲。
(二)考試難度將有所提高
Ofqual要求重新設計英語文學、數學、歷史、地理等科目的教學內容,增加課程深度和廣度;取消GCSE職業教育課程;增加核心科目的考試難度,覆蓋完整的課程內容;考試重點考查學生知識能力的深度和廣度,提高合格等級難度。英語語言要求更高的閱讀技能和更好的寫作能力;英語文學將鼓勵學生批判性閱讀、寫作和思考;英語、歷史等科目將減少碎片化和過于結構化的問題,同時增加擴寫內容;數學和科學等科目更加重視量化問題處理;數學將覆蓋比率、比例、變率等內容,要求所有學生掌握基礎知識和技能,加大最高等級分難度;科學將增加人類基因、生命周期分析、太空物理等內容,更加具有挑戰性。2017年所有GCSE科目將按新標準更新,目前已經更新了35個科目。新課程考試評價結構更加嚴謹,核心內容更具挑戰性,學時數將基本保持不變(少數科目教學時間變長)。新課程更加重視拼寫、標點和語法、專業術語,其分值將占英語語言科目總分的20%,其他科目的占比將根據需要逐一確定。
(三)重疊型分卷將更具彈性
一般而言,分卷有重疊型、主卷+附加卷、連續型三種設計。Ofqual提出4條篩選標準:是否影響學生抱負水平,是否能夠有效管控,技術上是否可行(設置標準的難度),是否透明且易于理解。相比而言,重疊型對學生的負擔更輕,更具有易控性,技術要求更低,更易于理解。改革后,分卷科目將繼續采取重疊型模式,提高透明度并吸取其他模式的優點,但重疊點及重疊幅度將更加靈活,鼓勵適當比例的學生選擇分卷相應的課程學習路徑,降低天花板效應的影響,提高不同試卷之間的可比性。如果重疊幅度太小,無法獲得與發展潛力相應等級的考生比例會上升;如果重疊幅度過大,設計有效試題的幾率將會降低。新的數學科目基礎卷設1~5等級、高級卷設4~9等級,其他科目將根據需要采用新的重疊設計。
(四)受控評價將全面調整
筆試將作為默認評價手段,受控評價等其他輔助形式只用于測試關鍵技能。Ofqual提出采用受控評價要遵循以下原則:必須是評價科目關鍵部分的唯一有效途徑,必須在效度、信度、可控性和合理評價實踐之間取得平衡,必須符合具體科目的評價需要,必須確保資格證書不會受到外部壓力的影響。受控評價將改進任務設定的控制,改進學生完成作業的方式,改進授課教師評分和考試機構審核。絕大多數科目受控評價將由考試機構的考官評分,減少受控評價對教學的影響,讓授課教師擁有更多時間專注教學,減輕教師為自己學生評分的壓力,特別是評分還與自己及所在學校績效考核密切相關的時候。如果學生成績用于學校績效考核,受控評價部分將在資格證書上單獨報告,不再計入總分。考試機構將根據不同科目特點制定評價策略、選擇試題類型、決定考評時間、確定筆試比重,保證評價的信度、效度、可比性和可控性。
(五)考試評價方式將有改進
統一卷將是首選,分卷科目將大幅減少。如果統一卷不能讓所有考生充分展示學習成果,并且高級卷涉及的課程內容能夠有效識別,這樣的科目將繼續采取分卷。同時,成績呈現方式將繼續采用等級制,將探索使用標準分作為等級制的補充。新的分級量表將使用數字1~9標明不同等級,9是最高等級。GCSE新科目采用數字等級便于與尚未改革的科目評分相區別,避免與原有8個字母等級混淆,同時讓處于下游的考生也有機會展示進步并得到認可。數字等級制與字母等級制并不一一對應,英格蘭還可以借此與北愛爾蘭、威爾士授予的GCSE證書相區別。
三、改革的特點
(一)強調分工合作與科學決策
英國GCSE改革強調相關部門的分工合作,教育部與Ofqual、考試機構密切合作,共同完成改革的設計和落實工作。教育部全面負責GCSE改革,提出改革的主要框架設想,對改革的重要方面提出主導性建議,包括改革時間表和路線圖、提高科目內容難度、嚴格考試評價結構、改革評分方式、豐富試題類型、確定命題重點、細化成績報告等。教育部對每門科目的核心內容開發過程負有全面責任。教育部還主持GCSE核心科目內容改革和評價目標的社會公眾咨詢工作[2],隨后向社會公布最終達成共識的相關科目內容的改革決定。
Ofqual負責改革GCSE監管要求,確保國家標準準確:決定新GCSE的具體設計特色,出臺獲得考試機構認證的標準,決定如何制定并保持資格證書標準,確保考試機構設計、實施和授予證書時契合改革目標,審核考試機構提交的科目內容開發提議。2013年12月以來,Ofqual就很多改革內容提出建議并征求社會意見。例如,GCSE改革對利益相關者的風險控制(2013年),新GCSE資格證書的基本設計(2013年),考試機構開發、實施和授予GCSE證書的技術規則(2013年),新GCSE資格證書科目的結構和評價(2014年),如何制定并完善新GCSE證書標準(2014年),任一科目納入GCSE證書的原則(2015年)等。2014年,Ofqual開始對考試機構進行認證,2015年底完成所有資格證書認證工作。endprint
考試機構負責制定改進措施,確保GCSE 考試的質量。考試機構吸收自身、全國、國際評價研究成果及優秀評價實踐案例,提升評價信度、效度、可控性和可比性,確保資格證書的有效性和公信力。在適當的地方增加擴寫類(extended writing)考題和問題解決類(problem solving)考題,減少不必要的過于結構化或細碎的試題。考試機構負責開發每個科目的核心內容,向Ofqual提交2017年新開設科目提議。
(二)重視社會參與和民主決策
英國教育改革公開透明,建立了完善的信息公開及意見反饋機制,每一次改革甚至改革的每一項舉措都會由相關責任部門提出框架建議,面向社會公開征集反饋意見,并組織專門人員對社會反饋進行分析整理,再向社會公布反饋意見和采納情況。改革框架通常是由教育大臣任命的、由大學學者組建的專家組在深入調查研究的基礎上完成。據不完全統計,GCSE改革60余次公開征求社會意見,其中教育部主持7次,Ofqual主持53次[3]。例如,Ofqual在研究改革風險防控的時候,專門組織與學校面對面的討論,與考試機構召開一對一座談會,面向就業與教育機構協會、學院學會、考官協會、學院和學校財務代表等發放問卷,廣泛收集社會意見和建議。任何社會機構或個人都可以通過教育部或Ofqual開發的在線反饋表格、電子信箱、在線問答,以及其他方式反饋意見。政府對這些反饋意見必須做出公正公開的反饋,公開對意見和建議的采納情況。Ofqual還委托獨立的市場調查公司輿觀調查網(YouGov)、BMG調查公司(BMG Research)等通過電話訪談、在線問答、面對面座談等途徑收集社會反饋意見并進行深度分析,公開發表調研報告。Ofqual也關注與改革相關的學術研究成果,召開與改革主題相關的研討會等。通過征求社會反饋使改革措施更加完善可行。例如,推遲到2017年完成所有GCSE科目改革、讓考試機構自行決定考試評價時間、將8個等級改為9個等級等改革措施都是社會反饋建議的結果。
(三)回應社會關切,改革從不停步
英國是西方民主自由價值觀的策源地,卻至今保留著君主立憲制度,因此一直被認為是保守主義思想主導的國家。最近幾十年,英國教育改革十分活躍,無論是聯邦教育行政部門頻繁改名重組,中小學課程與考試評價監管機構的分分合合,中小學辦學體制不斷改革以至于新學校類型繁多,還是考試招生制度反復調整,都一反保守常態,讓世界刮目相看。為了應對教育實踐中出現的難題,英國政府堅持改革不停步。自1911年設立中學考試機構到2010年Ofqual獲得法律地位,中學考試評價監管機構11次重組易名,中學考試名稱變更5次,課程與考試監管職能也是時分時合。
雖然GCSE是英國十分成熟且受到廣泛認可的資格證書,但圍繞GCSE的改革的動議時時出現。考試機構組織的外部評價與學校組織的內部評價相結合,這種安排在幾十年內經歷了多次改革調整。1988年英國推出課程作業作為GCSE內部評價的主導方式,2009年開課的GCSE科目改用受控評價替代課程作業,2013年出臺受控評價改革措施。2010年底,英國政府推出英國文憑考試(EBacc),以學校為單位計算學生在GCSE考試中英語、數學、2門科學、1門外語、歷史或地理科目成績獲得A*~C等級的比例,目的是讓更多學生選修科學和外語。2012年,時任教育大臣邁克爾·戈夫(Michael Gove)提議在英格蘭地區推出英國文憑證書(EBC),遭到教師協會和議員的激烈批評后于2013年宣布取消,但全面深化GCSE改革最終被提上議事日程。[4]
注釋:
①模塊考試統一量表分數由原始分轉換而來,用于表示考生的模塊測試成績。因為考生參加各模塊考試時間不同,每年試題和受控評價難度有細微差別,不同模塊相同原始分數所代表的成就水平并不等值,統一量表分數能夠確保成就水平相當的原始分數折算為最終等級分時等值。
②內部評價是GCSE科目評價的重要特色,1988~2009年采用課程作業方式,2009年以來采用受控評價方式,受控評價是授課教師監管的內部評價。目前,絕大多數GCSE評價除了考試機構組織的筆試外還有受控評價,二者按一定比例折合為最終等級分。根據科目性質,受控評價按0%、25%和60%三種比例計入總評,相應地在任務布置、任務完成和任務評分三個步驟中有低級、中級和高級不同層次的監管,高級監管條件下任務布置由考試機構負責,任務完成過程有人監督,考試機構的審核官有權更改教師評分以符合國家標準。
③地板效應指在分卷模式下學業水平偏低的考生錯誤地選擇高級卷參評,可能因無法達到高級卷最低評分要求而不能獲得任何等級分。
④天花板效應指在分卷模式下學業水平較高的考生錯誤地選擇基礎卷參評,可能因基礎卷最高等級限制而無法展現最高水平。
⑤綜觀考試指綜合兩個或更多模塊進行一次性評價,幫助學生在不同模塊之間建立聯系,提高學生參與度,促使教師采用整體方法進行模塊教學,避免課程碎片化和離散化。
參考文獻:
[1]Ofqual.GCSE Reform Consultation June 2013[EB/OL].https://www.gov.uk/government/consultations/gcse-reform-consultation-june-2013,2017-04-16.
[2]Department for Education.Statistical First Release 2013[EB/0L].https://www.gov.uk/government/uploads/system/uploads/attachment_data/file/251184/SFR40_2013_FINALv2.pdf,2017-04-16.
[3]Department for Education. Publications: All Consultations[EB/OL].https://www.gov.uk/government/publications?departments%5B%5D=all&from_ date=&keywords=GCSE&official_document_status=all&page=2&publication_filter_option=consultations& to_date=&topics%5B%5D=all,2017-02-16.
[4]Wikimedia Foundation. English Baccalaureate[EB/OL].http://en.wikipedia.org/wiki/English_Baccalaureate, 2017-04-16.
編輯 朱婷婷 校對 許方舟endprint