王俊民
自1988年的《教育改革法案》始,英國在每個關鍵階段(key stage)末都進行全國統一的學業評價①英國義務教育劃分為四個關鍵階段:KS1(5-7歲)、KS2(7-11歲)、KS3(11-14歲)、KS4(14-16歲),其中 KS1和 KS2相當于我國的小學階段,KS4階段相當于高中階段。,稱為 “國家課程評估”(National Curriculum Assessment,NCA)。2009年以前,課程評估主要通過標準化成就測驗(SATs)進行,但由于考試結果的高利害性對學生造成了過度壓力,受到各方的質疑和抵制[1]。因此,政府從2009開始取消了KS3國家課程測驗,并取消KS2科學的書面全國測評,改為抽樣紙筆測評和教師主導評估(teacher assessment)相結合的方式。
2016年英國開展了國家新課程實施后的首次科學學業測評,測評工作由標準與測評部(Standards and Testing Agency)負責。測評對象包括公立學校、學院和特殊學校的KS2末學生,基本相當于我國的小學畢業生。該測評從全國1900所學校中隨機選取約9500名學生參加統一測驗,每個學校隨機抽取5名學生[2]。
本研究以2016年英國“國家課程評估”科學學業測評項目(以下簡稱NCA-S)為研究對象,對其紙筆測驗和教師主導評估的框架進行分析,基于情境類型學理論對紙筆測評試題情境進行分析,以期為我國科學教育質量監測的框架與試題設計提供借鑒。
2016年科學學業測評內容有兩大領域:內容領域和認知領域 (cognitive domain)[3]。內容領域含物理、化學、生物三大知識分支和“科學地工作”(Working scientifically),三大知識分支詳細列出了測評的知識內容,例如僅關于“光”的條目就包括3-6年級在內的9條內容,如“P3a認識到有光的情況下才能看到物體,黑暗就是因為沒有光”“P6d應用光的直線傳播原理,解釋為什么影子的形狀與投射物體的形狀相同”?!翱茖W地工作”包含計劃、實施、測量、記錄、結論、報告六部分,具體含15個條目,每個條目的描述形式與知識分支類似。
認知領域是對認知水平的描述,主要測評學生是否達到課程標準所要求的認知程度,例如是否達到課程要求的“理解”水平、“應用”水平等。認知領域既是測評內容,也是構建測試題目的工具,為將內容領域和認知水平結合提供了一個框架,且能夠保證每年測試題目的難度一致。表1是認知領域的模型。

表1 認知復雜度模型
可以看出,認知領域結合了任務情境的認知過程,與布盧姆教育目標分類學中認知過程的分類類似,體現了“記憶”“理解”“應用”“分析”“綜合”和“評估”六個水平。認知領域根據操作或概念組成部分的復雜度及其之間的關聯來確定層次,知識與理解是低層次的,需要記憶、描述、觀察、讀取,面對的是簡單的事實性知識和數據源;綜合與評估是最高要求,需要提出建議、做出論證、建立聯系、進行解釋,面對的是新穎的情境、不同的證據源或信息。
根據測評方案,內容領域的物理、化學和生物三大知識分支考查比例基本相當,“科學地工作”不單獨評估,而是以三大知識分支作為背景進行整合評估。在紙筆測驗中,并不是每一條內容都能測評,因此,NAC-S測評方案專門將這些無法通過紙筆測驗進行測評的內容羅列出來,并解釋不能或不能完全測評的原因。這些內容將需要教師通過“教師主導評估”進行測評。例如“連接一個簡單的電路,確定電路每個部分的名稱”,這一內容目標要求學生能夠連接電路,這在紙筆測驗中無法實現,不過可以通過紙筆測驗考查學生對構成電路的各部分元件名稱的掌握情況,還可以考查學生設計電路的能力。部分不能測評的內容及其解釋說明見表2。

表2 部分不能通過紙筆測驗進行測評的內容
NCA-S試題構建的基本依據是表現期望,即期待學生達成的學業表現。表現期望由內容維度和認知維度組合形成。根據具體主題或內容可以將表現期望進一步細化,作為試題編制的直接依據。例如內容維度是“觀察磁體之間如何相互吸引和排斥,磁體可以吸引哪些物體,不能吸引哪些物體。”,認知維度確定為“應用與分析”,期待的學生表現是在一定情境下“應用”“磁體如何吸引和排斥”或者“可以吸引或不能吸引哪些物體”,進一步可以細化為“用箭頭表示磁體對回形針施加的力的方向”等考查內容。以下是2016年的一道測評試題及其試題屬性(見表3)。
試題單元①NCA-S測評試題以試題單元的形式呈現。所謂試題單元就是圍繞某一主題或背景設計多個小題。K:磁力
K1.阿里有四個不同的磁鐵和一些回形針,回形針可以被磁
鐵吸引。在照片上畫一個箭頭,以顯示回形針上的磁力的方向。
K2.指出作用在回形針上、與回形針受到的磁體吸引力方向相反的力。
K3.阿里想找到磁性最強的磁鐵。他向磁鐵添加回形針,每次一個,這些回形針可以連成一個鏈條。當沒有更多的回形針粘住時,他停下來。他用另外三個磁鐵重復了這實驗。阿里怎么知道哪個磁鐵是最強的?

K4.下圖顯示了阿里的結果。圖上的一個軸已經被標記出來,為“磁體”,請你寫另一個軸的標簽。

K5.阿里把磁鐵A移向磁鐵B,發現即使不接觸磁鐵B,磁鐵B也會遠離磁鐵A。為什么磁鐵B遠離磁鐵A?
K6.阿里嘗試不同的方式把磁鐵放在一起。請在表格的每一行勾選一個方框,以顯示磁鐵是否一起移動、分開或不移動。第一個已經為你完成了。

可以看出,該試題單元既包括對具體科學知識的測評,也包括對“科學地工作”的測評。K1、K2、K5和K6測評內容對應了評估框架中羅列的知識條目,同時對應一定的認知維度;K3和K4針對“科學地工作”要素,K3評估進行測量的能力,K4評估記錄數據的能力,對應的認知過程分別為“應用與分析”和“知識與理解”層次。
NCA-S科學紙筆測驗以三張獨立的試卷呈現,每張試卷對應生物、化學或物理中的一門,每門有五個版本的試卷,每個學生將拿到其中的一個版本,依次進行;紙筆測驗總時間是75分鐘(詳見表4)。

表3 NCA試題單元K題目屬性

表4 2016年科學測試基本構成[4]
教師主導評估是教師對學生學業成就進行的內部評價,鑲嵌于教學過程中。在每個階段末,教師要根據學生在整個關鍵階段的進步和表現,對學生的綜合表現做出評判。評判依據有兩方面:學生的寫作、實踐或口語類相關表現和家庭作業。標準與測評部會在評估的前一年發布下一年的評估框架,2014年實施新課程以來,教師主導評估框架處于不斷修訂當中,2016和2017年都使用臨時評估框架,該框架包括學科評估的原則和期望標準[5]。
科學學科評估原則主要有:
●臨時框架僅用于關鍵階段末教師主導評估,不作為整個關鍵階段教師跟蹤學生進步的依據。臨時框架并不包含所有國家課程的內容,而是重點強調評估的主要方面。
●學生達到框架中所列出的成就標準要能夠表現出更為廣泛的技能,而不局限于被評估的技能。
●臨時框架不作為指導個人學習、課堂教學實踐或方法的依據。
●教師必須依據每個學生在課程學習中的一系列表現證據做出評估。
科學學科期望標準包含“科學地工作”和科學內容兩部分,使用“學生能……”的形式列出了期望學生達到的標準。例如,以下是“科學地工作”的部分條目。
旅游者使用航空交通工具從出發點被帶到旅游目的地,這樣一來相關地區的旅游地區就會形成大量的客流源,在一定程度上帶動當前地區旅游業的發展。城市當中具有的機場的數量以及相關的規模也會對進入旅游地區的人數產生重要的影響,所以說航空業能夠有效地帶動旅游業的發展。航空也在無形之中帶動旅游業的發展,旅游業也在無形之中推進航空業的發展,兩者合作共贏,相互提高。
“科學地工作”:必須基于國家科學課程中的科學內容進行教學。學生要能:
●描述和評估自己和別人的科學概念,這些概念與國家課程中的主題相關;通過多種途徑使用證據。
●基于正在學習的科學現象提出問題,選擇合適的方法,制定計劃來嘗試回答這些問題或來自別人的問題,能辨認并控制變量,包括觀察不同時期的變化,注意模式、分類、分組,進行對比、設計合理的測驗,使用大量的二手信息資源嘗試找到答案。
在評價過程中,教師必須有證據來說明學生達到了所要求的期望標準。對于有生理缺陷或其他學習障礙的學生,可以使用其他類似的交流與學習方法進行評估,所以在評估之前,要將學生分為兩類,一類是要達到期望標準的學生,一類是不需要達到期望標準的學生。如對于由于生理缺陷導致無法完成所要求內容的學生,可以在評估時給予特殊考慮,對于無法寫作的學生不需要進行動手寫作方面的評估[6]。
表5是教師主導評估的一個指導樣例,題目為“我們是怎樣看見東西的”。

表5 教師主導評估樣例
根據這一指導,教師可以在日常的學習過程中讓學生畫出“人眼看到花”的光傳播路徑,并解釋為什么。這一過程可以用作業的形式完成,也可以用實驗報告的形式完成,還可以通過課堂口頭回答的形式進行。教師必須要有相應的記錄或材料作為證明,來說明該生是否達到了這一內容目標。
通過復雜情境或情境化試題來評估學生的學業或素養成為國內外研究的共識。然而,設計怎樣的試題情境才能實現學業整合,這依然是學業測評面臨的一個挑戰。本研究對試題情境的界定借用了易克薩維耶·羅日葉提出的“問題情境”。羅日葉認為,問題情境是針對某個既定任務,要求一個或一群學生聯結起來的一組背景化的信息,由情境和問題兩部分構成,情境所帶來的是一個主體和一個背景,而問題則主要指對應的一個障礙、一個有待完成的任務[7]?;谶@一界定,本研究對NCA-S測評試題情境進行分析。
根據表4,2016年的測評共有15套試卷,本研究只選取物理、化學和生物試卷各一套。而NCA-S試題以“試題單元”的形式設置,因此三套試卷共有14個試題單元59道小題。

表6 試題分析框架
該框架包括辨別參數、內容參數和裝扮參數三個維度。所謂辨別參數指可以從外部特征認同這個情境屬于某類情境的因素,不需要考慮情境內部的描述參數,如試題情境范圍、所屬學科領域等;所謂內容參數指從情境設計的目標劃分,希望學生通過該情境調動哪些領域的知識、發展哪些能力、是否涉及公式計算等;所謂裝扮參數指經過裝扮的、給予學習引導或提供幫助或設置障礙的相關參數,只包括“情境的圖形式呈現”,即以怎樣的形式呈現試題[8]。
為了保證分析過程的客觀性,本研究首先對試題進行翻譯和編號,然后對參與分析的2名研究生進行培訓,并使用3道題目進行練習,最后與筆者一起進行正式分析。
1.辨別參數分析
辨別參數包括六個條目,分別是情境范圍、情境主題、所致力于發展的學生型面、涉及的學科領域、期待的作業和情境的開放等級。從情境范圍來看,試題情境基本在學科和個人生活范圍,不涉及區域或全球問題。從情境主題來看,個別試題涉及科學史,但以學校學習內容和日常生活主題為主 (如圖1)。在學校內容和日常生活相關的主題中,有部分試題具有明顯的探究過程,致力于培養一個學科內部或日常生活中的科學探索者。例如以兩個同學探究鞋底的“抓地力”直接進入問題或者給出已有的材料進行探究等,所體現的是對具體知識的理解和運用具體知識解決問題的能力。雖然物理、化學和生物卷分別獨立呈現試題,但從試題解答所需的知識來看,仍然有一定數量的試題需要學生調動兩個學科的知識才能解答,如圖2,涉及多學科領域的試題占29%。

圖1 NCA情境主題
從期待的作業類型來看,包括選擇答案、提供解釋、歸納總結描述、解決一個問題、繪制圖表、設計一個方案或方案的一部分、選擇并做出解釋等。從圖3可以看出,“答案選擇”和“描述歸納”所占比例基本相當,都超過30%,提供解釋占25%,其余作業類型所占比例較少,其中繪制圖表包括完善條形圖和畫出受力示意圖??傮w來看,需要語言描述的試題較多,“描述歸納”與“提供解釋”就已經占到55%,但語言描述的篇幅一般都比較短。少量試題要求做出選擇并進行解釋。

圖2 NCA情境涉及的學科領域

圖3 NCA期待的作業類型
從試題的開放程度來看,開放性試題占有一定比例,如在“B種子傳播”中,在用扇子模擬了風讓種子傳播之后,要求學生提出自然界中在風的作用下傳播種子的案例;在“F流動的油”中,要求學生提出一個能保證實驗合理操作的方法,實際上主要針對控制變量,但由于需要控制的變量比較多,所以答案并不唯一。
2.內容參數分析
從內容參數來看,對知識內容的考查主要以評估方案中列出的內容標準為依據,每道試題評估對應的條目都有明確的說明。在能力的評估方面,個別試題的考查目標直接針對科學探究條目,很多試題都只評估科學探究的某一要素。由于沒有總背景,只是圍繞一個主題或事物設計問題,所以各小題可能在背景方面有較大差異,部分小題內部可能有一個背景,或者幾個小題共同圍繞一個背景,這就使得部分問題的解決需要依賴前面的作答,從分析結果來看,有四個試題單元中的部分小題需要依次作答,問題之間并不明顯獨立。從問題與背景的相關性來看(如圖4),75%的問題與背景高度相關;從問題與具體知識的相關性來看(如圖5),63%的問題與具體知識高度相關。說明多數試題情境提供了相應的已知條件,少數背景只是提供一個環境,與試題作答無關,約有37%的試題考查科學探究能力,不需要學生直接回憶所學的具體內容進行解答,如從表格中獲取信息歸納結論、描述因果關系等。試題幾乎不涉及具體的科學公式計算或數學計算。

圖4 NCA問題與背景的相關性

圖5 NCA問題與具體知識的相關性
3.裝扮參數分析
如圖6,從“情境的圖形式呈現”來看,既有只以文字或圖片呈現的試題,也有文字、圖片、表格混合呈現的試題。從所占比例來看,單獨以文字形式呈現的試題和“文字+圖片”形式呈現的試題最多,都占到35%以上,“文字+圖表”和“文字+圖片+圖表”的形式也占有一定比例。

圖6 NCA情境圖形式呈現
根據分析可以看出,英國NCA-S測評框架與試題情境設計具有明顯的特點,能夠為我國構建科學學業測評框架和命制試題提供一定的借鑒,但也有一些問題需要我們討論與反思。
1.將內容領域與認知領域結合構建紙筆測評框架,內容領域表述具體要測評的知識內容,包括科學探究要素;認知領域根據操作或概念的組成部分的復雜度及其之間的關聯分為“知識與理解”、“應用與分析”和“綜合與評估”三個層次。
2.測評內容詳細列出了要測評的知識內容和能力,并列出了無法通過紙筆測驗進行測評的知識與能力,且說明了無法或不能完全測評的原因。
3.評價方式將紙筆測驗和教師主導評估結合。紙筆測驗的試題按生物、化學、物理在三種試卷上呈現,試題以“試題單元”的形式設置;教師主導評估作為一種過程性評價和表現性評價,很好地彌補了紙筆測驗的不足,可以將科學實踐等紙筆測驗無法測評的內容納入范圍。
4.試題情境設計范圍基本局限在學科和個人生活范圍,不涉及區域或全球問題;情境主題以學校和學生日常生活中的事件或事物為主,關注日常生活;文字描述類試題較多;試題多以文字、圖片和表格結合的方式呈現。
5.科學探究能力包含計劃、實施、測量、記錄、結論、報告六部分,每部分作為單獨技能與知識領域整合考查;對科學探究能力的綜合考查主要通過教師主導評估進行。
6.將特殊學生納入科學學業測評的范圍,但又不需要全部都達到期望標準;測評管理和試題設置盡力滿足特殊學生的需求。
1.如何理解NCA-S測評框架的取向?
NCA-S依據國家科學課程標準,將內容領域與認知領域結合構建測評框架,這與國內通常采用的“雙向細目表”基本類似,一個維度規定考試涉及的學科知識或技能,即內容領域;另一個維度描述知識或技能的掌握水平,即認知領域。這種測評框架主要依據布盧姆的教育目標分類學構建,在國內應用廣泛。有研究指出,這種測評框架指向的是一種以學科知識點為綱、以知識點掌握水平為質量水平的學業質量觀。這一質量觀過于關注學生在知識點上的認知,缺乏對事物或現象的整體認識和思考,缺少知識整合和綜合運用[9]。然而,作為實施素養取向教育的國家之一,英國早在1999年就提出了6大關鍵技能①1999年,英國資格與課程局提出了六大關鍵技能(key skill),國內也譯為“核心素養”,分別是:交流、數字應用(Application of number)、信息技術(ICT)和與人合作(Working with others)、問題解決和提升自己的學習和表現(Improving own learning and performance)。,為何在2016年的科學學業評估中卻采用知識取向的測評框架?有研究指出,由于英國2007版國家課程標準的缺陷和學生學業成就下滑、教育不公平現象加劇等一系列現實問題,英國2013年版的新課程出現了較為明顯的“知識轉向”,在課程內容的選擇上,從強調技能導向轉向強調知識導向;在課程知識的組織上,從強調跨學科知識轉向強調學科知識;在課程學習評價的設計上,從強調知識分層轉向強調知識標準[10]。由此來看,英國新課程的“知識轉向”正是這種測評框架出現的原因。
實際上,分析2007年英國科學課程目標可以發現,除知識主題外,還包括科學思維、科學的應用及其意義、文化理解、合作四個關鍵概念和實踐與探究技能、批判地理解證據、交流三個關鍵技能,而2013年的科學課程目標以一個統一的主題“科學地工作”包含了關鍵概念和關鍵過程,將科學知識也整合為物理、化學和生物三大學科板塊,確實出現了所謂的“知識轉向”。當前,在我國大力提倡基于核心素養的課程構建與學業測評背景下,英國國家課程的這一轉向及其學業測評框架的知識取向值得我們進一步研究和反思。
2.如何理解NCA-S試題設計的特點?
首先,從NCA-S試題呈現的形式來看,以“試題單元”的形式呈現題目,可以根據情境對相關內容進行深入考查,也可以考查多個領域,更有利于評估學生對知識的深度理解情況或整合使用能力,這比只含獨立問題的選擇或填空題更適宜于評估學生的科學學業;但NCA-S將物理、化學和生物內容分別在三張獨立的試卷上呈現,這似乎又不利于科學知識的進一步整合。其次,從情境范圍來看,基本局限在學科和個人生活范圍,不涉及區域或全球問題,這可能與小學生的生活范圍有關,但從發展學生STSE意識的角度來看,這樣的情境范圍有很大的局限性。最后,從問題與背景和知識的關系來看,多數問題需要學生在回顧已學具體知識的基礎上進行作答,少量試題的背景描述與試題作答無關,只是提供一種“引子”或創設一種“情境”。根據當前對核心素養目標下試題設計的研究,試題要關注情境設計、學科內容的整合與關聯。英國NCA-S測評試題是在其知識取向測評框架下設計的,需要我們在借鑒時有所取舍。
總體來看,英國NCA-S測評框架和試題設計能為我國科學教育質量監測提供一些借鑒,如針對紙筆測驗的局限性,在測評指導方案中羅列出無法通過紙筆測驗實現的目標并鼓勵教師在教學過程中進行評價,將終結性評價與過程性評價結合;以“試題單元”的形式呈現試題,試題背景關注學生的日常生活;將特殊學生納入評價范圍,并給予特殊照顧等。但其測評框架和試題設計需要我們采用批判的眼光客觀審視與理解,同時不斷反思我國科學學業測評的方向。