朱晨菲 孫 浩 鮑建生
(華東師范大學數學科學學院 200241)
近年來,數學問題解決一直是國際測試項目中最重要的命題趨向,我國國家和省級學業水平測試中這類試題也在逐步加入.關于問題解決能力的評價,各類國際測試項目大多是通過同時對解答結果正確程度的判斷和解答過程涉及能力成分的評價來進行綜合評估[1].隨著我國《普通高中數學課程標準(2017年版)》(下稱“《標準》”)的頒布,數學學科核心素養的內涵和水平體系被確定.《標準》同時指出,“要開發合理的評價工具,將知識技能的掌握與數學學科核心素養的達成有機結合”并以案例的形式表明了核心素養在問題解決中的可測性[2].所以,建立指向數學核心素養測評并兼顧雙基達成的問題解決評價方案是當前的重要任務.
本研究中的問題解決特指個體學生在某一較短時間內展開的、需連續完成的、不參考其他資料的問題解決.這類試題的評價方案通常同時包括對題目本身特征的編碼方法和對學生解答的評價方法.
在大規模測試中,題目特征的編碼由對題目本身特征的客觀標記和經專家確定的標記組成.客觀特征的標記便于將題目恰當放入題庫的對應位置及快速提取;專家確定的標記便于將學生的解答水平與專家確定的期望水平對照.對于指定年級的題目,PISA2012標記的維度最多,包括:作答方式、考查形式、內容、認知過程、情境、期望難度六個[3];TIMSS2015標記了上述的第二至四項[4];NAEP2015則標記了后四項[5].值得一提的是,三項測試在認知過程上的分類差異較大,PISA2012分為數學化、應用、闡釋;TIMSS2015分為知道、應用和推理,并在各類別中又進行了層次由低到高的若干二級分類;NAEP2015則分為了概念理解、操作性知識、問題解決三類.
2.2.1分析方式
評價學生的解答之前需要規定對解答的分析方式,從不同項目的操作過程來看,主要有三種類型:作為常規解答題最常見評價方式的分步計分法易于操作且不容易產生評分者偏差.但因過于強調各結論出現的順序性和完整性,從而忽略了解答策略的差異性和思維過程的曲折性.等級描述法[6]的本質是質性評價,它將可能產生的解答分為若干水平并描述各水平的表現特征再將學生解答匹配至最接近的水平.這樣做改變了單一的量化模式,彰顯了不同解答的內在意義和思維層次,但常會因描述的不夠清晰而影響評分者的判斷.維度分析法目前使用廣泛,尤其是在開放性問題解決上.它先將正確解答劃分為若干維度,再由專家評定各維度權重并設計得分量表,繼而給學生的解答評分[7].該方法既評價了解答本身也挖掘了背后的思維意義,但由于依賴于專家的認知進行規定,常遭到不夠客觀的批評.
2.2.2評價維度
在近年來的大規模測試中,有的項目通過依次評價學生對所有題目的解答來判別問題解決能力的總體水平,有的僅評估學生對于單個題目的解答表現.
(1)總體評價型
這種類型的操作方式是將學生的解答按正確程度和達到的能力水平逐題評分,得出解答總分后確定個體問題解決能力的綜合水平.各類測試中能力水平的劃分有所區別:PISA2012劃分為溝通、表征、數學化、推理和論證、分析和解決問題、使用數學語言并運算、使用數學工具七類[8];TIMSS2015劃分為知道、應用、推理三類[9];NAEP2015則是推理、聯結、交流[5].由上可知,這幾項測試都認為問題解決能力的高低與特定問題中所涉及能力的表現水平有關.換句話說,它們都有兩個基本假設:其一,在特定問題的解決過程中,學生能夠表現出能力成分的不同水平;其二,由若干能力的表現水平可以建構出學生整體的問題解決能力.
(2)單題評價型
這類評價的目的是按不同維度對學生單題的解答情況進行全面洞察,力求盡可能多地挖掘關于解答的結果和過程的意義.從維度劃分上說,QUASAR用數學內容、認知過程和表征類型三個維度將解答進行劃分[10];KOM重點關注解答過程使用通用能力的覆蓋度、行動半徑和技術水平[11];匈菲爾德著重用策略的使用頻率與數目、程度、成功度來刻畫評價解答過程中的思維傾向及程度[10].從水平劃分的依據來說,除匈菲爾德關于數量多少的編碼是量化的以外,其他的都是將解答與質性描述相匹配.
2.2.3編碼方法
隨著對評價研究的深入,在對學生解答的記錄上,近年來的大規模測試通常采用雙位編碼制[12].雙位編碼的首位數字一般是對解答正確性的判斷,有時還包括對思維傾向或能力層次的判斷,這個編碼可以直接代表得分也可以后期轉化為得分.次位的診斷性編碼是對學生解答方法或錯誤類型的標記,不用于計分,而是用于確定解答過程的特征以便進行分析與比較.這種編碼方法力求全面刻畫解答特征的理念,為精準評價問題解決的過程帶來了革新,擴展了評價的功能,部分地實現了過程性評價.但是,它也存在著一些力所不能及.其一,“雙位”仍不足以區分某些本質不同的解答情形.比如,00常被用于表示所有未被具體編碼的答案,既適用于完全錯誤的答案,也適用于方法正確但計算完全錯誤的情況,還用于標識學生寫下“這道題太難了”等的情況.其二,“雙位”無法獨立定位能力的不同水平.盡管在維度中有對于能力及其層次的劃分,但編碼時由于數位限制卻只能將之與解答的正確程度并行考慮.其三,“雙位”不能評估具有同樣正確程度但使用不同思維層次解題策略的解答.綜上,盡管雙位編碼制的確是評價研究上的進步,但是仍可以基于其理念進一步擴展其實施方法.
基于以上論述,在汲取了已有方案的可取之處、舍棄了其中的不完善方面后,嘗試規避日常評價中的若干問題,考慮到可操作性與評價效率,結合《標準》的要求與案例,設計了指向于數學核心素養測評的評價方案.接著,開展了多次的小范圍實驗,在梳理實驗結果并聽取多位專家意見后對初期方案進行了修正,得到了如下的方案:

表1 題目特征的編碼框架
本部分的編碼方案分為客觀編碼與專家編碼.客觀編碼共分為四位,只需要識別題目包含內容的大致領域和問題的可能取向就能夠進行劃分,各位次的不同數字只表示不同類別.這部分編碼的意義在于對題目進行定位和歸類,即:一是通過讀取此編碼就可以了解題目的基本特征;二是將題目按此編碼后放入試題庫的恰當位置,當需要某類題目時就能快速提取;三是可以對編碼相同的題目進行聚類研究.
專家編碼需要學科專業研究和評價人員在對與思維層次有關理論和對《標準》中核心素養體系理解的基礎上,結合對不同解答方法的把握來給出本題關于方法表現和素養表現的描述.具體地,方法水平需要專家針對每個題目綜合考慮不同因素具體地描述三個水平在本題的表現并給出期望水平;各素養的水平參照《標準》中的描述,專家只需給出本題的期望水平及對應理由.另外,因對素養的考查本質上不是一個量化研究,因此四個權重等級的劃分不具有嚴格的數學意義,而是對涉及程度多少的等級描述,可理解為“全部、較多、一般、較少”.專家編碼除了與客觀編碼一樣具備定位和歸類的功能以外,主要指向學生問題解決的過程性評價.因為學生的解答可視作是由各能力成分綜合而得的外顯性表現,故通過對過程中相關能力成分的分析來尋找影響學生問題解決能力的潛在因素是可行的.在上文中,曾得到這樣的基本假設:數學核心素養的高低影響著問題解決能力,方法水平的高低反映了問題解決能力,因此本方案需要專家確定的兩個維度是方法水平和素養水平.之所以沒有以建模階段為序來逐段評價,一是因為本研究中界定的問題解決不完全等同于數學建模;二是因為學生問題解決的過程不是線性的,依序模式忽視了思維的曲折性及元認知的作用,某階段所規定的某個指標可能因個體差異而在其他階段出現;三是依序模式無法對學習指導提供有針對性的導向,造成某階段表現不佳的因素可能有很多,不聚焦于某個因素將降低教學補償的有效性.

表2 學生解答的評價框架
注:“計分”中單題總分以10分計,其他總分按此比例換算.
本部分分為評分方法與診斷方法兩個類別.前者一方面用于評估學生解答的實際表現并計分;另一方面用于揭示學生解答過程中思維和素養的特征,從而有助于個體能力建模和群體能力聚類.后者采用雙位編碼制的理念標識解答方法的類型,不僅是對前者的補充,也是對同類題目解答特點的歸類,可供給進一步的研究分析和展開指向明確的學習指導.
評分方法在維度劃分上分為方法表現、素養表現、雙基表現三個部分,前兩項與題目特征編碼方法中專家編碼的兩個維度一致,水平中增加了“低于復制”和“低于水平一”是用于標識未達到最低水平的情形.雙基表現指對基礎知識和基本技能的表現,這一維度的加入是因為合理解答方案的獲得以對數學知識的正確理解為基礎,以技能的正確操作為保障.在方法表現水平與素養表現水平的確定上,以專家制定的等級描述為依據,通過學生實際表現與各水平描述的比較,找到最匹配的一項從而判定學生解答的水平.本方案中,對解答正確程度的考查分布在了方法表現與雙基表現兩個維度中:在方法表現中只考慮其所代表思考方案本身的正確程度,而將思考方案付諸實施時的實際成功程度屬于雙基表現的范疇.分離方法與雙基兩個成分對解答正確程度的影響,一方面是為了明確學生產生錯誤的原因從而使教學補償更為精準,另一方面是由于方法的正確程度比雙基的正確程度更能體現學生的問題解決能力,二者的分離使得能力高低的指示更為清晰.
當將評分編碼轉換為具體得分時,本方案力求使得所得總分的高低盡量能表明學生問題解決能力的高低.計分方法制定的原則有三條:其一,基于上文假設,學生的方法表現和素養表現比雙基表現更能夠測評學生的問題解決能力;其二,對于素養和方法的計分,需符合《標準》中案例的滿意原則和加分原則;其三,需考慮到不同素養在解答中的權重.于是,在分值的分配上就體現出三個特點:第一,前兩維度分值大于第三個維度;第二,按0、1、2、3分分別賦值給方法表現和素養表現中的四種情形;第三,對素養表現計分時,將權重量化計分.
某地規定未設電梯的多層既有住宅可增設電梯.在增設前,全體住戶需就增設電梯工程費用分攤方案達成書面協議.小明家所住樓房總共七層,每層兩戶,每戶都有人居住.
以下是一些相關信息:
(1)工程費用:除去政府補貼,增設一部電梯還需44萬元,此費用由住戶承擔.
(2)住戶差異:①低層住戶無需或較少使用電梯,且安裝電梯后會不同程度影響其生活;②同一樓層的兩套房屋中,一套90m2,一套60m2.
(3)房屋均價:①未安裝電梯時,該樓房均價3萬元/m2;②增設電梯后,房價會有升有降,但比相同情況下的非電梯房最多上升10%.
請選擇合適信息,結合可能存在的其他因素,為該樓房設計增設電梯工程費用分攤方案并闡述方案的合理性.
本題命題后經多位專業人員(教授、教研員、中考命題人、教師)修改并確定了采用上文所構建方案制定的本題評價方法,之后在南京市城市、農村各一所學校的初二年級實施了共計267個樣本的測試并評價了每份答卷.現將本題評價的實施方法呈現如下:
4.2.1題目特征的編碼方法

表3 案例中題目特征的編碼方法

續表
4.2.2學生解答的評價示例
以下通過幾則示例來部分地呈現對具體學生解答的評價方法及其實施.因診斷編碼只包含序號,故此處未呈現.
(1)示例一

表4 示例一的評價方法
(2)示例二

表5 示例二的評價方法

續表
(3)示例三

表6 示例三的評價方法
本方案指向于評價學生的問題解決能力,評價目標多元、評價方式多樣,既考查了素養水平,也診斷了思維層次,還分析了雙基能力、定位了方法類型,能夠實現對問題解決結果與過程的綜合評價,并力求借此評價個體學習者在以雙基能力為底部支撐、核心素養為中堅力量、思維能力為最高層次的數學能力體系中的不同表現水平.
本方案吸收了PISA、TIMSS等測試項目中對于數學能力、思維水平、問題解決能力之間關系的假設并有選擇地參考了它們在客觀編碼、方法水平方面的劃分,依據了《標準》中數學學科核心素養體系進行了素養水平的匹配,適當保留了傳統評分方法中的部分操作,基于雙位編碼制的理念分離了解題過程中方法層次與類型、素養水平、雙基能力三種成分對于獲取完善解答的影響并嘗試量化了這些影響.
上述基于方案的案例,一方面通過方法水平在個體題目中的描述和核心素養的測評應用于實際情境時的細化方式指示了本方案的具體操作方法,從而進一步闡釋了方案的合理性;另一方面用三個不同水平的評價示例展現了具體評價過程,由此說明了方案實施的可行性與公平閱卷的可能性.
本方案對不同群體都有意義,有利于達成教、學、評的一致性.對學生而言,此方案分析了影響學生問題解決因素的不同程度,承認他們思維的正確傾向以及閃光點,以一種積極的態度鼓勵學生學會在習得數學核心素養的過程中使用數學.對教師而言,此方案診斷了不同學生在不同能力類別及具體成分上的差異,能同時得到以學定教的依據和教學效果評價的證據.對研究者而言,此方案產生了大量可供研究的素材,從素養、思維、雙基的不同到期望水平與表現水平的差異再到方法使用的傾向性都可以由方案得到的結果比較差異、尋找證據、實施干預、評價效果.
盡管本方案嘗試將問題解決能力的評價全面化、具體化,也盡量注意了可操作性和實施效率,并規避了已有其他方式中的不完善、不便利之處,但仍然存在一些可能的改進之處.其一,題目特征的編碼稍顯冗長.盡管這既是出于對題目客觀特征和專家擬定標準進行明確標識的考慮,也是為了提高方案本身的科學性與完整性、計分的便捷性,還是簡化學生解答編碼的有效方式.但是,仍可以嘗試在保證上述三項優點的情況下尋找更合適的編碼方法.其二,目前的計分方式停留在將表現水平與專家標準進行匹配的情形,如果能夠實現基于期望水平與表現水平的差異來計分則能更明確地體現不同分數所代表的能力差別.其三,專家確定的能力描述和期望水平以及評分者的評分信度是方案實施的重要保障,因此在不同題目的評價過程中,需要盡量保證專家編碼的準確性并進行評分者培訓以減小評分者差異帶來的影響.