關丹丹,景春麗
?
新高考改革背景下不分文理的數學成績差異研究
關丹丹,景春麗
(教育部考試中心,北京 100084)
高考不分文理科是此次考試招生制度改革的一個重要舉措.選取Y省高考現有文理科考生的數學成績為研究樣本,將文理數學試卷中的共同題作為內錨,采用等值技術對比分析了Y省現有文科考生與理科考生的高考數學成績的差異,并對使用同一試卷的不同省份的文理差異程度進行了分析.研究發現:(1)理科考生群體的數學成績普遍且明顯高于文科考生群體.以Y省為例,基于共同題等值后,兩個考生群體的數學成績平均相差13分.(2)不同省的文理科考生群體在數學成績的差異上程度明顯不同,文理數學水平差距最大的省比文理差距最小的省在差異程度上又有12分之多.文理科數學成績差異及不同省差異程度的問題值得關注,為進一步落實高考數學文理不分科提供參考.
新高考;數學;文理差異
2014年9月,國務院頒布《關于深化考試招生制度改革的實施意見》,啟動高考綜合改革試點,確定了高考不分文理科的改革方向,考生總成績由統一高考的語文、數學、外語3個科目成績和高中學業水平考試3個科目(學生自選)成績組成[1].在中國,高考數學一直以來分為文科數學試卷和理科數學試卷,“考試大綱”和“考試說明”對文理科提出了不同要求[2-3].在考試內容范圍上也有不同,文科要少于理科22個知識點,且相同的知識點要求的層次也有所不同[4].因此長期以來,文科數學試卷總體上比理科數學試卷容易.中國臺灣地區現行的大學入學考試包括學科能力考試和指定科目考試,學科能力考試的數學科目一般考查學生對高一、高二課程中概念性知識、程序性知識的理解與掌握,以及基本數學能力的運用;指定科目考試的數學科目以進一步考查學生閱讀、表達、推理以及連結的能力為主,并為協助大學各校系選才,考慮學生未來修習各專業課程時所需的數學知識進行較具深度的考查.其指定科目考試中數學科目分為數學甲與數學乙,與大陸的理科數學和文科數學基本相對應.數學乙的題目計算量較少,整合性試題在比例上也較少;數學甲則較多整合數個概念的問題,計算量也較多[5].
如何落實高考數學不分文理科這一改革舉措,一方面要從國家課程標準和考試內容要求出發,如已有研究者對文理不分科的數學科考試內容進行了深入調查和研究,提出了合理的文理不分科的數學考試內容設計[6].另一方面也要考慮文理兩個考試群體的差異,對文理科學生的數學科水平總體差異以及兩個群體不同層次的考生差異進行比較研究,可以為改革后的高考數學科命題提供定量的參考資料,對于高考數學命題重構數學考試難度量表、精確區分考生至關重要.
現行高考文理科考生使用不同的試卷,在文科生和理科生的數學原始分數中,由于既有兩個群體考生能力的不同,又混有文理數學兩個試卷版本在內容和難度上的差異,因此不能直接比較用來描述文科生和理科生在數學水平上的差異.但隨著文理科數學試卷中共同題的出現,為基于等值技術量化文科生和理科生數學水平的差異提供了可能.該研究主要回答兩個問題:一是基于等值技術量化文科考生群體與理科考生群體在數學成績上的差異;二是探討全國不同省份現有文理兩個考生群體的數學成績差異是否程度上明顯不同?
等值(Equating)是一種在兩個或多個測驗版本的分數之間建立相互關系的過程,即將測量同一特質的不同測驗版本的分數置于同一尺度上,使得參加不同測驗版本的考生的分數可以直接相比[7].
通常而言,要么有同一批被試(或認為能力分布相等的兩批被試),要么有同一批測驗題目(稱為錨題或錨測驗),才能有實現兩個測驗版本等值的媒介.如果采用錨測驗設計,錨題可以放在兩個測驗版本的里面,也可以單獨成卷與原來兩個版本測驗分開施測.當錨題是兩個測驗的組成部分的時候,稱之為“內錨設計”;當錨題是兩個測驗之外的獨立部分的時候,稱之為“外錨設計”.錨測驗設計既不假設兩組被試來自同一總體,也不假設兩組被試具有同樣的能力水平,運用得很廣泛.因此,Von Davier等人(2004)又將其稱之為非等組錨測驗設計(Non-Equivalent groups with Anchor Test,NEAT)[8].當不同的測試版本施測于不同的考生樣本時,NEAT設計可以借助于錨測驗(即表中的A)的橋梁作用,將考生能力水平差異從測試版本(X和Y)差異中分離出來,因而成為如今最常用的等值設計.表1為非等組錨測驗設計表.

表1 非等組錨測驗設計表
若數學(文)和數學(理)有一部分題目是相同的,將共同題作為內錨,可將兩個考試群體在文理不同卷子上的得分轉換到同一量尺上.具體操作:將理科數學作為基準,以共同題為錨,將文科數學成績轉換到理科數學的量尺上.由于經過等值處理,等值后的文科數學成績相當于是文科學生做答理科數學試卷的成績,即兩個群體的成績在一個量尺上,可以直接比較.通過二者平均數的比較,可以量化文科生和理科生數學成績的差異;以總分為橫軸,比較等值后文科生成績和理科生成績的累積分布,可以直接看出兩個群體中不同層次考生的差異情況.
等值所用方法為核等值法(kernel equating)[8],名字中的kernel來自一種數據平滑算法核平滑(kernel smoothing).前面提到有了NEAT數據收集設計方案,還需要一種等值計算方法從上面收集到的數據中得到等值函數.核等值法被認為是一種綜合各種統計技巧、使線性等值和非線性等值統一在一個模型下,并提供對等值函數進行診斷的工具,無論是從理論上,還是美國教育考試服務中心(ETS)近些年在一些考試項目的實踐上,都表現出了極大的優越性.核等值法可以用5個步驟來描述:一是使用對數線性模型對非連續的觀察分數分布進行預平滑;二是在預平滑的基礎上估計分數概率;三是使用高斯核平滑法完成連續化的任務,將兩個間斷的分布轉換為兩個連續的和可微的分布;四是使用等百分位等值方法計算兩個連續分布的等值函數;五是估計等值標準誤(SEE)和兩種等值函數之間的差異的標準誤(SEED)[7-8].等值分析軟件為KE login3.1,其它數據處理與分析使用SPSS 20.0.
以使用全國III卷的Y省2016年高考數學數據為例,分析中所用數據刪除了總成績為零的數據,采用文理科共同題目作為錨題進行等值,將文科數學等到理科數學上.由于該省理科考生人數遠遠超過文科考生人數,共同題設計需要進行等值的樣本量不能差別太大,所以對理科數學采取隨機抽樣,抽取和文科數學考生樣本量大致相同的樣本.參與等值計算的理科考生共67?996人,文科考生共69?341人.該省理科總人數為123?537人,總成績平均分為74.31,標準差為21.03;抽樣平均分為74.44,標準差為21.05,說明理科考生抽樣隨機,能很好的代表總體.
Y省文科和理科數學試卷共同題情況:7個選擇題,2個必考計算題,1個選考題.滿分69分.文中選擇選考題均為23題的人參與等值計算.具體分析數據如表2和圖1~4所示.
研究發現:(1)該省文科數學與理科數學原始分數相差7分,等值后兩個群體數學成績的平均分差異約為13分;(2)從表2和圖3可以看出在中等及偏下水平的考生(第一分位數、第二分位數之間)中文科數學與理科數學的差異最大,兩個群體數學水平的差異在16分左右.
另外,由于Y省文理科考生的水平均比較低,高分段考生人數較少,一方面導致高分段等值的標準誤較大(見圖2),另一方面可能會低估文理兩個群體的實際差異.
研究中Y省文理科學生數學水平存在明顯差異,平均相差13分,中等層次考生相差16分之多.任子朝等(2015)采用錨卷等值的方法發現另外某省文科考生低于理科考生約24分,且總體上成績排名中上的文理科考生成績差異最大[9].是否不同省文理科成績差異不同呢?

表2 等值前后文理科考生數學成績的基本描述統計

圖1 等值關系

圖2 等值標準誤

圖3 文理科數學成績累積分布

圖4 文理科數學成績密度
圖5為使用全國I卷的各省2016年文理科數學平均分比較.

圖5 全國I卷不同省高考理科數學與文科數學平均分差異
對于使用全國I卷的各省而言,理科數學原始分比文科數學原始分平均約高出29分,A省差異最大約為35分,D省差異最小約為23分.盡管圖5中文科數學和理科數學使用的是不同卷種,直接比較既有試卷難度造成的差異,也有文理考生兩個群體能力上的差異,但由于這些省使用的都是同一套文科試卷和同一套理科試卷,即可以假定試卷難度造成的文理分數差異在各省是一致的,因此可以認為不同省之間文理數學平均分差異的差異,直接反映了不同的省文理差距程度不同,如A省文理兩個群體的考生水平差別最大,而D省文理兩個群體的考生水平差別最小,A省數學文理差異程度顯然要比D省文理差異大出12分之多.由于A和D兩省都是使用全國I卷,如果對文理數學試卷進行等值處理,這兩個省的文理數學成績轉換的等值函數理論上是相同的,也就意味著,經過等值處理后,A省數學文理差異程度理論上仍然是要比D省文理差異大出12分之多.即可以認為使用I卷的不同省文理兩個群體的數學水平差距的程度明顯不同.
同理,對于使用全國II卷的各省而言,理科數學比文科數學平均約高出14分,L省差異最大約為19分,R省差異最小約為7分.對于同樣使用全國II卷文科數學和理科數學的各省而言,可以認為L省文理兩個群體的考生水平差別最大,而R省文理兩個群體的考生水平差別最小,L省數學文理差異程度要比R省文理差異大出12分之多.也即意味著,經過等值處理后,L省數學文理差異程度理論上仍然是要比R省文理差異大出12分之多.即可以認為,使用II卷的不同省文理兩個群體的數學水平差距的程度明顯不同.

圖6 全國II卷不同省高考理科數學與文科數學平均分差異
另外,文科數學卷是比理科數學卷容易的,研究一基于等值技術已經證實等值后文科考生的數學成績平均下降6分.結合以上比較,也就是說雖然研究二只是用原始分比較了使用全國I卷、II卷的各省文理科考生水平的差異,但可以斷定,如果使用等值技術處理后,兩者差異將會更大.
綜上,可以得出結論:(1)理科考生群體的數學成績普遍且明顯高于文科考生群體;以Y省為例,基于共同題等值后,兩個考生群體的數學成績平均相差13分.(2)使用同一試卷的不同省的文理科考生群體在數學成績的差異上程度不同,文理數學水平差距最大的省比文理數學水平差距最小的省在差異程度上有12分之多.
文理兩個考生群體數學成績差異之大,且各地差異程度又有所不同,這就對高考數學命題、特別是多省使用同一套試卷的統一命題提出了更高的挑戰.高考數學科目如何落實文理不分,怎樣才能更好的區分不同層次的考生呢?
一種思路:文理不分,提供同一份試卷.首先要回答考試范圍怎么確定,以及考試難度怎么確定.根據對試點省市350名中學數學教師的調查顯示,71.03%贊同新高考數學的考試范圍按照老高考對文、理科數學的要求折中選取;69.82%贊同新高考數學試卷的難度按照老高考數學文、理科試卷的難度折中確定.實踐中,試點省市在新高考數學試卷難度編排上創造性地采用文科頭理科尾的做法,調查顯示,65%的中學教師認為能區分不同層次的考生.可見,即使文理同用一張試卷,命題專家們通過對高考命題進行改革,創新題型設計,優化試卷結構,也是能夠做到精確區分考生,為高校選拔新生提供有效的數學成績;甚至還能促進中學生數學水平的全面提高[9].
另一種思路:文理不分,提供難度不同的多份試卷.考慮到數學水平文理差距如此之大,各省差別又各有不同,全國統考多省共用一份試卷,操作難度極其大,是否可以文理不分,但按難度分層提供多份試卷呢?以同在改革進程中的英國GCSE(General Certificate of Secondary Education,中等教育普通資格,相當于高中學業水平考試)和A-level考試(相當于高考)為例,改革前一直堅持分層模式(原來部分課程提供基礎和高級兩種試卷,個別科目提供基礎、中等和高級3種試卷),此次改革方向是盡量使所有學生都參加同一套試卷.但他們也認為個別學科中同一張試卷無法對所有學生進行有效評價,因此新方案中數學考試繼續采取分層試卷[10].可見就考生群體而言,數學水平參差不齊是各國學生的普遍情況.無獨有偶,中國臺灣地區在其“大學招考2021長程規劃”中也提出計劃將學科能力考試中的數學科目由現行的只有一張試卷改為AB版,以提升對考生數學成績評價的科學性.另一方面,就不同院校和專業對數學的要求而言,也是不同的.因此,中國研究生數學考試從專業差異出發將數學分為數學一、數學二、數學三等多種試卷,當然這些試卷除了難度上的差異之外,在考試內容、考點結構上也有差別.如果采取難度分層的方式對學生進行考核(如試卷分為難度1、難度2、難度3等水平卷),高校招生根據專業要求和人才培養需要選定不同難度水平的試卷,是否更為合適?根據對試點省市的調查顯示,八成教師贊同新高考數學試卷采取難度分層方式,認同占比分別為上海83.08%、浙江81.55%.
如果新高考數學實施難度分層考試:(1)于考生,進一步增加了學生的選擇性.(2)于教學,有了分層考試,自然就有分層教學,不僅更利于因材施教,也可以很好地解決試點省市教師普遍反映“理科吃不飽,文科消化不了”的現象.(3)于考試,試題的難度與考生的水平越契合越有利于區分考生,給不同水平的考生提供不同難度層次的試卷更有助于提升考試的科學性與公平性.(4)于招生,目前高校針對試點省市普遍開展大類招生,高校若按照大類提出對考生數學層次的要求也符合人才培養需要.
總而言之,文理兩個考生群體的數學差異是普遍存在的,且在不同省表現出了不同程度的差異.高考數學如何在確保考試科學與公平的基礎上,更好地落實不分文理這一改革舉措,需要進一步研究,也值得進一步研究.
[1] 國務院.國務院關于深化招生考試制度改革的實施意見[EB/OL].(2014-09-04)[2017-10-27].http://www.gov.cn/ zhengce/content/2014-09/04/content_9065.htm.
[2] 教育部考試中心.普通高等學校招生全面統一考試大綱(課程標準實驗版)(2010年版)[M].北京:高等教育出版社,2009:9-30.
[3] 教育部考試中心.普通高等學校招生全面統一考試大綱的說明(課程標準實驗版)(2010年版)[M].北京:高等教育出版社,2009:35-53.
[4] 任子朝.高考數學科考核目標研究[J].數學通報,2013,52(7):1-7.
[5] 郝保國.臺灣大學入學考試數學試題述評[J].數學通報,2017,56(2):56-61.
[6] 任子朝,陳昂.高考文理不分科后數學科考試內容改革研究[J].數學通報,2015,54(6):1-4.
[7] KOLEN M J, BRENNAN R L. Test equating, scaling, and linking: methods and practices [M]. 3th ed.New York, NY: Springer, 2014: 1-27, 89-93.
[8] DAVIER V A A, HOLLAND P W, THAYER D T. The kernel method of test equating [M]. New York, NY: Springer, 2004: 19-86.
[9] 任子朝.高中文理科學生數學水平比較研究[J].課程·教材·教法,2015,35(6):62-67,121.
[10] OFQUAL. Consultation on setting the grade standards of new GCSEs in England [EB/OL]. (2017-07-01) [2017-10-27]. https://www.gov.uk/government/consultations/setting-the-grade-standards-of-new-gcses-in-england.
A Comparative Study of Mathematics Scores between Liberal Arts and Science Major Students in the New College Entrance Examination Reform
GUAN Dan-dan, JING Chun-li
(National Education Examinations Authority, Beijing 100084, China)
The decision to eliminate the distinction between arts stream and science stream was an important measure in the new College entrance examination reform. The present article selected candidates from province Y who participated the mathematics test in 2016 college entrance examination. The differences in mathematics scores were analyzed between liberal arts and science major students by the equivalent technology using common items, as well as the degree of difference between two candidates groups in different provinces were compared. Conclusions were as follows: (1) In general, science major students had significantly outperformed liberal arts major students in mathematics. In province Y, for example, the average difference of the two candidates’ scores was 13 points. (2) The variance of mathematics scores gap between liberal arts and science major students in different provinces was large, the largest gap between two candidates groups from one province was 12 points larger than the smallest gap from another province. Attention should be paid to the difference between two candidates groups and the difference among different provinces, suggestions for putting forward the mathematics reform in the new college entrance examination were also discussed.
new college entrance examination; mathematics; the difference between liberal arts and science major students
[責任編校:周學智]
2018–03–08
2017年國家社會科學基金教育學重點課題——新高考制度實施及動態調整研究(AFA170006)
關丹丹(1980—),女,黑龍江黑河人,副研究員,主要從事教育考試與評價研究.
G632
A
1004–9894(2018)04–0031–04
關丹丹,景春麗.新高考改革背景下不分文理的數學成績差異研究[J].數學教育學報,2018,27(4):31-34.