張麗強



編者按
2018年11月,浙江省因英語高考分數(shù)調整而引發(fā)了一場不小的風波。現(xiàn)在風波雖已平靜,但結果卻讓人唏噓不已。原本是為了維護廣大考生的合法利益,卻因為操作流程問題引發(fā)了考生和家長質疑。因此,唏噓之余,我們清醒地意識到,我們有責任、有義務為教育行政管理者、老師、學生以及家長普及考試科學化的知識,有必要用淺顯易懂的語言將有關教育評估和考試科學化的知識細致、清晰地呈現(xiàn)在大家面前。為此,2019年,我刊新增了“督導與評估”專欄,并邀請在心理學與教育測量學方面有較大影響的北京語言大學語言科學院教育測量研究所的專家學者為我們提供專業(yè)指導,同時也將先行者的經(jīng)驗、做法、思考介紹給廣大讀者,以期為普及教育評價乃至考試科學化知識、促進考試科學化水平的提高盡一份綿薄之力。此系列文章語言雖力求淺顯易懂,但由于專業(yè)性較強,還是需要廣大讀者朋友們花一些時間去慢慢研讀、靜心思考,若能潛心閱讀,讀者必將受益匪淺。
2018年12月5日,隨著浙江省公布2018年11月高考英語科目加權賦分情況的調查結果,有關責任人被免職、處分,這次考試的加權賦分被取消,原始得分恢復。關于浙江省高考英語分數(shù)調整的風波似已塵埃落定,但掩卷沉思,其中引發(fā)的問題卻不容忽略。
這場風波表面上看是由分數(shù)調整引起,其中卻涉及了預估難度與實測難度、分數(shù)調整和等值、考試的公平性和科學性等諸多問題。這也啟示我們,對于涉及考生切身利益的高考改革一定要科學論證,謹慎行事,同時也要做好教育測量學理論與知識的科普工作,否則就極有可能前功盡棄、重蹈覆轍。
一、預估難度與實測難度
從媒體披露的信息來看,這次風波的起因是英語科目的部分試題偏難,考生的得分和整體的平均分偏低。也就是說,通過實測的檢驗,英語部分試題的難度預估出現(xiàn)了較大偏差。為了彌補偏差,考試機構采用了加權賦分的方式對這部分試題的難度進行了調整。
眾所周知,難度是評價試題質量的重要指標,通常以計算考生的通過率來得出。通俗地講,考生答對的題目多,說明考試簡單;考生答對的少,說明考試難。難度決定了考生得分的多少,決定了考試分數(shù)的分布,對實現(xiàn)考試評價與選拔的功能起到至關重要的作用。
難度在實際應用和研究中又細分為預估難度和實測難度。預估難度是在考前的命題階段由專家或計算機結合試題內容,通過構建標準常模,進行合理地推測、估計而得到的試題難度。預估難度常用的方法有主觀評判法和配對比較法等。主觀評判法是指專家根據(jù)個人的經(jīng)驗、觀點,直接對題目的難易程度作出主觀的判斷,這是一種比較傳統(tǒng)的難度預估法。配對比較法是指專家只需要對試題逐個進行難度比較,然后使用改良的IRT 模型分析試題配對比較的數(shù)據(jù),最后便可計算出每道題的IRT參數(shù),這是一種比較新穎的難度預估法。對于高考這類高利害考試來說,為了保密,事先無法進行預測,即使采用小規(guī)模的考前試做也可能出現(xiàn)失密或估計偏差。因此,考試機構通常會采用難度預估的方式,估計試卷的難度或盡量平衡同一測試的不同測驗版本的難度。但這種方式有一定的缺陷和風險,無論是專家的經(jīng)驗估計還是模型的推演,終究還屬于經(jīng)驗型的主觀判斷。專家的專業(yè)背景、教學經(jīng)驗以及對學生學習狀況的熟悉程度等因素都可能使預估的結果出現(xiàn)偏差。
實測難度是在考后得到的考生樣本的統(tǒng)計值,它也會隨著統(tǒng)計樣本選取的不同而有所變化。如果題目過易,考生的得分普遍會高,標準差會小,分數(shù)分布會集中或偏態(tài),容易形成天花板效應,考試的區(qū)分度會減低;如果題目太難,考生的得分普遍會低,標準差也會小,分數(shù)分布也會集中或偏態(tài),容易形成地板效應,考試的區(qū)分度也會減低,同樣也會對分數(shù)線的劃定和考試的錄用帶來困難。
提高預估難度的準確性是考試界的難題。除上述兩種主觀預估方法外,研究者們還提出通過計算機提取題目的特征值來建立估計模型,如通過多元回歸分析模型與人工神經(jīng)網(wǎng)絡模型等來預測試題難度。雖然這些研究也取得了可喜的進步,但從離考試的實際需求來說依然有不小的距離。就目前的技術水平來看,無論采用哪種方法,預估難度只能將誤差減小,并不能消除誤差。也就是說,即使浙江考試機構汲取了這次命題的經(jīng)驗教訓,或許命題的質量會提高,難度預估比今年更準,但如果難度預估的方法沒有得到根本性的改變,難度估不準、出現(xiàn)偏差的風險就依然存在。這是難度預估方法自身的局限,不會被人們的意志和愿望所左右。對此,人們必須有清醒的認識。
二、分數(shù)調整和等值
難度預估一旦出現(xiàn)偏差應該怎么辦?業(yè)界通常的做法是對分數(shù)進行調整。分數(shù)調整是在考試結束后,通過對比前后兩次測驗的難度,對分數(shù)進行干預的做法。事實上,這是測量界的慣例,只是人們不熟悉罷了。為了彌補難度預估帶來的偏差,同時也是為了維護考試的公平性,測量界一般會通過分數(shù)調整的方式來縮小誤差。其中,加權賦分就是一種分數(shù)調整的方法,此外,還有預測、量表化、等值等。
實行多次考試,首先要解決的就是不同次考試的分數(shù)可比性問題,這也是實現(xiàn)英語一年兩考,成績兩年有效的前提。為此就要進行不同次考試間的分數(shù)等值。等值可以理解為將測驗不同版本的分數(shù)統(tǒng)一在一個量表上的過程。從等值的本質上來看,其實就是把不同平行測驗的分數(shù)放到同一量表上,使分數(shù)能夠進行比較。當然,并不是所有的測驗分數(shù)之間都可以進行等值,只有滿足等值的前提條件,才可以進行等值。我們可以把一個合理的、有效的等值處理需要滿足的條件概括為:被等值的兩份試卷具有測量相同的構念、相似的信度、分數(shù)的轉換具有對稱性、分數(shù)具有等價性、跨樣本一致性這五個基本條件。
被等值的兩份試卷測量相同的構念,指的是兩個測驗必須是測量相同的心理特質或特質領域。對測試完全不同的心理特質的測驗進行等值是沒有意義的。比如,體育成績和數(shù)學成績之間是不同性質的分數(shù),二者不具有可比性,因而對其進行等值是沒有意義的。理解測驗信度相似,首先要明確信度的含義。信度是指測驗的可靠性和穩(wěn)定性程度。不同信度上的分數(shù)不能進行等值,如果一個不可靠的測驗上的分數(shù)可以等值到一個可靠的測驗上,那么就不會有人研究可靠的測驗了。所以,被等值的兩個測驗必須有相同的信度水平。比如,有兩個測驗分別是測驗X和測驗Y。假設測驗X的信度高,測驗Y的信度低,那么測驗X等值到測驗Y,有可能導致分數(shù)的測量誤差變大,分數(shù)也變得不穩(wěn)定。對稱性是指被等值的兩個測驗的等值轉換關系是雙向的。即從測驗X等值到測驗Y上的分數(shù)與從測驗Y等值到測驗X上的分數(shù)是一樣的。樣本組間一致性是指等值處理的結果應該不受進行等值處理所采用的考生樣本組的影響。比如,測驗分數(shù)不能因性別差異而有所變化。分數(shù)具有等價性應該是一種弱等價,意味著具有相同水平的考生在測驗X和測驗Y上所得分數(shù)的平均數(shù)相同就可以。
在實際考試當中,以上等值條件往往很難滿足。因而需要進行分數(shù)“連接(linking)”。連接相對于等值來說,是一個比較寬泛的概念,等值只是“連接”在條件嚴格滿足的情況下進行的分數(shù)調整。如果進行等值,應考慮兩個問題,一個是數(shù)據(jù)收集的問題,也就是等值設計的問題;另一個是數(shù)據(jù)處理的問題,也就是等值方法的問題。
等值設計是指收集等值數(shù)據(jù)的方法,有兩種思路:一種圍繞“共同組”展開,另一種圍繞“共同題”展開,共同題也稱為“錨題”。共同組是要求考生的能力水平分布相同,讓考生參加兩次測驗。因為參加考試的考生能力水平相同,所以在兩個測驗上的分數(shù)理應相同,如果分數(shù)不同,則可能是難度不同所造成的。共同題是指考生做的兩份試卷有相同的試題,如果考生在兩份試卷的共同題的得分上有差異,則是由于考生的能力差異造成的。
雖然媒體沒有明說這次浙江省高考英語的分數(shù)是如何調整的,但推測很有可能是圍繞共同組進行的。因為高考為了考試的安全,不能用共同題,只能從共同組的角度考慮。再者,可以假設參加這兩次考試的考生有可能會是相同的考生群體,考生的能力水平?jīng)]有發(fā)生很大的變化,因此可以對兩次考試的難度加以比較,對分數(shù)進行調整。
除了高考,一年多考的考試、同一考試分不同批次進行的大規(guī)模的測試項目,比如托福考試(TOEFL)、中國少數(shù)民族漢語水平等級考試(MHK)等都會用等值來進行分數(shù)調整。這就是說,等值方法本身沒有問題,關鍵是如何進行等值。據(jù)此,我們可以做出初步的判斷,浙江省這次進行分數(shù)調整的初衷沒有問題,理論依據(jù)也是可靠的,問題就出現(xiàn)在流程上。一是事先沒有告知。即考生和家長不清楚一旦試題的難度出現(xiàn)偏差,事后要對分數(shù)進行必要的調整,考生和家長的思想和心理準備不足。二是方法不嚴謹。考試機構僅做了模擬推演,沒有進行細致的分數(shù)驗證,沒有進行必要的專家論證。由此,原本是為了維護本次考試考生的整體利益,卻因為做法的問題遭到了考生和家長的質疑,引起了軒然大波。
三、考試的公平性和科學性
浙江省這次面向所有考生,對難度較大的第二部分(閱讀理解)、第三部分(語言運用)的部分試題進行了難度系數(shù)的調整,實施了加權賦分。目前尚不清楚他們究竟是如何改變權重的,推想很有可能是把這兩部分題目的分數(shù)權重減小,增大了其他題目的權重。如果不做精心的設計,單純改變部分題目的權重風險很大,危害至少有兩點:一是降低了考試的區(qū)分度,給考生的排名和報志愿帶來了困難;二是由于成績兩年有效,實際上造成了2018級和2019級考生間的不公平。這其中涉及了考試的公平性和科學性問題。
高考制度作為我國的人才培養(yǎng)和選拔制度,在百姓的心目中有著至高無上的地位。公平性和科學性是衡量、評價考試質量的重要指標,公平性以科學性為基礎,科學性以公平性為前提,二者相輔相成。對于高考這種高利害考試來說,公平性和科學性均需保障,兩者缺一不可。
考試作為測量考生能力水平的一種工具,像是一把尺子,而考生的能力水平就是尺子測量的對象。這把尺子本身可能存在誤差,而且考生能力水平很難被準確地測量出來,因而測量出來的結果難免會有誤差。這雖然是常識,但未必所有人都能認知其本質。特別是作為當事人深陷其中時,很難保障其不出現(xiàn)不清醒、不冷靜的行為。無論是難度預估,還是分數(shù)調整,本身都是為了維護考生的利益,保證考試公平,讓考試更加科學。只是很多人還不明白分數(shù)調整的科學性,認為分數(shù)調整反而影響了考試的公平性。這就啟示正在進行高考改革的省份,既要做好頂層設計,也要未雨綢繆做好預案,做好宣傳,特別是要做好考生和家長的宣傳工作,避免倉促行事。否則一旦出現(xiàn)問題,后果很難收拾。
考試作為一項重要的人才選拔方式已滲透到人們生活的方方面面,與個人的發(fā)展息息相關。比較而言,人們似乎更專注考試的公平性,因為它是顯性的,更容易被人們所感知,更容易引起人們的注意;而科學性往往是隱性的,甚至可能是費解的、晦澀的,人們要理解它、接受它有一定的難度。自然兩者都兼顧更好,但現(xiàn)實未必都如人愿。當公平性和科學性發(fā)生沖突時,科學性往往會讓位于公平性,以使事態(tài)盡快平息。但這樣是要付出代價的,人們對此卻往往會忽視。可以說,這次浙江分數(shù)調整風波沒有勝利者,責任人雖然受到了懲罰,但考生也不得不咽下本次考試得分低的苦酒。這就意味著下次考試的風險將加大,命題工作自然會更加細致謹慎,命題的成本無疑會增加。同時,沒有本次考試托底,一年兩考實際上回歸了一年一考,考生考試的風險也將加大,緊張、疏忽都可能帶來無法挽回的風險。這是考生和考生家長不得不面臨的殘酷現(xiàn)實。
改變“一考定終身”,降低一次考試的風險,實現(xiàn)一年兩考,是高考改革的發(fā)展方向和趨勢。改革中還有很長的路要走。改革中,既不可盲目草率,也不能因噎廢食。這次浙江考試分數(shù)調整風波只是新高考改革之路的插曲,不會改變新高考改革的大方向。但它至少起到了警示的作用,預示著高考改革并不會一帆風順,進兩步退一步,甚至迂回向前、螺旋式上升均有可能。因此,在關注考試公平性的同時,還要下力氣提高考試的科學化水平。因為沒有科學性的保障,考試的公平性始終是脆弱的。