唐建新
我國教育現代化的步伐不可拒絕,更不可阻擋,其教育考試測量的現代化步伐同樣如此。2012年春,國家有關部門召開了專門的教育考試測量發展趨勢理論研討會,形成的共識就是,與世界各國一樣,走向共同的人機對話的考試測量之路,才能夠滿足社會對大面積、多數量、高品質、客觀、公正、科學的現代考試的要求。
標準化考試不應一概否定
上世紀90年代初期,當我們對標準化考試還在欣賞,還在一味追逐的時候,開始出現了對標準化考試進行批判的聲音,且越來越強大,最終幾乎要全面叫停。其理由是,標準化考試不適宜漢字文化圈的考試,不適合考中國的學生,不適應東方文化。最主要的缺陷是,不能夠考察思維的過程,不適合用于考察含有復雜的多元答案的試題,尤其是不能夠考察出人的豐富情感態度和價值觀,只能夠考察出最簡單的記憶性的知識,以及簡單的、機械的操作性能力。
這股強勁的批判之風吹刮到了本世紀,大有全盤推翻和砸碎舊世界,還我中華民族考試傳統的革命氣概。高考語文自然就出現了呼喚只考一篇作文的聲音,要求完全按照科舉時代的方法來進行21世紀高校招生中的語文考試。
就在世紀之交的前前后后,有兩件事情給人們帶來一些另外的思考。一是臺灣地區的高考國文科的試題在中國大陸語文雜志上刊載后,讓人驚呼:原來標準化考試語文也可以將試題命制得如此生動活潑,甚至深刻,原來我們實施的標準化考試太膚淺、太表面、太單一。二是一些學校對學生志愿的預填報,語文學科竟然是只看前面部分客觀性選擇題的得分,以此來推算學生正式高考可能會得到的分數,據說居然很準確。不看非選擇試題部分,是因為教師閱卷的隨意性太大,不值得作為準確測算依據。
在本世紀初課程改革的大潮中,國家考試中心沒有屈從于一些報刊的輿論,就連高考語文試題也堅持了客觀選擇試題的比例在非作文部分也不得少于三分之一的原則。其理由是,只有這一部分,經計算機數據論證,才是比較科學客觀的,而其余部分的人工閱卷,信度低,尤其是作文,基本沒有什么區分價值。
可以說,對待現代西方國家教育考試測量中實施的標準化考試,不應該盲目生硬地全盤照搬,更不應該輕率魯莽地一概否定,應該冷靜下來,認真琢磨研究,認真學習借鑒,根據我國的教育實際與考試實踐,逐步改造運用,以提高我國考試測量的科學化水平。
標準化考試是大勢所趨
隨著社會的轉型和教育的轉軌,我國教育測量考試正在經歷著巨大的轉變,由過去農業文明時代,全國舉人進京面試,發展到今天,幾乎人人都可以進大學讀書的時代。考試面對著巨量的人群,如何保證客觀公正,成為了教育考試的一個根本性的難題。如果我們還是堅持按照過去的考試閱卷方式進行,時間、財力、人力還能夠保證嗎?尤其是人力成本越來越高的當代,高考閱卷難以尋找低廉閱卷者的時候,只有逐步過渡到機器閱卷才能夠最終解決試卷判閱的難題。
即使時間、財力、人力允許我們慢慢地、認真地來批閱試卷,但是,在多年閱卷實踐中我們已經發現,同樣一道試題,就是同一個人來判閱,也常常因為心情的不同,因為勞累、疲憊程度的不同,而對簡要回答試題,尤其是簡要論述試題給出了不同的分數,何況在緊張試卷判閱過程中,還常常發生誤判、漏判的情況。
因此,可以大膽地預言,在不久的將來,我國大面積的教育考試測量,一定會走上世界各國已實行的、人機對話的標準化考試的軌道上去,之后,才是有條件地進行小批量的、專門化的加試與面試,對之前的大面積、大規模的考試進行補充與校正,以便更加精準地選拔出理想的人才。
提高標準化試題的命制與判閱的現代化
我們熟悉的推斷題、論述題、證明題等,是不是還能夠采用客觀選擇題的方式進行有效檢測,在今天看來,的確需要討論。國人對標準化考試的認識已經經歷了幾十年的實踐檢驗與思考,其實已經明白了其中的一些道理。
首先,我們不能夠繼續使用高度集中統一,甚至專制的方式來看待和對待我們的學生答卷,我們的參考答案不能夠再采用高度一致、高度簡潔的結果來要求學生。要培養學生的創新精神和科學態度,就需要我們設置開放性的試題,并給出開放性試題回答的各種可能。英國類似于我國高考的母語考試,試卷五十頁,答案五百頁,包含了各種各樣回答的可能。而我國的高考語文,試卷十四或十六頁,答案只有大半頁或一兩頁,根本沒有在試題上進行開放性的檢測,更沒有設置更加開闊的回答空間。要解決此問題,就應該首先從命制試題開始,加大投入的力度,進行長時間深入的科學研究。美國中小學學科考試測量中心之類的機構有三千多人,每一學科有數百人在研究,而我國幾乎是零。如果我們國家每一學科長年累月也有幾百人在進行專門研究,相信不久的將來,甚至較短的時間內,也能夠研究命制出能夠展示一般思維過程的、帶有邏輯證明和推理的試題出來,更不用說簡要回答、簡要論述類試題了。
其次,我們考試的目的也需要隨著對命題研究的深入而發生變化。哪些內容、哪些項目可以轉換測量,哪些能力需要達到一定程度之后單獨檢測,或者附上答卷單獨判閱。日本的高考作文也是在考場上寫的,但是不評分,只在錄取時作為淘汰的參考。一般的大型考試是否應該完成所有的考試任務,包括高級思維能力測試,這也是值得思考與研究的。
再次,當前很多省份的網絡閱卷,已經邁開了現代考試評閱技術的初步步伐,使用現代化手段去命制傳統意義上的試題,這雖然不是嚴格意義上的標準化考試,但是,畢竟走出了關鍵性的一步。進一步的發展就是提高試題的命制與判閱的現代化,這就需要命制觀念的大轉變,命題技術的大提升,逐步走向人機對話的教育考試測評,從而減少人工評卷的誤差。
最后,是作文閱卷的問題。多年來,人們幾乎一致認為,作文是不可能采用機器判閱的,因此,在中國,是不可能有真正標準化考試的。我們要說,這種結論下得過早。猶如大半個世紀前,中國人,包括很多中國的有志之士都認為,漢字必須走世界各國拼音化的道路,結果,當上世紀90年代中期,我國解決了漢字電腦錄入的難題之后,才發現我們的漢字原來也可以進入現代化行列。作文的機器評判同樣如此。全世界都感到作文判閱是一個難題,但是,在美國和歐洲一些國家,正在不斷研究和攻克這個難題,并在一些大型考試中加以運用。我國的作文評卷也多年受到批評。盡管非作文部分的試題占有90分,但是,被60分一道題的作文一下子全吞沒了差異,長此以往,學生的學和教師的教,都會成為語文學科的嚴重心病。近些年,北師大的鄭先生設想,將作文的60分一分為三,每一部分20分,分別考察學生的信息處理能力。如給出20張卡片,要求整理出百余字的概述;要求對某一說法或觀點進行討論,看看學生的說理思辨能力;再給出一篇沒有結尾的微型小說,要求補寫結尾。今年第四期的《中學語文教學》雜志上,署名楊晨等的文章就介紹了中文寫作機器評卷的現狀及發展,介紹了國外以及臺灣等地的先期實驗,介紹了中文寫作機器評判的基本思路,即采用三個維度進行。一是語言材料,設定一些條件,看其豐富性、多樣性如何,如,能不能使用關聯詞語使語言表達嚴謹;二是結構檢測,看前后是否一致,是否不矛盾,是否完整;三是潛語義評判,看是否能夠寫出自己的真情實感,而不是人云亦云,拾人牙慧。
我國幾千年考試傳統的厚重包袱,要想很快拋開,去走教育考試測量現代化的道路,是比較困難的,這其間涉及了無數利益集團和強大習慣力量的潛意識的抵觸與反抗,也考驗著國家決策者們的眼光與魄力。但是,面對越來越浩大的參考人數,面對越來越民主公正的考試要求,面對越來越高昂的人力成本,面對越來越激烈競爭的就業和升學壓力,我們的教育考試測量不可能再回到農業文明時代的朱砂批閱了,只能夠順應世界發展潮流,逐漸走上人機對話的教育考試測量現代化的道路,只能夠走上越來越標準化、小眾化、個性化的道路,這是時代的必然,也是誰也阻擋不了的趨勢。