高存+張允

摘要:在歷屆高考英語考試改革中,寫作一直是人們關注的焦點之一。經過不斷的改革,高考英語寫作考試的合理性得以提高,但是現有考試設計依然存在一些較為突出的問題。本文從考試構念的界定、任務開發、評分設計和促學作用等四個方面對高考英語寫作考試改革中應該重點關注的問題進行了探討,指出要想真正提高高考英語寫作考試的正面反撥作用,必須在這幾個方面有所突破。
關鍵詞:高考英語 寫作考試 考試改革 促學
回顧我國高考英語改革之路,從上世紀八十年代末開始啟用書面表達題,到九十年代中期開始增加短文改錯題,再到近年來短文改錯題的逐步退出,以及閱讀表達題和讀寫結合題的出現,高考英語寫作考試任務設計的合理性逐步提高。但是,現有考試仍存在一些較為突出的問題,如沒有明確界定考試構念、評分標準中雖然提到了語言運用能力,但對于什么是語言運用能力并沒有進行任何解釋,進而“忽略了對學生知識運用、問題分析以及思維創新等能力的考查”[1],這些均證實了高考英語考試中也存在“主觀題考試結果可解釋性低,考試總分不能完全表征考生學科素養等問題”[2]。此外,由于在考試設計中未能充分吸收國內外二語寫作教學的優秀研究成果,使得考試任務的設計和評分標準的制定與二語寫作教學的有效途徑相脫離,這一點在很大程度上削弱了中學英語寫作教學的正面指引作用。這些問題均應在本輪高考改革中得到有效解決。
一、考試構念界定
本文所說的構念不是指某一語言能力模型的構成部分,而是用于統稱一項考試所要測量的多種語言技能或能力,這些技能或能力可能來自某一語言能力模型,也可能出自其他材料,如課程教學大綱。這樣,考試構念便取代測評框架,成為考試說明撰寫的基礎。不論是開發新的考試形式,還是對一項考試進行效度論證,均要明確界定其考試構念,即所要考查的能力。然而,對于寫作考試開發者和研究者來說,構念界定是一個比較棘手的問題。
由于對寫作質量缺乏統一認識,因此界定寫作考試構念較為困難[3]。寫作考試以及對好的作文的斷定在很大程度上受到背景的影響[4]。Cumming認為,高利害大規模國際寫作考試必須為考生提供統一的寫作背景[5]。首先,為了確保考生機會均等,構念的操作背景要統一,所測構念不能對任何特定人群有偏見,也不能給具有某些特定能力或知識的人群帶來優勢。其次,高利害考試要確保考生表現之間的可比性,考生的分數或基于分數的解釋不應受到考試地點、考試時間和試題版本的影響。因此,在界定考試構念時要充分考慮背景因素。總之,構念效度比考試內容的相關性和真實性更為重要,而要確保構念效度,必須對核心構念進行清楚界定[5]。
考試構念的界定不僅會影響考試任務開發,而且還會直接影響到考試后效。Fulcher和Davidson指出,如果沒有關于考試構念的詳細信息,任課教師只能在課堂活動中盲目照搬考試任務。相反,如果考試構念界定得清楚,任課教師便能夠理解考試任務所期待的考生表現,以及在此基礎上所做的關于考生具體語言能力的判斷,一旦他們擁有了這些概念工具,便能夠創造性地開發多種課堂教學活動來幫助學生提高考試所要測量的交際語言能力,這才是考試促學的關鍵[6]。
為了確保考試的效度,考試構念的界定要有一定的依據。根據Bachman和Palmer對構念界定的描述,界定二語寫作考試構念,可以依據課程大綱、圍繞目標語言使用任務進行的需求分析,或者某二語寫作能力理論,也可以將三者結合起來考慮[7]。具體選擇何種依據,須根據考試規模、用途等因素來定。Bachman和Palmer不主張從任務表現和“技能”角度界定考試構念,認為這兩種方式會給評分和分數解釋造成困難,相反,他們提倡借助語言能力的構成來界定[7]。采用這種界定方法,不僅須明確有待考查的具體語言知識,而且須決定考試構念是否涵蓋策略能力和話題知識。如果涵蓋,則須處理好語言知識和策略能力、寫作能力和話題知識之間的關系[7]。
國際大規模外語考試對寫作考試構念均有明確的界定。比如,TOEFL 2000寫作考試構念是“就多種一般性話題闡明和交流觀點,寫出有一定長度且有組織的書面文本以表達和支撐基于個人知識和經驗的個人觀點,并同時考慮預期讀者的知識”,以及“連貫組織和準確表達學術材料的內容和結構,以展示能夠理解閱讀材料和講座中關于某一學術話題的關鍵思想以及鏈接文本信息時所采用的修辭關系,如論斷/反駁、問題/解決方案和建議/反建議”[8]。相比之下,我國高考英語考試尚缺乏對于寫作考試構念的明確界定,僅指出寫作題考的是考生的書面表達能力,對于什么是書面表達能力,以及該能力的具體構成并沒有明確論述。為了提高寫作考試命題的科學性以及不同考試任務之間的一致性,同時明確寫作能力培養目標,亟需參照國際大規模外語考試,從認知角度對書面表達能力進行明確界定。
二、考試任務的開發
考試任務是考試構念的操作化,是誘發和收集考生表現的工具。任務設計的合理與否是一項考試成敗的關鍵。根據Bachman和Palmer對考試任務開發情境的描述,大規模考試任務的開發一般有兩個途徑:如果存在目標語言使用域,最常見的方法是改編目標語言使用任務,即調整部分任務特征;否則,則須根據考生特征和構念界定來創造假想的目標語言使用域和目標語言使用任務,并在此基礎上設計考試任務[7]。無論何種情況,在考試任務開發過程中均須考慮考試內容的相關性、取樣的充分性以及考試任務的真實性和公平性。
Haladyna和Rodriguez提出了基于論證的試題效度驗證方法(an argument-based approach to item validation),并列舉了為驗證試題效度進行的解釋性論證(interpretive argument for item validation)須回答的16個問題,這些問題涉及目標域的類型、目標域的組織方式、概化域的組織方式、概化域和目標域的一致性、試題類型的選取、試題開發方式、評分標準、試題內容、每道試題的認知需求、試題的編排、試題的時效性和有效性、試題的公平性以及試測等諸多方面的內容[9]。對這16個問題的回答就是為試題的效度驗證收集必要證據的過程。
與我國高考英語考試不同,國際大規模外語考試均圍繞考試任務開發做了大量研究。比如,為了給TOEFL iBT考試任務的開發提供依據,Rosenfeld等人調查了完成北美大學學習中典型語言使用任務必須具備的語言能力[10]。Cumming等人則根據對TOEFL考試任務類型的批判,從內容效度、真實性和與教育的相關性等方面對新版TOEFL所考慮的原型任務(prototype tasks)進行了調查[11]。Uysal結合專家判斷對IELTS考試任務和目標任務的匹配程度,以及考試內容的相關性和代表性進行了驗證[12]。Moore和Morton則通過比較從目標域中收集的學生作文和IELTS考試作文,對IELTS學術寫作任務的真實性進行了論述[13]。這些研究為考試任務設計的合理化論證提供了強有力的支撐。相比之下,國內關于高考英語寫作考試的研究尚停留在對考試試題內容和設計的討論上,尚未觸及對目標語言使用任務的考查。而一旦缺乏對目標語言使用任務的描述,考試內容的相關性和取樣的充分性便難以保證。
三、考試評分設計
Weigle介紹了三種主要的寫作評分方式,其中首要特質評分在二語考試中并沒有得到廣泛應用,其優點是能夠提供關于考生能力的詳細信息,缺點是沒有統一的評分標準,每一個寫作任務均須開發相應的評分標準,因此實行起來耗時耗力。相比之下,整體評分得到了廣泛的應用,它的優點是評分快捷,缺點是無法給考生提供有用的診斷信息,同時分數有時難以解釋,因為評分員在給出相同分數的時候所關注的語言點可能有所不同;分項評分的應用也較為廣泛,與整體評分相比,它能夠提供更多有用的診斷信息,評分更為可靠,更加有利于評分員培訓,更適合評價二語學習者,但其缺點是評分耗時長,況且如果最終仍然是提供一個總分,那么分數合并后分項評分提供的大量信息便會喪失。此外,有經驗的評分員可能會首先采用整體評分法給出總分,然后再相應地給出分項分[14]。
整體評分和分項評分在大規模外語考試中均有所應用,比如TOEFL iBT采用的是整體評分,而IELTS則采用分項評分。選擇何種評分方式與考試的目的密切相關。Weigle提倡根據Bachman和Palmer提出的考試有用性框架[15]來綜合判斷。如果實用性更為重要,則可選用整體評分;如果信度和構念效度更為重要,選用分項評分則更為合適。Bachman和Palmer明確提倡采用分項評分,他們首先從分數的解釋、評分時的等級分配以及各觀測點之間的比重三個方面對整體評分的主要問題進行了論述,然后指出,設計評分標準時應該從考試構念出發,為構念界定中的每個語言能力構成分別設計評分尺度[7]。這樣評分有兩個優勢,一是方便考試開發者提供對所評語言能力的詳細描述,使得考試使用者能夠清楚地了解考生的優缺點,二是有利于了解評分員在評價語言使用樣本時的具體行為[7]。
目前,我國高考英語寫作采用的是整體評分法,其中的一個考慮是,參加高考的人數眾多,采用整體評分可以提高評分效率。但是采用整體評分難以對評分員的評分過程進行監控,評分結果的可解釋性低,無法提供具體的反饋信息。在高考英語考試實行一年兩考后,如果能夠根據第一次考試表現給考生及時提供診斷信息,將在很大程度上提高考試的促學作用。因此,改變過去一直采用整體評分的做法,設計分項評分方式應該是高考英語寫作考試開發中的一項重要工作。
四、考試的促學作用
Huot認為,Messick和Cronbach的效度觀均要求有效的寫作考試程序對寫作教學和學習產生正面影響[16]。然而,任課教師對寫作考試行為常持懷疑態度,原因是這些考試未能反映一些價值觀,而這些價值觀對于理解人們如何學習閱讀和寫作非常重要[16]。因此,有效的寫作考試首先應吸納關于寫作教學和學習的學術文獻,其次應該把考試的使用納入考試效度論證中。如果一項考試的使用目的脫離了相關寫作教學理論基礎,那么它便是測量寫作能力的無效方式[16]。
Montee和Malone也認為,效度論證應該拓展到對考生和其他利益相關者的影響以及如何對考試結果進行解釋,因此,考試開發者必須開發分數報告,以清楚明白地呈現考試結果[17]。然而,在心理學和教育測量中,一個困惑人們已久的問題是如何對考生所知或所能進行描述[18],這是對考生或考試結果使用者提供信息反饋的關鍵。研究表明,如果診斷性考試能夠使目標教學集中加強對個體學生需求和優點的關注,便可以有效地促進語言發展[19],而為了達到這一目標,考試反饋內容和提供反饋的方式至關重要。
國際大規模外語考試均高度關注考試的促學作用。ETS明確指出,TOEFL iBT的目標使用之一便是給有效的英語教學和學習方法提供支持,比如引入口語考試和綜合考試任務等歷次改革的出發點均是為了促進創造和使用與交際教學聯系更為緊密的備考材料和備考活動[20]。ETS還為課程協調人、學術主管和任課教師提供了專門的指導手冊,手冊中不僅描述了交際英語教學和TOEFL iBT設計之間的關系,而且還提供了模擬考試任務和課堂教學活動建議[20]。除此之外,ETS還將考試的設計理念和模擬材料與教材出版商進行分享,以幫助他們給英語學習者提供適當的學習材料[20]。IELTS也編寫了教師手冊,對考試任務、構念、評分標準、分數解釋等內容進行了詳細介紹,并明確指出IELTS考試結果的報告方式有利于任課教師了解學生哪些方面的語言技能仍有待提高,以便他們能夠給學生設定清楚的學習目標,此外手冊還針對教學技巧和備考材料的選擇提出了具體的建議(British Council,IDP:IELTS Australia,and Cambridge English Language Assessment 2015)。與TOELF iBT和IELTS相比,我國高考英語考試在促學方面所做的努力還遠遠不夠。
根據上述分析,高考英語寫作考試開發的三個關鍵環節是考試構念界定、考試任務開發和評分設計。如圖1所示,考試構念的界定須同時考慮的因素包括高中英語課程標準、高校英語教學需求和二語寫作能力理論。而開發考試任務時,一方面要重點參照高校低年級寫作教學中典型的寫作任務,另一方面也要考慮考試所要體現的二語寫作教學理念,是結果法(product approach)、過程法(process approach)還是體裁法(genre approach)?這與考試的促學效果密切相關,同時還會影響評分標準的制定。評分設計包括評分標準的制定和評分程序的設計,其中制定評分標準時既要參考考試任務特征和考試構念,同時還要依據專家判斷、評分反饋和師生反饋等因素。除了上面三個環節外,還要考慮如何給考生和任課教師提供反饋信息,這是實施一年兩考后須重點考慮的問題之一。
作為一項大規模高利害考試,高考英語考試近年來受到了公眾前所未有的高度關注,“降低分值”、“退出高考”和“實行社會化考試”等呼聲曾一度不絕于耳。這些呼聲充分反應出,高考英語考試依然存在一些較為突出的問題,其中最為突出的便是對中學英語教學和學習的負面反撥作用。造成這一問題的一個關鍵因素是,高考英語考試的開發主觀性較強,尚缺乏科學的程序指導。實行“一年兩考”可以在很大程度上降低高考英語考試的利害程度,但是要真正提高高考英語考試的正面反撥作用,還須在考試的開發上下功夫。為了拋磚引玉,本文討論了高考英語寫作考試任務開發中的幾個關鍵環節,這些環節對考試的促學作用均起著重要的影響,然而卻是我國高考英語寫作考試開發中的薄弱環節。
參考文獻
[1]韓守玉.中美大學入學考試英文寫作評分標準的對比——基于SAT與中國高考的比較[J].西南農業大學學報:社會科學版,2011(11).
[2] 周群.基于效度的中美大學入學考試開發比較研究[J].中國高教研究,2010(11).
[3] Hamp-Lyons,L.Second language writing:Assessment issues[A].In Kroll,B.(ed).Second Language Writing:Research Insights for the Classroom[C].Cambridge:Cambridge University Press,1990.
[4] Crusan,D.Assessing writing[A].In Kunnan,A.J.(ed).The Companion to Language Assessment [C].West Sussex:Wiley Blackwell,2014.
[5] Cumming,A.Assessing L2 writing:Alternative constructs and ethical dilemmas[J].Assessing Writing,2002(2).
[6] Fulcher,G.& Davidson,F.Language Testing and Assessment:An advanced resource book [M].London/New York:Routledge,2007.
[7] Bachman,L.& Palmer,A.Language Assessment in Practice:Developing Language Assessments and Justifying their Use in the Real World[M].Oxford:Oxford University Press,2010.
[8] 韓寶成, 張允. 高考英語測試目標和內容設置框架探討[J]. 外語教學與研究, 2015(3).
[9] Haladyna, T.M. and Rodriguez, M.C. Developing and Validating Test Items [M]. London/New York: Routledge, 2013.
[10] Rosenfeld,M.,Leung,S.& Oltman,P.K..The Reading,Writing,Speaking,and Listening Tasks Important for Academic Success at the Undergraduate and Graduate Levels.(TOEFL Monograph Series Report No.21).Princeton,NJ:Educational Testing Service,2001.
[11] Cumming,A.,Grant,L.,Mulcahy-Ernt,P.& Power,D.E.A Teacher-Verification Study of Speaking and Writing Prototype Tasks for a New TOEFL?(TOEFL Monograph Series Report No.26).Princeton,NJ:Educational Testing Service,2005.
[12] Uysal,H.A critical review of the IELTS writing test[J].ELT Journal,2010(3).
[13] Moore,T.& Morton,J.Authenticity in the IELTS Academic Module Writing Test:A Comparative Study of Task 2 Items and University Assignments(IELTS Research Reports Vol.2)[M].Canberra:IDP IELTS Australia,1999.
[14] Weigle,S.C.Assessing Writing [M].Cambridge:Cambridge University Press,2002.
[15] Bachman,L.& Palmer,A.Language Testing in Practice. Oxford:Oxford University Press,1996.
[16] Huot,B.Toward a new theory of writing assessment[J].College Composition and Communication,1996(4).
[17] Montee,M.and Malone,M.E.Writing scoring criteria and score reports[A].In Kunnan,A.J.(ed).The Companion to Language Assessment [C].West Sussex: Wiley Blackwell,2014.
[18]Carroll,J.B.Test theory and the behavioral scaling of test performance [A]. In Fredericksen,N.,Mislevy,R.J.and Bejar,I.(eds.).Test theory for a new generation of tests[C].Hillsdale,NJ:Lawrence Erlbaum,1993.
[19] Fox,J.D.Moderating top-down policy impact and supporting EAP curricular renewal: Exploring the potential of diagnostic assessment[J].Journal of English for Academic Purposes,2009(1).
[20] ETS.Validity Evidence Supporting the Interpretation and Use of TOEFL iBTTM Scores(TOEFL iBT Research Insight Series 1,Vol.4)[R]. Princeton,NJ:Educational Testing Service,2011.
[作者:高存(1979-),女,山東鄆城人,天津商業大學外國語學院副教授,博士;張允(1977-),男,山東金鄉人,天津商業大學外國語學院教授,北京外國語大學在讀博士研究生。]
【責任編輯 王 穎】