摘要: 語言測試作為語言教學(xué)的一個重要組成部分。早已引起語言學(xué)界的注意,并且越來越受到重視。本文追述了語言測試的歷史,評述了語言測試的設(shè)計開發(fā)原則,并介紹了語言測試研究的新進展,以期開闊我們的視野。
關(guān)鍵詞: 語言測試 一致性 有用性
一、語言測試的定義
語言測試是教育測量學(xué)的一個分支學(xué)科,雖然到了60年代才形成一門新興的學(xué)科,但對語言測試的研究由來已久。語言測試是多種科學(xué)的結(jié)合體,這多種科學(xué)可以概括為兩類:語言科學(xué)和技術(shù)科學(xué)。前者給測試饋入內(nèi)容,后者給測試饋入手段(李筱菊,1997)。語言學(xué)、學(xué)習(xí)心理學(xué)和教育測量學(xué)構(gòu)成了語言測試的三大理論支柱。然而,與語言測試關(guān)系最為密切的領(lǐng)域當(dāng)推語言教學(xué)。語言測試是伴隨著語言教學(xué)出現(xiàn)的。語言教學(xué)的任務(wù)是培養(yǎng)學(xué)習(xí)者實際運用所學(xué)語言的能力,而語言測試的目的則是提供一種科學(xué)的測量工具。
二、語言測試的歷史發(fā)展
語言測試的歷史是一部發(fā)展史,它的變革無不反映語言學(xué)、心理學(xué)和科技等領(lǐng)域的新發(fā)展。尤其是語言理論,一旦被應(yīng)用語言學(xué)界廣泛接受,就會有應(yīng)用語言學(xué)界將其用于新教學(xué)大綱的編寫,產(chǎn)生新的教學(xué)思想、新大綱核心思想及開發(fā)出的新的教學(xué)方法和教學(xué)形式,新的教學(xué)效果又通過測試來進行檢驗,檢驗的結(jié)果為新的教學(xué)理論和方法提供反饋,以便修整教學(xué)大綱,這是一個循環(huán)往復(fù)、螺旋向上的過程。
外語測試的形成、發(fā)展和完善同語言學(xué)、心理學(xué)和教學(xué)法密切相關(guān)。每一時期流行的語言學(xué)流派和教學(xué)法流派相應(yīng)地產(chǎn)生了不同的外語測試?yán)碚摵蜏y試方法。70年代以前,在語言測試界占主導(dǎo)地位的是分析法,這是測試的心理測量——結(jié)構(gòu)主義時期。其語言學(xué)的理論基礎(chǔ)是結(jié)構(gòu)主義語言學(xué)。自70年代中期起,語言測試界開始重視所謂總體綜合法的研究,這一時期成為語言測試的心理語言學(xué)和社會語言學(xué)時期。在社會語言學(xué)家提出了語言交際能力的概念后,語言測試進入了強調(diào)單一語言能力和提倡綜合測試法的社會語言學(xué)階段。自八十年代以來,隨著交際教學(xué)法的發(fā)展,交際法語言測試受到了愈來愈多的重視(Bachman1990)。
三、設(shè)計開發(fā)語言測試的原則
Bachman針對人們對語言測試的一些錯誤觀點及其結(jié)果,結(jié)合教學(xué)實踐中積累的成功經(jīng)驗,提出了語言設(shè)計開發(fā)過程中始終要遵循的兩個原則:(1)必須保持測試中語言的使用和非測試中語言使用的一致,同時必須保持應(yīng)試者的特征和語言使用者特征的一致,即一致性;(2)試題的適用與否在語言測試的設(shè)計與發(fā)展中有重要意義,即有用性。
1.一致性原則
Bachman和Palmer(1996)指出設(shè)計或開發(fā)一項新測試時,應(yīng)考慮語言測試行為與語言實際使用情況相一致。語言測試的目的是根據(jù)被試的測試分?jǐn)?shù)對其語言能力做出判斷。此時必須能夠證明被試的測試行為與在具體場景下語言使用存在一致關(guān)系。要做到這一點,需要設(shè)定一套理論框架,使我們能夠考慮把被試的測試行為視為語言使用的一個特例。設(shè)計這個理論框架需要考慮兩方面的因素。首先要考慮的是語言使用任務(wù)和情境的特征及測試任務(wù)和情境的特征。其目的是為了確保并證明測試任務(wù)與語言使用任務(wù)相一致。其次還要考慮語言使用者的特征和被試的特征,目的是為了證明這些特征在語言使用任務(wù)和測試任務(wù)中參與程度有多大。影響語言使用和測試行為的這兩組特征是我們開發(fā)和設(shè)計測試最關(guān)心的問題。
2.有用性原則
在設(shè)計和開發(fā)一項語言測試時,最重要的是考慮這項測試做何用途,因此,測試的重要性質(zhì)之一是有用性(usefulness)。語言測試的有用性包括六個方面:信度(reliability)+效度(validity)+真實性(authenticity)+交互性(interactiveness)+影響(impact)+可實踐性(practicality)。
信度與效度原是計量學(xué)中兩個重要概念,20世紀(jì)30年代被引入語言測試領(lǐng)域。60年代,以Lado等為代表的結(jié)構(gòu)主義測試學(xué)家對這兩個概念進行了系統(tǒng)的闡述和論證,標(biāo)志著語言測試已形成科學(xué)的體系,成為一門獨立的學(xué)科。可以說,語言測試?yán)碚摷皩嵺`的發(fā)展和紛爭都是以信度與效度為主線進行的,信度與效度是語言測試永恒的主題。90年代以來測試學(xué)家對于信度與效度的討論主要集中在四個方面:(1)信度的重要性;(2)在對考生在測試中的表現(xiàn)進行多方面Rasch分析(multifaceted Rasch analysis)時該如何看待評分員之間的信度(interrater reliability);(3)如果把信度看作效度的一部分,在理論上存在的問題;(4)出題者和試題使用者在理解“驗證”(validation)這個概念時可能會遇到的困難。
真實性是過去20年來測試界一直關(guān)注的問題。1984年的國際語言測試大會對此進行了專門討論。Spolsky(1985)總結(jié)道:“真實性標(biāo)準(zhǔn)給測試領(lǐng)域提出了語用和倫理的問題。測試材料缺乏真實性對我們根據(jù)測試成績做出的推論也提出了疑問。”由于研究方法和角度的不同,人們對真實性尚無一致的看法。總的來說,可分為兩種,一種是將真實性定義為與現(xiàn)實生活的相似程度,即Authenticity as“real-life” language use。Bachman和Palmer(1996)認(rèn)為,真實性指某一語言測試任務(wù)特征與實際語言運用任務(wù)特征的對應(yīng)程度,即一致性。一致性越高,測試的真實性就越強(韓寶成,2000)。另一種是將真實性定義為交互真實性,即Authenticity as interactive language use。測試的真實性反映在對被試能力結(jié)構(gòu)的恰當(dāng)界定及被試與測試任務(wù)之間的交互作用上,測試的真實性不再以測試的表面效度為主要衡量標(biāo)準(zhǔn),測試的構(gòu)想效度對測試真實性的論證具有同等的、甚至更重要的地位(鄒申,2001)。測試真實性標(biāo)準(zhǔn)對于我們開發(fā)、評價某項測試是極為有用的,它可以幫助我們在設(shè)計時打開思路。
交互性指被試在完成一件測試任務(wù)時,涉及到的個人特征類型及程度。簡單地說就是在測試所涉及的任務(wù)中學(xué)生的參與程度。參與程度越高,測試的交互性也就越強。
影響指對社會、教育制度,以及對處于這個制度內(nèi)的個人的影響。前者為宏觀層次的影響,后者為微觀層次的影響。結(jié)合影響,Bachman引入了“反撥作用(washback)”的概念。它是目前語言測試研究者和操作者最感興趣的話題之一,特指語言測試,尤其是外語測試對相應(yīng)的教學(xué)和學(xué)習(xí)產(chǎn)生的影響。人們雖然早已認(rèn)識到測試的巨大影響,但對這種影響進行大量而深入的研究是近幾十年的事(Hughes1989;Alderson Wall1993;BachmanPalmer1996)。這些研究主要集中在以下幾個方面:反撥作用是否存在;反撥作用是怎樣起作用的;影響反撥作用的因素;怎樣減少負面反撥作用,提高正面反撥作用,等等。隨著研究的深入,人們發(fā)現(xiàn)測試的反撥作用比預(yù)見的要復(fù)雜。其復(fù)雜性源于語言測試的復(fù)雜性和教學(xué)本身的復(fù)雜性,以及兩者之間的不可分性(AldersonWall1993)。測試的巨大影響及反撥作用的復(fù)雜性使反撥作用研究變得非常重要。
可實踐性,如果說前5項都是圍繞分?jǐn)?shù)轉(zhuǎn)的話,這一項主要涉及將測試付之實施的方法,在更大程度上,涉及一項測試能否開發(fā)和使用。比如為實施某測試所需財力、物力資源如超過可利用的財力、物力,這個測試就不切實際了,可以說,在設(shè)計測試的每一個階段都要考慮可實踐性,它會影響我們的決定,不是做出修改。
在測試學(xué)界,傳統(tǒng)的看法認(rèn)為上述這些性質(zhì)互不相干,或片面地強調(diào)其中一個特征。而Bachman的觀點是:在把這些性質(zhì)付諸實施時要考慮三個原則:(1)最強調(diào)的應(yīng)是測試的整體有用性,而不是影響有用性的個別性質(zhì);(2)測試的個別性質(zhì)不能單獨評價,必須就它們在測試的整體有用性的共同影響進行評估;(3)測試有用性和不同性質(zhì)之間的適當(dāng)平衡不能作一般的規(guī)定,而應(yīng)根據(jù)每一個特定的測試情況決定。
四、語言測試研究的新進展
1.基于任務(wù)的語言測試(Task-based Language Assessment,簡稱TBLA)
九十年代以來,隨著任務(wù)語言教學(xué)法的應(yīng)用,并不斷得到發(fā)展,隨著語言教學(xué)的主要目標(biāo)從具體的語言知識的學(xué)習(xí)轉(zhuǎn)向系統(tǒng)的交際能力的培養(yǎng),測試學(xué)生使用語言交際的能力日趨重要。TBLA隨之成為研究熱點(Brindely1994),它是交際性測試的最新發(fā)展。2000年在加拿大溫哥華召開的第22屆國際語言測試研討會,其中一個主題就是“Putting tasks the test’Language Testing于2002年第4期出專刊討論TBLA,這足以說明TBLA受到關(guān)切的程度。2007年9月21-23日在比利時召開的第一屆國際任務(wù)教學(xué)研討會中測試學(xué)家就從TBLA的角度談到了任務(wù)教學(xué)的開展。任何測試程序中涉及觀察真實生活中的行為或模仿真實生活的活動,以此進行評價的都可稱之為TBLA(Bachman,2002;Norris,Brown)。國外許多現(xiàn)行的考試采用的都是TBLA,比如:IELTS(International English Language Testing System),BEST(Basic English Skills Test),CLBA(Canadian Language Benchmarks Assessment)等。教育部2001年7月制定的《英語課程標(biāo)準(zhǔn)》明確指出:“教師應(yīng)該避免單純傳授語言知識的教學(xué)方法,盡量采用‘任務(wù)型’的教學(xué)途徑”(2001)。“語言課程的改革要通過測試改革來實現(xiàn)”(Alderson 1986)。因此,隨著任務(wù)語言教學(xué)法在我國的英語教學(xué)中不斷推廣,與之相對應(yīng)的TBLA的發(fā)展也不應(yīng)忽視。
2.計算機適應(yīng)性語言測試(Computer-adaptive Language Testing,簡稱CALT)
CALT的理論基礎(chǔ)主要是心理學(xué)程序教學(xué)思想和現(xiàn)代教育測量理論。具體說來,兩種理論成為CALT發(fā)展的主要依據(jù),即難度可變性測試(Flexi-level Tests)和項目反應(yīng)理論(Item Response Theory),在進行CALT時,計算機根據(jù)這兩種理論來生成適合每個考生能力的試題。人們有時稱CALT為“量體裁衣”式測試(Tailored Test)。CALT的主要優(yōu)點有:(1)保證測試有較高的信度和效度;(2)具有良好的反饋作用;(3)測試安全性高;(4)測試的人性化加強;(5)測試的科學(xué)化和標(biāo)準(zhǔn)化;(6)開拓新題型;(7)測試開發(fā)的規(guī)模化。Brown從試卷的設(shè)計、評分、后勤(如軟件、硬件、設(shè)備、漏題等)方面闡述了CALT面臨的問題。他把這些問題歸納為:怎樣對CALT進行試測?CALT是否應(yīng)有一個標(biāo)準(zhǔn)長度或以考生的實際情況而異?怎樣對CALT項目進行取樣?改變CALT項目的難度會產(chǎn)生什么結(jié)果?如何對CALT進行評分?如何處理考生漏題的問題?怎樣避免漏題?等。Brown認(rèn)為我們還要針對依據(jù)CALT的分?jǐn)?shù)所作的推論的概化性進行研究。隨著我國計算機網(wǎng)絡(luò)的飛速發(fā)展,2004年1月頒布實施的《大學(xué)英語課程教學(xué)要求(試行)》中對課程體系的要求是:“該課程體系不僅包括傳統(tǒng)的面授課程以外,更應(yīng)注重開發(fā)基于計算機—網(wǎng)絡(luò)的大學(xué)英語課程……”。同時我國的NMET、CET、PETS等大規(guī)模測試的組織和實施費時費力,而且不少測試中存在著信度和效度偏低、起到負面的反撥作用等問題,CALT為我們開辟了一條可行之路。
3.被試特征研究
同外語教學(xué)界由研究教學(xué)方法轉(zhuǎn)移到研究學(xué)習(xí)者本身上來一樣,被試特征對測試行為的影響也是當(dāng)前測試界十分關(guān)心的問題。被試特征包括文化背景、背景知識、認(rèn)知能力、性別和年齡等(Bachman,1990)。在英國的UCLES(University of Cambridge Local Examination Syndicate)和美國的ETS(Educational Testing Service)合作,就FCE(First Certification in English)和TOEFL對比研究,其中一個很重要的問題就是研究被試特征對測試行為的影響,它是目前該領(lǐng)域最大的一個研究項目。研究在Milanovic和Bachman的指導(dǎo)下進行,研究范圍主要包括兩個方面:(1)社會心理因素,包括態(tài)度、動機、焦慮感和努力程度四個因素;(2)策略因素,包括認(rèn)知策略、元認(rèn)知策略和交際策略。在談到研究被試特征及測試方法因素對測試行為影響的意義時,Bachman(1990)指出,隨著個人特征及測試方法對測試行為影響研究的不斷深入,測試開發(fā)人員對那些特征因素與方法因素產(chǎn)生交互作用會了解得更透徹,并在實踐中能夠設(shè)法減少這些因素對測試行為帶來的影響,為被試最大限度地發(fā)揮其測試水平提供機會,這樣我們就會更好地、更公正地測量語言能力。
4.電子評分系統(tǒng)(e-rater)
由于行為測試受到重視,語言測試中會出現(xiàn)較多主觀題目。主觀題的批改既費時又費力,且目標(biāo)不宜掌握。研究者嘗試用計算機來對被試主觀題的答題情況進行評分。經(jīng)過5年的努力,ETS(Educational Testing Service)采用先進的計算語言學(xué)技術(shù)成功地開發(fā)了一套電子作文打分系統(tǒng)(Electronic Essay Rater,簡稱e-rater)。與人工閱卷相比,其準(zhǔn)確率已達87%至94%。e-rater的開發(fā)和利用,大大降低了閱卷的成本,將會引起測試評分的改革。e-rater系統(tǒng)的設(shè)計原理是,根據(jù)評分專家事先評定的評估作文成績的標(biāo)準(zhǔn),計算機自動分析被試作文的特征,并與專家設(shè)定的特征相對照,然后給出一個等級。該系統(tǒng)實行6分制。如果被試文章內(nèi)容切題,結(jié)構(gòu)合理,邏輯性強,句式、用詞等富有變化,e-rater可給出5-6分。如果被試作文不具備這些特征,得分自然很低。目前,e-rater還不能完全取代人工閱卷,當(dāng)e-rater和人工閱卷的結(jié)果出現(xiàn)較大差異時,ETS再請第三位閱卷人對被試的作文進行評閱,從而也提高了作文閱卷的信度。他們的下一個目標(biāo)是進一步提高e-rater的準(zhǔn)確率,并開發(fā)其診斷和解釋功能。可以相信,隨著e-rater功能的不斷完善,總有一天人們會對自己閱卷的思維過程有一個透徹的了解。而且隨著語音合成技術(shù)的發(fā)展,這樣的電子口語打分系統(tǒng)也將會實現(xiàn)。
五、結(jié)語
作為一門科學(xué)化、專業(yè)化的學(xué)科,語言測試學(xué)有著廣闊的發(fā)展前景。可以相信,隨著語言學(xué)和語言教學(xué)方法的不斷發(fā)展創(chuàng)新,語言測試學(xué)也會不斷發(fā)展,日臻完善,并最終更為有效地為外語教學(xué)服務(wù)。
參考文獻:
[1]Alderson.C D.Wall.Does washback exist[J].Applied Linguistics,199314/2:115-129.
[2]Bachman.L.F Fundamental Considerations in Language Testing[M].Oxford:OUP,1990.
[3]Spolsky.B.The limit of authenticity in language testing.Language Testing,1985,2,(1).
[4]韓寶成.語言測試:理論,實踐與發(fā)展[J].外語教學(xué)與研究,2000(1).
[5]李筱菊.語言測試的科學(xué)藝術(shù)[M].長沙:湖南教育出版社,1997.
[6]鄒申.簡明英語測試教程[M].北京:高等教育出版社,2000.
本文為2008年度廣西工學(xué)院教學(xué)改革立項項目成果(編號:J0811)