從入學(xué)測(cè)試看學(xué)生英語(yǔ)應(yīng)用能力發(fā)展態(tài)勢(shì)*
——以自建題庫(kù)為例

2012-12-02 01:48:52邢宏

外語(yǔ)與翻譯 2012年2期

關(guān)鍵詞：語(yǔ)言英語(yǔ)能力

邢宏

(海南大學(xué)外國(guó)語(yǔ)學(xué)院，海南海口570228)

從入學(xué)測(cè)試看學(xué)生英語(yǔ)應(yīng)用能力發(fā)展態(tài)勢(shì)*
——以自建題庫(kù)為例

邢宏

(海南大學(xué)外國(guó)語(yǔ)學(xué)院，海南海口570228)

本文采用Bachman的語(yǔ)言能力觀，以自建題庫(kù)的學(xué)生入學(xué)摸底考試的試做和試測(cè)考卷為藍(lán)本，將聽(tīng)力部分的應(yīng)用型篇章和題目作為目標(biāo)參照，依據(jù)準(zhǔn)則參照測(cè)量和項(xiàng)目反映理論，利用GITEST軟件包對(duì)試卷本身及測(cè)試結(jié)果進(jìn)行了信度、效度尤其是結(jié)構(gòu)效度的驗(yàn)證，用定量的方式提供解釋依據(jù)。發(fā)現(xiàn)學(xué)生的英語(yǔ)應(yīng)用能力并非想象得那樣差，有相當(dāng)一部分學(xué)生已經(jīng)顯示了基本的英語(yǔ)應(yīng)用能力素養(yǎng)，還有部分學(xué)生已經(jīng)具備一定的綜合應(yīng)用能力。這也為教師今后的教學(xué)實(shí)踐提供了參考依據(jù):教師的責(zé)任應(yīng)該是如何將這種能力挖掘延伸使其具備可持續(xù)發(fā)展的態(tài)勢(shì)，而不僅僅只在”培養(yǎng)”上下功夫。

信度效度;自創(chuàng)題庫(kù);入學(xué)摸底測(cè)試;應(yīng)用能力;發(fā)展態(tài)勢(shì)

著力培養(yǎng)學(xué)生的“綜合應(yīng)用能力”是大學(xué)英語(yǔ)《教學(xué)要求》突出強(qiáng)調(diào)的教學(xué)目標(biāo)。是當(dāng)前大學(xué)英語(yǔ)教學(xué)的重中之重。下大力氣培養(yǎng)學(xué)生的“綜合應(yīng)用能力”，言下之意就是學(xué)生的英語(yǔ)應(yīng)用能力弱或者根本未達(dá)到應(yīng)有的程度。事實(shí)是否如此，我們先研究一下高中英語(yǔ)畢業(yè)學(xué)生需達(dá)到的標(biāo)準(zhǔn)。《高中英語(yǔ)新課標(biāo)》表述高中英語(yǔ)課程的總目標(biāo)是培養(yǎng)學(xué)生的綜合語(yǔ)言運(yùn)用能力。七級(jí)是高中階段必須達(dá)到的級(jí)別要求，八級(jí)和九級(jí)是為愿意進(jìn)一步提高英語(yǔ)綜合語(yǔ)言運(yùn)用能力的高中學(xué)生設(shè)計(jì)的目標(biāo)。如此說(shuō)來(lái)，完成高中英語(yǔ)七級(jí)的學(xué)習(xí)就意味著學(xué)生入大學(xué)之初就已經(jīng)具有了一定水平的英語(yǔ)綜合能力了。在大學(xué)英語(yǔ)的教學(xué)中，學(xué)生的英語(yǔ)應(yīng)用能力到底需要‘培養(yǎng)’還是‘提高延伸’?就此引發(fā)了我們課題的一項(xiàng)核心研究:創(chuàng)建以深化能力立意，突出能力考查為宗旨的入學(xué)摸底試題庫(kù)，以便考察、預(yù)測(cè)和確認(rèn)學(xué)生英語(yǔ)應(yīng)用能力態(tài)勢(shì)及發(fā)展走向。

一、題庫(kù)創(chuàng)建的理論框架——語(yǔ)言測(cè)試?yán)碚摰恼Z(yǔ)言能力觀

語(yǔ)言能力是語(yǔ)言習(xí)得過(guò)程和測(cè)試研究的對(duì)象，在語(yǔ)言教學(xué)和測(cè)試中具有非常重要的作用。反過(guò)來(lái)，語(yǔ)言測(cè)試也能提供實(shí)證以研究語(yǔ)言能力的本質(zhì)。就語(yǔ)言測(cè)試而言，決定結(jié)構(gòu)效度的先決條件就是對(duì)語(yǔ)言能力的操作性定義［1］(Bachman，1990)。

語(yǔ)言測(cè)試?yán)碚摼驼Z(yǔ)言能力的討論至今已一個(gè)多世紀(jì)，經(jīng)歷了四個(gè)時(shí)期即:前科學(xué)時(shí)期、心理測(cè)量一結(jié)構(gòu)主義的結(jié)構(gòu)主義時(shí)期、心理語(yǔ)言學(xué)一社會(huì)語(yǔ)言學(xué)時(shí)期和交際語(yǔ)用時(shí)期［8］(Spolsky，1978轉(zhuǎn)引自王克非，2000)。前三個(gè)時(shí)期中，無(wú)論是Lado為代表的語(yǔ)言能力模型，還是以O(shè)ller和Spolsky為代表的語(yǔ)言能力模式，在科學(xué)性或理論性上備受詬病:它們對(duì)語(yǔ)言能力的概括都是靜態(tài)的，都是從知識(shí)和結(jié)構(gòu)的角度，而不是從應(yīng)用的角度來(lái)概括。這些模式關(guān)注對(duì)語(yǔ)言能力的描寫，其研究?jī)H局限于語(yǔ)言系統(tǒng)內(nèi)部，出發(fā)點(diǎn)和歸宿點(diǎn)在于追求對(duì)純語(yǔ)言結(jié)構(gòu)的分解。上世紀(jì)90年代，繼Hymes及Canale＆Swain提出交際能力之后，Bachman［1］(1990:81－109)提出了新的交際語(yǔ)言能力模式。他突破了結(jié)構(gòu)主義局限，把語(yǔ)言能力看成是由認(rèn)知因素貫穿的，在應(yīng)用中體現(xiàn)出來(lái)的能力。Bachman認(rèn)為，語(yǔ)言交際能力就是把語(yǔ)言知識(shí)和語(yǔ)言使用的場(chǎng)景特征結(jié)合起來(lái)創(chuàng)造并解釋意義的能力。按照這種模型開(kāi)發(fā)的語(yǔ)言測(cè)試既注重被測(cè)試者的語(yǔ)言知識(shí)，又考慮到受試者在有意義的語(yǔ)境中能否恰當(dāng)?shù)皿w地使用這種語(yǔ)言的能力。Bachman的交際語(yǔ)用模式博采眾長(zhǎng)，全面描述了語(yǔ)言能力的性質(zhì)及其組成部分。可以說(shuō)是迄今為止最完善的一個(gè)理論模式，代表了90年代語(yǔ)言測(cè)試界在探討語(yǔ)言能力性質(zhì)方面的進(jìn)展。

Bachman的理論尤其對(duì)交際語(yǔ)言能力測(cè)試方面的概念定義研究起了十分重要的推動(dòng)作用，如對(duì)測(cè)試構(gòu)想的定義和交際測(cè)試的定義［8］。在語(yǔ)言測(cè)試中，構(gòu)想的定義非常重要，因?yàn)閷?duì)考生在考試中的表現(xiàn)的解釋必須依據(jù)測(cè)試的構(gòu)想［3］。“所謂構(gòu)想，就是假設(shè)的概念”［4］。題庫(kù)的理論框架依據(jù)Bachman的語(yǔ)言能力觀將綜合應(yīng)用能力定義為語(yǔ)言能力。在語(yǔ)言測(cè)試?yán)碚摷罢Z(yǔ)言習(xí)得研究中“語(yǔ)言能力”即是一種構(gòu)想。構(gòu)想是一種潛在的理論形式，其具體的體現(xiàn)是試卷和測(cè)試成績(jī)，也就是說(shuō)測(cè)試成績(jī)是學(xué)生語(yǔ)言能力的外部表現(xiàn)。我們就是在假設(shè)，我們借助測(cè)試和他所包含的每個(gè)題目所引發(fā)的這一種語(yǔ)言行為可以恰當(dāng)、充分、有意義，從而有效的反映這一種語(yǔ)言能力［10］。測(cè)試本身以及測(cè)試的結(jié)果是否真實(shí)有效以及所測(cè)的語(yǔ)言能力是否真實(shí)反映了學(xué)生的實(shí)際狀況，正是本文論述的焦點(diǎn)。

二、研究方法

本研究是課題“大學(xué)英語(yǔ)電腦調(diào)適性測(cè)試系統(tǒng)(CALT)及題庫(kù)創(chuàng)建”的后半部分，目的在于“創(chuàng)建一個(gè)信度效度較高、有診斷性，有預(yù)測(cè)性，重語(yǔ)言應(yīng)用能力和交際功能，以新生為對(duì)象的，以大學(xué)英語(yǔ)入學(xué)摸底測(cè)試為內(nèi)容的標(biāo)準(zhǔn)化試題庫(kù)”。題庫(kù)的指向是英語(yǔ)入學(xué)摸底測(cè)試針對(duì)性非常明確:考察學(xué)生的英語(yǔ)綜合應(yīng)用能力，特別通過(guò)加大聽(tīng)力和閱讀應(yīng)用類題型的權(quán)重來(lái)觀察分析學(xué)生英語(yǔ)應(yīng)用能力的態(tài)勢(shì)及發(fā)展走向。

本研究采用定量分析手段，首先依據(jù)準(zhǔn)則參照測(cè)量設(shè)計(jì)、開(kāi)發(fā)試題.測(cè)試結(jié)果是依據(jù)一個(gè)準(zhǔn)則或能力范圍，而不是其他考生的表現(xiàn)來(lái)解釋的。換句話說(shuō)，分?jǐn)?shù)分析不依靠考生之間的差異或分?jǐn)?shù)分布的一種常態(tài)來(lái)解釋。此外，項(xiàng)目反應(yīng)理論“一個(gè)受試者在某個(gè)測(cè)試題或測(cè)試項(xiàng)上的表現(xiàn)受測(cè)試項(xiàng)的難度和受試者的能力的影響”［1］，不僅為我們的計(jì)算機(jī)化調(diào)適性測(cè)試提供理論支持，幫助我們揭示測(cè)試項(xiàng)目的難度與受試者能力之間的關(guān)系;更為測(cè)試驗(yàn)證收集了證據(jù)、為試題的效度提供了強(qiáng)有力地理論解釋。

重視語(yǔ)言測(cè)試?yán)碚摰难芯浚莆彰}的原則，在試卷編制過(guò)程中努力把握信度、效度及其它評(píng)價(jià)指標(biāo)之間的平衡關(guān)系是題庫(kù)創(chuàng)建前必做的功課。試題生產(chǎn)的流程基本按照分任務(wù)——選材料——審材料——改寫材料——寫題——審題——改題——填覆蓋分析表——拼題——試做——審全套題——試測(cè)——結(jié)果分析等十六個(gè)步驟進(jìn)行［6］，07年至今，完成所有備選題目的生產(chǎn)，并以紙質(zhì)試卷的形式抽樣請(qǐng)08級(jí)新生進(jìn)行3套試題的試做，請(qǐng)09級(jí)新生完成8套題目的試測(cè)工作。全部的題目采用GITEST軟件包進(jìn)行統(tǒng)計(jì)分析。檢驗(yàn)合格的題目將按照計(jì)算機(jī)適應(yīng)性語(yǔ)言測(cè)試的技術(shù)要求進(jìn)行編程入庫(kù)，供學(xué)生在電腦上完成做答。

(一)題庫(kù)前測(cè)情況

闡釋特定的考試成績(jī)是否準(zhǔn)確反映了學(xué)生的語(yǔ)言能力，信度和效度是在設(shè)計(jì)和使用測(cè)試時(shí)首要關(guān)注的特征。Bachman［2］(1996)將信度定義為“測(cè)試的一致性”也就是指測(cè)試結(jié)果的可信度、可靠度。測(cè)試信度是測(cè)試效度的前提和基礎(chǔ)，一份試卷的測(cè)試結(jié)果如果缺乏信度，就沒(méi)有使用價(jià)值。為了確保試題的質(zhì)量控制，我們先在08級(jí)入學(xué)初期小范圍對(duì)三套題目試做，三套題的客觀題目均由聽(tīng)力(20題)，詞匯與語(yǔ)法結(jié)構(gòu)(10題)，綜合填空(20題)以及閱讀(20題)組成，每題一分，滿分70分。試做的結(jié)果檢驗(yàn)用GITEST軟件包進(jìn)行全面的分析評(píng)估。

衡量一套試卷質(zhì)量的信度指標(biāo)不僅可以從它的平均值(Mean)，標(biāo)準(zhǔn)差(Sd)，答對(duì)率(P)，及難度(Pd)，區(qū)分度(Rbis)反映出信度的高低，更可以通過(guò)計(jì)算R11和信度系數(shù)α來(lái)確定信度值的高低范疇。單就重要指標(biāo)來(lái)說(shuō)，首先是答對(duì)率，多項(xiàng)選擇題的答對(duì)率以0.6左右為好.難度(Pd)的取值范圍在1～25之間，13為理想值;理想的R11要求達(dá)到0.9，合格的信度取值在0～1之間;α值達(dá)到0.80最佳。宏觀的區(qū)分度為Rbis，通常Rbis≥0.3定為考試的質(zhì)量分析指標(biāo)之一(李筱菊，2001:126－128).依據(jù)以上的各項(xiàng)指標(biāo)，從表1可以看出，08級(jí)試做的三套題目信度良好，雖然難度系數(shù)Pd，R11和α未到達(dá)理想值，但是三套試卷的質(zhì)量是過(guò)關(guān)的.試做為我們提供了詳實(shí)的數(shù)據(jù)和難得的經(jīng)驗(yàn).表2顯示，09級(jí)經(jīng)修改重組試測(cè)的八套卷的各項(xiàng)質(zhì)量控制指標(biāo)都達(dá)到要求。題目數(shù)量增大(聽(tīng)力和詞匯與語(yǔ)法結(jié)構(gòu)部分各增加了10題，使客觀題總數(shù)達(dá)90題)，難度系數(shù)提高但試卷質(zhì)量更優(yōu)，關(guān)鍵指標(biāo)R11已接近0.9的理想值，α值也達(dá)到0.80或者近似0.8的最佳水平，Rbis全部超過(guò)≥0.3的合格標(biāo)準(zhǔn)。可以說(shuō)09級(jí)試測(cè)的八套卷信度更高。

表2 09級(jí)八套試測(cè)客觀題目客觀信度數(shù)據(jù)(90分)

表2顯示，信度參照指標(biāo)說(shuō)明試卷具有可靠性，試卷的測(cè)試結(jié)果具有較高的可信度。然而效度對(duì)于我們的摸底考試至關(guān)重要。無(wú)論08級(jí)的試做還是09級(jí)的前測(cè)其信度指標(biāo)旨在為考試效度驗(yàn)證提供理論指導(dǎo)和方法框架。測(cè)試分?jǐn)?shù)在多大程度上準(zhǔn)確代表了受試者的語(yǔ)言能力是我們最為關(guān)注的問(wèn)題:它表明測(cè)試與測(cè)試目標(biāo)的關(guān)聯(lián)程度。效度高的測(cè)試說(shuō)明測(cè)試在內(nèi)容和結(jié)構(gòu)等方面達(dá)到了測(cè)試和學(xué)生語(yǔ)言能力的高度結(jié)合，而效度低的測(cè)試則不能反映出學(xué)生的真實(shí)語(yǔ)言能力(周世界2009)。構(gòu)想效度一方面指測(cè)試測(cè)到理論假設(shè)的某種特質(zhì)的程度，另一方面指測(cè)試能夠證實(shí)的理論本身的合理性和有效程度。構(gòu)想效度在操作方面的主要挑戰(zhàn)仍然是語(yǔ)言能力的定義問(wèn)題 (Bachman，1990)。因此效度驗(yàn)證十分必要，本文主要依據(jù)前測(cè)試卷中的聽(tīng)力數(shù)據(jù)結(jié)果，在構(gòu)想效度概念下，對(duì)客觀試題從實(shí)證的角度進(jìn)行效度驗(yàn)證。

(二)聽(tīng)力題型設(shè)計(jì)

如前所述，學(xué)生的英語(yǔ)綜合應(yīng)用能力是入學(xué)測(cè)試考察的重點(diǎn)，題型設(shè)置是關(guān)鍵。為了提高考試的效度，試卷中主要通過(guò)加大聽(tīng)力和閱讀應(yīng)用型語(yǔ)篇的權(quán)重得以體現(xiàn)。寫題的原則更是突出能力考查。目的是通過(guò)測(cè)試對(duì)象在有限的測(cè)試任務(wù)樣本中的表現(xiàn)推斷出測(cè)試對(duì)象的語(yǔ)言能力。聽(tīng)力題型的設(shè)計(jì)側(cè)重在創(chuàng)建真實(shí)情景下測(cè)量受試者語(yǔ)言的交際能力，即在正常真實(shí)的交際環(huán)境下學(xué)生能否聽(tīng)懂對(duì)話、獨(dú)白等各種類型的材料，能否提取材料大意和重要細(xì)節(jié)，明白說(shuō)話人言外之意，推斷類型、語(yǔ)用含義和語(yǔ)言的社會(huì)語(yǔ)言恰當(dāng)性等。相比08級(jí)試做題目的專人朗讀錄音，09級(jí)試測(cè)的音頻內(nèi)容盡量采用真人真語(yǔ)來(lái)營(yíng)造真實(shí)的場(chǎng)景以突出真實(shí)生活的特征，如廣播電視的新聞播報(bào)，訪談或現(xiàn)場(chǎng)節(jié)目等。確保聽(tīng)力測(cè)試任務(wù)的真實(shí)性、明確目的語(yǔ)使用場(chǎng)景的聽(tīng)力需要來(lái)實(shí)現(xiàn)聽(tīng)力測(cè)試構(gòu)想，是使聽(tīng)力測(cè)試具有效度，尤其是構(gòu)想效度的重要保證(何勇斌2005)。

為了準(zhǔn)確把握每道題目的質(zhì)量和層次，我們對(duì)即將入庫(kù)的備選篇章每一篇每一題都做了如下的記錄(見(jiàn)表3)。這樣的記錄統(tǒng)計(jì)一目了然，對(duì)后期的題目效度研究大有裨益。聽(tīng)力篇章的最后一篇，題目相對(duì)難一些。偏重選擇實(shí)用性材料。對(duì)理解的要求會(huì)更高:需要綜合概括或間接推斷才能獲取信息。本文主要以這8篇的32個(gè)題目為藍(lán)本，用定量的方式提供解釋依據(jù)。

表3 備選篇章信息記錄樣卡

三、結(jié)果分析

驗(yàn)證學(xué)生對(duì)英語(yǔ)應(yīng)用型題目的把握程度，就是將聽(tīng)力實(shí)用型篇章及題目作為目標(biāo)參照，將其測(cè)試結(jié)果與全套試卷及聽(tīng)力II做宏觀和微觀的數(shù)據(jù)分析對(duì)比。第一步先利用相關(guān)證據(jù)對(duì)試卷外部結(jié)構(gòu)進(jìn)行整體效度剖析。假設(shè)整套題與聽(tīng)力II有明顯相關(guān)性，聽(tīng)力II又與各大題呈顯著相關(guān)，就揭示考卷各大題之間具有同質(zhì)性，證明試卷考到了它要考的構(gòu)念，即考卷效度高。第二步再通過(guò)題目答對(duì)率，區(qū)分度，難易度這些指標(biāo)對(duì)內(nèi)部數(shù)據(jù)進(jìn)行梳理。如果整套題的難易度與聽(tīng)力II的難易度以及備選篇章題目的難易度大致相當(dāng)，三部分的答對(duì)率變化幅度不大，則說(shuō)明加權(quán)的應(yīng)用型題目對(duì)于部分學(xué)生是可接受的。另外如果數(shù)據(jù)顯示宏觀區(qū)分度，，篇章各小題區(qū)分度以及答案項(xiàng)答對(duì)率都達(dá)到質(zhì)量控制指標(biāo)要求，從構(gòu)想效度的角度觀察則說(shuō)明分?jǐn)?shù)意義的一致性程度高，因而對(duì)目標(biāo)行為推測(cè)的可信度也就較高，推論的結(jié)果也就具有說(shuō)服力，從而印證了我們的測(cè)試構(gòu)想:即學(xué)生在入學(xué)初始已顯現(xiàn)或者具備一定的英語(yǔ)應(yīng)用能力。

(一)相關(guān)性分析

表4 相關(guān)數(shù)據(jù)統(tǒng)計(jì)

表4反映出聽(tīng)力II`和整套題的相關(guān)度最低0.65，最高0.84，說(shuō)明每套題的聽(tīng)力II與總分都呈強(qiáng)相關(guān)，考得是同一構(gòu)念，完全體現(xiàn)了考試凸顯應(yīng)用能力的宗旨。此外還可以看出聽(tīng)力II與聽(tīng)力I相關(guān)度在0.33～0.55之間，與語(yǔ)法在0.40到0.63之間，與 Cloze的相關(guān)度在 0.3～0.63之間，與閱讀 1在0.33～0.58之間(閱讀2是我們課題的實(shí)驗(yàn)性嘗試，包括5段公共場(chǎng)所閱讀資源，每段一題一分，共5分。這里只列表)，說(shuō)明它們既不是強(qiáng)相關(guān)，也不是相互獨(dú)立，各項(xiàng)之間相互有關(guān)聯(lián)，但又不互相包含，意味著這幾部分在考同一個(gè)構(gòu)想時(shí)有其獨(dú)立性。揭示出各大題均考到預(yù)設(shè)的內(nèi)容，考點(diǎn)有別于其他大題。所有這些相關(guān)證據(jù)都表明前測(cè)的八套試卷具有構(gòu)想效度，即在測(cè)試語(yǔ)言應(yīng)用能力上具有有效性。同時(shí)聽(tīng)力II與各大題之間的這種趨同關(guān)系也證明考卷考到了學(xué)生的應(yīng)用能力。測(cè)試題目和所假設(shè)的語(yǔ)言能力基本吻合，即測(cè)試有良好的效度。

(二)測(cè)試分?jǐn)?shù)的描述統(tǒng)計(jì)結(jié)果

題目的區(qū)分度是反映題目質(zhì)量的一個(gè)重要指標(biāo)。區(qū)分度可以反映出測(cè)試內(nèi)容能否把被測(cè)試者中高水平考生的和低水平考生區(qū)分開(kāi)來(lái)。其質(zhì)量合格指標(biāo)是≥0.3，越高越好。表5中聽(tīng)力II宏觀區(qū)分度Rbis全部合格，多數(shù)趨于≥0.5的理想值，說(shuō)明篇章聽(tīng)力具有不錯(cuò)的區(qū)分度，能區(qū)分出中高水平學(xué)生和成績(jī)偏弱的學(xué)生。

答案項(xiàng)區(qū)分度rbis，的合格指標(biāo)也是≥0.3，32題中系數(shù)超過(guò)0.6有5題，0.5 ～0.59 有8題。0.4～0.49 有10 題，0.3～0.39有6題，0.24～0.28有3題。除了這3題需謹(jǐn)慎對(duì)待外，其余的每一題都可以判定中高水平考生對(duì)應(yīng)用型題目的解答好于偏差的考生。答案項(xiàng)平均分m的數(shù)值幅度為1～25，大于14為佳，除2題未達(dá)標(biāo)，其余30題均達(dá)到要求，從一個(gè)側(cè)面反映出答對(duì)題目的學(xué)生對(duì)這種應(yīng)用型題目已基本掌握，顯示他們具備一定的英語(yǔ)應(yīng)用能力。

表5還反映出，整套的難易度Pt同聽(tīng)力II難易度Pi以及篇章各小題難易度Pd大致相當(dāng)，32個(gè)小題中有一半達(dá)到或超過(guò)13的理想值。說(shuō)明至少有50%學(xué)生答對(duì)最后一篇一半以上的題目。說(shuō)明部分中等程度的學(xué)生也能夠應(yīng)付具有一定難度的題目。從答對(duì)率分析，聽(tīng)力II絕大多數(shù)都超過(guò)60%理想比率，跟表2中整套題的答對(duì)率大致相當(dāng)。答案項(xiàng)達(dá)到60%答對(duì)率的題目13個(gè)(占32題的40.6%)，達(dá)到50% 的7題，兩項(xiàng)加總就表明答案項(xiàng)答對(duì)率超過(guò)50%的題目達(dá)20題，占32題的62.5%。再次證明并不是單有程度好的學(xué)生才答對(duì)難題。具體到答案項(xiàng)答對(duì)率低于40%的9題，即F27，F(xiàn)29，G28，H29，I29，J28，J30，L27，L30，難易度 Pd 最低 14.45，最高17.99，無(wú)疑顯示它們統(tǒng)統(tǒng)都是困難度很大的題目，而題目的區(qū)分度卻表明除H29和J28未達(dá)到0.3的合格線外，其它7題區(qū)分度良好，9題答案項(xiàng)平均分m均保持在14.18至15.82之間，更加證明答對(duì)這些題目的學(xué)生并不是靠猜測(cè)得到答案而是真正會(huì)做。同時(shí)9道難題(占32題的28%)的答對(duì)率接近30%，將真正很棒的考生凸顯出來(lái)，也進(jìn)一步說(shuō)明這部分學(xué)生已經(jīng)具備一定的英語(yǔ)應(yīng)用能力。

構(gòu)想效度是分?jǐn)?shù)解釋的證據(jù)基礎(chǔ)，它保證了分?jǐn)?shù)解釋的合理性，使得以分?jǐn)?shù)為基礎(chǔ)的理論推斷具備有用性(李清華)。同時(shí)效度又是一個(gè)多層面的整體概念，需要采用多維的、多層次的、多側(cè)面的證據(jù)支持。這些證據(jù)之間是互補(bǔ)而不是互相替代的關(guān)系。綜合以上分析可以推斷，聽(tīng)力測(cè)試題目很好地反映出學(xué)生的語(yǔ)言水平，試卷具有很高的構(gòu)想效度，統(tǒng)計(jì)過(guò)程中所采用多種方法、多種指標(biāo)，從不同角度都驗(yàn)證同一構(gòu)想效度即考生已經(jīng)顯示或具備一定的英語(yǔ)應(yīng)用能力。

表5 測(cè)試分?jǐn)?shù)的統(tǒng)計(jì)結(jié)果

H 卷 11.38 11.75 .62 .55 Pd 12.09 12.92 14.67 13.00 P .59 .51 .34 .50 rbis .62 .60 .27 .40 m 14.63 14.90 14.18 14.27 I卷 12.38 13.68 .43 .34 Pd 11.80 12.62 14.55 13.42 P .62 .54 .35 .46 rbis .39 .28 .60 .53 m 13.91 14.39 13.86 15.19 K 卷 10.89 11.86 .61 .43 Pd 5.70 12.74 9.07 11.29 P .97 .53 .84 .67 rbis .41 .44 .45 .42 m 14.01 14.30 14.89 14.45 J 卷 12.17 12.31 .57 .44 Pd 11.51 15.48 9.71 14.45 P .65 .27 .79 .36 rbis .45 .39 .57 .62 m 13.14 14.17 13.66 14.35 L 卷 12.24 12.83 .52 .40 Pd 17.99 14.49 11.26 9.60 P .11 .36 .67 .80 rbis .40 .32 .57 .48 m 15.74 14.33 14.25 13.66

四、結(jié)語(yǔ)

通過(guò)對(duì)摸底測(cè)試本身以及測(cè)試結(jié)果的信度效度檢測(cè)幫助教師認(rèn)清學(xué)生英語(yǔ)綜合應(yīng)用能力的態(tài)勢(shì)是一項(xiàng)一舉多得的研究。首先創(chuàng)建一套科學(xué)可行試題庫(kù)實(shí)屬必要，而對(duì)入庫(kù)的題目進(jìn)行試做試測(cè)更是必不可少，它使得符合各自學(xué)校校情的自建題庫(kù)更有目的性和針對(duì)性。其次，經(jīng)過(guò)效驗(yàn)的數(shù)據(jù)結(jié)果對(duì)教師的教學(xué)無(wú)疑起到良好的引領(lǐng)作用。本研究就發(fā)現(xiàn)學(xué)生的英語(yǔ)應(yīng)用能力并非想象的差，相反有相當(dāng)一部分學(xué)生已經(jīng)顯示了基本的英語(yǔ)應(yīng)用能力素養(yǎng)，還有部分學(xué)生已經(jīng)具備一定的綜合應(yīng)用能力。教師的責(zé)任應(yīng)該是如何將這種能力挖掘延伸使它們進(jìn)一步發(fā)揚(yáng)光大，而不是只在‘培養(yǎng)’上下功夫。同時(shí)我們也認(rèn)識(shí)到，效度是一個(gè)相對(duì)的概念，它總是針對(duì)于一定的測(cè)試對(duì)象和目的而言的。作為一種間接的測(cè)量手段，通過(guò)抽樣的形式完成對(duì)學(xué)生語(yǔ)言能力的測(cè)試任務(wù)，因而，它不可能達(dá)到百分之百的準(zhǔn)確。另外，經(jīng)審核合格的題目目前只是通過(guò)了紙質(zhì)考試檢測(cè)評(píng)估，最后還需采用項(xiàng)目反應(yīng)理論為數(shù)學(xué)模型建立CALT題庫(kù)，從題庫(kù)中選取符合受測(cè)者語(yǔ)言水平的題目進(jìn)行測(cè)試，屆時(shí)或許可以更加迅速準(zhǔn)確地估計(jì)受測(cè)者的語(yǔ)言能力水平，使得我們的研究得到進(jìn)一步地完善。

［1］Alderson，J.C.，C.Clapham ＆ D.Wall.Language Test Construction and Evaluation［M］.Cambridge:CUP，1995.

［2］Alderson，J.C.＆ J.Banerjee.Language testing and assessment(Part Two)［J］.Language Teaching，2002，(35):79 －113.

［3］Bachman，L.F.Modern language testing at the turn of the century:assuring that what we count counts［J］.Language Testing，2000，17(1):1－42.

［4］Bachman，L.F.Statistical Analyses for Language Assessment［M］.Cambridge:CUP，2004.

［5］Bachman，L.F.Fundamental Considerations in Language Testing［M］.Oxford University Press，1990.

［6］Bachman，L.F，Palmer，A.Language Testing in Practice［M］.Oxford:Oxford University Press，1996.

［7］Cyril J.Weir Communicative Language Testing［M］.Prentice Hall，1990.

［8］J.Charles Alderson語(yǔ)言測(cè)試的設(shè)計(jì)與評(píng)估外［M］.北京:外語(yǔ)教學(xué)與研究出版社，2000.

［9］Douglas，D.Developments in language testing［J］.Annual Review of Applied Linguistics，1995，(15):167 －187.

［10］Shohamy，E.The relationship between language testing and second language acquisition，revisited［J］.System，2000，28(4):541－553.

［11］何勇斌.聽(tīng)力測(cè)試的構(gòu)想效度及其實(shí)現(xiàn)［J］.外語(yǔ)教學(xué)，2005，26(3).

［12］李清華.語(yǔ)言測(cè)試之效度理論發(fā)展五十年［J］.現(xiàn)代外語(yǔ)(季刊)，2006，29(1).

［13］李清華.語(yǔ)言測(cè)試與效度驗(yàn)證——基于證據(jù)的研究方法述介［J］.現(xiàn)代外語(yǔ)(季刊)，2007，3(2).

［14］李筱菊.語(yǔ)言測(cè)試科學(xué)與藝術(shù)［M］.長(zhǎng)沙:湖南教育出版社，2001.

［15］李燕.計(jì)算機(jī)化口語(yǔ)考試的構(gòu)念效度研究［D］.廣州:廣東外語(yǔ)外貿(mào)大學(xué)，2005.

［16］李妍.語(yǔ)言測(cè)試的語(yǔ)言能力理論對(duì)認(rèn)知因素的開(kāi)掘過(guò)程［D］.北京:北京語(yǔ)言大學(xué)，2003.

［17］劉保權(quán).語(yǔ)言測(cè)試與跨文化交際能力研究的接口［M］.保定:河北大學(xué)出版社，2008.

［18］王立非.現(xiàn)代外語(yǔ)教學(xué)論［M］.上海:上海教育出版社，2000.

［19］汪順玉，劉世英.英語(yǔ)專業(yè)八級(jí)考試人文知識(shí)部分測(cè)試效度分析［J］.外語(yǔ)教學(xué)，2007，28(5).

［20］汪順玉.語(yǔ)言測(cè)試構(gòu)念效度研究［M］.成都:四川大學(xué)出版社，2009.

［13］魏紅梅.SPSS對(duì)語(yǔ)言測(cè)試題信度和效度的檢測(cè)分析［J］.四川教育學(xué)院學(xué)報(bào)，2007，(11).

［21］徐蔚.博士生英語(yǔ)運(yùn)用能力測(cè)試的理論分析［A］.第二屆中國(guó)研究生教育學(xué)術(shù)論壇論文集［C］.2007.

［22］楊滿珍.20世紀(jì)90年代國(guó)外語(yǔ)言測(cè)試的發(fā)展［J］.外語(yǔ)教學(xué)，2002，(9).

［23］周世界，鹿學(xué)軍.以因子統(tǒng)計(jì)方法分析語(yǔ)言測(cè)試中的構(gòu)想效度［J］.大連海事大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版)，2009，8(2).

［24］鄒申，楊任明.簡(jiǎn)明英語(yǔ)測(cè)試教程［M］.北京:高等教育出版社，2000.

2012－05－23

海南省教育廳高校科學(xué)研究項(xiàng)目(Hjsk200927;Hjsk201230)

邢宏(1965－)，女，海南海口人，副教授。

從入學(xué)測(cè)試看學(xué)生英語(yǔ)應(yīng)用能力發(fā)展態(tài)勢(shì)*——以自建題庫(kù)為例

一、題庫(kù)創(chuàng)建的理論框架——語(yǔ)言測(cè)試?yán)碚摰恼Z(yǔ)言能力觀

二、研究方法

(一)題庫(kù)前測(cè)情況

(二)聽(tīng)力題型設(shè)計(jì)

三、結(jié)果分析

(一)相關(guān)性分析

(二)測(cè)試分?jǐn)?shù)的描述統(tǒng)計(jì)結(jié)果

四、結(jié)語(yǔ)

從入學(xué)測(cè)試看學(xué)生英語(yǔ)應(yīng)用能力發(fā)展態(tài)勢(shì)*
——以自建題庫(kù)為例