展素賢 段翠霞
語言測評素養(yǎng)源于教育測評中的“測評素養(yǎng)[1]”,是一個復(fù)雜的抽象概念。盡管國內(nèi)外眾多學(xué)者從多角度對語言測評素養(yǎng)做出了不同闡述[2-8],但學(xué)界基本達成共識:語言測評素養(yǎng)是指外語教師對語言測評知識和技能的理解和掌握,是外語教師素養(yǎng)的重要指標(biāo)之一[9,10]。其中,語言測評知識包括對語言測試?yán)碚摗y量概念,如測試信度和效度、試題難度和區(qū)分度等的理解; 語言測評技能包括測試開發(fā)、試題質(zhì)量分析、測試成績解釋與報道能力等。
在當(dāng)下所倡導(dǎo)的“以評促教、以評促學(xué)”的測評實踐中[11],更需我國外語教師具有較高的語言測評素養(yǎng),以開發(fā)較高信度、合適難度和良好區(qū)分度的外語測試題,使之有效反饋外語教與學(xué),保障教育評估的合理性和公正性[12]。 因此,探究高校外語教師語言測評素養(yǎng),有助于了解我國高校外語教師語言測評素養(yǎng)現(xiàn)狀,促進外語教師發(fā)展。
文獻梳理發(fā)現(xiàn),我國已有的外語教師語言測評素養(yǎng)研究中,研究者多聚焦于中小學(xué)英語教師測評素養(yǎng)[13,14],而針對高校外語教師的研究相對較少[15];在有關(guān)高校外語教師語言測評素養(yǎng)的研究中,研究者多采用自編問卷調(diào)查高校外語教師語言測評素養(yǎng)的現(xiàn)狀[16-18],鮮有針對測試開發(fā)實踐,如大型校本外語測試,來考察外語教師語言測評素養(yǎng)現(xiàn)狀的研究。
一般情況下,大型校本外語測試開發(fā)實踐中,大部分試題由本校外語教師自行開發(fā),其各項質(zhì)量指標(biāo),如信度、難度、區(qū)分度等,則取決于本校外語教師是否具有較高的語言測評素養(yǎng)。 因此,通過分析校本外語測試題的信度、各項目難度和區(qū)分度等指標(biāo),可探究外語教師語言測評素養(yǎng)。 本研究以某高校一次校本英語測試客觀題為例,通過對試卷信度、各項目難度及區(qū)分度分析,并結(jié)合對命題教師的半開放式訪談,回答兩個研究問題:
(1)本次校本英語測試客觀題的信度、各項目難度和區(qū)分度是否達到質(zhì)量指標(biāo)?
(2)命題教師對語言測評知識和技能的理解和掌握情況如何?
數(shù)據(jù)采集主要分為以下兩個步驟。
首先采用方便抽樣,從某高校參加大型校本英語測試, 即入學(xué)英語摸底測試的5000 多名新生答題樣本中,抽取了1423 個客觀題答題樣本,采集了相關(guān)定量數(shù)據(jù)。在每份客觀題答題樣本中,有25 道聽力題, 包括3 篇短篇新聞、2 篇長對話和3 篇聽力篇章,以及15 道閱讀理解題,包括3 篇文章,每篇文章各有5 小題,試題均為四選一客觀選擇題。
隨后,從此次入學(xué)測試的聽力命題組和閱讀命題組中,選取兩位英語教師自愿參加了半開放式訪談,采集了相關(guān)定性數(shù)據(jù)。在半開放式訪談中,圍繞受訪者的“語言測評學(xué)習(xí)經(jīng)歷”和“語言測評實踐經(jīng)歷”,分別進行了大約20 分鐘的訪談。 經(jīng)受訪者同意,對訪談進行了錄音,并將錄音資料轉(zhuǎn)化為文本,轉(zhuǎn)寫文本5490 字。
數(shù)據(jù)采集結(jié)束后,分別對定量和定性數(shù)據(jù)進行了統(tǒng)計與分析。
在對1423 份客觀題答題樣本的定量數(shù)據(jù)統(tǒng)計中, 基于經(jīng)典測試?yán)碚揫19], 采用EXCEL 2010 和SPSS 22.0,對測試信度及各試題項目的難度、區(qū)分度等三項指標(biāo)進行了評估。 首先,采用克隆巴赫α信度系數(shù)與試題內(nèi)部相關(guān)系數(shù),對本次測試客觀題的信度進行了評估;隨后,從聽力和閱讀試題中各選取一道質(zhì)量不夠理想的試題,分別計算被試通過率和點二列相關(guān)系數(shù) (point-biserial correlation,Rpb),對試題項目進行了難度(difficulty,p)和區(qū)分度(discrimination,Rpb)分析。
在定性訪談數(shù)據(jù)分析中,主要采用了質(zhì)性研究的類屬分析方法[20],對訪談數(shù)據(jù)的原始材料進行編碼、分析和提煉,得到命題教師對語言測評知識與技能的掌握概況,以補充和解釋定量數(shù)據(jù)分析結(jié)果。
通過定量數(shù)據(jù)統(tǒng)計以及項目個案分析,評估此次大型入學(xué)英語測試客觀題的信度、難度和區(qū)分度是否達到所要求的質(zhì)量指標(biāo),以回答本研究的第一個問題。
本次入學(xué)測試的聽力、閱讀客觀題各小題分值1 分,共計40 分。 描述性統(tǒng)計分析結(jié)果表明(見表1),隨機抽取的答題樣本平均分為14.13,全距為28,標(biāo)準(zhǔn)差為3.796,說明被試學(xué)生分?jǐn)?shù)普遍較低;但由于Skewness(0.391)和Kurtosis(0.381)系數(shù)的絕對值均小于1.96,測試結(jié)果分?jǐn)?shù)呈正態(tài)分布。

表1 描述性分析結(jié)果
1.信度分析結(jié)果
在心理計量學(xué)中,一般認(rèn)為,當(dāng)克隆巴赫系數(shù)α>0.7 時,測試可被接受;而當(dāng)α<0.5 時,測試不可接受。從表1 可見,本次客觀題克隆巴赫系數(shù)為α=0.445, 聽力題和閱讀題分別為α=0.325 和α=0.401,表明客觀題總體信度及聽力題、閱讀題信度均未達到質(zhì)量標(biāo)準(zhǔn),試題信度較低。
此外,試題內(nèi)部相關(guān)系數(shù)也是判斷一套試題信度高低的重要評估手段。從統(tǒng)計學(xué)角度,一套較高信度的試題其內(nèi)部相關(guān)系數(shù)至少應(yīng)在0.5-0.7 之間。但通過進一步對試題內(nèi)部聽力、閱讀、總分三者相關(guān)性分析發(fā)現(xiàn)(見表2),盡管聽力題和閱讀題與客觀題總分相關(guān)性系數(shù)達到0.7 以上,但試題內(nèi)部相關(guān)性系數(shù)僅有0.176, 遠(yuǎn)未達到0.7 的理想質(zhì)量標(biāo)準(zhǔn)。
綜上,無論從克隆巴赫系數(shù)還是試題內(nèi)部相關(guān)性系數(shù)分析,均發(fā)現(xiàn)本次入學(xué)測試的客觀題部分信度較低。

表2 試題內(nèi)部相關(guān)性分析結(jié)果
2.項目難度和區(qū)分度分析結(jié)果
難度 (difficulty,p) 和區(qū)分 度(discrimination,Rpb)是評估試題項目質(zhì)量高低的重要特征參數(shù)[21]。難度指答對該題人數(shù)占總?cè)藬?shù)的百分比, 即通過率。難度值p 值越小,說明試題難度越大。對于本次研究中的摸底測試,目的是掌握新生的英語水平,試題難度需要有梯度,因此,本研究設(shè)定難度值可接受范圍為0.3<p<0.7。區(qū)分度則指試題項目能區(qū)分不同水平被試的程度, 當(dāng)區(qū)分度Rpb <0.2 時,說明項目區(qū)分度較差;當(dāng)0.3 <Rpb <0.4 時,區(qū)分度較好;當(dāng)Rpb >0.4 時,區(qū)分度比較理想[22]。
通過對試題項目的難度和區(qū)分度評估發(fā)現(xiàn)(見表3),客觀題總體難度值p=0.35,聽力與閱讀分別為p=0.34 和p=0.38,難度值普遍偏低。其中,14 個題項難度值小于0.3(p<0.3),且有6 個題項(第7、14、18、27、30 和38 題)難度值低于0.2(p<0.2),表明過難試題數(shù)量較多,并對試題平均難度值產(chǎn)生影響;第31 題(p=0.89)難度值大于0.7(p>0.7);其余題項(共25 個,占總題量62.5%)的難度值均在可接受范圍內(nèi)(0.3<p<0.7),數(shù)量偏低。
難度值的高低勢必影響區(qū)分度的理想程度。換言之,過難試題和過易試題均會導(dǎo)致試題鑒別力過小,致使區(qū)分度不理想。
從表3 可見, 客觀題總體區(qū)分度僅為Rpb=0.2,表明試題鑒別力較小。 其中有16 個題項區(qū)分度Rpb<0.2,5 個題項 (第7、14、18、27 和38 題)區(qū)分度Rpb<0.1;而區(qū)分度較好即Rpb>0.3 的題項僅有4 個,分別為第8、15、29 和39 題,其中僅第39題(Rpb=0.41)區(qū)分度達到理想程度。
綜上,通過難度和區(qū)分度值評估試題項目質(zhì)量可以發(fā)現(xiàn), 試題難度和區(qū)分度值均未達到理想指標(biāo),試題過難,區(qū)分度較差。
3.項目難度及區(qū)分度個案分析
為進一步探究試題開發(fā)過程中出現(xiàn)的試題難度大和區(qū)分度較差等問題,又分別從聽力題和閱讀題各抽取一個難度、區(qū)分度不夠理想的試題進行個案分析。
首先, 從聽力題中抽取了第7 題 (p=0.11,Rpb=-0.01),劃線部分為答題依據(jù)(見圖1)。

表4 第7 題各選項答題情況統(tǒng)計
通過初步統(tǒng)計發(fā)現(xiàn)(見表4),選擇D 項的學(xué)生人數(shù)最多,占比38.72%,這可能是由于該項復(fù)現(xiàn)了原文中的“cellphone”(與“phone”同義)和“school”,提高了其干擾強度;B 項選擇人數(shù)占28.67%,但選項內(nèi)容明顯與問題不匹配;A 項選擇人數(shù)占21.36%, 該選項錯誤較明顯,A、B 項干擾性不強,但選擇的人數(shù)仍然占到近50%, 而正確選項C 所占人數(shù)僅為11.17%。通過深入分析,筆者發(fā)現(xiàn),C選項在語言內(nèi)容上存在用詞不當(dāng)情況,即:“can”在本試題中是“有可能”之意,但“can”還可表示“能,可以”之義,致使命題教師設(shè)定的正確答案出現(xiàn)“如
果學(xué)校禁止使用手機,學(xué)生們可以私底下用”還是“如果學(xué)校禁止使用手機,學(xué)生們可能私底下用”的歧義,進而導(dǎo)致學(xué)生在答題時避開該選項而擇其它選項。

表3 各試題難度和區(qū)分度統(tǒng)計結(jié)果

圖1 第7 題聽力試題原文、問題與選項
從閱讀題中又抽了第31 題 (p=0.89,Rpb=0.22),答題依據(jù)見圖2。

圖2 第31 題閱讀試題原文、問題與選項
通過初步統(tǒng)計發(fā)現(xiàn)(見表5),正確答案C 的選擇人數(shù)高達89.04%;A 項選擇人數(shù)最少, 僅占0.98%,該項幾乎不具有干擾性;B 項與D 項選擇人數(shù)分別占5.27%和4.71%,干擾性也較弱。 該題需要學(xué)生思考試題中原文作者引用 “一日一蘋果,醫(yī)生遠(yuǎn)離我”這個諺語的目的,要解答該題,首先要理解該諺語本身含義,再聯(lián)系下文,而該諺語含義對當(dāng)前受試學(xué)生的英語水平來說難度并不高,答案C中的“diet”又與下文劃線部分的內(nèi)容相呼應(yīng),因此,學(xué)生普遍能夠精準(zhǔn)地定位該正確選項;而A 項“為了建議人們多吃蘋果”,D 項“為了強調(diào)蘋果對保持健康至關(guān)重要”,與諺語本身含義直接相關(guān),但沒有聯(lián)系下文內(nèi)容,能夠輕易被排除,干擾性極弱;B 項“…is particularly true” 與原文內(nèi)容 “…may hold some truth”不符,錯誤較明顯,幾乎不具有干擾性。從以上分析可知,命題教師在試題開發(fā)過程中存在對當(dāng)前受試英語水平把握不足和對干擾項標(biāo)準(zhǔn)把握不當(dāng)?shù)葐栴}。
綜合試題信度、各項目難度和區(qū)分度量化分析以及試題個案分析發(fā)現(xiàn),本次入學(xué)測試客觀題質(zhì)量較低,信度、難度和區(qū)分度均未達到理想標(biāo)準(zhǔn),且試題開發(fā)問題較多,折射出命題教師高質(zhì)量測試開發(fā)能力不足,語言測評素養(yǎng)有待提高。

表5 第31 題的被試各選項答題情況統(tǒng)計
為進一步補充和解釋定量數(shù)據(jù)分析結(jié)果,了解命題教師對語言測評知識和技能的理解與掌握情況,以全面考察命題教師的語言測評素養(yǎng),筆者從命題教師中抽取兩名教師自愿參加了半開放式訪談,得出如下相關(guān)定性分析結(jié)論,以回答第二個研究問題。
(1)語言測評知識和技能匱乏
在訪談中,兩位教師談到語言測評知識和技能時僅涉及測量概念,如測試信度與效度、試題難度和區(qū)分度,而從兩位教師對測量概念的闡述中,甲教師對某些測量概念缺乏基本了解。
“對難度和區(qū)分度有一定了解,對信度、效度還不是很清楚……難度就是看學(xué)生這個答對題的這個情況,如果答對的學(xué)生少的話呢,這個難度應(yīng)該是偏高,就是正確率吧……區(qū)分度的話應(yīng)該是有專業(yè)的軟件來分析”(甲教師)
為了解受訪教師對語言測評技能的掌握情況,結(jié)合入學(xué)測試,邀請兩位教師談?wù)勗囶}質(zhì)量評價與分析方法。而從訪談結(jié)果看,甲教師僅提到測評理論與工具,乙教師具體提到信度和效度,但均未進一步闡述質(zhì)量分析過程,且兩位教師未從測試開發(fā)角度對校本測試信度和效度、試題難度和區(qū)分度進行質(zhì)量分析,可見兩位命題教師缺乏必要的試題質(zhì)量分析能力。
“試卷的質(zhì)量應(yīng)該有一些測評方面的專業(yè)的分析試卷的一些理論和方法……本次的測試結(jié)果,就是做過一般的那個正確率、及格率、然后各個分?jǐn)?shù)段的那個比例這些分析。”(甲教師)
“質(zhì)量分析看信度和效度吧……開學(xué)測試 (本次測試)是分兩次進行的,開學(xué)只測了聽力和閱讀兩項,開學(xué)后又測試了翻譯和作文,老師沒有所有學(xué)生成績。”(乙教師)
通過進一步分析發(fā)現(xiàn),兩位教師在任教前欠缺必要的語言測評學(xué)習(xí)經(jīng)歷。 盡管甲教師畢業(yè)于師范院校,但在師范階段學(xué)習(xí)期間,并未學(xué)習(xí)語言測評相關(guān)課程, 導(dǎo)致對語言測評知識缺乏必要的了解; 而乙教師盡管在碩士研究生階段學(xué)習(xí)過語言測試相關(guān)課程, 對語言測評知識和技能有一定了解, 但對試題質(zhì)量評價與分析方法缺乏必要的掌握和應(yīng)用。
此外,訪談中兩位教師均反映,畢業(yè)從教后,參加的語言測評知識和技能培訓(xùn)很少。甲、乙教師均明確或間接表示學(xué)校未對教師進行過語言測評崗前培訓(xùn)和在職培訓(xùn)。
“我是師范畢業(yè)的,以前沒有開設(shè)過語言測評類的課程……(任教后)學(xué)校有崗前培訓(xùn),但是崗前培訓(xùn)中有沒有語言測試培訓(xùn)這不清楚,在職沒有這方面的培訓(xùn),……有參加過測試工作坊,學(xué)校派去的……”(甲教師)
“我之前在碩士研究所,研究生階段有測試學(xué)這門課程…… (任教后) 學(xué)校沒有這方面的培訓(xùn)……有委派過出去參加外研社的講座和黃教授的工作坊……”(乙教師)
綜上,由于兩位命題教師任教前后缺乏必要的語言測評學(xué)習(xí)與培訓(xùn),沒有掌握系統(tǒng)的語言測評知識和技能,導(dǎo)致兩位教師語言測評知識和技能相對匱乏,這也可能是命題教師語言測評素養(yǎng)較低的原因之一。
(2)語言測評知識和技能運用不足
訪談中,兩位教師也分享了自己參加語言測試實踐的經(jīng)歷,主要談及“期末測試出題”和“撰寫成績分析報告”兩個方面。
在“期末測試出題”方面,甲教師談到此次入學(xué)測試,相比之前的期末測試更為專業(yè)。 之前的校本測試傾向于教師“湊題”,而不是以“開發(fā)”方式完成試題命制,進而折射出兩位教師在測試開發(fā)方面實踐經(jīng)驗不足。
“這種(本次入學(xué)測試)要專業(yè)水平的出題,是第一次。以前出題……就是我們一部分是課外題目……四級水平的題,然后一部分是課內(nèi)的題……比如說課后的練習(xí)啊,或者是那個課文里邊的一些知識點。”(甲教師)
在“撰寫成績分析報告”方面,乙教師表示學(xué)校每個學(xué)期要求寫成績分析報告,包括學(xué)生成績分段統(tǒng)計百分比、不及格率、測試結(jié)果中發(fā)現(xiàn)的薄弱環(huán)節(jié)以及對今后教學(xué)反思等,但有關(guān)試題質(zhì)量分析較少,可見兩位命題教師對試題質(zhì)量分析的相關(guān)實踐存在不足。
“每個學(xué)期都要寫成績分析報告,學(xué)生成績分段統(tǒng)計百分比,不及格率等等,以及某些測試顯現(xiàn)的薄弱環(huán)節(jié),對今后教學(xué)的反思……對試題質(zhì)量分析的較少。”(乙教師)
綜上,盡管受訪教師每學(xué)期均有機會參加相關(guān)語言測試活動,如“期末測試出題”以及“撰寫成績分析報告”,但教師運用語言測評知識和技能的實踐經(jīng)歷明顯不足,折射出兩位教師語言測評素養(yǎng)有待提高。
本研究以某高校一次大型校本英語測試客觀題為例,對試題質(zhì)量進行了分析。結(jié)果表明,本次測試試題質(zhì)量不高,反映出部分高校外語教師測試開發(fā)能力較弱的問題; 通過進一步半開放式訪談發(fā)現(xiàn), 命題教師對語言測評知識和技能的理解與掌握情況不容樂觀, 進一步折射出我國部分高校外語教師語言測評素養(yǎng)有待進一步提升。為此,作者提出如下建議。
首先,本科師范院校或有外國語言學(xué)及應(yīng)用語言學(xué)碩士點的高校, 應(yīng)開設(shè)相關(guān)語言測評課程,為崗前外語教師提供必需的語言測評知識和技能學(xué)習(xí)機會,夯實外語教師必備的語言測評理論與知識體系。
其次,外語教師所在高校教師發(fā)展中心或所在院、系應(yīng)在外語教師任職前或任教期間,提供必要的語言測評知識和技能的培訓(xùn),鼓勵教師參與校內(nèi)外測評實踐,以提升其語言測評素養(yǎng),助力教師專業(yè)發(fā)展,促進高校外語教學(xué)。為此,建議高校應(yīng)針對高校外語教師的語言測評素養(yǎng)需求開展調(diào)查,并針對教師語言測評素養(yǎng)需求,邀請國內(nèi)外測評專家,開展針對性強的語言測評知識和技能講座、 工作坊,建立相應(yīng)的院、系語言測評團隊或成立測評學(xué)習(xí)共同體,以合作交流等途徑共同探究求知,提高外語教師隊伍的語言測評素養(yǎng)。 同時,通過政策導(dǎo)向,引導(dǎo)高校外語教師將測評知識和技能應(yīng)用到測試開發(fā)、試題質(zhì)量分析(如測試信度和效度、難度和區(qū)分度評估)和測試成績解釋與報道等校本測試實踐中。此外,高校還應(yīng)鼓勵外語教師積極參加大規(guī)模外語測試開發(fā)、閱卷與評估等工作,通過與校內(nèi)外語言測評專家和測評者的互動交流與合作,提升測評實踐能力。
更為重要的是,高校外語教師應(yīng)積極發(fā)揮自身主觀能動性,創(chuàng)造機會,不斷學(xué)習(xí)語言測評知識,掌握語言測評技能,并努力將語言測評知識和技能應(yīng)用到自己的日常教學(xué)中,以不斷增加語言測評實踐經(jīng)驗,努力提高自身語言測評素養(yǎng)。
由于本文只分析了某高校一次校本測試的命題質(zhì)量,考察了同一所高校的外語教師,研究結(jié)果缺乏一定普遍性。建議未來研究者在我國其他地區(qū)選擇更多高校,對其校本測試試題質(zhì)量進行評估分析,以實現(xiàn)對命題教師語言測評素養(yǎng)多方位、多角度的考察,促進我國高校外語教師發(fā)展,從而開發(fā)高信度、高效度的外語測試題,保障外語教育評估的合理性和公平性,真正起到以評促教,以評促學(xué)。