基于大學(xué)生對(duì)英語(yǔ)教師評(píng)教的多元概化分析
——以某校教學(xué)范式改革實(shí)驗(yàn)任課教師為樣本

2017-02-05 02:13:18王天劍

文山學(xué)院學(xué)報(bào) 2017年6期

王天劍

（貴州財(cái)經(jīng)大學(xué) 外國(guó)語(yǔ)學(xué)院，貴州貴陽(yáng) 550004）

為激勵(lì)教師提高教學(xué)質(zhì)量，教務(wù)管理部門會(huì)以不同方式對(duì)教師進(jìn)行教學(xué)水平評(píng)價(jià)（評(píng)教），如領(lǐng)導(dǎo)評(píng)價(jià)、同行評(píng)價(jià)、學(xué)生評(píng)價(jià)等。其中，學(xué)生評(píng)價(jià)比較普遍，并且往往受到高度重視。在一些高校，評(píng)價(jià)結(jié)果可能直接關(guān)系到學(xué)期獎(jiǎng)懲、年度考核，甚至職稱評(píng)聘。學(xué)生評(píng)教的工具主要是問卷。為了使評(píng)教客觀、公平、公正，問卷必須具有較高的信度和效度。評(píng)價(jià)信度離不開現(xiàn)代測(cè)量理論。

概化理論是一種關(guān)于教育、心理、行為測(cè)量信度的理論[1]。它是在經(jīng)典測(cè)量與方差分析理論基礎(chǔ)上，逐步發(fā)展而來(lái)的測(cè)量評(píng)價(jià)與優(yōu)化技術(shù)[2-4]。經(jīng)典測(cè)量理論將測(cè)量結(jié)果區(qū)分為兩部分：真分?jǐn)?shù)與誤差。借助方差分析，概化理論進(jìn)一步將誤差區(qū)分為各種不同來(lái)源成分，計(jì)算各自所占比重，并估算概化系數(shù)和可靠性指數(shù)[4-5]。概化系數(shù)是衡量相對(duì)測(cè)量（常模參照測(cè)量）信度的指標(biāo)；可靠性指數(shù)是衡量絕對(duì)測(cè)量（標(biāo)準(zhǔn)參照測(cè)量）信度的指標(biāo)（注：概化理論中的“信度”與經(jīng)典測(cè)量理論中的“信度”類似但計(jì)算有別）[6]。前者是指測(cè)量結(jié)果用于跟據(jù)某種特質(zhì)將對(duì)象排序時(shí)的穩(wěn)定性；后者是指測(cè)量結(jié)果用于衡量對(duì)象某種特質(zhì)絕對(duì)水平的可靠性。概化系數(shù)和可靠性指數(shù)的估算公式如下：

式中（1）式（2）中：ρ2為概化系數(shù)，Ф為可靠性指數(shù)，σ2(τ)為測(cè)量對(duì)象的全域分方差（有效變異），σ2(δ)為相對(duì)誤差方差（測(cè)量對(duì)象的觀測(cè)值離均差，與其全域分上的離均差之差）；σ2(Δ)為絕對(duì)誤差方差（測(cè)量對(duì)象的個(gè)人觀測(cè)分，與其全域分之差。σ2(Δ)包含了σ2(τ)之外的所有變異）[6]。

概化分析可分為G研究（概化研究）和D研究（決策研究）兩部分。前者可在觀測(cè)全域上（universe of admissible observations）披露各種方差來(lái)源及其比例；后者可以在概化全域上（universe of generalizability），借助于G研究的方差比例估計(jì)，通過調(diào)整測(cè)量條件（樣本、側(cè)面關(guān)系、權(quán)重），展示誤差變化，從而給測(cè)量者提供優(yōu)化測(cè)量設(shè)計(jì)的信息[7]。正因?yàn)槠湓跍y(cè)量中的重要應(yīng)用價(jià)值，概化理論被譽(yù)為三大測(cè)量理論之一（另外兩種是經(jīng)典測(cè)量理論和項(xiàng)目反映理論）。概化理論可分為一元概化理論和多元概化理論。一元概化理論將研究對(duì)象（研究焦點(diǎn)）視為單個(gè)側(cè)面進(jìn)行研究，多元概化理論可以研究“復(fù)合側(cè)面”包含的多個(gè)“子側(cè)面”及其整合成一個(gè)“復(fù)合側(cè)面”的相關(guān)特征。

本文以某高校教學(xué)范式改革實(shí)驗(yàn)任課英語(yǔ)教師為樣本，以概化理論為工具，考查該校學(xué)生評(píng)教問卷的信度。之所以選擇如上樣本，是因?yàn)榻虒W(xué)范式改革目前正在實(shí)驗(yàn)推廣階段，學(xué)校高度重視評(píng)教結(jié)果。

1 研究方法

本研究采用實(shí)證、定量研究方法[8]。數(shù)據(jù)源于一套網(wǎng)上問卷評(píng)教結(jié)果。該問卷包含四個(gè)指標(biāo)：教學(xué)內(nèi)容、教學(xué)技能、教學(xué)方法、教學(xué)效果。每個(gè)指標(biāo)包含二到三個(gè)打分項(xiàng)目。四個(gè)指標(biāo)的滿分分別是：30分、15分、25分、30分。學(xué)生在網(wǎng)上對(duì)教師進(jìn)行打分評(píng)價(jià)。軟件系統(tǒng)會(huì)將同一教師承擔(dān)的同一課程對(duì)應(yīng)的所有學(xué)生評(píng)教結(jié)果平均后呈現(xiàn)在教務(wù)系統(tǒng)中。本研究從某高校參加教學(xué)范式改革實(shí)驗(yàn)的英語(yǔ)教師中，隨機(jī)抽取25名為樣本，從學(xué)校教務(wù)系統(tǒng)中導(dǎo)出這些教師的評(píng)教數(shù)據(jù)（共25組）進(jìn)行分析。每組數(shù)據(jù)代表著至少有50名學(xué)生對(duì)教師打分的平均結(jié)果。分析采用mGENOVA 軟件進(jìn)行。

為考查每個(gè)指標(biāo)（評(píng)教維度）及其整合后的分?jǐn)?shù)信度，本研究采用多元概化分析。問卷中的每個(gè)指標(biāo)視為一個(gè)“因子”，各個(gè)因子總分以其對(duì)應(yīng)的項(xiàng)目得分之和表示。研究采用四因子（教學(xué)內(nèi)容、教學(xué)技能、教學(xué)方法和教學(xué)效果）單側(cè)面交叉設(shè)計(jì)為p˙×io，p代表被評(píng)教師，i代表量項(xiàng)目（字母p的上標(biāo)圓點(diǎn)表示每組數(shù)據(jù)中，各個(gè)因子評(píng)價(jià)的對(duì)象相同；字母i的上標(biāo)圓圈表示，不同因子包含的項(xiàng)目不同）。

2 研究結(jié)果

2.1 G研究結(jié)果

依據(jù)如上四因子單側(cè)面交叉設(shè)計(jì)，可以獲得被評(píng)教師（p）、量表項(xiàng)目（i）以及被評(píng)教師與量表項(xiàng)目之間的交互效應(yīng)（pi）在四個(gè)因子上的方差等指標(biāo)的估計(jì)矩陣（表1）。

表1 各效應(yīng)在四個(gè)因子上的方差等指標(biāo)估計(jì)矩陣

根據(jù)表1可知，教師效應(yīng)（p）在各因子上的方差分量從大到小依次是：0.04556（教學(xué)效果）、0.02514（教學(xué)內(nèi)容）、0.01765（教學(xué)方法）和0.01237（教學(xué)技能）。這意味著，對(duì)教師教學(xué)水平區(qū)別作用最大的因子是教學(xué)效果，其次是教學(xué)內(nèi)容。教學(xué)方法和教學(xué)技能區(qū)別作用微小。項(xiàng)目（i）的主效應(yīng)顯示，它在教學(xué)技能上的方差最大（10.97453），在教學(xué)方法上的方差次之（7.11375），在其他兩個(gè)因子上方差相對(duì)較小。由于項(xiàng)目是測(cè)量的工具，而不是測(cè)量的對(duì)象，所以項(xiàng)目在教學(xué)技能和教學(xué)方法兩個(gè)因子上的方差較大，說(shuō)明這兩個(gè)因子測(cè)量誤差較大。教師和項(xiàng)目的交互作用（pi）在各因子上的方差都不大。觀察教師效應(yīng)（p）的協(xié)方差可知，教學(xué)內(nèi)容和教學(xué)效果之間的協(xié)方差相對(duì)較大（0.03302），其他的協(xié)方差都比較微小。這說(shuō)明教學(xué)內(nèi)容和教學(xué)效果的關(guān)聯(lián)度相對(duì)較高，如分別用這兩個(gè)因子得分對(duì)教師的教學(xué)水平進(jìn)行排序，結(jié)果趨向一致。表中的多數(shù)相關(guān)系數(shù)大于1，是因?yàn)闃颖据^小，或者存在隱藏因子，但這并不影響如上協(xié)方差的解釋。此外，評(píng)教中如上四個(gè)因子是整合在一起產(chǎn)生最終結(jié)果的，這樣整合是否合理，需依據(jù)如下D研究結(jié)果決定。

2.2 D研究結(jié)果

2.2.1 各因子全域分估計(jì)及全域合成分估計(jì)的精確度

概化理論采用全域（universe）取代并拓展了經(jīng)典測(cè)量的總體（population）概念。表2呈現(xiàn)的是教師效應(yīng)在四個(gè)因子上的全域分方差、誤差方差、概化系數(shù)、可靠性指數(shù)、信噪比等估計(jì)值。

表2 四因子的全域分測(cè)量精確度估計(jì)

根據(jù)表2，教學(xué)內(nèi)容的相對(duì)誤差方差（0.00185）和絕對(duì)誤差方差（0.00185）較小，其概化系數(shù)（0.95127）和可靠性系數(shù)（0.93142）較高，相對(duì)和絕對(duì)信噪比（S/N）也都較高（信噪比 = 全域分方差 / 誤差方差），所以教學(xué)內(nèi)容測(cè)量精確度較高，其全域分無(wú)論用作對(duì)被評(píng)教師教學(xué)水平排序（相對(duì)測(cè)量），或者用作對(duì)被評(píng)教師教學(xué)絕對(duì)水平的確定（絕對(duì)測(cè)量），都有較高的信度和可靠度。其他三個(gè)因子全域分的相對(duì)誤差方差較小，概化系數(shù)均超過了0.80，但絕對(duì)誤差方差較高，可靠性指數(shù)均低于0.80，故能用于教學(xué)水平排序，但用于教學(xué)絕對(duì)水平衡量不夠理想。

2.2.2 全域合成分的精確度

按照各因子所占比重（30%、15%、25%、30%），設(shè)定權(quán)重系數(shù)，對(duì)四個(gè)因子測(cè)量結(jié)果進(jìn)行整合，可得全域合成分測(cè)量精確度估計(jì)值（表3）。

根據(jù)表3，全域合成分相對(duì)誤差方差較小（0.00095），相對(duì)信噪比較高（27.45761）概化系數(shù)較高（0.96486）。但是全域合成分絕對(duì)誤差方差較大（0.27538），可靠性指數(shù)較低（0.08691），絕對(duì)信噪比較低（0.09518）。這表明，評(píng)教結(jié)果如用于對(duì)教師教學(xué)水平排序，具有較高的信度，各因子整合具有合理性（信度有所提高）；評(píng)教結(jié)果如用于對(duì)教師教學(xué)絕對(duì)水平衡量，信度遠(yuǎn)低于可接受水平。

表3 全域合成分的精確度估計(jì)

2.2.3 各因子對(duì)全域合成分的貢獻(xiàn)

雖然各因子的賦分權(quán)重分別為30%、15%、25%和30%。但各因子對(duì)全域合成分方差的實(shí)際貢獻(xiàn)并不一定如此。表4比較了賦分權(quán)重與實(shí)際貢獻(xiàn)。

表4 各因子的分值及其對(duì)全域合成分方差的貢獻(xiàn)

表4顯示，教學(xué)內(nèi)容對(duì)全域合成分方差的貢獻(xiàn)與其問卷賦分權(quán)重基本一致，教學(xué)技能和教學(xué)方法兩個(gè)因子貢獻(xiàn)不足，教學(xué)效果貢獻(xiàn)超額。

2.2.4 權(quán)重優(yōu)化后的全域合成分信度

由于實(shí)際貢獻(xiàn)與預(yù)期貢獻(xiàn)差別較大，嘗試調(diào)整各因子權(quán)重，并進(jìn)一步估計(jì)全域合成分信度，結(jié)果見表5。

表5 權(quán)重與全域合成分信度的協(xié)變關(guān)系

根據(jù)表5，隨著教學(xué)技能和教學(xué)方法比重的下降，以及教學(xué)效果比重的上升，可靠性指數(shù)逐漸上升；當(dāng)兩者降到0時(shí)，隨著教學(xué)內(nèi)容比重的上升，以及教學(xué)效果比重的下降，可靠性指數(shù)繼續(xù)上升。當(dāng)教學(xué)內(nèi)容調(diào)到60%，教學(xué)效果調(diào)到40%，概化系數(shù)和可靠性指數(shù)都達(dá)到理想水平。

3 討論

本研究考查了教學(xué)范式改革實(shí)驗(yàn)教學(xué)背景下，大學(xué)英語(yǔ)教學(xué)水平評(píng)價(jià)結(jié)果的信度。根據(jù)多元概化分析，教學(xué)效果對(duì)教學(xué)水平的區(qū)別作用最強(qiáng)，其次是教學(xué)內(nèi)容。教學(xué)技能和教學(xué)方法測(cè)量誤差較大，區(qū)別作用微小。如用于對(duì)教學(xué)水平排序，四個(gè)指標(biāo)無(wú)論是單獨(dú)使用，還是整合在一起使用，信度均可接受，盡管整合后信度更高。但是，如用于衡量絕對(duì)教學(xué)水平，在單獨(dú)使用條件下，唯有教學(xué)內(nèi)容信度可以接受；在四個(gè)指標(biāo)整合使用條件下，教學(xué)內(nèi)容應(yīng)占60%，教學(xué)效果應(yīng)占40%，其他兩個(gè)指標(biāo)歸零，方可保證問卷整體信度可以接受。但是，這樣調(diào)整雖然達(dá)到統(tǒng)計(jì)要求，卻不是實(shí)踐中的理想選擇。實(shí)踐中，更為可取的做法是保留教學(xué)技能和教學(xué)方法兩個(gè)指標(biāo)（或者將其合而為一），重新設(shè)定有效的題項(xiàng)，以便使問卷在保持完整全面的前提下，保證評(píng)教結(jié)果的相對(duì)與絕對(duì)測(cè)量信度。

本研究結(jié)果與其他同類研究發(fā)現(xiàn)具有一定的類似性。黎光明[9]分析了學(xué)生在教學(xué)態(tài)度、教學(xué)內(nèi)容、教學(xué)方法和教學(xué)效果四個(gè)變量上的評(píng)教結(jié)果，發(fā)現(xiàn)教學(xué)效果是區(qū)別度最強(qiáng)的變量，教學(xué)內(nèi)容和教學(xué)效果對(duì)教學(xué)水平的排序一致度較高（協(xié)方差較高），教學(xué)方法的區(qū)別作用較小，測(cè)量誤差較大。當(dāng)然，本研究與黎光明的研究也存在分歧之處。如黎光明發(fā)現(xiàn)教學(xué)內(nèi)容的概化系數(shù)和可靠性指數(shù)并不高。分歧可能源于兩問卷的考查指標(biāo)不同，各個(gè)指標(biāo)的測(cè)量項(xiàng)目不同，或者研究樣本不同。

對(duì)于教師的教學(xué)水平而言，本研究中的教學(xué)效果和教學(xué)內(nèi)容之所以區(qū)別度較高，可能是因?yàn)樾Ч蛢?nèi)容是相對(duì)客觀、容易感知的變量。教學(xué)方法和技能測(cè)量誤差較大，區(qū)別度較小，可能是因?yàn)榉椒ê图寄艿膬?yōu)劣因人而異。一把鑰匙開一把鎖，不同人適應(yīng)不同的方法和技能。當(dāng)然，不排除另外一種可能，那就是教學(xué)方法和技能的題項(xiàng)設(shè)計(jì)不當(dāng)，導(dǎo)致學(xué)生無(wú)法進(jìn)行有效評(píng)價(jià)。

本研究對(duì)評(píng)教結(jié)果的適當(dāng)應(yīng)用具有一定啟示。當(dāng)問卷僅有可以接受的概化系數(shù)時(shí)，評(píng)教結(jié)果可以用于辨別教學(xué)水平的相對(duì)優(yōu)劣，但不能確定絕對(duì)水平。因此，不能用這樣的評(píng)教結(jié)果是否高于某個(gè)分值，給教師貼上是否達(dá)標(biāo)、合格或者過關(guān)之類的標(biāo)簽。更不宜將這樣的評(píng)教分?jǐn)?shù)用于職稱評(píng)聘資格審查。如果需要將評(píng)教結(jié)果用于這些目的，就必須通過調(diào)整問卷的內(nèi)容、結(jié)構(gòu)、施測(cè)模式、賦分權(quán)重等，使其獲得可接受的可靠性指數(shù)。

4 結(jié)論

基于對(duì)教學(xué)范式改革實(shí)驗(yàn)背景下大學(xué)英語(yǔ)教師評(píng)教結(jié)果的概化分析，本文結(jié)論如下：

1）該問卷概化系數(shù)理想，但可靠性指數(shù)不可以接受；

2）問卷的因子“教學(xué)效果”對(duì)教學(xué)水平區(qū)別度最高，“教學(xué)內(nèi)容”次之，而“教學(xué)技能”和“教學(xué)方法”區(qū)別度微小，且測(cè)量誤差較大；

3）調(diào)整問卷權(quán)重，可以使問卷的概化系數(shù)和可靠性指數(shù)同時(shí)達(dá)到理想水平。

本文對(duì)評(píng)教結(jié)果的適當(dāng)應(yīng)用具有一定啟示。未來(lái)研究可以通過改變?cè)u(píng)價(jià)者的數(shù)量，調(diào)整問卷的內(nèi)容、結(jié)構(gòu)，根據(jù)專業(yè)創(chuàng)建有針對(duì)性的測(cè)量工具等，探索優(yōu)化評(píng)教信度的方案。

[1] Shavelson R J, Webb N M. Generalizability theory: A primer[M]. Sage Publications, 1991：1-1.

[2] Cronbach L J, Rajaratnam N, Gleser G C. Theory of Generalizability: A Liberalization of Reliability Theory[J].British Journal of Mathematical and Statistical Psychology,1963（2）：137-163.

[3] Cardinet J, Johnson S, Pini G. Applying generalizability theory using EduG[M]. Routledge, 2011：1-2.

[4] Graham S, Hebert M, Paige Sandbank M, et al. Assessing the writing achievement of young struggling writers: application of generalizability theory[J]. Learning Disability Quarterly,2016（2）：72-82.

[5]王天劍，彭中梅. 概化理論和EduG在教育測(cè)量研究中的應(yīng)用——以試題難易度分析為例[J]. 文山學(xué)院學(xué)報(bào)，2016（6）：88-93.

[6] 王天劍. 概化理論在中小學(xué)英語(yǔ)測(cè)試研究中的應(yīng)用[J].綏化學(xué)院學(xué)報(bào)，2017（2）：119-123.

[7] Brennan, R. L. Generalizability theory [M]. New York：Springer, 2001：3-14.

[8] 黎光明. 概化理論G研究方差分量及其變異量估計(jì)影響因素[J]. 心理學(xué)探新，2016（5）：458-463.

[9] 黎光明，張敏強(qiáng). 基于學(xué)生評(píng)教的多元概化理論分析[J].教育測(cè)量與評(píng)價(jià)：理論版， 2013（7）：4-6.

基于大學(xué)生對(duì)英語(yǔ)教師評(píng)教的多元概化分析——以某校教學(xué)范式改革實(shí)驗(yàn)任課教師為樣本