999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多面Rasch模型的大學教師課堂教學能力評價方法研究

2015-03-20 03:56:54盛艷燕趙映川
高教探索 2015年2期

盛艷燕+趙映川

摘要:大學教師課堂教學能力評價是提高教學質量的重要手段。基于多面Rasch模型,實證結果表明不同聽課人之間打分的寬嚴度不一致并對三個評分維度把握不準確,使用教師能力估計值結合聚類分析法劃分等級才能更加準確地對大學教師的課堂教學能力進行評價。該方法的實施需要數據分析常態化、聽課人管理制度化和評價項目動態更新的管理措施共同推進。

關鍵詞:教學能力評價;能力估計值;多面Rasch模型

大學教師課堂教學能力評價是提高教學質量的重要手段,但這種評價不可避免地帶有很強的主觀性。面對相同的評價指標,不同評價主體對評價指標的理解和使用往往是不一致的,同一個評價主體對不同課程的評分標準的把握可能也不一致。有的評價者明顯要求嚴格,評分普遍偏低,有的評價者正好相反;有的課程難度相對大,有的課程難度相對比較小。如果教師①講授的課程難度比較大,又遇到了要求比較嚴格的評價者,該教師的評分會顯著偏低;相反,如果教師講授的課程難度比較小,評價者的要求比較寬松,該教師很容易得到比較高的評分。現有的評價體系用原始分直接相互比較并按固定的分數段劃分等級,評分過高和過低導致評分的區分度不夠,評價主體對評價標準的理解和把握不一致導致“苦樂不均”,這種現狀嚴重影響了教師提高教學質量的積極性,必須引起足夠的重視。

研究者試圖通過構建大學課堂教學質量評價指標體系來解決大學教師課堂教學能力評價的問題,并進行了積極的探索。[1][2][3]目前,相關研究主要集中在評價指標的選擇和定義、權重設計和評價活動過程管理方面[4][5][6],對評價數據的應用問題關注不夠,特別是對評價分數的主觀性問題和分數的相對高低問題未引起足夠的重視[7][8]。要對大學教師的課堂教學能力進行更為準確的評價,我們必須盡量剔除評價分數中不合理的主觀性因素,并合理劃分評價等級。

多面Rasch模型為剔除主觀性因素提供了可行的方法,卻不能解決評分等級劃分的問題。該方法在人才測評、英語口試等主觀評價中得到了廣泛的應用[9][10],在大學課堂教學質量評價中則應用非常少。本文將多面Rasch模型引入大學課堂教學質量評價數據應用之中,用于剔除評價分數的主觀性因素,并補充聚類分析法重新劃分等級,從而為大學教師教學能力評價提供新思路。

一、研究設計

(一)研究方法

多面Rasch模型將被評價者得到的分數分解為被評價者的能力估計值、評委寬嚴度、項目難度以及等級難度等因素。被評價者的能力估計值獨立于評委的特點以及特定項目的難度,而在大學課堂教學質量評價中,同一個評委往往在不同的時間對多門課程教師的教學情況進行評價,不同課程難度不同,評委對評價指標的理解和把握存在差異,剔除這些因素才能對大學課堂教學質量作出準確的評價。利用Facets3.63.0對數據進行處理,得到被評價者的能力估計值,再利用聚類分析法將能力估計值劃分為不同的等級。

(二)樣本與數據來源

?本次研究從某高校的一個學院抽取了2014年5月至6月的105份課堂教學評價表。其中,聽課人共6位,被聽課的教師共23位。按照聽課人將23位教師的課堂教學評價表進行分類,18位教師分別被4位相同的聽課人評分,其他5位教師被若干不同的聽課人評分。聽課人的編號為A、B、C、D,教師的編號為1、2、3…18。將18位教師的課堂教學評價表抽取出來,每位聽課人給每位教師的評分按照同一聽課人的平均分計算。例如,編號為1的教師被編號為A的聽課人評分兩次,編號為A的聽課人對該教師的評分按照兩次評分的平均值計算,被聽課人最后的分數等于4位聽課人評分的均值。經過整理,我們得到了4位聽課人對18位教師的評分數據共72個,形成本次研究的樣本。

(三)描述統計

聽課的基本情況為:聽課人共4名,其中3名男性和1名女性;被聽課人共18名教師,其中10名女性和8名男性。

每位聽課人對教師的評分情況見表1。編號為A的聽課人打出的最高分為95分,最低分為81分,平均分為86.3,高于平均分的人數為8人,低于平均分的人數為10人;編號為B的聽課人打出的最高分為91.5分,最低分為84分,平均分為87.8,高于平均分的人數為9人,低于平均分的人數為9人;編號為C的聽課人打出的最高分為94分,最低分為80分,平均分為88.2,高于平均分的人數為8人,低于平均分的人數為10人;編號為D的聽課人打出的最高分為93.5分,最低分為83分,平均分為89.1,高于平均分的人數為9人,低于平均分的人數為9人。從評分分布情況來看,A與C的評分比較接近,B與D的評分比較接近。

二、實證分析

教師的原始分數取決于自身的能力、聽課人對評分標準的理解和把握程度。我們無法直接評價教師自身的能力,所以將教師的原始分數分解為被評價者的能力估計值、評委寬嚴度、項目難度以及等級難度等因素,從而得到教師能力估計值。

(一)聽課人對評分的影響

1.聽課人的寬嚴度

寬嚴度用于描述聽課人對評分標準的理解和把握的一致性程度,結果見表2。聽課人A的寬嚴度為0.28 logits,是最嚴格的聽課人。聽課人D的寬嚴度為-0.27 logits,是最寬松的聽課人。分隔系數為2.94,信度為0.9,聽課人寬嚴度卡方檢驗x2(4)=28.8,說明聽課人之間的寬嚴度存在顯著差異。

寬嚴度的Infit值表示聽課人打分與聽課人自身寬嚴度相符的程度。聽課人很難按照一個恒定的寬嚴度打分,多面Rasch模型允許Infit值在0.5到1.5之間波動[11],大多數研究設定為0.8到1.2之間[12]。聽課人的Infit值在0.81到1.08之間,說明聽課人自身對評分標準的理解和把握是比較一致的,沒有出現對同一個人打分前后寬嚴度不一致和對不同的教師打分寬嚴度不一致的現象。

所以,本研究中寬嚴度不一致來源于不同聽課人對評分標準的理解和把握不一致,而不是聽課人打分與自身寬嚴度不符超過了一定范圍。自身能力差的教師遇到了打分寬松的聽課人,相對打分嚴格的聽課人,分數有提高的可能性;自身能力強的教師遇到了打分嚴格的聽課人,相對打分寬松的聽課人,分數普遍要低。但是,本次研究的4位聽課人是相同的,并且4位聽課人的打分與自身寬嚴度是相符的,不同聽課人之間的寬嚴度差異不影響對教師自身能力估計的準確性,但影響原始分數的大小排序,導致按照原始分數評價教師自身能力的準確度不夠。

2.聽課人對項目難度的把握程度

項目難度用于說明聽課人在哪個測評維度上把握嚴厲(數值大),哪個測評維度上把握寬松(數值小),估計結果見表3。根據該校的課堂評分表,題項2為“講授思路清晰,重點突出”,該項評分標準把握最為寬松;其次為題項8“理論聯系實際,注重實際能力培養”,說明教師在這兩個題項上容易得到較高的分數。題項4為“教案準備充分,課堂信息量大”,該項評分維度把握最為嚴格;其次為題項5“語言表達規范,師生雙向交流”,說明教師在這兩個題項上很難得到較高的分數。

項目難度的Infit值出現異常,合理的范圍為0.5到1.5之間[11],大多數設定為0.8到1.2之間[12]。題項1“為人師表,治學嚴謹”和題項7“課堂組織嚴密,教學紀律良好”小于0.5的臨界值,題項3“課堂內容充實,講授內容熟練”處于0.5到0.8之間,說明聽課人在這些評分維度上評分過于一致,區分度不高。

聽課人對三個評分維度把握不準確,主要表現為三個維度評分過于一致。原因可能有兩個:一是因為聽課人沒有很好地理解和把握評分標準,分數不能體現教師在這項能力上的差異;二是教師在這三個評分維度上表現比較一致。這三個維度都是比較容易觀察的,18位教師的教齡都在5年以上,一般都能達到這三項基本要求。

(二)剔除聽課人影響后的教師能力估計值與排序

1.教師能力估計值

18名教師能力估計值范圍為-0.92到1.05logits之間,全距為1.97logits。其中,編號為5的教師能力估計值最高,為1.05logits(S.E=0.17);編號為12和9的教師能力估計值最低,為-0.92logits(S.E=0.16);編號為16和17、編號為15和3的教師能力估計值是相同的,分別為0.11 logits和-0.99logits。分隔系數為2.89,說明評分整體是有效的。分隔信度為0.89,說明教師能力存在較大差異。 x2 (18)=157.2,p=0.0<0.01,說明教師能力差異具有統計學上的顯著差異。

Infit值用于說明聽課人評分的一致性程度,是用模型預期值和觀測值之間的差異進行描述的統計量。Infit值可接受范圍在0.5到1.5之間,具體取值視測評精度需要而定。如果測評精度要求比較高,可以考慮將Infit值設置在0.8到1.2之間。編號為4的教師的Infit值等于1.66,大于1.5的臨界值,說明4位聽課人對該教師評分非常不一致;編號為17、3、13、12、9的教師的Infit值為0.5到1.2之間,在可接受范圍內,但也存在較大不一致;編號為16、1、15、18、14、10、7和2的教師的Infit值都小于0.8,說明4位聽課人對這些教師的評分與模型期望相比過于一致。

2.教師能力估計值排序

將原始分數和教師能力估計值分別排序,1表示最高,2表示次高,依次遞減。排序結果(見表4)顯示,原始分數排序結果與能力估計值排序結果存在明顯差異。編號為4、5、8和16的教師的原始分數排序與能力估計值排序是完全一致的。相比原始分數排序,編號為1、15、17的教師能力估計值排序提高了一個名次,編號為2、3、7、6、9、10、12、13和18的教師能力估計值排序提高了兩個名次,編號為14的教師能力估計值排序倒退了兩個名次。

(三)等級劃分

利用SPSS20.0的聚類分析法對教師能力估計值和原始分數進行分類,根據每個類別的均值大小排序,并劃分為若干等級,分析結果見表5。

說明:原始分數等級(a)表示按照固定分數段劃分等級:90分及90分以上為優秀,80-89分為良好。原始分數等級(b)表示用聚類分析法將原始分數劃分為4個等級,教師能力估計值等級表示用聚類分析法將教師能力估計值劃分為4個等級。空格內的數字為劃分到不同等級的教師對應的編號。

將不同等級劃分方法得到的結果進行比較。按照固定分數段劃分等級,教學質量評價分數一般分為優、良、中、及格四個等級,90分及以上為優秀,80-89為良好,70-79為中等,60-69分為及格。編號為4、5、8的教師被劃分到優秀等級,其他教師被劃分到良好等級。用聚類分析法將原始分數分為四個等級,編號為5的教師被劃分到優秀等級,編號為1、3、4、8、15、16、17和18的教師被劃分到良好等級,編號為6、10、11、13和14的教師被劃分到中等等級,而編號為2、7、9和12的教師被劃分到及格等級。用聚類分析法將教師能力估計值分為四個等級,相比原始分數劃分等級的方法,編號為18的教師從良好等級下降到中等等級,編號為10的教師從中等等級下降到及格等級,編號為5的教師仍然被劃分到優秀等級。

三、研究結論與管理建議

(一)研究結論

基于多面Rasch模型,利用某高校2014年5月至6月4位聽課人對18位教師的72個評分數據進行了實證分析。結果發現,不同聽課人之間打分的寬嚴度不一致并對三個評分維度把握不準確。因此,我們應該使用教師能力估計值結合聚類分析法劃分等級,從而更加準確地對教師的教學能力進行評價。具體分析如下。

1.教師能力估計值對教師真實能力的估計更加準確

測量理論假設分數越高,能力越強,分數代表真實能力,其隱含的假設前提是不存在評委導致的非系統性誤差。教師能力估計值是從原始分數剔除評委寬嚴度、項目難度以及等級難度等因素影響后的余值。如果聽課人之間的寬嚴度一致,評分與自身寬嚴度一致,對評分項目的理解和把握一致,那么教師能力估計值等于原始分數。相反,教師能力估計值不等于原始分數。

在本次研究中,聽課人的打分與自身寬嚴度一致、不同聽課人之間打分的寬嚴度不一致的現象不足以造成評委導致的非系統誤差,但是聽課人對三個評分維度把握不準確導致原始分數對教師真實能力估計不準確,這是非系統性誤差。因此,原始分數不足以代表教師的真實能力,教師能力估計值對教師真實能力的估計更加準確。

2.教師能力估計值等級劃分比原始分數固定分數段劃分的方法更準確

將不同分數劃分為若干等級的目的是體現分數的相對高低,從而說明教師能力的相對強弱。按照固定分數段劃分等級往往是人為規定的,無法體現分數分布狀態對分數高低的影響,我們可以采用聚類分析法來解決這個問題。將教師能力估計值與聚類分析法集合起來,既能剔除聽課人對分數的主觀影響,也能體現分數的相對高低,從而體現教師真實能力的相對強弱。

(二)管理建議

本研究能為大學教師教學能力評價提供有價值的參考,建議將教師能力估計值結合聚類分析法用于大學教師教學能力評價,具體方法如下。

1.數據分析常態化

高校往往將課堂教學質量評價作為教學管理的日常活動,其數據可以作為評價教師課堂教學能力的數據來源。當課堂教學質量評價活動結束后,管理方應組織相關人員開展數據分析,將原始分數分解為教師能力估計值、評委寬嚴度、項目難度以及等級難度等因素,將教師能力估計值結合聚類分析法將教師分數劃分為若干等級。

2.聽課人管理制度化

多面Rasch模型可以用于發現打分異常的聽課人。對于自身寬嚴度不一致、評價項目理解和把握不準確的聽課人,要進行提示、培訓甚至淘汰,建立對聽課人的激勵和約束機制,促進聽課人認真履行職責。

3.評價項目動態更新

管理方應定期組織相關人員對評價項目開展分析,及時更新評價項目。對于分值很高的評價項目,應該將其總分分解為若干等級,并進行定義和描述,促進評委對評價項目的理解和把握。[13]對于區分度不高的評價項目,可以作為教師基本職業規范的評價項目,而不作為教師教學能力評價的項目。對于相關性比較高的多個評價項目,可以考慮利用因子分析法等統計學方法再次提煉,提高評價項目的科學性與合理性。

注釋:

①本文的教師均指大學教師,能力均指課堂教學能力。

參考文獻:

[1] 裴娣娜.論我國課堂教學質量評價觀的重要轉換[J].教育研究,2008(1):17-22.

[2] 喻方元.高校教師課堂教學質量評價體系研究[J].高教發展與評估,2008(3):80-85.

[3]董河魚.課堂教學質量評價問題及對策[J].內蒙古師范大學學報(教育科學版),2010(3):42-43.

[4]劉偉,孫林.基于支持向量機的課堂教學質量評價[J].合肥工業大學學報(自然科學版),2010(7):968-971.

[5] 謝巍,柏宏斌.模糊評判在高校課堂教學質量評價中的應用研究[J].四川理工學院學報(自然科學版),2006(10):109-111.

[6] 王振友,王振強,陳莉娥.基于層次分析法的課堂教學質量評價[J].廣東工業大學學報(社會科學版),2010(6):25-27.

[7] 張克非.課堂教學質量評價數據客觀性處理及反饋機制探究[J].教學與管理,2014(3):44-46.

[8] 錢存陽,李丹青.多元統計分析在課堂教學質量評價中的應用[J].數理統計與管理,2005(11):40-43.

[9] 石志亮.多面 Rasch模型分析軟件 Facets在英語測試中的應用研究[J].鄭州航空工業管理學院學報 (社會科學版),2011(4):143-148.

[10] 孫曉敏,薛剛.多面 Rasch模型在結構化面試中的應用[J].心理學報,2008(9):1030-1037.

[11]Linacre JM,Wright B D.Understand Rasch Measurement:Construction of Measures from Many ?Facet Data[J].Journal of Applied Measurement,2002,3(4):486.

[12] Kondo Brown K A.Facets Analysis of Rater Bias in Measuring Japanese Second Language Writing Performance[J].Language Testing,2002,1(19):3-31.

[13] 孫曉敏,張厚粲.結構化面試評定量表的現代測量學分析[J].應用心理學,2007(3):250-256.

(責任編輯鐘嘉儀)

主站蜘蛛池模板: 国产午夜无码片在线观看网站| 亚洲天堂久久新| 久久久久无码国产精品不卡| jizz亚洲高清在线观看| Jizz国产色系免费| 国产精品99久久久久久董美香| 国产第四页| 午夜免费视频网站| 十八禁美女裸体网站| 亚欧美国产综合| 秘书高跟黑色丝袜国产91在线| 波多野结衣一区二区三视频| 免费无遮挡AV| 欧美在线一级片| 亚洲综合婷婷激情| 高清欧美性猛交XXXX黑人猛交| 欧美激情福利| 亚洲国产清纯| 久久久久国色AV免费观看性色| 久久久久亚洲Av片无码观看| 九九热在线视频| 老色鬼久久亚洲AV综合| 亚洲另类色| 国产高清免费午夜在线视频| 制服丝袜亚洲| 91久久偷偷做嫩草影院精品| 亚洲中文字幕日产无码2021| 国产本道久久一区二区三区| 3p叠罗汉国产精品久久| 无码高潮喷水专区久久| 成人免费黄色小视频| 亚洲第一综合天堂另类专| 最新国产高清在线| 97se亚洲综合在线韩国专区福利| 白浆免费视频国产精品视频| 在线观看精品国产入口| 国产成人高清精品免费软件| 国产乱人伦偷精品视频AAA| 2020亚洲精品无码| 人妻精品久久无码区| 亚洲国产在一区二区三区| 人妻21p大胆| 欧美a级完整在线观看| 中国一级特黄视频| 中日韩一区二区三区中文免费视频 | 毛片a级毛片免费观看免下载| 国产粉嫩粉嫩的18在线播放91| 天天色综合4| 亚洲视频四区| 思思99热精品在线| 亚洲一级毛片在线观| 午夜激情福利视频| 中文字幕不卡免费高清视频| 亚洲国产精品美女| 国产欧美亚洲精品第3页在线| 国产人人乐人人爱| 中文字幕无码制服中字| 国产在线观看第二页| 天天摸夜夜操| 91破解版在线亚洲| 狠狠干综合| 91视频区| 国产95在线 | 亚洲性网站| 无码丝袜人妻| 全午夜免费一级毛片| 亚洲精品成人7777在线观看| 国产精品一区在线麻豆| 国产女人在线| 色综合中文综合网| 亚洲性日韩精品一区二区| 老色鬼久久亚洲AV综合| 91成人试看福利体验区| 毛片手机在线看| 国产精品丝袜在线| 午夜精品久久久久久久无码软件| 日韩成人高清无码| 亚洲欧美极品| 天天色综合4| 欧美一级片在线| 亚洲天堂免费观看| 亚洲码一区二区三区|