【摘要】隨著學生評教的普及,學生評教中的偏差問題已經引起教學管理者的警惕。該課題從分析學生評教偏差現象和偏差產生的原因入手,探索了對學生評教開展控制的控制模型,并論證了模型的有效性。
【關鍵詞】學生評教;偏差分析;控制模型
【中圖分類號】G420 【文獻標識碼】A 【論文編號】1009—8097(2011)02—0040—05
隨著高等教育大眾化的到來,高等教育質量問題成為影響高等教育能否可持續發展的決定因素。從高等教育質量監控的層次來看,可以分為微觀層次、中觀層次和宏觀層次,在各類教學質量監控舉措中,由教學管理部門負責的學生評教、督導評教、院系領導聽課制度是中觀控制的常見手段。盡管學生評教已經在高校中普遍存在,但對高校中學生評教有效性的爭議一直存在,對于如何提升學生評教的有效性水平,也有許多學者進行了有益的探索。
一 針對學生評教數據樣本的實證分析
思辨的方法不能解決學生評教數據的有效性和偏差問題。因此,課題組決定針對真實的評教數據,開展實證性分析,從數據分析的視角探索評教數據的有效性和偏差現象。
1 數據樣本采集及其信度、效度分析
(1) 評教樣本的選取
為保證研究的有效性,研究的樣本量應該達到一定的規模,并且具有一定的代表性。為此,課題組選用了三所高等院校的學生評教數據開展研究。其中A大學是位于北京的一所綜合性重點大學,共采集了該校自2004年上學期至2009年上學期(共11學期)的全部學生評教數據,大約有80萬條記錄(7萬×11條記錄);B大學是位于河南的一所普通院校,只獲得了該校4個學期的部分評教數據,大約有10萬多條記錄。C大學是位于山西的一所普通院校,只獲得了該校一個院系2個學期的評教數據,僅有2萬條評教記錄。從當前獲得的評教樣本看,A校的數據比較全面,適合開展較為詳細的數據分析,B校和C校的數據規模較小,但B校和C校的評教數據能夠部分代表普通院校學生評教的情況,因此可作為對A校數據的有效補充。
(2) 評教樣本的信度和效度
課題組首先針對數據樣本進行了內部一致性檢驗,發現全體數據的克朗把哈系數全部在0.85以上,呈現出較好的可靠性;然后,分別以專家評價和教師在其他學期同一課程上的評教得分作為再測復本,開展復本檢驗,發現數據之間的相關性顯著,其檢驗概率全部小于0.05,呈現出極好的一致性。因此,從整體上看,評教樣本具有較好的信度和效度。
2 數據樣本的離散性與偏差狀況
充分肯定評教數據整體有效性,并不能否認評教數據中偏差的存在。從評教數據的視角看,學生評教中明顯存在著以下問題:
(1) 少量學生的評教給分缺乏離散性。有少量學生對一門課程的所有評教指標項全部給予相同的分值(比如全部5分,或者全部3分),彷佛沒有認真地思考每個指標項的語義和教師在相關方面的表現;
(2) 部分學生的評教給分整體偏低(或偏高)。部分學生對所有課程都給予了較低(或較高)的成績,盡管對不同的課程,這些成績能夠區分出高低的順序,但對樣本整體的統計分析極為不利;
(3) 通過網上調查和學生座談得知,在學生評教活動中有代評現象存在。
3 針對學生評教數據的協同性分析
在已經證明學生評教有效性和評教指標基本合理的情況下,課題組分別從學生和課程兩個維度對學生評教過程中的協同性進行了分析,論證某一行政班級中多位學生針對某一課程(學期+教師工號+課程代碼)的評價是否具有協同性、一致性。這類關于多位學生針對某一課程的評價是否保持一致性的研究雖然可以通過學生們評價的離散度(方差)來體現,但在面對眾多課程的時候,利用多配對樣本的Kendall協同系數檢驗更是非常有效的方法。在這種思路中,如果把對每個評判對象的分數看作是來自多個總體的配對樣本,采用變形的Friedman檢驗,就能通過Kendall協同系數檢驗多個評價者對多門課程開展評價的協同性水平問題[1]。
(1) 多名學生針對同一課程的肯德爾協同系數分析
針對一個行政班級,在此班級中有多名學生。在評教活動中,這些學生充當著評價者角色。由于這個班級的學生同時參與多門課程(多個教學班)的學習,現在可以檢測這些評價者對多門課程的評價數據是否具有協同性和一致性。
首先,選取樣本并進行數據準備。從A校的評教數據中選擇一個人數比較多的行政班級,把該行政班級的所有學生和這些學生選修的所有課程以及評教結論整理到一個數據表中。然后,進行轉置與清理,剔除無效數據,最終得到一個以學生為行、課程為列的二維數據表。
其次,執行Kendall協同系數檢驗。對學生、課程數據表執行多配對樣本的非參數檢驗,要求實施FriedMan檢驗并計算Kendall W協同系數。執行檢驗后獲得的結果如圖1所示。

第三,協同性檢驗結論。由Kendall協同系數檢驗結果(圖1)可知,幾門課程的秩分別為3.08、2.88、3.27、2.88、2.88,卡方檢驗統計量的值為6.400,對應的概率p值為0.174,大于預設的顯著性水平0.05,因此不能拒絕0假設,只能認為學生對各門課程的評價值沒有顯著性差異,而協同系數(Kendall W)為0.123,遠遠小于1。因此可以認為各位學生對同一門課程的評價并不一致。
當然,從這個視角獲得的結論僅僅可以證明多位學生對同一門課程實施評教的協同性較差,尚不能推出“學生對各門課程的評價是無效的”這種結論。
(2) 同一學生針對不同課程的肯德爾協同系數分析
針對一個行政班級中的多個教學班,課題組檢測了該班級修讀的各門課程對于多位評價者的評價值是否具有協同性和一致性。
首先,選擇樣本并執行數據清理。從A校的評教數據中選擇一個人數比較多的行政班級,把該班級的所有學生和這些學生選修的所有課程以及評教結論整理到一個數據表中;
其次,進行轉置與清理,剔除無效數據,最終得到一個以課程為行、學生為列的二維數據表。
第三,執行Kendall協同系數檢驗。對獲得的二維數據表執行多配對樣本的非參數檢驗,要求實施FriedMan檢驗并計算Kendall W協同系數。執行分析后獲得的結果如圖2所示。

第四,協同性檢驗結論。由Kendall協同系數檢驗結果可知,幾位學生的秩分別為8.40、1.30、8.40、8.40、3.50,卡方檢驗統計量的值為56.253,對應的概率p值為0.00,小于預設的顯著性水平0.05,因此可以拒絕0假設,認為不同學生對同一課程的評價值有顯著性差異,而協同系數(Kendall W)為0.938,接近于1。因此可以認為每位學生對自己修讀的5門課程的評價值具有一致性。
(3) 對學生評教協同性檢驗的結論
通過對A校和B校的評教數據分析后得知,A校和B校的多位學生針對同一門課程的評教一致性較差,因為其協同系數較低;而一位學生對不同課程的評教具有較強的協同系數,其一致性較強。
針對這一現象,課題組對部分學生進行了調查和座談。調研發現,導致上述現象的原因在于:在實際評教過程中,確實存在著學生對評分基準理解的不一致問題(見表1的前測數據)。部分學生認為得分4.5以上的教師才是好老師,而另外有些同學認為獲得4.0分的教師就是好老師。這種定位不一致的情況,直接導致了“多位評價者針對同一課程的協同系數較低,而同一學生面向不同教學班的協同系數較高”這一現狀。另外,由于B校的評教指標不是一種等級制的體系,每個指標項都有自己的滿分分值。部分粗心的學生常常因沒有記住某些指標項的滿分值,導致評教結果出現較大的偏差。再者,B校指標體系中還存在著一個超出學生知識判定水平的指標項“能夠結合教學需要充實本學科新進展和新成果”。這一原因也會導致B校學生評教的協同系數降低。
盡管如此,這并沒有影響學生評教的有效性。因為對于每個學生來講,針對自己面對的各門課程,其內心都有一個相對的、階梯性的標準,只要這種居于學生內心的階梯性分值滿足排序一致性(即大家都認為某位教師的教學質量可排名第一、而另一位教師的教學質量可排名第二,……)就不會影響到學生評教數據的有效性,不會導致評教數據的混亂。由于這種具有層次性的評教分值已經能夠區分優秀教師和存在教學缺陷的教師,所以,獲得的評教結論仍然是有效的。
二 學生評教數據偏差原因分析
1 針對學生評教偏差原因的調查
2009年初,課題組在B校選取了200多位學生進行了兩次網絡調查,通過調查問卷征集了學生對學生評教的看法、態度。在實際的測試中,共有224名學生參與了前測調查,回收有效數據207份;210名學生參與了后測調查,回收有效數據198份。調查問卷的統計結果如表1所示。表1中前測數據較明顯地呈現出評教偏差存在的原因。

2 導致學生評教產生偏差的主要原因
從表1前測數據反映出的觀點看,導致評教發生偏差的原因很多,有態度方面的問題,也有個體的評分習慣方面的問題。另外,學生評分的偏差度還受學生知識水平與判定能力的影響。
(1) 態度問題
態度是影響學生評教質量的重要因素。由于有的學校規定評教是學生的基本義務,不進行評教的學生不能選課、甚至不能獲得獎學金,反而引發了學生的反感,導致部分學生把評教作為一項必須去應付的差使來做。極端的現象是:某些學生在登錄評教系統后,根本不看評教指標項,胡亂選擇一個分數了事。在這種情形下,常常導致評教數據缺乏離散度,對所有指標項、甚至所有課程都給予了相同的分值,基本就是無效數據。
(2) 個體評分習慣
由于對評教指標標準理解的差異,評教學生可能按照自己內心的基準給教師打分。有的學生以4.5作為基準分,對于不同課程上下浮動,也有學生以4分作為基準分,上下浮動。這一問題會導致學生個體對不同課程的評價呈現出較好的協同性,即導致他們給出的分值普遍偏高或普遍偏低。
(3) 學生的知識水平與判定能力
學生評教是一個要求學生做出判定的過程,這個過程受學生知識水平和判定能力的影響。特別是某些評教指標中要求學生對“教學覆蓋前沿知識”、“教學知識性、系統性”方面做出判定,已經超出了學生現有的知識水平,也會導致學生的評教結論出現較大的偏差。
總之,導致學生評教產生偏差的原因很多,但比較關鍵的因素是學生對評教的態度、對課程的期望、內心的評判標準、對大學學習模式的適應度。學生評教中的一些不良行為是否及時地得到糾正也是影響學生評教偏差度的重要原因。
另外,學生個體在評教過程中也會受到性格、情感、評教時刻情緒等方面因素的影響。當然,某些學生意志不堅定、喜歡不嚴格要求自己的教師,或者缺課嚴重,不能全面地了解教師的授課狀況,也會導致在評教時出現較大的偏差[2]。
三 學生評教控制的模型設計
1 針對學生評教開展控制的主導思想
(1) 激發學生的評教積極性
從學生評教數據的結果看,學生對評教活動的輕視和填寫評教數據的隨意性是影響評教信度的重要原因,而影響學生評教態度的關鍵因素在于學生是否已感受到自己的評教結論受到了校方的重視、學生是否及時地獲得了關于評教狀況的反饋。為激發學生評教的積極性,需要及時地對學生評教實施元評價、并及時地向學生反饋元評教結論,使學生感受到校方對評教的重視,進而激發學生評教的積極性;
(2) 借助教育信息平臺,創建學生評教控制模型
隨著信息技術的發展,基于信息平臺的學生評教已經廣泛應用。但對評教控制與評教數據應用的研究還較少。事實上,由于信息平臺的強大運算能力,可以保證在較短的時間內完成海量數據的統計分析,并能及時地把分析結論反饋給相關人員。因此,依托信息技術,建構評教控制模型來實現對學生評教質量的管理是完全可行的。即學生評教控制模型應該借助網絡技術和數學模型,建構在信息平臺之上。
2 學生評教控制模型
通過對近百萬份評教記錄的分析,筆者認為從學生評教數據的離散度、相似度和均值等角度對數據進行學生評教的元評價是可行的。其控制模型的基本結構如圖3所示。

為了能夠清晰地說明控制流程,對本模型中涉及到的概念進行必要的說明:
(1) 離散度
用于反應學生每學期填報評教數據的離散程度,主要用于監測學生在評教過程是否全部填寫了相同的分值。例如,有的學生對指標中的選項,全部填寫為5分或3分,是一種典型的不負責任現象。通過測算此數據的離散度,并及時地把測量結果反饋給學生,給部分不重視評教工作的學生恰當的警示,盡量提高調查數據的信度。
(2) 加權平均值
由于對教師的每個測評指標都有多名學生給出測評結論,因此需要根據多名學生的測評結論計算出其加權平均值,作為教師在該指標上的得分(即標準分)。在計算過程中,新生的權重恒定為1,但老生的權重可由前一學期的測評數據計算獲得[3]。以加權平均值作為學生評教的效標。
(3) 相似度
針對教師的一學期授課,首先以每個測評指標的加權平均值作為該教師在此指標上的標準分,然后檢測每個學生在全體指標上的評價分與教師標準分的相似程度。即檢測該學生針對某教師的測評曲線與該教師的加權均值曲線的擬合程度[4]。也可稱之為偏差程度。
(4) 學生評價權重
通過每個學生的相似度結論和離散度結論,計算其評教權重。對評教權重很高的學生,可通過評教系統、院系輔導員或學生工作部門給予一定的獎勵。
(5) 教師認可度
教師應及時地對學生的評教結論進行評議,對每一個指標的分值都給出認可度,并針對得分分值極低的指標提出具體的整改措施。
四 學生評教控制模型實踐及其效果
對基于教務信息系統設計的評教控制模型,必須通過實踐的檢驗并依據檢驗結果對控制模型進一步完善與改進。根據上述設計思路,課題組在B校開展了對評教控制模型的實踐活動,并通過調查問卷、座談會和數據分析等方式對評教控制模型的有效性進行了檢驗。
1 對學生評教控制模型的實踐
根據上述設計思路,課題組按照學生評教控制模型算法對B校中文系2009年的評教數據展開了的重新計算,獲取了每個學生評教的偏差度和離散度,并進而得到了每個學生的評教權重,最后以權重作為反應學生評教質量的重要標志。這一過程的基本步驟包括:
(1)依據學生權重計算教師的評教標準分,作為效標;
(2)計算每個學生與效標的偏差度(即效標距),同時計算每個學生的評教離散度;
(3)依據學生的評教偏差度和離散度,計算本學期每位學生評教的權重值;
(4)把針對學生評教的再評價信息通過教務系統反饋給每一個學生。
教務信息系統向學生反饋評教質量的界面如圖4所示。

2 評教控制模型應用效果
(1) 應用評教控制模型能夠提升評教數據的信度和效度
按照評教控制模型,以加權平均分思路重新計算教師的評教得分,然后對新的評教結論進行內部一致性檢驗。分析結果證實:檢驗結論與前述結論相同,數據的可靠性系數為0.986,顯示出極好的可靠性,而且其F檢驗對應的概率值p=0.00,各個指標項的加權均值在總體上存在顯著性差異,能夠較好地反應教學質量的各個方面。
(2) 對比應用評教控制模型前后,學生的評教積極性有了明顯提升
為獲得評教控制模型應用效果的第一手資料,課題組在實施學生評教控制后對相關學生再次進行了問卷調查,其統計結果如表1的后測部分所示,其中5個指標項的統計值變化明顯地證實了應用評教控制模型實施數據校正與及時反饋的必要性。
從表1的后測數據列可知:在“針對學期末學生評教活動的態度”欄目中,選擇“一定要認真填寫,把自己的意見正確表達出來”的比例從58.4%提升到了82.3%,認為對學生評教要認真對待的比例提升了接近25個百分點,而把“評教作為一個任務進行應付的”比例則從33.8%下降到了4.5%,這是一個非??上驳淖兓?;另外,在“您認為自己的意見會受到如何對待”欄目下,有更多的學生認為自己的意見得到了重視(從28.5%上升到了41.4%),認為“自己的意見白提了”的比例則從41%下降到了1%。
調查結論證實,在學生接觸到評教控制系統并獲得了校方對自己評教的反饋后,學生針對評教的態度有了較大的變化,而且學生針對評教標準的理解也更為清晰,減少了基準不一致現象的發生。
參考文獻
[1] 衷克定#8226;SPSS for Windows數據統計分析工具應用教程[M].北京:北京師范大學出版社,2001:86-88.
[2] 張臻,王建軍.對影響學生評教因素的研究與分析[J].教育管理,2009,(3):129-130.
[3] 王孝玲#8226;教育統計學(第二版)[M].上海:華東師范大學出版社, 2001:41-48,52-54.
[4] ZHAO Hui-tang著,鄺祝芳譯#8226;數據挖掘原理與應用(SQL Server 2008數據庫)[M].北京:清華大學出版社,2007,(1): 109-253.
Research of Excursion Analysis Control Model on SETQ
MA Xiu-lin ZHONG Ke-ding ZHANG Qian
(School of Education Technology, Beijing Normal University, Beijing 100084,China)
Abstract: The problem of the SETQ Data excursion is found when we analysis the validity of the SETQ, So we reassess the data of SETQ by these method: Discrete Degree, Weighted Average, Similar Degree etc,and then prove the control model is useful by the network investigation。
Keywords: SETQ(the Students Evaluation of the Teaching Quality); excursion analysis; control model
收稿日期:2011年1月10日
編輯:小禾