嚴中平,王曉卉,顧麗娜
(1.沈陽藥科大學 研究生院,遼寧 沈陽 110016;2.遼寧教育學院,遼寧 沈陽 110032)
根據教育部2014年發布的《教育部關于改進和加強研究生課程建設的意見》文件“培養單位要加強研究生課程教學評價,制定科學的評價標準,定期實施課程評價”[1],研究生評教作為輔助手段,在研究生課程評價監管體系中發揮著重要的作用。研究生評教是研究生培養單位構建研究生質量的重要組成部分。研究生評教可以幫助研究生教師改進教學,提高質量,也可以為研究生教學管理部門提供課程建設和培養方案修訂的決策參考[2]。研究生評教的質量,不僅影響教師的教學方式和教學態度,還影響到研究生的學習效果以及教學評價的參與積極性[3]。因此,通過對研究生評教質量分析,能夠及時讓教師和管理部門了解教學情況,促進教師不斷改進教學方法和教學內容,促進管理部門進行課程體系建設,從而提高研究生教學質量和研究生培養質量[4]。
當前關于研究生評教質量的研究,主要集中在三個方面:一是基于研究生評教的制度研究,認為建立以學生為中心的教學評教制度是有效的,能夠確實提高學生評教的科學性和有效性等,如李沖等通過大連理工大學5年的實踐研究證明,建立以學生評教為主,輔以專家評價教學質量保障體系是有效的[5];呂鵬認為遵循學生主體地位,構建具有發展性、全面性和易評性原則的評教體系,將帶來評教質量的飛躍[6];保駿等認為按照不同的課程類型適當調整評價指標,并根據評價主體特點來設置動態權重,改善數據分析方法,可以提高教學評教的質量[7]。二是研究生評教的有效性研究,探索研究生評教的影響因素、信度、效度分析等,例如李楠論證了高校學生評教結果雖然存在著干擾項,但整體是可靠的[8];王雪婷通過訪談和問卷調研,利用探索性因素分析的方式,構建了學生(教師)評教模型,并通過信度和效度檢驗驗證[9];王力綱等基于區分度及可信度的學生評教模型,并利用新舊評教模型對同一被評教對象和參評對象評教后的不同評教結果進行了分析對比[10];王堯分析了遼寧省12所高校學生評教指標存在的問題以及改進的措施[11]。三是基于評教數據或者評教數據挖掘或者授課評價文本的情感挖掘研究,找出研究生評教數據或者文本中隱藏的影響因素。毛豐付對浙江評教數據進行分析后發現學生評教是有效的,同時也受很多因素的影響,存在著偏差[12];馬秀麟通過對2所高校的評教數據進行對比分析,也論證了學生評教結果是有效的,能夠較為真實地反映教師的教學狀況[13];李正通過對學生評教的可信性和有效性進行深入的分析與探討,并就改進我國高校的學生評教工作提出合理的建議[14];在基于文本的情感分析研究中,羅玉萍和嚴霞分別利用不同的軟件,對學生評教的文本進行分詞,兩人均采用了知網的情感詞典對語句進行情感打分,表明基于文本的情感分析的方法也是科學有效的[15-16]。
通過文獻研究還發現,不管是基于量表問卷的研究,還是基于情感挖掘的研究,都會因為研究生的情緒、研究生評教習慣等多方面的原因,出現數據失真,為了有效解決數據失真的問題,筆者將利用S大學的研究生督導體系問卷,進行量表研究和文本情感的結合分析,探尋利用分層檢測、數據和情感挖掘結合的方法,有效解決評教數據失真的問題,提升研究生評教問卷的有效性,激勵研究生和導師共同提高教學質量[17]。
S大學是一所歷史悠久的專科型大學,在行業具有較高的影響力。該校于2015年建立了現存的研究生督導管理體系,成立了一支教師督導和研究生督導聯絡員結合的督導隊伍。學校每年聘請20名督導聯絡員,對研究生課程進行專門反饋,在聘任督導聯絡員時,選擇了一批思想覺悟高、誠實公正的研究生干部;要求他們學習態度端正,責任心強,觀察事物細致,有較強的組織和協調能力,熱心為同學和班級服務;同時也要求有一定的分析問題能力和文字表達能力。為了保障評價質量,學校對這些督導聯絡員進行專門的培訓和考核,及時監控評教數據質量,對不太負責任的評教數據及時進行整改;同時在評價過程中,使用匿名評價的方式,并為督導聯絡員發放酬金,提升了督導聯絡員的積極性。
該校督導聯絡員所使用的量表是在參考美國俄亥俄州立大學的學生評教手冊(Student Evaluation Of Instruction (SEI) Handbook)[18]基礎上(9道問題),結合之前校內的評教表格,去掉重復的問題,然后按照教學態度、教學內容、教學方法和教學效果進行重新設計。在設計的過程中,基本保留了俄亥俄州立大學提問的風格,并將校內的問題也按照該風格進行重新優化,保留問卷的原汁原味(見表1)。在保留這些客觀性量表的同時,還保留了四個主觀性評價問題:這門課程的授課亮點與特色是什么?這門課程的授課問題與不足是什么?研究生學習效果與學習過程中的問題。對于這門課程的建議與意見。通過這樣問卷的設計,盡量做到對教師的評教公平公正。
在研究生量表設計完成之后,S大學對研究生問卷進行了試測,并將采集到的數據去掉重復值,得到有效數據453條,利用SPSS軟件對結果進行信度分析,得出問卷克隆巴赫系數為0.973,表明問卷具有較好的信度。利用Amos22軟件對結果進行斜交驗正性因子分析[19]。得到的卡方值為249.235,卡方值/自由度為2.651,小于3,CFI(0.981)、NFI(0.969)、IFI(0.981)均大于0.9,RMSEA(0.060)小于0.08,潛在變量到測量變量的標準化回歸系數均大于0.7,表明當前二級指標,對一級指標有較好的信度,當前結構可以使用。

表1 S大學的研究生評教問卷量表
S大學從2017年1月起開始使用該問卷,截止到2019年1月,共收集到數據1234條,涉及2016、2017、2018三個年級共計60名研究生督導聯絡員所填寫的數據。筆者對所有評教量表題按照各一級指標進行了加和,分別得到教學內容、教學態度、教學方法和教學效果分數,將4個一級指標的得分加和得到教學評價的總得分。為了配合將來對情感分析數據進行對比分析,筆者還對此五項數據利用以下公式進行了歸一的標準化,得到標準化數據。后續分析均在歸一化數據的基礎上進行。
X = (X-Min)/(Max-Min)
筆者首先對得到的1234條數據進行內部一致性檢驗,發現其克隆巴赫系數為0.978,表明數據具有較好的可靠性,適合進行數據分析。對教學評價總分的最終統計數進行描述性統計發現,教學評價均值在0.8318,標準偏差在0.2266,偏度為-2.247,峰度為4.507,偏度<0,峰度>0,表示教學評價分布呈負偏態,且比較陡峭。
檢查直方圖(圖1)可以發現,部分研究生的評分存在著偏低的情況,全是最低分或者全是最高分,特別是最高分的情況較多。但是在檢驗數據的過程中,發現數據中也存在著部分學生對所有問題評分全為5情況較多,看似好像沒有認真地思考相關問題和教師的表現,但是筆者就此問題詢問相關督導聯絡員,他們大部分認為全評為5分的教師,上課表現確實符合他的心理預期,只有極個別的同學,通過后期的評價看出,存在著不認真的情況。

圖1 教學評價的直方圖
對教學評價量表進行相關性檢驗,結果見表2,顯示教學態度、教學效果、教學內容和教學方法之間顯著性P值均小于0.01,相互之間均存在顯著的相關性,這與之前進行的研究生評教量表的斜交驗證性因子分析結果吻合。

表2 教學評價量表一級指標的相關性檢驗
**. 在 0.01 級別(雙尾),相關性顯著。
在S大學課程體系中,研究生課程類型分為公共基礎課、學位選修課和非學位選修課。公共基礎課是所有研究生必修的課程,學位選修課程對本專業更重要,但這門課程同時也可能是別的專業的非學位選修課。筆者利用不同的課程類型與課程評價結果進行方差分析(圖2),得出顯著性概率為0.008,小于0.05,表明課程類型與評價結果之間存在相關性。不同課程類型的教學評價分布圖表明研究生督導聯絡員在評教的過程中,對于學位選修課的教師的教學內容、方法、態度和效果更加關注,也更為認可;對于非學位選修課的相關教學評價關注度較低,認可度也更低;對于公共基礎課的關注度和認可度比學位選修課稍低,但是差別不大。

圖2 不同課程類型的教學評價分布圖
分詞,是利用軟件或者算法,將句子分割為詞語的過程[20]。為了對研究生所反饋的主觀性問題進行分析,首先就需要利用分詞工具對反饋的問題進行分詞。當前有很多流行的分詞工具,例如羅玉萍采用的是3GSW分詞工具[15],嚴霞采用的是哈爾濱工業大學的自然語言處理工具(language technology platform,LTP[16])等,筆者在編程過程中,嘗試使用LTP、結巴、SnowNLP、HanLP等多種分詞工具,利用Python語言進行編程比較,最終確定采用結巴分詞工具。結巴分詞工具是當前Python語言中最流行的分詞工具,能夠自定義詞典,分詞速度較快,精確度較高,在NLP領域具有較高的推薦度。
在分詞之后,筆者對詞頻進行了統計分析,去掉了比如“講解、上課時、這門、一門、X老師”等一些屬于高頻詞但是對分析沒有太大意思的狀語詞、量詞等詞匯。筆者對每個問題前10的高頻詞匯進行人工檢索,生成了4個問題的關聯詞匯表(表3),從關聯詞匯表中,可以看到雖然每個問題的高頻詞匯相差不大,但是關聯詞匯還是有較大的差異,從關聯詞匯可以看出,每個研究生反饋的問題還是與所提問題回答較為吻合的,問題回答文本與問題有較高的關聯度。

表3 高頻詞的關聯詞匯表
情感是人類智能的一種特征表現。情感主要是人類身體和生理狀態在發生變化時的一種反映,也可以通過文本表達情感[21]。目前情感分析的方法主要有基于情感詞典的情感分析和基于機器學習的情感分析兩種,各有優缺點。限于筆者所掌握的Python編程能力,這里選擇基于情感詞典的情感分析。目前可供選擇的情感詞典很多,但大多基于新聞和基于評論的比較多,沒有專門針對課程反饋的語料庫,比如哈爾濱工業大學的自然語言處理工具LTP,SnowNLP,大連理工大學情感詞匯本體等多種語料庫。筆者通過編程的反復篩選,選擇了大連理工大學中文情感詞匯本體作為語料庫。該語料庫是大連理工大學林鴻飛教授領導的團隊構建一個中文本體資源,情感分為7大類21小類,情感強度分為1,3,5,7,9五檔,9表示強度最大,1為強度最小,每個詞在每一類情感下都對應了一個極性,其中0代表中性,1代表褒義,2代表貶義,3代表兼有褒貶兩性。一共標注了24766個詞語,在情感詞典中屬于比較大的語料庫。
在情感得分計算過程中,筆者采用了圖3所示的情感評分算法[22]。同時采用了去停詞,標記連詞、提取程度詞、否定詞等算法對情感得分進行修正,基本包含了基于詞典情感分析的主流優化算法。在計算過程中,使用的編程語言為Python3.6。具體過程如下:
首先使用結巴分詞工具,對所有問題反饋進行分詞;第二步是去掉一些無意義的標點符號、數字、助詞等;第三步是提取連詞(文章中算法所采用的連詞及其關聯權重見表4),判斷連詞前句與后句位置,以第二個連詞作為區分,前句和后句分別計算得分,再按照權重分別計算整體得分;若僅有一個連詞,則以該唯一連詞作為區分對象。如果不包括連詞,直接進入計算得分步驟;第四步是訪問情感詞匯本體,確定詞匯極性及其強度,判斷該情感詞之前是否含有否定詞和程度詞(文章中算法所采用程度詞權重見表5),根據否定詞位置判斷是否含有否定或者雙重否定來確定詞匯極性是否反轉;若不包含否定詞、連詞或程度詞,均分別略過相關步驟。最后累加本句情感計算評分,若為正則為正面,若為負則為負面,否則為中性。需要說明的是,在情感詞庫本體中,詞語極性標注為3的僅有78個,僅占3‰,為了方便操作,在這里的情感計算中,詞的極性只考慮0、1、2三種類型。

圖3 情感評分算法示意圖
根據情感得分的正負值,得到表6的結果,顯示對于特色與亮點的反饋,是以正向情緒為主的,達到82.1%,這表明在描述教授課程授課特點的時候,研究生偏向于為教師說好話,這也符合對于該題的預期;關于問題與不足的描述中,負面情緒是最高的,28.6%表明研究生在回答問題過程中,對于問題的反饋較為認真,覺得大多數同學本著認真負責的態度在回答問題,而不是不敢說話或者隨意唱贊歌;在學習效果和課程建議的反饋中,約60%的研究生反饋為正向,中立情緒在30%左右,基本符合預期。在后續的研究生督導聯絡員培訓過程中,筆者認為還應該繼續加強主觀問題反饋的培訓,讓情緒值分布與期望值更加接近,減少部分問題的正向情緒比重,更加客觀中立地表達某些觀點。

表4 連詞及其關聯權重

表5 程度詞及其權重

表6 四個問題反饋的情感得分正負值統計
將四個問題的情感得分與課程類別進行對比分析(結果見圖4),可以發現特色亮點的情感得分均值最高,問題不足最低,學習效果與課程建議均值差別不大。從課程所屬類別情緒均值來看以及學習效果和問題不足情緒反饋來看,公共基礎課的情感得分最低,學位選修課居中,非學位選修課最高;在特色與亮點的反饋中,公共基礎課的情感得分最高,學位選修課最低,非學位選修課居中;而在課程建議的反饋中,學位選修課的情感得分最高,非學位選修課的情感得分均值最低。通過對相關學生的訪談,發現出現這幾種變化主要是基于以下原因:
1.該校以前公共基礎課授課人數較多,教師無法兼顧,影響授課效果,因此問題與不足和效果在類別中得分最低;但公共基礎課教師均為該校經驗最豐富的教師,授課方式也相對多元化,所以特色與亮點的得分偏高。
2.學位選修課是與研究生專業相關的課程,因此在反饋的過程中,最為認真,反饋的感覺是最真實的,不管課程有沒有特色都會認真聽課,所以問題不足相對非學位課多一些,對課程建議比較多,專業課教師的教學方式也相對單一,學習效果一般。
3.研究生在選擇非學位選修課時一般會考慮將來得分較高或者學分較高的課程,所以在各個方面都評價相對較高,但是建議相對較少。

圖4 四個問題反饋的情感得分均值與課程類別比較
將特色亮點、問題不足、學習效果、課程建議四個問題反饋的情感得分值和課程類別進行方差分析(結果見圖5),發現問題與不足與課程類別的P值小于0.05,有顯著性差異,表明研究生對于問題不足和課程類別的差異感受最明顯,對于這個問題的回答,反映了最真實的情緒。同時,根據問卷中多項選擇問題的統計(見表7),研究生授課課堂講授為主的比例是最高的,達到了95.1%,占總比例也達到了35%,表明該校研究生教師需要進一步改進授課方式,提升授課效果,否則不太容易讓研究生評教滿意。
最后,筆者對四個問題的反饋情感得分和教學評價總分,進行相關性分析,結果見表8,發現問題不足的情感得分和學習效果的情感得分與教學評價匯總得分的P值分別為0.002和0.000,小于0.01,表明二者和教學評價匯總之間有相關性,特色亮點和課程建議的P值大于0.05。通過訪談,了解到對于特色亮點和課程建議兩個問題,有一定的宏觀性,研究生對問題駕馭能力不足,導致相關性不足;而對于問題不足和學習效果,一般回答都是較為直接的感受,是切身體會,能夠達到較好的效果,所以相關性比較好。

圖5 課程類別與四個問題反饋的情感得分的方差分析

表7 研究生授課方式分布統計
a. 值為 1 時制表的二分組。

表8 教學評價匯總和情感得分的相關分析
**. 在 0.01 水平(雙側)上顯著相關。
隨著信息技術和研究生教育質量內部質量保障體系的建設要求,研究生評教作為研究生授課教師的輔助考評手段,已經受到了很多高校的重視,構建一套行之有效的問卷,并對問卷進行合理的結果分析和質量驗證,對研究生課程質量建設和研究生培養質量保障來說,都是比較重要的,只有驗證過的研究生評教結果才是可信的。文章通過情感分析和數據分析的結合驗證,表明這種結合驗證的方法能夠更加有效驗證研究生評教問卷的質量,基于情感挖掘和基于數據的挖掘,有相關性,也有差異性,基于S大學的問卷分析對該方法進行了有效的驗證,能夠有效避免單一使用量表對研究生授課質量進行評價的局面。
研究生評教問卷質量評價是一個復雜的系統,有很多因素的影響,比如研究生反饋問卷時的心情、課程性質、研究生本人對于反饋問題的駕馭能力等多方面的影響。對于不同的問題,從研究生角度,因為經驗的原因,可能表達的情感不一定完全符合真實感受,有些同學在反饋過程中,也會存在敷衍的現象等。因此在今后的研究和實際工作中,要建立以研究生為中心的評價體系,以研究生訴求為基礎,完善評價指標,改善研究生評教管理工作[23],對研究生教學督導員進行更多培訓,提升問題的駕馭能力等,同時也可以考慮利用神經網絡機器學習的方法,提升情感評價的準確性,提升研究生評教的整體質量,使得評價結果更加有效、客觀。