傅思思,王 茜,葛 亮
(重慶大學 計算機學院,重慶 400044)
中國在2013 年6 月的國際工程聯盟大會上,成為《華盛頓協議》組織的預備成員,并于2016年6 月成為該協議組織的正式成員,這標志著我國高等工程教育開始步入國際化軌道,同時也對我國工程教育提出了更高的要求[1]。“持續改進”作為專業認證的三大基本理念之一[2],是指通過建立內部質量監控、畢業生跟蹤反饋、社會評價等機制,定期對教學全過程進行監督、評價和調控,形成質量閉環,全面促進專業建設和教學改革,不斷提高人才培養質量。課程教學作為教學活動的基本環節,學生對課程教學的評價數據就成為“持續改進”教學實施效果的重要評價依據之一。
學生評教是指學生根據任課教師的教學方式、教學效果等多方面的綜合表現,結合學生自身的收獲和進步,用學校制定的評價指標,對教師的教學活動作出評價的判斷活動[3-4]。學生評教最早出現于美國的高校中,自20 世紀20 年代誕生,經歷了幾個時期的不同發展[5]。國內高校學生評教從20 世紀80 年代中期開始在各高校開展起來,并逐步走向系列化、規范化、公開化[6]。文獻[7]中分析了目前高校學生評教存在的主要問題有部分學生不能理性、客觀地進行評價,對嚴格要求的教師打低分;對評教數據的處理不夠科學,按一定比例去掉一部分數值再取平均值的辦法并不能保證完全處理掉明顯不合理的分數值。
傳統的評教數據分析主要是對李克特量表式的學生評分進行分析[8],對教學設計與內容、教學形式、課程管理、課程考核、學習收獲等方面的學生評分進行加權平均得到學生對教師教學的評分。這種做法雖然簡單、易于操作,但是容易受到學生隨意評分的影響。當學生隨意評分時,傳統的評教數據分析法很難評判學生評分的真實可靠性。學生評教中的評論文本,相對于評分數據,蘊含更多信息,且容易判斷學生是否隨意評教。本文方法嘗試從學生評教的評論文本中抽取評教信息,構建一種新的評教數據分析方法。
本文嘗試利用自然語言處理方法對學生評教的評論文本進行分析處理,主要包括數據清理、目標意見提取、主題匹配、教師畫像等步驟。學生評教數據來源于西部某重點大學2014 學年的學生評教記錄,在研究實驗前已對數據中的學生學號、教師工號進行了脫敏處理。數據集共有26 098 名學生對1 664 門課程2 032 名教師的259 103 條評教記錄。由于評論是評教的選填項目,在259 103 條評教記錄中,只有18.9%的記錄是有評論文本數據的。學生評教記錄的格式見表1。

表1 學生評教記錄樣本數據
由于學生可以自由填寫評論內容,因此需要對學生評教記錄中的評論文本進行數據清理,使參與分析的評論數據可靠有效。首先,數據清理會去除對評教分析無用的記錄,包括清除無評論的記錄和只包含“666”等純數字評論文本的記錄。此外,對于像“很好”這樣的短評論文本,雖然評價了教師的整體教學效果,但是無法對應到教師教學活動的具體某個方面,因此對短評論文本也進行了清理。原始評教數據集經過數據清理后,共有10 136 名學生對754 門課程1 532 名教師的36 532 條評教記錄,其中評論文本平均有18.9 個字。
為了能從評論文本中提取學生有關教師教學的評價意見,首先需要提取出評論文本包含的目標意見元組。目標意見元組描述了學生對課程教學活動中某一具體方面的評價。這里首先使用斯坦福大學的自然語言處理工具包CoreNLP[9]對評論文本進行語法分析,得到詞語間的依賴關系;然后使用2016 年Hao 等人提出的雙向傳播算法[10]提取出目標意見元組。表2 為目標意見元組提取的一個例子。

表2 目標意見提取的一個例子
本文使用被廣泛采用的IDEA 評教模型[11]評價教師的課程教學活動,即進行教師畫像。它從以下6 個主題評價教師教學活動:①課程組織與規劃;②表達交流的技巧;③師生互動;④課程難度/工作量;⑤考試與評分;⑥學生自我評價。為此,需要將提取出的目標意見元組匹配到IDEA 評教模型的某個主題,以形成教師畫像。
本文使用2010 年Rehurek 等人提出的方法[12]將目標詞和主題詞分別用一個詞向量進行表示,然后用余弦相似度計算目標詞向量與主題詞向量間的相似度,取相似度最高的主題詞作為目標詞對應的主題。相似度計算公式如下:

使用中文語義詞典HowNet 把目標意見元組中的意見分為正面評價和負面評價兩類,然后統計教師分別在IDEA 6 個主題中正面評價記錄數和負面評價記錄數的占比情況,一條正面評價記錄計分為1,一條負面評價記錄計分為-1,最終得到教師畫像。教師畫像的6 個主題得分的取值范圍為[-1,1]。當得分為1 時,表示該主題所有的評價記錄都是正面評價;而當得分為-1 時,表示該主題所有的評價記錄都是負面評價;分值越靠近1,說明教師在主題的正面評價越多。
目標意見元組提取是本文方法的核心步驟,為了驗證其有效性,采用機器提取結果與人工提取結果進行比對的方法。首先,請3 位領域專家分別對10 000 條評論記錄中的目標意見元組和所屬主題進行人工標記。如果對同一條評論記錄出現3 位領域專家的標記不一致情況,則通過領域專家的討論,最終達成一致,從而降低人工標記的隨意性。通過上述方法得到人工提取結果集。然后對相同的評論記錄,以本文方法提取目標意見元組和所屬主題,得到機器提取結果。對機器提取結果與人工提取結果進行比對,計算準確率(Precision)、召回率(Recall)和F1值,對比結果見表3。從表中結果可以看到,機器提取結果與人工提取結果的相符程度較好。

表3 機器提取與人工提取的結果對比
一條學生評教的評論文本通過本文方法處理,可以得到該評論文本所評價的教師教學活動主題,進而可以統計出每個主題包含的評論文本條數。對西部某重點大學2014 學年的學生評教記錄中的10 136 名學生對754 門課程1 532 名教師的36 532 條評教記錄進行分析處理后,得到表4 的統計結果。

表4 學生評論在各主題評論數的占比情況
從表4 數據可以看到,學生在“教師的表達交流技巧”和“課程難度/工作量”方面的評論數占比最高,說明這兩方面是學生關注度最高的方面,也是學生直接感受最多的方面,是在學生自由評論時最容易被涉及的內容,但同時可以看到,“學生自我評價”方面的評論數占比最低,只有4.3%,是評教的薄弱環節。分析其原因主要有兩方面:一是通常評教環節是讓學生評價教師的教學活動,很多學生沒有意識到評教內容也包括自我學習收獲的評價,以反映出教學活動的目標是否達成;二是學生對課程學習目標不太明確,因此不能對照學習目標評價學習收獲的多少。對此,教師應該在今后的課程教學活動中,更好地明確課程學習目標,加強學生自我評價的意識和能力,彌補評教的薄弱環節。
基于自然語言處理技術對學生評教數據中的評論文本進行分析處理的方法,可以作為評分分析方法的有效補充,為工程教育專業認證“持續改進”理念的達成提供支持。相關實驗驗證了新方法的有效性,而新方法得到的分析結果也為評教方法的進一步完善提供了幫助。未來的工作是將新方法得到的分析結果反饋到教學活動的改進中,通過對連續多年的學生評教數據的分析,進一步驗證新方法在教學“持續改進”中的效用。