洪雪峰
基于傳統機器學習與深度學習的學生評教情感分類對比分析
洪雪峰
(廣東金融學院 互聯網金融與信息工程學院,廣東 廣州 510521)
通過在網站上收集建構154,000條評論的語料庫,運用傳統機器學習法和深度學習法,對其分類精確值及F測量值進行比對。大量的實證分析表明,基于深度學習架構在教師評價的情感分類任務上優于傳統的機器學習分類器,其分類準確率達到98.29%。建議運用機器深度學習的模式,利用卷積神經網絡和雙向長短期記憶神經網絡構建情感分析模型,可以學生評教為提升高校教育質量,其結果可作為衡量教學效果的指標,并給管理者提供決策依據。
深度學習;機器學習;學生評教;情感分析
教學質量的優劣是各高校核心競爭力的指標之一,因此,采用有效的手段提升高校教學質量是各高校的首要任務。目前大多數高校均采用教學質量評價這一手段,但其評價結果的科學性和有效性一直以來頗受爭議。究其原因,教學評價活動是一項非常復雜的活動,其涉及的因素較多。學生評教通常既包括一些固定的問題,也包括一些開放性問題。固定問題主要是借助評教量化表,該量化表對教學活動中的教學目標、教學設計、教學內容以及課后練習等進行指標考核,通過量化表分值統計進而總結評價可以得到一些發現。然而,評教量化表日益受到教師們普遍的詬病,其所提供的指標內涵不能顯示教學過程的所有方面。開放式問題卻給了評價者自由表達的空間,該評價意見可以更好地給教師提供更加有用的洞見,從而幫助教師們查漏補缺,提高教學質量。其所涉及的問題可以包括教學方式、教學評估、教學資源、教學管理等方面,例如課堂內容的充實度,教師的授課能力,教師資歷,課后資料等。該評教方式能夠給教學教育決策部門提供基本信息來源,以達到提高教學質量的目標。高校管理部門可以把學生評教作為教學職能的測量方式。此外,該評教方式還可以用于管理層進行決策,如對教師晉升或評聘的決策。
隨著信息與通信技術的不斷發展,用戶的生成信息可以分享到互聯網上。這些用戶生成的信息文本包括對酒店、產品、電影、醫生和其他事物的評價。同樣地,學生們也可以在網絡平臺分享對教師的匿名評價,比如Ratemyprofessors.com就是全球最大的學生評教平臺之一,擁有1900萬條以上的評價,評價范圍涵蓋了多個國家,例如美國、加拿大和英國等,約7500家學校的120萬位教授。在此平臺上,學生們可以通過五星評價范圍來評價教師,并計算教師得分。此外,學生們可以在平臺的開放討論區分享自己的觀點。該平臺是學生們在選取課程前,獲取教師信息的一個重要渠道。從教師的角度出發,該平臺也為教師們提供了關于自我效能與人際交往的有價值的信息。因此,這些信息可以作為反饋,促使教師們進一步提高自己的技能。我國絕大多數高校也采用了網上評教的方式。學生評價的內容實質就是對教師的一種情感和情緒的表達,我們可以利用計算機技術對于學生情感進行分類,以得到比較準確地教學評價反饋。
情感分析也稱為觀點挖掘,是計算機領域中,用于識別人們對于某一實體或學科(例如產品、服務、組織、個人、議題或事件)的個人觀點、情感、態度、評價和情感的一種研究方法。情感分析方法主要是從非結構化的內容和情感分類任務中獲得有條理且有深刻見解的知識,這些知識可以作為決策支持系統和決策者做決策時進行參考的重要信息來源。情感分析也可以應用于教育領域,用來提升高校的教學質量,提升學校的知名度和吸引力,還可以用于識別和調節網絡學習者的情感,感知學生們的學習表現。
情感分析方法主要有兩種,一種為基于詞匯的方法,另一種為基于機器學習的方法。基于詞匯的情感分析方法通過計算單詞和短語的語義指向來識別文本文檔的情感取向。這些方法需要一本與單詞相對應的積極與消極情感值的字典。基于詞匯的情感分析方法隨著文本所處位置而有所改變,并不涉及標記數據。然而,對于不同的文本,構建一個唯一的基于詞匯的字典是很難的。因此,目前情感分析的主要研究方法還是一些基于機器學習的傳統算法,例如,SVM、信息熵、CRF等。這些方法歸納起來有三大類:有監督學習、無監督學習和半監督學習。
機器學習方法將情感分類視為監督學習任務過程,利用標記文本文檔來構建學習模型。該方法利用傳統的監督學習算法,例如樸素貝葉斯(NB)算法、支持向量機(SVMs)和K鄰近(KNN)算法來完成情感分類。早期的情感分析研究指出,由于機器學習的方法通常能夠獲得更高的預測性結果,在情緒分類任務中時常有所應用。例如,Adinolfietal[1]提出一種基于情緒分析的模型,以此來測量學生們對不同學習平臺,例如大量的網絡公開課,學習日記和Twitter等平臺的滿意度。Altrabshehetal[2]的研究表明,通過機器學習方法可以來識別學生們對于文本反饋,并提取其與學習相關的情緒情感表征。目前,也有很多研究嘗試用Twitter收集學生們的反饋意見和觀點,例如對微積分、數據庫、工程學分子、生物學、化學、物理和科學等不同課程的感受。Gutierrezetal[3]提出了一種文本挖掘方法來測量學生們對教師表現的評價。他運用SVMs與RF算法來對學生評教中的簡短評論進行情感分析,重點篩選了簡評中的詞匯、句法、語義特征等。RaniandKumar[4]對學生們的反饋進行情緒分析,提出了以基于詞匯的研究方法。在他的模型中,使用了自然語言處理技術,用于識別課程評價的情緒情感。
深度學習是機器學習研究中一個新的領域,其動機在于建立、模擬人腦進行分析學習的神經網絡,它模仿人腦的機制來解釋數據,例如圖像、聲音和文本。深度學習架構是從大數據集中學習特征,而不需要任何特征抽取過程。深度學習架構包括卷積神經網絡(CNN)、遞歸神經網絡(RNN)、長短期記憶網絡(LSTM)以及門控遞歸單元(GRU)。隨著深度學習方法在圖像處理和語音識別方向的成功應用,越來越多的深度學習方法也被應用于自然語言處理方向,如情緒分析任務。基于深度學習的情感分析方法將特征提取和判斷文本傾向結合在一起,不需要人工提取特征,準確率較高,但是模型訓練時間較長。Glorot[5]和Pang[6]等推出了一個用于情感分析任務的深度學習架構。Dos Santosand Gatti[7]提出了一個基于卷積神經網絡的架構,可以用于Twitter信息的情緒分析。近年來,深度學習也運用到采集教育數據上。例如,Bustillos等[8]提出了一個以深度學習為基礎的意見采集板塊,用于在智能學習環境中采集意見及情感認同。在該方案中,他們研究了多種監督學習算法,如伯努利神經網絡、多項式神經網絡、支持向量機、線性支持向量機、隨機梯度下降和鄰近算法等,并將卷積神經網絡和長短期記憶架構用于深度學習的意見采集。在他們的實證分析中,以深度學習為基礎的架構達到了88.26%的分類準確性。Cabada等[9]提出了數個用于教育情緒分析的深度學習架構,使用長短期記憶的卷積神經網絡達到了84.32%的分類準確性。
根據分類目標的不同,情感分類又可以分為主客觀分類、正負情感極性分類和多情感分類等,主客觀分類是情感分類的基本任務,主要負責從大規模原始數據集中識別包含主觀信息的文本,構建主觀文本數據集進行下一步的情感分析研究。一般而言,研究人員將主觀文本的極性分為正向和負向兩類,正向表示文本的情感語義為褒義,負向表示文本的情感語義為貶義。這種分類方法盡管簡單,卻可以滿足很多現實應用的需求,例如判斷學生對于教師教學是好評還是差評,他們對于教師的教學方法和態度是支持還是反對等等。
目前為止,我們從Ratemyprofessors.com成功收集到了286000份教學評價。在這個網站上,學生可以用5分制來評估老師,并從中計算出綜合素質分。為了獲取標注語,我們充分利用用戶提供的綜合素質分,綜合素質分為1或2的評價被標為“負面”評價,而綜合素質分為5的被標為“正面”評價。除了網站提供的綜合素質分外,我們對原始評價信息也進行了標注。根據這兩種主要的標注方法,我們建立了89000條正面評價和77000條負面評價的語料庫。為了平衡,我們最終的語料庫包含154000條評論,其中正面評價和負面評價各有77000條。
除了綜合素質分外,還考慮了154000條評論的課程難度分。為了分析綜合素質分數和課程難度分數之間的相互關系,本論文還采用Pearson的關聯性測量方法來確定綜合素質分數和課程難度分數之間是否存在顯著統計關系。Pearson相關系數為-0.973,這表明教師教學綜合素質分數和課程難度分數這兩個變量存在極強的負相關關系。

表1 學生評教樣例
為了在文本語料庫中建立學習模型,我們進行了幾項預處理任務。對于預處理的語料庫,我們采用Bustillos等的框架。也就是說,我們執行了序列和標點符號消除、統一資源定位符移除、標記化(將文檔中的句子或單詞分成符號或字符)、詞干提取、停用詞和無關詞的移除。為了評估機器學習方法和深度學習算法的預測性能,我們采用分類精度和F值度量的評估方法。
分類精度是在評估監督學習算法中最為廣泛運用的一種方法之,其公式為:

其中TN、TP、FP、和FN分別代表真負數、真正數、假正數和假負數。
F值度量是評估監督學習算法另一個常用方法,是精度(PRE)和查全率(REC)的調和平均值。PRE是真正數與真正數和假正數的和的比值。REC真正數和真正數與假負數的和的比值。基于PRE和REC,可以得出F值度量的公式,如下所示:

為了評估測試,我們根據上述算法對語料庫中的學生教學評價進行了兩組數據分析,包括基于傳統機器學習的情感分析和基于深度學習的情感分析。在本研究的實證分析中,所建立的語料庫由三種不同的N-gram模型(即unigram、bigram和trigram模型)和三種不同的權重方案(即基于TP、TF和TF-IDF的權重)表示。這樣,我們可以得到9種不同的配置。為了建立基于這些配置的學習模型,本論文采用了五種傳統的監督學習方法如NB、SVMs、LR (邏輯回歸)、KNN和RF(隨機森林)法等。
文本語料庫通過采用三種傳統的文本演示方案(即TF、TP和TF-IDF方案)及三種不同的N-gram模型(即一元模型、二元模型和三元模型)來表示。在傳統的文本演示方案上,我們評估了四種機器學習方法,如NB、SVM、LR、KNN、RF和三種集成學習方法即AdaBoost(自適應提升算法)、Bagging(裝袋算法)和RS(隨機子空間)的預測性能。在機器學習算法的實驗中,我們采用了10倍交叉驗證方案,即將原始數據集隨機分割成10個大小相等的數據集。在每次迭代中,其中一組數據被用作驗證數據,則另外的數據集被用作訓練數據。這個過程重復10次,最后得到了平均結果。我們采用了WEKA的默認參數,并利用WEKA3.9實現了監督學習算法和集成學習方法。

表2 傳統機器學習算法分類精度值

表3 傳統機器學習算法F測量值
表2和表3分別給出了傳統機器學習的文本語料庫分類精度值和F測量值。表2給出了基于傳統加權方案和N-gram模型的監督學習算法和集成學習方法。這兩種方法展示了9種不同的文本語料庫配置上獲得的分類精度值。在實驗分析中,我們考慮了上述5種監督學習算法。實驗發現,在文本語料庫上監督學習方法的預測性能上,隨機森林算法在分類精度方面取得了最高的預測性能。樸素貝葉斯算法位居第二,支持向量機算法則次之。在傳統文本演示方案的預測性能上,以詞頻為基礎的一元模型特征具有最高的分類精度。其次是由TP方案中具有一元模型特征所取得。最后才是由具有TF-IDF權重的一元模型特征所取得。表2和表3的實證結果表明,一元模型優于其他N-gram模型,即二元模型和三元模型。此外,與基于TP的表現和基于TF-IDF的加權相比,基于TF的表現具有更高的預測性能。
如前所述,集成學習方法可與監督學習算法結合使用,可以提高預測性能。在實驗分析中,我們研究了三種不同的集成學習方法(AdaBoost,Bagging,RS)。表2和表3中實證分析結果表明,使用集成學習方法可以提高監督學習方法的預測性能。對于集成方法而言,在比較的結構中,隨機子空間的隨機森林算法獲得了最高的預測性能,分類精度為84.25%。
文本語料庫使用了4種詞匯嵌入法(即word2vec、GloVe、fastText和LDA2Vec)表示,并使用了5種深度學習架構(CNN、RNN、RNN-AM、GRU以及LSTM)來處理文本。對于每個模型,我們采用超參數搜索算法從每個深度學習模型中獲得最優預測性能。為此,我們采用了基于高斯過程貝葉斯優化的超參數優化方法。在語料庫中,80%的數據被用作訓練集,而其余的數據被用作測試集。在word2vec和fastText方案中,我們不但考慮了連續跳格和連續詞袋方案,還考慮了其矢量大小(矢量大小為200和300)和投影層的尺寸(尺寸大小為100和200)。在LDA2vec方案中,我們考慮了一系列參數(包括主題數和負采樣指數)。在下列表4和表5中,分別列出了5種深度學習架構獲得的分類精度值和F-測量值。

表4 深度學習算法分類準確值

表5 深度學習算法F測量值

續前表
在表4所列的實驗結果中,我們檢驗了6種詞嵌入模型(word2vecskip-gram模型、word-2vec-CBOW模型、fastTextskip-gram模型、fastText-CBOW模型、Glove和LDA2vec)。從表4中的結果可以看出,在文本語料庫中,Glove嵌入方案優于其他嵌入方案;LDA2vec嵌入方案的預測性能位居第二;緊隨其后的是fastTextskip-gram模型。分類精度預測性能最低的是word2vecskip-gram模型。在詞嵌入方案中,我們還考慮了不同的矢量大小和投影層的維度。實驗結果表明,在矢量大小為300,投影層大小為300的情況下,詞嵌入方案具有較好的預測性能。在使用深度學習架構預測性能的實證分析中,RNN-AM獲得了最高的預測性能。GRU的預測性能位居第二,LSTM網絡的預測性能位居第三。實證分析表明,RNN-AM、GRU和LSTM的性能優于傳統的循環神經網絡。
在實證分析中,CNN結構分類準確度上的預測性能最低。通過比較配置,RNN‐AM的預測性能最高,達到98.29%,它與GloVe基于詞嵌入方案的表示相結合。正如表5所呈現的預測性能所示,就分類精度而言,所述方案的相同模式仍然有效。RNN-AM中的F測量值最高,GRU的F測量值居其后。單元嵌入方案中的預測性能在F測量值中,嵌入的方案GloVe單元明顯優于其他單元。
以上實驗表明,使用深度學習法對學生評教情感進行分類比傳統學習模型效果更優。相比較于傳統機器分類算法,深度學習法對情感分類的預測性能更高,尤其是使用RNN‐AM與基于詞嵌入法GloVe代表的分類準確度為98.29%。可見,文本挖掘和機器學習技術能應用于教師教學評價意見反饋,從中更清晰地辨認和識別學習者的情感傾向和聲音,比較科學合理的反映出教師教學的過程,也更能有效地幫助高校教學管理者做出正確的決策。
[1]P.Adinolfi et al.,Sentiment analysis to evaluate teaching performance[J].Int.J.Knowl.Soc.Res,2016(4):86–107.
[2]N.Altrabsheh,M.Cocea,and S. Fallahkhair, Predicting learning‐related emotions from students’ textual classroom feedback via Twitter[M].Proceedings of the 8th International Conference on Educational Data Mining,2015.
[3]G.Gutierrez et al.,Mining:Students comments about teacher performance assessment using machine learning algorithms[J].Int.J.Comb.Optimi.Probl,Inf,2018(3):26–40.
[4]S.Rani and P.Kumar,A sentiment analysis system to improve teaching and learning[J].Computer,2017(5):36–43.
[5]X.Glorot,A.Bordes,and Y.Bengio,Domain adaptation for large‐scale sentiment classification:A deep learning approach, proceedings of the 28th International Conference on Machine earning[M].ICML,2011.
[6]P.Pang,and L.Lee.Opinion mining and sentiment analysis[M].FoundTrends Inf.Retr,2008:1–135.
[7]C.Dos Santos and M.Gatti.Deep convolutional neural networks for sentiment analysis of short texts,Proceedings of the 25thInternational Conference on Computational Linguistics [M].Dublin City Univ.Assoc.Comput.Linguist.,2014:69–78.
[8]O.R.Bustillos et al..Opinion mining and emotion recognition inan intelligent learning environment[J].Comput.Applic.Eng.Educ,2019(1):90–101.
[9]R.Z.Cabada,M.L.B.Estrada,and R.O.Bustillos.Mining of educational opinions with deep learning[J].Univers.Comput.Sci,2018(11):1604–1626.
[10]劉華祠.基于傳統機器學習與深度學習的圖像分類算法對比分析[J].電腦與信息技術,2019(5):12-15.
G43
A
1673-2219(2021)02-0097-06
2020-08-21
廣州市2020年度哲學社會科學發展“十三五”規劃項目(項目編號2020GZGJ160)。
洪雪峰(1976-),男,廣東金融學院講師,碩士,研究方向為數據挖掘與教育教學管理。
(責任編校:周欣)