張捷 陳付龍 張佩云
摘要:高校課程教學(xué)的評(píng)價(jià)主體是學(xué)生,以學(xué)生學(xué)習(xí)為中心的教學(xué)評(píng)價(jià)模式已被眾多的機(jī)構(gòu)與研究者所認(rèn)可。從提升學(xué)習(xí)效果出發(fā),學(xué)生對(duì)教師課堂教學(xué)活動(dòng)進(jìn)行事實(shí)性評(píng)價(jià)是被普遍接受的方法,但目前的研究多集中在如何更科學(xué)合理的設(shè)計(jì)評(píng)價(jià)細(xì)則和指標(biāo),以供學(xué)生進(jìn)行評(píng)教打分。本文從學(xué)生對(duì)教學(xué)活動(dòng)的直接感受出發(fā),認(rèn)為來自學(xué)生的感性評(píng)論也蘊(yùn)含十分有價(jià)值的信息。通過引入基于機(jī)器學(xué)習(xí)的情感分析方法,將文字評(píng)論進(jìn)行情感傾向分類,提供給教師和管理者更多的信息反饋和分析手段,是對(duì)現(xiàn)有教學(xué)評(píng)價(jià)系統(tǒng)功能進(jìn)行改進(jìn)的有益探索。
關(guān)鍵詞:教學(xué)評(píng)價(jià);教學(xué)管理;教學(xué)質(zhì)量;情感分析;機(jī)器學(xué)習(xí)
中圖分類號(hào):G40-058.1 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2019)04-0184-05
Abstract: The evaluation subject of curriculum teaching in colleges and universities is students. The student-centered teaching evaluation model has been recognized by many institutions and researchers. In order to improve the learning effect, it is generally accepted that students make factual evaluation of teachers' teaching activities. However, most of the current research focuses on how to design more scientific and reasonable evaluation rules and indicators for students to evaluate teaching. This article starts from the students' direct feelings about teaching activities, believes that the emotional comments from students also contain very valuable information. By introducing the method of affective analysis based on machine learning, the text comments are classified into emotional tendencies, and more information feedback and analysis methods are provided to teachers and managers. This is a useful exploration for improving the functions of the existing teaching evaluation system.
Key words: Teaching evaluation; Teaching management; Teaching quality; Sentiment analysis; Machine learning
來自教學(xué)活動(dòng)直接受眾學(xué)生的反饋評(píng)價(jià)是高校教學(xué)質(zhì)量評(píng)價(jià)體系中不可缺少的一環(huán)。教學(xué)評(píng)價(jià)的目的在于反饋和交流,如何更好地分析學(xué)生對(duì)教師課堂教學(xué)的反饋,可以從大量評(píng)論性質(zhì)的文本語料中入手。而目前深度學(xué)習(xí)算法在文本情感分析方面展現(xiàn)出優(yōu)異性能,可將其移植到教學(xué)評(píng)價(jià)系統(tǒng)中,通過收集學(xué)生大量的直接評(píng)論來分析學(xué)生情感傾向,這將輔助教師更全面地認(rèn)識(shí)課堂教學(xué)質(zhì)量,并提升相關(guān)教學(xué)管理的智能化水平。
1 學(xué)生情感分析在課程教學(xué)評(píng)價(jià)中的作用
在高校教學(xué)評(píng)價(jià)和質(zhì)量評(píng)估體系中,來自學(xué)生受眾群體對(duì)教師課堂教學(xué)包括實(shí)驗(yàn)實(shí)訓(xùn)教學(xué)的直接反饋評(píng)價(jià)是非常重要的一環(huán)。通過充分運(yùn)用心理學(xué)、統(tǒng)計(jì)學(xué)方法以及現(xiàn)代信息技術(shù)手段,在準(zhǔn)確有效地收集學(xué)生反饋信息的基礎(chǔ)上加以分析,可使學(xué)校管理部門和教師對(duì)教學(xué)工作有一個(gè)清楚的認(rèn)識(shí),從而找到不足并改進(jìn)工作方式方法,這對(duì)教學(xué)質(zhì)量的保障有著非常重要的意義[1][2]。國(guó)外早就認(rèn)識(shí)到大學(xué)課程教學(xué)質(zhì)量的評(píng)價(jià)主體是學(xué)生,包括面向?qū)W生設(shè)置多樣化的評(píng)價(jià)指標(biāo)體系,設(shè)立專門聯(lián)系學(xué)生與教師群體的“教與學(xué)技術(shù)委員會(huì)”等,其主旨在激勵(lì)和引導(dǎo)教師將傳統(tǒng)的教授模式向更加注重交流、探究和創(chuàng)新的模式轉(zhuǎn)變,從而更全面的提高人才培養(yǎng)質(zhì)量[3][4]。
近年來,國(guó)內(nèi)對(duì)大學(xué)課堂教學(xué)質(zhì)量及教學(xué)評(píng)價(jià)現(xiàn)狀的研究表明,應(yīng)當(dāng)充分認(rèn)識(shí)到學(xué)生作為評(píng)價(jià)主體在大學(xué)課程教學(xué)質(zhì)量體系中的作用。吳艷[5]等通過對(duì)十所高校開展實(shí)證調(diào)查研究,發(fā)現(xiàn)不同年級(jí)不同特征的學(xué)生在評(píng)價(jià)教師的教學(xué)目標(biāo)、教學(xué)方法、課堂管理等指標(biāo)上具有顯著差異,認(rèn)為課程教學(xué)是一種復(fù)雜性的雙向交互活動(dòng),其本身因評(píng)價(jià)主體的不同展現(xiàn)高度的不確定性。 俞佳君[6]認(rèn)為我國(guó)高教改革已經(jīng)進(jìn)入內(nèi)涵式發(fā)展階段,教學(xué)評(píng)價(jià)面臨從“教”到“學(xué)”的范式轉(zhuǎn)型,強(qiáng)調(diào)了從學(xué)生學(xué)習(xí)角度出發(fā)對(duì)教學(xué)活動(dòng)進(jìn)行價(jià)值判斷的重要性。周湘林[7]進(jìn)一步指出學(xué)生對(duì)教學(xué)活動(dòng)的直接評(píng)價(jià)是更實(shí)質(zhì)更真實(shí)的評(píng)價(jià),而結(jié)合教法、學(xué)法及效用等多方面的標(biāo)準(zhǔn)才能對(duì)教師教學(xué)質(zhì)量做出較為中肯、全面的評(píng)價(jià)。
在教學(xué)評(píng)價(jià)的方法上,學(xué)生參與評(píng)教并結(jié)合科學(xué)的評(píng)價(jià)指標(biāo)體系已成為共識(shí)[2][3][8][9][10],并且隨著網(wǎng)絡(luò)化技術(shù)的普及,目前多數(shù)高校均已正常實(shí)施。我們也注意到最近涌現(xiàn)出的新觀點(diǎn)。例如郭麗君[10]認(rèn)為學(xué)生評(píng)價(jià)行為與教師的教學(xué)活動(dòng)和教學(xué)效果之間可通過內(nèi)在的調(diào)控機(jī)制建立起聯(lián)系,而這一聯(lián)系應(yīng)當(dāng)是流動(dòng)與循環(huán)的,即需反映教學(xué)活動(dòng)與教學(xué)質(zhì)量評(píng)價(jià)之間的聯(lián)動(dòng)性。王朋[11]通過研究美國(guó)大學(xué)教學(xué)評(píng)價(jià)的演變,分析了“以學(xué)生為中心”、“以教師為中心”和“以學(xué)習(xí)為中心”三種評(píng)價(jià)方式的目的與核心內(nèi)涵,并指出“以學(xué)習(xí)為中心”方式成為當(dāng)今美國(guó)大學(xué)的教學(xué)評(píng)價(jià)主流。
“以學(xué)習(xí)為中心”的教學(xué)評(píng)價(jià)方式強(qiáng)調(diào)教師的教學(xué)效果與學(xué)生的學(xué)習(xí)效果,二者構(gòu)成了教學(xué)活動(dòng)的兩級(jí),是既對(duì)立又統(tǒng)一的。我們認(rèn)為結(jié)合教與學(xué)兩面的效用評(píng)價(jià)才是理想的評(píng)價(jià)方式,但因?yàn)樾Ч街趯W(xué)生自身的素質(zhì)和能力,包括畢業(yè)就業(yè)及發(fā)展前景等因素,操作上存有滯后性和需多元協(xié)同等困難。從利于操作的事實(shí)評(píng)價(jià)入手不失為可行的方式。以學(xué)生為主體的教學(xué)效果事實(shí)評(píng)價(jià)具有多種形式,除了傳統(tǒng)的學(xué)生評(píng)教和成績(jī)測(cè)評(píng)以外,我們認(rèn)為還應(yīng)當(dāng)重視教學(xué)過程中學(xué)生對(duì)教師教學(xué)的反饋,實(shí)質(zhì)上是強(qiáng)調(diào)單向教學(xué)范式向互動(dòng)教學(xué)范式的轉(zhuǎn)變。以提高學(xué)習(xí)效果為目的,利用學(xué)生評(píng)價(jià)主體的能動(dòng)性反饋課程教學(xué)活動(dòng),促進(jìn)教師提升教法和教學(xué)效果,從而在“教”與“學(xué)”之間形成反饋環(huán),這是本文的出發(fā)點(diǎn)。
教學(xué)評(píng)價(jià)的本質(zhì)屬性是工具性,即改進(jìn)—證明功能,學(xué)生評(píng)教的結(jié)果應(yīng)能證明教學(xué)成效和促進(jìn)教師改進(jìn)教法,這是教學(xué)評(píng)價(jià)得以進(jìn)行的預(yù)設(shè)性前提[12]。而其中,學(xué)生對(duì)教師的教學(xué)僅以分?jǐn)?shù)來評(píng)價(jià)往往過于片面。Carrell與West[13]的研究表明,學(xué)生評(píng)教分?jǐn)?shù)與學(xué)習(xí)之間僅存有非常低的相關(guān)性,甚至不存在關(guān)系。獲得較高評(píng)教分?jǐn)?shù)的教師往往過于關(guān)注學(xué)生的短期學(xué)習(xí)成績(jī),并存在應(yīng)試教育或取悅學(xué)生的嫌疑;給出較高評(píng)教分?jǐn)?shù)的學(xué)生往往更在意成績(jī)而非知識(shí)和技能本身,多數(shù)處于淺層學(xué)習(xí)階段[13]。學(xué)生評(píng)教分?jǐn)?shù)僅可作為“消費(fèi)者滿意度指數(shù)”,并不能充分證明教學(xué)的有效性,因?yàn)樵摂?shù)字極大地受到學(xué)生對(duì)教學(xué)認(rèn)知的水平及教師外貌、興趣等其他因素的影響[14]。
評(píng)教分?jǐn)?shù)本身的固有屬性是抽象性和單一性,其蘊(yùn)含信息量十分有限。一種觀點(diǎn)認(rèn)為,設(shè)計(jì)出更科學(xué)更合理的教師教學(xué)評(píng)價(jià)表,通過評(píng)價(jià)條目的完善可以改進(jìn)對(duì)教學(xué)的診斷甚至建構(gòu)一致性的評(píng)價(jià)指標(biāo)體系[7]。我們認(rèn)為在此基礎(chǔ)上,還需增加對(duì)學(xué)生的情感分析。歸根結(jié)底,學(xué)生作為教學(xué)服務(wù)的受眾群體,其評(píng)價(jià)內(nèi)容具有更實(shí)質(zhì)更接近真實(shí)情況的特點(diǎn)。一方面,學(xué)生群體的因?yàn)閷?duì)教學(xué)評(píng)價(jià)指標(biāo)體系本身的認(rèn)知達(dá)不到很高的理論層次,其測(cè)評(píng)行為易于流于形式;另一方面學(xué)生如果脫離了表格的約束,其通過語言文字直接表達(dá)出來的觀點(diǎn)往往卻是真摯的、富有情感的。這是通過評(píng)教分?jǐn)?shù)無法獲取的重要信息,其價(jià)值在于學(xué)生群體作為人的屬性變得豐滿,而人的情緒、情感等相對(duì)更主觀的因素卻可能對(duì)學(xué)習(xí)效果帶來巨大的影響。
筆者所在的單位學(xué)生評(píng)教除了依據(jù)評(píng)價(jià)表格打分以外,還要求學(xué)生對(duì)老師的課程教學(xué)直接給出評(píng)論,以短文形式提交。事實(shí)上,除了期中與期末的集中評(píng)教軟件系統(tǒng),也要求教師關(guān)注其所講授課程的校內(nèi)論壇網(wǎng)站,其上也有學(xué)生對(duì)該課程教學(xué)實(shí)時(shí)表達(dá)的觀點(diǎn)。這些評(píng)論短文除了技術(shù)性問題討論之外,都或多或少蘊(yùn)含了某個(gè)學(xué)生在特定階段的情感特征,如果能夠運(yùn)用一定的技術(shù)方法,將這些蘊(yùn)含在文字內(nèi)的大量情感信息加以分析并總結(jié),對(duì)教師的教學(xué)方法、教學(xué)內(nèi)容乃至溝通技巧的調(diào)整和改進(jìn)十分有益。情感分析可作為教學(xué)評(píng)價(jià)系統(tǒng)的附加功能,輔助教師對(duì)學(xué)生產(chǎn)生更具體更全面的認(rèn)識(shí),做到有的放矢,從而幫助學(xué)生獲得更高的學(xué)習(xí)質(zhì)量,這是本文的立足點(diǎn)。
從大量評(píng)論性質(zhì)的文本語料中抽離出有用的信息,進(jìn)行情感傾向分析屬于機(jī)器學(xué)習(xí)的范疇,它最早開始于監(jiān)督學(xué)習(xí)。傳統(tǒng)的監(jiān)督學(xué)習(xí)在早期曾取得十分好的效果,如Pang[15]等對(duì)電影評(píng)論的情感分析。Zhang[16]等比較了幾種監(jiān)督學(xué)習(xí)算法,得出基于特征的N元模型(N-Gram)輸入到支持向量機(jī)(SVM)中分析效果最好。但基于監(jiān)督學(xué)習(xí)的解決方案的缺點(diǎn)也十分明顯,包括語料庫依靠人工標(biāo)注、需要基于規(guī)范文本的分析等,面對(duì)互聯(lián)網(wǎng)海量不規(guī)范文本數(shù)據(jù)時(shí)有很大局限。另一方面,基于無監(jiān)督學(xué)習(xí)的情感分析方法也開始出現(xiàn)。Turney[17]于2002年率先提出一種基于種子詞的無監(jiān)督學(xué)習(xí)方法,通過計(jì)算文本中詞語與種子詞中積極情感詞和消極情感詞的點(diǎn)互信息來判斷文本的情感極性。之后Singh[18]等根據(jù)情感強(qiáng)度為詞賦予不同情感值,并且考慮了否定詞、副詞等對(duì)情感極性的影響。國(guó)內(nèi)趙妍妍[19]等將文本情感分析歸納為情感信息抽取、分類和檢索歸納三項(xiàng)主要任務(wù)。孫艷[20]等提出了基于無監(jiān)督學(xué)習(xí)的主題情感混合模型,通過對(duì)句子和詞的情感標(biāo)簽采樣,得到每個(gè)主題的情感詞,從而對(duì)文本進(jìn)行情感分類。
2006年Hinton[21]通過利用單層的RBM自編碼預(yù)訓(xùn)練使得深層的神經(jīng)網(wǎng)絡(luò)訓(xùn)練變得可能,這項(xiàng)研究把神經(jīng)網(wǎng)絡(luò)又推回到大家視線中。之后深度神經(jīng)網(wǎng)絡(luò)開始在各種識(shí)別、預(yù)測(cè)及分類問題中取得優(yōu)異的成績(jī),成為目前最受關(guān)注的機(jī)器學(xué)習(xí)算法。期間谷歌于2013年推出word2vec工具[22]用于將文本語料轉(zhuǎn)化為詞向量,在此基礎(chǔ)上國(guó)內(nèi)開始出現(xiàn)利用深度學(xué)習(xí)算法對(duì)微博進(jìn)行情感分析的研究[23]。而Kim[24]基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的情感分析研究進(jìn)一步提高了準(zhǔn)確率,但其模型對(duì)于中文的分析常出現(xiàn)因?yàn)椴荒艹浞直磉_(dá)復(fù)雜微妙的深層語境而無法抽取特征的困境。針對(duì)此國(guó)內(nèi)近來的中文情感分析研究愈發(fā)強(qiáng)調(diào)word2vec工具的重要性,即通過計(jì)算語義相似度、建立情感詞典、多特征聚類融合等word2vec功能預(yù)處理文本語料數(shù)據(jù),從而有效提高深度學(xué)習(xí)算法的性能[25][26]。本文將采用目前最主流的機(jī)器學(xué)習(xí)算法和工具處理學(xué)生對(duì)教師教學(xué)的評(píng)價(jià)短文情感分類問題。
2 情感分析方法的具體實(shí)施
受輸入數(shù)據(jù)的格式規(guī)范所限,傳統(tǒng)機(jī)器學(xué)習(xí)情感分析算法在面對(duì)未經(jīng)處理的大量文本語料例如互聯(lián)網(wǎng)評(píng)論時(shí),往往很難發(fā)掘深層的語義信息,對(duì)發(fā)言者情感傾向分類的準(zhǔn)確率較低。深度學(xué)習(xí)屬于機(jī)器學(xué)習(xí)領(lǐng)域近來最為熱門的研究方向,其在解決眾多實(shí)際問題中的性能表現(xiàn)使得人們相信機(jī)器學(xué)習(xí)或者說人工智能的未來在于此。
深度學(xué)習(xí)通過構(gòu)建多層神經(jīng)網(wǎng)絡(luò)對(duì)數(shù)據(jù)進(jìn)行分析以有效提取相關(guān)特征,是目前比較主流的用于解決情感分析問題的方法。本文側(cè)重于使用卷積神經(jīng)網(wǎng)絡(luò)(下稱CNN)建立學(xué)習(xí)模型,解決在網(wǎng)絡(luò)中學(xué)生對(duì)教師教學(xué)評(píng)論語料的情感分類問題,下面給出基本方法及實(shí)驗(yàn)流程。
2.1 輸入數(shù)據(jù)處理與模型訓(xùn)練
輸入到CNN中的數(shù)據(jù)呈二維矩陣形式,故需將學(xué)生評(píng)論語料進(jìn)行預(yù)處理。本文主要使用的工具為上文提及的word2vec,它亦是目前主流的文本預(yù)處理工具。因?yàn)檎Z言文字本身的數(shù)據(jù)特性,需要word2vec將每個(gè)詞轉(zhuǎn)化為詞特征向量,并將每一句中的所有詞的詞向量組成二維矩陣,作為CNN模型的輸入。假設(shè)一個(gè)句子中每個(gè)詞對(duì)應(yīng)的向量長(zhǎng)度都為k,一段評(píng)論短文中句子最多包含n個(gè)詞,則輸入矩陣維度為k×n。注意長(zhǎng)度不夠的句子需補(bǔ)充k維0向量,直至矩陣滿足CNN模型處理的要求。圖1反映了使用工具將文本句子轉(zhuǎn)化為數(shù)字矩陣的過程。
為了解決訓(xùn)練時(shí)存在過度擬合的問題,提高訓(xùn)練后模型的泛化能力,本文一方面通過在損失函數(shù)中增加L2正則化項(xiàng)進(jìn)行參數(shù)約束,另一方面在全連接層還使用了dropouts策略。dropouts是一種抑制過度擬合的技巧,通過隨機(jī)將一些激活值設(shè)置為0從而相對(duì)減少過擬合。dropouts層位于softmax輸出層之前的隱藏單元,限于篇幅,這里不再詳述。
2.2 實(shí)驗(yàn)流程設(shè)計(jì)
本文的實(shí)驗(yàn)流程設(shè)計(jì)如圖2所示。總體上可分為訓(xùn)練部分與測(cè)試部分,二者均需通過由文本預(yù)處理至CNN模型處理的諸多環(huán)節(jié)。其中文本預(yù)處理環(huán)節(jié)主要使用word2vec轉(zhuǎn)化詞向量,形成詞向量矩陣提供給基于CNN的情感分類器進(jìn)行訓(xùn)練。訓(xùn)練數(shù)據(jù)的處理及模型的構(gòu)建將在本節(jié)介紹,而測(cè)試數(shù)據(jù)部分在下一節(jié)。
訓(xùn)練集基于第六屆中文傾向性分析評(píng)測(cè)(COAE2014)語料庫,它由中國(guó)中文信息學(xué)會(huì)信息檢索專業(yè)委員會(huì)向高校、科研機(jī)構(gòu)及社會(huì)征集而來,目的是建立并完善中文傾向性分析研究的基礎(chǔ)數(shù)據(jù)集和評(píng)測(cè)標(biāo)準(zhǔn)。COAE2014的數(shù)據(jù)任務(wù)5情感極性判斷所提供的語料涵蓋關(guān)于科技、食品、安全等領(lǐng)域,其中已人工標(biāo)注好5000條數(shù)據(jù)可用于情感分類器的訓(xùn)練和交叉驗(yàn)證。使用該語料庫可以保證獲得足夠的且便于驗(yàn)證的網(wǎng)絡(luò)短文本,省卻了人工對(duì)詞語進(jìn)行的情感極性標(biāo)注。
文本預(yù)處理的第一步是要對(duì)語料進(jìn)行及去停用詞處理,一般來說即對(duì)對(duì)語料集中的雜亂的標(biāo)簽和特殊符號(hào)等無意義信息進(jìn)行去噪處理,使用到flashtext方法。然后進(jìn)行分詞與詞性標(biāo)注,使用到thulac方法。表1舉例說明了上述各步驟中間結(jié)果。
預(yù)處理后我們得到了分好的詞語以及標(biāo)注好的詞性,接下來需將詞語訓(xùn)練轉(zhuǎn)化為詞向量,使用的工具為word2vec。word2vec有一系列的訓(xùn)練參數(shù)且具有特定含義,可以比較好地對(duì)評(píng)價(jià)評(píng)論類語料分詞進(jìn)行轉(zhuǎn)化。轉(zhuǎn)化后的向量集合作為CNN模型的輸入數(shù)據(jù)。
我們使用TensorFlow1.4構(gòu)建CNN模型,TensorFlow是目前主流的開源機(jī)器學(xué)習(xí)框架[27]。針對(duì)本文所要解決的問題類型,在CNN中考慮文本的上下文信息,若卷積窗口的大小設(shè)置為m,文本長(zhǎng)度為n,則特征圖的長(zhǎng)度自然為n+1-m。這里將窗口的大小設(shè)置為5,考慮到計(jì)算的時(shí)間長(zhǎng)短以及準(zhǔn)確性高低,過濾器數(shù)量經(jīng)過對(duì)比設(shè)置為100,根據(jù)數(shù)據(jù)估摸本文將batch設(shè)置為50,dropouts設(shè)置為0.1,迭代次數(shù)足夠即可我們?cè)O(shè)置為10。創(chuàng)建權(quán)重和偏置,定義可重復(fù)使用的初始化函數(shù)。截?cái)嗟恼龖B(tài)分布噪聲設(shè)置為0.1,標(biāo)準(zhǔn)差設(shè)為0.1。為了使用線性整流函數(shù)(ReLU)激活,給偏置增加小正值以規(guī)避死亡節(jié)點(diǎn)。圖3與圖4反映了在TensorFlow1.4框架下載入數(shù)據(jù)集與初始化的情形。
緊接著對(duì)兩個(gè)卷積層進(jìn)行創(chuàng)建,使用寫好的函數(shù)進(jìn)行對(duì)偏置和權(quán)值參數(shù)分別初始化。對(duì)經(jīng)過兩次池化操作的矩陣進(jìn)行變形,然后連接到一個(gè)全連接層。為了減輕過擬合,下面使用一個(gè)dropouts層。在訓(xùn)練時(shí),我們隨機(jī)丟棄一部分節(jié)點(diǎn)的數(shù)據(jù)來減輕過擬合。最后我們將dropouts層的輸出連接一個(gè)softmax層,得到最終概率輸出。
在CNN模型創(chuàng)建好后開始訓(xùn)練過程:首先初始化所有參數(shù),設(shè)置訓(xùn)練時(shí)dropouts的keep_prob比率為0.5;然后使用大小為50的mini-batch,共進(jìn)行10次訓(xùn)練迭代;為了實(shí)時(shí)監(jiān)測(cè)模型的性能,keep_prob設(shè)為1用以對(duì)準(zhǔn)確率定期進(jìn)行一次評(píng)測(cè)。圖6展示了上述訓(xùn)練過程的設(shè)置。
3 在教學(xué)評(píng)價(jià)系統(tǒng)上的測(cè)試結(jié)果
本文的測(cè)試數(shù)據(jù)采集自作者所在單位面向?qū)W生的教學(xué)評(píng)價(jià)軟件系統(tǒng),該軟件系統(tǒng)運(yùn)行于校園網(wǎng)內(nèi),學(xué)生可在任何地點(diǎn)登錄網(wǎng)頁進(jìn)行評(píng)論。測(cè)試集由本院2016-2017學(xué)年度四個(gè)年級(jí)、三個(gè)專業(yè)的共約1000名學(xué)生對(duì)30位老師課堂教學(xué)的評(píng)價(jià)語料組成。在此測(cè)試集上,除了使用工具進(jìn)行必要的文本預(yù)處理及詞向量轉(zhuǎn)化外,我們還進(jìn)行了最優(yōu)向量維度的選擇實(shí)驗(yàn)。
向量維度對(duì)于模型復(fù)雜度的影響效果是顯著的,向量維度在增加的時(shí)候,整個(gè)模型的復(fù)雜度會(huì)成倍增加,本文將對(duì)比50維度,100維度,150維度,200維度幾種不同維度的二維詞向量矩陣,采用十折交叉法得到,即將樣本分成10等份并分別進(jìn)行兩組實(shí)驗(yàn),最終結(jié)果取10次實(shí)驗(yàn)結(jié)果的平均值。
如圖7所示,根據(jù)訓(xùn)練詞向量在50維度,100維度、150維度和200維度的準(zhǔn)確率比較,認(rèn)為維度最優(yōu)值是100。在此基礎(chǔ)上,我們對(duì)30位教師約40門專業(yè)課程進(jìn)行了學(xué)生評(píng)價(jià)短文的情感傾向分析。我們將結(jié)果展現(xiàn)到每位相關(guān)教師的個(gè)人頁面,根據(jù)單個(gè)情感傾向分類結(jié)果統(tǒng)計(jì)為整體學(xué)生情感傾向。為了給教師比較好的觀感,該結(jié)論將間接地以詞云圖顏色表示。例如較為正面的顯示為紅色,顏色越深說明學(xué)生的評(píng)價(jià)越高;隨著顏色變淡直至灰色,說明總體評(píng)價(jià)不高。圖8為直接在TensorFlow1.4框架下對(duì)應(yīng)一位教師一門課程生成的詞云圖,可以看出該教師在這門課程中得到了偏向正面的評(píng)價(jià)。同時(shí)詞云圖中各個(gè)詞的詞頻也易于觀察,教師可從中得到學(xué)生對(duì)其教學(xué)活動(dòng)的直接反饋信息。
在測(cè)試集上,為了驗(yàn)證本文情感分析方法的性能,我們使用標(biāo)準(zhǔn)的情感分類評(píng)級(jí)方法標(biāo)注了每條數(shù)據(jù)(評(píng)價(jià)短文)的極性。同時(shí)也輔以學(xué)生最終的評(píng)教分?jǐn)?shù)作為驗(yàn)證(按大于95分:優(yōu),85至95:良,75至85:一般,小于75其他計(jì),并認(rèn)為優(yōu)與良是正面評(píng)價(jià),其余則相反)。隨后我們做了與其他模型的對(duì)比實(shí)驗(yàn)。在詞向量的維數(shù)默認(rèn)為100的前提下,本文選擇了如下這些模型或方法:
l SVM(支持向量機(jī)):選取PLSA作為情感特征,使用TF-IDF計(jì)算特征值,并利用libSVM工具進(jìn)行分類工作;
l SVM+詞性:增加詞性特征,去掉部分無用的虛詞;
l RNN(循環(huán)神經(jīng)網(wǎng)絡(luò)):除了使用簡(jiǎn)單RNN模型訓(xùn)練分類器,其余與本文相同;
l RNN+詞性:增加詞性特征,去掉部分無用的虛詞;
l LSTM(長(zhǎng)短時(shí)記憶單元):除了利用含LSTM單元的RNN訓(xùn)練分類器,其余與本文相同;
l LSTM+詞性:增加詞性特征,去掉部分無用的虛詞;
l CNN+Rand:在文本預(yù)處理后,使用隨機(jī)初始化方法構(gòu)造詞向量,輸入至CNN模型進(jìn)行訓(xùn)練;
l CNN+Rand+詞性:隨機(jī)初始化構(gòu)造詞向量,并去掉無意義虛詞,輸入模型中進(jìn)行訓(xùn)練;
l CNN+word2vec+詞性:本文方法。
表2是上述模型或方法在本文測(cè)試數(shù)據(jù)集上的性能表現(xiàn),即對(duì)教學(xué)評(píng)價(jià)系統(tǒng)上的學(xué)生評(píng)價(jià)語料的分類預(yù)測(cè)性能。
在表2中,根據(jù)COAE官方建議,評(píng)價(jià)指標(biāo)選擇了如下三個(gè):
l 準(zhǔn)確率(precision):表征模型對(duì)樣本分類的正確的比率,該指標(biāo)越接近1越好;
l 召回率(recall):表征模型對(duì)樣本的識(shí)別程度,該指標(biāo)越接近1越好;
l F值(F-measure):是準(zhǔn)備率與召回率的綜合,該值越高說明模型性能越好。
在表中可以直接看出本文方法在三個(gè)指標(biāo)中均取得最優(yōu),說明此方法相對(duì)其余方法更適合處理互聯(lián)網(wǎng)短文情感傾向分類工作。通過比較幾組含詞性與不含詞性方法間的性能發(fā)現(xiàn),考慮詞性特征,即去除那些對(duì)文本情感影響不明顯的虛詞提升了分類準(zhǔn)確率,說明語料中廣泛存在的虛詞對(duì)網(wǎng)絡(luò)短文本的情感傾向性影響不大甚至有副作用,建議在后續(xù)的教學(xué)管理系統(tǒng)中直接增加剔除虛詞的業(yè)務(wù)。
比較傳統(tǒng)的SVM模型與深度學(xué)習(xí)模型可以看到,CNN及簡(jiǎn)單RNN和LSTM的準(zhǔn)確率相較于傳統(tǒng)分類預(yù)測(cè)方法有顯著提升,其主要原因是深度學(xué)習(xí)算法可以通過神經(jīng)元層數(shù)的增加擁有更強(qiáng)的學(xué)習(xí)能力,尤其在特征提取上這相較于傳統(tǒng)學(xué)習(xí)算法具有更大的算力優(yōu)勢(shì)。這說明本文選擇的情感分析工具和方法是有效的。
4 結(jié)論
通過為傳統(tǒng)的教學(xué)評(píng)價(jià)環(huán)節(jié)引入基于深度學(xué)習(xí)的情感分析方法,提供給教學(xué)評(píng)價(jià)工作者新的分析工具與管理思路。同時(shí),情感分析的結(jié)果也有助于教師更全面地更直觀地了解來自其教學(xué)活動(dòng)受眾的反饋信息。我們認(rèn)為學(xué)生的評(píng)教反饋信息不應(yīng)僅是以往冷冰冰的評(píng)教打分,還可以以數(shù)據(jù)處理及融合的方式直接展現(xiàn)給教師,這將有助于在“教”和“學(xué)”之間建立起互通的渠道,從而進(jìn)一步提高教學(xué)活動(dòng)的質(zhì)量。
參考文獻(xiàn):
[1] 魏紅. 我國(guó)高校教師教學(xué)評(píng)價(jià)發(fā)展的回顧與展望[J]. 教師教育研究, 2001, 13(3):68-72.
[2] 蔡敏, 張麗. 大學(xué)生參與教師教學(xué)評(píng)價(jià)的調(diào)查研究[J]. 高等教育研究, 2005(3):69-73.
[3] 藍(lán)江橋. 中美兩國(guó)大學(xué)課程教學(xué)質(zhì)量評(píng)價(jià)的比較與思考[J]. 高等教育研究, 2003(2):39-42.
[4] 張虎生, 李聯(lián)明, 王運(yùn)來. 美國(guó)斯坦福大學(xué)的本科教學(xué)與啟示[J]. 江蘇高教, 2004(5):115-117.
[5] 吳艷, 陳永明. 大學(xué)課堂教學(xué)的現(xiàn)狀分析及思考——基于全國(guó)十所高校的實(shí)證調(diào)查[J]. 高教探索, 2015(11):88-93.
[6] 俞佳君. 以學(xué)習(xí)為中心:高校教學(xué)評(píng)價(jià)的新范式[J]. 高教探索, 2016(11):11-15.
[7] 周湘林. 以學(xué)生學(xué)習(xí)為核心的高校教師教學(xué)評(píng)價(jià)方法創(chuàng)新研究[J]. 現(xiàn)代大學(xué)教育, 2017(1):93-97.
[8] 駱蘭, 薛艷, 唐國(guó)強(qiáng). 論高校課堂教學(xué)質(zhì)量評(píng)估指標(biāo)體系的構(gòu)建[J]. 高教探索, 2006(6):55-56.
[9] 劉麗娜, 杜艷秋, 羅玉萍. 大學(xué)教師教學(xué)評(píng)價(jià):發(fā)展邏輯、體系構(gòu)成及多元協(xié)同[J]. 江蘇高教, 2018(1):44-48.
[10] 郭麗君. 教育生態(tài)視閾下的高校教學(xué)評(píng)價(jià)問題研究[J]. 湖南農(nóng)業(yè)大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,2017, 18(4):91-94.
[11] 王朋. 學(xué)生·教師·學(xué)習(xí):美國(guó)大學(xué)教學(xué)評(píng)價(jià)的路徑演變——基于約翰·比格斯的3P教學(xué)模型[J]. 高教探索, 2017(10):52-57.
[12] Tran N D. Reconceptualisation of Approaches to Teaching Evaluation in Higher Education[J]. Issues in Educational Research, 2015, 25(1):50-61.
[13] Carrell S E & West J E. Does Professor Quality Matter? Evidence from Random Assignment of Students to Professors[J]. Journal of Political Economy, 2010, 118(3):409-432.
[14] McNatt D B. Negative Reputation and Biased Student Evaluations of Teaching: Longitudinal Results from a Naturally Occurring Experiment[J]. The Academy of Management Learning and Education, 2010, 9(2):225-242.
[15] Pang T B, Pang B, Lee L. Thumbs up? Sentiment Classification Using Machine Learning[J]. Empirical Methods in Natural Language Processing, 2002:79-86.
[16] Zhang Z, Ye Q, Li Y, Law R. Sentiment Classification of Online Cantonese Reviews by Supervised Machine Learning Approaches[J]. International Journal of Web Engineering & Technology, 2009, 5(4):382-397.
[17] Turney P D. Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews[C]. Proceedings of Annual Meeting of the Association for Computational Linguistics, 2002:417-424.
[18] Singh P V, Sahoo N, Mukhopadhyay T. Seeking Variety: A Dynamic Model of Employee Blog Reading Behavior[J]. Ssrn Electronic Journal, 2010, 1617405.
[19] 趙妍妍, 秦兵, 劉挺. 文本情感分析[J]. 軟件學(xué)報(bào), 2010, 21(8):1834-1848.
[20] 孫艷, 周學(xué)廣, 付偉. 基于主題情感混合模型的無監(jiān)督文本情感分析[J]. 北京大學(xué)學(xué)報(bào)(自然科學(xué)版), 2013, 49(1):102-108.
[21] Hinton G E,Salakhutdinov R R. Reducing The Dimensionality of Data with Neural Networks[J]. Science, 2006, 313(5786):504-507.
[22] Mikolov T. Word2vec Project[EB/OL]. [2014]. https://code.google.com/p/word2vec/.
[23] 梁軍. 基于深度學(xué)習(xí)的微博情感分析[J]. 中文信息學(xué)報(bào), 2014, 28(5):155-161.
[24] Kim Y. Convolutional Neural Networks for Sentence Classification[J]. Eprint Arxiv, 2014.
[25] 陳昀. 基于多特征融合的中文評(píng)論情感分類算法[J]. 河北大學(xué)學(xué)報(bào)(自然科學(xué)版), 2015, 35(6):651-656.
[26] 黃仁, 張衛(wèi). 基于word2vec的互聯(lián)網(wǎng)商品評(píng)論情感傾向研究[J]. 計(jì)算機(jī)科學(xué), 2016, 43(s1):387-389.
[27] Abadi M, et al. TensorFlow: Large-scale machine learning on heterogeneous systems[EB/OL]. [2015]. https://tensorflow.org.
【通聯(lián)編輯:王力】