劉娟 譚均翹 張靖紅 廖玉敏
摘要在新冠疫情背景下網絡在線教學成為“停課不停學”的主要方式,MOOC平臺被越來越被教育者和學習者所采用,平臺積累了大量的課程評論文本。將文本挖掘和數據可視化分析應用于MOOC學習平臺,可以充分挖掘利用學習者海量的學習記錄,利用Python進行文本的情感分析和可視化方法,提取和分析平臺學習者對在線課程的學習感受,可以充分發揮教育大數據驅動課堂教學的改革與發展,并為學習者和教師提出相關建議。
關鍵詞 在線教育 情感分析 可視化
中圖分類號:G424文獻標識碼:ADOI:10.16400/j.cnki.kjdk.2021.19.026
Research on Text Analysis of Emotion Dictionary for Mathematics Courses on MOOC Platform
LIU Juan, TAN Junqiao, ZHANG Jinghong, LIAO Yumin
(School of Statistics and Mathematics, Guangdong University of Finance and Economics, Guangzhou, Guangdong 510320)
AbstractUnder the background of COVID-19, online teaching has become the main way for all kinds of schools in the country to achieve“stop classes and not stop learning”. With the wide application of online teaching, the MOOC platform has been increasingly adopted by educators and learners and accumulated a large number of curriculum evaluation texts. By applying text mining and data visualization analysis to MOOC learning platform it can make full use of massive learning records of learners. This paper uses Python to analyze and visualize the text, and extract and analyze the learning experience of online learners. By using education big data to drive the reform and development of classroom teaching, some relevant suggestions for learners, teachers are proposed.
Keywordsonline education; emotional analysis; visualization
0引言
面對突然到來的2020年新冠疫情,教育部提出的“停課不停學”的舉措,全國各類學校暫停線下教學轉為線上教學,一時間各大在線教育平臺訪問量迎來爆發式增長。目前,隨著我國國內疫情得到有效控制,線下教育得到逐步恢復,但在后疫情時代在線教育將依舊持續發揮重要的作用。MOOC是中國在線教育重要平臺之一,其市場規模和用戶人數在逐年增長,截至2019年MOOC平臺的注冊用戶年超過1000萬。當前隨著人工智能、數據挖掘和機器學習等技術的飛速發展,教育領域的數據處理與應用逐步走向成熟,美國在2012年10月發布《通過教育數據挖掘和學習分析促進教與學》的報告,目的在通過對教育大數據的挖掘和分析來促進美國學校教學系統的變革。我國在2015年由國務院正式發布《促進大數據發展行動綱要》,其中在“公共服務大數據工程”中明確提出大力建設發展教育文化大數據。目前情感分析和觀點挖掘已經成為自然語言處理、機器學習等多領域交叉關注的一個研究熱點。將文本挖掘和數據可視化分析應用于慕課平臺在線課程的主觀評論文本,可以全面了解學生對課程的意見和建議,幫助老師和學生之間的雙向交流,提升教學質量,也可助力MOOC平臺更好的提升服務。
隨著大數據人工智能時代的到來,情感分析已經成為數據挖掘的一個熱門領域,這種方法主要是通過對文本、圖像和音頻等非結構化數據進行分析,以此來獲取人們的觀點、態度以及看法。目前基于教育挖掘文本分析的在線教育課程評價研究相對不多,本文針對在MOOC平臺開設最多的大學數學類課程展開文本分析,可以豐富在線教育研究的范圍,也可以為全面評價教師在線教育的效果提供更多的視角。
1 MOOC平臺發展現狀及數學類課程介紹
根據寧夏大學現代教育技術所發布的《國內高校MOOC的學科分布現狀研究》,我國高校MOOC的學科分布主要在理學以及工學,這兩方面的課程數都在200至250區間,遠高于第三多數量的文學課程數,而文學課程數只在50到100區間。MOOC平臺的學習方式充分發揮了在線學習的特點,目前已經與北京大學、浙江大學、南京大學等共761所大學達成合作,開設了許多以大學生學習課程為主的內容,其中包含Python語言程序設計、心理學與生活等多方面課程。MOOC平臺課程參與人數的分布,由10% 18歲以下學習者、78%的18-28歲在校學生以及12%的28歲以上的老師或學習者構成。
MOOC上開設的公共數學類課程有高等數學,線性代數,概率論與數理統計,微積分等,其中選課人數較多的有西華大學開設的《高等數學(上)》,共112163人參與學習,以及西華大學開設的《高等數學(下)》,共77671人參與學習。公共數學類課程參與人數普遍比其他數學類課程多,其中最受歡迎的線性代數課程為中國科學院大學的《線性代數》,共28780人參與學習,最受歡迎的概率論與數理統計課程為浙江大學的《概率論與數理統計》,共28282人參與學習。開設數學類課程較多的學校有浙江大學,電子科技大學,華東師范大學等,開設的公共數學類課程中,高等數學最多,其次是線性代數。
2研究設計
2.1方法介紹
文本情感分析是指文本作者所表達的主觀信息,即作者的觀點和態度,也可以被稱為文本傾向性分析或文本觀點挖掘,其主要任務包括情感分類和屬性提取。根據MOOC平臺評論文本的特點,每條評論富有情感極性,大部分課程評論是一個句子,所以選本文選取基于情感詞典的語句級文本情感分析方法。
目前情感文本分類研究最多的是極性分類,也可以稱為褒貶分類,即判斷一篇文檔或者一個句子所包含的情感是好還是壞。現在流行的情感詞典都是通過人工構建,但人工感情詞典構建需要大量的人力和物力,所以在文獻中更多的利用情感詞典。常用的有有BosonNLP情感詞典、知網Hownet情感詞典、臺灣大學NTUSD、清華大學李軍中文褒貶義詞典等等。其中,BosonNLP情感詞典是基于微博、論壇等數據來源構建的情感詞典,這些被用于構建BosonNLP情感詞典的基礎數據與本項目中MOOC平臺的課程評論數據,兩者之間的形式較接近。因此,選用Bo- sonNLP情感詞典為本項目情感分析的基礎情感詞典。BosonNLP情感詞典包括正面情緒詞詞典、負面情緒詞詞典、否定詞詞典以及程度副詞詞典。
2.2數據采集
利用Python網絡爬蟲收集數據,采集對象是MOOC平臺三門大學數學基礎課程高等數學、線性代數、概率論與數理統計中每門開課課程的課程評論數據。爬蟲進入到每一門課程的網址,在該網址下獲取評論數據,其中包括評論人、評論時間、評論內容以及點贊數等。在爬取的過程中,考慮數據質量,篩選評論數少于等于20條的開課課程。爬取出來的數據結果在Excel文件中展示。其中,高等數學的數據總量為17220條,線性代數的數據總量為15940條,概率論與數理統計的數據總量為9800條。
2.3數據預處理
將收集到的17221條高等數學課程評論數據,17221條線性代數課程評價數據,9801條概率論與數理統計的評價數據進行篩選,篩選出2020年1月1日后的評論進行分詞處理,利用python程序對每一條評論進行分詞,去除停用詞,得到的是每一條評論的詞語組成的列表,再將表格導出,用excel進行去重以及去除列表為空的評價,得到的有效評論數為高等數學5978條,線性代數6410條,概率論與數理統計4962條。
2.4建立情感分析模型
在得到預處理數據的基礎上,首先,判斷每條評論中詞語的積極性和消極性,然后,計算每條評論的得分情況,最后,通過得分的正負性來判斷該條評論的積極性和消極性。本項目采用BonsonNLP情感詞典,該詞典中提供了否定詞詞典、程度副詞詞典、積極情緒詞詞典以及消極情緒詞詞典。假設詞語與評論得分是線性的,詞語之間相互獨立,建立評論得分模型。


2.5數據可視化
將文本數據中的所有詞語按詞頻統計后,利用python按評論情感正負面生成詞云圖見圖1和圖2。
從詞云圖可見,學習者對數學類課程的課程講解、課程內容、設備使用情況、學習收獲等方面有著極高的關注度。

從高度關聯詞語可見,“講解”“好好”之間和“清晰”“詳細”反映學習者傾向于學習者傾向于講課詳細,生動,有條理的課程內容,喜歡教師詳細地講解書本內容以及清晰有條理的教學方注重課程學習對生活和學習的實用性式。
3研究發現與小結
3.1針對學生的建議
線上學習有其方便的地方,但也存在一些問題,由于缺少師生間的面對面較流,學習者在學習的過程中有難理解的地方無法及時解決,從而產生消極心理,學習者應對難以理解的課程內容應保持平和積極的心態對待學習。由于在線課堂缺少老師的監管,學習者容易變得懶散,所以學習者不僅要認真聽老師講課,還應做好學習內容的預習與復習,認真完成課后內容,課后內容是對課上教學的有效延伸,是課堂學習的鞏固和深化,很大程度反映著學習者的學習效率和學習效果。疫情時期,學生與老師之間的交流在課后內容上都有很大的體現,老師布置的課后任務是教學中必不可少的一個環節,起著查缺補漏的作用,學生可以通過完成課后任務鞏固知識,了解自己的學習情況,遇到不懂的及時請教老師,從而提高自身的學習效率。
3.2針對教師的建議
在線教育只是課堂的轉移,讓學生在線容易,但是做到真正在學習卻并不是很容易,在課程內容方面,學生傾向于詳細易懂、豐富有趣、有用的課程內容,注重課程學習對生活的實用性,而對不能理解、枯燥乏味的課程內容有著消極的應學心態。教師在備課時需要充分思考如何調動學習者的積極性,激發他們學習的興趣,考慮課堂的趣味性,適當增加互動來調動學習者的積極性,有針對性地設置例題檢驗學習者對知識點的掌握情況,同時可以適當準備幾道難題,供有能力的學習者課后思考。參與在線教育的學習者越來越多,聽課的不只是在校大學生,還有不少在職人員,上課的內容應該要讓大部分人接受。教師應該講的盡量清晰易懂,更有條理,盡量講得生動,讓學生更能接受課程內容。在課后方面,教師應該加強在線教育的課后交流,力爭在學生發現自身弱點后能夠及時幫助他改進。
參考文獻
[1]王林梅.Web用戶評價的自動情感分析[D].哈爾濱工業大學,2009.
[2]曹斌.互聯網上旅游評論的情感分析及其有用性研究[D].哈爾濱工業大學,2012.
[3]張英杰.基于Blackboard平臺的在線學習行為分析與預測[D].內蒙古師范大學,2017.
[4]李艷紅.基于在線教育數據挖掘的個性化學習策略研究[J].微型電腦應用,2020,36(08):45-57.