999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

智能時代的教育文本挖掘模型與應用

2020-10-09 10:17:12劉清堂賀黎鳴吳林靜楊煒欽李晶
現代遠程教育研究 2020年5期

劉清堂 賀黎鳴 吳林靜 楊煒欽 李晶

摘要:教育文本挖掘是指通過數據采集和處理,利用數據挖掘算法或工具,從非結構化文本文檔中提取有意義的模式或知識的過程。教育文本蘊含著豐富的學習者認知、行為和情感等信息,對其進行深度挖掘和分析,有助于深入探索教育教學的基本規律,解釋教育中存在的問題和現象。大數據支持下的教育文本挖掘模型包括數據生產和使用的主體(利益相關者)、教學環境、數據和挖掘工具等核心要素,涉及數據產生、數據采集、數據處理、知識發現、評估解釋、教學應用等過程和方法。其常用的數據來源包含問卷調查、在線互動、學習反饋、在線評論、社交媒體和教學文件,主要用于學習者成績預測、學習者建模、學習者水平評價、教學材料結構分析、學習者反饋和內容可視化等。當前教育文本挖掘在海量數據處理、數據降維保真、結果評估與解釋等方面還面臨挑戰,研究者需深度融合教育學、認知心理學、語言學等多學科研究方法,結合教育教學的基本理論和具體的教育情境,注重多模態分析和驗證,保證將其應用于教育研究的科學性。隨著相關技術的突破和應用發展,教育文本數據將成為教育現代化發展的推動力,在深度學習、精準教學等領域中發揮更大作用。

關鍵詞:教育大數據;數據挖據;學習分析;教育文本挖掘

中圖分類號:G434 ? 文獻標識碼:A ? ?文章編號:1009-5195(2020)05-0095-09 ?doi10.3969/j.issn.1009-5195.2020.05.011

一、引言

智能時代,作為人工智能發展基礎的大數據愈發受到關注。《自然》和《科學》分別在2008年和2011年設立了專刊對大數據的特征及應用前景進行研討,探索利用其破解不同領域難題的途徑和方法(孟小峰等,2013)。國務院也于2015年發布《促進大數據發展行動綱要》,指出要全面推進我國大數據發展和應用,加快建設數據強國(國務院,2015)。大數據蘊含著海量有價值的信息,給各行各業帶來了歷史性的機遇。大數據技術也強烈影響著教育系統,正成為推動教育系統創新、變革的顛覆性力量(楊現民等,2016)。教育大數據具有復雜性、多樣性、差異性和內隱性等特征,對其進行挖掘、聚合、組織和應用等一直是智能教育研究的熱點問題。

在傳統的教育數據挖掘中,研究者往往對結構化數據關注較多,例如課程管理系統中的學生學習活動日志,包括登錄次數、瀏覽時長、提交作業次數、發言次數等(Chen et al.,2014),以及學生的考評信息、學業成績等(Baker et al.,2009 )。而據IBM統計,一個組織中大約80%的數據是開放式和非結構化的,這些數據實際上很少被使用(IBM Corporation,2019),而文本數據又是非結構化數據中最主要的組成部分(Grimes,2008)。教育領域中的文本數據挖掘和分析,是一個價值巨大且有待進一步發展的新興研究領域。與結構化數據相比,文本數據以言語數據為主,可以更加真實地反映學習者的學習動機、認知發展、情感態度、學習體驗等(Witten et al.,2016)。利用文本挖掘技術獲取教育文本中蘊藏的有用信息并發現復雜教育系統的規律,給教育研究者帶來了新的研究視角。

本文以教育文本為研究對象,探索了教育文本挖掘的模型和應用框架,并從數據來源及清洗、分析算法與工具,以及典型應用等方面分析了教育文本數據的采集、分析、挖掘方法和挑戰,并對該領域的未來發展趨勢進行了展望,以期能為相關研究者提供參考。

二、文本挖掘基本原理

文本挖掘(Text Mining),又稱文本數據庫中的知識發現、文本數據挖掘,一般是指從非結構化的文本文檔中提取有趣或者有意義的模式或知識的過程(Tan,1999)。1995年Feldman將數據挖掘與文本分類結合,首次提出文本挖掘的概念(Feldman et al.,1995)。由于文本挖掘處理的是非結構化的數據,因此它涉及額外的處理步驟,以便在知識發現步驟前從文本中定位、提取和構造相關信息(Ananiadou et al.,2010)。

文本挖掘一般包括:數據采集、文本預處理(數據選擇與清洗、文檔表示、特征選擇等)、文本挖掘(分類、聚類、關聯規則挖掘等)、文本后處理(模型評估與反饋、知識的解釋與可視化等)等步驟。已有許多研究者提出了通用的文本挖掘模型,其中較有代表性的是Tan(1999)提出的兩階段模型(見圖1)。該模型把文本挖掘分為文本精煉(將文本文檔轉換成計算機可以理解的中間形式)和知識蒸餾(從中間形式中推導出模式或知識)兩個階段。中間形式可以是基于文檔的,也可以是基于概念的。基于文檔的每個實體表示一個文檔,通常與領域無關;而基于概念的每個實體表示特定領域中的對象或者概念,與領域相關。

常用的中間形式模型有:布爾模型、向量空間模型、概率模型等,各模型描述及特點如表1所示。

文本挖掘已廣泛應用于多個領域,如生物和生物醫學領域文本的挖掘(Cohen et al.,2005)、電子郵件的分類與過濾(Kiritchenko et al.,2011)、商業領域的運作和營銷改進(Sullivan,2001)、專利的自動化分析(Tseng et al.,2007)等,其在教育中的應用也逐漸成為研究者關注的熱點。

三、大數據支持的教育文本挖掘模型及方法

大數據支持下的教育文本挖掘模型如圖2所示。該模型包括數據生產和使用的主體(利益相關者)、教學環境、數據和挖掘工具等核心要素,涉及到數據產生、數據采集、數據處理、知識發現、評估解釋、教學應用等過程和方法。學習者、教師、教育管理者和科學研究者等利益相關者,既是教育文本數據的使用者,又是生產者。其在教育環境中產生的數據,通過數據采集、數據處理、知識發現、評估解釋等文本挖掘過程,產生模式和知識,為教學、管理和科研提供幫助。具體而言,學習者可以借助文本挖掘,獲得合適的資源,并通過反饋調整學習。教師可以借助文本挖掘的結果,掌握學習者學習動態,預測教學效果,通過干預改進教學,實現個別化指導等。教育管理者借助文本挖掘,可以評估教學效果,進行教學監測,進而做出科學決策。科研工作者可以借助文本挖掘,發現和解決教育問題,改善教育環境,增進對教育現象和規律的認識。大數據支持下的教育文本挖掘包括數據采集、文本挖掘以及模式應用三個重要環節。

1.教育文本的數據類型及采集

在教育環境中,文本數據有著十分廣泛的來源,既有教育系統中已經存在的資源類文本數據,也有教與學過程中產生的過程性文本數據,包括傳統的教學材料如課件、教材、講義,各種問卷、試卷的主觀回答,學生的作業等,以及隨著在線學習平臺、網絡公開課等的流行出現的各種論壇討論數據、評論數據、反思數據等。此外,隨著社交媒體如Twitter、Facebook、新浪微博、知乎等的廣泛應用,其也產生了大量有助于了解教師和學生情感、問題的真實數據。相較于傳統文本數據,網絡中的文本數據不僅在數量上呈指數級的增長,也更加容易獲取和處理。目前教育文本挖掘常用的數據來源大致可以分為如表2 所示的6類:問卷調查、在線互動、學習反饋、在線評論、社交媒體和教學文件。

首先,采集的原始教育文本數據并不能直接用于文本數據挖掘,其主要原因在于數據存在冗余、缺失、歧義和沖突等,需要進行數據清洗。其次,根據文本數據的語言學特性,需要加入額外的文本處理環節,包括分詞、詞性標注、停用詞去除、詞干提取(英文數據)、詞頻統計等。文本預處理完成后,可以得到高維的文本特征。高維的文本特征存在大量冗余,需要通過特征選擇和提取得到較低維度的、有代表性的特征。常用的特征選擇方法包括信息增益法(Information Gain)、互信息法(Mutual Information)、卡方檢驗法(Chi-square)等。最后,通過對文本特征進行建模,將非結構化的文本數據轉換成便于計算機可以處理的中間形式。

2.教育文本挖掘方法及工具

文本挖掘算法通常可以分為兩大類:一類是預測性算法,這類算法通過已有的特征值來預測未知的特征值,如各種分類算法等;另一類是描述性算法,其目的是描述概括數據中已經存在的關系和模式,如聚類、關聯規則挖掘、異常檢測等(Tan,2018)。除了傳統的數據挖掘算法外,還有深度學習的相關算法,包括CNN(卷積神經網絡)、DBN(深度置信網絡)、RNN(循環神經網絡)等。此外,還有一些在文本挖掘中十分重要的方法,如Word2Vec(詞向量)、LDA(隱含狄利克雷分布)模型、馬爾可夫模型、深度學習等。常用方法的具體描述如表3所示。

此外,隨著文本挖掘應用需求的不斷增長,有許多研究人員和商業公司致力于文本挖掘工具的研發,目前已有許多成熟的工具和軟件,表4是對所分析文獻中出現的主要文本挖掘工具的概述。

文本挖掘就是使用數據挖掘方法和工具從數據中發現描述性知識或者預測性模型,并對其進行評估與反饋,最后利用相關模型的評價指標和教育學、心理學的相關理論對得到的信息進行評估和解釋的過程。如效果不理想則回到之前的步驟,重新選取合適的中間形式或者算法與工具。

3.知識及模式的提取及應用場景

文本挖掘得到的知識或產生的模式可以給學習者、教師、教育管理人員、相關科研工作者提供幫助,用以解決教育問題、提升教學的效果。提取知識或產生模式的方法與具體應用場景緊密關聯,如表5所示。

例如,學習成績預測通常采用關聯規則挖掘方法,通過發現學習行為、學習表現間的關系規則,建立成績預測模型。學習者建模一方面可借助文本數據,通過關鍵詞或特征,依據心理學、教育學基本原理等進行人工標注案例,利用機器學習方法構建學習者特征模型;另一方面,可對學習者進行特征歸類,如活潑型、好動型、沉思型等,構建學習者分類預測模型,服務于個性化學習。學習水平評價方法則通常對學習者文本數據進行不同層次水平特征歸類,如將主題研討中的交互文本歸納為描述性、分析性和批判性認知層次,利用詞袋模型進行學習交互水平模型的構建。教學材料結構分析、內容可視化通常采用矩陣關聯計算方法,建立要素與要素之間的關系,并通過概念圖、云簽圖等進行可視化表示。

此外,當獲取到海量的文本數據后,還可以根據教學應用需求,對文本數據進行矢量化處理,利用深度學習算法構建學習者認知模型、學習評價模型等,其特點是不需要進行特征提取,便可在對文本數據標簽化后構建精準的分析模型。

四、教育文本挖掘的典型應用

教育文本挖掘的典型應用主要包含6類:

1.學習者成績預測

學習者成績預測通過收集和挖掘學習者學習文本數據,建立學習者學習行為和學業表現間的關系模型,用以預測學習者最終的成績。例如香港教育學院的研究者使用Polaris工具對24個本科學生的反思帖子和同伴評語進行建模,實現在通識教育中利用學生機會發現(Merton et al.,2011)的隱藏模式和聯系來預測學習者的學習成績(Wong et al.,2016b)。另一項研究中,研究者基于MOOC論壇和其他學習活動數據共同評估學習質量,發現論壇帖子和評論的語義特征對預測學習質量有較大的影響(Liu et al.,2018)。

2.學習者建模

學習者建模即通過學習者產生的文本數據,塑造不同學習者的特點,如情緒、認知、領域知識和學習偏好等。其主要目的是為了識別不同類型的學習者,從而對其施加相應的措施,以滿足學習者的需求。例如,普渡大學的研究者開發了一個多標簽的分類器,可以根據該校工科學生在社交媒體(Twitter)上的發言內容自動識別存在特定問題的學生(Chen et al.,2014)。印度尼西亞的研究者基于內容分析的分類模型,使用樸素貝葉斯算法構建意見分類器,通過學生在社交媒體(Twitter)上的情緒評價來評估學生的滿意度(Candra Permana et al.,2017)。Doleck等人在一個醫學領域的計算機學習環境BioWorld中,使用文本挖掘技術對學習者的書面案例摘要進行自動分析,以區分學習者的專業水平,從而向其提供相應的反饋(Doleck et al.,2015)。

3.學習者水平評價

對于文本內容的評價,傳統的方式費時費力,特別是網絡課程中由于參與人數較傳統課堂巨幅增長,評價任務更加艱巨。而通過文本挖掘的方法可以實現自動評價。如Azevedo等人基于N-Simple距離圖模型,開發了一種自動評估異步論壇討論相關性的工具,該工具在多數情況下能夠識別學生所發內容與討論主題的相關程度,其結果與教師人工判別結果相似,可以很好地幫助教師評估學生的參與度(Azevedo et al.,2014)。馬來西亞麥地那國際大學的研究者使用文本挖掘和自然語言工具包(Natural Language Tool Kit),采用基于本體的信息提取方法,通過對作文的標記化、單詞標注、字符計數、頻率分布計算以及文本語義匹配等操作實現作文的自動評分(Contreras et al.,2018)。Yu等人采用基于詞向量的相似度計算實現了學習者的答題自動化評價(Yu et al.,2017)。張平霞基于布魯姆的認知分類法構建評價框架,通過樸素貝葉斯分類器實現了對MOOC討論區中帖子的認知水平自動評價(張平霞,2018)。王漪通過文本的“單向貼近度”和“語義相似度”特征,利用改進的KNN分類算法分別實現了簡答題和論述題的自動評分(王漪,2014)。

4.教學材料結構分析

教學材料作為最基本的教育文本數據來源,以往常常只能通過內容分析等方法對其進行研究,但引入文本挖掘的方式后可以從一個更加客觀的角度分析其內在的信息。如韓國延世大學的一項研究中,研究者使用狄利克雷多項式回歸主題模型分析多個高校機器學習相關課程的教學材料,如課堂講稿/講義、相關的輔導論文、作業、答題紙和試卷等,用以發現其主要教學主題的變化趨勢,總結教學內容的熱點和重點。此外,他們還分析了各個高校的教學材料和出版物,用以探究高校教學情況與科學研究的關系,結果表明兩者通常是相互獨立的,教學和研究所關注的熱點主題并不相同(Lee et al.,2015)。此外,Badawy等人分析了埃及開羅大學統計學院的一本教材,通過RapidMiner將每一章的教學目標與詞庫進行對比,將章節自動分為:知識與理解、智力技能和專業技能三類,從而為選修章節的學習者提供參考(Badawy et al.,2016)。澳大利亞塔斯馬尼亞大學一項計算課程相似性的研究中,研究者分析了多所大學的計算機科學學位所教課程的學科大綱,通過N-Gram關鍵詞抽取的方式,使用基于維基百科語料庫的度量方法計算相似度,成功地實現了課程相似程度的自動分析,為學習者的課程選擇以及教育部門對課程學分的認證提供了參考(Langan et al.,2016)。

5.學習者反饋

學習者反饋在教學過程中至關重要,不僅能為改善教學及教育系統提供建議,還能為其他學習者選擇課程提供參考。如在新加坡管理大學信息系統學院,研究者開發了一個學生反饋挖掘系統,通過收集學生在學期中產生的對于教學和課程的文本反饋意見,進行主題抽取和情感分類,實現對定性反饋的量化分析(Koufakou et al.,2016)。實驗結果顯示,在情感分類方面,利用對數回歸模型訓練的分類器,精度可以達到80.1%。在印度尼西亞的AKPRIND科學技術研究所,研究者通過隱馬爾可夫詞性標記器對收集到的學生問卷中的評論文本進行分析,可以識別出其中包含有針對性意見的評論(Nitin et al.,2015),并通過基于規則的方法,可以確定該意見的類別和所持有的情感態度。其意見檢測和意見分類精度均達到95%以上,而情感分類精度也達到80%以上。與此類似的一項針對遠程教育課程評價的研究中,研究者提出了一種利用層次分類模型來自動識別學習者意見和情感觀點的方法。他們以課程評價網站fernstudiumcheck.de上的評論作為數據來源,訓練出了一個多標簽分層文本分類器,用以判斷學習者的評論所屬類別以及持有的情感態度,從而給相關學習者選擇課程提供參考,同時也為課程制作者改善課程提供意見(Hamzah et al.,2016)。此外在美國的佛羅里達海灣海岸大學的軟件工程系,研究者通過對課程的評價文本數據進行關聯規則挖掘和情感分析,可以提取調查中廣受關注的關鍵內容以及學生對課程所持有的情感(Jaskolski et al.,2016)。

6.內容可視化

研究者通過文本數據的交互結構圖形來形象地展示信息或者知識,可以幫助人們更加直觀地理解相關教育數據。比如,在日本青森縣的一項關于高中教師的調查問卷中,Takeyasu等人通過文本挖掘技術抽取關鍵詞并形成關系圖,可以讓相關教育部門負責人直觀地看到高中教師的工作負擔情況(Takeyasu et al.,2016)。香港的一項分析學習者學術討論的研究中,研究者以40個本科生發布的200多個帖子為數據源,使用Forum Graph、R程序集合、LDAvis等工具形成學生互動的社會網絡圖和主題分布圖,可以讓管理者了解學生和教師之間的互動,識別出頻繁貢獻者和被動觀察者,從而讓教師可以針對性地提供干預,還可以讓教師了解現有的和正在增長的討論主題(Wong et al.,2016a)。此外,Karma等人在研究不丹特殊教育需求兒童的家長與教師的溝通與合作經驗時,使用文本挖掘技術分析了26個家長的訪談記錄,以概念圖、網絡云、概念辭典的形式直觀地生成了訪談記錄的概念和主題(Jigyel et al.,2018)。

五、教育文本挖掘的挑戰與展望

2017年我國首部國家級人工智能發展規劃《新一代人工智能發展規劃》正式出臺,強調利用智能技術加快推動人才培養模式、教學方法改革,構建包含智能學習、交互式學習的新型教育體系。作為智能教育技術重要組成部分的教育文本挖據技術也日益受到廣泛的關注。但受技術、分析方法等制約,教育文本挖據的發展和應用仍然面臨諸多挑戰。

1.海量教育文本數據的采集與清洗

首先,正如前文所述,教育文本數據來源廣泛,涉及到問卷調查、師生互動、學習反饋、在線評論、教學材料、社交內容等。這些文本數據多屬于非結構化的模糊教育信息,面臨數量化處理難題。其次,教育文本數據是一個高維度的特征數據,如何在進行數據降維的同時保留教育教學的基本特征是教育文本數據預處理的難點。第三,教育文本數據蘊含豐富的師生交流信息,涉及認知、情感、行為等維度,也涉及到教育教學的主體特性,如學習動機、態度、價值觀等,如何建立文本數據與教育特征之間的聯系一直是其深度應用的難點。

2.多學科研究方法應用和交叉研究

教育文本挖掘中,數據挖掘結果的評估與解釋往往是重點和難點。文本挖掘是自然科學領域的方法,而教育領域具有豐富的人文特性和社會屬性,單純的定量分析難以發現文本數據深層次的隱性知識。冰冷的文本數據需要結合教育教學的基本理論,為使用者提供解讀的依據,體現出溫度。發掘出的知識和提取出的模式需要與教育系統中教師、學習者的情感、狀態和認知規律等聯系起來,為解讀教育教學的真實狀態、現象和問題提供可能。因此,研究者需深度融合教育學、認知心理學、語言學等學科研究方法,通過多學科研究方法應用和交叉研究助推教育文本挖掘方法的應用和推廣。

3.基于教育情境的多模態分析與驗證

[15]Cohen, M., & Hersh, R. (2005). A Survey of Current Work in Biomedical Text Mining[J]. Briefings in Bioinformatics, 6(1): 57-71.

[16]Contreras, O., Hilles, S., & Abubakar, B. (2018). Automated Essay Scoring with Ontology Based on Text Mining and NLTK Tools[C]// 2018 International Conference on Smart Computing and Electronic Enterprise (ICSCEE). IEEE: 1-6.

[17]Cooper, W. (1988). Getting Beyond Boole[J]. Information Processing & Management, 24(3): 243-248.

[18]Doleck, T., Basnet, R., & Poitras, E. et al. (2015). Mining Learner-System Interaction Data: Implications for Modeling Learner Behaviors and Improving Overlay Models[J]. Journal of Computers in Education, 2(4): 421-447.

[19]Feldman, R., & Dagan, I. (1995). Knowledge Discovery in Textual Databases (KDT)[C]// Proceedings of the First International Conference on Knowledge Discovery and Data Mining(KDD95): 112-117.

[20]Grimes, S.(2008). Unstructured Data and the 80 Percent Rule[EB/OL]. [2020-02-01]. http://breakthroughanalysis.com/2008/08/01/unstructured-data-and-the-80-percent-rule/.

[21]Hamzah, A., & Widyastuti, N. (2016). Opinion Extracting and Classification From Questionnaire Comments Using HMM-POS Tagger and Machine Learning Techniques[C]//2016 International Conference on Data and Software Engineering (ICoDSE). IEEE:1-6.

[22]Harvey, S., & Hyndman, B. (2018). An Investigation Into the Reasons Physical Education Professionals Use Twitter[J]. Journal of Teaching in Physical Education , 37(4): 383-396.

[23]Hew, K., Qiao, C., & Tang, Y. (2018). Understanding Student Engagement in Large-Scale Open Online Courses: A Machine Learning Facilitated Analysis of Students Reflections in 18 Highly Rated MOOCs[J]. International Review of Research in Open and Distributed Learning, 19(3): 69-93.

[24]IBM Corporation(2019). About IBM SPSS Modeler Text Analytics[EB/OL]. [2019-05-15]. https://www.ibm.com/support/knowledgecenter/en/SS3RA7_15.0.0/com.ibm.spss.ta.help/tmfc_intro.htm.

[25]Jaskolski, J., Siegberg, F., & Tibroni, T. et al. (2016). Opinion Mining in Online Reviews About Distance Education Programs[EB/OL]. ?[2020-02-01]. https://arxiv.org/abs/1607.06299.

[26]Jigyel, K., Miller, J., & Mavropoulou, S. et al. (2018). Parental Communication and Collaboration in Schools With Special Educational Needs (SEN) Programmes in Bhutan[J]. International Journal of Inclusive Education, 22(12): 1288-1305.

[27]Kiritchenko, S., & Matwin, S. (2011). Email Classification With Co-Training[C]// Proceedings of the 2011 Conference of the Center for Advanced Studies on Collaborative Research. IBM Corp: 301-312.

[28]Koufakou, A., Gosselin, J., & Guo, D. (2016). Using Data Mining to Extract Knowledge From Student Evaluation Comments in Undergraduate Courses[C]// 2016 International Joint Conference on Neural Networks (IJCNN). IEEE:3138-3142.

[29]Langan, G., Montgomery, J., & Garg, S. (2016). Similarity Matching of Computer Science Unit Outlines in Higher Education[C]// Australasian Joint Conference on Artificial Intelligence. Springer, Cham: 150-162.

[30]Lee, H., Kwak, J., & Song, M. et al. (2015). Coherence Analysis of Research and Education Using Topic Modeling[J]. Scientometrics, 102(2): 1119-1137.

[31]Liu, Z., & Zhang, Y. (2018). A Semantic Role Mining and Learning Performance Prediction Method in MOOCs[C]//Asia-Pacific Web (APWeb) and Web-Age Information Management (WAIM) Joint International Conference on Web and Big Data. Springer, Cham:259-269.

[32]Merton, R., & Barber, E. (2011). The Travels and Adventures of Serendipity: A Study in Sociological Semantics and the Sociology Of Science[M]. Princeton University Press.

[33]Nitin, G., Swapna, G., & Shankararaman, V. (2015). Analyzing Educational Comments for Topics and Sentiments: A Text Analytics Approach[C]// 2015 IEEE Frontiers in Education Conference (FIE). IEEE: 1-9.

[34]Salton, G., Wong, A., & Yang, C. S.(1975). A Vector Space Model for Automatic Indexing[J]. Communications of the ACM, 18(11): 613-620.

[35]Stupans, I., Mcguren, T., & Babey, A. (2016). Student Evaluation of Teaching: A Study Exploring Student Rating Instrument Free-form Text Comments[J]. Innovative Higher Education, 41(1): 33-42.

[36]Sullivan, D. (2001). Document Warehousing and Text Mining: Techniques for Improving Business Operations, Marketing, and Sales[M]. John Wiley & Sons, Inc.

[37]Takeyasu, K., Oyanagi, T., & Ishii, Y. et al. (2016). Text Mining Analysis on the Questionnaire Investigation for High School TeachersWork Load[C]// 2016 International Conference on Industrial Engineering, Management Science and Application (ICIMSA). IEEE:1-5.

[38]Tan, A. (1999). Text Mining: The State of the Art and the Challenges[C]// Proceedings of the PAKDD 1999 Workshop on Knowledge Disocovery from Advanced Databases: 65-70.

[39]Tan, P. (2018). Introduction to Data Mining[M]. Pearson Education India.

[40]Tseng, Y., Lin, C., & Lin, Y. (2007). Text Mining Techniques for Patent Analysis[J]. Information Processing & Management, 43(5): 1216-1247.

[41]Velasquez, N., Fields, D., & Olsen, D. et al. (2014). Novice Programmers Talking About Projects: What Automated Text Analysis Reveals About Online Scratch UsersComments[C]// 2014 47th Hawaii International Conference on System Sciences. IEEE: 1635-1644.

[42]Verma, A., Rathore, S., & Vishwakarma, S. et al. (2017). Multilevel Analysis of Students Feedbackusing Moodle Logs in Virtual Cloud Environment[J]. International Journal of Computer Science & Information Technology, 9(5): 15-28.

[43]Witten, I., Frank, E., & Hall, M. et al. (2016). Data Mining: Practical Machine Learning Tools and Techniques[M]. Morgan Kaufmann.

[44]Wong, G., Li, S., & Wong, E. (2016a). Analyzing Academic Discussion Forum Data With Topic Detection and Data Visualization[C]// 2016 IEEE International Conference on Teaching, Assessment, and Learning for Engineering (TALE). IEEE: 109-115.

[45]Wong, G., & Li, S. (2016b). Academic Performance Prediction Using Chance Discovery From Online Discussion Forums[C]// 2016 IEEE 40th Annual Computer Software and Applications Conference (COMPSAC):706-711.

[46]Yu, F., & Zheng, D. (2017). Education Data Mining: How to Mine Interactive Text in Moocs Using Natural Language Process[C]// 2017 12th International Conference on Computer Science and Education (ICCSE). IEEE:694-699.

收稿日期 2020-05-17責任編輯 汪燕

Abstract: Educational text mining refers to the process of using data mining algorithms or tools to extract meaningful patterns or knowledge from unstructured text documents through data collection and processing. Educational texts contain a wealth of information about learners cognition, behaviors and emotions. Deep mining and analysis of them will help to explore the basic laws of education and teaching, and explain the problems and phenomena in education. The educational text mining model supported by big data includes the main body of data production and use (stakeholders), teaching environment, data and mining tools and other core elements, involving data generation, data collection, data processing, knowledge discovery, evaluation and interpretation, and instructional application and other processes and methods. Its commonly used data sources include questionnaires, online interactions, learning feedback, online comments, social media and teaching documents, which are mainly used for learners performance prediction, learner modeling, learners level evaluation, teaching material structure analysis, and learners feedback and content visualization. Currently, educational text mining still faces challenges in massive data processing, dimensionality reduction and fidelity of data, result evaluation and interpretation, etc. Researchers need to deeply integrate pedagogy, cognitive psychology, linguistics and other multidisciplinary research methods, combined with basic theories of education and teaching and specific educational situations, pay attention to multimodal analysis and verification, to ensure the scientific nature of its application in educational research. With the breakthroughs and application development of related technologies, educational text data will become the driving force for the modernization of education and play a greater role in the fields of deep learning and precision teaching.

Keywords: Education Big Data; Data Mining; Learning Analysis; Educational Text Mining

主站蜘蛛池模板: 四虎影视8848永久精品| 伊人中文网| 午夜一区二区三区| 免费国产高清精品一区在线| 国产精品免费电影| 国产精品蜜芽在线观看| 亚洲女同一区二区| 国产一二三区在线| 国产剧情无码视频在线观看| 国内精品久久久久鸭| 亚洲成人动漫在线| 国产精品区视频中文字幕| 亚洲国产日韩在线观看| 一级毛片视频免费| 国产精品性| 国产正在播放| 欧美精品亚洲精品日韩专| 中文字幕天无码久久精品视频免费 | 国模极品一区二区三区| 毛片国产精品完整版| 一区二区自拍| 亚洲国产理论片在线播放| 无套av在线| 久久中文字幕av不卡一区二区| 久久无码高潮喷水| 国产嫖妓91东北老熟女久久一| 国产91在线免费视频| 91视频青青草| 亚洲精品无码成人片在线观看 | 72种姿势欧美久久久久大黄蕉| 日韩欧美中文亚洲高清在线| 日韩精品无码免费一区二区三区 | 国产毛片高清一级国语| 91免费国产高清观看| 国产亚洲精品91| 精品剧情v国产在线观看| 波多野结衣二区| 国产精品一区在线麻豆| 亚洲精品国偷自产在线91正片| 国产在线专区| 99激情网| 国产人人射| 成人国产精品一级毛片天堂| 国产自视频| AV在线天堂进入| 欧美成人怡春院在线激情| 人人澡人人爽欧美一区| 亚洲欧美成人| 亚洲视频在线青青| 狠狠亚洲五月天| 四虎亚洲精品| 538国产视频| 日韩成人在线一区二区| 国产成人免费观看在线视频| 国产第一页免费浮力影院| 高清无码不卡视频| 91久久国产热精品免费| 成人午夜免费观看| 婷婷在线网站| 欧美成人a∨视频免费观看| 女人av社区男人的天堂| 日韩色图区| 久久香蕉国产线看观| 91最新精品视频发布页| 天天综合色网| 国产一区二区三区夜色 | 日本亚洲欧美在线| 国产精品福利尤物youwu| 免费亚洲成人| 日韩123欧美字幕| 色窝窝免费一区二区三区| 国产剧情无码视频在线观看| 青青操视频免费观看| 最近最新中文字幕在线第一页| 国产精品久久久免费视频| 日韩大片免费观看视频播放| 麻豆国产精品视频| 国产在线一区视频| 四虎永久在线精品国产免费 | 欧美成人日韩| 制服丝袜亚洲| 欧美全免费aaaaaa特黄在线|