999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向教育大數(shù)據(jù)多尺度特征融合的成績預(yù)測方法在眼科本科教學(xué)中的探索

2020-03-16 08:26:05石慧宋世濤肖揚
科技創(chuàng)新導(dǎo)報 2020年33期

石慧 宋世濤 肖揚

摘? 要:伴隨著我國教育大數(shù)據(jù)研究的全面開展,學(xué)生表現(xiàn)受多方面影響,傳統(tǒng)方法面向單尺度、單方面對學(xué)生表現(xiàn)進行模型建立與預(yù)測分析具有一定片面性,由于影響因素往往來源于不同尺度不同特征因素,因此本文綜合學(xué)生、教師、成績等多方面進行特征融合提取,建立多尺度特征融合預(yù)測模型對學(xué)生表現(xiàn)進行預(yù)測,取得較好的效果。

關(guān)鍵詞:教育大數(shù)據(jù)? 眼科? 成績預(yù)測? 學(xué)生行為特征

中圖分類號:G642? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻標(biāo)識碼:A? ? ? ? ? ? ? ? ? ? 文章編號:1674-098X(2020)11(c)-0214-05

Research on Big Data of Multiscale Feature Fusion for Student of Ophthalmology Performance Prediction in Education

SHI Hui1? SONG Shitao2? XIAO Yang2

(1. The First Hospital of Jilin University, Changchun, Jilin Province, 130021 China;? 2.Jilin Jianzhu University, Changchun, Jilin Province, 130118 China)

Abstract: With the comprehensive development of education big data research in China, student performance is affected by many aspects, and the traditional method of modeling and prediction analysis of student performance on a single scale and unilaterally has a certain one-sidedness. As the influencing factors often come from different scale and different feature factors, this paper integrates the characteristics of students, teachers, grades and other aspects for feature fusion extraction, and establishes a multi-scale feature fusion prediction model to predict the performance of students, achieving good results.

Key Words: Big data on education; Ophthalmology; Performance prediction; The characteristics of students' behavior

近年來,隨著信息產(chǎn)業(yè)的飛速發(fā)展,各行業(yè)數(shù)據(jù)量也成幾何級數(shù)增長,在這些海量數(shù)據(jù)中蘊藏著無數(shù)寶貴的資源和價值信息,而人工分析、手動提取的方法已經(jīng)逐步退出歷史舞臺,而隨著機器學(xué)習(xí)、大數(shù)據(jù)挖掘技術(shù)的快速崛起,如何智能化、科學(xué)化、將這些信息資源進行有效的整合、提取、分析,并作為各種決策、改革的有效數(shù)據(jù)支撐已經(jīng)成為各行業(yè)熱門的研究方向,而作為各行業(yè)的基石-高等教育如何挖掘?qū)W生、教師、學(xué)科、成績等方面的關(guān)聯(lián)性成為教育改革、發(fā)展的重要需求和急需解決的首要問題。我國也早在2015年就提出要大力發(fā)展建設(shè)教育大數(shù)據(jù)平臺,而其他發(fā)達(dá)國家也先后針對教育數(shù)據(jù)挖掘和分析提出了相關(guān)的要求和政策扶持,以致越來越多的高校和教育研究機構(gòu)把教育大數(shù)據(jù)的分析成果引入到教學(xué)改革與教學(xué)管理之中[1-2]。

1? 存在問題

教育行業(yè)關(guān)心的首要問題就是教學(xué)質(zhì)量,而學(xué)生的學(xué)業(yè)表現(xiàn)是反映教學(xué)質(zhì)量的首要指標(biāo),我校作為國內(nèi)外知名大學(xué)近年來學(xué)生人數(shù)不斷增多,課堂規(guī)模、授課形式逐步擴大,而作為一線教師,面向眾多學(xué)生和教學(xué)任務(wù)、科研任務(wù)的情況下,除了在完成日常教學(xué)工作和科研任務(wù)很難做到追蹤并了解每位學(xué)生的學(xué)習(xí)情況,甚至及時、有效、有針對性地調(diào)整授課計劃,優(yōu)化教學(xué)策略,配置教學(xué)資源、改進教學(xué)方法,以致于出現(xiàn)部分學(xué)生突然成績下滑、留級、退學(xué)等現(xiàn)象,這在一定程度上影響了我校的教學(xué)質(zhì)量,因此利用機器學(xué)習(xí)和大數(shù)據(jù)分析構(gòu)建學(xué)生學(xué)習(xí)表現(xiàn)預(yù)測模型就尤為重要,通過預(yù)測模型提前對“風(fēng)險學(xué)生”進行預(yù)警并關(guān)注,避免學(xué)生失去學(xué)習(xí)興趣以致最終無法繼續(xù)學(xué)業(yè)成為重要的研究課題[3-4]。

2? 研究現(xiàn)狀

針對學(xué)生成績表現(xiàn)預(yù)測國內(nèi)外眾多學(xué)者已有一定成果,例如早期數(shù)據(jù)來源多采用調(diào)查問卷的形式,并且調(diào)查內(nèi)容也主要從教育學(xué)和心理學(xué)角度,包括學(xué)生的學(xué)習(xí)動機、性別、年齡、家庭背景等方面,Poropat[5]提出的人格因素與學(xué)生表現(xiàn)的相關(guān)性。隨著教學(xué)手段的不斷發(fā)展,產(chǎn)生了眾多的慕課、微課等教育平臺,信息逐漸偏向收集學(xué)生的在線課堂表現(xiàn)如在線時間、在線次數(shù)、完成作業(yè)情況、在線討論等數(shù)據(jù)特征提取,Ren、Macfady[6-7]等學(xué)者在這方面做出了一定的研究成果。隨著機器學(xué)習(xí)的飛速發(fā)展很多學(xué)者如蔣卓軒[8]等采用機器學(xué)習(xí)分類方法預(yù)測學(xué)生是否能夠順利完成學(xué)業(yè)。Huang[9]等人綜合90個學(xué)生信息采用決策樹的分來方法預(yù)測學(xué)生后續(xù)課程的完成度,但此類研究多受數(shù)據(jù)體量和種類所限,很難將眾多數(shù)據(jù)進行多尺度融合進行綜合分析,這在一定程度上影響了預(yù)測結(jié)果的可信度,而本研究得到學(xué)校的支持,通過已經(jīng)建立的大數(shù)據(jù)分析平臺,很多復(fù)雜的工作得到簡化,數(shù)據(jù)內(nèi)容大量增加,數(shù)據(jù)格式統(tǒng)一減少了前期數(shù)據(jù)處理的巨大工作量,使得實驗?zāi)軌蝽樌M行。

3? 學(xué)生表現(xiàn)模型構(gòu)建

3.1 樣本表達(dá)

由于教育大數(shù)據(jù)研究方向和研究內(nèi)容較多,本文主要針對建立學(xué)生綜合表現(xiàn)(GPA即平均成績點數(shù))建立學(xué)生表現(xiàn)預(yù)測模型,從而研究并預(yù)測學(xué)生的學(xué)習(xí)狀態(tài)并為后續(xù)教學(xué)改革提供數(shù)據(jù)支撐。學(xué)生樣本表示直接關(guān)系到模型的特征提取,是構(gòu)建準(zhǔn)確預(yù)測模型的重要前提,傳統(tǒng)的學(xué)生表現(xiàn)預(yù)測方法只考慮本門課程或本學(xué)期課程的特征信息,沒有考慮課程之間的關(guān)聯(lián)性,以及課程、教師與學(xué)生行為之間的關(guān)聯(lián)性忽略三者之間存在的內(nèi)在聯(lián)系,影響最終預(yù)測精度,而本文提出一種面向多角色、多角度的學(xué)習(xí)算法實現(xiàn)多種數(shù)據(jù)統(tǒng)一在同一模型框架下進行統(tǒng)一建模能夠進一步提高預(yù)測的可信度。

本研究以吉林大學(xué)白求恩醫(yī)學(xué)部臨床醫(yī)學(xué)專業(yè)4屆學(xué)生共980人作為研究對象,數(shù)據(jù)來源包括線上、線下、校園一卡通3部分構(gòu)成,線下數(shù)據(jù)主要是多年積累的線下數(shù)據(jù)包括學(xué)生個人基本信息(包括性別、年齡、家庭情況、民族、生活收入水平、生源省份、學(xué)習(xí)動機、是否為第一志愿等)、課堂表現(xiàn)信息(包括出勤、課堂討論、隨堂測試等)、成績信息(入學(xué)成績、各學(xué)期單科平時成績、期末成績、英語等級考試成績、計算機等級考試成績等)、學(xué)生校園行為信息(主要圖書借閱信息、圖書管等場所的出入信息、食堂就餐信息、超市消費信息等)、專業(yè)課程信息(包括專業(yè)課程開設(shè)的學(xué)期、課程學(xué)分、課程性質(zhì)、課程開設(shè)順序等)、相關(guān)專業(yè)教師信息(包括教師學(xué)歷、職稱、年齡、性別、所學(xué)專業(yè)、科研情況、教齡等)。線上數(shù)據(jù)包括今年疫情期間進行的線上教學(xué)信息、多年來學(xué)生在吉林大學(xué)網(wǎng)課平臺的學(xué)生活動日志等統(tǒng)計信息(包括視頻觀看時間、相關(guān)專業(yè)課程觀看種類、觀看次數(shù)、討論數(shù)量、線上測驗成績、登錄時長等),由于篇幅所限僅列出表1中部分?jǐn)?shù)據(jù)。

本研究對象由于分析目標(biāo)對象特征類型較多,所以首先采用皮爾森相關(guān)系數(shù)分析法從4類標(biāo)簽中分別提取對學(xué)生表現(xiàn)相關(guān)特征影響最大的,生成高相關(guān)特征的數(shù)據(jù)集,然后利用Kaggle平臺上表現(xiàn)優(yōu)異的Xgboost框架進行模型構(gòu)建,最后結(jié)合特征工程處理,取得良好的訓(xùn)練預(yù)測效果。對照組中將學(xué)生、教師、課程等因素聯(lián)動性影響因素融合原數(shù)據(jù)生成訓(xùn)練集,完成特征擴充。

3.2 特征提取

數(shù)據(jù)集由37個特征和4個標(biāo)簽構(gòu)成,由于目標(biāo)對象的復(fù)雜性導(dǎo)致很難用單標(biāo)簽的方式進行直接分類和解釋,所以采用多標(biāo)簽分類原理模型。由于多標(biāo)簽問題的復(fù)雜性一般從待預(yù)測值關(guān)系可分為依賴關(guān)系和獨立關(guān)系兩類,本研究4個標(biāo)簽之間存在依賴關(guān)系,所以采用的策略轉(zhuǎn)換為Classifier Chains,此方法的核心思想是將多標(biāo)簽分類問題進行分解,將其轉(zhuǎn)換成一個二元分類鏈的形式,后一個分類是在前一個分類的基礎(chǔ)上進行的,即后一個輸入時前一個分類的輸出,模型公式如下所示

X,Y=[y1,y2,y3,y4](1)

shuffle:X,Y=[y2,y3,y4](2)

然后在構(gòu)建下一個模型

shuffle_sorted{1,2……,m}? ? ? ? ? ? ? ? ? ? ? ?(3)

對m個分類進行打亂

(4)

(5)

評估標(biāo)準(zhǔn)與相關(guān)系數(shù)計算

本文利用Pandas中的corr()方法,其中常見的方法有圖示法、Pearson相關(guān)系數(shù)Sperman相關(guān)系數(shù)法,由于樣本數(shù)據(jù)不滿足連續(xù)數(shù)據(jù),正態(tài)分布,線性關(guān)系,所以本研究采用Sperman相關(guān)系數(shù)是最恰當(dāng),該算法通過衡量預(yù)測值和實際值的Spearman相關(guān)性,如果計算結(jié)果為[0,1]之間的值,值越大,表示越相關(guān),預(yù)測就越準(zhǔn)確。那么對于普通樣本模型之間沒有相同秩序采用如下公式

(6)

而對于有相同秩序存在,就需要計算秩序之間的Pearson的現(xiàn)行相關(guān)系數(shù),公式如下所示。

(7)

4? 實驗過程

實驗過程包括數(shù)據(jù)預(yù)處理、拆分、訓(xùn)練、預(yù)測與評估幾個主要步驟。

4.1 數(shù)據(jù)預(yù)處理

(1)首先將采集的數(shù)據(jù)源結(jié)構(gòu)化。對于簡單的數(shù)據(jù)類型例如學(xué)生性別、學(xué)位英語等級、課程性質(zhì)等直接采用0表示yes,1表示no將文本數(shù)據(jù)量化,例如課程性質(zhì)為必修課表示為1,選修課表示為0;而對于一些多種類的文本型字段,如期末成績、學(xué)分、教師職稱、家庭收入等可以結(jié)合業(yè)務(wù)場景來抽象,比如說如果教師職稱高級就表示為1,其他職稱表示為0,抽象后這個特征的意義就是表示教師教學(xué)水平相關(guān)程度。對于部分復(fù)雜目標(biāo)列,我們按照多等級抽象分為1,2,3….,擬通過訓(xùn)練找出相關(guān)度高的進行擬合訓(xùn)練。

(2)此外預(yù)處理還包括部分屬性缺失,由于本文采用的是xgboost框架算法,可以有效地處理對特征影響不大的缺失值并自動進行填充,默認(rèn)將缺失值設(shè)置成missing=-9999。

(3)通過人工篩查和describe方法對單個屬性分析清洗部分非相關(guān)性屬性數(shù)據(jù),分析結(jié)果包括平均值,最值,標(biāo)準(zhǔn)差等。

4.2 數(shù)據(jù)歸一化

由于本研究對象屬性眾多內(nèi)容復(fù)雜,需將已有數(shù)據(jù)進行歸一化,將所有的字段都轉(zhuǎn)換成0~1之間,去除字段間大小不均衡帶來的影響,部分結(jié)果如表2所示。

4.3 訓(xùn)練集和驗證集拆分

將數(shù)據(jù)集按照7:3拆分,70%用來訓(xùn)練模型,30%的用來預(yù)測。

4.4 各屬性與成績的相關(guān)性分析

常用的編碼方式分為標(biāo)簽編碼方式和獨熱編碼,對于只有2個唯一值得特征采用標(biāo)簽編碼,如果分類變量具有許多類多個值則采用獨熱編碼方式,本研究采用后者,然后分別計算各個屬性與最終預(yù)測值Y學(xué)生表現(xiàn)的相關(guān)性,將相關(guān)性高的屬性進行保留作為模型訓(xùn)練的數(shù)據(jù)輸入。

4.5 預(yù)測模型訓(xùn)練

最終選取框架提供的六種模型,分別為:線性回歸、ElasticNet回歸、隨機森林、極端隨機數(shù)、支持向量機(SVM)、梯度提升樹,進行預(yù)測模型訓(xùn)練對比效果如表3所示。

5? 結(jié)語

本研究采集了線下學(xué)生信息、學(xué)生個人情況屬性信息、線上學(xué)習(xí)統(tǒng)計信息、學(xué)生行為特征和教師行為特征等數(shù)據(jù)作為研究對象的特征,運用特征分析和特征選擇,選取了37個特征構(gòu)成的特征子集表示每一個研究對象。最終利用xgboost框架算法,采用6種機器學(xué)習(xí)算法,構(gòu)造了不同的學(xué)習(xí)成績預(yù)測模型。通過比較模型的準(zhǔn)確度、召回率、F值,誤分類樣本數(shù)量和精確度,通過分析,發(fā)現(xiàn)影響學(xué)習(xí)成績的主要因素是學(xué)生行為特征、教師行為特征、基礎(chǔ)課程的成績表現(xiàn),為提高學(xué)生表現(xiàn)GPA,教學(xué)過程中應(yīng)該隨時關(guān)注學(xué)生行為特征相關(guān)屬性的變化,并配合教師行為特征進行適當(dāng)?shù)氖谡n計劃調(diào)整,激發(fā)學(xué)生教師的內(nèi)在動力,積極關(guān)注基礎(chǔ)課程的學(xué)生成績變化,預(yù)測學(xué)生的學(xué)習(xí)表現(xiàn),并針對預(yù)測結(jié)果實施相應(yīng)的授課計劃調(diào)整,為教學(xué)改革提供參考。

參考文獻

[1] 蘇國曦.基于特征表示的終身機器學(xué)習(xí)算法研究[D].廣州:華南理工大學(xué),2018.

[2] 肖逸楓.數(shù)據(jù)挖掘技術(shù)用于高校學(xué)生留級預(yù)警的研究[D].重慶:重慶大學(xué),2018.

[3] 謝娟英,張宜,陳恩紅. 學(xué)生成績關(guān)鍵因素挖掘與成績預(yù)測[J].南京信息工程大學(xué)學(xué)報:自然科學(xué)版, 2019,11(3):316-325.

[4] 馬玉玲.基于機器學(xué)習(xí)的高校學(xué)生成績預(yù)測方法研究[D].濟南:山東大學(xué),2020.

[5] Arthur E Poropat. A meta-analysis of the five-factor model of personality and academic performance[J]. Psychological Bulletin, 2009, 135(2): 322.

[6] Leah P. Macfadyen,Shane Dawson. Mining lms data to develop an early warning system for educators: A proof of concept[J]. Computers & Education, 2010, 52(2):588-599.

[7] Zhiyun Ren,Huzefa Rangwala,Aditya Johri, Predicting performance on mooc assessments using multi-regression models[C].//In Proceedings of the 9th International Conference on Educatinal Data Mining, 2016.

[8] 蔣卓軒,張巖,李曉明. 基于mooc數(shù)據(jù)的學(xué)習(xí)行為分析與預(yù)測[J].計算機研究與發(fā)展,2015,52(3):614-628.

[9] Shaobo Huang,Ning Fang. Predicting student academic performance in an engineering dynamics course :A comparison fo four types of predictive mathematical models[J]. Computers &Education, 2013,61(1):133-145.

主站蜘蛛池模板: 亚洲高清在线天堂精品| 人妻丰满熟妇av五码区| 亚洲动漫h| 九九精品在线观看| a网站在线观看| 高清色本在线www| 亚洲欧美日本国产专区一区| 天天综合网站| 中文字幕久久亚洲一区| 综合色婷婷| 国产一在线| 国产综合另类小说色区色噜噜| 99久久亚洲精品影院| 日本亚洲国产一区二区三区| 亚洲成人精品| 国产视频你懂得| 日韩无码黄色网站| 国产又黄又硬又粗| 亚洲欧美精品一中文字幕| 青草视频免费在线观看| 亚洲有无码中文网| 一本大道无码日韩精品影视 | 色综合手机在线| 亚洲综合色区在线播放2019| 亚洲天堂网在线播放| 国产永久在线视频| 欧美色图第一页| 成年网址网站在线观看| 青草精品视频| 美女被操黄色视频网站| 国产亚洲美日韩AV中文字幕无码成人 | 国产美女主播一级成人毛片| 亚洲三级成人| 色综合久久综合网| 国产拍揄自揄精品视频网站| 久久国产精品麻豆系列| 国产国拍精品视频免费看| 国产日本欧美亚洲精品视| 一本无码在线观看| 四虎永久在线视频| 国产精品一区在线麻豆| 欧美特级AAAAAA视频免费观看| 无码精品国产dvd在线观看9久| 一边摸一边做爽的视频17国产| 国产国语一级毛片在线视频| 欧美精品一二三区| 伊人蕉久影院| 全部毛片免费看| 日韩精品免费在线视频| 国产真实乱子伦视频播放| 国产激情第一页| 亚洲天堂成人| 国产欧美在线视频免费| 国产丝袜无码精品| 婷婷亚洲视频| 欧美一级片在线| 99精品在线看| 尤物午夜福利视频| 99热这里只有成人精品国产| 五月婷婷激情四射| 国产精品视频观看裸模| 色丁丁毛片在线观看| 日韩少妇激情一区二区| 在线观看免费国产| 四虎影视8848永久精品| 永久成人无码激情视频免费| 亚洲高清中文字幕| 久久精品日日躁夜夜躁欧美| 美女被操黄色视频网站| 激情六月丁香婷婷四房播| 久草青青在线视频| 91福利免费视频| 91色爱欧美精品www| 精品1区2区3区| 亚洲国产成熟视频在线多多| 丁香婷婷激情网| 久久99热这里只有精品免费看 | 国产剧情国内精品原创| 国产靠逼视频| 99视频有精品视频免费观看| 亚洲精品无码抽插日韩| 在线永久免费观看的毛片|