999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數據挖掘算法的本科生學習質量分析

2022-07-26 09:31:34高雅奇穆軍妮劉培昌
微型電腦應用 2022年6期
關鍵詞:本科生分類特征

高雅奇, 穆軍妮, 劉培昌

(北京第二外國語學院,網絡與信息中心(圖書館), 北京 100024)

0 引言

高等教育大眾化情境下,全面提升教育質量,改進本科教育教學成為國際高等教育界的共識,各高校將重視本科教學、提高人才培養質量放在高校發展重中之重的地位[1]。隨著中國高等教育的內涵式發展,學生學習的質量成為一流本科教育的關鍵指向[2]。《教育部關于全面提高高等教育質量的若干意見》《統籌推進世界“雙一流”建設總體方案[2015]64號》《國家中長期教育改革和發展規劃綱要(2010—2020年)》等相關政策文件都肯定了“質量為重”的中心思想。基于教育質量評價的內部增值觀也體現了教育質量提升的結果[3]。本科生教育階段是高等教育的主要階段,本科生學習質量的高低是考評高校辦學質量的核心要素[4]。然而,隨著高等教育的大眾化,學生的學習質量因各種因素無法得到保障。因此,如何獲取影響學生學習質量的關鍵因素,進而提高學生的學習質量是研究的主要目的。

1 研究設計

參考國內大部分高校通用的績點成績計算方法對本次研究進行設計:某一課程的績點成績=課程分數/10-5;學分績點成績=學分×績點即學分×(課程分數/10-5)(90分以上按90分計算);學生在校期間總的績點成績=該生所修全部科目的學分績點成績之和/該生所修全部科目的學分之和。根據學生績點成績生成該生學習質量(以XXZL命名)字段值,名次在同年級同專業前20%及以內的學生學習質量設為1等, 名次在20%~40%的學生學習質量設為2等,以此類推,名次在后20%的學生學習質量為5等,并將最后一等設定為預警等級。

本次研究抽取本科生在校期間與研究主題相關的基礎數據,構建影響學生學習質量分類模型,并對模型加以訓練。以訓練好的模型對本科生的學習質量進行預測,實現對預警等級學生的反饋,從而有效促進學生管理工作開展、為學校改進本科教育教學和提高學生質量提供可行性的支撐。

2 數據獲取及預處理

2.1 數據獲取

與本科生學習相關的數據主要涉及學生基本信息、學籍信息、校園行為等數據。學生學習質量建模時需要從北京某高校的一卡通系統、教務系統、財產系統、圖書館自動化系統、門禁系統、校園網計費系統中抽取如下信息:學號、國籍、地區、民族、性別、所在年級、所在院系、所在專業、學科門類、學生類別、培養層次、學制、是否學分制、校園日均消費、年均消費天數、年上網時長、年圖書外借冊數、年自習室刷卡次數。抽取的時間段設定為2013年1月至2019年12月。研究共收集到9 744位本科生在校期間的數據。

2.2 數據預處理

1)數據清洗

數據清洗的主要目的是從業務以及模型的相關需要方面考慮,篩選出需要的數據。原始數據集中53條數據的績點成績為空,為了便于模型分析,對其進行過濾處理。因此,研究的樣本量最終確定為9 691位學生數據。

2)缺失值處理

原始數據集存在數據缺失的情況,若將有缺失值的記錄刪除,會影響樣本的數據量。為達到較好的建模效果,采用取代法對缺失值進行插補。對于數值型的數據,如日均消費、年均消費天數等,采用其他記錄的均值插補缺失值;對于字符型的數據,采用以其他記錄中出現次數最多的值代替缺失值。

3)數據變換

在構建模型前,需要將原始數據集中的數據轉換成適合挖掘任務及算法需要的格式。采用的數據變換方式如下。

(1)數據規約。將分類變量轉換為字符型并定義代碼含義,如性別變量,以“0”代表女性、“1”代表男性。各變量指標及含義見表1。

表1 本科生學習質量影響因素及含義

3 模型建立

3.1 數據劃分

對數據樣本采用隨機抽樣的方法抽取80%作為訓練樣本,用于模型訓練;余下的20%作為測試樣本,用于模型結果檢驗。訓練數據集包含7 752條數據,測試數據集包含1 939條數據,可通過對訓練集和測試集數值型變量的分布情況對比驗證訓練集與測試集的劃分是否合理,具體描述性分析如表2所示。數值型變量包含上網時長、借書數量、消費天數、入館天數、日均消費。

表2 訓練樣本描述性統計

由上述對比可知,訓練集數據與測試集數據的數據分布較一致,劃分相對合理,根據訓練集生成的模型可以用測試集數據對其進行性能評估。

3.2 算法選擇

在研究中選擇3種算法進行比較,即決策樹算法、隨機森林算法和Boosting算法。采用R語言中各算法的默認參數構建模型,并對三者的擬合結果進行對比,確定研究最終選取的算法。

(1)驗證方法

交叉驗證法是驗證機器學習算法模型效果的常用測試方法。采用最常用的10折交叉驗證法,即將初始采樣分成10個互斥的子樣本,以1個子樣本作為模型的測試數據,另外9個樣本作為訓練數據。共進行10次訓練和測試,以10次結果的均值作為對算法性能的最終估計。

(2)算法性能評估

表3 三種模型10折交叉驗證結果

由表3可知,隨機森林算法的R-squared均值高于決策樹及Boosting算法,其擬合效果最佳。因此,選用隨機森林算法對本科生學習質量影響因素進行研究。

3.3 特征篩選及貢獻度排序

在模型訓練過程中,為了構建簡化的、易于理解的模型,需要從全部特征中篩選相關性強的特征子集作為最優特征子集。特征篩選不僅可以縮短模型訓練時間,改善模型的通用性,還可以降低模型過擬合的風險[5]。

(1)特征篩選

常用的特征選擇方法包括正向選擇法、后退選擇法和逐步回歸法,研究采用正向選擇法選擇特征變量。得出本科生學習質量的隨機森林分類模型包含學科類別代碼、專業代碼、院系所號、所在年級、上網時長、借書數量、消費天數、入館天數、日均消費、國籍、性別、學制、地區碼等13個特征指標時擬合程度最好。

(2)特征貢獻度

篩選出特征集后,需要對其各項特征變量在模型中貢獻度機型進行評估,隨機森林模型的feature importance函數可評估各個特征變量在模型中的重要性,即以完整的模型性能減去某個特征后的模型性能標注特征對模型的貢獻度,計算出的各特征對模型的貢獻度如圖1所示,年借書數量對模型的貢獻度最高,入館天數、消費天數和性別特征對模型分類性能也非常重要。

圖1 隨機森林分類模型特征貢獻度

(3)特征驗證

為了驗證隨機森林分類模型篩選出的特征及排序是否合理,可將其與決策樹和Boosting模型的特征篩選情況進行對比。決策樹算法篩選出的特征包含9個,用feature importance函數進行排序,前6個特征與隨機森林模型的特征指標及順序相同,之后依次為所在年級、上網時長、院系所號特征。Boosting算法篩選出的分類模型包含11個特征指標,通過計算各特征的F-score值對特征的貢獻度進行排序:前5個與隨機森林模型的特征指標及順序相同,之后依次為上網時長、地區碼、所在年級、院系所號、學科分類碼、學生分類碼特征。可見在不同模型中的特征選取和排序情況比較類似,隨機森林模型的特征篩選和貢獻度是合理的。

3.4 模型參數調優

模型需要進行參數調優的主要原因在于訓練出的模型可能存在過擬合和欠擬合問題。過擬合,一般是指模型缺乏泛化能力;欠擬合,一般指訓練出的模型距離擬合曲線較遠,擬合度不高[6]。當模型的復雜度上升會使模型的性能增加,也會增加過擬合的風險;當模型的復雜度減小,又可能出現欠擬合情況。綜合以上情況,需要做好對構建模型的參數調優工作。隨機森林分類模型如果采用默認值容易發生過擬合現象,可對以下參數采取限制措施。

(1)對樹的深度做限制,防止樹的深度太深。樹的深度越小,計算量越小,模型的計算速度越快。為了找到最佳深度,可增加一個集合驗證集,當tree depth=9時,模型準確率趨于穩定并不會隨著tree depth的增加明顯提高,故選定tree depth=9。

(2)限制最小樣本數:當節點包含的節點過少時就停止分裂節點。隨機森林模型的默認最小樣本數為1,經實驗當minimun node size增大到2時,模型的指標狀態最優。

(3)森林中決策樹的數量限制,隨機森林模型的默認決策樹數量為1 000,實驗證明,當ntree=1 000時模型的錯誤率基本收斂,而再增加ntree的數量模型效果不會顯著提高,故選定ntree=1 000。

4 模型性能評估

以測試集對構建的森林分類模型進行評估。

4.1 準確率及精度評估

表4 隨機森林分類模型混淆矩陣

4.2 ROC曲線評估

ROC曲線顯示分類模型在所有分類閾值下的效果。ROC空間將假正例率FPR定義為X軸,真正例率TPR定義為Y軸。橫坐標為用曲線下面積AUC表示ROC曲線下的面積,AUC的值介于0和1之間,AUC值越大代表分類模型的性能越好[18]。為驗證特征篩選是否提高了分類模型的性能,可將經特征篩選與未經特征篩選的隨機森林分類模型進行對比,其ROC曲線如圖2所示。圖2(a)為未經特征篩選的ROC驗證曲線,平均AUC值為86.12%;圖2(b)為經特征篩選后的ROC驗證曲線,平均AUC值為89.76%。經過特征篩選后,隨機森林模型的驗證性能提升了4.22%。

(a) 未經特征篩選

(b) 經特征篩選圖2 隨機森林模型驗證ROC曲線

4.3 小結與建議

從測試集的1 939條數據中隨機抽取100條數據,展示模型的預測效果。以虛線代表學習質量的真實值,實線代表學習質量的預測值,結果如圖3所示。

圖3 模型預測對比圖

由圖3可以觀察到模型的預測準確率較高,模型的預測準確率達到79.11%。模型本身具有較好的準確度和穩定性,可為改進高校教學管理和提高學生學習質量提供參考依據。

(1)高校應著力于學校學習環境的改善[7],盡可能地為學生營造良好的學習氛圍,多種途徑多種方式引導和鼓勵學生增加閱讀量和自主學習的時間和能力。

(2)地域因素、家庭因素及語言環境都是影響學生學習質量的重要因素,高校應關注不同學生的需要和個性差異,重點關注新疆、西藏等少數民族地區及海外留學生。

(3)性別差異也是影響學生學習質量的重要因素。高校應充分重視性別差異造成的成績分化現象,利用各種有效措施來改善這種局面, 提高學生學習成績和實際的運用能力。

(4)高校應建立良好的鼓勵機制,轉變教學方法、增強課堂氛圍,調動學生的學習熱情與激情。

(5)合理區間內,上網時間的增加不會影響學生的學習質量反而會促進作用,高校應適當引導學生正確使用網絡,指導學生更好地、更有效地使用各種學習資源。

5 總結

研究基于機器學習算法,以經過預處理的本科生在校期間的相關數據為樣本進行模型訓練,建立學習質量和影響因素之間的映射關系,并就各影響因素對學生學習質量的重要程度進行排序。實驗效果顯示,隨機森林算法的學習質量預測模型預測準確率接近80%。但在學習質量的影響特征因素選取方面還不全面,未來仍需繼續改進,進一步提升模型的分類性能。

猜你喜歡
本科生分類特征
分類算一算
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
中醫藥大學本科生流行病學教學改革初探
探索如何提高藥學本科生實習的質量
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 在线精品亚洲国产| 亚洲三级成人| 久久精品66| 都市激情亚洲综合久久| 欧美午夜在线播放| 19国产精品麻豆免费观看| 国产精品欧美日本韩免费一区二区三区不卡 | 深夜福利视频一区二区| 成人国内精品久久久久影院| 欧美精品三级在线| 亚洲无码高清视频在线观看 | 国产福利观看| 欧美综合中文字幕久久| 91免费观看视频| 久久99精品久久久大学生| 国产主播福利在线观看| 国产欧美视频在线| 欧美亚洲一区二区三区在线| 日本一区高清| 国产主播在线一区| 国产在线观看成人91| 亚洲无线一二三四区男男| 欧美人人干| 91精品国产91久无码网站| 欧美中文字幕一区| 天堂成人在线| 99视频在线精品免费观看6| 无码一区二区波多野结衣播放搜索| 亚洲av无码成人专区| 999精品在线视频| 日本91视频| 天天综合天天综合| 色综合激情网| 尤物国产在线| 国产99热| 国产中文一区二区苍井空| 国产系列在线| 国产香蕉在线| 国产最新无码专区在线| 亚洲天堂视频在线观看| 日韩AV无码一区| 亚洲第一色网站| 国产女人综合久久精品视| 国产精品第| 国产精品熟女亚洲AV麻豆| 色综合天天娱乐综合网| 国产成人AV大片大片在线播放 | 日韩麻豆小视频| 中文成人无码国产亚洲| 性色生活片在线观看| 国产区成人精品视频| 91综合色区亚洲熟妇p| 一级片免费网站| 成人午夜精品一级毛片| 国产内射一区亚洲| 午夜国产在线观看| 国产在线八区| 91久久精品国产| 九九久久99精品| 欧美日韩国产系列在线观看| 国产91视频免费| 国产区在线观看视频| 午夜精品国产自在| 亚瑟天堂久久一区二区影院| 尤物成AV人片在线观看| 国产成人区在线观看视频| 国产成人禁片在线观看| 国产欧美高清| 人妖无码第一页| 国产精品尤物在线| 亚洲二三区| 亚洲av色吊丝无码| 日韩一区二区三免费高清| 欧美无遮挡国产欧美另类| 久久这里只有精品23| 黄色网站不卡无码| 呦女亚洲一区精品| 欧美在线免费| 色AV色 综合网站| 国产欧美日韩专区发布| 亚洲综合极品香蕉久久网| 国产日韩丝袜一二三区|