999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于隨機森林算法的學生成績預測的實現

2024-07-01 00:00:00錢濤
科技資訊 2024年8期
關鍵詞:數據挖掘

摘""要:教育數據挖掘是數據挖掘中的重要領域之一,其中成績預測是研究的重點內容,

成績數據是學生學習行為的重要反映。基于數據挖掘技術,通過采集學生的基本信息、圖書借閱、消費行為、門禁數據等各類數據,挖掘行為特征與學習成績之間的關聯性,構建基于學生行為數據的成績預測模型。以達到對學生異常情況的早期預警,優化教學實施過程,以促進學校對不同類群學生培養、引導和管理工作。

關鍵詞:隨機森林"成績預測"R語言"數據挖掘

中圖分類號:G434;TP18

Realization"of"Student"Grade"Prediction"Based"on"the"Random"Forest"Algorithm

QIAN"Tao

(Zhejiang"Agricultural"Business"College,Shaoxing,Zhejiang"Province,312088"China)

Abstract:"Educational"data"mining"is"one"of"the"important"fields"in"data"mining,"and"grade"prediction"is"its"key"research"content."Grade"data"is"an"important"reflection"of"students'"learning"behavior."Based"on"data"mining"technology,"this"paper"explores"the"correlation"between"behavioral"characteristics"and"academic"performancenbsp;by"collecting"various"data"such"as"students'"basic"information,"book"borrowing,"consumption"behavior"and"access"control"data,"and"builds"a"grade"prediction"model"based"on"student"behavior"data,"in"order"to"achieve"the"early"warning"of"the"abnormal"situation"of"students,"optimize"the"teaching"implementation"process,"and"promote"the"training,"guidance"and"management"of"different"groups"of"students.

Key"Words:"Random"forest;"Grade"prediction;"R"language;"Data"mining

數據挖掘在教育領域的應用已經成為一種趨勢,取得了廣泛的關注和應用。高校管理人員通過收集學生的學習數據和行為數據,結合大數據分析技術,能夠對學生的學習情況進行深度分析和挖掘。

在教育大數據挖掘領域中成績預測是研究的重點內容,成績數據是學生學習行為的重要反映。羅楊洋等人[1]針對混合學習場景,基于學生認知水平、先前知識水平和在線行為等數據,建立多元回歸預測模型,開展預測結果指導下的學習干預,以提升在云環境下的學習效果。張莉等人[2]構建模型應用到高考預測,支持向量機分類來預測高考的錄取批次,以回歸分析來預測高考特征分,并成功進行混合預測。沈江等人[3]提出了基于Adaboost方法的學生學習軌跡方法分析,引入了損益函數來表示預測誤差率帶來的影響,并根據預測的結果生成學生學習軌跡。王娜等人[4]、謝軍飛等人[5]、張文奇等人[6]分別采用基于Lightgbm、XGBoost、向量機等機器學習算法實現成績預測和學情預警功能。

1隨機森林算法

在數據挖掘的預測模型中往往包括分類和回歸任務,隨機森林算法能有效地處理上述兩類問題。本文將學生成績預測問題劃歸為一種多分類問題,相較于單一的決策樹,隨機森林算法在一定程度上可以能夠降低單一決策樹的方差,提高模型的穩定性和泛化能力。隨機森林算法步驟如下。

(1)自助采樣:從原始訓練數據集中進行有放回的隨機抽樣,生成多個自助樣本集。 (2)構建決策樹:對于每個自助樣本集,使用決策樹算法(如CART、ID3等)構建一棵決策樹。

(3)特征值選擇:在構建決策樹的過程中,每個節點使用隨機選擇的特征子集進行分裂,而不是使用所有特征。通過這種篩選增加模型中可能存在的過擬合現象。

(4)集成預測:當所有決策樹構建完成后,對于新的輸入樣本,將其輸入到每棵決策樹中進行預測。每棵樹都會給出一個分類結果,隨機森林算法將這些結果進行集成。

2基于隨機森林算法構建成績預測模型

本文的研究對象是來自某高職院校財經類專業的三個班2021級105名學生,通過隨機森林算法將學生行為數據進行數據建模,預測學生學期末成績的等級。研究數據包括一卡通數據(消費、門禁情況)、圖書館數據(借閱、到館情況)、教務數據(生源、學業情況)。數據的收集時間從2022年2—6月(2021—2022學年第二學期)。

2.1"數據準備與預處理

所使用的學生數據都是來源于學校中相關業務系統的數據庫,其中一卡通系統使用SQL"Server,圖書、門禁、教務數據采用Oracle。經過對業務系統數據進行預處理后,選定為10項特征數據分別為X1:性別(0男,1女),X2:生源(1普高生,2三校生,3中高職一體),X3:英語四級通過(0否,1是),X4:月均圖書借閱量(數值),X5:月均入館頻次(數值),X6:晚歸情況(數值型),X7:月均消費值(數值),X8:月均早餐數(數值),X9:月均請假次數(數值),X10:上學期加權平均分(數值),X11:專業課加權均分(數值),選定GRADE為預測數據即當前學期成績專業均分等級:G(80-100),P(60-80),NP(60以下)。

2.2"預測的RF模型算法實現

2.2.1數據隨機抽樣

本實驗的編程語言是"R"語言,在"RStudio"環境下運行。數據預處理后整個數據集包含105個樣本和11個變量。將學生的考試等級(grade)視為響應變量,響應變量設置為因子變量,實驗中選取65%的樣本作為訓練集,剩余作為預測集,代碼如下所示。

2.2.2模型構建以及參數調整

通過R中randomForest包中randomForest函數從訓練集中有放回地隨機抽取76個樣本,在每棵樹的每個節點隨機抽取4個變量,從而生成了200棵經典決策樹,代碼如下所示。

模型中mtry參數控制每個決策樹在分裂節點時隨機選擇的特征數。一般推薦使用默認值模型中總特征值的平方根,故mtry參數設定為4。模型中ntree的設置會導致模型的穩定性和準確性變化,可以通過下圖所示,ntree與error之間的關系,在ntree設置到200時,模型中error值趨向穩定。

2.2.3模型訓練以及混淆矩陣

經過上述步驟已經實現成績預測模型cjyc_rf構造,接下來將在預測集中通過predict函數將cjyc_rf模型和testdata作為參數,生成testpredprob預測值,將testdata$GRADE作為參數通過confusionMatrix函數構建混淆矩陣以及生成ROC圖,ROC圖用于表示分類模型對成績預測的效果,代碼如圖4所示。

預測模型在訓練集和預測級中的預測分類結果如圖5和圖6所示,73個訓練樣本中68個樣本匹配,分別G(優秀):27,P(合格):32,NP(不合格):9,Accuracy為0.9315。在33個預測樣本中24個樣本匹配,分別G(優秀):9,P(合格):14,NP(不合格):1,Accuracy為0.7742,成績預測模型cjyc_rf在預測集展現出較好的預測效果,但由于本次實驗中樣本總數偏少,隨機森林本身就是容易過擬合的模型,存在一定的過擬合現象導致訓練集和預測集預測效果有一定的差距。

3.2.4特征屬性重要性排序

通過調用RondomForest包中"importances"函數,將cjyc_rf模型作為參數,輸出后得到11個特征屬性在此次預測模型中的預測的重要程度,MeanDecrease"Accuracy和MeanDecrease"Gini為隨機森林模型中的兩個重要指標,分別表示隨機森林預測準確性的降低程度以及每個變量對分類樹每個節點上觀測值的異質性的影響,值越大代表對應的特征屬性的重要性越大。在圖7中,X5(月均圖書借閱量),X6(晚歸情況),X8(月均早餐數),X10(上學期加權平均分),X11(專業課加權均分)五項特征值對預測的結果影響比較大。通過研究特征屬性對成績預測重要性的排名,可以明確學習過程有一定延續性,前一學期的學習成績對后一階段的學習有很大程度的影響,早餐消費次數、晚歸次數、月均入館頻次一定程度上反映學生的自律程度和學習自主性,但是像學生的生源、性別、圖書借閱次數等數據相對于其他動態數據而言影響的比重較小。

3結語

本文學生在校的行為數據中篩選出特征數據,構建預測模型進行學生成績預測,并對特征數據進行重要性排序。文中選取的隨機森林方法是一種樹型分類器的組合算法。它的優點在于能高效地處理大數據集,而且預測精度較高。數據在分析前不需要過多的預處理,不需要標準化或是歸一化,但本次實驗的樣本基數偏小,存在一定的過擬合現象。

參考文獻

[1] 羅楊洋,韓錫斌.基于增量學習算法的混合課程學生成績預測模型研究[J].電化教育研究,2021,42(7):83-90.

[2] "張莉,盧星凝,陸從林,等.支持向量機在高考成績預測分析中的應用[J].中國"""科學技術大學學報,2017,47(1):1-9.

[3] 沈江,陳璐琳,潘婷,等.新工科背景下基于數據挖掘的學習軌跡分析[J].天津大學學報(社會科學版),2023,25(6):499-506.

[4] 王娜,李勁松,潘子堯,等.基于支持向量機的學位預警方法研究[J].吉林大學學報(信息科學版),2023,41(5):903-907.

[5] 謝軍飛,張海清,李代偉,等.基于Lightgbm和XGBoost的優化深度森林算法[J].南京大學學報(自然科學),2023,59(5):833-840.

[6] 張文奇,王海瑞,朱貴富.基于因果推斷和多頭自注意力機制的學生成績預測[J].現代電子技術,2023,46(17):111-116.

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
主站蜘蛛池模板: 999国产精品永久免费视频精品久久 | 亚洲人成色在线观看| 性视频久久| 精品国产免费观看| 99久久精品视香蕉蕉| 久久99国产综合精品女同| 五月天综合婷婷| 在线播放真实国产乱子伦| 看av免费毛片手机播放| 亚洲中久无码永久在线观看软件 | 91午夜福利在线观看| 久久综合九九亚洲一区| 亚洲国产日韩在线观看| 国产一级在线观看www色| 中文成人无码国产亚洲| 欧美三级自拍| 久久综合五月婷婷| 国产精品无码一二三视频| 日韩免费毛片| 亚洲婷婷六月| 最新国产精品第1页| 亚洲天堂伊人| 中文毛片无遮挡播放免费| 老司机午夜精品网站在线观看| 国产精品成人观看视频国产 | 亚洲精品无码专区在线观看| 久久中文无码精品| 中文无码精品A∨在线观看不卡| 毛片网站在线看| 久久96热在精品国产高清| 亚洲精品国产综合99| 亚洲人成在线精品| 国产网站免费观看| 男女性色大片免费网站| 亚洲精品少妇熟女| 国产精品第三页在线看| 国产精品免费久久久久影院无码| 亚洲无线观看| 91热爆在线| 亚洲日韩精品无码专区97| 欧美日韩一区二区在线播放| 2020国产精品视频| 免费人成在线观看视频色| 国产成人av大片在线播放| 亚洲一本大道在线| 色婷婷成人网| 国产精品.com| 91久久精品国产| 天天色天天综合| 四虎影视国产精品| 日韩精品久久久久久久电影蜜臀| 成人精品视频一区二区在线 | 亚洲AⅤ综合在线欧美一区| 亚洲天堂精品在线| 国产自在线拍| 亚洲精品在线观看91| 91精品国产一区| 亚洲 欧美 日韩综合一区| 成年免费在线观看| 手机在线看片不卡中文字幕| 成人中文在线| 99精品免费在线| 国产一级妓女av网站| 精品偷拍一区二区| 国产成人啪视频一区二区三区| 免费久久一级欧美特大黄| 日本不卡免费高清视频| 日本午夜网站| 精品无码一区二区三区电影| 青青草国产一区二区三区| 久久精品娱乐亚洲领先| 国产波多野结衣中文在线播放| 国产精品真实对白精彩久久| 亚洲三级成人| 一级香蕉视频在线观看| 精品久久久久久久久久久| 欧美日韩91| 91成人在线观看| 亚洲精品无码久久久久苍井空| 日韩欧美国产区| 精品国产乱码久久久久久一区二区 | 国产视频自拍一区|