999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數據挖掘和RandomForest算法的助學金分類研究

2019-12-25 01:50:16王雨萌武小軍羅雅晨
中國市場 2019年3期
關鍵詞:數據挖掘分類模型

王雨萌,武小軍,羅雅晨

(同濟大學,上海 201804)

1 引 言

高校提供助學金資助貧困學生完成學業是實現教育公平的重要手段。但是目前助學金的資助體系存在諸多問題,其中主要的一項是貧困生的認定缺乏可操作性。由于高校無法獲取學生的真實家庭情況,目前的貧困生認定主要依賴貧困證明,貧困生申請書以及班級民主測評等證明文件。而有些學生通過開虛假貧困證明,夸大家庭貧困程度或學生之間拉選票等方式得到助學金名額,使得部分真正的貧困學生無法得到資助。[1]而大數據的高速發展,使得傳統領域更多的融入了互聯網思維,為越來越多的現實難以解決的問題提供了新的思路。由于各高校的學生信息系統的建立與完善,學生校園一卡通具有該學生的消費信息、學習情況、學習興趣和生活習慣等數據,該數據難以造假,同時高校擁有學生的一卡通數據權限,這些都為準確判定學生是否為貧困學生提供了良好的基礎。文章采用大數據挖掘方法,對學生的各項指標進行知識發現,對學生是否為貧困學生進行分類判定。從而為完善學生的助學金評價提供科學的決策,實現學生助學金的精準資助。

2 文獻綜述

DUCATIONAL數據挖掘是數據挖掘技術在教育數據中的應用[2],其目的是解決教育研究問題。隨著大數據挖掘的教育數據的增長,如何選取合適的方法對海量數據進行分析是當前的挑戰。如今數據挖掘技術與機器學習算法已經應用于分析高校平臺系統數據:Y Qian[3]等人基于校園卡平臺數據,分別運用K-Means和時間序列算法,分析和預測學生的行為和食堂的現狀,從而改進高校管理。數據挖掘技術與機器學習算法還可以用于判定給予貧困補貼:Utomo[4]等通過比較五種數據挖掘分類算法在印度尼西亞學生教育成本分類應用上的結果,優化政府對高等教育的補貼。通過數據挖掘和機器學習的算法判斷出應享有的補貼,能夠實現資源的有效利用,克服了主觀傳統方法的低效。此外,數據挖掘技術與機器學習算法可以通過高校校園卡數據進行貧困學生認定。Fang、Yongsheng[5]等采用基于校園卡系統消費數據的數據挖掘技術對學生貧困程度進行聚類分析,從而建立一套科學的貧困生決策資助系統。唐穎[6]等采取關聯規則和支持向量機算法,對學生的日常消費和特殊消費進行數據挖掘,從而發現貧困生的動態生活消費水平,為貧困生評定工作提供輔助依據。Ma、Hong wei[7]等建立基于學校一卡通系統數據的C4.5決策樹模型,結合K-Means算法,幫助學校發現貧困學生,為學校管理決策提供建議。

不過,將數據挖掘和機器學習算法應用到校園一卡通系統的方法,主要是基于學生的消費情況進行分析,未綜合考慮學習情況,成績排名,學習興趣,生活習慣等多維度指標;在方法上,主要是采用簡單的機器學習單模型方法,未考慮采用集成的算法以及多種分類方法進行對比。因此文章根據我國高校現狀,采用多維度分析,比較多種機器學習算法,選擇最優模型,從而得出數據挖掘及機器學習算法(RF)在助學金判定上具有可行性,有重大的研究價值。

3 實驗過程

3.1 數據處理及模型訓練

文章所有數據來源于數據城堡某高校一卡通兩年的脫敏數據集。數據集包含消費行為數據、圖書館門禁數據、寢室門禁數據、助學金分類數據、學生成績排名數據以及圖書館借閱數據等測試集和訓練集分別6個,共計12個文本數據集(見表1)。由于test數據集沒有分類標簽,而實際的分類標簽又未知,不能進行數據測試集的擬合優度和泛化能力的測量,所以助學金模型的數據完全基于訓練集的數據,同時采用交叉驗證進行模型訓練。預留30%的數據用于測試。

表1 數據集的規模和含義

續表

在輸入模型進行訓練之前,首先對各個數據集合分別進行數據預處理。主要包括構建新特征以及填充空值,去除重復數據等。另外,由于數據不同特征的量級存在較大差異,為避免模型訓練過程中由于數據規模差異造成分類不準確,對數據進行Z分數標準化,使數據變為服從標準正態分布的數據。合并清洗后的數據集共有10885個樣本,511個特征(包括學生ID和助學金等級),其中分類為0的樣本有9325個,分類為1000的樣本有741個,分類為1500的樣本有465個,分類為2000的樣本有354個(如表2)。樣本分類不平衡。為避免對模型訓練造成嚴重偏差,對樣本數據進行SMOTE[8]采樣,既保留了數據主要的特征,又有效地避免模型過擬合。采樣后的數據共有26060個樣本,每類樣本均為6515個。再對數據采用特征工程[9]技術篩選出對助學金分類模型重要的30個特征。文章采用Sklearn包中的ExtraTreesClassifier算法,這是一種基于樹的預測模型,能夠用來計算特征的重要程度,因此能用來去除不相關的特征。

表2 樣本分類分布

3.2 模型訓練結果

對進行特征工程后的數據,分別采用單機器學習算法[10]:邏輯回歸、決策樹、人工神經網絡、貝葉斯、支持向量機,集成模型算法[11]:adaboost,GDBT,bagging,Randomforest,以及模型融合的stacking[12]方法進行訓練。實驗采用MacroF1值,AUC值和用時作為模型評價標準。MacroF1綜合考慮模型的預測結果的正確率(Precision)和召回率(Recall),時間來評估模型的復雜度。由于隨機森林(RandomForest)的結果已經很優,且網格調參算法很耗時,所以在進行調參時,僅對GDBT算法進行調參以比較調參前后結果。

分析結果可知(如表3)。

(1)在單模型中,邏輯回歸和樸素貝葉斯的分類結果不是很好。因為無法保證特征之間是相互獨立的,衍生特征之間很可能存在多種相關,所以樸素貝葉斯的結果很差,而邏輯回歸容易欠擬合,分類精度不高。實驗表明決策樹模型簡單,且在該數據集上表現良好。同時在模型復雜度上,決策樹也最為簡單。

(2)集成算法中,boosting算法中,GDBT算法表現優于Adaboost,bagging算法表現都優于boosting算法。因為隨機森林(RandomForest)的抗干擾性能較強,表現最為優越,且用時最短。而模型融合的方法Stacking算法的表現結果優于各個基學習器,但是并沒有顯著提高,且耗時最久。因為基學習其分類結果差則復合后的結果也會表現得不是很好。

(3)通過網格搜索算法和手動進行調參,優化GDBT模型的參數,模型的性能得到較大幅度的提升,性能得以優化,但是耗時較久。

表3 各模型結果展示

續表

4 結 論

在大數據挖掘技術和機器學習算法的日益快速發展的背景下,以及高校對于獎助學金的評價提供新的探索方式的基礎上,文章基于高校大學生一卡通消費行為信息的脫敏數據,利用數據挖掘和機器學習的技術,針對性地提出了基于RandomForest算法的分類模型。實驗過程涉及對數據進行預處理,特征工程,平衡分類樣本(SMOTE采樣),比較單模型和混合模型的分類算法的泛化性能,并進行網格搜索算法調節參數進一步提高模型的性能這5個主要的數據挖掘的過程。綜合結果表明,基于RandomForest算法的模型的效果比更優分類預測的泛化性更好,更能夠有效剔除虛假的助學金申請者,保證助學金給最需要的學生。

猜你喜歡
數據挖掘分類模型
一半模型
分類算一算
探討人工智能與數據挖掘發展趨勢
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
3D打印中的模型分割與打包
主站蜘蛛池模板: 亚洲三级色| 国产精品jizz在线观看软件| 亚洲国产精品日韩欧美一区| 三上悠亚一区二区| 99国产在线视频| 久久久久国产一级毛片高清板| 一级片一区| 国产精品久久自在自线观看| 波多野结衣在线se| 国产精品制服| 久久a级片| 国产精品久久久久婷婷五月| 成人欧美日韩| 国产精品久久久久久久伊一| 日韩在线欧美在线| 亚洲综合香蕉| 久夜色精品国产噜噜| 无码啪啪精品天堂浪潮av| 久久精品欧美一区二区| 天天综合亚洲| 欧美精品1区2区| 日本久久久久久免费网络| 亚洲女同一区二区| 成人字幕网视频在线观看| 麻豆AV网站免费进入| 最新亚洲人成网站在线观看| 999福利激情视频| 67194亚洲无码| 国产大片黄在线观看| 亚洲日韩精品无码专区97| 永久天堂网Av| 丁香六月综合网| 91探花在线观看国产最新| 国产男女免费完整版视频| 欲色天天综合网| 91视频99| 亚洲无码熟妇人妻AV在线| 国产精品视频系列专区| 特级精品毛片免费观看| 激情六月丁香婷婷四房播| 色婷婷在线播放| 日韩精品少妇无码受不了| 日本一本在线视频| 久久中文电影| 欧美精品导航| 国模粉嫩小泬视频在线观看| 久久亚洲美女精品国产精品| 亚洲a级毛片| 国产9191精品免费观看| 99精品影院| 久久国产精品嫖妓| 蜜桃视频一区二区| 亚洲国产欧美目韩成人综合| 一区二区日韩国产精久久| 国产成人无码久久久久毛片| 国产欧美日韩免费| 精品免费在线视频| 永久免费无码成人网站| 亚洲无线国产观看| 三上悠亚一区二区| 欧洲在线免费视频| 好吊色国产欧美日韩免费观看| 亚洲日本韩在线观看| 91成人精品视频| 亚洲欧美成人在线视频 | 国产精品一线天| 国产一区二区视频在线| 久久国产精品娇妻素人| 国内精品视频| 黄色一级视频欧美| 午夜性刺激在线观看免费| 中文字幕永久在线观看| 女人毛片a级大学毛片免费| 国产AV无码专区亚洲A∨毛片| 亚洲三级成人| 中文天堂在线视频| 成人日韩欧美| 真人免费一级毛片一区二区| 国产精品亚洲片在线va| 美女无遮挡免费网站| 欧美日韩91| 免费无码又爽又刺激高|