999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據挖掘的分類算法應用
——以XGBoost為例

2022-12-21 07:41:36
無線互聯科技 2022年19期
關鍵詞:分類特征心理

田 威

(常德職業技術學院,湖南 常德 415000)

0 引言

近年來,大量研究資料表明,高校“00后”中有相當一部分人存在心理問題,且數量逐年上升,關注、解決高校學生存在的這種問題刻不容緩。據統計,獨生子女、留守兒童經歷、家長對子女的教育等因素都會對學生的心理健康產生很大的影響。常德職業技術學院對學生的心理普查非常重視,對于有問題的學生會積極予以干預輔導和教育。但是當前學院對學生的心理普測仍然采用傳統的問卷調查方法,即通過組織全院學生填寫SCL-90量表,篩查結果往往不盡人意。原因如下:(1)篩查結果不準確,學生在填寫問卷答題時,刻意隱瞞、隨意亂填或者當時環境因素不好都會造成調查結果出現較大的偏差,而且問卷答題只能收集某一時刻學生的心理狀態,缺乏時效性。(2)心理問題是一個相對動態的過程,對有潛在心理問題的學生沒有辦法進行及時輔導。(3)老師需要組織全院學生,且要保證學生在一個相對比較理想不受外界干擾的環境中填寫,成本比較大[1]。

為了解決上述問題,本文從大數據和數據挖掘的角度,使用XGBoost分類算法,設計了學生心理健康問題預測應用,應用對比調查問卷具有高準確率、低成本等優點,能識別出有潛在心理問題的學生,還能夠根據學生的特征數據變化不斷自適應優化,保證高準確率。

1 XGBoost算法原理

XGBoost算法采用了集成思想,將多個弱分類器逐步迭代,集成組合在一起形成一個強分類器,是梯度提升決策樹(GBDT)的一種高效實現。相對于GBDT,XGBoost具有能并行學習的優點,快速實現迭代運算。同時,算法也設置了懲罰因子來防止過擬合,具體算法步驟如下。

優化目標函數:l(yi,yi')=(yi-yi')2

每棵決策樹逐步迭代,形成一個強分類器。

決策樹如果葉子節點太多,會增加過擬合的風險,通常目標函數還需加入正則項Ω(ft)來對決策樹進行剪枝。

式中,γ為正則化強度;T為葉子節點個數;w為葉子節點權重。

加入正則化項后要優化的完整目標函數為

分別記gi,hi為l的一階和二階導數

最終求出目標函數最優解為

根據上式,作為樹分裂結構的分數,分數越高,則樹的結構越優異,最終獲得最優的樹結構。算法的停止取決于預設的樹深度或者分裂后的結果值小于某個閾值[2]。

2 模型實現

2.1 模型訓練

高職院校往往由于傳統業務系統存在信息孤島問題,管理人員僅僅只能看到學生的一維數據,如通過教務系統,管理人員只能查看到學生的學籍、學分、掛科、處分、考生評價等信息,無法獲取學生綜合管理系統、一卡通消費、上網行為、社交評論等信息數據。本文基于學校搭建的數據中臺,在數據高度共享的前提下構造數據集,采用XGBoost分類算法實現對學生的自動分類。模型訓練基本實現流程如圖1所示。

圖1 模型訓練流程

2.2 數據準備

通過數據中心,獲取了教務系統、學生綜合管理系統、一卡通平臺、網絡行為管理日志、微信企業號等多個業務系統中學生的多維度信息數據,并對其中某些字段缺失的數據、文本類型數據和異常數據進行預處理,通過特征轉換,最終構造學生個人畫像特征[3]。學院健康教育中心按照心理問題嚴重程度,統計出一級問題學生831人、二級問題1 105人、三級問題1 487人、心理狀況良好人數11 056人,將以上數據作為模型樣本。

2.3 模型實現

本文基于XGBoost的python實現。將一級、二級、三級、良好的學生分別標識為A,B,C,D。通過數據中臺抽取學生特征并進行特征轉化。

學生學籍特征:性別、專業、民族、所屬省份、生源地區、戶籍性質、家庭經濟情況等,這些特征均屬于離散類特征,對這類特征進行one-hot編碼,如性別特征轉化如表1所示。

表1 性別特征轉化

其他特征則類似編碼。

學生教務特征:成績、處分次數、是否惡意評價教學等。對于成績特征,以優、良、不及格來取值,然后將各科成績按照取值次數進行匯聚計算,學生教務特征具體如表2所示。

表2 學生教務特征

處分次數屬于連續性特征,以正常數值表示即可,是否惡意評價則按照上述離散類特征處理。

學生事務特征:學生請假、學生個人操行分、宿舍缺勤、班級排名等。

學生一卡通特征:圖書借閱、消費情況等。

上網行為特征:學生上網時長、App使用類型等。

最終,特征轉換編碼規則為:對于無序離散類特征采用one-hot編碼,對于有序離散類特征通過數值大小作為標識,再進行歸一化,對于連續性特征,進行歸一化。

隨機將數據集按照7∶3分為訓練集和測試集,模型評價指標采用多分類F1-score,通過交叉驗證選取模型參數如表3所示。

表3 模型超參數選擇

2.4 模型結果分析

通過XGBoost算法模型在測試集進行測試,結果如表4所示,從表中可以看出模型對心理健康狀況良好和存在一級問題的學生預測準確率分別為98.00%和96.78%,對二級問題的學生預測準確率相對較低。模型總體識別的準確率遠遠優于SCL-90量表調查問卷的結果。通過分析結果,對模型識別的特征重要性進行排序,如圖2所示。其中,是否有留守經歷、是否單親家庭、成績的特征重要性所占權重最大。同時,可以通過模型計算出學生屬于各分類的概率,將概率接近分類閾值的學生劃分為該類下有潛在心理疾病風險的學生,讓心理輔導老師對學生提前進行干預輔導[4-5]。

表4 測試集識別準確率

圖2 特征重要性排序

3 結語

本文通過運用數據中心,打通了各業務系統信息孤島,獲取了學生在各個業務系統多維度數據,采用XGBoost算法從分類的角度,設計了預測模型,相對于采用SCL-90量表的測評,能高效識別出有心理問題的學生,極大地降低了學校管理的成本,并且模型數據具有一定的可解釋性,心理老師也可以根據數據為學生進行個性化干預輔導。但是模型對二級問題的預測還存在比較大的誤報率,后續還應該多分析數據,挖掘學生有效特征,提升模型的準確率。

猜你喜歡
分類特征心理
看見具體的自己
光明少年(2024年5期)2024-05-31 10:25:59
心理“感冒”怎樣早早設防?
當代陜西(2022年4期)2022-04-19 12:08:54
分類算一算
心理感受
娃娃畫報(2019年11期)2019-12-20 08:39:45
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
主站蜘蛛池模板: 免费久久一级欧美特大黄| 欧美在线免费| 91麻豆精品国产91久久久久| 国产毛片不卡| 久久96热在精品国产高清| 国产在线麻豆波多野结衣| 亚洲一级毛片在线观播放| 国产精品人人做人人爽人人添| 69视频国产| 自拍偷拍欧美| 色婷婷亚洲十月十月色天| 国产免费看久久久| 国产欧美日韩91| 久久国产亚洲偷自| 国产精品手机视频一区二区| 无码aaa视频| 成人伊人色一区二区三区| 国产精选小视频在线观看| 欧美成人免费午夜全| 亚洲天堂首页| 国产你懂得| 国产第八页| a级免费视频| 中文字幕无码制服中字| 国产又爽又黄无遮挡免费观看| 亚洲日韩国产精品无码专区| 日韩欧美综合在线制服| 国产女人在线| 天堂在线视频精品| 免费国产好深啊好涨好硬视频| 91成人在线免费视频| 激情乱人伦| 国产福利免费视频| 欧美激情视频在线观看一区| 日韩黄色精品| 五月天久久综合| 日本午夜影院| 中文字幕第1页在线播| 亚洲色婷婷一区二区| 久久综合亚洲色一区二区三区| 国产精品成人免费视频99| 91精品福利自产拍在线观看| 亚洲一级毛片免费观看| 亚洲国产亚洲综合在线尤物| 欧美日韩中文字幕二区三区| 国产在线视频二区| 真实国产精品vr专区| 国产一区二区三区夜色| 国产精品爽爽va在线无码观看| 日韩一区二区三免费高清| 成人国产免费| 国产麻豆va精品视频| 国产亚洲精| 人妻无码一区二区视频| 国产h视频在线观看视频| 欧美日韩国产在线人成app| 成年人国产网站| 欧美成人一级| 91亚瑟视频| 99久久精品免费观看国产| 亚洲AV成人一区国产精品| 亚洲三级a| 亚洲中文字幕无码爆乳| 国产清纯在线一区二区WWW| 久久精品一品道久久精品| 欧美中文字幕在线视频| 人妻夜夜爽天天爽| 一本久道久综合久久鬼色| 亚洲侵犯无码网址在线观看| 青青青国产免费线在| 亚洲一级毛片| 日本在线国产| 97精品伊人久久大香线蕉| 成年网址网站在线观看| 亚洲 欧美 日韩综合一区| 日韩精品视频久久| 欧美不卡在线视频| 欧美黄网在线| 国产电话自拍伊人| 国产激情国语对白普通话| 999国产精品永久免费视频精品久久| 九九热精品在线视频|