摘"要:在人工智能時代,如何借助大數(shù)據(jù)開展思想政治教育工作成為當下研究熱點之一。健康的心理狀態(tài)是思想政治教育工作開展的必要條件,及時準確了解大學生心理健康狀態(tài)為思想政治教育工作提供有力保障。通過調(diào)查問卷獲取大學生心理健康狀態(tài)數(shù)據(jù),處理和優(yōu)化數(shù)據(jù),使用多種算法模型預測大學生心理健康狀態(tài),經(jīng)過評估得出XGBboost模型預測效果較好,使用貝葉斯對XGBboost模型調(diào)參優(yōu)化,提高預測準確性。
關鍵詞:數(shù)據(jù)挖掘;心理健康;思想政治教育
中圖分類號:G4"文獻標識碼:A""doi:10.19311/j.cnki.16723198.2024.13.079
0"前言
大學生心理健康問題一直備受關注,而思想政治教育又是我國高校教育的重要組成部分。在《全面加強和改進新時代學生心理健康工作專項行動計劃(2023—2025年)》中指出,“把心理健康工作擺在更加突出位置,將學生心理健康教育貫穿德育思政工作全過程”。將思想政治教育與心理健康緊密相連,良好的心理狀態(tài)是接受思想政治教育的內(nèi)在因素。在思想品德內(nèi)化過程中,主體的自我意識、情感、意志及性格等心理素質(zhì)是內(nèi)化重要的調(diào)控器。因此,將外在的要求變成大學生的思想品德和行為,也就是思想政治教育工作的開展受到個體心理發(fā)展的影響和制約,心理因素成為影響高校思想政治教育質(zhì)量的重要因素之一,及時了解大學生心理健康狀態(tài),有助于提高思想政治教育的高效性和科學性。
大學生心理健康與思想政治教育的協(xié)同發(fā)展是當前高校教育的重要任務之一。然而,目前對于二者之間的關系及其機制的研究還比較有限。一方面,未將心理健康狀態(tài)與思想政治教育工作有效結合,思想政治教育工作者通過調(diào)查問卷的方式獲取心理健康狀態(tài)信息,由于調(diào)查問卷呈現(xiàn)的數(shù)據(jù)缺少相關性,因此,無法全面、準確、及時反映每個學生的心理健康狀態(tài);另一方面,專業(yè)能力不強,思想政治教育工作者具備心理專業(yè)知識較少,無法及時了解到學生的心理健康狀態(tài),在開展思想政治教育工作時容易忽視大學生心理健康狀態(tài),對大學生面臨著焦慮癥、抑郁癥等心理問題沒有給予及時的關注。因此,本文借助數(shù)據(jù)挖掘技術,及時準確預測大學生心理健康狀態(tài),助力思想政治教育工作的開展。
關于對心理健康評估預測方面,不同學者采用不同方法分別對涉及心理健康多方面的問題進行研究,包括樣本的選擇、數(shù)據(jù)的處理、模型的對比分析,主要區(qū)別是數(shù)據(jù)的采集方式不同。第一種是基于用戶網(wǎng)絡數(shù)據(jù),如李靜等人使用特征工程和深度學習模型分析了社會網(wǎng)絡用戶心理自動評估方法的特點;劉德喜等人采用平衡高低分組對私密社交網(wǎng)絡文本數(shù)據(jù)進行樣本選擇,利用隨機梯度下降模型SGD檢測抑郁用戶;鄭敬華等人提出對新浪微博用戶利用魯棒多任務學習方法預測五大人格。以上研究的對象是網(wǎng)絡用戶,對大學生不具有普適性。第二種是基于調(diào)查問卷,獲取的數(shù)據(jù)更直接、準確,如馮占春等人基于學生身體體征、性格人際因素,利用K-means聚類方法、模糊綜合評判方法有效預測高校學生心理健康風險數(shù)據(jù),了解心理健康狀態(tài)。
本文通過調(diào)查問卷收集大學生心理健康狀態(tài)數(shù)據(jù),對數(shù)據(jù)處理優(yōu)化,使用決策樹、邏輯回歸、支持向量機及XGBboost的機器學習模型進行預測,選出最優(yōu)預測模型,對模型參數(shù)進行優(yōu)化,提高大學生心理健康預測準確率,進而助力于思想政治教育工作者及時準確了解大學生心理健康狀態(tài),為大學生心理健康與思想政治教育的協(xié)同發(fā)展提供理論和實踐依據(jù)。
1"方法及原理
決策樹是以樹結構形式表達的預測分析模型,根據(jù)數(shù)據(jù)特征劃分,每個節(jié)點代表一個特征,分支代表特征取值,葉節(jié)點代表數(shù)據(jù)的類別或決策結果。通過計算每個特征的重要性來選擇最佳的劃分特征,并根據(jù)特征的取值將數(shù)據(jù)劃分到不同的子節(jié)點中。常見的決策樹算法主要包含ID3、C4.5等,ID3算法是通過信息增益進行特征選擇,分裂信息增益最大的特征。C4.5相較于ID3,使用增益率選擇最優(yōu)特征進行分裂,提高決策樹的分類性能,C4.5是啟發(fā)式方法,在劃分的特征中選出信息增益高于平均值后,再選出最高的增益率。
邏輯回歸是從線性回歸引申而來,對回歸的結果進行l(wèi)ogistic函數(shù)運算,將范圍限制在[0,1]區(qū)間,從而進行分類。由于采集的數(shù)據(jù)結果只有兩種,一是陽性即有心理問題,二是陰性即無心理健康問題,因此采用二元logistic回歸分析,分別用1和0來代表有心理健康問題和無心理健康問題。
支持向量機(SVM)是用于分類和回歸任務的機器學習算法,在解決二分類問題時表現(xiàn)出色,主要目標是選擇一個能夠最大化不同類別數(shù)據(jù)點之間的間隔的超平面,通過調(diào)整超平面的位置和方向來最大化間隔,以提高模型的泛化能力。
XGBoost(eXtreme"Gradient"Boosting)算法是提升算法(Boosting)之一,是對極致梯度提升算法GBDT(Gradient"Boosting"Decision"Tree)的一種二階導優(yōu)化,能夠避免過擬合,泛化性能較好,具有高效、靈活、輕便特性。
2"模型搭建及數(shù)據(jù)處理分析
2.1"數(shù)據(jù)來源
根據(jù)《心理健康情況自評量表調(diào)查問卷》獲取數(shù)據(jù),基于對測試環(huán)境要求不高,內(nèi)容全面,測試時間較短,能反映來訪者當前的精神健康狀態(tài),較易理解和掌握,因此問卷是在《SCL-90癥狀自評量表》的基礎上形成,選取了大學生心理健康和思想政治教育等多個方面的數(shù)據(jù),包括感覺狀態(tài)、睡眠狀況、學業(yè)壓力、人際關系等,并采用10個因子反映心理狀況。對數(shù)據(jù)集進行分類統(tǒng)計,對各影響因子、總分、陽性項目數(shù)、陽性項目均分等數(shù)據(jù)進行分析,根據(jù)《SCL-90癥狀自評量表》評分標準將樣本記為有心理健康問題,結果狀態(tài)為1,其余樣本為無心理健康問題,結果狀態(tài)為0。
2.2"數(shù)據(jù)處理及分析
處理分析數(shù)據(jù)和搭建預測模型的實驗環(huán)境是Windows"10操作系統(tǒng),CPU是12th"Gen"Intel(R)"Core(TM)"i9-12900H"2.50"GHz,使用Python"3.10.9編程語言和Jupyter"notebook編程工具。
數(shù)據(jù)優(yōu)化。運用數(shù)據(jù)清洗和預處理技術,對數(shù)據(jù)進行統(tǒng)一格式化和標準化處理,減少數(shù)據(jù)處理誤差,確保數(shù)據(jù)質(zhì)量和一致性。問卷共獲得621條數(shù)據(jù),將數(shù)據(jù)進行優(yōu)化,使用data.not1().any()查看收集的數(shù)據(jù)是否存在缺失值,使用data.duplicated().sum()查看數(shù)據(jù)是否存在重復值,通過運行結果顯示,獲取的數(shù)據(jù)較完整,不存在缺失值和重復值,由于調(diào)查問題限制了分值,在可控范圍內(nèi),因此出現(xiàn)異常值的概率較低。經(jīng)過處理數(shù)據(jù)發(fā)現(xiàn),數(shù)據(jù)集質(zhì)量較高,處理后數(shù)據(jù)樣本數(shù)量仍為621條。
數(shù)據(jù)集劃分。依據(jù)提交問卷順序使用sklearn的train_test_split()函數(shù)按照7:3的比例將數(shù)據(jù)劃分為434條訓練數(shù)據(jù)和187條測試數(shù)據(jù)。
數(shù)據(jù)平衡化處理。在訓練數(shù)據(jù)集中,其無心理健康問題的數(shù)據(jù)樣本共有308條,占總數(shù)據(jù)樣本的比例為70.97%,有心理健康問題的數(shù)據(jù)樣本共有126條,占總數(shù)據(jù)樣本的比例為29.03%,數(shù)據(jù)處于不平衡狀態(tài),若直接使用不平衡數(shù)據(jù)集構建模型,會導致預測結果不理想。因此,對434條訓練數(shù)據(jù)采用Smote算法,將有心理問題和無心理問題數(shù)據(jù)按照1∶1進行平衡處理,最終得到新樣本訓練數(shù)據(jù)集616條,其中有、無心理心理健康數(shù)各為308條。
2.3"數(shù)據(jù)分析結果
基于大學生心理狀態(tài),調(diào)查問卷獲取到621條大學生心理健康樣本數(shù)據(jù),其中無心理問題的樣本數(shù)據(jù)有437條,占大學生心理健康樣本總數(shù)為70.37%;存在心理問題的數(shù)據(jù)樣本有184條,占大學生心理健康樣本總數(shù)的比例為29.63%。但此數(shù)據(jù)結果無法全面反映大學生心理問題的分布,因此通過對樣本數(shù)據(jù)分類、統(tǒng)計,獲取總分、陽性項目數(shù)、陽性項目均分等,全面、多角度分析大學生心理健康水平和潛在的問題。
2.3.1"心理健康數(shù)據(jù)分析
心理問題影響因子分布分析。因子分指調(diào)查問卷中所涉及的九個因子中每個因子的平均分,可以了解受測者的癥狀分布特點。由《心理健康情況自評量表》的評分等級可知,當因子分大于2分時,反映出學生可能在該因子方面存在較大困擾,存在心理問題的概率較大,因此對收集的數(shù)據(jù)按照不同的影響因子進行分類統(tǒng)計,得出各個因子均分大于2分的數(shù)量。其中F1代表軀體化,反映主觀心理不適引發(fā)的軀體表現(xiàn);F2代表強迫癥狀,反映無法擺脫明知無必要的思想、行為表現(xiàn);F3代表人際關系敏感,反映在與他人相比較時表現(xiàn)出主觀的不自在和自卑感;F4代表抑郁,表現(xiàn)為生活興趣減退、活動愿望降低等抑郁苦悶的感情和心境;F5代表焦慮,表現(xiàn)為緊張、無法靜息等與焦慮癥狀相聯(lián)系的體驗;F6代表敵對,反映受測者從思維、情感及行為方面對厭煩、爭論、爭斗等沖動爆發(fā)的敵對表現(xiàn);F7代表恐怖,表現(xiàn)為恐怖狀態(tài)或廣場、社交恐怖;F8代表偏執(zhí),表現(xiàn)為投射思維、猜疑、妄想與夸大等;F9代表精神病性,包括幻聽、被控制感等癥狀;其他主要是反映睡眠、飲食狀況。通過數(shù)據(jù)分析得出,在影響心理健康的10個因子中,強迫癥狀(F2)位居首位有138人,其次是代表人際關系敏感(F3)89人、抑郁(F4)81人,其余因子在45~61人之間,因此,大學生的強迫癥狀、人際關系、抑郁應該被更多地關注。
總分分布分析。根據(jù)影響因子分布判定心理問題具有局限性,因此,采用總分評估心理狀況,即90個單項分之和,總分越高,心理健康狀態(tài)相對越差,越需要被重點關注??偡殖^160的有97人,這些學生應給予更多地關注。
陽性項目數(shù)分布分析。陽性項目數(shù)指單項得分為2~5的項目數(shù)及大學生在多少項目有“癥狀”,調(diào)查問卷共有90個項目,依據(jù)《SCL-90癥狀自評量表》的結果分析可知,當陽性項目數(shù)超過43項時,該學生存在心理健康問題的概率較大,因此,以43項為分類邊界,對數(shù)據(jù)進行分類統(tǒng)計,陽性項目數(shù)超過43項的有88人,陽性項目數(shù)不超過43項的有533人。
陽性項目均分分布分析。反映大學生在“有癥狀”項目中的平均得分,可確定心理健康問題的嚴重程度介于哪個范圍。陽性項目均分低于2分為正常狀態(tài),因此不屬于心理健康問題的研究范圍,研究集中在陽性項目均分大于2分的數(shù)據(jù)。為清楚了解心理健康問題嚴重程度究竟介于哪個范圍,以3分、4分為劃分邊界,其中,超過2分但不高于3分有371人,占樣本總數(shù)59.74%;超過3分但不高于4分有84人,占樣本總數(shù)13.53%;超過4分有14人,占樣本總數(shù)2.25%。與其他分析數(shù)據(jù)相比較,陽性項目均分分布有比較大的差異,原因在于陽性項目是評判呈現(xiàn)陽性項目的平均水平的嚴重程度,但不能作為判定心理問題的標準。
2.3.2"數(shù)據(jù)模型預測結果
模型評價指標。模型預測效果的好壞需要評價,通過混淆矩陣、準確率、精確率、召回率、F1"score和AUC評估模型,從而選出最優(yōu)模型。各模型預測評價指標如表1所示,XGBboost模型在大學生心理健康預測中效果較好。
2.3.3"模型優(yōu)化
為進一步提高XGBboost模型預測的準確性,對模型參數(shù)優(yōu)化。貝葉斯優(yōu)化通過基于目標函數(shù)的過去評估結果建立替代函數(shù),找到最小化目標函數(shù)的值。貝葉斯方法與隨機或網(wǎng)格搜索的優(yōu)點在于它在調(diào)參過程中,會參考之前的評估結果,提升了優(yōu)化XGBboost的性能。因此選用貝葉斯對XGBboost模型進行優(yōu)化,尋找最優(yōu)的參數(shù)取值,XGBoost的主要超參數(shù)如表2所示。經(jīng)過貝葉斯優(yōu)化后,XGBboost預測模型正確率從97.326%上升至97.861%,提高了0.525%。
3"結論與建議
通過調(diào)查問卷采集大學生心理健康狀態(tài)數(shù)據(jù),對數(shù)據(jù)進行優(yōu)化處理,分別用4種模型預測大學生心理健康狀態(tài),結果表明,XGBboost模型效果較好,為提高預測準確率,使用貝葉斯對XGBboost模型的參數(shù)優(yōu)化,及時準確了解大學生心理健康狀態(tài),在此基礎上對大學生開展思想政治教育工作。
在數(shù)智時代,人工智能是心理健康與思想政治教育的橋梁,機器學習打破了以調(diào)查問卷獲取、分析數(shù)據(jù)的局限性,使用以往數(shù)據(jù)或經(jīng)驗優(yōu)化程序,提高預測大學生心理健康狀態(tài)結果的準確性,使人工智能賦能大學生思想政治教育。
參考文獻
[1]教育部等十七部門關于印發(fā)《全面加強和改進新時代學生心理健康工作專項行動計劃(20232025年)》的通知[EB/OL](20230427)[20231024].http://www.moe.gov.cn/srcsite/A17/moe_943/moe_946/202305/t20230511_1059219.html.
[2]黎素珍.論大學生思想政治教育與心理健康教育的融合[J].福建論壇(人文社會科學版),2011,(S1):171172.
[3]馬建青,石變梅.30年來高校心理健康教育對思想政治教育的影響分析[J].學校黨建與思想教育,2017,(19):7476+90.
[4]李靜,劉德喜,萬常選,等.社會網(wǎng)絡用戶心理健康自動評估研究綜述[J].中文信息學報,2021,35(02):1932.
[5]劉德喜,邱家洪,萬常選,等.利用準私密社交網(wǎng)絡文本數(shù)據(jù)檢測抑郁用戶的可行性分析[J].中文信息學報,2018,32(09):93102.
[6]鄭敬華,郭世澤,高梁,等.基于多任務學習的大五人格預測[J].中國科學院大學學報,2018,35(04):550560.
[7]程俊俊,馮占春.數(shù)據(jù)驅(qū)動的高校學生心理健康風險預測研究[J].信息技術,2022,(06):15+11.