李馥利, 金敏, 王雨佳
(1.商洛學院 化學工程與現代材料學院, 陜西 商洛 726000;2.商洛學院 健康管理學院, 陜西 商洛 726000;3.中航工業西安航空計算技術研究所, 陜西 西安 710062)
隨著社會競爭的日益加劇,大學生面臨就業、生活、學習、情感等方面的多重壓力,導致大學生心理健康問題頻發,直接影響校園生活和學習環境的穩定,因此對大學生心理健康進行狀態評價具有重要的現實意義和理論價值[1]。目前,大學生心理健康狀態評價的方法主要是基于傳統的機器學習算法所提出的,比如決策樹(Decision tree,DT)、前饋神經網絡 (back propagation network,BPNN)等[2-3],這些算法存在計算量大并且準確率不高的缺點。
據中國常規模式評價指南和癥狀自評量表SCL-90所采集的大學生心理健康狀態數據屬于高維數據集,因此進行大學生心理健康評價時存在計算量巨大和數據特征之間存在冗余關聯性的缺點。隨著流行學習算法的廣泛研究,該方法作為數據特征提取和降維已被廣泛地應用于圖像檢索、文本分類、人臉識別以及植物葉片識別等領域[4-8]。為提高大學生心理健康狀態評價的準確率,提出一種基于局部線性嵌入算法(locally linear embedding,LLE)和支持向量機(support vector machine,SVM)的大學生心理健康評價方法。與SVM、BPNN和DT相比較,LLE-SVM能夠有效提高大學生心理健康狀態評價準確率。
根據中國常規模式評價指南和癥狀自評量表SCL-90[9-10],選擇精神病性、偏執、敵對、恐怖、焦慮、抑郁、強迫癥狀、人際關系敏感和軀體化等9個維度的指標作為大學生心理健康狀態評價的特征屬性,將大學生心理健康狀態分為健康、輕度不健康和不健康等3種狀態。
大學生心理健康狀態評價本質上屬于非線性分類問題。由于大學生心理健康狀態評價的每個個體的心理狀態數據特征屬于多維度的特征數據,這些特征數據涉及很多非線性因素,具有多層次、多變量、非線性和強耦合等特征,因此很難用傳統的數學模型或者方法進行定量描述。為提高大學生心理健康狀態評價的準確率,非常有必要建立更加科學合理的大學生心理健康狀態評價模型。本研究將精神病性、偏執、敵對、恐怖、焦慮、抑郁、強迫癥狀、人際關系敏感和軀體化等9個維度的數據作為LLE-SVM模型的輸入向量,大學生心理健康狀態分為健康、輕度不健康和不健康作為LLE-SVM模型的輸出向量,建立基于LLE-SVM的大學生心理健康狀態評價模型,評價模型如圖1所示。

圖1 心理健康狀態評價模型
本研究將精神病性、偏執、敵對、恐怖、焦慮、抑郁、強迫癥狀、人際關系敏感和軀體化等9個維度的數據作為LLE-SVM模型的輸入向量,大學生心理健康狀態分為健康、輕度不健康和不健康作為LLE-SVM模型的輸出向量,建立基于LLE-SVM的大學生心理健康狀態評價模型。基于LLE和SVM的大學生心理健康狀態評價算法流程可詳細描述如下:
Step1:采集大學生心理健康特征數據:發放癥狀自評量表SCL-90,采集大學生心理健康特征數據,特征數據包括精神病性、偏執、敵對、恐怖、焦慮、抑郁、強迫癥狀、人際關系敏感和軀體化等9個維度的數據;
Step2:為了減少計算量,運用LLE算法對大學生心理健康特征數據進行降維處理;
Step3:將降維處理后的大學生心理健康特征數據劃分為訓練樣本和測試樣本,運用訓練樣本數據建立LLE-SVM的大學生心理健康狀態評價模型,其中降維處理后的大學生心理健康特征數據作為SVM的輸入,大學生心理健康狀態作為SVM的輸出;
Step4:運用測試樣本數據驗證LLE-SVM的大學生心理健康狀態評價模型的效果。
為了驗證LLE-SVM的大學生心理健康狀態評價的有效性,選擇陜西某學校2019年入校大學生的大學生心理健康癥狀自評測量表SCL-90數據為研究對象,每個大學生的心理健康特征數據為精神病性、偏執、敵對、恐怖、焦慮、抑郁、強迫癥狀、人際關系敏感和軀體化等9個維度指標組成的一維列向量。大學生心理健康狀態分為不健康、輕度不健康和健康等3種狀態,3種樣本數據分布,如表1所示。

表1 訓練與測試樣本數據分布
將準確率AR作為大學生心理健康狀態評價效果的評價指標,其定義如下:若大學生心理健康被正確識別的樣本數量為A,樣本總數量為B,則大學生心理健康狀態評價結果的準確率AR可定義為:
由于LLE算法涉及兩個參數:嵌入維數d和近鄰參數K。這兩個參數的大小直接影響大學生心理健康狀態評價的效果。因為大學生心理健康特征數據為9個維度指標組成的一維列向量,因此d的取值范圍設定為[2,8],K的取值范圍為[3,8]。SVM的參數設定為:懲罰參數C=10,徑向基核函數參數γ=0.5,不同K與d取值時的大學生心理健康狀態評價的準確率,如表2所示。

表2 不同K和d取值的準確率(%)
由表2可知,當K=6與d=5時,大學生心理健康狀態評價的準確率最高,準確率為96.5%。
為了驗證LLE-SVM的大學生心理健康狀態評價的有效性,將LLE-SVM與SVM、前饋神經網絡(back propagation neural network,BPNN)和決策樹(decision tree,DT)進行對比,為避免算法隨機性帶來的不穩定性,每個算法獨立運行10次,取10次運行結果的平均值作為最終的大學生心理健康評價的準確率,具體如表3和圖2—圖5所示。

表3 大學生心理健康狀態評價結果

圖2 LLE-SVM評價結果

圖3 SVM評價結果

圖4 DT評價結果

圖5 BPNN評價結果
圖2—圖5中,“○”為大學生心理健康狀態的實際類別,“*”為大學生心理健康狀態評價結果;1、2、3分別為大學生心理健康為不健康、輕度不健康和健康。當“*”和“○”重合時,表示大學生心理健康評價結果正確;當“*”和“○”不重合時,表示大學生心理健康評價結果錯誤。由表3不同算法的大學生心理健康狀態評價結果可知,與SVM、BPNN和DT相比較,LLE-SVM的大學生心理健康狀態評價的準確率為96.5%,較SVM、BPNN和DT分別提高了4.2%、8.0%和6.8%,從而說明LLE-SVM進行大學生心理健康狀態評價具有更高的準確率,從而為大學生心理健康評價提供新的方法。
本文提出一種基于LLE和SVM的大學生心理健康狀態評價方法,與SVM、BPNN和DT相比較,LLE-SVM可以有效提高大學生心理健康狀態評價的準確率。然而LLE算法的參數選擇會影響數據降維效果,文中通過試驗對比選出LLE最佳參數,存在工作量大、參數無法自適應性的缺點,后續將運用群智能搜索算法自適應選擇LLE最佳參數,實現LLE算法的參數自適應選擇。