江家龍,秦亮曦
(1.廣西大學(xué)計(jì)算機(jī)與信息工程學(xué)院,南寧 530004;2.廣西工商職業(yè)技術(shù)學(xué)院現(xiàn)教中心,南寧 530008)
C4.5算法在大學(xué)生心理健康分析中的應(yīng)用
江家龍1,2,秦亮曦1
(1.廣西大學(xué)計(jì)算機(jī)與信息工程學(xué)院,南寧 530004;2.廣西工商職業(yè)技術(shù)學(xué)院現(xiàn)教中心,南寧 530008)
大學(xué)生的心理健康問(wèn)題受到了各高校和相關(guān)研究人員的普遍關(guān)注。采用C4.5算法對(duì)大學(xué)生的心理健康問(wèn)題進(jìn)行分類分析。通過(guò)收集學(xué)生基礎(chǔ)數(shù)據(jù)和SCL-90心理健康測(cè)評(píng)信息并提取相關(guān)屬性,以C4.5算法構(gòu)造大學(xué)生心理健康問(wèn)題分類模型,發(fā)現(xiàn)影響學(xué)生心理健康的主要因素和它們之間的關(guān)系,并生成分類規(guī)則。利用測(cè)試集的數(shù)據(jù)對(duì)分類模型進(jìn)行測(cè)試,測(cè)試結(jié)果表明該模型有較好的準(zhǔn)確率。該模型一定程度上可為高校開展心理健康教育的規(guī)劃、決策提供參考。
C4.5算法;心理健康;決策樹
作為受高等教育的群體,大學(xué)生在自身發(fā)展和追求過(guò)程中,承受著學(xué)業(yè)、生活、情感、就業(yè)等諸多壓力。一項(xiàng)對(duì)全國(guó)12.6萬(wàn)名大學(xué)生的調(diào)查顯示,20.3%的大學(xué)生有心理問(wèn)題。其中存在抑郁、焦慮、強(qiáng)迫、人際關(guān)系不良、人格障礙、精神疾病等心理問(wèn)題或心理障礙約占16-30%[1]。《2010-2011年度大學(xué)生心理健康調(diào)查報(bào)告》顯示,27%的大學(xué)生認(rèn)為自己經(jīng)常有心理方面的困擾。眾多的調(diào)查和研究表明心理健康不僅影響著大學(xué)生成長(zhǎng),還關(guān)系著校園的穩(wěn)定和社會(huì)的和諧發(fā)展。近年來(lái),大多數(shù)高校都成立了心理健康中心或類似的機(jī)構(gòu)。心理健康課程的開設(shè)、講座的舉辦、問(wèn)卷調(diào)查、網(wǎng)上測(cè)評(píng)、面對(duì)面的心理咨詢等,為大學(xué)生心理健康分析積累了豐富的數(shù)據(jù)資料。如何快速準(zhǔn)確地對(duì)上述數(shù)據(jù)進(jìn)行分析,探討影響學(xué)生心理健康的主要因素,針對(duì)性地進(jìn)行心理健康教育,成為各高校迫切需要關(guān)注的問(wèn)題。
目前數(shù)據(jù)挖掘在大學(xué)生心理健康分析的應(yīng)用,主要以決策樹分類算法為主。吳小剛[2]以SCL-90量表各個(gè)維度作為決策屬性,構(gòu)造了大學(xué)生心理問(wèn)題模型。李鑫[3]通過(guò)Clementine 12.0工具,選擇C5.0算法,建立了大學(xué)生強(qiáng)迫、焦慮、人際關(guān)系問(wèn)題癥狀的決策樹模型。高艷平[4]通過(guò)問(wèn)卷調(diào)查,研究了學(xué)生性格、家庭和睦、家庭經(jīng)濟(jì)、精神病遺傳和學(xué)生有無(wú)心理疾病之間的關(guān)系,并采用C4.5算法構(gòu)建了相關(guān)心理模型。本文在文獻(xiàn)[2]基礎(chǔ)上,擬通過(guò)收集學(xué)生基礎(chǔ)數(shù)據(jù)和SCL-90心理健康測(cè)評(píng)信息并提取相關(guān)屬性,以C4.5算法構(gòu)造大學(xué)生心理問(wèn)題模型。以期發(fā)現(xiàn)影響大學(xué)生心理健康的主要規(guī)律與模式,為大學(xué)生心理健康預(yù)防和教育提供更科學(xué)和有效的依據(jù)。
針對(duì)ID3無(wú)法處理屬性值缺失、不能對(duì)連續(xù)屬性進(jìn)行處理、計(jì)算信息增益時(shí)偏向取值較多的屬性等缺點(diǎn),Quinlan對(duì)其進(jìn)行了改進(jìn),提出了C4.5算法。該算法以信息增益率作為衡量標(biāo)準(zhǔn),選取最高信息增益率的屬性作為分裂屬性。設(shè)集合S有s個(gè)數(shù)據(jù)樣本,Si是類Ci(i=l,…,m)中的樣本數(shù)。集合S在Ci分類中的期望信息量(也稱信息熵)[5]:




信息增益率為信息增益對(duì)分割信息量的比值:

2.1 數(shù)據(jù)采集
本文選取某高職院校2012-2014年度學(xué)生網(wǎng)上SCL-90心理健康測(cè)評(píng)信息,對(duì)象為2012級(jí)、2013級(jí)、2014級(jí)學(xué)生,共采集到7398個(gè)樣本。涵蓋了文、理、工等33個(gè)專業(yè),其中男生2161人,女生5237人,數(shù)據(jù)具有一定的代表性。

表1 學(xué)生測(cè)評(píng)信息綜合表
2.2 數(shù)據(jù)預(yù)處理
(1)數(shù)據(jù)清洗
學(xué)生的基礎(chǔ)數(shù)據(jù)來(lái)源于教務(wù)科研處,該數(shù)據(jù)經(jīng)學(xué)生本人和班主任認(rèn)真核對(duì),無(wú)數(shù)據(jù)缺失,所以不用清洗。雖然學(xué)生心理測(cè)評(píng)都是在專業(yè)心理老師指導(dǎo)下進(jìn)行,但仍有部分學(xué)生敷衍了事如:答題不完全、答題答案完全一致。對(duì)這些數(shù)據(jù)必須進(jìn)行清理,最后得到學(xué)生測(cè)評(píng)信息綜合表記錄為7289條。
(2)屬性選擇
學(xué)生姓名、專業(yè)、年級(jí)、民族等基礎(chǔ)數(shù)據(jù)對(duì)建立模型沒(méi)有影響,因此在構(gòu)造決策時(shí)不考慮這些屬性。SCL-90各個(gè)項(xiàng)目的答題情況是不能直接用于數(shù)據(jù)挖掘的,必須通過(guò)其答題情況將其轉(zhuǎn)化成相應(yīng)的因子分,同時(shí)為了對(duì)學(xué)生的健康情況進(jìn)行分類,我們還必須加入一個(gè)總分屬性。經(jīng)過(guò)屬性處理后得到學(xué)生測(cè)評(píng)信息綜合表,如表1所示。
(3)數(shù)據(jù)泛化
數(shù)據(jù)泛化的目的是將數(shù)據(jù)清理后數(shù)據(jù)信息轉(zhuǎn)換成適合于挖掘的形式,建立一個(gè)真正適合挖掘算法的分析模型[5]。性別為“男”、“女”,無(wú)需泛化。學(xué)生的家庭地址,可以泛化為“農(nóng)村”、“城鎮(zhèn)”、“城市”,而屬性名稱也相應(yīng)改為生源地。SCL-90中的10個(gè)因子,當(dāng)因子分Si∈[1,2)時(shí)泛化為“健康”,當(dāng)因子分Si∈[2,3)時(shí)泛化為“輕度”,當(dāng)因子分Si∈[3,4)時(shí)泛化為“中度”,當(dāng)因子分Si∈[4,5]時(shí)泛化為“重度”。當(dāng)總分S∈[90,160]泛化為“健康”用A表示,當(dāng)總分S∈(160,200]泛化為“進(jìn)一步檢查”用B表示,當(dāng)總分S∈(200,250]泛化為“很明顯”用C表示,當(dāng)總分S∈(250,450]泛化為“比較嚴(yán)重”用D表示,屬性名稱也相應(yīng)改為癥狀[3]。
經(jīng)過(guò)數(shù)據(jù)泛化之后,出現(xiàn)很多條重復(fù)的記錄。這些重復(fù)數(shù)據(jù)會(huì)增加數(shù)據(jù)分析的時(shí)間和計(jì)算量,降低分類的效率,因此將其刪除。經(jīng)過(guò)數(shù)據(jù)預(yù)處理后,最終得到可用于挖掘的數(shù)據(jù)1119條,隨機(jī)選取749用于決策樹訓(xùn)練,其余370條用于決策樹模型的準(zhǔn)確性評(píng)估。

表2 泛化后的學(xué)生測(cè)評(píng)信息綜合表
2.3 決策樹的構(gòu)造
在訓(xùn)練集中癥狀A(yù)、B、C、D的子集數(shù)分別為S1= 161、S2=433、S3=109、S4=46。首先計(jì)算集合S分類的期望信息量:

然后計(jì)算各個(gè)決策屬性的信息量,以決策屬性“強(qiáng)迫”為例,分別計(jì)算其癥狀健康、輕度、中度和重度四個(gè)類別時(shí)的期望信息量。
(1)當(dāng)強(qiáng)迫屬性值為健康時(shí):


(2)當(dāng)強(qiáng)迫屬性值為輕度時(shí):

(3)當(dāng)強(qiáng)迫屬性值為中度時(shí):

(4)當(dāng)強(qiáng)迫屬性值為重度時(shí):


Gain(強(qiáng)迫)=I(S1,S2,S3,S4)-E(強(qiáng)迫)=0.364193019
訓(xùn)練集S關(guān)于強(qiáng)迫的各個(gè)屬性分割信息量為:SplitInfo(強(qiáng)迫)=-

同理得其他屬性的信息增益率分別為:GainRatio(性別)=0.0038133,GainRatio(生源地)=0.0089437,GainRatio(軀體化)=0.2166676,GainRatio(人際關(guān)系)= 0.2629232,GainRatio(抑郁)=0.3134827,GainRatio(焦慮 )=0.3170075,GainRatio (敵對(duì) )=0.1894517,GainRatio(恐怖)=0.158826,GainRatio(偏執(zhí))= 0.1782178,GainRatio(精神病性)=0.2484147,GainRatio(飲食睡眠)=0.1605511。
由以上可知焦慮的信息增益率最大,因此將其作為決策樹根節(jié)點(diǎn),同時(shí)根據(jù)焦慮的屬性將訓(xùn)練集分為4個(gè)分支。以此類推對(duì)每一分枝重復(fù)上述步驟,構(gòu)建根節(jié)點(diǎn)到葉子的決策樹。
2.4 決策樹剪枝
由于本文決策屬性較多,生成的決策樹比較大,為防止過(guò)擬合現(xiàn)象,我們要對(duì)生成的決策樹進(jìn)行剪枝。Quinlan提出的PEP[6]剪枝算法,不需要獨(dú)立的剪枝集,誤差估計(jì)增加了連續(xù)性校正,剪枝效率和精確度都比較高。本文選用PEP剪枝算法進(jìn)行剪枝,屬性名稱做了簡(jiǎn)化,最后得到?jīng)Q策樹如圖1。
2.5 規(guī)則提取
由以上決策樹可以生成以下分類規(guī)則:
(1)IF焦慮=健康A(chǔ)ND強(qiáng)迫=健康A(chǔ)ND睡眠飲食=健康THEN心理健康分析=健康(A)
(2)IF焦慮=健康A(chǔ)ND強(qiáng)迫=健康A(chǔ)ND睡眠飲食=輕度AND恐怖=健康A(chǔ)ND人際關(guān)系=健康THEN心理健康分析=健康(A)
(3)IF焦慮=健康A(chǔ)ND強(qiáng)迫=健康A(chǔ)ND睡眠飲食=輕度AND恐怖=健康A(chǔ)ND人際關(guān)系=輕度THEN心理健康分析=進(jìn)一步檢查(B)
(4)IF焦慮=健康A(chǔ)ND強(qiáng)迫=健康A(chǔ)ND睡眠飲食=輕度AND恐怖=輕度AND偏執(zhí)=健康THEN心理健康分析=健康(A)
…
從分類規(guī)則中發(fā)現(xiàn),焦慮、強(qiáng)迫、抑郁、人際關(guān)系在大學(xué)生心理健康問(wèn)題中起著比較重要的作用。當(dāng)學(xué)生無(wú)焦慮癥狀時(shí)心理疾病幾率較小;當(dāng)學(xué)生焦慮、強(qiáng)迫、人際關(guān)系都有輕度癥狀的時(shí)候,學(xué)生存在心理疾病的可能性比較大;當(dāng)學(xué)生焦慮輕度、強(qiáng)迫中度時(shí),學(xué)生存在比較明顯的心理疾病,要加以干預(yù);當(dāng)學(xué)生焦慮、人際關(guān)系都有中度癥狀或焦慮重度癥狀的時(shí)候,學(xué)生存在嚴(yán)重的心理疾病的可能性比較大,要及時(shí)進(jìn)行心理疏導(dǎo)。
2.6 模型驗(yàn)證
準(zhǔn)確率是決策樹性能評(píng)價(jià)的重要指標(biāo)。根據(jù)提取的分類規(guī)則對(duì)測(cè)試集中的370條記錄進(jìn)行分類測(cè)試,測(cè)評(píng)結(jié)果為:一致298條,不一致72條,正確率80.54%,模型具有較好的預(yù)測(cè)能力。

圖1 剪枝后的決策樹
本文探討了C4.5算法的相關(guān)理論,并詳細(xì)介紹了該算法在學(xué)生心理健康分析中應(yīng)用過(guò)程,構(gòu)建了大學(xué)生心理健康模型,發(fā)現(xiàn)了影響學(xué)生心理健康的主要因素和它們之間的關(guān)系。預(yù)測(cè)結(jié)果表明,該研究方法是可行的,該模型一定程度上可為高校開展心理健康教育的規(guī)劃、決策提供參考。
[1]劉建中.近20年大學(xué)生心理健康研究進(jìn)展綜述[J].職業(yè)時(shí)空,2009,(10).
[2]吳小剛,周萍,彭文惠.決策樹算法在大學(xué)生心理健康評(píng)測(cè)中的應(yīng)用[J].計(jì)算機(jī)應(yīng)用軟件,2011,28(10):241.
[3]李鑫.決策樹算法的研究及其在大學(xué)生心理健康數(shù)據(jù)處理中的應(yīng)用[J].江漢大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,43(6):371-375.
[4]高艷平,丁智.C4.5算法在高校學(xué)生心理教育方面的應(yīng)用研究[J].江西科學(xué),2011,29(6):813.
[5]朱明.數(shù)據(jù)挖掘第二版.安徽合肥:中國(guó)科學(xué)技術(shù)大學(xué)出版社,2008:68-69.
[6]Quinlan J R.Simplifying Decision Trees[J].International Journal of Man-Machine Studies,1987,27(3):221-234.
Application of C4.5 Algorithm in the Mental Health Analysis of College Students
JIANG Jia-long1,2,QIN Liang-xi1
(1.School of Computer,Electronics and Information,Guangxi University,Nanning 530004;2.Department of Modern Educational Technology Center,Guangxi Vocational College of Technology and Business,Nanning 530008)
The mental health of college students has been widely concerned by all the universities and related researchers.Uses the C4.5 algorithm to analyze the mental health problems of college students.Based on the data collected from students and SCL-90 mental health assessment information and extracted the relevant properties.Constructs college students'mental health problems model base on C4.5 algorithm,finds the main factors influencing the students'mental health and the relationship between them,and generates classification rules.Prediction results show that the model has good accuracy.The model to some extent,can provide reference for the planning and decisionmaking of mental health education in colleges and universities.
C4.5 Algorithm;Mental Health;Decision Tree
1007-1423(2016)21-0015-05
10.3969/j.issn.1007-1423.2016.21.003
江家龍(1981-),男,廣西南寧人,講師,研究方向?yàn)橛?jì)算機(jī)技術(shù)應(yīng)用
2016-04-27
2016-07-20
秦亮曦(1963-),男,廣西桂林人,教授,研究方向?yàn)閿?shù)據(jù)挖掘、進(jìn)化計(jì)算、管理信息系統(tǒng)