解仲秋
(西安航空職業技術學院,陜西西安 710089)
根據世界衛生組織的最新研究統計,心理健康疾病已成為全球第四大疾病。以抑郁癥為例,當前全世界約有3 億人正在遭受著抑郁癥的摧殘[1-5]。隨著我國經濟社會的發展,人們開始更多地關注自身的心理健康。在大學階段,由于學生所處的內外部環境迅速變化,較多學生無法及時適應,容易產生心理問題。據研究統計,大學生的心理問題具有明顯的階段性特征,較多學生無法及時察覺自身的心理變化,導致心理問題的惡化并產生嚴重的后果[6-12]。
為了及時發現大學生的心理問題,提供心理幫助,文中對智能化的心理狀態評價方法進行了研究。考慮到心理問題難以自行察覺、學生普遍存在對心理咨詢和調查等方式的抵觸情緒,文中采用文本信息分析的方法進行心理問題識別。互聯網是大學生課外精神生活的重要平臺,各種社交網絡每天均產生著大量的文本信息,這些信息中可以反映學生心理狀態的變化。文中以高校內部學生論壇產生的文本資源為依托,引入人工智能算法,深入研究了心理狀態評價和預警模型。
高等院校的校園論壇是反映學生心聲、發表個人觀點的重要場所,對于該場所進行自動化監控以及時掌握學生當前的心理狀態、預測學生心理未來動態具有重要意義。基于社交網絡的高校學生心理健康評估,需要采集各類反映心理健康的特征指標,具體如圖1 所示[13-15]。

圖1 心理狀態評估特征體系
從圖1 可以看出,在基于文本內容進行心理狀態評估時,主要關注4 個方面的特征:行為特征、屬性特征、內容特征和社會關系特征。
行為特征W0:可以刻畫用戶心理特征的網絡行為。從心理學的角度,大學生在論壇上的發帖、評論、點贊的頻率,以及學生的在線活躍時長均受學生心理健康的狀態影響。
屬性特征W1:大學生在網絡論壇上留下的刻畫其個人基本信息的特征,比如年齡、性別、籍貫、專業、是否單身等。
內容特征W2:大學生在論壇上直接留下的文本信息,這些信息可以真實反映其內心的真實想法。
社會關系特征W3:在心理學中,社會關系是學生在校、在社會等各個背景下因學習、社交等各種行為產生的相互關系。在社交論壇上,學生間的互相關注、不同的親密度均可讓不同的用戶產生聯系。若將一個學生看作一個節點,其主動與被動關注行為看作是一種連接關系,則對每個學生均可繪出一個社交網絡,這一網絡對于學生心理健康狀態的評估也有著重要意義。
基于圖1 的分析,在此給出智能化心理狀態評估的任務定義。在校園論壇集合下,定義以下幾個集合:

其中,D表示校園論壇集合,P表示論壇中的N個不同帖子,H表示帖子的L個不同主題,R表示帖子間的耦合關系。
此時,智能化心理評價與預警的數學定義如下:對于集合D中的任意元素p,搜索一個映射關系m及其對應的一組特征F,使得:

其中,C是文本到心理狀態的分類結果。式(4)表示對于每個用戶其所發表的每一篇文本信息均對應了一個分類,該分類可以表征其心理健康狀態,從而提醒高校的心理健康師及時給予干預。文中使用的映射關系m是深度學習中的卷積神經網絡(CNN)。
圖2 給出了文中使用的卷積神經網絡(CNN)模型的基本結構,其中包含多個卷積層、池化層和一個全連接層。卷積層進行卷積運算,池化層進行池化運算。在輸入層,首先借助LIWC 將文本內容處理為長度為n的詞向量序列,然后借助Word2Vec 將其轉換為[16]:

圖2 卷積神經網絡結構

1)卷積層
在卷積層中,首先將式(5)中的詞向量劃分為:

卷積是卷積神經網絡中特有的運算方式,卷積運算可以借助不同大小的卷積核窗口獲取文本不同位置的局部語義信息,進行特征的檢測與提取。對于式(6)的劃分向量,利用式(7)中的卷積運算進行逐一處理:

其中,f是卷積中使用的卷積核函數,是卷積后獲得的特征值。
卷積完成后,文中引入了激活函數對卷積結果進行去線性化,然后進行拼接。此時,可以得到卷積層輸出的特征矩陣G:

2)池化層
池化層用于將卷積獲得的特征進行降采樣,降低特征維度,防止網絡過于復雜導致運算效率降低以及過擬合現象。文中使用的池化方法為最大值池化,其方法如下:

3)全連接層
全連接層用于連接所有卷積、池化運算后獲得的特征值,并將其作為表征文本信息的最終特征向量。在全連接層中的計算如下:


其中,F是經過全連接后獲得的原始特征信息,y是最終的分類結果。
由于面向的是大學生的內部論壇,因此為了保證應用場景的契合,在進行模型的仿真時,可以選取現有的公開論壇的文本信息。文中選取的是CLPsyh2017 ReachOut 論壇的訓練集,該訓練集的基本組成如表1 所示。

表1 數據集組成
表2 給出了每一項數據的結構。在該數據集中,每一條數據均由發帖的時間、作者、所在版塊、被閱讀數、被點贊數、內容6 個部分組成。其在數據庫中的表示,如表2 所示。

表2 單項數據的結構
在表3 中,將文中搜集的數據集標注為4 個類別。其中,Crisis 表示表現出自我侵害傾向的心理問題;Red 表示遭受嚴重心理困擾的心理問題;Amber表示有可能出現心理問題;Green 表示出現心理問題的概率較小。每個類別對應的數據量,如表3 所示。

表3 各樣本類別的數據量
文中基于LIWC 詞典進行文本數據的處理。在提取語言特征信息時,實現方法如下:
對于樣本數量為|D|、長度為ni的帖子:

其類別l在表3中類別出現的頻率計算方法如下:

在詞頻的基礎上,可以計算詞的標準差。該指標越大,對于該類別的詞在此類心理問題上的差別就越大。標準差的計算方法如下:

在進行模型參數設置時,考慮到數據集中不同類別的樣本數在數量占比上差別較大。而深度學習網絡的分類精度會隨著樣本數量占比不均衡度的增長而逐漸劣化,因此文中對不同類別的樣本進行權重區分,具體方法如下:

訓練中使用的損失函數如下:

在確定模型的迭代次數時,由于文中使用的樣本中,人工標注的樣本數量較少。若進行了次數過多的迭代,則會使CNN 網絡出現過擬合現象;若迭代的次數過少,則模型的精度無法達到要求。圖3給出了模型在訓練集和驗證集下不同迭代次數的模型精度。可以看出,當訓練集的迭代次數較少時,驗證集與訓練集的精度一致性較高,模型精度較低;當模型的迭代次數較大時,訓練集模型的精度會隨之升高,但驗證集和訓練集模型精度的差距變大。此時,模型出現了過擬合。因此,為了平衡模型精度與過擬合之間的關系,文中選擇的模型迭代次數為600次。

圖3 模型迭代次數和模型精度的關系
最終確定的神經網絡的模型參數,如表4 所示。

表4 卷積神經網絡模型的參數
為了更優地評估模型在識別大學生心理狀態時的效果,文中引入了FastText 模型進行對比實驗。在進行實驗前,為了區分不同心理狀態,文中將原有的Crisi、Red、Amber、Green 4 個類別進行重新劃分。表5 給出了重新劃分后的5 個類別,對于這5 個類別,使用機器學習分類問題中常用的兩個指標F1 和Acc(分類精度)作為模型的評價指標。兩個模型的測試結果,如表6、表7 所示。

表5 模型評估類別

表6 FastText模型計算結果

表7 CNN網絡計算結果
需要注意的是,在模型的指標性能中,Non-Green F1 是非Green 類F1 的平均值,該值可以反映模型對于驗證集中所有心理不健康的學生識別力;而Flagged F1 是Green 類F1 的平均值,該值可以反映模型區分心理健康樣本和心理不健康樣本的能力。從計算結果可以看出,在Non-Green F1 指標上,文中的CNN 模型較FastText 模型提升了0.05,Flagged F1提升了0.06。這說明,CNN 模型在樣本區分力和對于非健康樣本的識別力上均有提升。
在Urgent F1上,CNN 模型較FastText模型提升了0.11。這一指標表明了,文中的模型對于一般心理問題和緊急性心理問題識別的區分能力更強,可以輔助學生快速得到與其自身心理問題相適應的幫助。
從模型的各個類別識別精度來看,CNN 模型均優于FastText 模型;在全樣本的精度上,CNN 模型的精度達到了0.71,高于FastText 模型的0.64,提升了0.07。綜上所述,在心理狀態的評價預警上,CNN 模型有著更優的性能。
為了實現高等院校學生心理問題的智能化評價和及時預警,文中從校園論壇的輿情監控角度出發,利用學生日常生活中產生的文本信息進行心理問題的相關特征提取。相較于傳統的心理學調查問卷、心理咨詢等方式,可以更隱蔽、有效、及時地發現學生在學習、生活中的心理問題。仿真結果表明,文中提出的基于卷積神經網絡的智能化心理狀態識別方法,在各種心理問題的識別上,具有較好的精度與區分能力,可應用在現有的高校心理工作中。