心理健康狀態(tài)的情感分類與預測研究

2025-03-02 00:00:00劉青趙姝琪康宇文海洋

電腦知識與技術 2025年1期

摘要：心理健康問題是當今社會廣泛關注的熱點話題，隨著人工智能的不斷發(fā)展，機器學習技術為心理健康狀態(tài)的檢測提供了新的手段。該研究基于Kaggle平臺的心理健康數據集，開展情感分類研究，分別采用樸素貝葉斯、隨機森林、邏輯回歸和神經網絡算法構建了4種多分類模型。結果表明，隨機森林模型的分類正確率最高，達到89.86%，神經網絡次之，為88.90%。同時，通過比較4種模型在各個類別下的查準率、查全率和F1值發(fā)現(xiàn)，隨機森林作為一種集成學習方法，在各類評價指標中均表現(xiàn)突出，在三個類別中的F1值分別為0.94、0.87和0.88。通過構建分類模型，有助于識別和分析心理健康相關的情感狀態(tài)，為心理健康的早期預防和發(fā)現(xiàn)提供有效支持。

關鍵詞：心理健康；情感分類；機器學習

中圖分類號：C913.9 文獻標識碼：A

文章編號：1009-3044（2025）01-0019-04 開放科學（資源服務）標識碼（OSID）：

0 引言

據世界衛(wèi)生組織（WHO）統(tǒng)計，全球約有10億人受到精神障礙的困擾，且每40秒就有一人因自殺失去生命[1]。因此，重視心理健康的早期預防和干預顯得尤為重要。在心理健康領域，傳統(tǒng)的評估方法往往依賴于臨床訪談和問卷調查，雖然有效，但由于時間成本和主觀因素的影響，常常難以全面捕捉個體的心理狀態(tài)。近年來，科技的迅猛發(fā)展，尤其是機器學習和文本挖掘技術的進步，使得分析個體言論中所蘊含的情感狀態(tài)成為可能。特別是在社交媒體和在線交流日益普及的背景下，用戶的言論和情感表達成為研究的寶貴數據源。通過對這些數據的挖掘和分析，不僅可以及時發(fā)現(xiàn)心理健康問題，還能有效追蹤其發(fā)展趨勢，為專業(yè)人士提供重要的參考。

本文旨在構建一個有效的多分類模型，利用多種機器學習算法分析個體的心理健康狀態(tài)，通過對不同模型性能的比較和分析，實現(xiàn)準確的識別和分類。本研究采用樸素貝葉斯、隨機森林、邏輯回歸以及神經網絡等多種算法，分析其在分類任務中的表現(xiàn)，為心理健康檢測提供有效方法和重要參考依據。這一研究不僅有助于豐富該領域的技術應用，還能夠為后續(xù)的干預和治療方案制定提供科學依據，從而推動心理健康事業(yè)的發(fā)展。

1 數據處理與分析

本研究的數據選自Kaggle平臺的心理健康狀態(tài)的部分數據集，該數據集包含個人評論和類別標簽兩部分。本文選擇了具有代表性的三個類別“（ Normal（0）、Depression（1）、Suicidal（2） ”）的數據進行后續(xù)建模，部分數據內容如表1所示，包括評論（Statement）及對應的類別標簽（Status）。

對數據進行預處理，進行了如下操作，以確保文本的規(guī)范化，減少噪聲，提高后續(xù)模型的準確性。首先，文本中英文的大小寫差異通常不會影響詞語的實際含義，但會被模型視為不同的詞匯，因此將所有英文字母轉為小寫；其次，數字和標點符號在文本處理任務中并不提供直接的語義信息，為了簡化數據，刪除所有文本中的數字和標點符號；由于英文中的部分詞匯，如with、at、of等詞在文本語義中沒有實際含義，且出現(xiàn)的頻率較高，這些詞匯被稱為“停用詞”，為了提高文本的分類效率，本研究采用NLTK庫中的英文停用詞表來去除這些停用詞。

此外，由于三個類別“Normal（0）、Depression（1）、Suicidal（2） ”的樣本數分別為16 351、15 404和10 653，數據類別存在分布不均衡問題，為了避免模型偏向于某個類別，故對數據集進行了重采樣。采用上采樣的方式，隨機復制增加少數類別的樣本，使其數量增加到與多數類別樣本相同的數目。通過使用sklearn.utils.resample函數，對少數類樣本進行了上采樣，最終每個類別的樣本數均為16 343 個。訓練集包含36 771個樣本，約占總樣本數的75%，測試集樣本數為12 258個，通過這一處理，有助于提升模型的泛化能力，減少因類別不均衡而導致的預測偏差。

詞云圖是一個常用的文本數據可視化工具，將文本信息以圖形化形式展現(xiàn)，使得復雜的文本數據能夠被更為直觀地理解。本研究分別繪制了三個類別的詞云圖，如圖1所示，從圖中可以看出，不同類別的詞云圖存在明顯的差異。對于Normal這一類別，包含了大量與日常生活相關的詞匯，如work、love等，而De?pression這一類別則多出現(xiàn)help、depression等相對消極、困擾的詞匯，Suicide則出現(xiàn)die、kill等更加極端的詞匯。通過詞云圖，不同類別文本的核心詞匯得以直觀呈現(xiàn)，為后續(xù)的文本分類提供了重要的參考信息。

采用TF-IDF對預處理后的數據進行特征處理，該算法基本思想是通過某個詞的詞頻和出現(xiàn)過的文檔頻來衡量一個詞在文檔中的權重，其計算方式如下：

式中：nd，w 表示詞w 在文檔d 中出現(xiàn)的次數，Σwnd，w表示文檔 d 中出現(xiàn)的總詞數，| D|表示文檔總數，| w ∈ d |表示包含詞w的文檔數。

2 算法簡介

本文使用樸素貝葉斯、隨機森林、多分類的邏輯回歸以及神經網絡4種算法分別對心理健康狀態(tài)進行分類，下面對這4種算法進行簡要介紹。

2.1 樸素貝葉斯

樸素貝葉斯分類算法是一種基于貝葉斯定理的監(jiān)督學習算法，所謂“樸素”，是假設了樣本的每個特征之間相互獨立[2]。設每個樣本都是由m 維特征構成的向量，共有k 個類別c1 ，c2 ，...，ck，對于任意樣本x =（x1 ，x2 ，...，xm ），求解出最大后驗概率所對應的類別。根據貝葉斯公式和獨立性假設，后驗概率公式如下：

count （xj，ci ）是類別為i且包含特征xj的文檔數。

2.2 隨機森林

隨機森林是采用并行的方式，通過組合多個決策樹，集成一個強學習器的模型[3]，作為一種典型的Bag?ging算法，為了保證各棵樹之間的獨立性，隨機森林通常采用了隨機的有放回的抽取樣本、隨機的選擇k個特征以及對選取的特征進行隨機分割的方式實現(xiàn)構建不同的決策樹。與決策樹相比，其結果不易過擬合。步驟如下：

1）使用自助抽樣，從訓練集D 中抽取T 個大小為n的數據集Dt；

2）對于不同的數據子集Dt，從m 個特征中隨機選擇k 個特征，使用決策樹模型學習得到一個弱學習器ht （x）；

3）對T 棵樹進行集成，得到最終的分類器：H（x） = vote （{h } ） t （x） Tt = 1 。

2.3 邏輯回歸

邏輯回歸是一種常用的二分類模型，通過引入激活函數來解決分類問題。設對于任意樣本x，其類別標簽取值為y ∈ { 0，1 }，采用Sigmoid 函數作為激活函數，公式如下：

它將線性函數的值域R 映射到（0，1）之間，標簽y = 1的概率為：

則標簽y = 0的概率為：

其負log似然損失函數為：

J （w）=-y ln（P（ y=1| x））-（1-y ）ln（1-P（ y=1| x））（9）

由于本文解決的任務是三分類問題，故將二分類的邏輯回歸推廣到多分類邏輯回歸。設共有k 個類別，分別為c1 ，c2 ，...，ck，采用Softmax函數預測屬于類別c 的概率，即：

引入類別y 的獨熱編碼向量為yc = I （y = c），則多分類模型的負log似然損失函數為：

2.4 神經網絡

神經網絡是當前最熱門的機器學習技術之一，其已廣泛應用于計算機視覺、自然語言處理等眾多領域[4]。前饋神經網絡（MLP、FNN）是最常見的一種網絡結構，分為輸入層、隱藏層和輸出層，通過逐層傳遞得到最終結果[5]。可將該過程視為一個非線性復合映射，首先將輸入樣本x 作為第一層的輸入a（0 ） = x，通過如下方式進行信息傳播：

z（l） = W （l） a（l - 1） + b（l）（12）

a（l） = f （z（l））（13）

式中：W （l）表示第l 層的權重矩陣，b（l）表示第l 層的偏置項，a（l）作為第l 層的輸出，f 表示激活函數。下文將采用兩層隱藏層的神經網絡，每層有50個神經元，激活函數為ReLU函數，以實現(xiàn)心理健康狀態(tài)的多分類任務。

3 實驗結果

本研究采用多項式樸素貝葉斯（MNB）、隨機森林（RF）、多分類邏輯回歸（LR）以及神經網絡（MLP）構建了4 種模型，其正確率分別為78.85%、89.86%、84.68% 和88.80%。對于多項式樸素貝葉斯，盡管該算法計算效率較高，但其性能會受到特征獨立性假設的限制，因此在處理復雜的文本數據時，往往無法捕捉到更深層次的特征關系，導致其正確率較低。邏輯回歸雖然其結果優(yōu)于多項式樸素貝葉斯，但在處理非線性問題時表現(xiàn)欠佳。神經網絡具備強大的非線性建模能力，其分類正確率較高，但在超參數調整和訓練過程中存在過擬合的風險，在本次實驗中其表現(xiàn)略遜于隨機森林。隨機森林作為一種集成學習方法，能夠自動處理特征之間的非線性關系，因此在分類任務中表現(xiàn)出色，并且對異常值和噪聲具有較強的魯棒性，這使得其正確率最高，達到89.86%。

表2展示了4種模型在各個類別下的查準率、查全率和F1值。從結果可以看出，4種模型對第一個類別“（ Normal”）的分類效果最好，各模型在該類別上可能學習到了更充分的特征信息，具有較高的查準率和查全率；對于其他類別，各模型的表現(xiàn)則存在一定差異。隨機森林和神經網絡在多個類別上的F1值均較高，且優(yōu)于樸素貝葉斯和邏輯回歸，展現(xiàn)出良好的分類效果。

此外，本研究繪制了4種模型的ROC曲線圖，每幅圖展示了三個類別各自的ROC曲線以及基于宏平均的ROC曲線，同時計算了AUC值（ROC曲線下方的面積）。ROC曲線越靠近左上角，表明模型效果越好，說明在不同的分類閾值下，模型具有良好的敏感性表現(xiàn)。通過分析可以發(fā)現(xiàn)，隨機森林模型在單個類別及整體上均表現(xiàn)出較強的分類能力，其宏平均AUC值最高，達到0.98，這表明隨機森林能夠很好地區(qū)分各個類別。這得益于其集成學習的特點，使其在處理復雜特征時表現(xiàn)更為穩(wěn)健。神經網絡次之，其宏平均AUC 值為0.96，顯示出了神經網絡在處理文本復雜特征問題中的優(yōu)勢。樸素貝葉斯和邏輯回歸的宏平均AUC值均為0.95，在各個類別的識別能力上存在差異。

同時，在隨機森林模型中，本研究繪制了特征重要性柱狀圖，展示了對分類任務貢獻最大的前8個詞匯，依次為：depression、feel、cannot、die、life等。這些詞匯在模型分類過程中起到了關鍵作用，其重要性越高，對模型的預測結果影響越顯著。例如，depression 一詞明確指向負面的情感狀態(tài)，在文本分類中，該詞匯的頻繁出現(xiàn)通常能反映個體的心理健康狀態(tài)，因此在分類模型中被賦予較高的特征重要性；cannot表達了一種無力感，通常出現(xiàn)在描述失落感的句子中，是心理健康狀態(tài)的重要指示因素，模型通過這一特征可以有效識別出相關文本。這一結果與之前的詞云圖分析相近，進一步驗證了這些詞匯在區(qū)分不同心理健康狀態(tài)時的顯著作用，也為心理健康領域的研究提供了更有針對性的解決方案。

4 結束語

本研究針對心理健康狀態(tài)的數據開展情感分類研究。首先，通過數據預處理和特征提取對原始文本數據進行轉化，分別構建了樸素貝葉斯、隨機森林、邏輯回歸和神經網絡4種不同模型，并對分類效果進行比較分析。結果表明，隨機森林在整體分類性能上表現(xiàn)最佳，其正確率達到89.86%，神經網絡次之。同時，本研究比較了4種模型在不同類別的查全率、查準率、F1值以及AUC值等多項評價指標，其中隨機森林在各項指標中均表現(xiàn)突出。通過對個體言論的文本數據進行建模與分析，證實了個體的文本表達能夠有效反映其心理健康狀態(tài)。分析結果顯示，情感分類模型能夠識別出潛在的心理健康問題，有助于發(fā)現(xiàn)個體的情緒困擾和心理狀態(tài)變化。這種方法不僅提供了對個體心理健康的監(jiān)測手段，還能幫助相關專業(yè)人士制定針對性的干預措施，從而改善個體的心理健康狀況。本研究采用機器學習模型對文本數據進行了心理健康狀態(tài)的分類研究，后續(xù)研究可通過使用更復雜的深度學習模型追蹤情感變化的動態(tài)趨勢，進一步推動人工智能在心理健康領域中的應用。

參考文獻：

[1] 羅燕.從“心”出發(fā)，讓社區(qū)居民更幸福[J].民生周刊，2023（16）：52-53.

[2] 徐軍，丁宇新，王曉龍.使用機器學習方法進行新聞的情感自動分類[J].中文信息學報，2007，21（6）：95-100.

[3] 王奕森，夏樹濤.集成學習之隨機森林算法綜述[J].信息通信技術，2018，12（1）：49-55.

[4] 周志華.機器學習[M].北京：清華大學出版社，2016：22-23.

[5] 李舟軍，范宇，吳賢杰.面向自然語言處理的預訓練技術研究綜述[J].計算機科學，2020，47（3）：162-173.

【通聯(lián)編輯：謝媛媛】

基金項目：2023 年湖南省教研教改項目“新工科”背景下基于崗位需求大數據分析的專業(yè)課程體系建設研（項目編號：HNJG-20230965）；2021 年湖南省大學生創(chuàng)新訓練項目：一種新型智能化的班級管理解決方案（項目編號：S202111342051）；2024年湖南工程學院大學生創(chuàng)新訓練項目：基于大數據分析的智能健康服務平臺的設計與研究（項目編號：湘教通〔2024〕118 號）