999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

心理健康狀態(tài)的情感分類與預測研究

2025-03-02 00:00:00劉青趙姝琪康宇文海洋
電腦知識與技術 2025年1期
關鍵詞:機器學習心理健康

摘要:心理健康問題是當今社會廣泛關注的熱點話題,隨著人工智能的不斷發(fā)展,機器學習技術為心理健康狀態(tài)的檢測提供了新的手段。該研究基于Kaggle平臺的心理健康數據集,開展情感分類研究,分別采用樸素貝葉斯、隨機森林、邏輯回歸和神經網絡算法構建了4種多分類模型。結果表明,隨機森林模型的分類正確率最高,達到89.86%,神經網絡次之,為88.90%。同時,通過比較4種模型在各個類別下的查準率、查全率和F1值發(fā)現(xiàn),隨機森林作為一種集成學習方法,在各類評價指標中均表現(xiàn)突出,在三個類別中的F1值分別為0.94、0.87和0.88。通過構建分類模型,有助于識別和分析心理健康相關的情感狀態(tài),為心理健康的早期預防和發(fā)現(xiàn)提供有效支持。

關鍵詞:心理健康;情感分類;機器學習

中圖分類號:C913.9 文獻標識碼:A

文章編號:1009-3044(2025)01-0019-04 開放科學(資源服務) 標識碼(OSID) :

0 引言

據世界衛(wèi)生組織(WHO) 統(tǒng)計,全球約有10億人受到精神障礙的困擾,且每40秒就有一人因自殺失去生命[1]。因此,重視心理健康的早期預防和干預顯得尤為重要。在心理健康領域,傳統(tǒng)的評估方法往往依賴于臨床訪談和問卷調查,雖然有效,但由于時間成本和主觀因素的影響,常常難以全面捕捉個體的心理狀態(tài)。近年來,科技的迅猛發(fā)展,尤其是機器學習和文本挖掘技術的進步,使得分析個體言論中所蘊含的情感狀態(tài)成為可能。特別是在社交媒體和在線交流日益普及的背景下,用戶的言論和情感表達成為研究的寶貴數據源。通過對這些數據的挖掘和分析,不僅可以及時發(fā)現(xiàn)心理健康問題,還能有效追蹤其發(fā)展趨勢,為專業(yè)人士提供重要的參考。

本文旨在構建一個有效的多分類模型,利用多種機器學習算法分析個體的心理健康狀態(tài),通過對不同模型性能的比較和分析,實現(xiàn)準確的識別和分類。本研究采用樸素貝葉斯、隨機森林、邏輯回歸以及神經網絡等多種算法,分析其在分類任務中的表現(xiàn),為心理健康檢測提供有效方法和重要參考依據。這一研究不僅有助于豐富該領域的技術應用,還能夠為后續(xù)的干預和治療方案制定提供科學依據,從而推動心理健康事業(yè)的發(fā)展。

1 數據處理與分析

本研究的數據選自Kaggle平臺的心理健康狀態(tài)的部分數據集,該數據集包含個人評論和類別標簽兩部分。本文選擇了具有代表性的三個類別“( Normal(0) 、Depression(1) 、Suicidal(2) ”) 的數據進行后續(xù)建模,部分數據內容如表1所示,包括評論(Statement) 及對應的類別標簽(Status) 。

對數據進行預處理,進行了如下操作,以確保文本的規(guī)范化,減少噪聲,提高后續(xù)模型的準確性。首先,文本中英文的大小寫差異通常不會影響詞語的實際含義,但會被模型視為不同的詞匯,因此將所有英文字母轉為小寫;其次,數字和標點符號在文本處理任務中并不提供直接的語義信息,為了簡化數據,刪除所有文本中的數字和標點符號;由于英文中的部分詞匯,如with、at、of等詞在文本語義中沒有實際含義,且出現(xiàn)的頻率較高,這些詞匯被稱為“停用詞”,為了提高文本的分類效率,本研究采用NLTK庫中的英文停用詞表來去除這些停用詞。

此外,由于三個類別“Normal(0) 、Depression(1) 、Suicidal(2) ”的樣本數分別為16 351、15 404和10 653,數據類別存在分布不均衡問題,為了避免模型偏向于某個類別,故對數據集進行了重采樣。采用上采樣的方式,隨機復制增加少數類別的樣本,使其數量增加到與多數類別樣本相同的數目。通過使用sklearn.utils.resample函數,對少數類樣本進行了上采樣,最終每個類別的樣本數均為16 343 個。訓練集包含36 771個樣本,約占總樣本數的75%,測試集樣本數為12 258個,通過這一處理,有助于提升模型的泛化能力,減少因類別不均衡而導致的預測偏差。

詞云圖是一個常用的文本數據可視化工具,將文本信息以圖形化形式展現(xiàn),使得復雜的文本數據能夠被更為直觀地理解。本研究分別繪制了三個類別的詞云圖,如圖1所示,從圖中可以看出,不同類別的詞云圖存在明顯的差異。對于Normal這一類別,包含了大量與日常生活相關的詞匯,如work、love等,而De?pression這一類別則多出現(xiàn)help、depression等相對消極、困擾的詞匯,Suicide則出現(xiàn)die、kill等更加極端的詞匯。通過詞云圖,不同類別文本的核心詞匯得以直觀呈現(xiàn),為后續(xù)的文本分類提供了重要的參考信息。

采用TF-IDF對預處理后的數據進行特征處理,該算法基本思想是通過某個詞的詞頻和出現(xiàn)過的文檔頻來衡量一個詞在文檔中的權重,其計算方式如下:

式中:nd,w 表示詞w 在文檔d 中出現(xiàn)的次數,Σwnd,w表示文檔 d 中出現(xiàn)的總詞數,| D|表示文檔總數,| w ∈ d |表示包含詞w的文檔數。

2 算法簡介

本文使用樸素貝葉斯、隨機森林、多分類的邏輯回歸以及神經網絡4種算法分別對心理健康狀態(tài)進行分類,下面對這4種算法進行簡要介紹。

2.1 樸素貝葉斯

樸素貝葉斯分類算法是一種基于貝葉斯定理的監(jiān)督學習算法,所謂“樸素”,是假設了樣本的每個特征之間相互獨立[2]。設每個樣本都是由m 維特征構成的向量,共有k 個類別c1 ,c2 ,...,ck,對于任意樣本x =(x1 ,x2 ,...,xm ),求解出最大后驗概率所對應的類別。根據貝葉斯公式和獨立性假設,后驗概率公式如下:

count (xj,ci )是類別為i且包含特征xj的文檔數。

2.2 隨機森林

隨機森林是采用并行的方式,通過組合多個決策樹,集成一個強學習器的模型[3],作為一種典型的Bag?ging算法,為了保證各棵樹之間的獨立性,隨機森林通常采用了隨機的有放回的抽取樣本、隨機的選擇k個特征以及對選取的特征進行隨機分割的方式實現(xiàn)構建不同的決策樹。與決策樹相比,其結果不易過擬合。步驟如下:

1) 使用自助抽樣,從訓練集D 中抽取T 個大小為n的數據集Dt;

2) 對于不同的數據子集Dt,從m 個特征中隨機選擇k 個特征,使用決策樹模型學習得到一個弱學習器ht (x);

3) 對T 棵樹進行集成,得到最終的分類器:H(x) = vote ({h } ) t (x) Tt = 1 。

2.3 邏輯回歸

邏輯回歸是一種常用的二分類模型,通過引入激活函數來解決分類問題。設對于任意樣本x,其類別標簽取值為y ∈ { 0,1 },采用Sigmoid 函數作為激活函數,公式如下:

它將線性函數的值域R 映射到(0,1) 之間,標簽y = 1的概率為:

則標簽y = 0的概率為:

其負log似然損失函數為:

J (w)=-y ln(P( y=1| x))-(1-y )ln(1-P( y=1| x)) (9)

由于本文解決的任務是三分類問題,故將二分類的邏輯回歸推廣到多分類邏輯回歸。設共有k 個類別,分別為c1 ,c2 ,...,ck,采用Softmax函數預測屬于類別c 的概率,即:

引入類別y 的獨熱編碼向量為yc = I (y = c),則多分類模型的負log似然損失函數為:

2.4 神經網絡

神經網絡是當前最熱門的機器學習技術之一,其已廣泛應用于計算機視覺、自然語言處理等眾多領域[4]。前饋神經網絡(MLP、FNN)是最常見的一種網絡結構,分為輸入層、隱藏層和輸出層,通過逐層傳遞得到最終結果[5]。可將該過程視為一個非線性復合映射,首先將輸入樣本x 作為第一層的輸入a(0 ) = x,通過如下方式進行信息傳播:

z(l) = W (l) a(l - 1) + b(l) (12)

a(l) = f (z(l) ) (13)

式中:W (l) 表示第l 層的權重矩陣,b(l) 表示第l 層的偏置項,a(l) 作為第l 層的輸出,f 表示激活函數。下文將采用兩層隱藏層的神經網絡,每層有50個神經元,激活函數為ReLU函數,以實現(xiàn)心理健康狀態(tài)的多分類任務。

3 實驗結果

本研究采用多項式樸素貝葉斯(MNB) 、隨機森林(RF) 、多分類邏輯回歸(LR) 以及神經網絡(MLP) 構建了4 種模型,其正確率分別為78.85%、89.86%、84.68% 和88.80%。對于多項式樸素貝葉斯,盡管該算法計算效率較高,但其性能會受到特征獨立性假設的限制,因此在處理復雜的文本數據時,往往無法捕捉到更深層次的特征關系,導致其正確率較低。邏輯回歸雖然其結果優(yōu)于多項式樸素貝葉斯,但在處理非線性問題時表現(xiàn)欠佳。神經網絡具備強大的非線性建模能力,其分類正確率較高,但在超參數調整和訓練過程中存在過擬合的風險,在本次實驗中其表現(xiàn)略遜于隨機森林。隨機森林作為一種集成學習方法,能夠自動處理特征之間的非線性關系,因此在分類任務中表現(xiàn)出色,并且對異常值和噪聲具有較強的魯棒性,這使得其正確率最高,達到89.86%。

表2展示了4種模型在各個類別下的查準率、查全率和F1值。從結果可以看出,4種模型對第一個類別“( Normal”) 的分類效果最好,各模型在該類別上可能學習到了更充分的特征信息,具有較高的查準率和查全率;對于其他類別,各模型的表現(xiàn)則存在一定差異。隨機森林和神經網絡在多個類別上的F1值均較高,且優(yōu)于樸素貝葉斯和邏輯回歸,展現(xiàn)出良好的分類效果。

此外,本研究繪制了4種模型的ROC曲線圖,每幅圖展示了三個類別各自的ROC曲線以及基于宏平均的ROC曲線,同時計算了AUC值(ROC曲線下方的面積) 。ROC曲線越靠近左上角,表明模型效果越好,說明在不同的分類閾值下,模型具有良好的敏感性表現(xiàn)。通過分析可以發(fā)現(xiàn),隨機森林模型在單個類別及整體上均表現(xiàn)出較強的分類能力,其宏平均AUC值最高,達到0.98,這表明隨機森林能夠很好地區(qū)分各個類別。這得益于其集成學習的特點,使其在處理復雜特征時表現(xiàn)更為穩(wěn)健。神經網絡次之,其宏平均AUC 值為0.96,顯示出了神經網絡在處理文本復雜特征問題中的優(yōu)勢。樸素貝葉斯和邏輯回歸的宏平均AUC值均為0.95,在各個類別的識別能力上存在差異。

同時,在隨機森林模型中,本研究繪制了特征重要性柱狀圖,展示了對分類任務貢獻最大的前8個詞匯,依次為:depression、feel、cannot、die、life等。這些詞匯在模型分類過程中起到了關鍵作用,其重要性越高,對模型的預測結果影響越顯著。例如,depression 一詞明確指向負面的情感狀態(tài),在文本分類中,該詞匯的頻繁出現(xiàn)通常能反映個體的心理健康狀態(tài),因此在分類模型中被賦予較高的特征重要性;cannot表達了一種無力感,通常出現(xiàn)在描述失落感的句子中,是心理健康狀態(tài)的重要指示因素,模型通過這一特征可以有效識別出相關文本。這一結果與之前的詞云圖分析相近,進一步驗證了這些詞匯在區(qū)分不同心理健康狀態(tài)時的顯著作用,也為心理健康領域的研究提供了更有針對性的解決方案。

4 結束語

本研究針對心理健康狀態(tài)的數據開展情感分類研究。首先,通過數據預處理和特征提取對原始文本數據進行轉化,分別構建了樸素貝葉斯、隨機森林、邏輯回歸和神經網絡4種不同模型,并對分類效果進行比較分析。結果表明,隨機森林在整體分類性能上表現(xiàn)最佳,其正確率達到89.86%,神經網絡次之。同時,本研究比較了4種模型在不同類別的查全率、查準率、F1值以及AUC值等多項評價指標,其中隨機森林在各項指標中均表現(xiàn)突出。通過對個體言論的文本數據進行建模與分析,證實了個體的文本表達能夠有效反映其心理健康狀態(tài)。分析結果顯示,情感分類模型能夠識別出潛在的心理健康問題,有助于發(fā)現(xiàn)個體的情緒困擾和心理狀態(tài)變化。這種方法不僅提供了對個體心理健康的監(jiān)測手段,還能幫助相關專業(yè)人士制定針對性的干預措施,從而改善個體的心理健康狀況。本研究采用機器學習模型對文本數據進行了心理健康狀態(tài)的分類研究,后續(xù)研究可通過使用更復雜的深度學習模型追蹤情感變化的動態(tài)趨勢,進一步推動人工智能在心理健康領域中的應用。

參考文獻:

[1] 羅燕.從“心”出發(fā),讓社區(qū)居民更幸福[J].民生周刊,2023(16):52-53.

[2] 徐軍,丁宇新,王曉龍.使用機器學習方法進行新聞的情感自動分類[J].中文信息學報,2007,21(6):95-100.

[3] 王奕森,夏樹濤.集成學習之隨機森林算法綜述[J].信息通信技術,2018,12(1):49-55.

[4] 周志華.機器學習[M].北京:清華大學出版社,2016:22-23.

[5] 李舟軍,范宇,吳賢杰.面向自然語言處理的預訓練技術研究綜述[J].計算機科學,2020,47(3):162-173.

【通聯(lián)編輯:謝媛媛】

基金項目:2023 年湖南省教研教改項目“新工科”背景下基于崗位需求大數據分析的專業(yè)課程體系建設研(項目編號:HNJG-20230965) ;2021 年湖南省大學生創(chuàng)新訓練項目:一種新型智能化的班級管理解決方案(項目編號:S202111342051) ;2024年湖南工程學院大學生創(chuàng)新訓練項目:基于大數據分析的智能健康服務平臺的設計與研究(項目編號:湘教通〔2024〕118 號)

猜你喜歡
機器學習心理健康
心理健康
品牌研究(2022年9期)2022-04-06 02:41:56
心理健康
品牌研究(2022年8期)2022-03-23 06:49:06
心理健康
品牌研究(2022年6期)2022-03-23 05:25:50
心理健康
品牌研究(2022年1期)2022-03-18 02:01:10
心理健康
品牌研究(2022年2期)2022-03-14 08:49:56
基于詞典與機器學習的中文微博情感分析
基于網絡搜索數據的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
基于支持向量機的金融數據分析研究
機器學習理論在高中自主學習中的應用
主站蜘蛛池模板: 国产精品林美惠子在线播放| 日本欧美中文字幕精品亚洲| 国产微拍一区二区三区四区| 人人艹人人爽| 欧美成人怡春院在线激情| 亚洲综合第一页| 最新国产在线| 这里只有精品在线| 亚洲黄网视频| 精品一区二区三区四区五区| 久久综合九色综合97网| 中文无码影院| 91丝袜乱伦| 免费在线国产一区二区三区精品| 毛片在线播放网址| 成人韩免费网站| 国产精品美女自慰喷水| a网站在线观看| 成人精品在线观看| 国产视频 第一页| 精品精品国产高清A毛片| 日本一区中文字幕最新在线| 中文精品久久久久国产网址| 国产一级视频在线观看网站| 99re这里只有国产中文精品国产精品 | 波多野结衣久久高清免费| 一本二本三本不卡无码| 97在线免费| 日本欧美视频在线观看| 在线亚洲小视频| 911亚洲精品| 免费人成黄页在线观看国产| 亚洲天天更新| 国产精品自拍合集| 中文字幕一区二区人妻电影| 国产亚洲高清视频| 真人高潮娇喘嗯啊在线观看| 亚洲狼网站狼狼鲁亚洲下载| 精品1区2区3区| 国产欧美精品一区aⅴ影院| 日韩av无码精品专区| 狠狠色综合久久狠狠色综合| 久久不卡国产精品无码| 狠狠躁天天躁夜夜躁婷婷| 亚洲a级在线观看| 日韩第一页在线| 欧美精品另类| 精品视频福利| 欧美国产精品拍自| 成人在线观看不卡| 欧美中文字幕在线播放| 伊人五月丁香综合AⅤ| 九色在线观看视频| 亚洲人精品亚洲人成在线| 麻豆精品国产自产在线| 国产成人精品一区二区不卡| 色亚洲成人| 国产区免费精品视频| 国产精品第5页| 欧美a在线看| 亚洲天堂精品在线| 亚洲一欧洲中文字幕在线| 国产成人一二三| 日韩精品无码免费一区二区三区| 亚洲第一页在线观看| 日本人又色又爽的视频| 中文字幕日韩欧美| 九九这里只有精品视频| 99久久人妻精品免费二区| 国产超碰一区二区三区| 免费在线观看av| www.精品国产| 久久人妻系列无码一区| 免费观看国产小粉嫩喷水| 国产91成人| 国产女人在线观看| 日韩av电影一区二区三区四区| 亚洲黄色视频在线观看一区| 亚洲最大福利视频网| 亚洲成在人线av品善网好看| 国产小视频免费观看| 国内精品九九久久久精品|