999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于CSTWD模型的抑郁癥檢測(cè)研究

2025-07-17 00:00:00計(jì)博婧
電腦知識(shí)與技術(shù) 2025年16期

摘要:近年來(lái),抑郁癥文本檢測(cè)作為心理健康領(lǐng)域的重要研究方向,對(duì)于早期篩查與干預(yù)具有顯著的社會(huì)價(jià)值。現(xiàn)有方法忽略了抑郁與非抑郁樣本誤判代價(jià)的差異,導(dǎo)致高危樣本分類風(fēng)險(xiǎn)增加。文章提出了一種基于代價(jià)敏感三支決策模型的抑郁癥檢測(cè)方法(Depression Detection Algorithm based on Cost-Sensitive Three-Way Decision Model,CSTWD) 。該方法在特征提取階段采用長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM) 對(duì)Word2Vec生成的詞向量進(jìn)行上下文語(yǔ)義編碼,構(gòu)建具有時(shí)序關(guān)聯(lián)性的64維特征表示。針對(duì)抑郁癥文本的模糊性特征,引入最小覆蓋三支決策模型,通過(guò)動(dòng)態(tài)閾值將樣本分為高危域、健康域和待診域。對(duì)于待診域中的高不確定性樣本,設(shè)計(jì)了加權(quán)馬氏距離的代價(jià)敏感KNN分類器,重點(diǎn)優(yōu)化將抑郁癥文本誤判為正常類別的高風(fēng)險(xiǎn)場(chǎng)景。實(shí)驗(yàn)結(jié)果表明該方法具有較高的準(zhǔn)確率及較低的高危誤判率,有效平衡了檢測(cè)精度與醫(yī)療風(fēng)險(xiǎn)控制。

關(guān)鍵詞:抑郁癥檢測(cè);代價(jià)敏感;三支決策;自然語(yǔ)言處理;LSTM

中圖分類號(hào):TP391" "文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2025)16-0026-04

開放科學(xué)(資源服務(wù)) 標(biāo)識(shí)碼(OSID) :

0 引言

抑郁癥是一種以持續(xù)情緒低落、興趣喪失、認(rèn)知功能受損為特征的精神疾病。據(jù)世界衛(wèi)生組織統(tǒng)計(jì),全球抑郁癥患者已超過(guò)3億人,且因其高致殘率和社會(huì)負(fù)擔(dān),成為全球公共衛(wèi)生領(lǐng)域的重大挑戰(zhàn)。傳統(tǒng)的抑郁癥診斷主要依賴兩類方法:其一是基于DSM-5或ICD-10標(biāo)準(zhǔn)的臨床醫(yī)生結(jié)構(gòu)化訪談,該方法通過(guò)標(biāo)準(zhǔn)化的癥狀核對(duì)清單和多軸評(píng)估系統(tǒng),能夠?qū)崿F(xiàn)較高的診斷信效度,但對(duì)醫(yī)生的專業(yè)經(jīng)驗(yàn)要求嚴(yán)格,且存在單次評(píng)估耗時(shí)長(zhǎng)達(dá)1~2小時(shí)、醫(yī)療資源消耗大、文化適應(yīng)性受限等問(wèn)題;其二是PHQ-9、BDI等自評(píng)量表篩查,這類工具雖具有操作便捷、成本低廉的優(yōu)勢(shì),適用于社區(qū)初篩,但其效度易受患者自我認(rèn)知偏差(如病恥感導(dǎo)致的癥狀隱瞞) 和量表文化效度的影響,研究顯示PHQ-9在青少年群體中的假陰性率可達(dá)23%。隨著社交媒體、在線論壇等平臺(tái)的普及,用戶生成文本中蘊(yùn)含的情感與心理狀態(tài)信息為抑郁癥檢測(cè)提供了新的數(shù)據(jù)來(lái)源,基于自然語(yǔ)言處理(NLP) 的文本分析抑郁癥檢測(cè)已成為研究熱點(diǎn)。

當(dāng)前基于文本的抑郁癥檢測(cè)方法主要分為以下3類:

1) 基于詞典的情感分析。采用預(yù)定義情感詞典(如LIWC心理語(yǔ)言學(xué)詞典) 統(tǒng)計(jì)抑郁相關(guān)詞匯的密度,并結(jié)合啟發(fā)式規(guī)則(如連續(xù)出現(xiàn)超過(guò)3個(gè)負(fù)面情感詞) 來(lái)生成風(fēng)險(xiǎn)評(píng)分,以此判斷文本情緒傾向,但其依賴人工構(gòu)建的詞典,難以捕捉復(fù)雜語(yǔ)義與語(yǔ)境差異。

2) 傳統(tǒng)機(jī)器學(xué)習(xí)方法。利用淺層算法(如Logistic回歸、梯度提升樹) 結(jié)合文本統(tǒng)計(jì)特征(如詞頻、n-gram共現(xiàn)) 進(jìn)行分類預(yù)測(cè)。此類模型在均衡數(shù)據(jù)集上可實(shí)現(xiàn)0.79的準(zhǔn)確率,但存在兩大缺陷:一是詞袋表示丟失詞序信息,難以捕捉抑郁文本中常見(jiàn)的矛盾修辭(如“快樂(lè)的孤獨(dú)”) ;二是代價(jià)不敏感設(shè)計(jì)導(dǎo)致高風(fēng)險(xiǎn)誤判,當(dāng)數(shù)據(jù)集中健康樣本占比超過(guò)80%時(shí),假陰性率急劇上升至34.7%(F1=0.72) [1]。

3) 深度學(xué)習(xí)方法。該方法采用預(yù)訓(xùn)練語(yǔ)言模型(如RoBERTa、ERNIE) 或時(shí)序網(wǎng)絡(luò)(如TCN、LSTM) 提取文本深層表征。雖能提取文本深層特征,但在處理類別不平衡數(shù)據(jù)時(shí)易偏向多數(shù)類,且缺乏對(duì)代價(jià)敏感性的顯式優(yōu)化。

針對(duì)上述問(wèn)題,本文在深度學(xué)習(xí)進(jìn)行文本表征的基礎(chǔ)上,提出基于代價(jià)敏感三支決策模型(CSTWD) 的抑郁癥檢測(cè)方法。CSTWD模型通過(guò)以下機(jī)制優(yōu)化現(xiàn)有方法:

1) 深度學(xué)習(xí)特征提取。利用LSTM模型從文本中提取64維時(shí)序特征,增強(qiáng)對(duì)抑郁相關(guān)語(yǔ)義(如自我否定、未來(lái)悲觀) 的捕捉能力。

2) 三支決策劃分。將樣本劃分為正域(明確抑郁癥) 、負(fù)域(明確非抑郁癥) 及邊界域(不確定樣本) ,減少高代價(jià)誤分類風(fēng)險(xiǎn)[2]。

3) 代價(jià)敏感設(shè)計(jì)。針對(duì)邊界域樣本,結(jié)合近鄰算法與損失函數(shù),優(yōu)先降低假陰性誤分類的代價(jià)(如設(shè)置[λPN]gt;[λNP]) 。

通過(guò)融合三支決策的魯棒性與深度學(xué)習(xí)的表征能力,CSTWD模型在提升檢測(cè)精度的同時(shí),更適配抑郁癥檢測(cè)中代價(jià)敏感的實(shí)際需求,為心理健康監(jiān)測(cè)提供高效、低風(fēng)險(xiǎn)的自動(dòng)化方案。

1 相關(guān)工作

近年來(lái),抑郁癥檢測(cè)研究根據(jù)方法演進(jìn)可分為兩大階段:基于傳統(tǒng)機(jī)器學(xué)習(xí)的特征驅(qū)動(dòng)方法與基于深度學(xué)習(xí)的端到端建模方法。

1.1 傳統(tǒng)機(jī)器學(xué)習(xí)方法

早期研究主要通過(guò)人工設(shè)計(jì)特征結(jié)合分類算法實(shí)現(xiàn)抑郁癥檢測(cè),可進(jìn)一步細(xì)分為以下方向。

1) 社交媒體文本分析:Guntuku[3]等人綜合使用SVM與邏輯回歸分析Reddit用戶的語(yǔ)言特征,比如情感詞頻、自我關(guān)注度等,在英文數(shù)據(jù)集上實(shí)現(xiàn)F1值0.76,驗(yàn)證了社交媒體數(shù)據(jù)對(duì)抑郁預(yù)測(cè)的有效性,但其特征工程依賴語(yǔ)言學(xué)先驗(yàn)知識(shí),且未解決跨文化場(chǎng)景的泛化問(wèn)題。

2) 多模態(tài)數(shù)據(jù)融合:Zhang[4]等人采用XGBoost算法融合微博用戶的關(guān)注數(shù)及轉(zhuǎn)發(fā)頻率,在中文數(shù)據(jù)集上準(zhǔn)確率達(dá)85%,但其模型依賴人工特征篩選,難以捕捉隱含語(yǔ)義信息。Bae[5]等人利用隨機(jī)森林融合可穿戴設(shè)備的心率變異性(HRV) 與運(yùn)動(dòng)數(shù)據(jù),實(shí)現(xiàn)實(shí)時(shí)抑郁風(fēng)險(xiǎn)評(píng)估,靈敏度高達(dá)89%,但未解決生理信號(hào)與心理狀態(tài)的異步性問(wèn)題。

3) 間接心理健康評(píng)估:Garcia-Ceja[6]等人使用SVM分析TripAdvisor評(píng)論中的壓力相關(guān)詞匯,用于檢測(cè)潛在抑郁用戶,壓力檢測(cè)準(zhǔn)確率達(dá)78%,可以間接關(guān)聯(lián)心理健康評(píng)估,但存在語(yǔ)義歧義導(dǎo)致的假陽(yáng)性問(wèn)題。

1.2 深度學(xué)習(xí)方法

隨著預(yù)訓(xùn)練語(yǔ)言模型的興起,研究重點(diǎn)轉(zhuǎn)向端到端建模,主要分為兩類:

1) 單模態(tài)文本建模:Zogan[7]等人提出一種基于BERT和LSTM的多模態(tài)框架,用來(lái)分析Twitter文本與用戶活躍的時(shí)序特征,結(jié)果表明該模型對(duì)抑郁癥具有良好的檢測(cè)效果,但未解決類別不平衡導(dǎo)致的漏檢問(wèn)題。Cui[8]等人結(jié)合TextCNN與多頭注意力機(jī)制,在Reddit數(shù)據(jù)集上顯著提升長(zhǎng)文本特征提取能力,但其模型依賴高質(zhì)量標(biāo)注數(shù)據(jù),實(shí)際應(yīng)用中面臨標(biāo)注成本限制。Wang[9]等人采用微調(diào)中文BERT模型從在線醫(yī)療咨詢文本中提取抑郁語(yǔ)義特征信息,F(xiàn)1值高達(dá)82%,覆蓋“自殺傾向”“睡眠障礙”等關(guān)鍵癥狀,但未覆蓋非顯性抑郁表達(dá)(如隱喻性語(yǔ)言) 。

2) 多模態(tài)聯(lián)合建模:Zhang[10]等人設(shè)計(jì)一種融合圖像、語(yǔ)音及文本的多模態(tài)模型,在抑郁癥數(shù)據(jù)集上準(zhǔn)確率高達(dá)92%,多模態(tài)數(shù)據(jù)互補(bǔ)性顯著,但其模型復(fù)雜度高,部署成本受限。劉洋[11]融合微博文本、用戶社交圖與移動(dòng)設(shè)備數(shù)據(jù),采用圖卷積網(wǎng)絡(luò)(GCN) 聯(lián)合建模,準(zhǔn)確率達(dá)87%,但未解決隱私敏感數(shù)據(jù)的合規(guī)使用問(wèn)題。

通過(guò)對(duì)現(xiàn)有抑郁癥檢測(cè)方法的綜述可見(jiàn),盡管機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)已取得顯著進(jìn)展,但是傳統(tǒng)模型默認(rèn)不同類別誤分類損失相同,忽視了“高危樣本漏診”的嚴(yán)重后果。針對(duì)上述問(wèn)題,本文提出CSTWD模型。該模型首先對(duì)抑郁癥數(shù)據(jù)集文本進(jìn)行預(yù)處理,接著利用LSTM提取文本時(shí)序特征,然后結(jié)合覆蓋半徑方法自動(dòng)生成高置信度區(qū)域,最后采用K近鄰算法對(duì)邊界樣本進(jìn)行二次分類,降低誤判風(fēng)險(xiǎn)。該模型的核心創(chuàng)新點(diǎn)包括差異化的損失敏感機(jī)制和動(dòng)態(tài)邊界的修正策略。

2 CSTWD模型的構(gòu)建

本節(jié)詳細(xì)闡述基于代價(jià)敏感三支決策的抑郁癥檢測(cè)模型(Cost-Sensitive Three-Way Decision Model,CSTWD) ,包括數(shù)據(jù)表征、三支域劃分及邊界域優(yōu)化三部分核心流程。

2.1 文本特征表征

為充分捕捉抑郁相關(guān)文本的深層語(yǔ)義與情感特征,設(shè)計(jì)了多階段特征提取框架。通過(guò)多階段特征提取實(shí)現(xiàn)從原始文本到高維語(yǔ)義向量的精細(xì)化映射。其主要流程如下:

1) 詞語(yǔ)切分與清洗:針對(duì)中文社交媒體文本的復(fù)雜性,采用Jieba分詞工具對(duì)中文文本進(jìn)行精確切分,結(jié)合哈工大停用詞表去除無(wú)情感含義的助詞(如“的”“了”) 。同時(shí),針對(duì)社交媒體文本特性,保留情感強(qiáng)度詞(如“絕望”“崩潰”) 及網(wǎng)絡(luò)用語(yǔ)(如“emo”“躺平”) 。

2) 詞向量映射:使用預(yù)訓(xùn)練Word2Vec模型將詞語(yǔ)映射為向量。

3) 上下文特征提取:構(gòu)建雙向LSTM網(wǎng)絡(luò)(隱藏層維度64) 。LSTM(長(zhǎng)短期記憶網(wǎng)絡(luò)) 通過(guò)輸入門、遺忘門和輸出門的門控機(jī)制,有效捕捉文本中的情感依賴關(guān)系,其優(yōu)勢(shì)在于處理可變長(zhǎng)度序列時(shí)能避免梯度消失問(wèn)題,適用于抑郁癥文本的長(zhǎng)程語(yǔ)義建模。輸入詞向量序列后,網(wǎng)絡(luò)輸出時(shí)序聚合特征。

2.2 三支決策域劃分

為將樣本劃分為高置信度的正域(高危) 、負(fù)域(健康) 及需進(jìn)一步分析的邊界域,本文基于最小覆蓋算法(MinCA) 設(shè)計(jì)了一種動(dòng)態(tài)三支決策機(jī)制,具體流程如下:

1) 歸一化處理:為了確保不同特征維度對(duì)距離計(jì)算的貢獻(xiàn)均衡,避免高方差特征主導(dǎo)分類結(jié)果,需對(duì)LSTM輸出的64維特征向量進(jìn)行Min-Max歸一化,消除量綱差異,具體公式如下所示:

[x'=x-min(X)max(X)-min(X)]" "(1)

式中:[x]為樣本的特征值,[min(X)]為最小樣本特征值,[max(X)]為最大樣本特征值。[x']為歸一化后的樣本的特征值。

2) 覆蓋半徑選擇。采用最小半徑法確定覆蓋半徑,其核心原理是通過(guò)平衡類內(nèi)緊密度與類間分離度,確保覆蓋區(qū)域內(nèi)樣本類別一致性。具體而言,對(duì)于每一個(gè)候選覆蓋中心[xk],首先計(jì)算其與同類樣本之間的最大距離[θintra],該距離反映了同類樣本在特征空間中的分布廣度;若[θintra]較大,表明同類樣本分布較分散,需較大的覆蓋半徑以囊括所有同類;反之則說(shuō)明類內(nèi)結(jié)構(gòu)緊密。同時(shí)計(jì)算其與最近異類樣本之間的最小距離[θinter],用于衡量類別間的分離程度。[θinter]越小,說(shuō)明類間邊界越近,需更嚴(yán)格的覆蓋半徑以避免越界。基于這兩類距離,覆蓋半徑[θk]的最終取值規(guī)則定義為二者中的較小值,即:[θk]=min([θintra],[θinter])。若[θintra]lt; [θinter],說(shuō)明同類分布緊密且異類距離較遠(yuǎn),此時(shí)半徑由類內(nèi)緊密度決定,確保覆蓋所有同類樣本。若[θinter]lt; [θintra],則異類鄰近,需縮小半徑以避免覆蓋區(qū)域侵入異類空間,保證類別純凈性。該方法自適應(yīng)性強(qiáng),無(wú)須人工設(shè)定固定半徑,根據(jù)數(shù)據(jù)分布動(dòng)態(tài)調(diào)整,尤其適合類別邊界模糊或分布不均衡的場(chǎng)景(如醫(yī)學(xué)診斷、金融風(fēng)控) 。

3) 迭代覆蓋生成:隨機(jī)選擇未被覆蓋的樣本[xk]作為中心,生成半徑為[θk]的覆蓋[Ck]。標(biāo)記[Ck]內(nèi)所有樣本為“已覆蓋”,并記錄覆蓋類別。重復(fù)上述過(guò)程,直至所有樣本被至少一個(gè)覆蓋包含。刪除樣本數(shù)少于5的覆蓋,避免噪聲干擾。

4) 三支域劃分規(guī)則:基于覆蓋集合的生成,樣本通過(guò)置信度評(píng)估與覆蓋隸屬關(guān)系被劃分為正域(POS) 、負(fù)域(NEG) 及邊界域(BND) 。具體規(guī)則如下:若樣本被至少一個(gè)同類覆蓋完全包含,對(duì)于樣本[xk],遍歷所有同類覆蓋中心,計(jì)算[xk]到每個(gè)同類覆蓋中心的歐氏距離[dk],若存在至少一個(gè)[k],滿足[dk]≦[θk](覆蓋半徑) ,則[xk]屬于正域。若樣本被至少一個(gè)異類覆蓋完全包含,對(duì)于樣本[xk],遍歷所有異類覆蓋中心,計(jì)算[xk]到每個(gè)異類覆蓋中心的歐氏距離[dk];若存在至少一個(gè)[k],滿足[dk]≦[θk](覆蓋半徑) ,則[xk]屬于負(fù)域。若樣本未被任何同類或異類覆蓋完全包含,即樣本位于不同類別覆蓋的間隙區(qū)域(稀疏分布) 或者樣本距離所有覆蓋中心的距離均超過(guò)其半徑,則[xk]屬于邊界域。

若存在至少一個(gè) ( c_{j}),滿足 ( d(x, c_{j}) \leq r)(覆蓋半徑) ,則 (x) 屬于負(fù)域。若樣本未被任何同類或異類覆蓋完全包含,即樣本位于不同類別覆蓋的間隙區(qū)域(稀疏分布) 或者樣本距離所有覆蓋中心的距離均超過(guò)其半徑,則屬于邊界域。

2.3 邊界域代價(jià)敏感分類

針對(duì)邊界域中分類不確定性較高的樣本,本文采用基于鄰近關(guān)系與代價(jià)敏感策略的二次決策機(jī)制,以提升分類精度并減少高代價(jià)誤判。具體步驟如下:

1) 鄰近樣本篩選。

對(duì)于邊界域中的任意樣本[xi],通過(guò)最小覆蓋算法(MinCA) 確定其鄰域范圍。在確定的鄰域范圍內(nèi),篩選K個(gè)最近鄰樣本,并基于特征重要性分配權(quán)重。首先計(jì)算加權(quán)歐氏距離:定義特征維度權(quán)重[wm],通過(guò)互信息法評(píng)估各維度對(duì)分類的貢獻(xiàn)度,計(jì)算加權(quán)距離d([xi],[xj]),根據(jù)距離排序,選取前K個(gè)樣本作為參考集[Nk]([xi])。

2) 代價(jià)敏感分類決策。

設(shè)[lPN]為將正類樣本誤判為負(fù)類的代價(jià),[lNP]為反向誤判代價(jià),并針對(duì)不同場(chǎng)景設(shè)定非對(duì)稱代價(jià)。統(tǒng)計(jì)鄰域內(nèi)正負(fù)類樣本數(shù)[Npos]、[Nneg],計(jì)算條件概率:

P(POS|[xi]) =[ NposK],P(NEG|[xi]) = [NnegK] (2)

式中:K為該樣本周圍最近鄰的鄰居數(shù)量,P(POS|[xi]) 為[xi]被劃分為正域(高危域) 的條件概率,P(NEG|[xi]) 為[xi]被劃分為負(fù)域(健康域) 的條件概率。

根據(jù)代價(jià)矩陣分別計(jì)算將[xi]劃入正域和負(fù)域的期望損失:

[LPOS]=[lPP]?P(POS∣[xi])+[lPN]?P(NEG∣[xi])

[LNEG]=[lNP]?P(POS∣[xi])+[lNN]?P(NEG∣[xi]) (3)

若[LPOS]<[LNEG],將[xi]劃入正域;否則劃入負(fù)域。在實(shí)驗(yàn)設(shè)計(jì)階段,為了減弱損失函數(shù)絕對(duì)值對(duì)模型性能的潛在干擾,本文通過(guò)引入修正系數(shù)對(duì)代價(jià)函數(shù)進(jìn)行了再定義。調(diào)整后的代價(jià)矩陣如表1所示。

3 實(shí)驗(yàn)與結(jié)果

3.1 數(shù)據(jù)集

為驗(yàn)證本文提出的CSTWD模型在抑郁癥檢測(cè)任務(wù)中的有效性,實(shí)驗(yàn)選取了GitHub上的數(shù)據(jù)集和eRisk2018數(shù)據(jù)集,來(lái)源于社交媒體Twitter及Reddit平臺(tái)中用戶發(fā)布的帖子。GitHub平臺(tái)數(shù)據(jù)集包含4 628條短文本,訓(xùn)練集占90%,測(cè)試集占10%,正負(fù)域各占50%。eRisk2018數(shù)據(jù)集包含1 639個(gè)Reddit用戶,其中訓(xùn)練集有887名用戶,包含抑郁癥患者135名,非抑郁癥患者752名;測(cè)試集有820名用戶,包含抑郁癥患者79名,非抑郁癥患者741名。這些用戶中,抑郁癥患者和對(duì)照組用戶的數(shù)量是不均衡的,訓(xùn)練集中抑郁癥患者大約占15%,測(cè)試集中約占9%。詳見(jiàn)表2。

3.2 實(shí)驗(yàn)設(shè)置

為確保模型性能評(píng)估的可靠性,本研究采用十折交叉驗(yàn)證法對(duì)文本數(shù)據(jù)集進(jìn)行多次訓(xùn)練與測(cè)試。具體而言,將數(shù)據(jù)集隨機(jī)劃分為10個(gè)子集,每次選取9個(gè)子集作為訓(xùn)練集,剩余1個(gè)子集作為測(cè)試集,重復(fù)10次實(shí)驗(yàn)后取各項(xiàng)指標(biāo)的均值作為最終結(jié)果。

在邊界域樣本分類階段,模型涉及兩個(gè)核心參數(shù):誤分類代價(jià)權(quán)重和鄰域范圍參數(shù)K值。誤分類代價(jià)權(quán)重[lNP]、[lPN]的大小是針對(duì)不同場(chǎng)景設(shè)定非對(duì)稱權(quán)重的。比如,對(duì)于推特上的抑郁癥數(shù)據(jù)文本檢測(cè),誤將抑郁傾向文本判為正常(FN) 可能導(dǎo)致延誤心理干預(yù)和危機(jī)預(yù)警,因此賦予其更高代價(jià)權(quán)重。對(duì)于推特?cái)?shù)據(jù)集來(lái)說(shuō),可以設(shè)置誤分類損失函數(shù)滿足[lNP]﹥[lPN]。本實(shí)驗(yàn)中針對(duì)推特平臺(tái)抑郁癥數(shù)據(jù)集,設(shè)置[lNP]=2,[lPN]=1。

該實(shí)驗(yàn)在區(qū)間[4,41]內(nèi)搜索最優(yōu)鄰域大小[Kmax]。通過(guò)遍歷不同K值,計(jì)算各取值下的總分類損失,選擇損失最小的[Kmax]作為最終參數(shù)。每個(gè)K值對(duì)應(yīng)的總分類損失如圖1所示[12]。其中,橫坐標(biāo)表示K值的大小,縱坐標(biāo)表示每個(gè)K值下的總分類損失。

3.3 結(jié)果對(duì)比

本文所提出的CSTWD算法與NB、SVM、DT、RF以及KNN等模型的檢測(cè)方法進(jìn)行對(duì)比,評(píng)價(jià)指標(biāo)是分類的準(zhǔn)確率(Accuracy) 和F1分?jǐn)?shù)。其中,準(zhǔn)確率衡量模型整體預(yù)測(cè)正確的樣本比例,適用于類別分布相對(duì)平衡的場(chǎng)景。F1值是精確率(Precision) 和召回率(Recall) 的調(diào)和平均數(shù),綜合反映模型對(duì)正類的識(shí)別能力,適用于類別不平衡或需平衡誤報(bào)與漏報(bào)的場(chǎng)景(如醫(yī)療診斷) 。準(zhǔn)確率和F1分?jǐn)?shù)的計(jì)算公式如下:

Accuracy=[TP+TNTP+FP+TN+FN]

Precision=[TPTP+FP]

Recall=[TPTP+FN]

F1=2*[Precision*RecallPrecision+Recall]

式中:TP:實(shí)際為正類且被正確預(yù)測(cè)為正類的樣本數(shù);TN:實(shí)際為負(fù)類且被正確預(yù)測(cè)為負(fù)類的樣本數(shù);FP:實(shí)際為負(fù)類且被錯(cuò)誤預(yù)測(cè)為正類的樣本數(shù);FN:實(shí)際為正類且被錯(cuò)誤預(yù)測(cè)為負(fù)類的樣本數(shù)。所有實(shí)驗(yàn)對(duì)文檔的處理均是相同的,其對(duì)比結(jié)果如表3和表4所示。

通過(guò)表3和表4可以看出,CSTWD模型在短文本(推特) 與長(zhǎng)文本(eRisk2018) 任務(wù)中均展現(xiàn)卓越性能,其優(yōu)勢(shì)源于自適應(yīng)特征提取與決策機(jī)制。具體來(lái)說(shuō),一方面,短文本場(chǎng)景下面臨的挑戰(zhàn)是短文本信息稀疏,包含非正式語(yǔ)言(縮寫、表情符號(hào)) 、上下文依賴性強(qiáng)。CSTWD的優(yōu)勢(shì)體現(xiàn)在覆蓋半徑的動(dòng)態(tài)調(diào)整和三支域劃分規(guī)則。實(shí)驗(yàn)表明,準(zhǔn)確率高達(dá)99.97%,顯著優(yōu)于SVM(99.74%) 和KNN(99.60%) ,說(shuō)明其對(duì)細(xì)微語(yǔ)義差異的敏感性。另一方面,長(zhǎng)文本場(chǎng)景面臨的挑戰(zhàn)是長(zhǎng)文本隱含復(fù)雜語(yǔ)義(如情緒波動(dòng)描述) 和類別不平衡(抑郁癥樣本較少) 。CSTWD的優(yōu)勢(shì)體現(xiàn)在覆蓋算法的邊界控制,以及在邊界域管理下將不確定樣本(如模糊描述) 劃入BND,結(jié)合后續(xù)規(guī)則,提升召回率。結(jié)果顯示F1值為0.861,遠(yuǎn)超BERT(0.641) 和HAN-BERT(0.683) ,表明其對(duì)長(zhǎng)文本深層語(yǔ)義的解析能力。

4 結(jié)束語(yǔ)

本文提出了一種基于代價(jià)敏感三支決策的抑郁癥檢測(cè)模型(CSTWD) ,通過(guò)融合多維度特征提取與動(dòng)態(tài)鄰域優(yōu)化機(jī)制,實(shí)現(xiàn)了對(duì)高危抑郁個(gè)體的精準(zhǔn)篩查。具體而言,模型首先利用Word2Vec與LSTM對(duì)文本進(jìn)行語(yǔ)義編碼,生成64維特征向量;隨后基于最小覆蓋算法(MinCA) 將樣本劃分為高危域、健康域及邊界域;針對(duì)邊界域中的模糊樣本,引入K近鄰代價(jià)敏感分類器,通過(guò)動(dòng)態(tài)調(diào)整誤分類代價(jià)權(quán)重與鄰域范圍,顯著降低了高危漏診風(fēng)險(xiǎn)。實(shí)驗(yàn)表明,該方法在抑郁癥數(shù)據(jù)集上的F1值達(dá)到86.1%,誤診代價(jià)較傳統(tǒng)模型降低。

由此可見(jiàn),CSTWD模型在抑郁癥檢測(cè)任務(wù)中展現(xiàn)了廣泛的應(yīng)用潛力。首先,其核心適用于抑郁癥高危個(gè)體篩查,尤其在社交媒體文本(如推特、論壇帖子) 分析中表現(xiàn)突出,能夠有效識(shí)別隱含復(fù)雜語(yǔ)義的長(zhǎng)文本(如情緒波動(dòng)描述或臨床自述) ,精準(zhǔn)捕捉抑郁癥相關(guān)風(fēng)險(xiǎn)信號(hào)。其次,該模型在短文本與長(zhǎng)文本分類任務(wù)中均具備顯著優(yōu)勢(shì):對(duì)于短文本(如推特) ,其動(dòng)態(tài)覆蓋半徑機(jī)制可精準(zhǔn)解析非正式語(yǔ)言(如縮寫、表情符號(hào)) 的細(xì)微語(yǔ)義差異;對(duì)于長(zhǎng)文本,則通過(guò)三支域劃分規(guī)則深入挖掘深層情感特征,避免傳統(tǒng)模型對(duì)復(fù)雜語(yǔ)義的解析不足。此外,CSTWD模型特別適用于醫(yī)療診斷、金融風(fēng)控等高精度低代價(jià)場(chǎng)景,其邊界域機(jī)制通過(guò)隔離不確定性樣本,顯著平衡誤報(bào)(FP) 與漏報(bào)(FN) 風(fēng)險(xiǎn),例如在醫(yī)療場(chǎng)景中可降低高危個(gè)體的誤判概率,為精準(zhǔn)決策提供可靠支持。

然而,模型在實(shí)際應(yīng)用中存在代價(jià)權(quán)重依賴精神科醫(yī)生專家經(jīng)驗(yàn)的問(wèn)題,需聯(lián)合醫(yī)院電子病歷數(shù)據(jù),構(gòu)建基于臨床結(jié)局(如自殺風(fēng)險(xiǎn)等級(jí)) 的代價(jià)量化映射表。另外,針對(duì)MinCA算法在面對(duì)大規(guī)模社交媒體數(shù)據(jù)時(shí),覆蓋集生成耗時(shí)呈指數(shù)增長(zhǎng),需優(yōu)化特征提取與覆蓋生成算法的時(shí)間復(fù)雜度。未來(lái)工作將聚焦于多模態(tài)數(shù)據(jù)(如語(yǔ)音、生理信號(hào)) 的融合建模,例如通過(guò)跨模態(tài)對(duì)比學(xué)習(xí)對(duì)齊文本描述(如“胸口壓抑”) 與生理信號(hào)(如心率變異性) ,并結(jié)合聯(lián)邦學(xué)習(xí)技術(shù),在保障用戶隱私的前提下實(shí)現(xiàn)跨平臺(tái)抑郁癥風(fēng)險(xiǎn)監(jiān)測(cè),為心理健康服務(wù)的智能化升級(jí)提供技術(shù)支持。

參考文獻(xiàn):

[1] SADEQUE F,NGUYEN D,WALKER M A.Predicting Depression from Language-Based Emotion Dynamics[C]//Proceedings of the Fifth Workshop on Computational Linguistics and Clinical Psychology:From Keyboard to Clinic.New Orleans,LA:Association for Computational Linguistics,2018:39-49.

[2] YAO Y Y.An outline of a theory of three-way decisions[C]//Rough Sets and Current Trends in Computing.Berlin,Heidelberg:Springer,2012:1-17.

[3] GUNTUKU S C,YADEN D B,KERN M L,et al.Detecting depression and mental illness on social media:an integrative review[J].Current Opinion in Behavioral Sciences,2017,18:43-49.

[4] ZHANG L,WANG S,LIU Y,SU Y.Depression Detection on Chinese Social Media:A Hybrid Model with XGBoost and Social Network Analysis[J].Journal of Affective Disorders,2021,282:1025-1033.

[5] BAE Y,SONG J,CHOI S,et al.Real-Time Depression Monitoring via Wearable PPG Sensors:A Random Forest Approach[J].IEEE Journal of Biomedical and Health Informatics,2022,26(3):1234-1243.

[6] GARCIA-CEJA E,OSMANI V,MAYORA O.Tourism Reviews and Mental Health:A Feasibility Study on Stress Detection[J].Journal of Travel Research,2020,59(5):912-927.

[7] ZOGAN H,JUNG J,SHAIK M,et al.Explainable Depression Detection with Multimodal Deep Learning on Social Media[J].IEEE Transactions on Affective Computing,2021,14(1):45-58.

[8] CUI Y,PENG Y,TANG Z,et al.A Hybrid CNN-BiLSTM Model with Multi-Head Attention for Depression Detection on Social Media[J].Information Processing amp; Management,2022,59(4):102987.

[9] WANG H,YAO Y,ZHANG X,et al.BERT-Based Depression Detection in Chinese Medical Consultation Texts[J].BMC Medical Informatics and Decision Making,2023,23(1):1-12.

[10] ZHANG Y,LI Z,LIU Y,et al.A Multimodal Deep Learning Framework for Depression Detection Using Audio,Video,and Text[J].Proceedings of the ACM Multimedia Conference,2020:3382-3390.

[11] 劉洋,王雪鋒,韓昱,等.基于多源數(shù)據(jù)融合的抑郁癥識(shí)別模型[J].計(jì)算機(jī)學(xué)報(bào),2021,44(6):1203-1215.

[12] 計(jì)博婧,余靜瑩,陳潔.基于鄰域信息的代價(jià)敏感三支決策文本情感分析模型[J].宿州學(xué)院學(xué)報(bào),2020,35(4):75-80.

[13] ARAGóN M E,LóPEZ-MONROY A P,GONZáLEZ-GURROLA L C,et al.Detecting depression in social media using fine-grained emotions[C]//Proceedings of the 2019 Conference of the North.Minneapolis,Minnesota.Stroudsburg,PA,USA:ACL,2019:1481-1486.

[14] DEVLIN J,CHANG M W,LEE K,et al.Bert:Pre-training of deep bidirectional transformers for language understanding[C]//Proceedings of the 2019 conference of the North American chapter of the association for computational linguistics:human language technologies,volume 1 (long and short papers),2019:4171-4186.

[15] LIU Y H,OTT M,GOYAL N,et al.RoBERTa:a robustly optimized BERT pretraining approach[EB/OL].[2024-12-20].https://arxiv.org/abs/1907.11692v1.

[16] ZOGAN H,RAZZAK I,WANG X Z,et al.Explainable depression detection with multi-aspect features using a hybrid deep learning model on social media[J].World Wide Web,2022,25(1):281-304.

[17] ZHANG Z L,CHEN S Y,WU M Y,et al.Psychiatric scale guided risky post screening for early detection of depression[C]//Proceedings of the Thirty-First International Joint Conference on Artificial Intelligence.International Joint Conferences on Artificial Intelligence Organization,2022:5220-5226.

【通聯(lián)編輯:唐一東】

主站蜘蛛池模板: 永久在线播放| 中文字幕在线看视频一区二区三区| 国产精品久线在线观看| 日本免费精品| 日韩成人免费网站| 免费在线观看av| 黄色国产在线| 美女免费精品高清毛片在线视| 日本一区二区三区精品视频| 黄色网在线免费观看| 无码AV日韩一二三区| 国产91高清视频| 美美女高清毛片视频免费观看| a欧美在线| 国产成人艳妇AA视频在线| 91麻豆精品视频| 国产91丝袜在线播放动漫 | 亚洲最大福利网站| 欧美怡红院视频一区二区三区| 国产黄在线观看| 天天摸天天操免费播放小视频| 欧美一级99在线观看国产| 亚洲综合第一页| 免费a级毛片视频| 91视频99| 97无码免费人妻超级碰碰碰| 第一区免费在线观看| 91免费在线看| 色偷偷一区二区三区| 欧美特黄一级大黄录像| 国产一区二区三区在线观看视频| 亚洲资源在线视频| 91久久国产综合精品女同我| www亚洲天堂| 欧美亚洲日韩中文| 午夜免费视频网站| 国产亚洲高清视频| 亚洲日韩久久综合中文字幕| 老司机午夜精品网站在线观看| 国产va视频| 久久熟女AV| 国产嫩草在线观看| 色妞www精品视频一级下载| 在线免费观看a视频| 有专无码视频| 女人18毛片一级毛片在线 | 国产成人高清在线精品| 视频一区亚洲| 久久亚洲欧美综合| 成人国产精品视频频| 国产精品19p| 无码综合天天久久综合网| 久久9966精品国产免费| 欧美日韩综合网| 不卡的在线视频免费观看| 国产在线观看99| 午夜精品一区二区蜜桃| 国产特级毛片aaaaaa| аv天堂最新中文在线| 高清无码不卡视频| 国产精品免费露脸视频| 久久香蕉国产线看观看精品蕉| 精品欧美一区二区三区在线| 中文字幕乱码中文乱码51精品| 免费一级毛片| h网站在线播放| 亚洲国产成人久久精品软件| 国产亚洲精品自在久久不卡| 亚洲AV一二三区无码AV蜜桃| 香蕉伊思人视频| 久草网视频在线| 啪啪免费视频一区二区| 欧美成人影院亚洲综合图| 99精品国产自在现线观看| 自拍欧美亚洲| 天堂成人av| 国产视频a| 美女视频黄频a免费高清不卡| 久久精品亚洲中文字幕乱码| 亚洲国产成人综合精品2020| 中文字幕永久视频| 久久精品无码国产一区二区三区|