


DOI:10.19850/j.cnki.2096-4706.2024.01.037
收稿日期:2023-05-18
摘? 要:文章通過研究社會化問答社區用戶的心理健康信息需求,為心理健康信息的傳播和推廣提供有價值的參考,并為心理健康領域的研究提供新的視角和思路。選取知乎平臺心理健康話題下的5 448條提問記錄作為數據集,利用LDA主題模型和人工標注的方法,結合馬斯洛需求層次理論,構建出用戶心理健康需求框架,接著通過分析主題和關鍵詞,研究用戶心理健康信息需求特征。結果表明,用戶更傾向于在夜間提出負面的心理健康問題,用戶的心理健康需求主要集中在癥狀和社會需求層面,對疾病預防缺乏應有的關注度。
關鍵詞:社會化問答社區;心理健康;信息需求;LDA主題模型
中圖分類號:TP391;G203;R-05? ? 文獻標識碼:A? 文章編號:2096-4706(2024)01-0175-06
Research on Users' Mental Health Information Needs Based on LDA Topic Model
—A Case of Social Q&A Community“Zhihu”
YAO Wanjing
(School of Information Resource Management, Liaoning University, Shenyang? 110136, China)
Abstract: By studying the mental health information needs of social Q&A community users, this paper provides valuable reference for the dissemination and promotion of mental health information, and provides a new perspective and thinking for the research in the field of mental health. 5 448 question records about the topic of mental health on Zhihu platform are selected as the data set, the LDA topic model and manual annotation method are used, combined with Maslow's Hierarchy of Needs, to construct the framework of users' mental health needs, and then the characteristics of users' mental health information needs are studied by analyzing topics and keywords. The results show that users are more likely to raise negative mental health problems at night, and the mental health needs of users mainly focus on the level of symptoms and social needs, without due attention to disease prevention.
Keywords: social Q&A community; mental health; information need; LDA topic model
0? 引? 言
心理健康是健康的重要組成部分,是人在成長和發展過程中,認知正確、情感適當、性格得當、行為恰當、適應良好的一種完好狀態。當前,隨著人們生活節奏的不斷加快,工作、學習、家庭等方面的壓力不斷加劇,公眾心理健康問題及其引發的社會問題逐漸顯露出來[1]。在中共中央、國務院印發的《“健康中國2030”規劃綱要》中指出,要大力宣傳心理健康科普知識,不斷提升我國公民的心理健康素質,對于心理問題重點人群,應做到早期發現和及時干預[2]。同時在數字化網絡時代,公眾對心理健康信息需求的表達更多地轉向線上平臺,如何更好地營造心理健康信息環境成為政府和互聯網平臺關注的焦點。因此,互聯網用戶的心理健康信息需求具有研究價值,通過挖掘用戶心理健康信息需求的特點,可以掌握用戶心理健康信息需求的主題偏好,更有針對性地為用戶提供心理健康知識服務[3]。
社會化問答社區是目前問答類社區的主要形式,用戶可以在其中相互提問、回答和分享知識。知乎平臺在社交化問答社區中擁有著重要的地位和影響力。在知乎中,用戶可以加深對知識的分享和人際的溝通,同時由于引入了協作機制使得離散的知識得以匯集,同時使得用戶間的融合變得更為緊密。知乎平臺是心理疾病患者交流信息、尋求幫助的主要渠道之一,在心理健康話題下的提問數據已累計達到22萬余條,而現有關于該話題的健康信息需求研究較為貧瘠。國內關于健康信息需求的研究主要是針對特定的疾病,如抑郁癥[4]、糖尿病[5]、高血壓[6]等,研究主題大多是對健康信息需求內容的比較分析[7],也有研究通過人工標注的方法對采集到的數據進行主題分析[8],但其所涉及的數據量以及對心理健康信息需求的分析較少。因此,為了解當前網絡環境下用戶對心理健康信息的各類需求,本文以知乎為例,選取該平臺上心理健康話題的5 448條提問記錄為研究對象,基于管理學領域的馬斯洛需求層次理論,構建出用戶心理健康信息需求框架,從而分析用戶心理健康信息需求特點,實現對用戶心理健康信息需求特征的度量,為心理健康領域的研究和實踐提供新的思路,為更好地營造心理健康信息環境提供參考。
1? 研究設計
1.1? 數據來源與采集
本文以國內最大的社會化問答社區——知乎為例,在知乎上,用戶可以進行提問、討論和互動。對于其他用戶所提出的問題,除了回復,還可以關注問題、贊同、分享和收藏。截至2022年12月,知乎中“心理健康”話題的瀏覽量超過48億,討論量達到462萬。本文利用爬蟲技術爬取了知乎平臺“心理健康”話題下2022年9—12月所有的提問,獲得了5 448條提問記錄,形成了心理健康提問數據集,包括標題、描述、提問時間、關注者數、回答數以及瀏覽數。
1.2? 數據處理
本文首先采用專業詞庫作為語料庫,并導入停用詞表對心理健康提問數據集做文本預處理。之后對提問數據進行分詞,將分詞后的數據類型轉變為語料的形式,最終構造成文檔詞條矩陣(DTM)。
1.3? LDA主題模型
本文使用潛在狄利克雷分布(LDA)主題模型來對用戶心理健康信息需求文本數據集進行分析。LDA主題模型是一個包含詞語、主題、文檔的三層貝葉斯概率模型,是一種無監督學習的文檔主題生成模型[9]。LDA主題模型能夠很好地發現隱藏的主題,對文本數據進行主題劃分,為本文構建用戶心理健康信息需求框架提供參考依據。其原理圖模型如圖1所示。
本文一共有M篇文檔,共涉及K個主題。每個文檔被建模為主題的多項分布,每個主題被建模為單詞的多項分布,其參數服從Dirichlet分布。在主題分布下,該Dirichlet分布的參數為α;在詞分布下,該Dirichlet分布的參數為β。對于某篇文檔中的第n個詞,首先從該文檔的主題分布中采樣一個主題,然后從該主題對應的詞分布中采樣一個詞,不斷重復上述的隨機生成過程,直到M篇文檔全部完成。
在LDA主題模型中,每個主體或每個詞的抽樣過程都是獨立的,其中,第m篇文檔的聯合概率分布為:
(1)
整個文檔集合的聯合概率分布為:
(2)
第m個文檔生成的概率為:
所有文檔生成的概率為:
1.4? 需求識別
由于本文涉及醫學健康領域的知識,僅依靠LDA主題模型的分類無法保證其準確性,因此需要將LDA主題劃分結果進行進一步的需求識別。本文以LDA主題模型劃分結果為參考依據,結合管理學領域的馬斯洛需求層次理論[10],最終構建出用戶心理健康信息需求框架。接著利用TF-IDF提取出需求框架中各類型的主題關鍵詞,對提取出的關鍵詞進行詞頻分析,繪制出詞云圖,將結果可視化。
2? 用戶心理健康信息需求分析
2.1? 數據基本情況
本文通過獲取知乎平臺心理健康話題的提問數據,共采集到5 448條用戶心理健康信息需求數據,并對數據的基本特征進行了統計,統計結果如表1所示。
如表1所示,心理健康話題下標題的平均長度為18.52,問題描述的平均長度為112.74。有29.44%的問題描述的長度大于或等于50。標題與描述的長度呈弱正相關(r = 0.235 6,P<0.01)。通常問題標題的長度越長,描述的內容越詳細。5 448個心理健康問題的平均瀏覽量為3 577.24,但關注數和回答數較少,分別為15.18和12.03。通過對數據的進一步分析,發現提問回答數和關注數的標準差較大,這表示用戶對不同類型的信息需求的關注度差異較大。本文對用戶的提問時間進行了統計分析,根據數據顯示,幾乎一半的用戶會選擇在晚上進行提問,上午、下午、晚上的提問者比例分別為:30.39%、20.45%、49.16%。
為了進一步掌握用戶心理健康信息需求的主題偏好,本文對主題關鍵詞進行詞頻分析,繪制出心理健康主題詞云圖,詞云圖中包含詞頻排名前50的主題關鍵詞,如圖2所示。
如圖2所示,“抑郁”(912)、“父母”(910)是用戶重點關注的話題。抑郁癥是現在最常見的心理疾病,“抑郁”(912)出現頻次最高,其他以病癥名稱命名的話題標簽如“焦慮”(625)、“強迫癥”(213)、次之。家庭關系是人際關系中最為親密的一種關系,父母的心理健康水平會對孩子的心理健康水平起重要作用,其中“父母”(910)頻次最高,“家庭”(361)次之。“情感”(760)是公眾重點關注的心理問題,情感的調適與心理健康的關系最為密切,一個人若經常情感低落,心情苦悶,則可能是心理健康出現問題的表現。與之相關的話題標簽如“心情”(446)、“崩潰”(237)、“絕望”(192)、“孤獨”(115)的出現頻率均超過100。此外,還存在“咨詢師”(682)、“心理咨詢”(370)等關鍵詞,這說明心理咨詢對促進大眾心理健康有著很大的幫助。由此可見,雖然醫學健康領域知識的專業性較強,一些專業的名詞不容易被非醫學專業人員所認識和理解[11],但健康信息的需求性并沒有因此而減弱。隨著人們健康意識的不斷提高,人們不再是得了病才去關注疾病,更多的人愿意主動去詢問或描述自身健康方面的變化,更加重視疾病的預防和保健。
2.2? 用戶心理健康信息需求框架
由于LDA主題模型是一個無監督模型,除了要設置超參數α和β的值外,還需要確定最優主題數K,K的取值會直接影響著整個模型的優劣[12]。如果K值偏小,那么在一個主題中可能會包含多個類別的語義;如果K值偏大,可能會劃分出語義相近或重復的主題。本文利用困惑度來確定主題數目,在LDA主題模型中,最優主題數K一般選取困惑度最小值時的主題的個數。本文設置K為(1~10)界限范圍對數據集進行訓練,求出其對應的困惑度值,通過繪制主題-困惑度折線圖展現其變化情況,如圖3所示。
根據圖3可以看出,隨著主題數的不斷增加,困惑度呈下降趨勢,從主題數等于9開始,折線趨于平緩,因此本文最終確定設置LDA主題模型的主題數為9,將9作為參數輸入LDA主題模型中并進行主題建模。對LDA主題模型的結果進行整理,根據每個主題下的詞語分布情況,對各主題進行歸納和主題標注,得到初步的心理健康信息需求主題分類,每個主題下分別生成5個最有可能出現的詞語,結果如表2所示。
根據上文得到的心理健康信息需求主題分類,對LDA主題模型分類錯誤的問題進行糾正標注,同時結合馬斯洛需求層次理論,將健康信息需求劃分為認知需求、情感需求和自我實現需求三大類,最終得到本文的用戶心理健康信息需求框架,需求框架如表3所示。
2.3? 用戶心理健康信息需求特征
為了能夠更直觀的觀察用戶心理健康信息需求的特征,展示需求框架的比例結構,本文統計了框架中每個主題類目下提問的數量,繪制出雙層餅圖,如圖4所示,其中內、外圈分別代表了用戶心理健康需求的3個大類和9個子類。
如圖4所示,用戶心理健康信息需求占比最大的是認知需求(58.39%),占比最小的類別是自我實現需求(18.48%)。在子類中,需求的描述以癥狀(27.96%)和社會生活(23.13%)為主。通過詳細瀏覽提問內容,可以了解用戶心理健康信息需求主題偏好,用戶最常詢問治療的精神疾病是抑郁、焦慮、雙向情感障礙和強迫癥。
癥狀需求的重點是詢問是否患有心理疾病的某些癥狀,如“抑郁癥是否會使睡眠質量低或產生自殺傾向”。提問者不局限于用戶自己,還有很大一部分是用戶的親人或朋友,往往提問者與患者的親密度越高,提問的描述越詳細。
社會生活需求主要體現在人際關系,包括家人(父母對我很好,但我總會想象到有關他們不好的事情發生。我明知不該亂想,但控制不住。是我太關心他們了嗎?)、男朋友或女朋友(男朋友有心理問題,我該怎么幫助他?)和同學、同事或朋友(感覺朋友無法提供情感價值,付出回報不對等,心里經常不平衡怎么辦?)。此外,社會生活需求也體現在生活事件,如轉學、搬家、做手術、目睹意外事件等,重大或突發的生活事件常常會對人的心理健康產生不同程度的影響。比起其他的非精神疾病患者,心理健康出現問題的人群需要社會更多的關注,所以他們也更關注社會生活。
為了進一步研究用戶的情緒需求,本文將1 260個情緒需求劃分為積極、中性和消極。在1 260個情感需求問題中,其中只有28個提問是積極情緒。比如:“有沒有在家通過運動緩解焦慮的小伙伴,一起打卡運動互相監督呀!”負性情緒占比最大,占63.81%,比如:“為什么經常會因為陷入回憶而情緒低落甚至是憤怒,我到底該怎么辦?”這與心理健康出現問題時會產生情緒問題障礙有關。用戶選擇在社會化問答社區提問的原因之一是想獲得和分享情感支持。在提問中常出現“怎么回事”“怎么辦”“哪些”等表示疑問的詞語,說明用戶對于自身掌控的心理健康的相關信息是具有不確定性的。在提問中還常出現表達負面情緒的詞語,如“擔心”“緊張”“沮喪”“崩潰”,用戶通過表達自己的心情,希望在社會化問答社區中能夠獲得情感支持。
3? 結論與建議
3.1? 研究結論
本文對知乎平臺心理健康話題下用戶的提問進行了分析,構建出社會化問答社區用戶心理健康信息需求框架,并通過分析主題和關鍵詞,研究用戶心理健康信息需求特征,得出以下結論:
3.1.1? 用戶更傾向于在夜間提出負面問題
結果顯示,有49.16%的用戶選擇在夜間提問。這與現實情況是相吻合的,通常人們在晚上八點之后會更悠閑,在深夜尚未入睡的人群可能會感到沮喪、壓抑、悶悶不樂,因此在此時間段提問者的占比是最大的。為了研究不同提問時間與情緒之間的關系,本文將積極、中性、消極情緒分別標記為?1、0、1,然后與提問時間進行相關分析。結果顯示,情緒與提問時間的相關性較弱(r = ?0.120 07,P<0.05),說明心理健康用戶更傾向于在夜間提出負面問題。
3.1.2? 用戶更關注認知需求
本文發現,用戶對心理健康話題關注的重點主要集中在認知需求。認知需求占比最大的原因有二。其一,社會化問答社區為心理健康用戶提供了一個知識分享的平臺,這恰好滿足了用戶的認知需求;其二,與自我實現需求和情感需求相比,認知需求是在三類需求中位于最底層的需求,意味著提問者更加不受身份和專業知識的限制,提問范圍更加廣泛。
3.1.3? 用戶對癥狀和社會生活的關注程度較高
除此以外,用戶心理健康信息需求主要集中在描述或詢問癥狀和社會生活為主,最常詢問治療的精神疾病是抑郁、焦慮、雙相情感障礙和強迫癥,涉及治療(1.32%)和預防(0.13%)的問題最少。癥狀和社會生活兩類描述的占比最高,也可以在一定程度上體現出社會化問答社區的特點:一方面,社會化問答社區用戶對疾病的癥狀有學習和了解的需求;另一方面,社會生活常常會對人們心理造成一定影響,作為一個公共知識平臺,社會化問答社區為用戶答疑解惑提供了一個非常便利的渠道。
3.2? 建議與期望
綜合本文的研究結論,為平臺營造更好的心理健康信息環境,提出以下建議:
首先,平臺應增加對用戶的情緒支持。由于用戶的表達能力存在差異,可能會出現用戶對問題表述不明確的情況,這使得平臺對用戶的情緒支持難度增大。平臺可以通過界定用戶感興趣的健康話題范圍,并根據不同話題之間的差異程度提供個性化的健康信息服務,例如在心理健康話題中,可增添在線一對一心理咨詢服務,針對大眾越來越多元化的生活方式,制定對應的服務領域,如學業、情感、人際關系、就業、個人適應與發展等。
其次,平臺應增強與用戶的互動性。平臺通過與用戶互動,提高用戶的活躍度,及時了解用戶的需求。可以增添一個用戶可自定義的模塊,在此模塊中,用戶可以隨時更改自己感興趣的話題標簽,平臺可根據標簽的變化,從而分析用戶的需求及其趨勢。
最后,平臺應助力科普類心理健康自媒體的發展。用戶搜索健康信息有助于對健康知識的積累,但是不同的知識來源對健康知識的積累效果是不同的[13]。專業性不強的自媒體可能會誤導大眾,如在心理健康領域,常出現靠直覺、經驗和雞湯來解讀心理學的現象,這不但無益于用戶心理健康,還會加劇大眾對心理學、心理障礙以及心理咨詢的誤解。科普類心理健康自媒體的內容大多包括情緒調節、自我成長等,平臺可以通過科普類心理健康自媒體,不斷地添加和回答專業的健康知識,提供科學的管理心理健康的技巧,以此來實施更專業化的管理。
4? 結? 論
本文基于馬斯洛需求層次理論,運用LDA主題模型和人工標注相結合的方法,構建了用戶心理健康信息需求框架,充分了解了用戶心理健康信息需求的特點,為制定和完善心理健康的宣傳、推廣及相關健康科普和信息傳播工作提供了啟示,為心理健康領域的研究提供新的視角和思路。本文也存在一定的局限性,在后續的研究中,可以結合其他互聯網平臺的心理健康數據,或結合知乎平臺心理健康話題下的子話題數據進行分析,以此更全面的探究互聯網用戶心理健康信息需求。此外,還可以通過設計其他算法進行數據聚類和主題提取,研究主題的變化趨勢,從而更好地探究本文方向。
參考文獻:
[1] 民政部網站.22部門印發《關于加強心理健康服務的指導意見》[EB/OL].[2023-04-21].http://www.gov.cn/xinwen/2017-
01/24/content_5162861.htm#1.
[2] 新華社.中共中央國務院印發《“健康中國2030”規
劃綱要》[EB/OL].[2023-04-21].http://www.gov.cn/zhengce/2016-
10/25/content_5124174.htm.
[3] 成全,鄭抒琳.在線健康社區用戶信息需求的層級多標簽分類研究 [J].情報理論與實踐,2023,46(2):100-108.
[4] 劉爍,陳盼,楊冰香,等.基于知乎抑郁癥問答社區的用戶健康信息需求分析 [J].護理研究,2021,35(13):2273-2279.
[5] 金碧漪,許鑫.社會化問答社區中糖尿病健康信息的需求分析 [J].中華醫學圖書情報雜志,2014,23(12):37-42.
[6] 龍菊艷.高血壓病的護理及健康教育 [J].名醫,2018(4):121-121.
[7] 周國韜,龔栩,鄧勝利.基于主題分析的用戶養生健康信息需求演化趨勢研究 [J].情報科學,2022,40(4):118-126+137.
[8] 李重陽,翟姍姍,鄭路.網絡健康社區信息需求特征測度——基于時間和主題視角的實證分析 [J].數字圖書館論壇,2016(9):34-42.
[9] 胡吉明,陳果.基于動態LDA主題模型的內容主題挖掘與演化 [J].圖書情報工作,2014,58(2):138-142.
[10] 晉銘銘,羅迅.馬斯洛需求層次理論淺析 [J].管理觀察,2019(16):77-79.
[11] 劉嫣,張海濤,張鑫蕊,等.基于元分析的用戶在線健康信息搜尋行為影響因素研究[J].情報科學,2022,40(2):169-176.
[12] 田園,宮婷婷.基于LDA模型的在線教學需求數據主題挖掘研究 [J].情報科學,2021,39(9):110-116.
[13] 韓景倜,樊衛國,羅曉蘭,等.用戶健康信息搜尋行為對健康行為影響的研究進展 [J].情報資料工作,2018(2):48-55.
作者簡介:姚宛京(1997—),女,漢族,遼寧沈陽人,碩士研究生在讀,研究方向:用戶健康信息搜索行為。