


摘 要 常用的抑郁檢測(cè)方法都是采用的傳統(tǒng)的情感分析的方法,比如情感詞匯的統(tǒng)計(jì),用戶微博情感的極性計(jì)算以及聚類分析等。這些方法采用的都是人為的定義特征的方法,需要花費(fèi)大量的時(shí)間定義以及處理特征,同時(shí)還需要進(jìn)行特征的降維和簡(jiǎn)化等工作。為了自動(dòng)學(xué)習(xí)出用戶的特征,本文采用了word2vec訓(xùn)練詞向量的方法來(lái)構(gòu)建用戶的向量表示。由于詞向量包含了一定的語(yǔ)義信息,在此基礎(chǔ)上構(gòu)建的用戶向量則涵蓋了用戶的微博文檔信息。本文利用構(gòu)建好的用戶向量進(jìn)行了用戶的抑郁分類實(shí)驗(yàn),結(jié)果表明本文提出的方法可以應(yīng)用于抑郁的分類與檢測(cè)。
【關(guān)鍵詞】word2vec 詞向量 用戶向量 抑郁檢測(cè)
1 引言
世界衛(wèi)生組織目前指出,在2020年到來(lái)之際抑郁癥的發(fā)病率將僅次于缺血性心臟病,成為世界上第二大嚴(yán)重的流行疾病。抑郁癥心理障礙對(duì)人們?cè)斐傻挠绊懯志薮螅加幸钟舻娜巳鹤⒁饬W(xué)習(xí)能力會(huì)相應(yīng)的下降,工作的效率會(huì)大大減小,這極大的影響了這群人的生活。在世界前十種致殘或使人喪失勞動(dòng)能力的主要疾病中有五種是精神疾病,其中抑郁癥名列第一給社會(huì)帶來(lái)巨大的危害。
目前抑郁癥的檢測(cè)主要是基于問(wèn)卷調(diào)查的方式,醫(yī)院或者心理檢測(cè)機(jī)構(gòu)向參與心理調(diào)查的用戶發(fā)放調(diào)研問(wèn)卷。基于心理測(cè)評(píng)表的方法能夠很好的預(yù)測(cè)用戶是否有心理障礙的跡象,針對(duì)心理自評(píng)表的得分基本可以判斷用戶是否有抑郁癥等心理障礙。但是這種方法只適用于一對(duì)一的調(diào)查檢測(cè),大規(guī)模的采用這種問(wèn)卷調(diào)查方式進(jìn)行人群普查將消耗大量的人力物力。
作為中國(guó)的的社交網(wǎng)絡(luò)工具,微博是中國(guó)最熱門的個(gè)人及媒體發(fā)布信息的平臺(tái)之一。由于微博是個(gè)人用戶分享心情,發(fā)表看法以及與他人互動(dòng)的平臺(tái),個(gè)人用戶的微博包含了大量的用戶個(gè)人信息以及情感動(dòng)態(tài),獲取并對(duì)這些微博內(nèi)容進(jìn)行分析可以進(jìn)行個(gè)人情感的挖掘,深度挖掘這些內(nèi)容為分析個(gè)人用戶的情感提供了可能。
本文通過(guò)獲取具有心理障礙以及沒(méi)有心理障礙人的微博數(shù)據(jù),對(duì)這些數(shù)據(jù)進(jìn)行格式的清洗,去除不需要的信息如符號(hào),表情,標(biāo)點(diǎn)等,獲取到文本信息進(jìn)行詞向量的訓(xùn)練,并在此基礎(chǔ)上構(gòu)建用戶向量用于分類器的實(shí)現(xiàn)。
2 詞向量簡(jiǎn)介
word2vec是google發(fā)布的通過(guò)訓(xùn)練詞匯得到詞向量的一款開源工具。word2vec采用的是分布式表示的詞向量方法。根據(jù)給定的分此后的語(yǔ)料庫(kù),word2vec可以使用神經(jīng)網(wǎng)絡(luò)模型將詞語(yǔ)表示成向量的形式。主要思想是根據(jù)每個(gè)詞具有不同的詞頻特性,使用Huffman編碼方式對(duì)詞語(yǔ)進(jìn)行編碼。編碼的方法是根據(jù)不同的詞頻采用不同的編碼。詞頻越高的詞語(yǔ),其訓(xùn)練時(shí)隱藏層數(shù)目越少。詞頻相差不多的的詞匯在訓(xùn)練時(shí)隱藏層采用相同的激活方式。采用這種方法可以有效的減少模型計(jì)算的復(fù)雜度。
Word2vec包括兩種訓(xùn)練模型,分別是CBOW和Skip-gram。
如圖1,CBOW模型采用周圍的詞對(duì)中心詞進(jìn)行預(yù)測(cè),中間為求和層。這種方法是Mikolov將原始的NNLM的神經(jīng)網(wǎng)絡(luò)訓(xùn)練模型經(jīng)過(guò)改造后的到的一種模型。其中,最下一層是句子上下文詞匯,中間層是對(duì)上下文詞匯進(jìn)行匯總?cè)ヮA(yù)測(cè)中間詞匯。
圖2為skip-gram模型,輸入為詞的獨(dú)熱向量形式,隱藏層對(duì)輸入進(jìn)行了抽象處理,輸出層節(jié)點(diǎn)的數(shù)目和目標(biāo)詞周圍詞對(duì)應(yīng)。最終由softmax計(jì)算得到詞的預(yù)測(cè)概率。
3 詞向量的訓(xùn)練
3.1 數(shù)據(jù)獲取
本文通過(guò)編寫爬蟲的方法,獲取了443個(gè)患有抑郁癥的用戶數(shù)據(jù)以及477個(gè)沒(méi)有抑郁的用戶的數(shù)據(jù)。由于是采用詞向量的方法進(jìn)行試驗(yàn)所以本文去除了與文字無(wú)關(guān)的符號(hào)。采用正則匹配的方式過(guò)濾掉無(wú)用的信息,最后針對(duì)文本進(jìn)行分詞處理,得到一個(gè)微博文本的分詞庫(kù)。
為了保證詞向量訓(xùn)練的效果,要將分詞庫(kù)中的停用詞去掉。常見(jiàn)中文停用詞包括“的”,“得”,“么”等助詞,同時(shí)也包括“和”,“與”,“以及”等連接詞。同時(shí)也包括逗號(hào),句號(hào)等標(biāo)點(diǎn)符號(hào)。
訓(xùn)練過(guò)程中,word2vec根據(jù)不同參數(shù)的值來(lái)改變訓(xùn)練的方法以及詞向量的表示大小以及采樣大小等。word2vec的具體參數(shù)如圖3所示。
其中time表示訓(xùn)練的總共時(shí)間,train后面為訓(xùn)練文件即輸入的處理后的分詞文件。Dir為文件所在地址。output為訓(xùn)練后的詞向量文件,一般保存為bin格式。cbow表示是否采用cbow模型訓(xùn)練,默認(rèn)為skip-gram模型。兩種模型有不同的優(yōu)勢(shì),cbow訓(xùn)練速度快,skip-gram對(duì)于罕見(jiàn)詞匯有更好的表示。Size表示詞向量的維度大小,window表示訓(xùn)練詞向量時(shí)上下文相關(guān)詞匯的數(shù)值,word2vec會(huì)根據(jù)這個(gè)數(shù)值來(lái)掃描當(dāng)前詞匯的上下詞匯,詞匯的數(shù)值反映了得到詞向量的語(yǔ)義包含的上下文詞匯數(shù)目。hs和negative是訓(xùn)練網(wǎng)絡(luò)中的采樣方法表示,1表示選用,0表示不選用。Sample參數(shù)是采樣過(guò)程中設(shè)置的大小,這個(gè)要根據(jù)語(yǔ)料集的大小來(lái)決定采樣的數(shù)值。min-count參數(shù)是最低頻率的表示,一個(gè)詞語(yǔ)的頻率小于設(shè)定的閾值系統(tǒng)將屏蔽該詞匯。本文為了得到用戶微博中所有的詞向量的表示,將頻率設(shè)置為1。Binary參數(shù)指的是輸出的向量文件的編碼格式,word2vec采用的是二進(jìn)制的詞向量編碼,一般設(shè)置為1。
4 基于TF-IDF的用戶向量表示
由于微博用戶的微博信息由微博文本數(shù)據(jù)以及個(gè)人信息數(shù)據(jù)組成。本文在構(gòu)建微博用戶的用戶向量時(shí)考慮到這一點(diǎn),將文本數(shù)據(jù)的向量以及個(gè)人信息的向量結(jié)合在一起作為最終的用戶向量表示。
4.1 個(gè)人信息向量
個(gè)人信息數(shù)據(jù)包含用戶的個(gè)人年齡,性別,個(gè)人的粉絲數(shù)目,關(guān)注數(shù)目以及總共的點(diǎn)贊數(shù)和轉(zhuǎn)發(fā)評(píng)論數(shù)等。這些數(shù)據(jù)是體現(xiàn)個(gè)人在微博上的社交情況,同時(shí)也反映了一些用戶的性格特征。個(gè)人信息數(shù)據(jù)組成的向量用Vi表示。Vi包含了個(gè)人信息的相關(guān)特征,本文制訂了15個(gè)用戶信息特征,所以Vi是一組15維的向量。
由于最終獲得的詞向量的值在0到1之間,所以要把個(gè)人信息向量歸一化到0到1之間。歸一化的公式如下:
4.2 用戶文檔向量
本文采用加權(quán)詞向量的方式獲得用戶的文檔向量,由于詞向量包含了上下文的語(yǔ)義信息,由詞向量獲得的用戶文檔向量則包含了整個(gè)用戶微博的語(yǔ)義信息。在這個(gè)加權(quán)過(guò)程中會(huì)存在一定的詞的語(yǔ)義的損失,但是大部分的信息都被保存下來(lái)了。所以用戶的文檔向量可以抽象的表示用戶的微博內(nèi)容信息。本文采用TF-IDF方法對(duì)詞向量進(jìn)行加權(quán)。
其中ni表示詞語(yǔ)i出現(xiàn)的總次數(shù),除以該用戶微博中所有詞的次數(shù)之和得到詞i的詞頻表示。
(3)式表示了詞語(yǔ)的文檔間頻率。N為總的文檔數(shù),mi為詞語(yǔ)i出現(xiàn)過(guò)的文檔數(shù)。為了防止出現(xiàn)詞語(yǔ)出現(xiàn)次數(shù)為0導(dǎo)致分母為0的情況出現(xiàn),本文在分母中加了數(shù)值1。
基于上面的式子,用戶的文檔向量可以表示為:
其中Ei為詞i對(duì)應(yīng)的詞向量表示,N為詞的個(gè)數(shù)。根據(jù)上面得到的用戶的文檔向量以及個(gè)人信息向量,本文得到了用戶向量Ui的表示。Ui={Di,Vi}。括號(hào)內(nèi)為連接的操作。
5 實(shí)驗(yàn)與分析
本文使用三層神經(jīng)網(wǎng)絡(luò)作為分類器進(jìn)行用戶的分類。分類的輸入為用戶的用戶向量。本文共獲取了68.4萬(wàn)的微博數(shù)據(jù)作為詞向量的訓(xùn)練文本。Word2vec參數(shù)上本文設(shè)置了批處理大小為128,上下文詞數(shù)為3,以及頻率過(guò)濾數(shù)目為1.對(duì)于不同維度的詞向量以及不同訓(xùn)練方法的訓(xùn)練出來(lái)的詞向量,本文給出了對(duì)應(yīng)的結(jié)果。
本文從微博上獲取了920個(gè)用戶的信息,其中443個(gè)為有抑郁的用戶,477個(gè)為沒(méi)有抑郁的用戶。本文采用精確率,召回率以及F1值作為實(shí)驗(yàn)的驗(yàn)證標(biāo)準(zhǔn)。其中,采用十折交叉的方式遍歷所有的樣本,獲取十次的預(yù)測(cè)結(jié)果的均值作為本文最終的實(shí)驗(yàn)結(jié)果,即平均精確率,平均召回率以及平均F1值。本文最終采用F1值作為實(shí)驗(yàn)的綜合考量。實(shí)驗(yàn)結(jié)果如表1所示。
從表1中可以看出,CBOW相比于skip-gram的效果更好,CBOW模型的F1值普遍高于用Skip-gram,這是因?yàn)樵谛∫?guī)模數(shù)據(jù)集上,CBOW方法訓(xùn)練的詞向量具有更好的表現(xiàn)效果。在詞向量50維的時(shí)候,CBOW獲得了最好的F1值81.501%。實(shí)驗(yàn)結(jié)果表明,本文提出的使用詞向量構(gòu)建用戶文檔語(yǔ)義的方法是正確的。CBOW方法的各維度詞向量分類精確率均在80%左右,說(shuō)明該方法構(gòu)建的用戶向量模型是可以用于抑郁預(yù)測(cè)的,且有較好的實(shí)踐效果。
6 結(jié)論
本文提出了使用加權(quán)詞向量的方法構(gòu)建用戶向量的方法,并使用用戶向量作為用戶的抽象表示。實(shí)驗(yàn)結(jié)果表明,本文提出的方法有著比較好的效果。在此基礎(chǔ)上可以進(jìn)行進(jìn)一步的擴(kuò)展研究,比如用深度學(xué)習(xí)的方法對(duì)詞向量進(jìn)行順序的編碼以獲得詞的次序信息。同時(shí)利用詞向量的聚類特性,可以對(duì)用戶進(jìn)行聚類的分析與研究。總而言之,詞向量對(duì)于抑郁檢測(cè)的研究有著很大的幫助。在此基礎(chǔ)上可以挖掘出新的方法與模型用于社交網(wǎng)絡(luò)的抑郁檢測(cè)研究。
參考文獻(xiàn)
[1]王睿,黃樹明.抑郁癥發(fā)病機(jī)制研究進(jìn)展[J].醫(yī)學(xué)研究生學(xué)報(bào),2014(12):1332-1336.
[2]付菁文,林凡凱,喬瑾淵,等.抑郁癥發(fā)生的病理生理研究進(jìn)展[J].生命科學(xué)儀器,2015(01):12-16.
[3]劉芳宜,朱麗明,方秀才,等.三種不同心理測(cè)評(píng)量表對(duì)功能性消化不良患者焦慮、抑郁狀態(tài)的評(píng)估[J].胃腸病學(xué),2012,17(02):106-109.
[4]Lai S,Liu K,He S,et al.How to Generate a Good Word Embedding[J]. IEEE Intelligent Systems,2015, 31(06):5-14.
[5]Salton G,Buckley C.Buckley,C.:Term-Weighting Approaches in Automatic Text Retrieval.Information Processing & Management24(05),513-523[J].Information Processing & Management,1988,24(05):513-523.
作者簡(jiǎn)介
方振宇(1992-),男,安徽省銅陵市人。
作者單位
合肥工業(yè)大學(xué)計(jì)算機(jī)與信息學(xué)院 安徽省合肥市 230009