章 宣,趙寶奇,孫軍梅,葛青青,肖 蕾,尉 飛
1(杭州師范大學(xué) 信息科學(xué)與工程學(xué)院,杭州 311121)
2(福建省軟件測(cè)評(píng)工程技術(shù)研究中心,廈門 361024)
在過(guò)去的幾年中,深度卷積網(wǎng)絡(luò)在自然語(yǔ)言處理領(lǐng)域中表現(xiàn)優(yōu)于現(xiàn)有技術(shù).雖然卷積網(wǎng)絡(luò)已經(jīng)存在很長(zhǎng)時(shí)間,但由于可用訓(xùn)練集的大小和所考慮網(wǎng)絡(luò)的大小,其表現(xiàn)存在很多限制.短文本分類是自然語(yǔ)言處理領(lǐng)域的重要任務(wù),包括情感分析、問(wèn)答、對(duì)話管理等.
伴隨Web 2.0 時(shí)代的到來(lái),社交媒體平臺(tái)得到快速發(fā)展.而在眾多網(wǎng)絡(luò)社交媒體平臺(tái)中,微博以其獨(dú)有的特點(diǎn)受到廣大網(wǎng)民的關(guān)注和青睞,已然成為最受歡迎的社交媒體之一.據(jù)中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心發(fā)布的第43 次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》[1]顯示,截至2018年12月,我國(guó)的網(wǎng)絡(luò)用戶規(guī)模已達(dá)到8.29 億,其中很大一部分的用戶使用微博平臺(tái)進(jìn)行日常的溝通交流、信息分享.人們可以自由、便捷、實(shí)時(shí)地在微博平臺(tái)上抒發(fā)自己的情感、觀點(diǎn)或評(píng)論,但也由此產(chǎn)生了大量冗余無(wú)用的短文本內(nèi)容.因此,通過(guò)微博文本的分類提取這些信息中的有價(jià)值信息是非常有必要的,將有價(jià)值信息整合分析,可應(yīng)用于實(shí)際問(wèn)題的探索.
微博短文本與其他形式的短文本不同,具有長(zhǎng)度短小,信息含量較少,數(shù)據(jù)龐大,實(shí)時(shí)更新快,語(yǔ)言表述不規(guī)范等鮮明的特性.同時(shí),作為線上文本,微博網(wǎng)站中的文本同線下文本一樣,也能夠顯露出個(gè)體的身份、所處的社會(huì)關(guān)系、情感表達(dá)等重要信息.Barak和Miron 的研究表明自殺意念的人群撰寫的線上與線下文本在特征上存在很高的一致性[2],因而通過(guò)線上文本分析開展自殺風(fēng)險(xiǎn)評(píng)估工作具有研究基礎(chǔ)和可行性.有研究表明,微博等網(wǎng)絡(luò)社交媒體已經(jīng)成為探索發(fā)現(xiàn)自殺者的新平臺(tái)[3].現(xiàn)有的一些研究也已把從微博提取與自殺相關(guān)的想法和行為數(shù)據(jù)作為自殺風(fēng)險(xiǎn)識(shí)別的分析依據(jù)[4].
因此,利用微博平臺(tái)進(jìn)行自殺風(fēng)險(xiǎn)識(shí)別研究是非常有意義且可行的.本研究將建立一個(gè)基于微博文本的自殺風(fēng)險(xiǎn)識(shí)別模型,用于從微博社交平臺(tái)上主動(dòng)地、高效地挖掘出潛在的具有自殺風(fēng)險(xiǎn)的用戶.在本文中,我們針對(duì)微博短文本提出了一種混合架構(gòu)的神經(jīng)網(wǎng)絡(luò)模型nC-BiLSTM,有效的解決了當(dāng)前神經(jīng)網(wǎng)絡(luò)單一結(jié)構(gòu)在預(yù)測(cè)精度上的瓶頸問(wèn)題,分類的準(zhǔn)確性得到了提高.因?yàn)樽R(shí)別過(guò)程是計(jì)算機(jī)程序自己完成的,速度和準(zhǔn)確率優(yōu)于人工識(shí)別方式,也為相關(guān)機(jī)構(gòu)和人員早期進(jìn)行自殺干預(yù)提供技術(shù)保障.
研究人員從上世紀(jì)50年代起就已經(jīng)開始了對(duì)短文本分類的研究.Kaljahi 等[5]提出了Any-gram 核方法,用于提取短文本的N-gram[6]特征,采用雙向長(zhǎng)短時(shí)記憶網(wǎng)路(Bidirectional Long Short-Term Memory network,Bi-LSTM)進(jìn)行分類,在基于主題和句子級(jí)的情感分析任務(wù)中取得了一定的提升.Kim 等[7]將卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)用于解決句子分類問(wèn)題.Zhou 等[8]將二維最大池化操作引入到雙向短時(shí)記憶網(wǎng)絡(luò),在時(shí)間維度和特征維度上對(duì)文本的特征進(jìn)行提取,完成文本分類任務(wù).牛雪瑩等[9]將Word2Vec、TF-IDF和SVM 結(jié)合對(duì)微博文本進(jìn)行分類.隨著對(duì)微博短文本分類應(yīng)用領(lǐng)域的廣泛研究,國(guó)內(nèi)外有學(xué)者認(rèn)識(shí)到基于微博文本開展基于網(wǎng)絡(luò)的心理健康狀態(tài)乃至于自殺風(fēng)險(xiǎn)研究的前景,并且進(jìn)行了一些積極的嘗試.張金偉[10]利用情感詞典、關(guān)鍵詞識(shí)別算法等技術(shù)針對(duì)微博文本開展了網(wǎng)民心理健康評(píng)估的研究.Wang 等[11]根據(jù)語(yǔ)言規(guī)則創(chuàng)建詞庫(kù)分析單條微博的潛在抑郁傾向,再通過(guò)用戶語(yǔ)言、行為方面的特征建立抑郁癥檢測(cè)模型,實(shí)驗(yàn)驗(yàn)證模型準(zhǔn)確率可達(dá)80%左右.Jshinsky 等[12]通過(guò)對(duì)大量Twitter 文本進(jìn)行分析來(lái)評(píng)估文本的自殺風(fēng)險(xiǎn)因素,鎖定有自殺風(fēng)險(xiǎn)的用戶群,將他們的分布同地理劃分區(qū)域內(nèi)自殺發(fā)生率進(jìn)行匹配,發(fā)現(xiàn)兩者具有較好的相關(guān)性.香港大學(xué)的Li 等[13]通過(guò)分析一名15 歲自殺男孩的193 條新浪微博數(shù)據(jù),發(fā)現(xiàn)其在一些特定詞語(yǔ)類別上的使用與其他用戶不同(例如第一人稱單數(shù)使用頻率更高).中國(guó)科學(xué)院心理研究所的田瑋等[14]采用專家分析法篩選出有自殺傾向的微博數(shù)據(jù)660 條,分別使用多層神經(jīng)網(wǎng)絡(luò)、樸素貝葉斯及隨機(jī)森林算法建立自殺風(fēng)險(xiǎn)識(shí)別模型,預(yù)測(cè)結(jié)果表明基于多層神經(jīng)網(wǎng)絡(luò)的算法模型可更有效地對(duì)微博用戶的自殺風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè).
目前在微博短文本的特征提取過(guò)程中,未能較好地考慮詞語(yǔ)在語(yǔ)義表示中的重要程度,容易出現(xiàn)重點(diǎn)詞被忽略,而非重點(diǎn)詞被重視等情況,導(dǎo)致分類效果不是很好,且當(dāng)微博短文本分類應(yīng)用于自殺風(fēng)險(xiǎn)識(shí)別領(lǐng)域時(shí),研究采用的主要是人工抽取特征和機(jī)器學(xué)習(xí)算法相結(jié)合構(gòu)建自殺風(fēng)險(xiǎn)識(shí)別模型,導(dǎo)致系統(tǒng)適應(yīng)性較差.而神經(jīng)網(wǎng)絡(luò)模型通過(guò)對(duì)數(shù)據(jù)多層建模來(lái)自動(dòng)提取數(shù)據(jù)的特征,避免了繁瑣且代價(jià)極高的人工特征提取方式,并具備良好的泛化能力.但是目前單一的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)只是通過(guò)加深層數(shù)才能實(shí)現(xiàn)精度的提升,而一味的加深網(wǎng)絡(luò)的層數(shù)會(huì)導(dǎo)致訓(xùn)練過(guò)程難以收斂,并產(chǎn)生梯度消失的現(xiàn)象,所以導(dǎo)致其在精度提升上遭遇瓶頸.針對(duì)上述問(wèn)題,本文提出了改進(jìn)的nC-BiLSTM 模型,并將其用以進(jìn)行微博文本自殺風(fēng)險(xiǎn)識(shí)別,該模型結(jié)合了并行結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)(CNN)以及雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(Bi-LSTM)兩種模型的優(yōu)點(diǎn).
微博文本具有長(zhǎng)度不定、短小、文本包含的詞匯量有限、存在較為嚴(yán)重的特征稀疏問(wèn)題,且對(duì)于較長(zhǎng)的文本又需要對(duì)其上下文語(yǔ)義信息進(jìn)行捕捉等特點(diǎn).
針對(duì)以上的問(wèn)題,本文提出了一種基于神經(jīng)網(wǎng)絡(luò)混合架構(gòu)的分類模型,該模型很好的利用了多路并行CNN 和Bi-LSTM 的優(yōu)勢(shì),較已有的分類模型的準(zhǔn)確率有顯著提高.下面對(duì)該模型的提出思路進(jìn)行詳細(xì)介紹.
CNN 是一個(gè)層次結(jié)構(gòu),局部特征提取能力很強(qiáng).它可以通過(guò)特定的卷積核來(lái)提取文本的特定位置的局部特征,進(jìn)而會(huì)有池化層將該局部特征進(jìn)行篩選從而得到更高層的全局特征,但是顯然這些全局特征也是基于特定局部特征選擇出來(lái)的,故造成了使用單一卷積層的CNN 提取的特征會(huì)呈現(xiàn)局部性.為了進(jìn)一步加強(qiáng)特征提取的效果,當(dāng)前的CNN 在應(yīng)用中主要以串行疊加方式實(shí)現(xiàn),但是層數(shù)疊加到一定層時(shí)就無(wú)法繼續(xù)提升模型效果,且會(huì)使訓(xùn)練時(shí)間過(guò)長(zhǎng),還易產(chǎn)生梯度消失,最終降低模型效果,所以該方式在精度提升上遇到了瓶頸.CNN 還存在另一個(gè)缺陷,經(jīng)過(guò)卷積層提取的特征向量經(jīng)過(guò)池化、全連接層處理后無(wú)法體現(xiàn)特征之間的相互聯(lián)系,所以CNN 無(wú)法學(xué)習(xí)到文本內(nèi)容中蘊(yùn)含的上下文語(yǔ)義特征.
相較于CNN,長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)對(duì)局部特征的提取效果不佳,但它是一個(gè)順序結(jié)構(gòu),可以提取出上下文語(yǔ)義特征,所以LSTM 在處理序列數(shù)據(jù)時(shí)往往會(huì)取得不錯(cuò)的效果.由于本研究是個(gè)句子級(jí)的分類任務(wù),所以考慮上下文信息是十分有必要的.但是在標(biāo)準(zhǔn)的LSTM 網(wǎng)絡(luò)中,狀態(tài)的傳輸一直是從前往后單向的,它只考慮到了一個(gè)方向,然而文本序列中各個(gè)元素與前后元素都有關(guān)聯(lián),所以當(dāng)前時(shí)刻的輸出不僅和之前的狀態(tài)有關(guān)系,也和之后的狀態(tài)相關(guān).這造成了LSTM 對(duì)文本的深層特征的提取能力具有局限性[15].所以可采用Bi-LSTM[16]來(lái)進(jìn)一步挖掘文本的深層上下文語(yǔ)義特征.Bi-LSTM 網(wǎng)絡(luò)通過(guò)引入第二層網(wǎng)絡(luò)結(jié)構(gòu)來(lái)擴(kuò)展單向的LSTM 網(wǎng)絡(luò),而隱藏的連接在相反的時(shí)間順序流動(dòng).所以,Bi-LSTM可以綜合考慮前后文的信息,保證了在時(shí)間序列上前面和后面的信息都能考慮到.
綜合上述CNN 和Bi-LSTM 的特點(diǎn),本文考慮使用多個(gè)并行CNN,且卷積層使用多個(gè)不同尺寸的卷積核.這樣可以分別提取文本數(shù)據(jù)中不同寬度視野下的局部特征,使獲得的特征向量包含的信息更全面,模型效果也會(huì)更好.同時(shí)為了進(jìn)一步挖掘微博文本的深層上下文語(yǔ)義特征,本研究考慮通過(guò)模型組合的方式將上述的多個(gè)并行CNN 和Bi-LSTM 結(jié)合起來(lái),這樣既可以提取文本數(shù)據(jù)的各局部特征,又可提取出文本的上下文語(yǔ)義關(guān)聯(lián)信息.綜上所述,本研究提出一種基于多并行CNN、Bi-LSTM 的微博文本自殺風(fēng)險(xiǎn)識(shí)別模型nC-BiLSTM (其中n 表示CNN 并行路數(shù)).該模型主要由兩部分組成,選擇多路并行的CNN 作為文本局部特征信息的提取器,將時(shí)間序列模型Bi-LSTM作為上下文序列特征的提取器,將前者的輸出特征向量拼接融合后輸入后者,最后特征全部提取完畢進(jìn)行分類.
本文提出的nC-BiLSTM 模型架構(gòu)設(shè)計(jì)如圖1所示.模型主要分為4 個(gè)層次,分別為詞嵌入層、多路并行CNN 層、Bi-LSTM 層和全連接層,其中多路并行CNN 層內(nèi)含卷積層和池化層,下面對(duì)各層進(jìn)行詳細(xì)介紹.

圖1 nC-BiLSTM 模型架構(gòu)
詞嵌入層:本層作為模型的第一層,它的作用是將序列中的每一個(gè)字詞映射為一個(gè)具有固定長(zhǎng)度且較短的連續(xù)實(shí)向量.也就是把原先字詞所在空間嵌入到一個(gè)新的向量空間中去,每個(gè)詞向量在該空間內(nèi)的距離表示它們之間的相似度,這樣就保留了文本的語(yǔ)義特征.
首先輸入數(shù)字序列形式的微博文本語(yǔ)料.根據(jù)去停用詞后語(yǔ)料包含的字詞數(shù)目最大值x,這里將序列的長(zhǎng)度統(tǒng)一設(shè)為x,長(zhǎng)度不足x的通過(guò)零值來(lái)補(bǔ)齊長(zhǎng)度.設(shè)模型的輸入序列為Xi=[i1,i2,i3,···,ix],ix∈D,且0≤x≤|D|,D為語(yǔ)料庫(kù)中所有不同詞構(gòu)成的詞典,|D|表示詞典中詞的數(shù)目.
在詞嵌入層中存在一個(gè)權(quán)重矩陣T,它隨機(jī)初始化后再通過(guò)訓(xùn)練不斷更新,通過(guò)T能夠?qū)⒚總€(gè)數(shù)字化的字詞轉(zhuǎn)換為其所對(duì)應(yīng)的詞向量:T[ik]=Ek.其中Ek代表得到的詞向量.則詞嵌入層的輸出為E=[E1,E2,E3,···,Ex],Ek=T[ik]
多路并行CNN 層:本層由多個(gè)卷積核尺寸不一的CNN 并行組成,每個(gè)CNN 通路由一個(gè)卷積層和一個(gè)池化層疊加組成.經(jīng)過(guò)詞嵌入層后,文本數(shù)據(jù)被表示成序列化的數(shù)據(jù)形式,所以此處均采用一維卷積的方式.
卷積層的作用是從詞嵌入層的輸出E中提取出序列的特征向量.卷積操作涉及一個(gè)過(guò)濾器Wc∈Rd×h,d表示字符向量的維度大小,h表示過(guò)濾器移動(dòng)的窗口大小.一個(gè)過(guò)濾器卷積生成特征向量可通過(guò)式(1)計(jì)算.

其中,f表示非線性的激活函數(shù),conv表示卷積過(guò)程,表示的是偏置向量,c表示生成的特征向量.在這里設(shè)置了多個(gè)并行的卷積層,并且每個(gè)卷積層的卷積核尺寸不同,通過(guò)設(shè)置不同的h來(lái)實(shí)現(xiàn).
然后需要將每一組特征向量輸入池化層進(jìn)行操作,池化層又叫采樣層,其用以對(duì)數(shù)據(jù)進(jìn)行降維,輸出局部最優(yōu)特征,減少模型復(fù)雜度.通常的做法是在卷積層提取出的局部特征上,在一個(gè)固定大小的區(qū)域上通過(guò)某種方法采樣一個(gè)點(diǎn),作為下一層網(wǎng)絡(luò)的輸入.這里使用的采樣方法是最大池化,因?yàn)樽畲蟪鼗軌蛱崛〕鲎钣行У奶卣餍畔?還能減少下一層的計(jì)算量.進(jìn)行最大池化操作后生成的序列的特征向量見式(2).

這里最后還需要將多個(gè)通路的輸出特征向量做拼接處理,如式(3)所示:

Bi-LSTM 層:本層的輸入為多路并行CNN 的輸出特征向量x,本層的內(nèi)部結(jié)構(gòu)如圖2所示,通過(guò)組合兩個(gè)方向相反的LSTM 來(lái)實(shí)現(xiàn)Bi-LSTM 層,這里將兩個(gè)方向相反的LSTM 分別記做前向LSTM 和后向LSTM.

圖2 Bi-LSTM 層內(nèi)部結(jié)構(gòu)
前向LSTM 的輸出Q表示如式(4)所示:

后向LSTM 的輸出H表示如式(5)所示:

Bi-LSTM 的輸出Y表示如式(6)所示:

其中,符號(hào) ⊕表示向量拼接.
全連接層:本層用于生成更高階的特征表示,使之更容易分離成我們想要區(qū)分的不同類.本層的輸入為Bi-LSTM 的輸出向量Y=[y1,y2,y3,···,yn],采用反向傳播算法對(duì)網(wǎng)絡(luò)模型中的參數(shù)進(jìn)行梯度更新.本文數(shù)據(jù)類別分為無(wú)自殺風(fēng)險(xiǎn)語(yǔ)料和有自殺風(fēng)險(xiǎn)語(yǔ)料兩類,且特征差異較明顯.據(jù)此特點(diǎn),這里使用Sigmoid 分類器輸出自殺風(fēng)險(xiǎn)判定的結(jié)果,因?yàn)樗梢詫⑷我庖粋€(gè)實(shí)數(shù)映射到[0,1]區(qū)間范圍內(nèi),適合用來(lái)做二分類,而且其在特征差異比較大時(shí)效果比較好.輸出表示如式(7)所示.
其中,Sigmoidx代表分類器,Wx和bx為Sigmoid 分類器的參數(shù),下標(biāo)x代表迭代處于第x輪,result表示自殺風(fēng)險(xiǎn)識(shí)別的結(jié)果,result∈{有自殺風(fēng)險(xiǎn),無(wú)自殺風(fēng)險(xiǎn)}.
自殺死亡樣本人群:自殺死亡樣本人群的收集工作主要依靠新浪微博專業(yè)人士的幫助.本研究通過(guò)與新浪微博名人賬號(hào)“逝者如斯夫dead”(關(guān)注逝者的微博賬號(hào),專門通過(guò)發(fā)微博的形式介紹逝者的基本信息及死亡原因等)取得聯(lián)系,在其同意的情況下,從他的微博中篩選出被描述為自殺死亡的微博用戶賬號(hào).在每一個(gè)疑似自殺死亡帳號(hào)的微博主頁(yè)中,我們又從其它微博用戶的留言內(nèi)容再次確認(rèn)該帳號(hào)所有者是因自殺死亡.以這樣的方法,截止到2019年8月,本研究共檢閱并收集網(wǎng)絡(luò)識(shí)別自殺死亡新浪微博用戶帳號(hào)49 個(gè).
正常樣本人群:發(fā)送微博超過(guò)5 頁(yè)內(nèi)容并且最近7日內(nèi)仍然有發(fā)微博的賬號(hào)確定為正常樣本,通過(guò)隨機(jī)選取的方式收集正常新浪微博賬號(hào)90 個(gè).
數(shù)據(jù)采集:本研究通過(guò)搭建基于Python 爬蟲的微博語(yǔ)料采集系統(tǒng)來(lái)定向爬取收集的微博賬號(hào)文本數(shù)據(jù).最終,采集系統(tǒng)一共收集7817 條微博語(yǔ)料,其中網(wǎng)絡(luò)識(shí)別自殺死亡用戶群體的語(yǔ)料共3827 條,將它們標(biāo)注為有自殺風(fēng)險(xiǎn)語(yǔ)料,網(wǎng)絡(luò)識(shí)別未自殺死亡用戶群體的語(yǔ)料共3990 條,將它們標(biāo)注為無(wú)自殺風(fēng)險(xiǎn)語(yǔ)料.
本實(shí)驗(yàn)環(huán)境為Anaconda,是Python 專用于科學(xué)計(jì)算的發(fā)行版.實(shí)驗(yàn)使用Keras 深度學(xué)習(xí)框架,它是一個(gè)高度模塊化的神經(jīng)網(wǎng)絡(luò)庫(kù),程序大致可分為以下3 個(gè)步驟:
(1)讀取樣本:加載數(shù)據(jù)預(yù)處理后得到的結(jié)構(gòu)化xls 格式的數(shù)據(jù)文件.
(2)文本預(yù)處理:由于微博文本的特點(diǎn)導(dǎo)致其含有大量的噪聲,為了提升模型分類效果,在采集得到微博文本后,先要對(duì)其進(jìn)行預(yù)處理操作.文本預(yù)處理包括無(wú)效數(shù)據(jù)過(guò)濾、繁體字轉(zhuǎn)換、文本分詞、停用詞去除等.文本預(yù)處理的目標(biāo)是將文本轉(zhuǎn)變成結(jié)構(gòu)化的數(shù)據(jù)形式,用特征項(xiàng)向量表示或者文本向量化表示.
(3)模型訓(xùn)練:設(shè)定參數(shù),分別調(diào)用Keras 中的相應(yīng)算法庫(kù)以進(jìn)行模型的訓(xùn)練,并通過(guò)參數(shù)調(diào)整提高模型預(yù)測(cè)準(zhǔn)確率.
本研究中的語(yǔ)料分為有自殺風(fēng)險(xiǎn)和無(wú)自殺風(fēng)險(xiǎn)兩類,模型測(cè)試結(jié)果共分為4 種,如表1所示.

表1 模型測(cè)試結(jié)果及其解釋
本文采用二分類問(wèn)題中的3 個(gè)常用指標(biāo)作為模型性能評(píng)價(jià)標(biāo)準(zhǔn):
(1)精準(zhǔn)率(Precision):又稱查準(zhǔn)率,它描述了分類的準(zhǔn)確程度,即分類結(jié)果中有多少是正確的.其計(jì)算公式如式(8)所示:

(2)召回率(Recall):又稱查全率,它描述了正確分類的能力,即已知的文本中,有多少被正確分類.其計(jì)算公式如式(9)所示:

(3)F值(F-measure):F-measure是由Precision和Recall加權(quán)調(diào)和平均計(jì)算得出,其大小反映了分類器的綜合性能,F值越大就表示分類器的綜合性能越好,文本分類的效果越理想,其計(jì)算公式如式(10)所示:

本實(shí)驗(yàn)的基本流程如圖3所示,訓(xùn)練過(guò)程中模型部分參數(shù)需要通過(guò)反復(fù)嘗試尋找最佳值,待最佳參數(shù)確定好之后,再通過(guò)訓(xùn)練生成最佳模型.同時(shí)為了尋找nC-BiLSTM 模型并行CNN 路數(shù)的最佳設(shè)置,本文分別做了1 到5 路并行CNN 的模型訓(xùn)練,即并行路數(shù)n分別取值{1,2,3,4,5}.

圖3 實(shí)驗(yàn)基本流程
模型超參數(shù)指的是模型外部的配置變量,恰當(dāng)?shù)某瑓?shù)設(shè)置對(duì)于生成一個(gè)性能優(yōu)良的神經(jīng)網(wǎng)絡(luò)模型是至關(guān)重要的.本文研究中主要通過(guò)數(shù)據(jù)和經(jīng)驗(yàn)來(lái)確定部分超參數(shù),另有部分超參數(shù)需要通過(guò)實(shí)驗(yàn)來(lái)確定.
本模型嵌入層主要涉及的參數(shù)是詞向量維度,卷積層主要涉及的參數(shù)有:滑動(dòng)窗口大小、卷積核數(shù);池化層涉及的參數(shù)有:采用窗口大小、丟棄率(dropout);Bi-LSTM 層主要涉及的參數(shù)有:節(jié)點(diǎn)數(shù)、丟棄率.全連接層的參數(shù)有:節(jié)點(diǎn)數(shù)、激活函數(shù).本文模型超參數(shù)初始設(shè)置如表2所示.

表2 超參數(shù)設(shè)置
本文首先進(jìn)行了基于nC-BiLSTM 的微博文本自殺風(fēng)險(xiǎn)識(shí)別模型的訓(xùn)練,分別測(cè)試了幾種不同并行CNN路數(shù)的模型性能,從圖4可得出當(dāng)并行CNN 為3 路時(shí),即3C-BiLSTM 模型的效果最佳.根據(jù)CNN 的原理,原因應(yīng)為一開始隨著并行路數(shù)的增加,特征提取效果越好,模型性能也隨之增強(qiáng),但是超過(guò)3 路后模型出現(xiàn)了過(guò)擬合,導(dǎo)致模型性能的下降.

圖4 不同并行CNN 路數(shù)的模型性能測(cè)試結(jié)果
為了驗(yàn)證模型的有效性和準(zhǔn)確性,我們通過(guò)實(shí)驗(yàn)分別與樸素貝葉斯模型、CNN 模型,以及BiLSTM模型進(jìn)行了性能比較.
實(shí)驗(yàn)結(jié)果如圖5所示.從圖中首先可以看出深度神經(jīng)網(wǎng)絡(luò)模型的識(shí)別準(zhǔn)確率相對(duì)于樸素貝葉斯模型有較大的優(yōu)勢(shì).原因?yàn)闃闼刎惾~斯是一種詞袋模型,它的基本思想是假設(shè)詞與詞之間是相互獨(dú)立的,所以其無(wú)法提取文本的上下文語(yǔ)義聯(lián)系.而深度神經(jīng)網(wǎng)絡(luò)模型的結(jié)構(gòu)決定了它可以提取到很多詞袋模型無(wú)法提取出的特征.

圖5 模型自殺風(fēng)險(xiǎn)識(shí)別效果對(duì)比
從圖5中可看出本文提出的模型3C-BiLSTM 的識(shí)別精準(zhǔn)率、召回率、F值均高于其它對(duì)比模型,說(shuō)明本文提出的模型有效地提升了自殺風(fēng)險(xiǎn)的識(shí)別效果.
結(jié)果表明,社交媒體中的自然語(yǔ)言可以作為標(biāo)記來(lái)區(qū)分自殺高風(fēng)險(xiǎn)人群和普通人群.相較于傳統(tǒng)尋求醫(yī)生或精神衛(wèi)生專業(yè)人員的幫助,基于深度學(xué)習(xí)的文本分類模型可以更加準(zhǔn)確和及時(shí)地預(yù)測(cè)個(gè)體自殺風(fēng)險(xiǎn),這顯著減少了尋求幫助所需的時(shí)間、精力和金錢,為個(gè)人、家庭、社會(huì)都帶來(lái)了極大的益處.因而本模型是一種識(shí)別文本自殺風(fēng)險(xiǎn)的有效方法.
雖然研究工作取得了一定的成果,但仍存在一些需要繼續(xù)改進(jìn)的地方.未來(lái)的研究可以考慮通過(guò)繼續(xù)提升文本數(shù)據(jù)量,增強(qiáng)模型可靠性或者過(guò)濾與情緒表達(dá)無(wú)關(guān)的微博來(lái)達(dá)到使模型的識(shí)別效果得以提升的目的.