999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于詞頻-極性強度的抑郁癥情感詞挖掘方法

2021-01-21 07:51:14張順香朱廣麗
太原理工大學學報 2021年1期
關鍵詞:情感

尹 暢,張順香,朱廣麗,張 標

(安徽理工大學 計算機科學與工程學院,安徽 淮南 232001)

情感詞典是一種重要資源,在情感分析、情感分類中起著至關重要的作用[1-2]。構建情感詞典主要有兩種方式;人工構建和自動構建。GATTI et al[3]將SentiWordNet技術和新技術融合到一個學習框架,然后結合人工構建的先驗極性詞典,利用這一技術最終構建了SentiWords情感詞典,包含大約155 000個單詞。WU et al[4]提出一種有效檢測微博漢語流行新詞的方法,通過手工獲得微博的新詞構建了適應微博語料的情感詞典。

KIMURA et al[5]從WordNet中提取情感詞,并計算情感詞和表情符號之間的共現頻率,最終構建表情符號情感詞典。GAO et al[6]為實現跨語言情感詞匯學習的目的,利用標簽傳播算法在現有的英語情感詞匯的基礎上自動生成目標語言的情感詞匯。YANG et al[7]提出通過神經網絡模型訓練大量中文語料庫,然后基于約束坐標偏移量構建多維的情感詞典方法。FENG et al[8]為了更有效更準確的分析社交平臺上用戶的情感,提出一種詞-情交互強化排序模型,用于從海量微博數據中學習情感詞匯,再利用圖的方法從微博的表情詞和候選情感詞集合中選取排名靠前的詞作為情感詞,從而構建成情感詞典。DENG et al[9]針對深度學習技術構建情感詞典的不足,提出一種新的稀疏自注意LSTM模型來自動構建情感詞典。REINEL et al[10]基于客戶評論的語料庫,提出一種新的情感分析詞典生成算法。在一些特定領域的情感分析研究上,情感詞典起著很重要的作用,為情感分析提供了基礎服務[11]。目前,很多特定領域已建立了專有領域情感詞典以及專有領域本。如,關于產品領域的情感詞典[12]、關于公眾意見的情感詞典[13]、關于電影領域的情感詞典[14]、關于旅游領域本體的語義檢索[15]。然而,對抑郁癥情感詞典的構建目前仍處于初步研究階段,該領域現有的情感資源也十分有限,基于語義知識庫的方法構建情感詞典難以實現,因此本文選取基于語料庫的方法構建情感詞典。

1 種子詞的獲取

抑郁癥有8種類型,本文只研究單相抑郁癥和產后抑郁癥,這兩種抑郁癥都可分為3個等級,分別是輕度、中度、重度。首先我們分別爬取大量輕度、中度、重度單相抑郁癥用戶和產后抑郁癥用戶的評論語料;然后,對這些評論語料進行預處理、分詞處理以及情感極性判斷,從而獲取合適的種子詞集。構建種子詞集具體步驟如圖1所示。種子詞集是構建特定領域情感詞典的基礎。因此,本節基于抑郁癥患者在線評論的情感極性豐富及語言多變等特點來選取合適的種子詞集。

圖1 種子詞集的構建Fig.1 Acquisition of seed word set

1.1 評論語料的預處理和分詞處理

對評論語料進行預處理和分詞處理是獲取種子詞集的基礎工作。具體處理實例如表1所示。

表1 評論語料預處理和雙向最大匹配處理實例Table 1 Examples of preprocessing and word segmentation

首先對文本進行預處理:

1) 去除特殊字符,如:@、#以及空格、表情符號等。這些特殊符號基本上對情感分析沒有幫助,首先去除,用符號“^”標注刪除的文本。如“我痊愈了。真的好難。特別難...”,用“^”代替“。”,預處理后的文本變成“我痊愈了^真的好難^特別難^”。

2) 去除鏈接、圖片、表情包等。

對預處理后的文本繼續進行分詞處理,從而進一步篩選出候選種子詞集。

a) 雙向最大匹配(bi-direction matching method)[16].對預處理后的評論語料進行雙向最大匹配處理,比較正向最大匹配和逆向最大匹配的結果,將評論文本初步劃分成多個集合。

b) 計算互信息。進行完雙向最大匹配后,語料中可能仍存在詞語歧義現象,如表1中“真的好難”,該句正向和逆向匹配結果不同,表達的意思則不同,分別是“真的好/難”“真的/好難”。為保證篩選出的候選種子詞準確度高,對這兩種情況分別進行互信息計算。分別計算“真的好”“難”“真的”“好難”四個詞的互信息,比較正向分詞和逆向分詞所分出的詞語互信息值,選出互信息值高的詞語。如I(A,B)≥0,表示AB間正相關,A和B的相關性越高,則AB是一個詞的可能性就越大,則本文選取出互信息值較高的詞語作為候選情感詞,計算公式如式(1):

(1)

(2)

(3)

(4)

式中:P(A,B)表示詞A和詞B相鄰同時出現在一條評論里的概率,計算公式如(2),iA,B表示詞A和詞B相鄰同時出現的次數,n表示爬取數據總數;P(A)表示詞A單獨出現在該條評論里的概率,計算公式如(3),iA表示詞A出現在文本中的次數;P(B)表示詞B單獨出現在該條評論里的概率,計算公式如(4),iB表示詞B出現在文本中的次數。

具體語料預處理和分詞算法可描述如算法1.

算法1:抑郁癥患者評論語料預處理和分詞算法輸入:抑郁癥患者評論語料C輸出:分詞后的候選情感詞集CanWord[m]1: C1 =Split&MarkSymbol (C);2: C1 =Split&MarkSpace (C);3: C1 =Split&MarkEmoticons (C);4: C1 =Split&MarkLink(C);5: RETURN C1;6: for(int j=1;j++;j<=n){7: Bi-direction matching method;8: if(I(A,B)>I(C,D)){ /*將雙向最大匹配得出的兩種結果分別計算互信息,互信息高詞作為候選情感詞*/9: CanWord.add(AB);}10:Return CanWord[m];

算法1主要包含兩個部分,第一部分1-5步是對評論語料進行預處理,過濾掉標點符號空格、表情符號等特殊字符及鏈接;第二部分6-10步對預處理后的語料進行分詞處理,包括雙向最大匹配和計算互信息值兩步,最終篩選出候選情感詞CanWord[m].該算法時間復雜度為O(5n).

1.2 獲取相關種子詞集

在獲取相關種子詞集是在對預處理和分詞處理后的評論語料基礎之上,再通過統計詞頻FW、標注情感強度EW以及計算詞頻強度IW來選取出合適的種子詞集。

1) 統計詞頻FW.首先手工統計詞語W在評論語料中出現的頻率,并按照抑郁癥等級程度(輕度、中度、重度)分別統計。

2) 情感強度EW.根據詞頻手工標注詞語W情感強度,單相抑郁癥各等級患者的評論語料中都頻繁出現的詞語標記為0,產后抑郁癥各等級患者的評論語料中都頻繁出現的詞語標記為-1,輕度抑郁癥患者常用詞標記為1,中度抑郁癥患者常用詞標記為3,重度抑郁癥患者常用詞標記為5,數值越大,情感強度越大。具體情感詞典的示例如表2所示。

表2 情感詞典示例Table 2 Some examples of sentiment lexicon

3) 計算情感詞詞頻-極性強度IW.在選取種子詞時首先需考慮該詞在語料庫中是否具有代表性,其代表性體現在該詞在文中出現的頻率FW;其次要考慮其情感表達是否準確,所以通過人工標注的方式來進行情感詞等級劃分,記為情感強度EW.所以通過定義詞頻-極性強度來判斷該詞是否能夠選取到種子詞集中,定義如下:

定義1詞頻-極性強度IW(Word frequency-polarity intensity,IW)

詞頻-極性強度IW用于衡量情感詞W在評論語料中的頻率和情感強度,通過公式(5)計算:

IW=FW×EW.

(5)

2 構建中文抑郁癥情感詞典

2.1 定義

本文所構建的情感詞典是在獲取種子詞集的基礎上,再結合基礎中文情感詞典進行語義相似度計算,實現對種子詞集的擴展最終得到中文抑郁癥情感詞典,由于本篇論文只討論單相抑郁癥和產后抑郁癥,因此最終得出中文抑郁癥情感詞典只包含單相抑郁癥情感詞典和產后抑郁癥情感詞典。

定義1單相抑郁癥情感詞典(unipolar depression sentiment lexicon,UDSL)

單相抑郁癥情感詞典是由極性強度分別為0,1,3,5的詞語所構成,并且計算單相抑郁癥種子詞集與基礎中文情感詞典語義相似度,在閾值范圍內的詞語與種子詞合并為單相抑郁癥情感詞典。單相抑郁癥情感詞典的定義式如式(6)-式(10):

UDSD=M1UM2UM3UM4 .

(6)

M1={Word|Word∈R,0

(7)

M2={Word|Word∈R,0

(8)

M3={Word|Word∈R,0

(9)

M4={Word|Word∈R,0

(10)

在式(7)-(10)中,R為基礎中文情感詞典,Sim1為單相抑郁癥種子詞集與基礎情感詞典的詞語語義相似度,計算公式如式(16),k為語義相似度的閾值。當語義相似度大于一個閾值k并且小于1時,則說明這個詞語與種子詞相似,是單相抑郁癥情感詞語。例如“恐慌”與“恐懼”是一對相似度較高的詞。

本文根據極性強度P將該詞典分為4個部分,分別是極性強度為0,對應的是單相抑郁癥患者的通用詞語,各等級單相抑郁癥患者的評論語料中都會頻繁出現的詞標記為0,通過極性強度為0可判斷該用戶是否患有單相抑郁癥;極性強度為1,3,5的詞語分別對應輕度、中度、重度單相抑郁癥患者的常用詞語。具體的單相抑郁癥情感詞典實例如表3所示。

表3 單相抑郁癥情感詞典示例Table 3 Some examples of UDSL

定義2產后抑郁癥情感詞典(postnatal depression sentiment lexicon,PDSL)

產后抑郁癥情感詞典是由極性強度分別為-1,1,3,5的詞語所構成,并且計算產后抑郁癥種子詞集與基礎中文情感詞典語義相似度,在閾值范圍內的詞語與種子詞合并為產后抑郁癥情感詞典。產后抑郁癥情感詞典的定義式如(11)-(15):

PDSD=N1UN2UN3UN4 .

(11)

N1={Word|Word∈R,0

(12)

N2={Word|Word∈R,0

(13)

N3={Word|Word∈R,0

(14)

N4={Word|Word∈R,0

(15)

在式(12)-式(15)中,R為基礎中文情感詞典,Sim2為產后抑郁癥種子詞集與基礎情感詞典的詞語語義相似度,計算公式如式(16),k為語義相似度的閾值。

本文根據極性強度P將該詞典分為4個部分,分別是極性強度為-1對應的是產后抑郁癥患者的通用詞語,各等級產后抑郁癥患者的評論語料中都會頻繁出現的詞標記為-1,通過極性強度為-1可判斷該用戶是否患有產后抑郁癥;極性強度為1、3、5的詞語分別對應輕度、中度、重度產后抑郁癥患者的常用詞語。具體產后抑郁癥情感詞典示例如表4所示。

表4 產后抑郁癥情感詞典示例Table 4 Some examples of PDSL

2.2 基于HowNet構建抑郁癥情感詞典

語義相似度表示的是兩個詞語在不同上下文中都可以相互替換并不改變文本的句法語義結構,如“晚上夜深人靜的時候難過到想死”中“難過”一詞,同樣可用“傷心”“痛苦”等詞語表示。度量兩個詞語之間語義相似度的一個重要指標是詞語的距離。在一棵樹形圖中,任何兩個節點之間有且只有一條路徑,于是這條路徑的長度就可以作為兩個詞語語義距離的一種度量。基于樹狀層次結構計算語義相似度提出公式(16):

(16)

本文選取HowNet情感詞語集作為基礎中文情感詞典,并根據語義相似度計算公式去計算HowNet與種子詞集的詞語相似度,選取度相似的詞填充到種子詞集中,最終得到中文抑郁癥情感詞典。基于語義相似度獲取中文抑郁癥情感詞典具體流程如圖2所示。

圖2 中文抑郁癥情感詞典的構建Fig.2 Building Chinese depression sentiment lexicon

基于詞頻-極性強度和語義相似度的抑郁癥情感詞挖掘算法可描述如下。

算法2:抑郁癥情感詞挖掘算法輸入:分詞后的候選情感詞集CanWord[m]輸出:抑郁癥情感詞典Lexicon1: for(int i=1;i++;i<=m){2: Count the word frequency and mark it as FW;3: Label emotion intensity of the word and mark it as EW;4: IW=FWEW;5: if(IW>b){ //b為閾值6: WordSet[h].add(W);}}7: Return WordSet[h];8: for(int k=1;k++;k<=h){9: Sim(W,W1);10: if(Sim(W,W1)>l){ //l為閾值11: Lexicon.add(W1);}}12: Return Lexicon;13: end;

算法2的任務主要包括兩個部分,第一部分,步驟1-6是對候選情感詞集CanWord進行遍歷,步驟2統計詞語W在文本中出現的個數,記為FW;步驟3對每個詞進行情感標注,記為EW;步驟4-5計算詞語W的詞頻-極性強度并將值高的詞語加入到種子詞集WordSet中,最終返回種子詞集WordSet;第二部分為步驟7-10,選擇情感詞典HowNet做基礎中文情感詞典,通過計算語義相似度選出相似度高的詞語添加到種子詞中,對種子詞集進行擴充,得到中文抑郁癥情感詞典。該算法總體時間復雜度為O(2n).

通過該算法在大量抑郁癥用戶評論語料中進行中文抑郁癥情感詞構建,共得到輕度、中度、重度單相抑郁癥情感詞語各301,265,221個;輕度、中度、重度產后抑郁癥情感詞語各276,234,220個。

3 實驗

3.1 實驗方法

本文構建抑郁癥情感詞典采用的是基于語料庫的方法。為驗證該詞典對分析抑郁癥用戶情感的有效性,本文從百度貼吧取抑郁癥用戶評論進行實驗,具體實驗步驟如下:

Step1:分別爬取輕度、中度、重度單相抑郁癥和產后抑郁癥用戶評論語料共6 000條作為本文實驗訓練集數據。

Step2:評論語料標注情感傾向,對所爬取的評論語料根據其用戶的抑郁癥類型及病重程度通過機器和人工標注結合的方法進行情感傾向分類。

Step3:利用雙向最大匹配和本文提出的詞頻強度的方法構建中文抑郁癥情感詞典。

Step4:對獲取的抑郁癥用戶評論測試集進行情感分析。通過本文所構建的中文抑郁癥情感詞典結合測試集語料中所出現的情感詞極性強度進行累加和統計,初步判斷該用戶的抑郁癥類型及病重程度,再結合實際情況驗證初步判斷是否正確。

分別用HowNet情感詞典、《同義詞詞林》和本文所提出的中文抑郁癥情感詞典使用上述的情感分析方法,對抑郁證用戶評論進行實驗對比。

3.2 實驗分析

根據上述實驗步驟,進行下述實驗。單相抑郁癥、產后抑郁癥用戶評論各爬取3 000條,去除只有圖片、標點符號、鏈接等無效文本,剩余有效文本各2 487條、2 365條。分別用HowNet情感詞典、《同義詞詞林》(Cilin)和本文所提出的中文抑郁癥情感詞典(CDSL)對測試集語料進行實驗分析。本文采用準確率(P)、召回率(R)和F值作為分析詞典有效性的性能評價指標。實驗結果評價指標對比如表5.

表5 實驗結果Table 5 Depression sentiment word experiment results

圖3 實驗結果對比圖Fig.3 Comparison of experiment results

由表5和圖3可知,中文抑郁癥情感詞典在準確率、召回率、F值各項評價指標上均高于HowNet情感詞典和《同義詞詞林》。通用的中文基礎情感詞典,如本文所用于實驗的HowNet情感詞典和《同義詞詞林》,由于抑郁癥領域情感詞組的短缺,各項評價指標均較低,對該領域評論的情感分類效果較差。而本文所提出的中文抑郁癥情感詞典是基于在線抑郁癥用戶評論語料構建的,因為在特定領域充分分析了文本情感信息,所以相對中文基礎情感詞典在抑郁癥領域評論語料的情感分類有更優的效果。

4 結束語

本文提出的基于詞頻-極性強度值的方法來挖掘抑郁癥情感詞,所挖掘的情感詞能夠為醫生跟蹤抑郁癥患者的情況、預測患者的心理傾向提供幫助。該方法主要通過雙向最大匹配和計算詞頻-極性強度值來挖掘抑郁癥情感詞。由于抑郁癥病人情緒不定、網絡新詞層出不窮等原因,本文所構建的抑郁癥情感詞典具有局限性。要想更全面、更準確地建立抑郁癥情感詞典,需要持續跟蹤抑郁癥病人的在線評論,不斷更新。

在未來的工作中,我們將基于本文提出的方法繼續挖掘其他類型的抑郁癥情感詞。然后,基于本文所挖掘的抑郁癥情感詞通過對抑郁癥病人的在線評論進行情感分析從而幫助醫生預測病情。

猜你喜歡
情感
表達情感有妙招
如何在情感中自我成長,保持獨立
被情感操縱的人有多可悲
無情感,不設計
現代裝飾(2020年4期)2020-05-20 08:55:06
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
《悅讀·家》開播激發愛國愛家情感共鳴
海峽姐妹(2019年9期)2019-10-08 07:49:00
冰凍的情感
青年歌聲(2019年7期)2019-07-26 08:35:00
如何在情感中自我成長,保持獨立
情感移植
發明與創新(2016年6期)2016-08-21 13:49:38
主站蜘蛛池模板: 日韩小视频在线播放| 91精品国产情侣高潮露脸| 亚洲精品少妇熟女| 中文字幕有乳无码| 无码AV高清毛片中国一级毛片| 伊人国产无码高清视频| 国产第一页第二页| 无码在线激情片| 永久免费无码成人网站| 精品三级网站| 美女黄网十八禁免费看| 免费中文字幕一级毛片| 97国内精品久久久久不卡| 免费网站成人亚洲| 午夜在线不卡| 国产欧美在线观看一区| 亚洲三级视频在线观看| 日本a∨在线观看| 欧美a网站| a毛片在线免费观看| 一级黄色欧美| 久久久久亚洲精品无码网站| 91区国产福利在线观看午夜| 日韩在线第三页| 黄网站欧美内射| 国产福利不卡视频| 亚洲中文精品人人永久免费| 中文字幕亚洲电影| 国产欧美高清| 亚洲国内精品自在自线官| 国模私拍一区二区| 亚洲天堂久久| 欧美精品H在线播放| 国产91小视频| 91精品专区| 亚洲国产清纯| 激情综合五月网| 久久国产毛片| 国产成人乱码一区二区三区在线| 精品视频一区在线观看| 99热国产这里只有精品无卡顿"| 亚洲国产午夜精华无码福利| 91青青草视频在线观看的| 青青青国产视频| 亚洲欧美日韩另类| 午夜国产理论| 亚洲性视频网站| 国产理论最新国产精品视频| 精品伊人久久久久7777人| 在线播放精品一区二区啪视频 | 亚洲性视频网站| 国产a在视频线精品视频下载| 热久久这里是精品6免费观看| 亚洲an第二区国产精品| 69免费在线视频| 亚洲日韩高清在线亚洲专区| 国产精品无码一区二区桃花视频| 久久国产拍爱| 在线国产三级| 国产成人久久777777| 国内自拍久第一页| 中文字幕中文字字幕码一二区| 亚洲欧美成人网| 亚洲不卡网| 日韩精品无码免费一区二区三区 | 中文天堂在线视频| 一本大道AV人久久综合| 欧美午夜在线播放| AV不卡无码免费一区二区三区| 漂亮人妻被中出中文字幕久久| 亚洲Av综合日韩精品久久久| 亚洲最猛黑人xxxx黑人猛交| 亚洲精品少妇熟女| www.精品视频| 久久国产成人精品国产成人亚洲| 欧美成人午夜影院| 久久人午夜亚洲精品无码区| 免费A级毛片无码无遮挡| 一本一道波多野结衣一区二区| 国产激爽大片在线播放| 久久精品人人做人人爽| 国产免费黄|