基于模糊聚類的大學(xué)生網(wǎng)絡(luò)情感分析研究

2019-12-10 09:48:22仲偉偉劉麗萍汪方正

電腦知識(shí)與技術(shù) 2019年28期

仲偉偉劉麗萍汪方正

摘要：正值于青少年時(shí)期的大學(xué)生很容易受到各種外界因素的影響，導(dǎo)致心理情緒波動(dòng)較大。特別是進(jìn)入21世紀(jì)以來的大學(xué)生大多都是獨(dú)生子女，通常具有感情色彩豐富、心理較脆弱的特點(diǎn)，如果長期處于一種負(fù)面情緒的狀態(tài)則很有可能會(huì)引發(fā)一些極端的不良事件，因此維護(hù)大學(xué)生的心理健康成為高校教師的重點(diǎn)工作。而傳統(tǒng)的心理測評(píng)往往容易受到主觀條件的影響不能準(zhǔn)確和及時(shí)地反映當(dāng)前學(xué)生的心理問題，本文結(jié)合當(dāng)前互聯(lián)網(wǎng)大數(shù)據(jù)時(shí)代的特征，提出一種利用模糊聚類算法對大學(xué)生在微博等網(wǎng)絡(luò)社交平臺(tái)的文本狀態(tài)進(jìn)行情感分析的方法，旨在能夠及時(shí)有效地發(fā)現(xiàn)學(xué)生的心理健康問題避免不良的影響。

關(guān)鍵詞：模糊理論;聚類算法;大數(shù)據(jù);情感分析;人工智能

中圖分類號(hào)：G434? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼：A

文章編號(hào)：1009-3044（2019）28-0226-03

Abstract： College students who are in adolescence are very susceptible to various external factors， resulting in greater fluctuations in psychological mood. In particular， most of the college students who have entered the new century are only children. They are usually characterized by rich emotions and psychological weakness. If they are in a state of negative emotion for a long time， they are likely to cause some extreme adverse events. Mental health has become a key task for college teachers. However， the traditional psychological assessment is often susceptible to subjective conditions， which can not accurately and timely reflect the current students' psychological problems. This paper combines the characteristics of the current Internet big data era， and proposes a fuzzy clustering algorithm for college students to socialize on Weibo and other networks. The method of emotional analysis of the textual state of the platform aims to be able to timely and effectively discover the mental health problems of students to avoid adverse effects.

Key words： Fuzzy theory; Clustering algorithm; Big data; Sentiment analysis; Artificial intelligence

1 引言

目前我國高校大學(xué)生的心理健康問題正日益成為社會(huì)關(guān)注的焦點(diǎn)，當(dāng)代大學(xué)生正處于一個(gè)心理素質(zhì)快速成長的青少年階段，他們的思想開放又活躍、同時(shí)情感色彩豐富且表達(dá)愿望強(qiáng)烈。但是心理上的不成熟通常使他們?nèi)菀资艿酵饨缫蛩氐挠绊懚鴮?dǎo)致情緒失常，例如失戀、考試以及就業(yè)壓力等都會(huì)對大學(xué)生造成一定程度的負(fù)面影響，如果不能及時(shí)做出自我調(diào)整往往會(huì)形成抑郁和焦慮等心理健康問題，以至于頻頻出現(xiàn)大學(xué)生自殺新聞，甚至發(fā)生馬加爵事件和復(fù)旦投毒案這樣對社會(huì)造成嚴(yán)重影響的惡性案件，因此心理健康教育成為廣大教育工作者的重中之重。

情感是心理學(xué)中的一個(gè)重要概念，是人對客觀事物是否滿足自身需要而產(chǎn)生的一種態(tài)度體驗(yàn)，能夠反映出在某個(gè)特定時(shí)刻某人的心理狀態(tài)[1]。人類之所以區(qū)別于動(dòng)物或者機(jī)器，很大程度上是因?yàn)槿祟惿朴诒磉_(dá)自身的七情六欲，高興的時(shí)候笑逐顏開，傷心的時(shí)候郁郁寡歡，生氣的時(shí)候又咬牙切齒。而在互聯(lián)網(wǎng)時(shí)代，人們更多的會(huì)在微博、微信朋友圈或者QQ空間等網(wǎng)絡(luò)社交平臺(tái)表達(dá)自己的情感，下圖是來自于2018年新浪微博和騰訊微信官方的用戶數(shù)據(jù)報(bào)告：

從圖中我們可以看出，隨著互聯(lián)網(wǎng)的日益普及，網(wǎng)絡(luò)社交平臺(tái)的用戶數(shù)逐漸增多，截至2018年第四季度新浪微博的活躍用戶數(shù)已經(jīng)達(dá)到4.62億，同時(shí)在活躍用戶的各年齡段數(shù)量占比中18-22歲以及23-30歲的人數(shù)最多。這在客觀上反映了在校大學(xué)生以及剛畢業(yè)初入社會(huì)的職場青椒們更喜歡在社交平臺(tái)上分享自己生活中的各種喜怒哀樂，而從整體數(shù)據(jù)上也可以看出他們相對于中年人樸素樂觀的心態(tài)使用更多的是無奈和苦笑的表情。

針對網(wǎng)絡(luò)社交平臺(tái)上海量的文本信息，使用傳統(tǒng)的人工識(shí)別方法顯然不能實(shí)時(shí)和有效地掌握大學(xué)生的情感動(dòng)態(tài)。因此，利用大數(shù)據(jù)的技術(shù)手段從海量文本信息中挖掘出帶有感情色彩的詞語進(jìn)行智能的情感分析具有重要的研究意義，本文通過數(shù)據(jù)挖掘中經(jīng)典的聚類算法來對大學(xué)生網(wǎng)絡(luò)社交平臺(tái)中的文本進(jìn)行情感分析，提出一種能夠及時(shí)有效地發(fā)現(xiàn)學(xué)生心理動(dòng)態(tài)的技術(shù)方法和預(yù)警機(jī)制。

2 基于模糊聚類的情感分析方法

當(dāng)我們在微博或者朋友圈中更新一條狀態(tài)或者發(fā)表一段評(píng)論時(shí)，通常會(huì)通過文本或表情符號(hào)等形式表達(dá)自己的情感信息，而將文本中的情感詞進(jìn)行量化并計(jì)算出整段文本的情感值就是情感分析的目的。然而中文文本中的情感詞匯很豐富，還包括的大量的否定詞和修飾詞等，具有一定的模糊性和不確定性，難以準(zhǔn)確地計(jì)算出整段文本的情感值，因此本文將文本識(shí)別技術(shù)與模糊理論思想結(jié)合，計(jì)算出每個(gè)情感詞隸屬于基本情感種類的隸屬度，關(guān)鍵的步驟如下：

2.1 文本中情感詞和表情符號(hào)的提取

首先是網(wǎng)絡(luò)情感詞典的構(gòu)建，其中基礎(chǔ)情感詞主要源自著名的HowNet在2007年發(fā)布的情感分析專用詞語集，該文件中共收錄了17887個(gè)中英文情感詞，其中中文部分包括219個(gè)“程度級(jí)別”詞匯、3116個(gè)“負(fù)面評(píng)價(jià)”詞匯、1254個(gè)“負(fù)面情感”詞匯、3730個(gè)“正面評(píng)價(jià)”詞匯、836個(gè)“正面情感”詞匯以及38個(gè)“主張”類詞匯;網(wǎng)絡(luò)情感詞典的另一部分則是由心理學(xué)領(lǐng)域的專業(yè)詞匯以及社交平臺(tái)中出現(xiàn)頻率較高的網(wǎng)絡(luò)熱詞組成，如“寬心”“中年油膩”“戲精”等等;表情符號(hào)則選取了微博和微信中的最常用的基礎(chǔ)表情，包括“哈哈”“鼓掌”等37個(gè)正面表情以及“怒火”“傷心”等49個(gè)負(fù)面表情。

其次是文本中情感詞的提取，先是利用文獻(xiàn)[2]中基于專家系統(tǒng)的中文分詞技術(shù)，該技術(shù)采用首字索引的數(shù)據(jù)結(jié)構(gòu)在實(shí)驗(yàn)中精確度達(dá)到99%以上，然后將分割的詞匯與網(wǎng)絡(luò)情感詞典進(jìn)行比對，如果匹配到，則標(biāo)記為情感詞;如果匹配不到，則不參與情感計(jì)算。

2.2 情感詞和表情符號(hào)的量化處理

網(wǎng)絡(luò)社交平臺(tái)的文本內(nèi)容通常比較簡短，且一般是非書面語言，因此存在大量的修飾詞或表情符號(hào)，這些詞語對文本情感的判斷很重要，在情感計(jì)算中占有很大的比重，例如“今天心情非常好”與“今天心情還算好”的修飾詞不一樣，所表達(dá)的心情好的程度也完全不同，另外如果在文本末尾加上一個(gè)“苦笑”的表情往往使前面的語句帶有一定的反語性質(zhì)。因此不僅需要對基礎(chǔ)情感詞典中詞語進(jìn)行量化，還需要對程度副詞、否定詞以及表情符號(hào)等進(jìn)行量化。在計(jì)算過程中如果情感詞帶有程度副詞或者否定詞等，則需要乘以相應(yīng)的系數(shù);如果沒有則權(quán)值不變，最后將所有情感詞的權(quán)值相加就可以得到整段文本的情感值。

2.3 模糊聚類分析

客觀世界中的絕大多數(shù)現(xiàn)象都會(huì)隨著時(shí)間或環(huán)境的改變而產(chǎn)生相應(yīng)的變化，具有一定的不確定性，模糊聚類分析就是利用模糊理論的思想建立一個(gè)隸屬度矩陣，從而比較真實(shí)的反應(yīng)樣本之間似是而非的隸屬關(guān)系。目前最經(jīng)典的模糊聚類算法是1974年由Dunn[3]提出并由Bezdek[4，5]加以推廣的模糊C-均值（fuzzy C-means，簡稱FCM）算法。

FCM算法的基本思想是用X={x1， x2， …， xn}來表示測試樣本集的n個(gè)數(shù)據(jù) ，并假設(shè)這些樣本可以形成c種不同的類簇，通過隨機(jī)初始化程序生成這些聚類中心，并用V={v1， v2， …， vc}的形式來表示他們。接著算法開始用歐氏距離計(jì)算測試集中的每個(gè)樣本對所有初始聚類中心的隸屬度，構(gòu)造出一個(gè)隸屬度矩陣，然后利用隸屬函數(shù)不斷地進(jìn)行迭代計(jì)算出新的聚類中心，最后的終止條件是使目標(biāo)函數(shù)的值達(dá)到最小。目標(biāo)函數(shù)為：

[F（U，V）=j=1ni=1c（umijxj-vi2）]? ? ? ? ? ? ? ? ? ? ? （1）

其中，m為模糊指數(shù);U={[uij]}是隸屬度矩陣，表示第j個(gè)樣本屬于第i個(gè)聚類中心的隸屬度，

[uij=1/k=1c（dij/dkj）2/（m-1）]（其中dkj[≠]0）? ? ? ? ? ? ? ? ? ? ?（2）

其中[dij=xj-vi]是對象xj到聚類中心vi的歐式距離。約束為：0<[uij]<1且[i=1cuij=1]，[i≠j]。聚類中心設(shè)置為：

[vi=j=1nxjuijmj=1nuijm]? ? ? ? ? ? ? ? ? ? ? ? ? ? （3）

模糊C-均值算法具體步驟如下：

（1）設(shè)定聚類數(shù)目c和參數(shù)m，算法終止閾值[ε]，迭代次數(shù)t=1，允許最大迭代數(shù)為tmax;

（2）初始化各個(gè)聚類中心vi;

（3）用當(dāng)前聚類中心根據(jù)公式2計(jì)算隸屬函數(shù);

（4）用當(dāng)前隸屬函數(shù)按公式3更新各類聚類中心;

（5）選取合適的矩陣范數(shù)，如果[vt+1-vt≤ε]或[t≥tmax]，停止運(yùn)算;否則t=t+1，返回（3）。

通過以上步驟最終可以計(jì)算出每個(gè)類的聚類中心以及所有樣本對于每個(gè)聚類中心的隸屬度矩陣，通過不斷地迭代優(yōu)化使得樣本點(diǎn)逐漸接近其隸屬度最大的一個(gè)類中。

3 在大學(xué)生網(wǎng)絡(luò)社交平臺(tái)中的情感分析應(yīng)用

基于模糊聚類的大學(xué)生網(wǎng)絡(luò)情感分析過程如圖4所示。首先，利用谷歌爬蟲軟件從已注冊大學(xué)生的微博等社交平臺(tái)獲取原始的文本數(shù)據(jù);其次，對抓取的文本內(nèi)容進(jìn)行預(yù)處理，獲得文本中的情感詞，并進(jìn)行量化形成有利于聚類分析的數(shù)值形式;然后，使用模糊聚類算法對待檢測的文本數(shù)據(jù)進(jìn)行聚類分析，形成若干個(gè)不同的情感類簇（如正面情感、負(fù)面情感、正面評(píng)價(jià)、負(fù)面評(píng)價(jià)或是主張等）;最后，通過聚類分析得到的結(jié)果，對較多或長時(shí)間處于負(fù)面情感以及負(fù)面評(píng)價(jià)的網(wǎng)絡(luò)賬號(hào)進(jìn)行預(yù)警，必要時(shí)對學(xué)生進(jìn)行有效的心理或?qū)W習(xí)生活上的幫助。

在聚類分析時(shí)還需要先將情感值進(jìn)行標(biāo)準(zhǔn)化處理，通過公式4使得所有樣本的情感值數(shù)據(jù)分布在[-1，1]的區(qū)間內(nèi)，其中Xi為原始數(shù)據(jù)，Xmax為樣本絕對值最大的，Xmin為樣本絕對值最小的。如果是正向情感值，則標(biāo)準(zhǔn)化處理后在（0，1]之間;如果是負(fù)向情感值，則將樣本數(shù)據(jù)取絕對值后經(jīng)過標(biāo)準(zhǔn)化處理再乘以-1使得情感值在[-1，0）區(qū)間。通常我們根據(jù)實(shí)際分類，將文本情感值范圍在[0.3，1]區(qū)間的定義為正面情感類別，而文本情感值范圍在[-1，-0.3]區(qū)間的定義為負(fù)面情感類別，另外情感值范圍在（-0.3，0.3）之間的則為中性情感類別。

4 總結(jié)與展望

隨著互聯(lián)網(wǎng)的日益普及，社交網(wǎng)絡(luò)成為各類人群與外界溝通的橋梁，是我們展示生活狀態(tài)或情感交流的重要平臺(tái)。面對日益嚴(yán)峻的大學(xué)生心理健康問題，傳統(tǒng)的心理調(diào)查方式很難及時(shí)準(zhǔn)確地測出學(xué)生的實(shí)時(shí)情感狀態(tài)，本文采用數(shù)據(jù)挖掘中經(jīng)典的模糊聚類算法對大學(xué)生在網(wǎng)絡(luò)社交平臺(tái)的信息進(jìn)行情感分析，提出一個(gè)針對社交平臺(tái)的大學(xué)生心理情感分析方法和預(yù)警機(jī)制，從而充分發(fā)揮大數(shù)據(jù)的技術(shù)優(yōu)勢保障大學(xué)生的心理健康。

然而在進(jìn)行大規(guī)模數(shù)據(jù)的聚類計(jì)算時(shí)，模糊聚類算法的迭代次數(shù)較多，計(jì)算量很大會(huì)嚴(yán)重影響系統(tǒng)的分析性能[6]。因此我們還需要研究基于云平臺(tái)的MapReduce框架將本文算法做進(jìn)一步的分布式改造[7，8]，充分利用云平臺(tái)的海量數(shù)據(jù)計(jì)算能力，提高整體系統(tǒng)的實(shí)時(shí)數(shù)據(jù)處理能力。

參考文獻(xiàn)：

[1] 韓雪.論大學(xué)生職業(yè)生涯規(guī)劃中心理健康教育的運(yùn)用[J].科技咨訊，2018，16（20）：220-221.

[2] 朱世猛.中文分詞算法的研究與實(shí)現(xiàn)[D].電子科技大學(xué)，2011.

[3] J.C.Dunn.Agraph theoretic analysis of pattern classification via Tatnuras fuzzy relation. IEEE Trans.SMC，1974，4（3）：310-313.

[4] J.C.Bezdek.A convergence theorem for the fuzzy ISODATA clustering algorithm.IEEE? Traps.PAMI，1980，1（2）：335-340.

[5] 李潔，高新波，焦李成. 基于特征加權(quán)的模糊聚類新算法[J].電子學(xué)報(bào).2006，34（1）：89-92.

[6] 余曉東，雷英杰，岳韶華，等.基于粒子群優(yōu)化的直覺模糊核聚類算法研究[J].通信學(xué)報(bào)，2015，36（5）：74-80.

[7] 張曉麗，楊家海，孫曉晴，等.分布式云的研究進(jìn)展綜述[J].軟件學(xué)報(bào)，2018，29（07）：2116-2132.

[8] 王志剛，蒲文彬，滕鵬國.云計(jì)算下數(shù)據(jù)安全存儲(chǔ)技術(shù)研究[J].通信技術(shù)，2019，52（02）：

471-475.

【通聯(lián)編輯：王力】