王萌 張紅英 田娜 嚴(yán)大虎


摘要:本文將信息挖掘技術(shù)應(yīng)用于大學(xué)生微博分析,以江南大學(xué)在校生為研究對(duì)象,通過(guò)收集學(xué)生的微博數(shù)據(jù),對(duì)微博內(nèi)容和行為進(jìn)行分析,力求以真實(shí)的微博數(shù)據(jù)為依據(jù),客觀地反映當(dāng)前大學(xué)生微博的使用現(xiàn)狀,并探究不同群體大學(xué)生的微博行為差異。
關(guān)鍵詞:微博;信息挖掘;教育技術(shù)
● 引言
微博作為新興的網(wǎng)絡(luò)傳播工具,受到越來(lái)越多用戶(hù)的青睞,微表達(dá)、微傳播的影響力與日俱增。在校園里,微博逐漸演變成學(xué)生的一種生活方式,從吃、穿、住、行到揭露時(shí)弊、參政問(wèn)政,涵蓋了生活的方方面面,微博空間已成為大學(xué)生不可缺失的“第二交往空間”。針對(duì)大學(xué)生這一群體的微博行為分析成為研究熱點(diǎn)。
縱觀學(xué)術(shù)界,針對(duì)微博的相關(guān)研究及其涉及的學(xué)科范圍非常廣泛,可以歸納為兩個(gè)層面,一個(gè)是技術(shù)層面,從計(jì)算機(jī)科學(xué)技術(shù)、人工智能等自然科學(xué)的角度,主要研究微博短文本理解、微博內(nèi)容挖掘、微博情感分析、微博用戶(hù)社區(qū)挖掘。另一個(gè)是應(yīng)用層面,從心理學(xué)、教育學(xué)、傳播學(xué)、營(yíng)銷(xiāo)管理等人文學(xué)科的角度,主要研究微博的系統(tǒng)功能、微博信息傳播模式、與學(xué)科教學(xué)的結(jié)合方式、微博交往的心理機(jī)制和行為特點(diǎn)、微博意見(jiàn)領(lǐng)袖。技術(shù)層面的研究多采用各種信息處理技術(shù),如中文分詞、命名實(shí)體識(shí)別、文本分類(lèi)、情感分析,對(duì)微博文本建模,進(jìn)行語(yǔ)言處理和文本分析。而應(yīng)用層面的研究多采用調(diào)查問(wèn)卷的方法、半結(jié)構(gòu)化訪(fǎng)談方法來(lái)獲取用戶(hù)使用微博的相關(guān)數(shù)據(jù),進(jìn)而對(duì)獲取的數(shù)據(jù)進(jìn)行定量分析。而結(jié)合兩種研究手段,將信息挖掘技術(shù)應(yīng)用于用戶(hù)微博行為分析的研究相對(duì)匱乏,因此我們做了此次研究。
● 實(shí)驗(yàn)流程
本次研究主要由三部分組成:微博賬號(hào)的收集、微博數(shù)據(jù)的采集及整理、微博內(nèi)容及行為的分析。
1.學(xué)生微博賬號(hào)收集
以自愿為原則,線(xiàn)上和線(xiàn)下兩種渠道并用,以調(diào)查問(wèn)卷的方式,收集大學(xué)生的新浪微博昵稱(chēng),收集信息為:新浪微博昵稱(chēng)、所在院系、性別、年級(jí)。本研究先將調(diào)查對(duì)象限定為江南大學(xué)在校生,學(xué)生的專(zhuān)業(yè)盡可能涵蓋文、理、工、藝、體、醫(yī)等多個(gè)學(xué)科,年級(jí)包括從大一到大四以及研究生一至三年級(jí),多元化的調(diào)查對(duì)象帶來(lái)大量而真實(shí)的數(shù)據(jù),有利于進(jìn)行定量分析和對(duì)比研究。
2.微博數(shù)據(jù)采集及整理
利用公開(kāi)下載的微博數(shù)據(jù)采集軟件weiboCrawlerApp_3.0.9對(duì)收集到的微博賬號(hào)進(jìn)行數(shù)據(jù)采集。輸入微博賬號(hào)名稱(chēng),該軟件從新浪微博上獲取指定用戶(hù)發(fā)表的所有微博內(nèi)容,并以文本格式文件保存,下載內(nèi)容如表1所示。
根據(jù)收集到的微博信息的特點(diǎn),我們?cè)O(shè)計(jì)了兩個(gè)核心數(shù)據(jù)表,對(duì)下載的微博數(shù)據(jù)進(jìn)行歸類(lèi)整理,數(shù)據(jù)表的結(jié)構(gòu)說(shuō)明如表2所示。
● 微博數(shù)據(jù)分析
通過(guò)近一個(gè)月的數(shù)據(jù)采集,共收集到微博賬號(hào)30個(gè),其中有效賬號(hào)20個(gè),學(xué)生分布情況如表3所示。調(diào)查對(duì)象數(shù)據(jù)量未達(dá)到預(yù)期的目標(biāo),主要原因是學(xué)生對(duì)此調(diào)查心存顧慮,不愿意提供微博賬號(hào),還有部分同學(xué)提供“死”賬號(hào)(從未發(fā)布任何微博的賬號(hào))。20個(gè)微博賬號(hào)共發(fā)布微博12610條,本文的數(shù)據(jù)分析都來(lái)自于以上微博數(shù)據(jù)。
1.登錄方式
學(xué)生發(fā)布的12610條微博,其中有3179次由手機(jī)客戶(hù)端發(fā)布,9431次由電腦客戶(hù)端發(fā)布,詳細(xì)分布見(jiàn)下頁(yè)圖1。在宿舍學(xué)生一般會(huì)使用電腦登錄,而在外面的時(shí)候多使用手機(jī)。微博可以通過(guò)手機(jī)網(wǎng)絡(luò)以短信、彩信的方式更新,這正是微博的優(yōu)勢(shì)所在。
2.發(fā)博時(shí)間
本文對(duì)20位樣本的12610次發(fā)布微博的時(shí)間進(jìn)行了統(tǒng)計(jì),以?xún)蓚€(gè)小時(shí)為一個(gè)時(shí)間段,發(fā)博時(shí)間分布如下頁(yè)圖2所示。數(shù)據(jù)顯示,學(xué)生的微博發(fā)布量有一個(gè)高峰,集中在每天18:00~22:00。參考江南大學(xué)的作息時(shí)間表,這個(gè)時(shí)間段是屬于下課時(shí)間,學(xué)生有空閑來(lái)發(fā)布微博,而在上課時(shí)間微博量下降,凌晨時(shí)間段沒(méi)有微博發(fā)布。
3.微博情感分析
微博中的信息呈現(xiàn)碎片化的特性,微博不需要特別的邏輯和文法,任何一段話(huà),幾個(gè)詞甚至一個(gè)表情符號(hào),都能成為一條微博。微博作為大學(xué)生對(duì)話(huà)交流、思想分享的平臺(tái),越來(lái)越多的學(xué)生通過(guò)微博來(lái)表達(dá)自我、宣泄情緒、評(píng)論時(shí)事、分享消息,微博內(nèi)容多帶有強(qiáng)烈的情感傾向。微博情感分析主要是進(jìn)行情感極性的判定,即判斷一條微博消息表達(dá)情感是正(積極)、負(fù)(消極)、中性(中立)。本文使用的情感分析軟件是武漢大學(xué)ROST虛擬學(xué)習(xí)團(tuán)隊(duì)編寫(xiě)的ROSTCM6,該軟件具有文本操作、聊天分析、全網(wǎng)分析、網(wǎng)站分析等功能。我們利用其中的情感分析模塊對(duì)20位學(xué)生的12610條微博進(jìn)行了分析,微博情感分布如圖3所示。數(shù)據(jù)顯示,本次調(diào)查樣本中情緒積極占絕大多數(shù)。
● 基于大學(xué)生微博使用情況的幾點(diǎn)思考
如何引導(dǎo)學(xué)生合理使用微博,是擺在高校工作者面前的一個(gè)重要課題。根據(jù)本次大學(xué)生微博行為的調(diào)查結(jié)果,提出以下建議和思考。
1.管理微博使用時(shí)間,防止上癮
微博作為一種便捷的網(wǎng)絡(luò)交流工具,對(duì)學(xué)生的自覺(jué)性和自控能力要求很高,為了避免學(xué)生沉迷網(wǎng)絡(luò),甚至上課時(shí)間都在發(fā)微博,必須引導(dǎo)學(xué)生自覺(jué)管理微博使用時(shí)間。例如,在課程表定義的時(shí)間域內(nèi)禁止登錄,每天在線(xiàn)時(shí)間不得超過(guò)2小時(shí)等。
2.利用微博開(kāi)展微型學(xué)習(xí)
微博“碎片化”的技術(shù)特點(diǎn)適合支持微型學(xué)習(xí)。微型學(xué)習(xí)中,學(xué)習(xí)者利用零碎的時(shí)間片段在課下或者一些并不適于集中注意力的環(huán)境中進(jìn)行學(xué)習(xí)。利用微博的多種媒體形式(如文本、圖片等)為學(xué)生提供簡(jiǎn)明的微型化學(xué)習(xí)內(nèi)容,設(shè)置適當(dāng)?shù)膶W(xué)習(xí)目標(biāo)。微博在支持教育信息資源共享、教學(xué)交互等方面有著廣泛的應(yīng)用前景。
3.掌握學(xué)生思想輿論動(dòng)態(tài)
利用信息挖掘技術(shù),對(duì)學(xué)生微博的進(jìn)行話(huà)題分析和情感分析,可以實(shí)時(shí)掌握學(xué)生的思想輿論動(dòng)態(tài)及情緒走向,這對(duì)于提高處置網(wǎng)絡(luò)突發(fā)事件的能力和監(jiān)管能力有著非常重要的現(xiàn)實(shí)意義。
參考文獻(xiàn):
[1]王亞煦,等.大學(xué)生使用微博的現(xiàn)狀分析及對(duì)策研究[J].長(zhǎng)春師范學(xué)院學(xué)報(bào)(人文社會(huì)科學(xué)版),2012(2):132-136.
[2]張琪.大學(xué)生微博交往動(dòng)機(jī)與行為特點(diǎn)研究[J].電化教育研究,2012(8):54-58.
[3]閆幸.微博研究綜述[J].情報(bào)雜志,2011(9):61-65.
[4]林書(shū)兵,徐曉東.微博客及其教育應(yīng)用探析[J].電化教育研究,2010(3):16-20.
[5]張劍峰,等.微博文本處理研究綜述[J].中文信息學(xué)報(bào),2012(7):21-27.
[6]龔才春.短文本語(yǔ)言計(jì)算的關(guān)鍵技術(shù)研究[D].北京:中國(guó)科學(xué)院研究生院,博士學(xué)位論文,2008.
基金項(xiàng)目:本文受?chē)?guó)家自然科學(xué)基金(項(xiàng)目編號(hào):61300152)資助。