高濤濤 匡芳君
(溫州商學院信息工程學院,浙江 溫州 325035)
基于大數據的高校網絡輿情分析研究
高濤濤 匡芳君*
(溫州商學院信息工程學院,浙江 溫州 325035)
隨著互聯網的高速發展,移動網絡不僅改變人們的生活方式,更改變了交流方式,尤其在高校中,大量的個人言論通過網絡進行傳播、碰撞、融合,產生的校園網絡輿情,對高校影響巨大。如何監測網絡輿情數據,給高校網絡輿情以正確的導向,是高校提升核心競爭力急需解決的關鍵問題。本文提出基于數據挖掘和數據分析等技術構建高校網絡輿情體系,以引導高校網絡輿情更加積極化、健康化,從而促進高校校園文化和諧發展。
高校網絡輿情;大數據;數據分析;數據挖掘;監察體制
隨著互聯網的高速發展,我國的網民規模不斷上升,截至 2017年6月,我國網民規模達7.51億,我國手機網民規模達7.24億,而網民中學生群體占比更是高居榜首,高達25.0%[1]。而在學生層次中,和互聯網最密切相關的便是大學生,對于豐富多彩的Internet,無數的網絡信息必將影響其言行。各高校校園BBS、貼吧、博客等社交平臺大大方便了大學生之間交流討論的同時,隨著新言論的不斷出現,各個個體間意見不斷交互,各種觀點不斷碰撞,從最初可能只是個人或者是少數人的意見,到最后可能轉化成為絕大多數人的集體意識,并在校園里形成“家喻戶曉”的校園網絡輿情。隨著大數據時代的到來,校園網絡言論產生的數據量也在不斷飛漲,高校管理者如何從如此龐大的數據中提取到有價值的信息,從而在校園輿情形成之際及時有效地發現以及引導,構建高校網絡輿情體系勢在必行。本文通過對高校網絡言論的大數據分析,進行數據的采集、分析,從而構建高校網絡輿情體系,其分析出來的輿情結果可以讓管理人員及時有效地處理高校網絡輿情,保證校園的和諧穩定。
高校網絡輿情,是指高校內部各類群體在校園網空間中,對其所關心的特定的中介性社會事項產生和所持有的社會政治態度,高校網絡輿情是一個特指的以大學生為主體的概念[2]。而大學生群體又是各個群體中最為特殊的群體,他們受教育程度較高,創造性強,精力充沛,相對于一般的社會群體,大學生群體擁有群體間相互交往頻率高、時間長、空間相對單一、目標共性強等特征,而正是這些特征賦予高校網絡輿情個性化的特性。高校網絡輿情正是基于高校這一特殊環境,作為象牙塔內的大學生群體通過社交平臺表達自己的言論,從而影響當前大學生的思想和行為。
高校網絡輿情傳播速度驚人,信息傳播隨意性強,高校應當格外重視校園網絡輿情,加強對網絡輿情的研究、引導,正確的認識高校網絡輿情的作用并對其進行科學化的管理。在高校網絡輿情傳播過程中,大學生已經不單單局限于信息的接收,更是逐漸地主導著信息的傳遞。但生活在校園中的高校大學生,社會經驗和閱歷的缺乏,評判能力有限,面對著龐大的真假難辨的信息,難以在短時間內做出正確的判斷,更加難以分辨出事情的真偽,從而容易導致高校學生對發生在身邊的校園事件或社會現象認識難免有失偏頗,受到錯誤的輿論引導,造成其表達的方式往往比較過激,而這些不正當的言論直接發表在社交平臺上,就有可能引起不健康的高校網絡輿情,從而影響大學生觀念的不正確發展,造成嚴重的后果。
高校網絡輿情是高校工作的重要組成部分,進入互聯網時代以來,各個高校在不斷提高校園網絡輿情安全意識,從各種途徑來保障校園網絡的安全。建立學生代表制度,學生代表在各自的學生群體中有較大的影響,通過學生代表引導校園網絡輿情發展的方向;開設心理課堂、課外心理咨詢,關注學生的心理健康,降低網上不良言論出現的概率。但是,在大數據的時代里,面對紛雜斑駁的數據,僅僅依靠人是很難應對的,這不僅體現在工作量上,而且對高校管理者的專業性也有很高的要求。所以在未來,必須加強高校管理人員的數據意識,依靠校園網絡輿情信息的收集平臺,監測校園網絡輿情,掌握輿情的發展趨勢。網絡輿情的形成和演變有四大階段:言論形成期;討論傳播期;網下沖突期;輿論消退期[3]。建立完善的校園網絡輿情預案,模擬相關的校園網絡輿情危機,制定周密有效的應急處理行為規范,堅決將校園輿情牢牢控制在第二階段,將校園網絡輿情的不良影響降到最低。
隨著信息技術的不斷發展,數據流量也越來越龐大,數據的價值不斷提升,甚至成為了最寶貴的財富。因此,數據的處理需求也大大提升,相應的數據處理技術也在不斷發展,特別是對于數據的分析以及數據潛在價值的挖掘尤為重要,數據分析、數據挖掘等技術成為了核心關鍵技術。
數據分析的數學基礎在20世紀早期就已確立,但是直到計算機的出現才讓數據分析得以推廣,數據分析利用數學的大腦,計算機的身體組成了智能的產品。數據分析在多個領域都有著舉足輕重的作用,數據和數據分析的價值也有目共睹。數據分析技術可以分析文本、數字、日志等,數據之間往往具有互聯性,當面對大量的數據毫無頭緒時,可以通過作圖表等輔助方法來幫助分析、推斷,也可以通過數據對已有的假設進行驗證性的分析。
數據挖掘一般是指從大量的數據中通過算法搜索隱藏于其中信息的過程。數據挖掘在技術上又有著這樣的定義:從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程途徑[4]。隨著時代的發展,信息技術的發展速度有目共睹,隨之網絡數據也越來越龐大,如何從中得到有價值的信息也越來越考驗著我們。數據挖掘是對于數據的管理、分析和處理的一項技術,是數據處理的關鍵一步。而對于網絡輿情來說,其本質就是針對數據的深度處理,通過對大量的數據進行挖掘,從而得到重要的、有意義的數據,再通過有效的數據來分析出網絡輿情中蘊藏的觀點。
結合高校網絡輿情特點和實際情況,設立適應高校的網絡輿情分析系統,設計的校園網絡輿情系統框架如圖1所示,系統結構主要包括數據收集模塊、數據分析模塊、數據分類存儲模塊、數據檢索模塊、輿情發布模塊這五大功能模塊。通過該輿情分析系統,可以較好地抓取以及處理高校網絡平臺的網絡數據,通過對數據的分析,將數據進行分類存儲,通過檢索從數據庫搜索數據,提取出現頻率高的數據并進行重點關注。對比分析從而了解高校網絡輿情的起源,發展的過程以及為后續決策提供理論支持,從而基本掌握校園網絡輿情,把握校園輿論動態。

圖1 高校網絡輿情系統框架圖
大學生除了關注自身的學習外,還比較關注的就是校園的周邊,尤其是一些大眾喜歡的話題,往往會引起大學生強烈的興趣,當他們想要發表、討論的時候,自然就來到了校園論壇等社交平臺這一虛擬的空間來發表自己的看法,這就會形成新的校園輿情。這類信息的討論對象越具有吸引力并觸動大學生情緒的時候,就越能引發強大的網上討論熱潮,就像“滾雪球”一樣,討論的學生越來越多,相關的言論碰撞也越來越激烈,從而關注的群體也越來越廣泛,相關的數據也隨之變大。面對如此龐大的數據,我們主要采用的是網絡爬蟲技術,利用其抓取網頁信息。爬蟲從用戶的社交平臺的URL開始,獲取其所對應頁面上的鏈接,然后持續更新URL,從而不斷獲取新信息,再將這些網頁信息全部存儲到本地,在一定的周期內重復對這些頁面進行爬取,然后對比數據庫,判斷該數據是否被保存下來,從而決定增添數據庫或者保持不變。
該模塊是系統最基本的存儲功能模塊,為了處理龐大的數據,該存儲模塊主要是采用了分布式、面向列的分布式數據庫HBase,且其不是一個關系型的數據庫,可以很好地存儲大量分析好的數據,并對其進行分類存儲,為其他模塊的調用做準備。
數據分析是該系統的重要組成部分,其主要作用是識別不同的主題,追蹤同一主題的相似內容,完成對響應主題的分析。利用Canopy算法,以簡單的形式構造了一個分類器,將數據進行簡單分類處理并提供K值,再利用K-Means算法先選取K個文檔作為聚類中心,然后將剩余的文檔歸在最近的中心,得到新的中心,直至將所有文檔聚類。在主題跟蹤中訓練樣本數、訓練與分類算法都是影響跟蹤質量的重要因素,和文本分類問題類似,經典的KNN算法、SVM 算法、決策樹算法等都能發揮很好的作用[5]。
該模塊主要包括普通檢索、輿情檢索、元搜索、檢索結果查看等,用戶可通過自定義關鍵詞進行搜索查詢,對特定的高校網路輿情進行了解。建立敏感詞匯數據庫。作為人群密度大的高校,由于學生自身的素質參差不齊,難免會有有關反動、政治、色情性質的言論出現,這個時候敏感詞庫就發揮了重要的作用,根據搜集過來的數據與其進行匹配,并將該情況馬上反饋給管理人員,通過管理人員來處理,防止形成校園網絡輿情以及造成不良影響。
根據之前模塊對數據的處理,將輿情分門別類,結合系統能夠根據用戶關注、發表的敏感信息,對其中的熱點問題進行統計分析,并將積極的熱點問題推送給用戶,對不積極的數據進行更加深入的研究,將查詢統計結果生成報告,及時將輿情報告發送給高校領導,為高校的決策提供依據。
某高校校園貼吧爆出了一則學校“高價熱水”新聞,該貼一出現,就被網友瘋狂轉載,一時間傳遍網絡,更是在第二天便滿校皆知,人人議論紛紛,雖然最后經過調查,事件得到了圓滿的解決,但也不難看出其存在的問題——校園網絡輿情難以控制,必須要有相應的處理機制,相應的校園輿情處理系統。新言論一經出現,通過已經設定的URL進行信息的爬取,然后將其存儲在HBase分布式數據庫中,再利用Canopy進行簡單的歸類,并利用K-means聚類算法對“天價熱水”等相關內容進行統計歸類,然后將其進行儲存。當“天價熱水”這一主題頻繁出現,不斷被檢索時,便會第一時間通過輿情發布系統以短信或者郵件的形式推送給管理人員,最后由管理者視情況決定是否引導校園輿情或者上報上級領導。當學校領導提前得知校園輿情的時候,其響應的應急機制便會提前啟動。
高校應當重點抓住大數據在網絡輿情挖掘中的價值,利用數據挖掘等技術的同時,結合互聯網時代的輿情特征,善于利用新時代新技術,讓高校能夠更好地檢查、應對校園網絡輿情突發危機,可采取更及時、更穩妥、更高效的措施,使其能更好地服務于高校工作,為維護高校校園的穩定,維護社會秩序的穩定打下扎實的基礎。
[1]中國互聯網信息中心.第40次中國互聯網絡發展狀況調查統計報告[R].中國互聯網信息中心,2017.
[2]李昌祖,周杰,鄭蘇法.高校網絡輿情及其研判的若干思考[J].江蘇高教,2010(5):106-108.
[3]丁義浩,王鑠.當前高校網絡輿情工作中存在的問題及對策[J].東北大學學報(社科學版),2013,15(4):424-428.
[4]林樹地,吳揚揚.基于Hadoop的C4.5決策樹分類算法并行化[J].微型機與應用,2013,32(12):85-87,91.
[5]陳藝卓.基于數據挖掘的高校網絡輿情分析系統設計與實現[J].電子技術與軟件工程,2016(23):189.
Research on College Network Public Opinion Based on Big Data
Gao Taotao Kuang Fangjun*
(Wenzhou Business College,Wenzhou 325035,Zhejiang)
With the development of the Internet,mobile network not only changes people's lifestyle,but also transform the communication way of people.Especially in universities,it has enormous impact among universities when more and more personal speeches spread,collide and integrate by the network.How to monitor the network public opinion data,and give correct guidance to the college network public opinion is the key problem that universities need to solve urgently.This paper proposes the construction of college network public opinion system based on data mining technology and data analysis technology,in order to guide the network public opinion more active and healthy,so as to promote the harmonious development of campus culture.
college network public opinion;big data;data analysis;data mining;supervision mechanism
TP391
A
1008-6609(2017)10-0055-03
高濤濤(1995-),男,浙江臺州人,本科,研究方向為軟件工程。
*通信作者:匡芳君(1976-),女,湖南衡陽人,博士,教授,研究方向為群智能與多目標優化、模式識別、信息安全等。