粱藝瓊


摘要:針對輿情分析系統而言,其對提升學校管理水平有著很大的意義和作用。當前,隨著的信息化技術發展水平的不斷提升,網絡技術的發展也變得越來越穩定。在這種背景下,本文即對基于數據挖掘技術的輿情分析系統的設計進行了簡單的研究和分析,希望可以為相關人員提供一定的幫助。
關鍵詞:數據挖掘技術;輿情分析系統;設計
中圖分類號:TP393 文獻標識碼:A
文章編號:1009-3044(2020)03-0001-02
現階段,隨著信息技術發展速度的不斷加快,計算機網絡已經逐漸與人們的生活以及工作結合在了一起,其為人們帶來一定便利的同時,也為學校管理工作的開展帶來了很多挑戰。并且,由于經濟全球化進程推進速度的不斷加快,信息的傳播速度也日益提升,很多關乎切身利益以及社會熱點問題使得越來越多的人在網上展開討論,從而形成了網絡輿論。如果不能及時地進行干預,那么就非常容易出現群體事件。因此,為了可以為學生營造一個良好的學習環境,在今后的發展過程中,應該強化對數據挖掘技術的應用,合理的對輿情分析系統進行設計。
1 基于數據挖掘技術的輿情分析系統設計的必要性分析
針對網絡輿情監控平臺來說,其主要的作用就是針對海量數據,科學的對網絡輿情進行研究和分析。在實際的發展過程中,隨著信息技術發展速度的不斷提升,網絡輿情分析也逐漸成了數據挖掘的重點內。并且,合理的開展網絡輿情分析,其主要的目的就是對海量數據信息進行深入挖掘,有效地將隱藏在數據背后的輿情觀點分析出來[1]。針對這一環節而言,其核心技術具體涵蓋數據采集以及主體跟蹤等。
針對文本分類來說,主要的側重點就是中文的文本分類。近年來,由于研究進程的不斷深入,在文本分類領域,應用的先進方法也變得越來越多,包括:KNN算法以及決策樹算法等。
一般情況下,文本聚類的主要目標就是依照文本的相似程度,有效且精準地對文本進行聚合[2]。同時,現階段,文本聚類屬于一種無監督的機器學習方法,在應用過程中,人們不需要訓練過程,也不用事先對文檔進行標注,其靈活性非常高,自身的自動處理能力也相對較強。因此,隨著技術的不斷發展,其也逐漸成了組織文本信息以及摘要的關鍵方法。通常而言,文本聚類具有很多的算法,包括:劃分法以及層次法等。其中,針對劃分法來說,其所涵蓋的K-Means算法,無論是在實現難度,還是在計算速度方面,其都有著十分不錯的表現,非常適合應用在挖掘大數據集中[3]。
對于主題跟蹤來說,其主要的目的就是對用戶所感興趣的主題進行跟蹤,在眾多其海量的數據信息中,找到屬于該主題的內容。在主題跟蹤中,無論是訓練與分類的算法,還是訓練的樣本數,都會在一定程度上對跟蹤的質量造成非常嚴重的影響。同樣,與文本分類較為相同的是,KNN算法以及決策樹算法等都能夠在數據的挖掘中發揮著非常重要的作用和價值。
現階段,由于社會核心技術水平提升速度的不斷加快,網絡輿情監控也得到了前所未有的發展。尤其是進入21世紀以來,無論是國內,還是國外,都在強化對可以應用實際場景的商業平臺的研究。但是,針對中職學校來說,由于其網絡輿情具有較強的特殊性,而這一情況的存在,也使得一些比較成熟的商用系統不能更好地在學校中應用,其自身的價值以及作用也不能更好地發揮出來。綜合而言,在學校的實際發展過程中,為了可以為學生營造一個良好的輿情環境,在今后的發展過程中,必須結合實際情況,加大基于數據挖掘技術的輿情分析系統設計力度,保證學校管理工作的開展可以更加有序和順利[4]。
2 基于數據挖掘技術的輿情分析系統的設計分析
2.1 輿情分析系統的設計思路
在對基于數據挖掘技術的輿情分析系統進行具體的設計過程中,本系統強化了對數據挖掘技術以及智能處理技術等的應用,實現了多種技術的有效融合。
在具體的系統設計期間,首先應該對數據來源進行明確,校園網的建立,當前已經成為中職學校的信息陣地,與其他的網站不同,校園網站自身所包含的內容具有較強的多樣性,內容涵蓋的方面非常多,甚至隨著信息技術水平的不斷提升,越來越多的中職學校也紛紛建立了學生互動交流平臺,學生可以通過這一平臺,互相認識,自由的自身觀點進行發布,也可以提出對學習管理的建議等[5]。
信息預處理模塊:對于這一模塊,其主要涵蓋了網頁凈化以及中文分詞等。
輿情分析模塊:這一模塊主要包含了話題評等。并且各個模塊是可以獨立存在的。
2.2 基于數據挖掘技術的輿情分析系統的總體設計分析
在具體的輿情分析系統設計工作進行和開展過程中,其主要是針對學校輿情做出管理預警,科學應用現代化先進手段和技術,有效且合理的對系統設計工作進行完成。因為中職學校輿情的特殊性不同于其他網站,所以,在系統設計階段,應該綜合考量[6]。
第一,對數據來源進行明確。一般情況下,在中職學校的實際發展過程中,其網絡輿情的表現具有較強的多元化,針對同一個問題,或者不同的領域的問題,其都會存在不同的態度以及看法。同時,由于網絡空間的自由性,其也為學生提供了很多自由發表自身意見的平臺。所以,在實際的系統設計階段,針對學校存在的突發事件等,都會在一定程度上引發學生們的討論。故而,針對這一情況,學校應該將社會熱點論壇等作為信息來源,以便可以有效對學校于輿情進行管理和區分。
第二,信息采集以及網頁預處理。針對網頁預處理,其主要的目的就是可以有效地對信息資源進行收集,同時利用網頁的分析采集,科學的將時間以及發帖人等信息精準的進行提取。而針對信息采集,其具體的作用就是對網絡爬蟲等工具進行應用,并讓其作為信息采集模塊,以便可以從指定的網站上獲取信息到本地,最后對相關數據進行更新[7]。
第三,輿情分析。所謂的輿情分析,具體就是指網絡輿情管理的核心,同時也是較為煩瑣的一個環節。主要對信息進行分類識別的前提下,有效跟蹤和記錄。
第四,輿情管理。依照上述輿情分析的最終結果,在對實際情況進行了解以及明確的前提下,對進行科學且有效的劃分,合理地進行操作。如下為輿情分析系統總體設計模塊圖。
2.3 輿情分析系統的功能模塊設計
第一,信息采集模塊。在實際的輿情分析系統中,針對信息采集來說,其是非常關鍵的一部分內容,可以達到對指定論壇網絡信息和相應的學校社區的數據進行采集的目的,也可以對這些信息進行有效的存儲,以保證后續的數據篩選工作可以有序進行。通常情況下,在這一模塊中,比較長應用的工具為網絡爬蟲等,設定初始化種子樣本,并通過解析,在IP地址下載相對應的網頁,同時對已經獲得的網頁進行超鏈研究,盡可能多的將結構等信息的分析出來,從而更加精準的對網頁內容是否重復進行檢查和判斷,最后將網頁采集后,合理地將數據存儲到數據庫中。
第二,信息預處理模塊。針對這一模塊來說,具體涵蓋內容如圖2所示。
第三,輿情分析模塊。針對這一模塊,具體涵蓋了話題識別模塊等。其中,話題識別模塊:新話題的實現應用了改進后的Single-Pass聚類算法,多中心的表現形式可以而更加直觀地將輿情話題的動態變化展現出來。話題跟蹤模塊具體包含了構造分類模型,模型評估及文章分類模塊。在具體的設計階段,先對分類模型進行科學的構建,在結合具體情況,合理的評估分類模型,在依照模型,對文章的相似度進行精準的計算,最終對其類別進行明確。
第四,輿情管理模塊。這一模塊是系統的最后一個環節,其包含了用戶管理以及權限管理等。其中,針對用戶管理,具體是指在系統中,設計用戶登錄以及退出等模塊,并有效地進行增加和刪減操作,科學的設置用戶信息。對于權限管理,主要是在系統的實際應用期間,由于角色的差異,其權限也會存在很大差別,在操作過程中,需要對角色進行授權認證等。
3 結束語
在具體的教學工作進行和開展過程中,為了可以最大限度地降低網絡輿情問題出現幾率,科學對面臨的困境進行規避,學校在各項工作進行階段,應該強化對數據挖掘技術的應用,設計并實現一個基于數據挖掘技術的輿情分析系統。并且,通過對分布式文件系統存儲數據的合理應用,同時將云計算技術進行科學的結合,有效提升系統執行的穩定性以及效率。此外,通過話題發現以及輿情分析跟蹤,可以在第一時間對網絡輿情進行監控,正確地進行引導,保證中職學校學生管理工作可以順利且有效地進行和開展。
參考文獻:
[1]陳紀銘,卜曉.基于數據挖掘的城市旅游輿情分析系統設計與實現[J].電子技術與軟件工程,2019(8):174-175.
[2]余宏.大數據環境下網絡輿情分析在企業管理中的應用研究[J]現代計算機:專業版,2018(32):62-66.
[3]徐明波,王群.我國“中考加分”問題的網絡輿情分析——基于五大綜合類門戶網站的研究[J].湖北師范大學學報:哲學社會科學版,2018,38(5):124-129.
[4]吳欣怡,湯靜.新時代網絡輿情的大數據技術應用與研究[J].計算機產品與流通,2018(9):81.
[5]王若宇.大數據下的網絡輿情分析研究——評《網絡輿情分析技術》[J].新聞戰線,2018(16):177.
[6]陳藝卓,基于數據挖掘的高校網絡輿情分析系統設計與實現[J].電子技術與軟件工程,2016(23):189.
[7]袁鍵,田宏林,張濤.互聯網輿情搜索分析系統的設計與實現[J].計算機與數字工程,2012,40(1):93-96.