王娟琳,陶宇煒,高東偉,封紅旗
(常州大學信息化建設與管理中心,江蘇常州 213164)
校園網絡同樣具備互聯網絡的匿名性、虛擬性、隱蔽性和即時互動性,一旦突發網絡輿情傳播快、波及面廣、影響范圍大等,高校校園網絡信息管理部門高度關注積極應對。從2003 年起我國開始對網絡輿情監管平臺進行研究[1],十年來隨著網絡信息技術發展,高性能計算、云計算等技術在高校網絡輿情監管中被應用,通過構建Hadoop 集群與MapReduce 分布處理架構,從智慧校園數據中心各個應用系統數據接口采集高校網絡輿情數據,關聯爬取到學生在校園內的學習生活靜態、動態數據并針對這些數據進行處理、分析獲取相關的高校網絡輿情預警信息[2]使職能部門的教師、輔導員主動關注目標學生做好學生工作預案及時研判、疏導,降低和避免負面事件發生。
高校網絡信息管理部門在構建輿情監管平臺時,在Linux操作系統上通常使用出現較早的開源分布式大數據計算Hadoop 平臺(如常州大學高性能計算集群上構建Hadoop 平臺,計算節點服務器操作系統是Redhat V6.2,共有30 多個計算節點,總存儲容量50TB),該大數據平臺具有穩定性、擴展性、容錯性、投資少、維護成本低等特性,在此平臺上可使用多種編程語言[2]、使用一般硬件配置。主要的兩個核心平臺架構分別是:1)HDFS 分布式文件管理體系可實現高效存儲,2)MapReduce 分布式并行計算可將一組數據按照某種Map 函數映射成新的數據再將若干組映射結果進行匯總并輸出,Hadoop平臺架構如圖1所示。

圖1 平臺架構示意圖
HDFS 是將大文件、大批量文件進行分布式存儲的文件系統,在投資成本較低的高性能計算機服務器集群上可進行文件切塊、副本存儲,使用統一的命名空間目錄樹進行文件定位,用戶可使用客戶端訪問文件系統。它是一個主從存儲模式的文件系統[3],如圖2所示。有一個Namenode 主節點管理目錄樹、文件所對應的文件塊id以及所在的從節點服務器等;而多個Datanode 數據從節點執行主節點所發出的指令來進行數據存儲,主節點與從節點通信方式采用心跳信號進行。每個數據塊可以將副本存放在多個datanode從節點上(通過參數可設置存放副本的數量),由此可見HDFS具有高容錯性特性。

圖2 HDFS結構
MapReduce 主要針對大數據計算(TB 級數據以上)模型如圖3 所示。其主要有兩個過程即Map 和Reduce,為達到高計算效率采用并行計算框架或者說是一種編程模型。計算時先將一個大的計算作業分解成多個子作業(復雜問題簡單化),再將這些子作業分別處理將得出結果再合并成最后的計算分析結果。整個作業計算流程主要分為:提交作業、初始化作業和任務分配[4]。MapReduce 分布式并行計算框架其功能是實現高校網絡輿情數據的并行爬取及分析計算,使高校開展網絡輿情的數據收集和分析工作快速而高效。

圖3 MapReduce模型
采用K-Means算法是基于劃分的聚類算法,其核心思想根據用戶所設的類別數量,隨機在文本集里選擇K個文本設置成最初的類簇中心,計算剩余的文本集里的各個文本到類簇中心的距離,把文本分別劃分到就近的類簇中,當全部劃分完畢后重新再計算每個類簇的中心,再次計算剩余每個文本到這些新類簇中心的距離,將文本重新劃分到當前最接近的類簇中去;不斷重復以上過程,當完成設置的迭代次數或簇不發生變化了停止算法[5]。K-Means算法的優點是復雜度較低并且易實現,任意范圍內都可進行聚類。但比較難選擇到最初始的全局最優化的聚類中心,算法還容易受到噪聲和例外文本的影響。
基于Hadoop 架構的高校輿情監管平臺,管理員可自由地開發運行基于大數據的應用程序[6],兼容性好,以常大高性能計算集群linux 操作系統為例,在4個計算節點服務器上進行安裝部署。將其中一臺計算節點服務器作為Namenode 主節點命名為Masternode,作為名字空間存儲服務和下發指令任務;另外3臺計算節點服務器作為DataNode 從節點分別命名為Branch1、Branch2、Branch3 負責存儲具體數據。為每臺計算機服務器配置IP 地址(vim/etc/hosts 文件中配置),再進行測試主節點和所有從節點網絡通信狀態;設置主節點和從節點之間實現SSH 免密登錄。(免密登錄需關閉防火墻再配置遠程連接SSH服務)。配置的軟件、硬件如下表1、表2所示。

表1 集群軟件信息表

表2 集群硬件信息表
由于輿情數據大部分都是結構化數據,使用Sqoop工具從智慧校園數據中心MySQL等結構化數據庫中將數據從接口導入Hadoop 平臺。MySQL 數據需導入HDFS 中,由DataNode 負責數據塊元數據的存儲根據NameNode 的指令進行檢索讀取數據。每個DataNode 會定期向NameNode 發送“心跳”信息判斷DataNode的運行情況。
從校園網上爬取在校學生信息數據如:學號、姓名、班級、所學專業、愛好等靜態特征數據和動態特征數據如:上課出勤率、使用校園一卡通圖書館借閱率、食堂消費率、考核成績、使用校園網時長等。
結合高校的工作內容,Hadoop平臺獲取的關鍵信息還有:
1)學習。主要包括自主學習、授課、網上教學等模式信息。
2)考試。涉及考試紀律、考試成績、成績服務器、考核方式等信息。
3)上課。涉及教師授課方法、上課教室軟硬件條件、興趣愛好等信息。
4)宿舍。同學間聊天的話題、宿舍軟硬件條件、后管服務滿意度等信息。
5)愛情。愛情觀、失戀等信息。
6)食堂。涉及飯菜種類、口味、價格、衛生、環境、服務等信息。
7)圖書館。涉及軟硬件條件、電子借閱、占位、館員服務等信息。
8)其他。在校體育活動場地、運動器材、校園文化環境、教學管理服務等信息。
將“高校”“高校大學生”“高等院校”等關鍵詞與上述信息進行組合,在Hadoop 平臺中進行爬取。再對這些數據進行清洗,去除不符合用戶標準的數據。網頁信息數據含有文本、圖像、除了我們所需的正文信息,還包含了多種輔助信息如:商家廣告、導航、彈窗等。在進行數據清洗時,也要對網頁內容進行清洗,消除一些不需要的內容干擾。獲得有價值數據后再將兩個時段數據合并進行曼哈頓距離計算(如本時段的數據和前一個時段的數據合并),得到某個特征數據離中心距離的偏離大小及某個數據的異常情況。
通過搭建的實驗平臺可以提取在校學生行為的靜態、動態信息數據中與輿情信息關聯的敏感關鍵字,依據一些有負面風險影響信號的關鍵字給相關學生畫像,再通過這些學生在校內的各種上網行為軌跡(如QQ、微信、網頁瀏覽、短信等)達到對監測的輿情進行追溯。積極發揮班主任、輔導員老師的主觀能動性做好預警和研判工作,從而降低輿情負面風險值達到高校網絡輿情監測的目的。
清洗干凈的學生靜態、動態特征數據通過Map-Reduce進行并行計算,在主成分分析中用協方差矩陣的特征值而在求協方差矩陣時,用的就是矩陣的加減乘除。針對主成分進行分析后將結果合并在一起提取關鍵字,通過離中心距離的劃分聚類算法,再從多角度出發對不同的數據將其結果聚合在一起,從中獲取出離中心距離偏大的一系列學生數據,針對提取的異常數據實時進行監測和研判。
Hadoop 平臺獲取信息速度與快速分析信息是一項重要的性能指標。實驗中針對單機模式與Hadoop模式進行爬取信息的速度和熱點計算所需時間、聚類分析所需時間的測試。通過實驗對比依據平臺運行時間遞增單機模式與Hadoop模式運行結果是:在平臺運行較短時間內,單機模式與Hadoop 模式沒有明顯差別,這是因Hadoop 模式在開始集群運行時各種系統存在比較大的開銷。運行時間逐漸增加時,信息爬取、數據清洗、聚類分析的數據量也在遞增,Hadoop模式爬取信息速度明顯較單機模式塊、熱點計算時間與聚類分析時間較單機模式信息計算分析速度明顯加快。由此可見,Hadoop模式在并行計算分析方面有著明顯的優勢,能快速有效提升高校網絡輿情的數據采集與分析效率。
通過基于Hadoop 高校網絡輿情監管平臺研究,實施分析爬取到學生在校園內的各種學習生活靜態、動態數據,提取到偏離中心的負面風險信號關鍵字并關注這些學生在校內學習生活行為軌跡相關數據,由班主任、輔導員針對這些學生給予一對一的關注并解決問題。數字化技術手段助力高校學生管理工作科學、高效,同時促進建設高校智慧平安校園。由此可見,構建高校Hadoop 網絡輿情監管平臺具有廣泛的實際應用價值。