周來 劉丙利
(鄭州財經學院,河南鄭州 450000)
隨著高等教育改革事業的不斷深入,近年來我國高校辦學規模、內容不斷發展轉變,過去的生源、教學模式、管理模式亦不斷由單一化向多元化方向轉變。與此期間,教學數據的累積,業務流程的日趨發展,以及現階段校情學情的評估分析等情況,無不對高校傳統人工管理方式方法提出了嚴峻的考驗。面對龐大的數據量及復雜的計算流程,高校紛紛展開對如何應用大數據技術以推動自身發展的探索。作為一項針對龐大、多類型及異構數據的管理技術,大數據技術可依托挖掘分析、交互共享、優化存儲、可視化呈現等手段,推進領域活動與業務數據的優化整合,進一步實現數據價值的形成。而推進高校大數據平臺的設計及應用,不僅是將大數據技術應用于高校教學管理中的一條重要途徑,還是高校秉持“以人文本”理念、提升信息化建設水平及育人水平的一項重要手段[1]。因而,本文將對高校大數據平臺的設計及應用進行思考研究。
高校大數據平臺設計應滿足龐大、多類型及異構數據高效實時的采集、分析、存儲、共享等需求,對于該平臺的關鍵技術而言,主要包括有:一是數據采集、預處理技術。數據采集及清洗預處理應考慮各式各樣的數據來源,諸如傳感器、射頻識別、互聯網數據等。除去傳統關系型數據庫管理系統,諸如SQL Server、MySQL等的數據采集以外,對于系統日志的采集,主要借助開源的Scrilbe、Flume等系統;網絡數據采集主要研究網絡爬蟲、網站提供的DPI、API等網絡流量采集[2]。因為大數據的特殊性,數據采集完畢還應對其開展過濾去噪、集成變換等預處理。二是數據分析、存儲及可視化技術。數據分析處理技術主要包含數據建模、分類、回歸分析、關聯規則挖掘等技術;數據存儲主要涉及Hive、Hadoop等分布存儲技術,且主要包含分布式數據倉庫、分布式文件系統等;并行計算技術主要包含批處理、內存計算以及圖計算技術等;數據可視化技術可提供可靠的分析圖表呈現模式、便捷靈活的數據接口給其他應用調用。
高校大數據平臺設計旨在切實實現數據的價值,依托數據可視化分析工具,可便捷地與高校現有數據進行連接,高效地建立數據圖表,進一步使數據的實際價值得到充分發揮。為達成這一目標,應注重實現高校大數據的數據采集、數據清洗以及數據可視化分析等功能。
高校大數據平臺數據采集應借助可靠的集成中間件技術,也就是依托B/S架構,通過Web的方式輸出全面統一的可視化采集工具,直觀生動地對各個流程進行設計、定義,并保障數據采集安全有序進行。作為數據分析的一大前期,數據采集應契合多種多樣的數據源,以確保高校在信息化建設中數據源的轉變,并做到與時下主流數據庫、大數據存儲等相匹配。換言之,高校大數據平臺數據采集應支持與SQL Server、MySQL、Oracle等數據庫的有效對接;數據采集基于分布式文件系統的大數據存儲庫,諸如Hive、Hadoop、Spark等;數據采集可與Excle、Csv、Json等各種類型的數據結構相對接[3]。各項采集的數據應存儲于搜索引擎類文檔型數據庫中,從而確保億級數據的性能及對各種類型數據的可靠支持,并可通過Web頁面實時了解數據占用存儲空間,以及可在數據日歷上了解數據日常轉變情況。對于獲取的數據,應通過數據集的途徑開展管理。可通過對數據集的數據設置鉆取路徑、設置數據歸檔備份,以此保障數據的安全性及系統的有序運行。另外,數據采集可結合實際需求調節為定時運行,并可日歷了解接口運行狀況。與此同時,還可對數據接口設置全量更新,亦或通過主鍵、時間戳等方式開展增量更新設置。
數據清洗主要是指數據分析前的數據處理能力。高校大數據平臺應當對獲取的數據開展清洗、加工處理,這一功能離不開數據清洗控件的有力支持,以將日常數據清洗過程中常用的方式轉化為各個模板庫,諸如數據過濾、數值計算、列重命名、碼表提取、數據混淆、地理解析等。另外,高校大數據平臺還應實現針對海量數據清洗規則的可擴展性,諸如Groovy數據清洗、Java代碼數據清洗等。
數據可視化旨在讓數據可實現有效便捷利用,依托數據可視化大數據分析工具,可便捷地與高校既有數據進行連接,并通過自然語言引導的方式,高效建立數據圖表,進而使數據的實際價值可得到充分發揮。比如,高校管理層可通過數據可視化分析,制定接下來的決策;教務處可通過數據可視化分析,不斷提升教學質量;學工部可通過數據可視化分析,及時發現學生的異常行為等。數據可視化要能夠實現圖表、數據報表繪制等功能,這也是數據的直觀呈現方式。同時,數據可視化應支持各式各樣的統計分析圖表類型,繪制圖表時以自然語言或者半自然語言的方式實現人機交互。圖表應支持各式各樣的類型,同時支持以組件化的方式提供特殊報表的二次開發能力,支持線圖、數值圖、地圖、柱狀圖、區域圖、餅圖等常用圖表,并可依照各種數據結構,開展圖表的個性化配置。為提升數據的有效利用率,圖表采用數據集中的數據模型,以此既可便捷利用既有字段指標列,又可對既有的字段指標列開展二次自定義過濾、計算后獲取新的字段,二次自定義的新字段指標列類型包括有統計值、數值區間、時間區間、加權平均等[4]。數據報表應將數據集中的數據以表格的形式予以分析、呈現。同時,數據報表還要能夠實現獨立的數據篩選、權限控制功能。另外,數據報表還應支持以透視列、透視行、計算值等形式生成透視數據報表;支持配置復雜計算表達式,實現環比、同比等復雜計算邏輯。數據報表要實現Web可視化樣式設計功能,設置報表表現樣式,可實現報表的帶格式導出,相關部門可結合實際需求通過Excel、JPEG等形式在線制作交叉報表,并借助關聯數據集中的數據源開展信息填充,切實避免數據重復填報問題發生。綜上,高校大數據平臺架構,如圖1所示。
隨著大數據技術的迅猛發展,社會發展對熟練大數據技術的人才提出了越來越迫切的需求。與此同時,近年來國內外不斷提高了對大數據平臺應用的重視度。近些年我國眾多高校陸續推出了數據科學專業課程,比如,北京航空航天大學、復旦大學、浙江大學、武漢大學等高校與阿里云、慧科教育簽訂合作協議,利用云平臺推出云計算與數據科學教育課程,以期培養一批高素質的云計算及數據科學人才。國外一些高校也紛紛推進了對高校大數據平臺的有效應用,比如,美國查爾斯頓學院在其官方網站上提到,其是世界上第一所推出數據科學本科課程的高校,其所設置的數據科學課程涵蓋多個專業,以此充分滿足了廣大學生學習數據科學相關知識的需求,并表明了數據科學與各大行業的緊密聯系。又如,美國德雷克塞爾大學于2016年設立數據科學本科專業,以期幫助學生面對企業數據洪流的堅實基礎,通過該專業學習,學生可了解企業數據需求,構建有價值的數據使用及分析機制等。

圖1 高校大數據平臺架構示意圖Fig.1 Schematic diagram of university big data platform architecture
利用大數據平臺實現教學管理創新,可從以下幾個方面著手:一是推進教學管理信息化建設,獲取各式各樣的數據來源。利用大數據平臺對高校教學管理工作進行深度分析,建立完善信息系統,對教學管理全面環節進行記錄,開拓多樣豐富的數據采集渠道。比如,通過推進對遠程教育系統優化改良,擺脫傳統遠程教育的束縛,為教學過程提供更有力支持,全面記錄每位學生的各項學習行為數據,有效評估學生的學習情況。同時,依托加強對物聯網的有效應用,為人員、物品等相關管理提供有力支持,一方面提升管理質量、效率,另一方面促進積累豐富的管理數據及行為數據。二是構建大數據分析模型,滿足多元服務需求。提供多元化服務是教學管理的一項重要目標,而利用大數據平臺則是提供多元化服務的一條重要途徑,而大數據分析模型質量重要影響著數據的價值。一些不受關注的數據在可靠的模型中,往往可實現令人意想不到的價值。為此,可通過對學生學習行為數據進行采集分析,了解學生學習需求及學習效果,提取為學生所廣泛接受的教學模式,以及設計學生喜聞樂見的教學課程等,以此為教學管理創新提供有力數據支持。三是依托大數據平臺,推進高校全面創新。依托對大數據平臺的綜合應用,可推進對各個教學管理環節的評估分析,并將分析結果應用于工作實踐中,進而實現高校教學管理的全面創新。比如,可利用大數據平臺對教學過程、教學滿意度、師資水平、學習行為、學習成績等進行全面分析,制定教學畫像、學生畫像,明確優缺點,評估發展狀況[5]。又如,還可利用大數據平臺對學生數量、教室使用情況、宿舍分配、網絡消費、圖書館使用情況等進行全面分析,制定不同資源利用率指數,實現數據可視化,推進教學管理工作的順利開展。
總而言之,大數據時代提升數據質量、標準,推進高校大數據平臺的設計及應用是高校信息化建設中的一項重要內容。為此,高校相關人員必須要持續探索研究,提高對高校大數據平臺設計關鍵技術的有效認識,加強對高校大數據平臺的設計及應用,不斷提升高校數據管理質量、效率,為教學科研、師生發展提供更有力的數據支持。