王肖飛

摘? ?要:隨著大數據技術的不斷發展,通過利用大數據技術的海量分析能力能夠客觀地分析出學生業績數據的規律,以此為強化學生業績管理工作提供科學依據。文章設計基于Map Reduce的關聯規則算法,以此搭建Hadoop平臺挖掘、分析學生真實的成績。
關鍵詞:大數據技術;學生業績;分析
隨著大數據技術在教育行業中的應用,客觀評價學生的業績是了解學生學習情況,改進教學模式的重要方式。然而由于影響高職學生業績成績的因素比較多,尤其是高職海量的教學和管理數據導致教育工作者難以客觀的在海量的數據中尋求清晰的關聯規則。目前高職所采取的學生業績數據庫系統只是簡單地提供系統操作,而不能對數據進行分類分析。因此本文借助大數據技術的優勢,構建基于大數據技術的學生業績分析系統。
1? ? 學生業績分析概述
學生業績就是學生在學習方面的學習方法、學習習慣、學習興趣以及學習成績的總稱,學生業績分析顧名思義就是對學生學習成效的分析。隨著高職教育改革的不斷推進,對于學生業績的分析不能僅憑借其考試成績,而且還要融入日常表現、人文素質以及實踐應用能力等。在高職學習階段學生業績所產生的數據非常多,如何在海量的數據中挖掘有用信息并且為教育管理者所應用,成為當前學術業績分析所必須解決的問題。實踐表明在海量的數據中進行分析需要從海量數據中挖掘與提取重要信息,其包括數據清洗、數據選擇、數據變換以及數據挖掘等,每個數據分析環節的構成都是數據分析研究的重要內容,因此需要最大程度地保持與還原客觀事實。
2? ? 基于大數據技術學生業績分析系統的設計方案
2.1? 系統開發設計的總體目標
基于大數據技術的學生業績分析系統就是將大數據、數據挖掘等計算機技術應用到高職學生業績管理系統中,以此通過該平臺為學生、教師提供更加準確的數據信息,提高高職教育的精準度。結合高職教育的目標,該系統開發設計的主要目標為:(1)對產生數據的各環節進行精準分析。根據調查學生業績數據產生不同的環節,例如平時的教學工作、學生實習表現、課堂反饋以及學生自我評價等,不同環節都會產生大量的數據,而這些數據之間有的存在某些關聯,有些則存在重復性。海量的數據必然會影響教師對學生業績情況的客觀分析,因此,通過設計大數據學生業績分析系統對海量數據進行自動分析與精選,以此為教學工作提供準確依據。(2)實現人機交互界面,實現雙重查詢需求。學生業績分析系統需要滿足學生自我查詢和教師查詢的功能,系統根據權限對相關使用者授權,以便其可以及時了解自己的學習或教學情況,進而客觀地發現自己的缺陷并加以改進[1]。
2.2? 系統開發的可行性及數據來源
根據高職學生成績管理工作的需要,設計了合理的大數據處理與分析平臺,以及數據挖掘并行算法處理平臺,項目重點為利用Hadoop平臺對大數據日志進行存儲、分析、處理,對采集的數據進行分析,完成相應日志的入庫、處理、分析、實時查詢等主要功能。對經過處理后的數據進行數據挖掘,挖掘出有價值的信息,給用戶推薦更好的資源。按照實施計劃部署相應的大數據系統平臺,根據平臺的數據處理量,初步規劃Hadoop集群的數量為5~10臺。
為了客觀地反映學生業績情況,保證大數據學生業績分析系統的準確性,提高數據的挖掘能力,本次研究的數據全部來源于高職教育不同階段、部門。例如高職學生信息管理系統、招生就業系統、校園圖書管理系統以及教務管理系統等。當然考慮到學生平時表現也是客觀評價學生業績的重要方面,因此,本研究將學生的網絡社交媒體、學習者調查等方,載體中關于學生情況的數據也納入到該系統研究范疇中。
3? ? 架構設計
基于大數據的學生業績分析系統主要包括兩個部分:(1)大數據處理與分析平臺。(2)數據挖掘并行算法分析平臺。大數據處理與分析是對原始數據進行ETL的過程,數據挖掘并行算法則是對經過處理后數據的挖掘,以便可以發現潛在有價值的信息。整體架構如圖1所示。
3.1? 環境設計
本文研究是在VMwara Workstation10.0.0上建立兩臺虛擬機,搭建Hadoop集群環境,一臺作為NameNode,另一臺作為DataNode。(1)搭建Linux系統。本次的Hadoop雖然能夠適應不同的系統,但是由于其搭建環境較為復雜,因此可以選擇Linux系統,消除其搭建環境復雜的弊端。(2)Hadoop平臺搭建。采取完全分布式模式,在搭建前需要安裝兩個程序:Java語言的軟件開發工具包(Java Development Kit,JDK)和安全殼協議(Secure Shell,SSH)。Hadoop運行的過程中需要管理遠端Hadoop守護進程,因此在啟動后需要通過SSH和DataNode進行交互。
3.2? 數據預處理
納入本次研究的大部分數據來源于相關部門的原始數據,而這些數據難免會存在某些數據記錄的缺失。因此,為了保證結果的準確性,需要對學生業績的原始數據進行清洗,通過清洗提高數據的準確性。根據大數據挖掘技術的要求,原始數據清洗過程為:(1)清洗無效數據。對收集的各種數據分析不難發現,在原始數據中存在帶有“一”“、”以及空值等不合法的字符,這些字符的存在沒有任何的意義。例如高職院校的選修課并不是所有學生都會選擇的,因此對于某些學生而言其選修課的成績則會用“一”代表,但是在分析系統中沒有任何的意義,需要系統將其清理出去。(2)數據轉換。數據轉換就是將不同的課程或者表現用簡單的字符代替,例如不同的數字代表不同的課程成績。(3)數據規范化。數據規范化就是將數據進行分類,明確不同數據區域的分值,例如可以將90分以上的劃定為優秀,將80~90分劃定為良好,將70~80分劃定為中等,60分以下的劃定為不合格[2]。
3.3? 數據挖掘
數據經過預處理后,需要考慮如何能讓數據發揮作用。這就需要采用數據挖掘平臺提供的數據挖掘和分析工具、算法進行有價值信息的抽取,從而實現從數據到信息的高效轉化。對受教育者的學習數據、行為數據等進行深入分析和挖掘,查找可能存在的問題等重要信息,并利用這些數據為改善受教育者的成績或學習行為提供個性化的服務。同時,借助數據中一位受教育者的各個維度數據來綜合評判學生表現,利用大數據挖掘技術,針對學生存在的問題提供合理的建議與意見。根據平臺需求主要使用以下5種數據挖掘技術從大數據分析后的數據中提取有價值數據信息。
(1)預測(Prediction):基于對歷史數據的分析,預測新數據的特征或數據的未來發展趨勢。例如,要具備知道一個學生在什么情況下盡管事實上有能力但卻有意回答錯誤的能力。
(2)聚類(Clustering):發現數據的內在結構。這對于把有相同學習興趣的學生分在一組很有用。
(3)相關性挖掘(Relationship Mining):發現各種變量或因素之間的關系,并對其進行解碼以便今后使用它們。這對探知學生在尋求幫助后是否能夠正確回答問題的可靠性很有幫助[3]。
(4)升華人的判斷(Distillation for Human Judgment):建立可視的機器學習模式。
(5)用模式進行發現(Discovery with Models):使用通過大數據分析開發出的模式進行“元學習”(Meta-Study)。
4? ? 結語
隨著大數據技術的發展,構建基于大數據的學生學業分析系統是客觀了解學生學業情況,準確分析學生學習成績,提高海量數據分析效果的重要舉措。
[參考文獻]
[1]程玉霞.數據挖掘在學習成績預測中的應用研究—以網絡教育本科統考英語為例[D].無錫:江南大學,2016.
[2]趙慧瓊,姜強,趙蔚,等.基于大數據學習分析的在線學習績效預警因素及干預對策的實證研究[J].電化教育研究,2017(1):64-71.
[3]李強,趙晨杰,羅先錄.基于大數據應用技術的學情分析系統架構分析與設計[J].軟件工程,2018(5):38-41.