胡智鋒
(武漢商學院,湖北武漢 430000)
網絡信息技術和電子計算機技術的快速發展,促使各行業工作期間產生大量數據信息,為提高數據信息的采集、存儲與處理效率,要加快建立智能化預測系統,在機器學習原理下,解決數據發展問題,提高大數據技術的應用效果。
大數據技術的應用,主要依托數據處理系統,其關鍵性技術包括大數據采集、大數據存儲、大數據管理、大數據分析以及大數據應用等技術類型,針對較大數據量進行有效處理,通過數據系統,將不同類型的應用數據進行歸納和分類,深入挖掘數據信息中蘊含的資源和價值,在實際應用期間,綜合運用物聯網對目標信息進行采集,接著利用云計算功能對數據進行深入挖掘和處理,通過云平臺進行數據信息儲存,最終由移動互聯網終端進行信息數據發布,形成大數據技術應用背景下數據信息處理系統的運行閉環,極大提高數據信息的處理效率,保證數據信息的真實性和準確性。
實施智慧教育的關鍵,是要運用云計算、大數據、物聯網等新一代信息技術,來實現整個教育信息系統的重構,通過云計算對傳統教育信息系統與校園網絡系統進行整合、優化,建立起教育云服務平臺, 從而在較大范圍內聚合教育資源,形成大規模非結構化教育數據(教育大數據),并最終實現整個教育信息系統的重構,以支持教與學過程的智能決策、智能實施與智能評價。
基于大數據技術發展的時代背景,智能預測系統建設方法包括數據清洗法、特征分析法、模型構建與融合、智能預測法,具體論述如下:
2.1.1 數據清洗法
數據清洗作為智能預測系統運行的基礎環節,要求對原始數據進行預處理,利用大數據手段,對異常和空缺數據進行處理,通過繪制散點圖的方式,將數據本身代表的意義和價值結合起來,根據離散變量空值情況,采用連續變量向數據平均值進行補充,保證數據信息鏈條的完整。
2.1.2 特征分析法
針對數據清洗結果,利用特征工程對數據展開全面分析,通過綜合分析明確數據特征,根據數據的具體特征嘗試將數據結構與數據類型進行關聯,顯現數據中隱藏的統計結構,為數據處理和智能預測系統工作提供數據特征輔助。
2.1.3 模型構建與融合法
智能預測系統建立初期,要求構建系統模型,利用大數據手段,通過精度較高的XG、GBM等模型對數據進行簡單預測,根據初預測結果,結合數據權重,對不同數據類型進行劃分,經過加權計算后初步形成智能預測系統模型,強化系統運行的泛化效果,進而實現對數據信息發展趨勢的智能預測,提高數據預測分析的綜合效果。
2.1.4 智能預測法
智能預測是該系統運行中的末端工作環節,通過對數據分析和預測模型的科學性檢驗,結合數據加權運算結果,調整樣本數據的權重,選擇分數較高的樣本數據,采用lgb模型對數據進行集中訓練,選取優質的數據樣本,從而融合成新型智能數據預測分析系統[1]。
智能預測系統運行期間,圍繞數據分析結構開展具體預測工作,從變量數據的量化處理角度出發,綜合分析數據的集聚效應,利用大數據技術,完成對數據信息的管理和預測。智能預測系統運行過程中,關鍵預測流程如下:
第一步,智能預測系統根據相關行業數據信息進行收集和整理,利用篩選和分類系統,完成對不同類型數據的歸納和分類,通過大數據技術手段,在數據庫中挑選關鍵信息進行分析、關聯和對比;第二步,智能預測系統根據不同行業的實際需求,對機器學習算法進行優化設計,實現對基礎數據的分析和預測,建立數據預測模型,完成對數據的預處理;第三步,智能預測系統利用數據整體基數大的特點,發揮云計算功能作用,生成動態化數據,系統運行過程中,數據被輸送至預測模型中,經過篩選、分析和預測等環節,系統自動輸出智能預測結果。
智能預測系統的應用,依托于智能化預測模型的建立,該模型參與訓練與應用期間,實際應用效果集中體現在以下幾方面:
2.3.1 算法模型驗證
智能預測系統的運行,需要對系統內部數據運算機制進行優化,采用驗證法對數據算法模型進行簡單驗證,根據數據收集和發布的生命周期,定期執行數據算法驗證工作,針對異常數據采取表格的形式進行展示,通過相關數據的采集和分析,對異常數據進行處理,實現對數據風險的有效控制,保證數據準確性。
2.3.2 實際預測應用
智能預測系統運行期間,實際運行情況以系統應用效果為準,數據分析工作人員利用預測結果,對智能預測系統的運行效果展開分析和評價,實現對數據信息的高效利用,完成對只能預測系統運行效果的質量檢驗[2]。
3.1.1 機器學習概述
機器學習是一門綜合性強且多領域交叉的學科,涉獵范圍較為廣泛,在大數據背景下,機器學習逐漸成為人工智能系統運行的核心,為智能化預測系統提供技術支持。大數據時代的到來,教育行業逐步加強對機器學習的應用,將機器學習由傳統的綜合性學科轉變為服務型技術手段,針對計算機無法統計和整理的數據信息進行集中研究,通過技術手段,對機器學習方式進行改良,進而形成機器學習算法,為數據信息系統的建設工作創造良好的應用條件。
3.1.2 大數據背景
大數據技術在發展過程中,呈現出明顯的形態波動,伴隨著計算機的普及和推廣,大數據逐步登上歷史舞臺,各行各業開始利用大數據進行信息采集和整理,完成數據信息的實時傳輸工作,集中體現了機器學習發展的創新性和實用性,在機器學習和大數據技術進步的同時,數據處理人員對數據采集系統進行優化設計,及時更新數據分析和處理的方法及相關設備,確保在大數據時代背景下,全面促進智能預測系統建設和機器學習水平的提升。
基于大數據背景下,機器學習的具體學習方法主要分為四大類,分別為機器學習策略、機器學習方法、學習目標及數據形式的分類,基礎概念論述如下:
3.2.1 機器學習策略
基于機器學習理論下的學習策略由模擬人腦、統計數學兩方面構成,其中模擬人腦的學習方式,包括符號學習和神經網絡學習,以數據數值為基礎,利用現代化技術手段,模擬人腦的運算方式,針對圖像信息、狀態空間、推演流程等方面進行模擬,完成對相關知識信息的有效采集;統計數學的方式則是通過構建數據訓練模型、制定學習策略、確定最優算法等方式,完成對相關數據信息的獲取工作[3]。
3.2.2 機器學習方法
機器學習具體的學習方法包括歸納學習法、演繹學習法、類比學習法和分析學習法,通過決策樹、函數計算、經典案例分析等方式,以概率函數、代數函數及人工神經網絡為基礎,將統計與動態規劃相結合,優化機器學習結構,進而形成完整的機器學習模式。
3.2.3 機器學習目標
學習目標是機器學習的關鍵部分,具體包括概念、規則、函數、類別和網絡的學習,根據學習內容制定相應的學習目標,對機器學習模式進行科學合理規劃,為后續進行機器學習算法分析工作創造條件。
3.2.4 數據學習形式
機器學習模式應用期間,以數據為主要的學習形式,通過結構化學習和非結構化學習,對數據信息進行有效輸入,根據數值或符號運算結果,深入挖掘數據中有用的價值信息,完善數據鏈條中的關鍵節點,采用大數據技術手段,補全數據信息,強化機器學習效果。
3.3.1 決策樹算法
基于大數據背景下,對機器學習算法進行分析,利用決策樹對不同數據類型進行輸入空間劃分,明確各個區域參數的獨立運算機制,利用樹形結構,對數據節點進行路徑分析,判斷不同數據象征類型,根據數據分析樣本生成相對應的數據子集,通過分割遞推的形式,對節點進行有效測試,提高數據信息處理效率。
3.3.2 支持向量機算法
基于大數據手段,采用非線性變換方式,將空間向更高維度進行轉變,在全新空間表面形成最優分類,利用支持向量機進行機器學習運算,在方法類型上與神經網絡算法基本一致,在數據分析和處理方面,以現代技術手段為核心,構建SVM算法模型,發揮監督學習的優勢,構建最優數據結構運算模式,結合有限的數據樣本信息,尋求機器學習算法應用路徑,完成對數據空間的最優劃分,逐步實現機器學習算法的全局優化。
3.3.3 人工神經網絡算法
人工神經網絡由神經元組成,在該算法機制內,個體單元相互連接且有相應數據值實時輸入和輸出,以實數或線性組合為基本形式,將機器學習能力進行泛化,呈現明顯的非線性映射效果,針對數據信息量進行模型處理,提高數據信息的傳遞速率,逐步推進預測系統的智能化建設。
3.4.1 分治型數據處理模式
分治算法在大數據處理工作中,具有先天的應用優勢,將數據庫內數據信息作為核心運算內容,將分治型算法進行拓展延伸,實現對數據信息的精準分析,有利于明確機器學習的根本目標,降低學習難度,精準判斷數據樣本類型。在數據篩選和分析過程中,采用約減法在大數據中選取最小數據集合,借助測試子集完成數據的采樣和優化工作,提高數據決策效率和質量[4]。
3.4.2 并行式數據處理模式
為滿足大數據時代對于大量數據的處理需求,將數據與機器學習進行有機結合,通過并行式數據處理模式,完成對大數據的聯合處理,建立并行化數據轉換機制,在并行處理觀念的指導下,對“碎片化”數據進行分類,利用大數據手段,對各類數據運行規律進行整體性把握,保證機器學習目標及效果定位的精準性。
3.4.3 聚類式數據處理模式
數據處理過程中,常用聚類法進行數據挖掘,將數據根據不同節點信息進行類型劃分,將大型數據劃分至多項子數據的節點之中,針對已完成分類的數據節點進行集中處理。聚類式數據處理模式在實際應用期間,具體應用途徑分為三類,分別是非迭代化拓展、持續擴充子集合、抽樣均值,提升數據信息的綜合處理效率。
綜上所述,隨著大數據時代的不斷深入發展,傳統的機器學習方式和智能預測系統必須結合大數據背景,基于校園管理、教學、服務、就業、科研五個層面的需求,研究校園大數據的應用關聯,分析基于時間和空間維度的數據變化規律,考慮未來數據趨勢走向,對數據處理模式進行創新應用,積極構建智能化預測系統,實現對數據信息的綜合預測與分析,提高數據的處理效率,建立基于智能預測和機器學習的管理和服務,幫助學校真正的發現學生、了解學生,充分發現學生的個性,并且幫助老師實現針對高校學生的因材施教、個性化管理。