張明輝

摘要:本文介紹了當前情況的數據挖掘技術和研究現狀,論述了關聯規則、時序模式等相關算法,分析了數據挖掘技術在高職教育教學中的相關應用及未來的發展趨勢,探討了在大數據時代數據挖掘技術面臨的挑戰。
關鍵詞:大數據;高職教學;關聯規則;時序模式
中圖分類號:TP311.13 文獻標識碼:A 文章編號:1007-9416(2020)01-0024-02
隨著國內高等職業院校招生人數和院校數量的增加,目前全國高職院校近2700所,今年又擴招職業院校學生100萬,這種形勢下給學校教育教學管理工作帶來嚴峻考驗,傳統的教學管理手段已逐漸不能適應社會的發展,但是,原有這些教學教務信息會成為高職院校豐富的信息資源,隨著大數據時代的到來,學校面對這些大量的數據信息時并未完全進行隱含信息的挖掘和分析,而依然采用傳統的甚至還采用紙質的管理方法,這在當前的大數據時代,在當前尤其需要大量高級職業技術人才的時代背景下,這種教學管理模式顯然已經落伍。
目前大數據環境下數據挖掘技術日漸成熟,高職院校已開始將數據挖掘的相關技術應用于教育教學管理之中,即對教學中產生的數據庫或數據倉庫中的數據信息進行提取、分析、建模等工作,從分析結果中找出教育教學的日常規律,并指導教學,甚至也可以為學生今后的就業提供有力的指導和幫助。
1 大數據與挖掘技術的現狀
大數據時代缺少不了數據挖掘技術,它是匯聚了多個學科的交叉性學科,即從龐大的數據庫或數據倉庫中,將未知、隱含或具備潛在價值的信息進行提取和分析的過程。1995年,加拿大蒙特利爾市召開的第一屆知識發現和數據挖掘國際學術會議上提到數據挖掘技術,即數據挖掘的整個過程,主要包括:分類、聚類、模式挖掘和規則提取等環節,之后技術領域專家逐漸地形成了一整套的理論基礎[1]。經實踐研究發現數據挖掘技術可以獨立的身份存在于處理大數據的整個系統之中,與其他模塊之間相輔相成、協調發展。
自上述事件以后,大數據中數據挖掘技術的研究和應用受到業界的高度重視。與此同時,在教育信息化也搭乘了大數據的快車得到廣泛的應用。利用數據挖掘分析學習者特征、狀態或者行為,利用得到精準分析結果幫助學習者修正自己的學習行為,改變學習方法,對教師而言,根據分析結果合理設置課程,進行學習評價,提高教學質量,有效進行教學管理。
2 課堂教學中主要的挖掘技術
數據挖掘所牽涉的領域方向比較廣,下面主要介紹挖掘技術中的關聯方法和時序模式方法。
2.1 關聯方法
關聯方法是從數據庫中提取知識的一類重要方法,若兩個或多個數據項的取值之間重復出現且概率較高時,就可以建立起這些數據項之間的關聯方法。其形式如下:X→Y(a,b)其中X、Y為不相交的兩個項目集合,其含義為在交互中X項目集的發生將會導致Y項目集的發生,則認為X和Y之間存在某種關聯關系,此時,我們認為X項目集為關聯規則中的支持度,Y項目集為關聯規則中的信任度。關聯規則算法就是從交互數據庫中找出滿足用戶需求a(大于最小支持度)和b(大于最小信任度)的關聯方法[2]。
a.設I ={I1,I2,...Im}是的屬性集,稱為項,給定一個存儲教學數據的數據庫D,其中每個記錄T是項對應的數據集合,滿足T包含于I,每個記錄都有一個標示符,稱為TID,X是I的子集,如果XT,則稱T包含X;如果X的元素個數為K,則可以稱為X為K-項集(K-Intemset)。
b.如果項集XI,YI,并且X∩Y=,則形如X→Y的蘊含式稱為關聯規則,其中,X是規則的前項集,Y是規則的后項集,它表示包含X項集的因子T也很有可能會包含Y項集。如果包含X的因子有c%也包含Y,那么規則X→Y的置信度為c%;如果D中有s%的因子包含X∪Y,那么規則X→Y的支持度為s%,其計算表達式分別為:
在大型數據庫中通過支持度a和信任度b兩個關聯值進行提取數據項,刪除那些無意義的關聯數據項,而信任度是衡量設置規則的可能性。
例如:如既能正確回答課堂提問又能及時有效的做好課堂筆記的學生占全班學生的百分比,這種學生通常學習成績都較優秀。
2.2 時序模式方法
時序模式是主要與時間有密切關聯的方法,強調時間前后的影響,通過時間序列找出重復發生概率較高的數據項的模式方法。即按時間先后順序查看時間數據項數據庫,從中找出另一個或多個相似的時序數據項[3]。
3 關聯規則的具體應用
以創新學院為例,教師在講授,學生在被動的接受知識和技能,其過程中以學生點名冊,學生平時成績表為輔助,對學生進行監督和較粗略的評分,而沒有就過程中產生的問題進行后續個性化的智能分析與精準反饋服務。在創新學院每學期近1.6萬學時,每個班級,每節課的學生課堂信息反饋都會所變化,從中找出學校在過程中反應的客觀規律,而挖掘技術的數據依據是通過記錄學生點名表,平時成績表進行分析,通過監測打開網絡資源的時間點、停頓資源上的時間長度,回答問題正確率等判斷學生處于學習狀態的認真程度和對知識的掌握程序,進而可以定制個人學習行為報告,為后續的專業課學習預測提供技術上的支持[4]。
3.1 數據的采集與處理過程
大數據是面向過程、多種類型的數據集合,其中網絡資源類數據和學生行為數據占主要部分,只有采集到常態化海量的學生每次學習過程中數據,才能為此建立模型,進而客觀理性的學情分析和學業水平評估。而數據采集可以使用“電子數據”和“紙質數據”相結合的辦法,電子數據可以是“點擊網絡資源的時間”、“停留在資源的時間”以及電子版作業和實驗完成率和正確率等,同時還可以通過監控確認學生課堂玩手機、聽耳機現象的時間和瞌睡時長。而紙質數據依然采用傳統的辦法進行[5]。如圖1所示。
3.2 精準的數據帶來精準的教學
常規的表格數據,如:學生平時成績和期末考試成績統計等說明的情況比較粗略,不能完全反應學生學習整體過程情況,更不能精準反應學生出現的具體問題,也就不能真正掌握學生行為動態,學生日常學習過程的行為數據是海量的,離散的,需要專業人員根據實際需要建立數據模型,再由專業挖掘人員進行提取、清洗、轉換等,進行全面精準科學的分析,生成對學生學習、教師等有價值的行為報告,為每個學生提供精確指導。
一所院校的這些稱不上是大數據,那么如果將100所,甚至更多職業院校的類似數據聚集在一起,進行數據挖掘和智能分析,從中找出課堂教學中反映的問題,從而更有效的指導學生學習。
3.3 大數據使進教學改革和教學形式的多樣化
隨著大數據、智能化時代的到來,類似資源不斷為學生推送個性的學習資源,從這些資源中可以完成聽課、練習、實驗等眾多環節,而無需只依賴于課堂教學。這樣為學習創造更高效的學習和自由的學習環境。
同時,充分利用上述提供的大數據平臺,學生的表現、優勢和劣勢在數據平臺中展示,幫助教師精準診斷每個學生的精準學習需求和知識空缺,并提供針對性的指導,營造支持性的學習環境,引導并幫助學生自適應的學習、智能交互學習,讓學生不斷從中認知自己。
4 結語
關聯規則的支持度和信任度是分析學習過程潛在的規律和關聯項,主要關注學習特點、行為傾向,利用建立的模型和分析報告更加精準的反應學生狀態信息,以學生為中心,使精準的個性化教育成為可能,學習能力是有差異的,對于強者需要進一步的激勵與提升,對于弱者課后需要建立個性化的輔導答疑,教師在借助大數據的情況下,主動開展一些個性化的教學,包括錄制一些理論知識的講解視頻或實操過程的視頻,推送給不同層次的學生,指導他們自主學習。
參考文獻
[1] 劉銘,呂丹.大數據時代下數據挖掘技術的應用[J].科技導報,2018,36(9):1-2.
[2] 楊光.教育大數據應用“獲”與“惑”[N].中國信息化周報,2019- 10-14(008).
[3] 馮黎.關聯規則分析技術在高職院校教務管理中的應用研究[D].蘭州:蘭州大學,2009.
[4] 陳桂香.大數據對我國高校教育管理的影響及對策研究[D].武漢:武漢大學,2017.
[5].孫秋年,饒元.基于關聯分析的網絡數據可視化技術研究綜述[J].計算機科學,2015(S1):484-488.