



摘 要: 依據教育數據挖掘技術,通過關聯規則挖掘中的確定因素法和序列模式挖掘,分別對學生課程選擇的最小關聯規則和學生的臨時興趣學習模式進行挖掘,以此進行學生的行為分析。首先,通過最小關聯規則挖掘中的確定因素(DF)法,從課程數據庫中挖掘學生課程選擇的最小關聯規則。其次,通過臨時興趣序列模式(TIPS)技術,在學習活動序列中發現短期的學習行為模式。最后,通過數據實驗驗證該算法具有實際意義。
關鍵詞: 數據挖掘; 關聯規則; 確定因素法; 序列模式
中圖分類號: TN911?34; TM417 文獻標識碼: A 文章編號: 1004?373X(2016)13?0145?04
Abstract: According to the educational data mining (EDM) technology, the minimum association rule of students course selection and student temporary interest learning pattern are mined respectively by means of definite factor method and sequence pattern mining in association rules mining to analyze the student behavior. The definite factors (DF) method in minimum association rule mining is used to mine the minimum association rules of students course selection in the courses database. And then, the temporary interest sequence pattern (TIPS) technique is used to find out the short?term learning behavior pattern in learning activity sequences. The experimental verification results show this algorithm has a practical significance.
Keywords: data mining; association rule; definite factor method; sequence pattern
近些年,圍繞著大數據可被用于造福教育與學習科學這一共同利益,兩個方面的技術逐漸得到了發展,這兩個方面就是教育數據挖掘(EDM) 以及學習分析[1]。隨著教育數據挖掘的快速發展,數據挖掘中的各項技術,諸如關聯規則挖掘,序列模式挖掘等技術都相繼得到了應用,這也進一步促進了教育數據挖掘技術的發展。同時,通過教育數據挖掘對教育數據進行的數據挖掘而得到的潛在信息或是關聯規則也得到了更多的應用,通過這些潛在信息和關聯規則,管理者可以更好地制定管理策略和教學策略,這對提高學校的管理和教學有著非常重要的意義[2]。
1 學生課程選擇的最小關聯規則的挖掘
學生的課程選擇是大學生日常學習生活中必須接觸到的,并且會直接影響到學生在校學習,所以課程選擇顯然是一種重要的學生行為[3]。因此,采用確定因素法,從課程數據庫中挖掘學生課程可以采用最小關聯規則挖掘技術。
1.1 關聯規則
(1) 關聯規則的挖掘
關聯關系可以采用置信度、支持度、期望置信度、作用度四個標量進行表述。通常來說,置信度就是關聯規則下準確度的衡量標準,而支持度則體現了重要性標準。支持度越大,說明這個關聯規則就更加重要。如果在數據挖掘中,存在關聯規則的置信度較高,但是支持度卻相對較低,那么這種規則的實際應用效果就很難保障[4]。
(2) 關聯規則挖掘的過程
關聯規則的挖掘需要通過兩個階段來實現:第一個階段就是從現有的數據集合中找到高頻項目組,并進行整合;第二個階段就是通過這些高頻項目組構建關聯規則。
在第一個階段中涉及到的高頻項目組中的高頻內涵指的是其中某一個具體的項目組出現的頻率,只有這個項目組在記錄中出現的頻率達到了某一個水平,那么就叫做高頻項目組。而且一個項目組出現的頻率實際上就是支持度。比如以包含了物品集合和物品集合的項目為例,通過式(1)就能夠獲得的項目支持度。
通過式(1)計算出來的支持度如果大于設定的最小支持度,那么{A,B}這個項目組就可以稱作高頻項目組。比如某個項目組K?滿足了這個最小支持度,就說明這個項目組K?是高頻項目組,可以使用Large k表示這種高頻項目組。然后關聯算法就從Large k中進行延伸,從而產生Large k+1,直到找到了所有的高頻項目組。
關聯規則的第二個階段自然就是找到關聯規則。實際上很多高頻項目組就是產生關聯規則的搖籃。利用第一個過程中的項目組K?獲得關聯規則。在設置最小置信度的門檻下,如果每一個關聯規則超過了這個置信度,那么這個規則就能夠作為有意義的關聯規則進行評估和可視化。
1.2 教育數據挖掘中的最小關聯規則
教育類數據是挖掘明顯的最小關聯規則中的一種潛在資源,這些規則對于協助高校的管理者或是高校的教師在做出正確的決策和制定完善的教學方案時有著非常好的作用。這一研究的重要性在于,它能夠發現所選的課程中不尋常的關聯[5]。進一步而言,它還可以反映在大學的課程問題上頻繁和最低規則的結合中可能存在的規則。這一研究的結果可以讓學校老師給某一類的學生提供合適的課程作出指導。事實上,它可以幫助大學政策制定者理解和提高目前的教學水平,整體提升管理流程水平[6]。
采用確定因素(Definite Factors,DF)法檢測學生已選擇的大學課程之間的不尋常關系。事實上,確定因素法可以考慮到大學課程之間的頻繁和最低的結合因素,用以生成想要的最低管理規則。在生成這些規則之前采用LP?3和LP?增長算法。
1.3 確定因素法
設指的是一系列稱為常數值的項目,指的是一系列非負實數稱為權重的項目,指的是業務中的數據集,而業務中的是一系列特別的項目,每個業務可以由一個特殊的識別碼TID進行識別。
(1) 定義
針對本文中所使用的算法,為了使其易于理解,在這里,先給出一些定義。
定義1 設為一個項目集,該項目集合為項目K?,稱為項目集K?。
定義2 該項目集的支持值是即supp(X)被定義為一項包括了業務的項目數據。
定義3 設為一個項目集,和之間的關聯規則是在的情況下,其中,和分別表示原因和結果。
定義4 關聯規則支持值即supp則定義為包括了業務中的數據。
定義5 關聯規則的置信區間,即conf,定義為包含的業務中的數據的一種概率。所以,conf的計算公式如下:
定義6 確定因素是在不同的項目集里,通過一個項目集的頻繁程度與基準頻率進行對比,開發支持值的公式。項目集的基準頻率應假設為統計上是獨立的。
確定因素,即DF,且:
(2) 最低關聯規則的構造定義
若一個規則符合以下兩個條件歸類為最小相關規則定義(SLAR) 。一是,相關規則的DF必須大于預設的最低DF。最小DF是在0~1之間。二是,相關規則的因果條件必須既不是最低項目也不是頻繁項目[7]。每個相關規則DF的計算都應該采用定義6的方法確定。DLAR算法構建的完整過程如下:
1.4 實驗結果
用確定因素方法取得實驗文本,所有關聯規則的權重都會根據這一方法進行分配。在此,學生可以在原始圖表中根據固定定位選擇8個課程。每個課程的實際定位是根據固定課程進行設置的。在某大學里,共計為某屆學生提供822個本科課程。根據這些數據,160名學生選擇了342個本科課程,可以歸類為47個類型領域。從中抽出了5個課程列在表1中。同時,在實驗中還用到了確定因素法中的LP?樹和LP?成長算法。
經過實驗,共有4 177個相關規則被成功提取出來,如圖1所示,學生一共選擇了一些(或沒有選擇) 相關的計算機課程,大約有32%的學生沒有申請計算機科學課程,大約有36%的學生選擇了4門計算機課程。如圖2所示為采用不同支持范圍的相關規則的總數。較高的相關規則數支持值低于1%,而最低值相關規則的支持范圍應為2%~3%,進一步分析表明,專注于支持值大于3%的規則。3%的最小支持值相當于在本項目中必須至少出現五次的項目集。表2列舉了前十位最小值為3%的相關規則。
表3給出了根據表2的相關規則的意義。由于課程領域的矛盾,第一個規則到第五個規則是比較奇怪的。第六個規則就非常真實,因為在基礎要求上兩個項目有著相似之處。第六到第十個規則,解釋起來則比較難比較復雜,因為這些課程中并無相關的興趣。據此,可以看到,學生們在選擇大學課程的過程中混淆了他們的幾種興趣。總之,在大學選課數據庫中現存的相關規則是有例外的。這一信息對全面了解學生的興趣以及如何引導他們選擇更合適的大學課程是非常有意義的。
2 挖掘具有臨時興趣的學習行為模式
2.1 識別臨時興趣模式
在這一環節里,使用序列技術展現臨時興趣序列模式(TIPS) 技術并使其與興趣方法相符,從而辨識出學生行為中最具臨時興趣的部分,然后對其進行視覺化處理[8]。每名學生的一系列不同行為都具有與其相關的序列,TIPS技術主要由四個基礎步驟組成:
(1) 通過在學生的學習活動序列中應用序列模式挖掘法并生成候選模式(頻率底線為50%) ;
(2) 通過把每個候選模式映射到它在活動序列中發生的位置,算出其臨時覆蓋區域;
(3) 使用一種被應用于每種模式的臨時覆蓋范圍中的理論興趣方法來提供候選模式的排名;
(4) 對于那些排名較高的模式,使用熱量地圖對其臨時覆蓋范圍做出視覺化處理,從而更輕易地獲取其用法趨勢和峰值。
為了定義TIPS技術的信息增益應用表現出了兩個重要觀點:
(1) 當使兩種模式的總發生幾率相同時,更具時間特異性(即特定時間域內具有更多獨特活動)的模式則會具有更高的排名;
(2) 當使兩種模式在相臨時域內總發生幾率相同時,總計頻度更高的模式則會具有更高的排名。
2.2 Betty的大腦數據
在“Betty的大腦”這款軟件中,學生的學習和教導任務主要圍繞以下7種展開:閱讀相關材料獲取信息;在因果聯系圖中添加或移除聯系以組織聯系,然后把這些信息教授給Betty;詢問Betty對基于因果聯系圖域的看法;讓Betty參加由導師制作出的小測驗以檢驗其對于當前圖中各種聯系的正誤理解;讓Betty說明她會使用哪種關系來回答小測驗中的問題;記下筆記以供日后參考;標注出聯系以記錄下通過測試與閱讀環節決定的正確性。
2.3 實驗結果
從68名學生活動的序列來看,序列模式挖掘法識別出了超過一半的學生都具有的215種行為模式。為了獲取關于其用途隨著時間變化而發生演變的廣泛性,把各模式的出現值歸入活動范圍的以內。
表4給出了由TIPS技術識別出的每位學生身上最常見的30種行為模式中的3種,以及依照出現頻率對TIPS排名和基線排名進行對比。歸納出來的TIPS模式中近一半模式(30個中的13個)在發生率上的基線排名超過50;大多數模式(30個中的9個)的基線排名超過100。如果沒有TIPS技術的存在,那么此類低排名(在發生率上)模式將很容易被忽視。這種模式具有較高的發生率排名(因為它具有較高的平均發生率)和較高的TIPS排名(因為它還具有強烈的時間變化)。學生們傾向于以這種模式展開學習活動,這種模式在學生的整個活動過程中最多占到了20%~40%的比例。
另一項通過TIPS技術識別出的臨時興趣模式是緊隨小測驗之后的移除錯誤因果聯系環節,學生們通常在后期使用這種行為模式。通過這種行為模式可以發現被學生用來在小測驗中確定關聯是否錯誤以及是否應該被移除的監管行為。隨著學生們添加越來越多的錯誤關聯,這種形式的出現呈現出超出預期的上升趨勢。
TIPS在對普通模式和具有高發生率模式的認知過程中也同樣發揮著重要的作用。發現那些隨著時間的變化具有臨時性用處演變的模型對于教育以及其他領域的研究者和專家也具有極為重要的作用。
使用此項技術挖掘“Betty的大腦”中數據的結果體現出隨著時間的變化具有演變的認知行為的潛在利益,同時也具體化了TIPS排名和發生率基線排名的差別。盡管考慮到系統條件和學習活動的限制,發生率排名的總體趨勢只能代表一些特定模式;但TIPS技術可以通過強有力的時間演變特性識別出這些模式,并確定一些預期模式;同時它也能辨識出與預期不符的一些模式,如果沒有TIPS技術,那么這些模式很容易就會被忽視。總體上講,這些結果闡釋了TIPS技術的效用,同時還說明TIPS排名和發生率排名中排名較高的模式是對重要學習行為模式的初期分析和鑒定最為有用的。
3 結 論
本文主要依據教育數據挖掘技術,通過關聯規則挖掘中的確定因素法和序列模式挖掘,分別對學生課程選擇的最小關聯規則和學生的臨時興趣學習模式進行挖掘,以此進行學生的行為分析。其中,通過挖掘學生課程選擇的最小關聯規則,以此確定學生選擇的大學課程中的特殊聯系,幫助管理者制定教學和管理策略,提高學生學習成績。其次,在基于電腦的學習環境下,識別出學習活動數據中的序列模式能夠幫助大家發現、理解和研究學生學習行為,通過TIPS技術在學習活動序列中發現具有臨時興趣的行為模式。通過對學生課程選擇和學生學習行為模式的教育數據挖掘對學生行為進行分析,幫助管理者和老師提高教學管理水平。
參考文獻
[1] 徐維.RFID在學生行為分析系統中的應用[J].孝感學院學報,2010(z1):22?25.
[2] 李婷,傅鋼善.國內外教育數據挖掘研究現狀及趨勢分析[J].現代教育技術,2010(10):13?16.
[3] 孫云帆,齊美玲.數據挖掘在教育應用中的淺析[J].商場現代化,2012(24):55?57.
[4] 楊永斌.數據挖掘技術在教育中的應用研究[J].計算機科學,2006(12):78?80.
[5] SCHEUER O, MCLAREN B M. Helping teachers handle the flood of data in online student discussions [C]// Proceedings of 2008 9th IEEE Conference on ITS. Montreal: Springer, 2008: 323?332.
[6] 王愛平,王占鳳.數據挖掘中常用關聯規則挖掘算法[J].計算機技術與發展,2010(4):88?90.
[7] 孫云帆,齊美玲.數據挖掘在教育應用中的淺析[J].商場現代化,2012(24):90?92.
[8] 王登.數據挖掘技術及其在高校素質教育應用中的探討[J].現代電子技術,2007,30(4):95?97.