999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于教育數據挖掘的學習者聚類分析與研究

2018-03-31 12:22:42石振強
電腦知識與技術 2018年6期
關鍵詞:特征

石振強

摘要:數據挖掘在教育領域的應用隨著數據的增多變得極為重要,該文主要針對在線評測系統中學習者相關數據集進行分析與研究,構造多個學習者特征,并以此對學習者進行聚類分析,從而得出不同學習者之間的特點,并對每類學習者進行深入分析,挖掘出隱含信息。一方面教育者可以針對不同類別的學習者采取不同的教育策略,另一方面使學習者更好地了解自己,發現不足的原因。將挖掘到的知識應用到教育環境中,不僅完善了在線教育平臺,同時也使學習者和教育者達到了雙贏的目的。

關鍵詞:教育數據挖掘;在線評測系統;學習者;特征;聚類分析

中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2018)06-0154-03

1概述

隨著開源教育平臺的興起,教育數據挖掘技術融入教學已成為一種趨勢,將教育系統的數據通過數據挖掘技術轉換為有用的知識,并將挖掘到的知識再次應用到教育環境中去,提供更多更客觀的反饋信息,一方面使教育者能夠更好地調整和優化教學策略、改進教學過程、完善課程開發,基于學習者的學習情況來實現教學內容組織、創新以及構建教學模式等;另一方面可以使學習者更好地了解自己,有助于自己更好的學習。

本文中主要研究XXX大學在線評測系統(Online Judge,以下簡稱OJ),此系統是學習者通過在線提交代碼,系統即時檢測代碼的正確性并給出判定結果。OJ中,存儲著學習者的相關數據,通過分析這些數據,更深入的了解學習者,以便針對不同類別學習者提供不同的教學方法。本文主要是通過分析學習者數據,建立特征,得出不同類別學習者的特點,使教學者有針對性做出策略。

2數據挖掘介紹

數據挖掘,就是從大量無序的數據中發現隱含的、有效的、有價值的、可理解的模式,進而發現有用的知識,并得出時間的趨向和關聯,為用戶提供問題求解層次的決策支持能力。

隨著開源教育平臺的興起,平臺上的數據分析變得異常重要,將數據挖掘應用在教育領域成為一種趨勢。如通過研究大規模教育數據中,可以為教育者提供更多潛在的不易發現的信息,以解決某教育中存在的問題,或者來預測學習者所需要的服務。

3問題提出

學習者數據存儲在數據庫中,因此在選取數據時,可以直接從數據庫中導出數據,然后在其中提取具有研究價值的完整的數據集。

如何更深入的了解學習者,挖掘出不同學習者之間的差異,以及如何找出需要進行考前預警的學習者,是本文研究的重點。

3.1山東某大學在線評測系統學習者群體的數據介紹

自2011年以來,注冊用戶的提升和題目的增加,使OJ系統的學習者數據集更加完備,便于研究和學習分析。

OJ系統中的學習者主要涉及計算機,軟件,網絡,物聯網,電科,數字媒體,信息安全,數學等專業,學習者按時完成專業老師安排的作業和規定的考試,表1是五個年級學習者數據的匯總,表示學習者的對題目的提交情況。最終選取了2014級,2015級,2016級學習者數據。

3.2問題解決的角度

由于數據繁雜,各個年紀的學習者提交記錄都存儲在一個數據表中,學習者的分類僅僅依靠成績是不夠的,而且也是片面的,影響學習者做題的因素很多,所以對于學習者進行有效的分析至關重要,對于教學者也有很好的幫助,可以對于不同學習者采取不同的教育方式。

不同于以往僅僅按照成績將學習者進行優良中差的分類,本文采取多個學習者特征,建立一個基于在線評測系統的學習者模型??朔藛我环诸悩藴仕米罱K結果的片面化的弊端。

4學習者數據集的預處理

4.1數據集成

2011年以來,隨著題目數量的增加,在教學方面,題目數據的涵蓋的內容越豐富,越有利于學習者學習,從而才能更好地針對學習者的數據集進行分析。所以,本文選取2014級,2015級,2016級的學習者數據。

數據集成主要將很多數據的屬性集合在一起,本文中主要將數據從數據庫中導出,按照學號的特點,針對不同的年級,不同的專業,不同的班級,依次整理,下圖是將2014級學習者的信息進行集成。

表2 2014級總提交記錄

圖中包括提交號,題號,用戶,提交時間,用戶IP,競賽號,判題情況,代碼長度,判題時間等,涵蓋了學習者在本系統的所有屬性。

4.2數據清理

數據清理試圖填充缺失的值,光滑噪聲并識別利群點,糾正圖中數據的不一致性。去掉不合理的、異常的數據,比如只注冊者、注冊學號不合法、學習者補考數據、缺失數據等。

對于學習者數據中,一些重要的屬性缺少屬性值,對于本部分的空缺,可以使用數據清理技術來填充。填補缺失值補全主要有下面幾個方法:

1)忽略缺失數據;

2)人工填寫缺失值:此方式比較費時,數據量較小的情況下可以行得通;

3)使用均值填充;

4)使用最有可能的一個值進行填充:通過回歸或者使用貝葉斯形式化的基于推理的工具或者決策樹歸納確定。

本文中的數據清理,選取學習者參與度較高的十四次程序設計基礎作業。

①因某種原因缺失作業較多學習者直接刪除,只缺少兩次甚至更少的學習者,通過其前幾次作業的做題情況,使用第四種方式填充。此方式主要用于學習者的做題時間。包括平均做題時間和每次作業的第一次提交時間。

②非法用戶、不按照學號形式注冊一律刪除。

③缺失值補全主要采用第四種方式進行填充。

④刪除數據量過少的用戶,比如只登錄過幾次,或者提交次數過少。

⑤偏差檢測,發現噪聲、離群點和需要考察的不尋常的數據。

通過數據清理,數據更加規范,合理。

4.3特征構造

特征之間存在較高的相關度,而且很多特征可以通過計算減少特征的個數。

在線評測系統中,與學習者相關的重要特征主要為:提交次數,正確提交次數,做題個數,正確率,做題時間(單位做題時間),作業提交首次時間平均值。

1)提交次數:選取學習者學年總的提交次數,通過統計每位學習者的提交的信息,包括其所有提交記錄:錯誤次數、運行錯誤次數、正確次數、編譯錯誤次數等

2)正確提交次數:每一級學習者正確提交的次數

3)正確率:提交正確的題目個數與提交的題目個數之比;

4)正確做題個數:選取程序設計基礎課程十三次作業中,學習者總的完成題目個數。

5)單位做題時間:選取第i次作業中第一次提交時間與最后一次正確提交時間之差,與此次作業中完成的題目數之比。

6)作業首次提交時間與作業開始時間間隔平均值:計算所有作業首次正確提交時間與作業開始時間間隔的平均值。

4.4特征描述

數據處理完成后,對于評測系統中學習者的數據集的各個特征所代表的含義如下:

正確做題數目:代表了學習者在在線評測系統中的完成度。

登錄次數:代表了學習者在在線評測系統中的參與度。

總提交次數:代表了學習者在在線評測系統中的嘗試次數。

正確率:代表了學習者在在線評測系統中的通過率。

平均做題時間:代表了學習者在在線評測系統中的做題效率。

首次正確提交時間:代表了學習者在在線評測系統中的積極度。

5聚類分析

聚類分析僅根據在提交記錄數據集中發現的描述學習者及其關系的信息,將學習者分組。其目標是,組內的學習者相互之間是相似的(相關的),而不同組中的學習者是不同的(不相關的)。組內的學習者相似性越大,不同學習者組間差別越大,聚類就越好。

5.1算法實現

根據本文研究數據,對個樣本點進行一聚類,這里取n:

1)準備數據集,選取2014年學習者的數據集(處理完成);

2)隨機選取個點作為數據集的聚類中心;

3)計算每個點到數據集聚類中心的距離,并聚類到離該點最近的聚類中去,此處距離采用歐式距離;

4)計算每個聚類中所有樣本點的坐標平均值,并將這個平均值作為新的聚類中心;

5)重復3),計算每個點到聚類中心的距離,并聚類到離該點最近的聚類中去;

6)重復4),計算每個聚類中所有樣本點的坐標平均值,并將這個平均值作為新的聚類中心。

5.2算法評估

聚類分析是無監督的,并不像有監督的算法可以有全面的評估函數,對于聚類結果的好壞,本文使用輪廓系數來評估聚類結果的好壞。此方式也較為通用。

輪廓系數的檢驗標準如下:

1)輪廓系數接近1,則說明樣本x聚類合理;

2)輪廓系數接近-1,則說明樣本x更應該分類到另外的簇;

3)若輪廓系數近似為0,則說明樣本x在兩個簇的邊界上。

多次實驗得出:當聚類個數取到5時,得到一個相對較好的聚類結果,所以本文選取聚類個數為5,即將學習者聚為5類。

5.3結果分析

通過選取的特征將學習者聚為5類,下面將詳細分析各類的特點。

第一類,屬于很積極的學習者,平均做題時間一般,努力型學習者。

第二類,很積極,平均做題時間快,聰明型學習者。但是一類二類學習者的通過率都很一般,詳細分析得出結論:因為這兩類學習者完成度高,由于做題數目很多,導致其通過率一般。

第三類,學習者表現最為不同,完成度低,但是通過率高,而且平均做題時間最快。對于此類學習者,進行了詳細的分析。發現此類學習者存在作弊嫌疑,因為做題數目很少,正確率很高,但是發現他們的做題時間很快,深入分析發現他們每道題之間的間隔時間也很短。故此類學習者有作弊嫌疑。并且參考此類學習者,最終的成績往往不及格,應該對此類學習者進行考前預警。

第四類和第五類可以對比說明,前者屬于沉穩型,后者屬于做題快而且通過率高,高效型學習者。

6總結與展望

根據上述分析,本文得出五類學習者之間的差異。并對每類進行了更加深人的分析,針對每類學習者的情況,教育者可以更深入地了解學習者。有助于幫助教育者對于每類學習者采取不同的教育策略。同時可以使學習者更好地了解自己,在平時的學習中得到及時的反饋。數據挖掘技術應用在教育環境中,并將挖掘出的知識反饋到教育環境中,促進了教育事業的發展。

信息時代,必將有更多的先進的技術應用到教育領域,通過分析教育數據,可以得到更多隱藏的信息,也勢必得到更多有用的知識。從教育環境中挖掘知識,最終再反饋給教育環境,這樣有效的循環,最終受益的還是學習者和教育者。

猜你喜歡
特征
抓住特征巧觀察
離散型隨機變量的分布列與數字特征
具有兩個P’維非線性不可約特征標的非可解群
月震特征及與地震的對比
如何表達“特征”
被k(2≤k≤16)整除的正整數的特征
中等數學(2019年8期)2019-11-25 01:38:14
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
詈語的文化蘊含與現代特征
新聞傳播(2018年11期)2018-08-29 08:15:24
抓住特征巧觀察
基于特征篩選的模型選擇
主站蜘蛛池模板: 91精品小视频| 久久综合婷婷| 狼友av永久网站免费观看| 亚洲娇小与黑人巨大交| 丰满少妇αⅴ无码区| 熟妇丰满人妻av无码区| 97精品伊人久久大香线蕉| 久久中文电影| 九九线精品视频在线观看| 欧亚日韩Av| 午夜小视频在线| 91福利在线观看视频| 日本午夜网站| 无码AV日韩一二三区| 黄色网在线免费观看| 亚洲美女视频一区| 亚洲欧美日韩天堂| 99ri国产在线| 2020国产精品视频| 亚洲va在线观看| 91麻豆精品视频| 伊人国产无码高清视频| 国产偷国产偷在线高清| 国产黄在线观看| 久久综合结合久久狠狠狠97色 | 麻豆国产在线观看一区二区| 黄色网页在线观看| 日本精品中文字幕在线不卡| 国产精品视频999| 好紧好深好大乳无码中文字幕| av无码一区二区三区在线| 91无码视频在线观看| 白浆免费视频国产精品视频| 天天激情综合| 国产青青操| 国产成人乱无码视频| 亚洲乱伦视频| a级毛片一区二区免费视频| 亚洲一道AV无码午夜福利| 免费看久久精品99| 免费无码AV片在线观看国产| 亚洲欧美日韩中文字幕在线一区| 成人国产精品2021| 亚卅精品无码久久毛片乌克兰| 国产香蕉在线| 亚洲欧美自拍视频| 中文字幕在线一区二区在线| 成人福利免费在线观看| 91偷拍一区| 福利片91| 国产99视频精品免费观看9e| 日本午夜三级| 粗大猛烈进出高潮视频无码| 国产精品高清国产三级囯产AV| 国产精品亚洲а∨天堂免下载| 亚洲va视频| 国产一级裸网站| 日本午夜三级| 亚洲av无码人妻| 伊人久久大香线蕉成人综合网| 亚洲欧州色色免费AV| 99热6这里只有精品| 精品视频91| 五月六月伊人狠狠丁香网| 欧美人与牲动交a欧美精品| 四虎AV麻豆| 欧美激情视频一区二区三区免费| 国产最爽的乱婬视频国语对白| 蜜芽国产尤物av尤物在线看| 丁香婷婷激情网| 亚洲三级色| 日韩av手机在线| 一区二区日韩国产精久久| 亚洲第一成年免费网站| 最新国语自产精品视频在| 日韩中文欧美| 人妻丰满熟妇αv无码| 99er这里只有精品| 久久精品亚洲热综合一区二区| 高清不卡毛片| 亚洲最猛黑人xxxx黑人猛交 | 国产免费黄|