999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數據挖掘的高校教學評估系統的研究

2016-03-27 20:18:11李瑩羅嬌敏閔芳
數碼世界 2016年12期
關鍵詞:數據挖掘課程學生

李瑩 羅嬌敏 閔芳

南京航空航天大學金城學院信息工程系

基于數據挖掘的高校教學評估系統的研究

李瑩 羅嬌敏 閔芳

南京航空航天大學金城學院信息工程系

對于高等院校來說,如何從眾多的成績數據中選取對于教育決策分析有用的信息,成為一個亟需解決的問題。本文通過深入研究數據挖掘的經典算法,尋找適合的算法,建立數據挖掘模型。然后以學院中某個專業的歷史數據為研究對象,搭建數據倉庫,設計整體架構。經過多次的調研和實踐,最終確定采用聚類分析進行實施。將學生通過聚類而不是分數段分為五類,然后通過課程組、整體成績趨勢等多種方式加以分析,通過直觀的數據圖標加以呈現,更加準確及時的了解教學情況,以輔助教學。

數據挖掘 K-means算法 教學評估 聚類分析

1 問題提出

作為多年從事教育工作的筆者,常年面對學院產生的大量數據,例如學籍管理、學科管理、招生、就業、教職工管理等系統,其中包含了眾多能夠反饋出學院教學狀況的信息,但是由于其數據量實在龐大,且涉及的部門眾多,單純靠人力來解讀較為困難。因此,如何從數據中“掘金”,是本文討論的主要問題。

2 教學評估系統的架構

本文設計的教學評估系統總體由三層結構組成:數據層、邏輯層和表示層。表示層主要負責數據的輸入輸出,作為界面展示;數據層負責數據的預處理;邏輯層則提供專業的數據分析和挖掘。

3 高校數據的預處理

本文選取的是某高校信息工程專業的課程成績及設置,期望以該專業說明數據挖掘對高校數據分析的過程。由于不同專業間課程差異較大,核心課程各異,數據處理必須分不同專業進行,這也是教育領域數據挖掘較大的難點之一。但是其數據處理的思路與算法思想基本相同,僅是數據預處理的時候需要根據專業特色來制定。建議該預處理的過程尋求各專業內部人士給出參考意見,收集本專業中的核心課程。同時還需要其了解專業的課程設置和學生情況,如近年來是否存在較大課程改革,學生學籍調動等,以免產生較大誤差及噪聲數據。

最終選取的是信息工程專業的核心課程(共16門),形成兩張關系表。其中“數據信息表”存放的是課程信息,定義專業課程的名稱,學時,學分,課程類別,課程類型和考試方式等信息。而“成績信息表”則存放了學生的成績信息,將原有的教務數據進行數據重構,一行元組代表一個學生所有專業的成績情況,每個屬性代表一門專業課程的最終成績,統一采用百分制。這樣處理學生數據的原因是根據聚類的特性,將一個學生數據看成多維空間的一個數據點,成績的差異可以通過計算數據點的距離絕對值,則根據該距離的遠近可以可以實現學生的聚類。

4 聚類算法應用分析

經過多次調研和實踐,最終選用聚類分析中K-means算法來完成分析。聚類分析屬于無指導學習,其挖掘不需要預先定義的類標簽,而是通過大量數據找到其分布規則。由于數據來源于真實的教育背景,其數據存在一定的噪聲(如退學、留級導致的數據缺失等),預處理需要將這些數據刪除。

在算法實踐方面,選用WEKA作為算法分析工具,WEKA是當今較為先進的機器學習算法及數據預處理工具。由新西蘭懷卡托大學開發,JAVA實現,幾乎可運行在所有主流的操作平臺。WEKA為預處理以及后處理提供了統一的方法,可以指定學習算法應用于給定的數據源,同時將不同的學習方案計算的結果給出評估。

K-means算法是基于劃分的聚類,嘗試找出最小平方誤差函數值的K個劃分。算法復雜度為O(nkt),其中n是數據集的數目,k是簇數目,t為迭代次數。算法需要預先指定簇數目k,而對于教務數據,由于學生的成績好壞基本分成五大類,簇數目很好確定。同時,算法較容易受到“噪聲”和孤立數據的影響,少量的誤差數據會對計算的結果產生極大影響,這也是教務數據需要進行較復雜的人工指導下的預處理的原因。

綜上所述,對于學生成績選用K-means算法來進行聚類是較為合適的,根據成績的絕對值差距將學生分為五類。通過主觀觀察和分析簇中心、簇占比等一系列數據,確定合適的算法參數(seed值等)作為先驗知識,最終選取合適的聚類結果,再采用柱狀圖的方式加以直觀的展示。

多次對比試驗后,發現以下信息:

①一般情況下,平方誤差的多少是評判聚類好壞的標準,該數據越小說明簇內數據距離越小,則簇內數據越接近,即學生的成績越接近。因此在判定不同參數條件下聚類的好壞,該數據作為最重要的評判依據。

②為了找到更合適的聚類,在其他參數不變的情況下,更改隨機種子值(seed值)。seed值是聚類隨機選取的種子,一般在10%以內。基于本文的數據集為769條,seed值一般控制在80以下。隨著seed值的改變,聚類的表現相對較穩定,有存在著一定的浮動。但為了得到最為合適的聚類結果,還是需要人為選擇最合適的seed值。

③在seed值選為70的時候,產生了0%的聚類。究其原因是發現了單條記錄作為孤立點被判為單獨的簇,該簇占比太小,因此約等于0%。該條記錄有三門課程為零分,但其他課程分數較正常,推測可能為學生換專業的原因導致。為什么僅在seed值為70的時候發現這種情況?由于K-means算法參數中的seed的選擇與輸入數據的順序直接關聯,因此該算法很大程度下會依賴于數據的輸入順序。

④通過觀察簇中心,在學生成績預處理合適的情況下,能夠獲得了較佳的聚類效果。但是如果數據預處理不夠合理,可能會因為數據缺失等嚴重影響聚類效果。

綜合考慮以上的聚類結果,對seed值不同產生的不同聚類表現,最終選擇的數據結果參數如下:簇數目numClusters=5,seed=40。

5 聚類下的教學評估體系

最終聚類結果:聚類“0”為成績最好的學生,占比17%,課程平均分89分;聚類“2”成績次之,占比21%,課程平均分79分;聚類“4”成績居中,占比25%,課程平均分68分;聚類“1”成績較差,占比22%,課程成績平均分56分;聚類“3”成績最差,占比15%,課程平均分43分。

該學生劃分也可以作為其他數據挖掘的分析依據,以下分別從課程組和整體成績趨勢來做分析:

5.1 按課程組分析

數學類課程組共四門必修課,通過對比數據可以發現,優秀學生各科表現都比較好,這也表示出數學類課程對于個人素質的體現。對于學院在新生選拔時選取數學作為考核科目,是較為合適的。

然而對于“差”和“較差”這兩類學生來說,《高等數學(II)(下)》和《概率論與數理統計(II)》成績則出現了明顯下滑,這種下滑在其它簇的學生中并未出現,說明若這一階段數學課程出現掛科,應引起學生和老師足夠重視,督促學生端正學習態度,加重學習時間的投入。

分析專業課程,可以發現《信號與系統》和《數字電路》這兩門課程在五類學生中都出現了明顯下滑,說明該課程的學習具有一定的難度,輔導員和班主任在指導該門課程的時候可以對學生提出特別提示,學生學習時也要格外的加強學習!

5.2 整體成績趨勢分析

將成績按照學期劃分后,可以發現一些重要的信息。如大一上學期,學生的總體成績不錯,尤其是高等數學。成績優秀的學生,四年來的成績基本保持穩定,基本為90分上下;而成績較差的學生,從大二上學期開始,成績就明顯發生了嚴重下滑,也就是該階段成績拉大了差距。而在大三上學期,這類學生有明顯提升了成績,基本與大一一致。數據表明,學生在大學后學習態度有明顯的變化過程,針對這一變化,輔導員和班主任有必要對學生加以警示和指導,以更好的提升教學質量!

6 結束語

隨著信息技術的發展,當今社會早已步入“大數據時代”,數據挖掘技術的研究和應用不斷出現且日趨成熟,作為新技術傳播者的高校更不能落后。筆者有多年高校的工作經驗,結合具體的學院教學數據利用數據挖掘技術進行深入研究,使用K-means算法完成數據預處理和聚類,通過數據重構后的數據分析,將根學生分成五大類,而不是簡單的分數段判別方式,進而評定教學質量。最后,根據不同學生在不同階段的成績情況,給出了課程學習的指導建議。

但是目前的工作還存在著很多不足之處,本文僅就單專業完成數據分析,要形成供整個學院指導用途的系統,還需要完善專業課程的數據處理信息。另外還可以考慮融入更多的數據挖掘技術,如關聯規則挖掘,神經網絡,決策樹分析等,為學院提供更多的決策支持。

[1]Ian H.Witten, Eibe Frank. Data Mining: Practical Machine Learning Tools and Techniques, Second Edition[M], China Machine Press, 2005

[2]Ballou D P, Tayi G K. Decision aid for the selection and scheduling of software maintenance projects[J]. IEEE Transactions on System, Man and Cybernetics Part A: Systems and Humans. 1996,26(2):203~212

[3]王珊,薩師煊著. 數據庫系統概論[M]. 北京:高等教育出版社. 2006. [22]王珊,薩師煊著. 數據庫系統概論[M].北京:高等教育出版社. 2006

[4]S.Guha, R.Rastogi, and K.Shim. Cure: An efficient clustering algorithm for large databases. In Proc. 1998 ACM-SIGMOD Int. Conf. Management of Data(SIGMOD’98), pages 73-84, Seattle, WA, June 1998

[5]陳曦,王執銓著. 決策支持系統理論與方法研究綜述[J].控制與決策. 2006(9):961~968

[6]G.Karypis, E.-H. Han, and V.Kumar. CHAMELEON: A hierarchical clustering algorithm using dynamic modeling. COMPUTER, 32:68-75, 1999

[7]任明侖,楊善林. 智能決策支持系統:研究現狀與挑戰[J].系統工程學報. 2002(5):430~440

[8]維克托.邁爾.舍爾伯格,肯尼思.庫克耶(英)著.大數據時代[M].浙江人民出版社.2013

[9]朱德利.就業信息的數據挖掘及其分析[J].重慶師范大學學報(自然科學版)2014. (31)120~125

[10]毛海軍,唐煥文著. 智能決策支持系統(IDSS)研究進展[J]. 小型微型計算機系統

2015年江蘇省高等教育教改研究“獨立學院計算機類專業人才培養模式研究與實踐”(課題編號:2015JSJG564)。

李瑩(1983-),女(漢),湖南省常德市,講師,碩士,主要研究方向為算法設計與分析,數據庫原理,人工智能等。

羅嬌敏(1984-),女(漢),江西省高安市,講師,碩士,主要研究方向為操作系統,系統安全,計算機網絡等。

閔芳(1980-),女(漢),江蘇省宜興市,講師,碩士,主要研究方向為數據安全,虛擬化存儲,數據結構等。

猜你喜歡
數據挖掘課程學生
數字圖像處理課程混合式教學改革與探索
探討人工智能與數據挖掘發展趨勢
軟件設計與開發實踐課程探索與實踐
計算機教育(2020年5期)2020-07-24 08:53:38
為什么要學習HAA課程?
趕不走的學生
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
學生寫話
學生寫的話
一種基于Hadoop的大數據挖掘云服務及應用
基于GPGPU的離散數據挖掘研究
主站蜘蛛池模板: аⅴ资源中文在线天堂| 99久久99视频| 精品一区二区三区自慰喷水| 国产毛片高清一级国语| 91精品国产自产在线老师啪l| 日本在线视频免费| 亚洲精品成人福利在线电影| 自慰高潮喷白浆在线观看| 91麻豆精品国产高清在线| 九九九国产| 久久特级毛片| 亚洲综合精品香蕉久久网| 好吊色妇女免费视频免费| 国产精品亚洲日韩AⅤ在线观看| 欧美视频二区| 五月天香蕉视频国产亚| 中文字幕不卡免费高清视频| 2018日日摸夜夜添狠狠躁| 欧洲日本亚洲中文字幕| 国产成人综合网| 色悠久久综合| 婷婷综合缴情亚洲五月伊| 99热这里只有精品在线观看| 日韩精品亚洲精品第一页| 国产欧美日韩综合在线第一| 狠狠亚洲婷婷综合色香| 亚洲一道AV无码午夜福利| www.91在线播放| 中文字幕乱码二三区免费| 成人午夜视频在线| 亚洲欧美日韩天堂| 午夜啪啪福利| 无码综合天天久久综合网| 亚洲午夜久久久精品电影院| 男人天堂伊人网| 99久久国产综合精品2020| 一本大道香蕉高清久久| 国产欧美日韩视频怡春院| 女人18毛片水真多国产| 无遮挡一级毛片呦女视频| 国产精品视频观看裸模| 欧美国产日产一区二区| 国产女同自拍视频| 国产一区二区网站| 欧洲日本亚洲中文字幕| 亚洲经典在线中文字幕 | 国产成人调教在线视频| 九九热精品免费视频| 无码丝袜人妻| 99免费在线观看视频| 幺女国产一级毛片| 国产精品蜜芽在线观看| 一区二区影院| 精品国产免费观看| 亚州AV秘 一区二区三区| 久久亚洲国产最新网站| 91网红精品在线观看| 毛片手机在线看| www.国产福利| 亚洲Av激情网五月天| 九色视频一区| 亚洲成a∧人片在线观看无码| 午夜日韩久久影院| 综合色在线| 日本中文字幕久久网站| 中文字幕免费在线视频| 日韩不卡免费视频| 国产老女人精品免费视频| 亚洲无线视频| 国产精品一线天| 久久精品丝袜| 日韩毛片免费观看| 亚洲高清国产拍精品26u| 亚洲色图欧美在线| 色悠久久综合| 亚洲一区网站| 一级毛片免费观看不卡视频| 精品无码国产一区二区三区AV| 超清人妻系列无码专区| 国产成人精品视频一区二区电影 | 婷婷色一二三区波多野衣| 亚洲精品无码高潮喷水A|