劉波 蔡燕斯 鐘少丹

摘? 要:在大數據背景下,需要培養適應時代發展需要的具有較強實踐能力的應用型數據分析挖掘人才。文章以信息與計算科學專業為例,探索改革數據挖掘課程的實踐教學內容和方式等,著重培養學生數據分析和挖掘的實踐能力,并為完善實踐教學提出了建議。
關鍵詞:大數據;數據挖掘;實踐教學
中圖分類號:G642? ? ? ? ?文獻標志碼:A? ? ? ? ?文章編號:2096-000X(2019)18-0124-03
Abstract: Under the background of big data, it is necessary to train the talents of data analysis and mining, who has the strong practical ability, to meet the needs of the times. Taking information and computing science as an example, this paper explores the reform of practical teaching contents and methods of data mining course, focuses on training students'practical ability of data analysis and mining, and puts forward some suggestions for improving practical teaching.
Keywords: big data; data mining; practical teaching
引言
隨著大數據時代的到來,大數據的分析和挖掘越來越被各個領域所重視。在《中國大數據發展調查報告(2018年)》中指出,“2017年中國大數據產業總體規模為4700億元人民幣,同比增長30%;2017年大數據核心產業規模236億元人民幣,增速達到40.5%,預計2018-2020年增速將保持在30%以上”,具報告指出接近2/3的企業已經成立了相關的數據分析部門,近40%的企業已經應用了大數據。可以看出大數據的技術與應用已經深入到我們的社會生活中。隨著大數據技術在各行業的應用,對大數據技術人才的需求也增長迅速,大數據方向的職業前景普遍看好,然而掌握大數據分析和挖掘技術的人才稀缺,因此培養有應用能力、創新精神的合格的大數據分析和挖掘人才成為緊迫的問題。
一、大數據時代下對數據挖掘人才培養的特點
(一)多學科交叉
數據挖掘是一門多學科交叉的課程,涉及到的學科有:數學、統計學、計算機科學。需要學生掌握統計分析的理論和方法、數學建模和計算機編程的能力、數據的收集、存儲和處理的能力。大部分的企業要求至少熟練掌握一種編程語言,如Java,C++,Python或R語言;至少掌握一種數據庫技術,如MySql、Oracle、SQL Server等。由于大數據時代數據挖掘是多學科、多種應用技術的融合,因此給人才培養提出了新的要求,如何將各學科和技術有機的融合到課程中,如何讓學生將各學科的內容應用到數據挖掘的理論和實踐當中。
(二)大數據時代需要應用型人才
大數據相關技術目前正處在落地應用的重要階段,與大數據研發初期需要大量的中高端人才不同,在落地應用階段則需要大量的應用型人才,這些應用型人才需要把大數據技術落地到廣大的傳統行業中。大數據人才培養需要有真實的大數據環境,在高校的傳統培養模式下,人才培養過程缺少在真實的大數據環境下的實踐,這正是當前大數據人才培養缺少的環節。
(三)大數據教育要結合行業特征
未來隨著大數據與傳統行業的結合不斷深入,大數據教育將進一步結合具體的行業特征,優秀的數據分析人才不僅要有扎實的理論基礎,還要熟悉相關行業和相關業務的需求。而目前,高校培養的學生以理論教學為主,注重課堂教學,在工程實踐方面非常缺乏,缺少相關的工程項目經驗。而具備行業背景知識的大數據人才將受到企業的歡迎,因為行業知識將是大數據落地應用的重要環節。
(四)教學模式需要改變
大數據時代的數據分析與挖掘需要學生具有強的動手能力,對數據的整理分析能力,對數據挖掘問題的分析能力,數據挖掘建模的能力,模型評價和應用的能力,這些能力的培養都離不開實踐教學,而現在主要采用的教學模式還是以課堂和教師為中心的教學模式,無法調動學生的學習積極性,無法促進學生自主學習能力的培養。如何將理論學習和實踐學習有機的融合在一起,而不是教學過程中兩個分開的部分,需要在教學改革中進一步的想辦法解決。
二、數據挖掘實踐教學探索
大數據時代的數據挖掘,在人才培養方面,應該以培養學生掌握應用數據挖掘算法解決真實數據分析任務為主,強調在課程建設中,重視數據挖掘實踐教學,以實踐教學帶動理論教學,通過引入實際問題,將學生直接代入到真實的數據挖掘分析任務中,激發學生的學習興趣。
(一)教學計劃
數據挖掘不僅實踐性強,而且還是一門多個學科交叉的課程。開設該課程之前需要開設的課程有:高等數學、概率論與數理統計、多元統計學、數據庫原理、數據結構、編程語言(C++或Java或Python)等課程。我院開設的數據挖掘課程,總課時68課時,理論課學時34學時,實驗課學時34學時,所有課程全部安排在機房上課。
為了調動學生的學習動力和學習積極性,促進學生自主學習和協作學習,本課程采用混合教學方式,基于超星泛雅網絡教學平臺和手機學習通(APP)實現混合教學方式。課程的開展主要分二個部分:一,設置課前學習任務單,需要學生在課前完成觀看知識點視頻,章節測試和網上討論的內容;二,翻轉課堂,在課堂教學過程中,主要完成知識的內化和對算法分析和評價內容,采用小組討論,課堂練習,實驗報告,小組展示,提問等方式。最后提交一份實驗報告,實驗報告中布置一份真實的數據挖掘問題。需要學生通過所學的數據挖掘算法給出具體的求解過程,按數據挖掘的基本流程完成一個真實問題的數據挖掘過程。教學章節安排如表1。
(二)建設網上教學資源,充分利用信息化教學手段
利用“互聯網+”的教學方式,建設網上教學資源,采用混合學習的方式,在線教學平臺,提供豐富的教學資源,如:教學視頻、課程講義、章節測試、拓展資料、答疑討論等。
由于數據挖掘實踐主要應用python語言,而學生普遍對python語言不是很熟悉,但前期課程中已經開設了Java或C++編程語言設計的課程,學生已經有了一定程序設計基礎,因此很適合通過在線學習的方式快速了解和掌握python語言的基礎語法。因此課程的第一章python基礎語法和第二章pandas數據分析,開展網上教學的方式,將python基礎語法和pandas庫的教學視頻放在網絡課程中,方便學生用課下時間,自己安排時間學習,而且可以反復觀看。而且通過網上討論和答疑及時發現學生學習中遇到的問題和不足,接下來在課堂教學過程進行補充。
(三)采用小組協作學習和項目式學習的教學模式
由于采用了混合學習的教學方式,以學生為中心,課堂上可以給學生充分的師生互動和生生互動時間,完成學生對知識的內化過程,而此過程主要采用的小組協作學習的實踐教學方式。在課堂實驗過程中,一般由3名學生組成一個學習小組,由教師提出具體問題和要求,通過小組討論、互相協作共同完成實驗內容,最后將討論結果提交到網絡教學平臺,部分小組進行成果展示和問題答疑。
每章設置由真實問題背景的數據挖掘問題,采用項目式學習的教學模式,教師提出實驗的問題和挖掘目標要求,由學生根據實驗問題和目標,安裝數據挖掘的基本過程進行實驗,包括:數據收集,數據探索,數據預處理,模型的建立和訓練,結果分析等,讓學生每次實驗都完成一次小型的數據挖掘任務,強化數據挖掘各個步驟的工作和要求。在實驗過程中可以通過網絡教學平臺進行交流和答疑。
(四)通過實踐教學促進算法理論的學習
數據挖掘的算法理論非常豐富,而往往學生對于枯燥難懂的理論知識望而卻步,因此我們采用在具體的案例分析和實踐中設計一些問題,由這些問題引導學生進一步探究算法的理論,并對各種算法進行評價。由于在實踐中遇到了問題,所以使學生自覺的去對算法理論進行更深入的學習和研究,同時有利于培養學生的創新思維和解決問題的能力。
如在講授決策樹算法時,大部分學生關注決策樹的生成過程,如ID3算法的步驟、數據集信息熵的計算、屬性的信息增益的計算等,而往往忽視算法對數據類型的要求,對算法的一些細節沒有注意。因此設計了一個 “銀行產品營銷”案例,有部分學生沒有關注數據類型的問題,直接使用余額(balance)這個連續屬性進行建模,得到了一顆奇怪的決策樹。然后展開小組討論,引導學生在建立決策樹模型中如何處理連續變量。
通過具體的案例實踐,在問題中的分析、解決過程中,熟悉和掌握算法,培養了學生在實踐中分析、解決問題的能力。
(五)考核評價的探索
傳統的課程考核方式以期末考試和平均成績為主,然而一張試卷無法體現學生掌握和應用知識的水平,更無法體現是否掌握了分析和解決問題的能力。因此我們改變傳統的課程考核方式,首先針對數據挖掘課程的特點,采用期末課程設計的方式,要求將本學期學習的數據挖掘算法(如,knn,決策樹,支持向量機,聚類分析,關聯規則分析等算法)應用到某個領域,對該領域的某個問題進行數據分析和挖掘。數據可以是公開的數據集,也可以是網上自己爬取的數據等。要求所選問題有實際應用的背景,有具體的分析步驟和算法程序,以數據挖掘分析報告的形式提交作品。
其次將課程成績分為三個主要部分:期末課程設計占總成績40%;每次是實驗報告成績占總成績的30%;網上學習和課堂討論與展示占總成績的30%。在成績的組成中,實踐教學成績的比例占了70%,突出考核學生實際應用數據挖掘算法的能力、解決實際問題的能力,改變傳統的一張卷子評價學生的方式,讓考核能夠真正體現學生實際應用能力。考核方式的轉變,也帶動了學生學習重心的轉變,學生開始重視每次實驗報告的完成,這樣將傳統的一次考核,變成了在平時多次的考核。使學生把功夫下在平時,而不是只是期末考試前幾天才用心學習。
三、教學效果和反思
對信息與計算科學專業一個學期的實踐教學改革來看,通過學期末的問卷調查得到了一些反饋情況,課程總體滿意率達91%;有81%的學生認同“課程開展的實踐教學讓我的自學能力有所提升;”在哪些教學資源和方式對你學習幫助較大中85%學生選擇了“完成實驗報告”,80%的學生選擇了網絡視頻和章節測試的內容。問卷結果顯示學生對本次實踐教學的改革比較適應,提高了他們應用知識的能力。部分同學利用課余時間參加數據挖掘競賽,如kaggle,DataCase,“泰迪杯”等,并取得了多項一等獎。
但是在教學過程中也反應出了一些問題。如學生普遍對Python語言掌握的情況不好,在課程初期學生反應實驗難度過大,希望能夠講解更多python語言編程的內容。在實踐教學過程中,有部分學生基礎不好,自主學習能力不足,實踐內容對其難度過大,而出現學習倦怠情況,還有學生過于依賴小組或其他同學沒有充分的調動學習積極性。因此在接下來的教學中,我們將繼續探索更適合的實踐教學方案,為學生提供更加個性化的教學實踐資源,使不同基礎和特點的學生都能夠積極參與到實踐教學中。
四、結束語
數據挖掘課程內容豐富、涉及的學科多、發展更新快,要求學生有較高的應用能力,因此傳統的教學方式無法滿足要求。在數據挖掘實踐教學方面,為了適應大數據時代對應用型數據分析和挖掘人才的需求,本文基于混合學習,項目學習,小組學習等實踐教學方式,讓學生在具體的實際問題的分析和解決中學習,通過不同方式的實踐教學,使學生能夠更好的掌握基礎理論知識,并能將理論與實踐緊密聯系起來,提高解決實際數據挖掘問題的能力。
參考文獻:
[1]姚力,朱龍飛,崔晨.大數據時代數據科學課程建設與人才培養的探索[M].計算機時代,2018(11):87-93.
[2]Jiawei Han,Micheline Kamber,Jian Pei,等.數據挖掘概念與技術(第3版)[M].機械工業出版社,2012.
[3]施達,楊晉浩,張志強.數據工程類本科人才培養體系的探索與實踐[J].成都大學學報(社會科學版),2017(1):112-117.
[4]譚磊.大數據挖掘[M].電子工業出版社,2013.
[5]張燕.大數據背景下的數據挖掘課程教學新思考[J].計算機時代,2014(4):59-61.
[6]王青梅,趙革.國內外案例教學法研究綜述[J].寧波大學學報(教育科學版),2009,31(4):7-11.