黃浩 余琍 劉樹波
摘要:針對高校計算機專業(yè)數(shù)據(jù)挖掘課程教學存在的問題,探討以實踐和創(chuàng)新能力培養(yǎng)為導向的數(shù)據(jù)挖掘課程教學方法,綜合采用案例穿透教學、能力拓展比賽等方法,逐步深化學生對具體數(shù)據(jù)挖掘算法所包含的數(shù)學原理或啟發(fā)式智慧的認識,提升學生將所學知識合理、創(chuàng)新地應用于具體問題的能力。
關鍵詞:數(shù)據(jù)挖掘;課程教學;實踐能力;創(chuàng)新能力
中圖分類號:G642.0? ? ?文獻標志碼:A? ? ?文章編號:1674-9324(2019)49-0130-03
一、引言
隨著計算機科學的發(fā)展,世界已經(jīng)進入大數(shù)據(jù)時代,數(shù)據(jù)也逐漸成為重要的資源。如何從數(shù)據(jù)中挖掘有意義、有價值的信息也變得愈加重要。目前,國內(nèi)外高校的計算機專業(yè)大都開設了數(shù)據(jù)挖掘相關課程,旨在培養(yǎng)符合時代要求的數(shù)據(jù)挖掘研究人才和應用人才。文獻[1]探討了數(shù)據(jù)挖掘課程的教學方法,為此課程的教學改革與創(chuàng)新提供了一些指導與借鑒意義。文獻[2]分析了數(shù)據(jù)挖掘課程存在的弊端,并著重講述了以實例為主線貫穿教學過程的思路。文獻[3]提出了基于案例和懸念的教學模式激發(fā)學生的積極性,以提高教學效果。文獻[4]探索了數(shù)據(jù)挖掘課程教學的改革,并給出了一些教學改革的意見。然而,由于數(shù)據(jù)挖掘教學任務重,以及該領域教師多年養(yǎng)成的科研習慣、教學習慣等原因,教師在數(shù)據(jù)挖掘教學過程中更注重講解,特別是理論知識的講解,且傾向于模式化的訓練,從而在一定程度上使該課程的教學存在著缺乏交互性、缺乏感性認識、缺乏趣味性和缺乏拓展性等問題,導致教學效果不理想。因此,為了進一步提高數(shù)據(jù)挖掘教學質量,我們要改進現(xiàn)有的教學方法,真正讓學生參與進來,提高學生的學習興趣,讓學生透徹理解并靈活應用相關數(shù)據(jù)挖掘知識,最終達到培養(yǎng)學生實踐能力和創(chuàng)新能力的目標。
本文旨在探討以實踐和創(chuàng)新能力培養(yǎng)為導向的數(shù)據(jù)挖掘課程教學方法。為此,本文接下來首先討論數(shù)據(jù)挖掘課程教學中的常見問題,然后針對這些問題介紹如何綜合使用:(1)案例穿透教學;(2)能力拓展比賽等教學方法提升學生的數(shù)據(jù)挖掘實踐和創(chuàng)新能力。
二、數(shù)據(jù)挖掘課程教學中的常見問題
在現(xiàn)有的數(shù)據(jù)挖掘課程教學中,通常學生都是被動學習,自己動手實踐的機會較少,存在缺乏交互性、缺乏感性認識、缺乏趣味性以及缺乏拓展性等問題,難以使學生透徹理解并靈活應用相關數(shù)據(jù)挖掘知識。
(一)缺乏交流互動
在數(shù)據(jù)挖掘教學過程中,師生之間的交流互動尤為重要。這是因為數(shù)據(jù)挖掘算法涉及眾多細節(jié),教師只有通過與學生的交流互動,才能實時了解學生對各知識點的掌握情況,并據(jù)此合理調(diào)整教學內(nèi)容。然而,由于數(shù)據(jù)挖掘教學內(nèi)容多、任務重,教師為了跟上教學進度,往往更重視講解而忽略交互。學生在交互較少的課堂氛圍下,也往往傾向于被動式地聽講,從而使課堂交流互動進一步缺失。因此,需要設計一種更加適合師生交流互動的數(shù)據(jù)挖掘教學模式。
(二)缺乏感性認識
在數(shù)據(jù)挖掘課程學習中,感性地認識相關算所包含的數(shù)學原理、啟發(fā)式智慧、適用條件、優(yōu)缺點等具有積極的作用和重要的意義。相較于傳統(tǒng)理性認知,感性認知提升了學生對數(shù)據(jù)挖掘知識的總體把控能力,可以有效促進學生在實踐中運用這些知識的熟練度、靈活度。感性認識的缺乏將使學生對數(shù)據(jù)挖掘知識的掌握失去“活性”,變得抽象、孤立,導致難以做到真正的融會貫通。然而,由于教師長期科學訓練、科學研究養(yǎng)成的習慣,著力于對數(shù)據(jù)挖掘知識點進行理論講解、猶如公式推導般地介紹相關算法目前仍然是數(shù)據(jù)挖掘教學方式、方法的主流,從而使感性認識在數(shù)據(jù)挖掘教學過程中無意地被弱化。因此,亟須優(yōu)化傳統(tǒng)的教學方法,進行靈活有效地課堂知識滲透,結合形象化的講述方式和針對具體問題的系統(tǒng)討論,為學生搭建感性認識的橋梁,增強數(shù)據(jù)挖掘教學的“活性”。
(三)缺乏趣味性
一般來說,趣味性高的教學方式有助于提升學生在學習過程中的主觀能動性,加深學生對相關知識的理解、吸收。但是數(shù)據(jù)挖掘課程教學理論性較強、學習內(nèi)容略顯枯燥,這使課程的趣味性相對缺乏。因此,如何提升趣味性,增強學生學習過程中的主觀能動性,是實現(xiàn)高質量數(shù)據(jù)挖掘課程教學亟須考慮的現(xiàn)實問題。
(四)缺乏拓展性
練習與運用是鞏固所學知識、訓練實踐能力和創(chuàng)新能力的有效手段。在數(shù)據(jù)挖掘教學中,為了對學生的練習和運用結果量化打分,常見的做法是各類型知識點獨立命題、統(tǒng)一要求,對學生進行模式化的訓練。雖然這種方式可以達到細化訓練目標、公平公正打分的目的,卻一定程度上失去了對學生綜合分析問題、解決問題的能力的培養(yǎng),犧牲了進一步拓展學生實踐能力和創(chuàng)新能力的可能性。因此,如何設計更加合理的練習和運用場景,有效鞏固和拓展學生對所學數(shù)據(jù)挖掘知識的理解和認識,對升華數(shù)據(jù)挖掘課程教學質量具有積極、重要的作用。
三、案例穿透教學
為了加強師生的交流互動,提高學生的感性認知,同時也提升課堂的趣味性,結合數(shù)據(jù)挖掘課程教學特點,我們提出一種更具“穿透力”的教學模式——案例穿透教學,即通過精心設計、環(huán)環(huán)相扣的案例,采取師生一起討論、一起發(fā)現(xiàn)的方法,貫穿算法的全流程使用細節(jié),覆蓋算法的全方位運用方式,在有限的課堂教學時間內(nèi),讓學生對算法的精髓原理、不同條件下可變化的使用方式以及與其他方法的互補聯(lián)用等知識點的認識得到快速提升。
下面我們以數(shù)據(jù)挖掘中聚類算法教學為例,介紹案例穿透教學,內(nèi)容包括:(1)參數(shù)初始化策略,(2)使用細節(jié)合理化調(diào)整,(3)與其他方法的搭配與聯(lián)用。
(一)參數(shù)初始化策略
對于許多數(shù)據(jù)挖掘算法,其參數(shù)的初始化對算法的最終結果有一定影響。例如在K-均值聚類算法中,如何選擇K(即聚類中心的個數(shù))以及K個初始聚類中心會一定程度上影響該算法的最終聚類結果。
首先,為了讓學生認識這種影響的存在,可以使用二維數(shù)據(jù)樣本集合(使用二維數(shù)據(jù)樣本為了更好地支持數(shù)據(jù)的可視化表達),引導學生討論、預測初始聚類中心的個數(shù)和分布對K-均值算法聚類結果的可能影響。繼而,實時運行采用不同初始聚類中心的K-均值算法,給出聚類結果的可視化表達(如沒有實時運行的條件,亦可事先準備多種不同參數(shù)初始化情況的算法結果),并向學生解釋造成這些聚類結果的原因,從而使學生對K-均值算法參數(shù)影響形成一定的感性認識。
在這種感性認識的基礎上,進一步對K-均值算法參數(shù)初始化要考慮的實際情況,例如待處理的數(shù)據(jù)集中各類數(shù)據(jù)樣本分布是否呈凸形狀或任意形狀、在各類中數(shù)據(jù)樣本數(shù)目分布是否相對均勻或差異巨大等進行總結歸納,并針對不同實際情況,啟發(fā)式地將對應的參數(shù)初始化策略傳授給學生。該啟發(fā)式教學的要點為對錯并舉,即一次舉出包括正確和不正確的初始化策略的多種方法供學生討論、預測,并由教師記性驗證、分析。
(二)使用細節(jié)合理化調(diào)整
除了參數(shù)的初始化,在算法使用過程中,對算法細節(jié)的合理調(diào)整也可以使算法產(chǎn)生不同的效果,從而有效地應對不同的使用目標、使用條件。
首先,為了開拓學生的思維,讓學生對算法使用細節(jié)的合理化調(diào)整產(chǎn)生一定的感性認識,需要教師給出少量難度適宜的案例,方便學生理解哪些細節(jié)的調(diào)整可能產(chǎn)生哪些對應的效果,從而應對不同的使用目標、使用條件。例如,當使用K-均值算法來找出一維非負數(shù)據(jù)樣本集合中數(shù)值接近于0的數(shù)據(jù)樣本時,可以設定K=2(即聚類個數(shù)設為2),并且在K-均值算法運行過程中始終固定2個聚類中心,其中一個固定在0,這樣當K-均值運行收斂后,即可獲得一個數(shù)據(jù)值明顯大于0和一個數(shù)據(jù)值接近0的兩個數(shù)據(jù)樣本聚類;而當待處理的數(shù)據(jù)類型不是傳統(tǒng)的數(shù)值型數(shù)據(jù),而是屬性數(shù)據(jù)時,通??梢詫-均值算法修改為K-眾數(shù)算法,并且使用余弦相似度代替?zhèn)鹘y(tǒng)的歐式距離衡量兩兩數(shù)據(jù)樣本之間的接近程度。
然后,在教師對以上案例進行基本講解之后,可以進行舉一反三,由教師引導,讓學生一起進一步討論、深挖針對以上使用目標、使用條件的其他可行的合理化調(diào)整方法。當達到舉一反三的目的之后,學生對算法細節(jié)合理化調(diào)整便有了一定的了解,這時再由教師提出新的使用目標、使用條件,繼續(xù)引導學生進行開放式討論、分析,讓學生將這類問題的學習由模仿上升到創(chuàng)造。由于一個數(shù)據(jù)挖掘算法往往涉及較多細節(jié),為了避免細節(jié)調(diào)整效果的混雜,要注意對算法各個細節(jié)的效用分門別類,一一討論、分析。
(三)與其他方法的搭配與聯(lián)用
由于各個數(shù)據(jù)挖掘算法通常各具優(yōu)缺點,相比單獨使用各個算法,合理的搭配和聯(lián)用多個算法往往能使相關算法優(yōu)勢互補,獲得更好的使用效果。
首先,教師要復習、總結相關算法的優(yōu)缺點,在此基礎上給出少量相對簡單的搭配聯(lián)用案例,讓學生快速了解搭配聯(lián)用的效果和意義。例如,K-均值算法的優(yōu)點在計算代價小,但是不太適合識別具有任意形狀的聚類;相反,層次聚類在處理任意形狀聚類時有一定優(yōu)勢,但是計算代價過大。為了使這兩個算法優(yōu)勢互補,可以先用有效率優(yōu)勢的K-均值算法將數(shù)據(jù)凸分解為一系列大小相近的眾多小聚類,再以各聚類中心點為代表點(代表點數(shù)量遠小于原始數(shù)據(jù)樣本數(shù)量),繼而在代表點上運行有性能優(yōu)勢的層次聚類算法,則可既快速又相對準確地完成對任意形狀聚類的識別。
在了解算法搭配聯(lián)用的效果和意義的基礎上,教師需要總結常見的算法搭配和聯(lián)用的方法,并給予一定的點評,加深學生對其中優(yōu)勢互補原理的理解。然后,再由教師采用“對錯并舉”的方法,舉例新的搭配聯(lián)用的方法供學生討論、預測,最后由教師進行驗證、分析,從而進一步加強學生對算法搭配聯(lián)用的理解和領悟。
綜上所述,雖然案例穿透教學需要教師精心準備大量環(huán)環(huán)相扣的案例,無形間增加了教師的工作量,但是這種課堂教學方法的交互性強,有助于提升學生的感性認識,幫助他們更透徹地理解、更扎實地掌握相關數(shù)據(jù)挖掘知識,從而為其靈活運用、創(chuàng)新應用這些知識奠定良好基礎。
四、能力拓展比賽
為了充分利用課余時間進一步提高學生的實踐能力和創(chuàng)新能力,結合數(shù)據(jù)挖掘學科特點,我們提出了一種更加有趣、也更具“拓展性”的課后練習模式——能力拓展比賽,即結合課程內(nèi)容和進度設計實際的數(shù)據(jù)挖掘問題場景,讓學生以匿名比賽的方式,在相對充足的時間內(nèi)加深自己對相關問題的分析與思考,改進自己的數(shù)據(jù)挖掘解決方案。
下面我們以聚類問題的課后練習為例,介紹能力拓展比賽,包括:(1)比賽機制;(2)激勵機制。
(一)比賽機制
比賽開始前,教師給出問題描述和原始數(shù)據(jù)集,但不提供真實的結果標記(Ground Truth),例如,在聚類問題中,教師提供待聚類的數(shù)據(jù)樣本,但不提供數(shù)據(jù)樣本的真實類別標簽;教師規(guī)定解決方案的評價指標,例如,在聚類問題中,評價指標可以選用NMI(標準化互信息)用于衡量解決方案得出的聚類結果和真實聚類結果之間的一致性;教師規(guī)定最終解決方案的提交截止日期;學生向教師報告自己的參賽昵稱。
比賽過程中,每位學生每日可以有限次地提交當前解決方案或解決方案得到的結果,并根據(jù)昵稱查看自己當前結果在評價指標上的得分(例如NMI值等)以及當前結果得分排名等信息。這種匿名結果驗證方式,既一定程度上保持了比賽的趣味性,又可以防止過度調(diào)參行為,還可以讓學生根據(jù)得到的當前得分和排名信息做出合理推斷或驗證之前的推斷,從而改進解決方案,調(diào)整比賽策略,以期最終獲得更好的得分和排名。
(二)激勵機制
在比賽過程中,為了鼓勵學生最大限度地分析研究問題和數(shù)據(jù)集,改進解決方案的效果,也同時保護部分學生的參賽積極性,教師在定期更新比賽排名時,只需報告前幾名(例如前十名)的昵稱、得分、排名;同時,在比賽結束后,給最終排在前幾名的學生相對更高的平時成績激勵。
此外,在創(chuàng)新性方面,也要給予額外的平時成績激勵,特別是所提解決方案采用了課堂教學中未討論過的參數(shù)初始化策略、細節(jié)調(diào)整方法、多算法搭配聯(lián)用技巧等。同時,對于創(chuàng)新性高、潛力大的想法和思路,教師應當繼續(xù)鼓勵并指導相關學生深入研究,完成相關研究論文或發(fā)明專利,從而進一步提升學生的積極性、成就感,提升教學成果。
綜上所述,雖然能力拓展比賽需要教師花費較多精力設計比賽場景、搭建比賽環(huán)境,但是這種課后練習方法的趣味性較強,也更有利于學生在相對真實的環(huán)境中磨煉、提升數(shù)據(jù)挖掘能力。
五、結語
在大數(shù)據(jù)時代,數(shù)據(jù)挖掘課程教學和數(shù)據(jù)挖掘人才培養(yǎng)具有重要的現(xiàn)實意義。本文圍繞以實踐和創(chuàng)新能力培養(yǎng)為導向的數(shù)據(jù)挖掘課程教學方法展開探討,首先分析了當前數(shù)據(jù)挖掘課程教學中的常見問題,繼而提出了綜合使用案例穿透教學、能力拓展比賽等教學方法,在逐步加深學生對相關算法的理解深度、提高算法運用水平的過程中,培養(yǎng)其解決數(shù)據(jù)挖掘相關問題的實踐能力、創(chuàng)新能力,從而更好地達到數(shù)據(jù)挖掘課程教學和人才培養(yǎng)的最終目的。
參考文獻:
[1]陳燕.數(shù)據(jù)挖掘課程教學方法探討[J].教育教學論壇,2018,(13).
[2]譚征,孫紅霞,王立宏,等.基于實例的本科數(shù)據(jù)挖掘課程教學探索[J].計算機教育,2013,(9):67-70.
[3]鄧娜,林松,熊才權,等.基于案例和懸念的數(shù)據(jù)挖掘教學模式設計[J].計算機教育,2018,(11):97-99.
[4]來鵬.數(shù)據(jù)挖掘課程教學改革探索[J].科技創(chuàng)新導報,2018,15(12):232-234.