商俊燕
(常州輕工職業技術學院 信息工程系,江蘇 常州 213164)
數據挖掘課程案例驅動教學法初探
商俊燕
(常州輕工職業技術學院 信息工程系,江蘇 常州 213164)
數據挖掘是一門分析海量數據庫的交叉學科,是本院統計學專業課程。本文從高職高專人才培養模式的角度,分析了數據挖掘的教學目標,將案例驅動引入數據挖掘課程,提高學生的學習主動性和數據挖掘實際應用能力,取得了良好的教學成果。
統計學;數據挖掘;案例驅動
近年來,數據獲取和數據存儲技術快速發展,各種數據庫、數據倉庫中存儲的數據量飛速增長。人們關注的焦點要從噪聲、模糊的隨機數據中提取重要的信息、知識,數據挖掘的出現,提供了一種有效解決“數據豐富而知識貧乏”問題的方法。
數據挖掘作為統計專業的核心課程,是學生必須掌握的職業能力課程。根據高職生的知識結構體系和培養目標,我們采用案例驅動教學方法,以學生為主體,案例為主線,教師為主導,對案例進行分析,學習案例所涉及的相關知識點,從而會利用相關軟件工具對數據進行分析,挖掘數據間的知識。
(一)合理高職高專統計專業數據挖掘課程教學目標
數據挖掘是集數據庫技術、統計學習、機器學習、模式識別、可視化等學科的一個新興交叉學科,又包含了聚類分析、關聯規則分析、分類等,每一種挖掘又有不同算法,是一門理論性、實踐性及綜合性較強的課程。其知識內容豐富,內容深淺不一,各種方法變化快,新方法層出不窮,這對師生都提出了嚴峻的挑戰。
高職高專將培養高等技術應用型專門人才為根本任務,以適應社會行業發展需求為基本目標,結合本院統計專業學生的專業技能特點,我們將本門課程的教學目標定位為:掌握數據挖掘課程涉及的基本概念,提高信息分析能力,能從收集到的數據信息中利用有效的軟件工具CLEMENTINE進行知識“挖掘”;要根據實際情況制定合理完整的數據模型并進行評估,這些評估要具有可視性,才能有效地解決問題,而使數據挖掘更具有合理性。
(二)如何驅動教學來設計數據挖掘案例
1.介紹案例驅動教學法。案例驅動法是在“哈佛大學”的情境案例教學課起源,是一種探索性和協作性學習的教學模式。整個授課過程圍繞著同一個目標和幾項任務“教授”,學生通過對課程的學習、資料的查找和知識的整合,通過充分思考和與實踐相結合,提高自身能力。這種案例驅動的教學法可以讓學生提高學習興趣,發展學生自身的能力。同時能讓教師更好地發揮促進學生學習、引導學生成功的功能。
案例驅動法是把教學內容和目標通過一個任務來體現,把教材內容重新整合,老師的授課和學生的接受都圍繞這個任務完成。
案例驅動法可以充分發揮學生的主體地位,從而改變傳統的關于師生關系的觀念,讓學生從被動學習到主動學習,真正愛上學習,提高自己的創新、自學和實踐能力,同時要求老師在授課中給予學生正確的引導、促進、組織和控制,這樣可以增強同學間的協作精神和學生的獨立意識。通過學生的自主學習和探索,可以改變原來枯燥的學習方式。對于數據挖掘這門課程,內容深奧,既要求學習一定的理論知識,又要求掌握數據挖掘的使用方法,因此我們引入使用案例驅動的教學方法。
2.數據挖掘案例教學的實施規劃。利用CLEMENTINE軟件工具進行數據挖掘,將數據挖掘看成一個以數據為中心的循序漸進的螺旋式數據探索過程,該過程分為業務理解、數據理解、數據準備、建立模型、方案評估和方案實施六大部分。因此,在教學過程中,我們圍繞數據挖掘的六大部分,在每一部分,講解基本的數據挖掘技術原理;對于數據挖掘算法,只要求掌握相關算法使用的方法和使用的場合,并會使用專業的數據挖掘工具CLEMENTINE,此應用的前提條件要求對學生進行數據挖掘;將教學的亮點和重點放在案例分析和實際應用上,要對學生進行動手能力的訓練。
在教學的過程中,最重要的是案例的選取。通過參考教學大綱和教學目標,對教學案例進行精心設計,可以提高學生的分析能力,提高學生發現問題和解決問題的能力,才能更好地將教案落實,并形成具體的項目。根據數據挖掘課程的特點和具體內容,我們通過某些小案例引入一些相關知識,并且采用學生能夠接受的一個大案例讓學生使用成績數據模型組織整個教學過程。
我們的課程內容按數據挖掘過程分為六大部分,按照每一部分的教學目標我們設計了多個不同的小案例如下。
(1)藥物研究數據和學生參加社會活動數據案例:通過這兩個數據模型掌握在CLEMENTIME軟件工具中利用軟件中SOURCES選項卡的多種節點讀入多種文件類型(如TXT文件、EXCEL文件、SPSS文件等)的數據,掌握讀入數據的數據類型,掌握APPEND節點、MERGE節點合并數據的方法。
(2)移動客戶數據案例:通過利用移動數據讓學生掌握TYPE節點進行變量說明的方法,會使用該節點進行有限變量值和無效值的調整,會使用DATA AUDIT節點對數據質量進行評估和調整;掌握數據中對離群點、極端值和缺失值的調整,對數據進行質量管理;會使用AGGREATE對數據進行分類匯總;利用FILLER節點對變量值重新計算,會用RECLASSIFY節點實現變量值進行調整;會對數據進行篩選、樣本子集劃分等處理;了解數據分析特征,把握數據間相關性強弱的基本手段;利用壓縮樣本量、簡約變量值或變量降維等方法對樣本量龐大的數據進行精簡。
(3)決策樹模型案例:了解C5.0決策樹算法,會建立決策樹模型,學會歸納和提煉現有數據包含的規律,建立分類預測模型,會分析結論,用于對未來新數據的預測。
(4)人工神經網絡模型案例:了解人工神經網絡算法,掌握人工神經網絡建立的步驟,建立B-P反向神經網絡模型,預測分析結果。
(5)貝葉斯模型案例:了解貝葉斯網絡算法,掌握貝葉斯網絡結構的組成和構建,會用TAN貝葉斯和馬爾科夫毯網絡解決從龐大數據中尋找輸入變量之間的相關性,輸入變量的組合取值對輸出變量的影響,用網絡結構直觀展示它們的關系。
在設計小案例的同時,我們還選擇學生既熟悉又感興趣的綜合項目案例選題:學生成績數據、圖書管理數據、電信服務數據等,讓學生帶著問題進一步學習課程,在學習中尋找方法解決項目中遇到的問題。當課程結束后,各項目組呈交項目數據模型和報告,且項目組長要向所有同學按數據挖掘的六大部分講解分析報告。
3.案例驅動教學的成效。圍繞案例進行教學的“數據挖掘”課程除了采用案例驅動教學法,還要增加學生的實際訓練能力,都取得了明顯的效果,從以下五個方面體現:①學生要主動提出問題,同時積極主動地參與課堂教學,才能提高學生分析和處理問題的能力;②增強學生的自主學習能力,要求學生通過小組討論的形式和實際訓練讓學生以積極主動的態度處理和解決一些技術問題,從而提高自學能力;③學生間要注意培養團隊合作能力的,也要具有競爭意識;④課程學習結束后,普遍反映對利用CLEMENTIME軟件工具進行數據挖掘的自信心提高,能夠進一步提高對專業的認知,獨立解決一些數據統計分析的問題。
數據挖掘是統計專業的專業課程,其內容繁多、深奧,把基于案例驅動的教學模式引入《數據挖掘》課程,學生在學習過程中,實現了整個數據挖掘的流程,在基于項目的技術應用中深入理解了數據挖掘的理論知識。學生要將所學的理論知識和實踐相結合,從而有效提高自己的操作技能和知識水平,培養了自己應用數據挖掘技術解決實際問題的應用能力和創新實踐能力。
從教學效果來看,通過將理論教學和實踐相結合,案例教學法整合了各種學習工具和教學資源,這樣才能充分發揮學生的主觀能動性,培養和提高學生的主觀能動性,同時增強學生分析和處理問題的能力,今后,我們將繼續完善數據挖掘的教學案例,研究和總結教學經驗,使整個教學環節更加完善合理。
[1]劉云霞.統計學專業本科生開設“數據挖掘”課程的探討[J].吉林工程技術師范學院學報,2010,(26).
[2]覃義,楊丹江,劉憶寧.《數據挖掘》本科教學的體會與創新[J].科技信息,2012,(10).
[3]李國榮.培養統計專業學生動手能力和創新能力的探索[J].統計教育,2007,(9).
[4]白忠喜,魯越青,梁偉,等.校政企共建基地開展基于項目驅動的實踐教學改革[J].中國大學教學,2011,(2).
[5]焦國華,黃健柏,黃暉.數據挖掘技術在鋼鐵行業的應用[J].系統工程,2010,(28).
[6]宋威,李晉宏.項目驅動的數據挖掘教學模式探討[J].中國電力教育,2011,(27).
G712
A
1674-9324(2014)40-0069-02
商俊燕(1978-),女,江蘇常州人,本科,講師,研究方向:數據庫,數據挖掘。