摘要:文章對數據挖掘課程進行了分析,對其教學過程中存在的問題進行了剖析。針對中醫院校的背景優勢和學生特點,從教材選擇、教學內容、實驗設置和課程設計層面探討了該課程的教學方法。
關鍵詞:數據挖掘;教學改革;中醫藥數據分析
中圖分類號:G642.0 文獻標志碼:A ?搖文章編號:1674-9324(2013)49-0198-02
一、引言
數據挖掘是一門綜合性的交叉學科,旨在以非平凡的方法發現蘊藏在大量數據集中的有用知識。它融合了概率統計學、數據庫技術、數據倉庫、人工智能、機器學習、信息檢索、數據結構、高性能計算、數據可視化等技術[1]。近年來,不少高等院校已為本科生開設了該門課程,數據挖掘技術在中醫藥研究中的應用日趨廣泛,尤其體現中醫藥信息化、中藥成分分析、中藥指紋圖譜、方劑組成與配伍、證候研究等領域。我院于2004年開設該課程,主要基于兩方面考慮:一方面,就中醫科研人員來說,大量的中醫藥數據需要借助數據挖掘技術發現潛在的有用知識,這就要求科研人員具備一定的數據挖掘知識,掌握數據挖掘工具的使用;另一方面,就計算機專業學生來說,有海量中醫藥數據作為背景和平臺,將這些真實的樣本數據作為挖掘的訓練集,可以更好的掌握數據挖掘模式,檢驗挖掘方法,幫助學生將理論知識聯系到實際應用中。
二、課程教學現狀
數據挖掘課程在其開設初期,主要是面向研究生教育,隨著近年來數據挖掘技術在實際領域中的應用推廣,課程開始在國內外很多高校的本科高年級中開設,主要面向計算機專業、信息管理專業、醫學專業、金融相關專業。到目前為止,數據挖掘教學實踐已取得了一定的成績,但仍存在很多制約其發展的因素,具體表現在以下幾方面。①授課形式陳舊,在教學上以教師講、學生聽的形式為主,學生只是一味的被灌輸知識,處于被動狀態,創造性被嚴重扼殺。②數據挖掘課程作為交叉學科,對本科生而言,在理論知識上有一定的難度,由于數據挖掘內容涉及了統計學、算法、數據庫、機器學習、模式識別、可視化等,內容廣泛并且難度較深,而本科生的知識體系相對薄弱,在短時間難以透徹理解各部分理論,更談不上綜合運用。③在實驗中,很多實驗指導書多是采用系統平臺下的測試數據集,應用某種算法模型,得到相應結果,然而在實際數據挖掘的項目中,數據收集和數據預處理的部分要占全部工作的80%以上,現有的實驗環節并未體現這一點。④教師講授沒有把理論課程結合到實際應用中,未做到學為所用,很多學生不知道學習這門課的意義,缺乏學習興趣。
三、課程教學目標與內容
1.教學目標。基于本科生的知識體系結構、就業需要及課時安排的實際情況,“數據挖掘”教材中的內容不可能全部覆蓋,而是應該選擇一些具有代表性的內容進行講授,注重應用和對算法的理解。其教學目標是使學生樹立數據挖掘的思維體系,掌握基本的挖掘算法,熟練運用數據挖掘軟件;能夠根據實際問題,制定一個合理、完整的數據挖掘計劃,通過建立模型、進行評估以及可視化結果,達到解決問題的目的[2]。按照這個目標,教學內容應以數據挖掘基本原理和算法講解為主,旨在使學生掌握各種算法和技術的來龍去脈、功能及優缺點,掌握已有數據挖掘軟件的使用,并以算法講解為主線,了解各種改進算法和算法應用。
2.教材與教學內容。數據挖掘相關教材非常豐富,有國外原版教材和國內教材,還有一些國內學者的手筆。這些教材涵蓋內容大體一致,重點講解各種數據挖掘方法。我校數據挖掘課程主要面向計算機專業和信管專業,理論講授36學時,選用韓家煒著《數據挖掘概念與技術》教材。該教材共13章,由于課時限制,我們只講解前11章,以普及基本算法作為本科生的教學目標,每一章只介紹基本概念和基本算法,較深內容作為學生課后學習資料。教學內容總體分為三部分:第一部分,數據挖掘引論,對應教材第一章,以經典案例啤酒與尿布引出數據挖掘,介紹基本技術、相關知識和應用背景(3學時)。第二部分,數據處理,對應教材第二章至第五章,介紹數據特征、數據預處理、數據倉庫、OLAP和數據立方技術(6學時)。第三部分,數據挖掘算法,這是本課程的重點,要求學生掌握最基本的算法,能使用面向對象程序語言實現,對應教材第六章至第十一章。第六、七章介紹挖掘大型數據集中的頻繁模式、關聯和相關性的方法(9學時);第八、九章介紹數據分類方法,包括決策樹歸納、貝葉斯分類和基于規則的分類等(9學時);第十、十一章介紹聚類基本概念和方法,包括基本聚類分析方法的概述、劃分方法和層次方法(9學時)。
四、實驗教學
數據挖掘是一門重應用的課程,實驗是其教學過程中的一個重要環節。數據挖掘在理論上,注重各類挖掘算法的構造、算法的效率分析與評估以及算法的改進,因此給人以深奧、抽象的感覺;實踐中,數據挖掘中的多數挖掘技術和算法都封裝成軟件,非常貼近于實際生活。目前比較著名的商用數據挖掘軟件包括SPSS Clementine、SAS Enterprise Miner、IBM Intelligent Miner、SQL Server 2005 Data Mining、Oracle DM等。這些軟件都能夠提供常規的挖掘過程和挖掘模式。開源的數據挖掘工具則有Weka、Rapid-Miner(YALE)、ARMiner以及AlphaMiner等。我們使用WEKA作為實驗教學軟件,實驗項目和學時分配見表1。
五、課程設計
課程設計的目標是在前期理論學習和實驗的基礎上,進一步鞏固所學知識,將所學應用到實踐中,檢驗理論學習的效果,提高學生的知識運用能力。我們在具體實施的時候,將學生以小組形式進行劃分,每組四名同學,選定一個主題,對具體挖掘項目進行分析、設計與實現。從而更好的掌握數據挖掘系統的開發過程和步驟以及各階段的內容、開發方法和開發工具,為畢業設計和今后工作打下基礎。按照數據挖掘流程,課程設計包括如下內容:①確定挖掘主題和方法,根據挖掘主題和目標,確定合適的挖掘方法。利用中醫院校背景優勢,我們給學生提供了大量真實數據,有中藥數據、方劑數據、醫案數據等作為應用背景。②數據選擇和預處理,根據所收集數據,填充缺失值,平滑噪聲,消除異常,解決數據不一致等問題。對于中醫數據來說,由于數據多來源于古代文獻,所以存在很多不規范,一詞多義、多詞一義的現象普遍存在。比如對于藥物“陳皮”,有很多其他名稱,如“橘皮”、“貴老”、“黃橘皮”、“紅皮”、“橘子皮”、“廣橘皮”等;對于癥狀“惡寒”,很多文獻中又稱為“畏冷”、“畏寒”,這需要學生在老師指導下進行大量的數據預處理。③數據挖掘方法實現,規劃挖掘過程,選取合適的數據挖掘模式,確定數據挖掘算法,比如對于中醫方劑配伍規律挖掘,可采用關聯規則算法;對于藥物成分分析,可采用聚類算法;對于中藥功效研究,可采用神經網絡算法。④模式的可視化表達與解釋,根據應用領域的信息和知識需求,以直觀有效的形式顯示數據挖掘模式,用特定領域的知識加以解釋,便于用戶理解和接受。如得出“當出現發熱、惡寒、咳嗽等癥狀時,宜用麻黃湯”這樣的規則。在課程設計結束時,我們不僅要求學生完成以上內容,還要以軟件工程報告的形式上交相應文檔,以答辯的形式對設計進行陳述。這樣不僅有助于學生進一步掌握數據挖掘知識,還鍛煉了學生項目設計、開發能力以及團隊合作能力。
本文以突出課程的實用性和應用性為出發點,從課程教學、實驗設置、課程設計層面探討了該課程的教學方法,使學生能將所學知識真正運用于實踐中。當然,數據挖掘是一門新興的學科,在中醫院校開設此類課程也屬于新的嘗試,很多教學方法及內容尚處于探索階段,在今后的工作中,應從教學模式、教學理念、教學手段等方面對課程進行不斷更新和改革。
參考文獻:
[1]Jiawei Han,Micheline Kamber.Data Mining concept and Techniques[M].北京:機械工業出版社,2007.
[2]劉云霞.統計學專業本科生開設“數據挖掘”課程的探討[J].吉林工程技術師范學院學報,2010,l26(6):20-22.
基金項目:江蘇省中醫藥局科技項目“基于數據挖掘技術的中藥水提液分析方法研究”(LZ11203);南京中醫藥大學重點培育學科“軟件工程”項目
作者簡介:佘侃侃(1982-),女,博士,講師。