李四海,陳建國,李 燕
(甘肅中醫藥大學信息工程學院 甘肅 蘭州 730000)
當今時代,學科之間的交叉融合已成為現代科學技術和工程技術發展的重要趨勢和途徑,也是目前新工科建設和發展的核心要求[1-2]。實現工科和醫科的交叉融合,對培育以智慧醫療、醫療設備、藥物研發以及醫用材料為主要內涵的新興新工科專業具有重要作用。
醫學信息工程專業是具有中醫藥特色的工科專業,以教育部首批“新工科”研究與實踐項目的獲批為契機,近年來,該專業在課程建設和專業內涵建設上都取得了較好的進展。課程建設是連接新學科和新專業的橋梁和紐帶[3],是專業建設的內在驅動力。醫學數據挖掘是醫學信息工程本科專業開設的一門重要的專業課程,該課程的開設對于培養既具有一定的健康醫療背景知識,又具有扎實的計算機科學知識和良好的數據分析能力的交叉型應用型人才具有重要作用,符合目前教育部提出的新工科建設方向。
醫學數據挖掘課程涉及的知識點較多,包含有寬泛的醫學背景知識、高等數學、線性代數、概率論與數理統計、機器學習、數據倉庫以及最優化理論等[4-5]。對于該課程學生理解困難、教學難度較大,主要原因在于實踐教學資源匱乏,特別是滿足實際教學要求的實踐教學資源較少,針對性不強。針對上述問題,課程團隊構建了針對性較強的實踐教學資源庫,列舉了構建實踐教學資源庫的主要內容,提出了實踐教學資源庫的應用方法。
醫學數據挖掘課程經典教材嚴重缺乏,已有的一些醫學數據挖掘教材的側重點大多是面向生物醫學領域,沒有適合中醫藥院校的教材。經典數據挖掘教材中的案例有助于學生理解常用的數據挖掘算法,但不利于培養學生的交叉研究能力和解決醫藥學領域實際問題的能力。目前,醫學數據挖掘課程的實踐環節以驗證性實驗為主,實踐教學環節缺乏完整性[6],實踐資源大多是一些標準的機器學習數據集,例如UCI 數據集,這些數據集主要用于測試比較不同算法的性能,不利于學生對數據挖掘整體過程的理解和掌握,完整的數據挖掘過程應當包括對具體問題的理解、數據的獲取、數據預處理、數據質量分析、數據挖掘模型的建立和優化、模型的評估和可視化、對模型的解釋、對具體要解決問題的深入理解等。
醫學數據挖掘主要運用數據挖掘理論解決醫藥領域的具體問題,目前已有的實踐教學資源主要存在以下兩個方面的問題。一是針對性不強。例如,經典教材中缺乏有關中醫方劑以及中藥紅外光譜方面的數據集[7]。二是實踐教學資源缺乏層次性。驗證性實踐教學資源的目的只是幫助學生理解數據挖掘算法的基本原理,對算法的深入理解、熟練運用相關算法解決醫藥領域的實際問題還需要綜合性實踐教學資源和開放性實踐教學資源,這兩個層次的實踐資源是對驗證性實踐教學資源的補充和深化,有助于學生對算法的深入理解,夯實理論基礎,進一步培養學生的實踐能力和創新能力。
實踐教學資源自底向上分為三個層次:驗證性實踐教學資源、綜合性實踐教學資源和開放性實踐教學資源。如圖1 所示。

圖1 實踐教學資源庫的主要內容
驗證性實踐教學資源主要來自一些經典數據挖掘教材中的數據集,數據集的樣本和特征都比較少,教師主要在課堂講授具體算法時使用。主要內容如表1 所示。

表1 驗證性實踐教學資源
綜合性實踐教學資源主要包括:標準的紅外光譜數據集、自建的經方數據庫、胸片的影像數據庫以及生物信息學領域的基因數據集。這些數據集來自不同的應用領域,以醫藥領域為主。學生在驗證性實驗的基礎上再進行綜合性實驗,進一步加深對算法的理解,熟悉數據挖掘的具體流程,鍛煉醫學信息工程專業學生解決不同領域特別是醫藥領域實際問題的能力。
開放性實踐教學資源主要包括甘肅道地中藥材的近紅外和中紅外光譜數據集、醫院的電子病歷數據集[9],這涉及到數據集成、數據的清洗和數據預處理等工作。電子病歷評級政策的出臺對電子病歷的挖掘和利用提出了更高的要求,根據國家衛健委電子病歷的評級要求,4 級要求醫院實現合理用藥功能,5 級要求醫院利用知識庫實現決策支持服務,并能夠為醫療管理和臨床科研工作提供數據挖掘功能,6 級則要求醫院建立全院級多維度醫療知識庫體系,提供高級別醫療決策支持。因此,在以后的開放性實踐教學資源的更新和優化過程中,要進一步充實和完善有關電子病歷方面的實踐教學資源。
實踐教學資源庫的應用具有層次性。
首先,使用驗證性實踐教學資源講授算法的基本原理。例如,在講解三種經典的決策樹算法ID3、C4.5、CART 時,使用貸款申請數據集,該數據集共有15 個樣本,4 個特征:年齡、是否有工作、是否有自己的房子、個人信貸狀況,類別為是否同意貸款。該數據集樣本和特征少,便于理解算法的工作過程。在課堂講授中,教師分別以信息增益、增益率和基尼指數為劃分準則,分別完整構建ID3、C4.5、CART 決策樹,學生可以直觀感受到建立的ID3 決策樹枝繁葉茂,C4.5 是比較簡潔的多叉樹,而CART 決策樹是簡潔優雅的二叉樹。由此,進一步講解ID3 算法的主要缺點以及C4.5 是如何克服這些缺點的,在學生理解二者的聯系和區別的基礎上,進一步講解基尼指數和熵的區別與聯系,指出基尼指數是熵的近似替代,CART 分類樹使用基尼指數作為劃分準則的目的是為了簡化計算,并且更加容易構建優雅的二叉樹。以上講解由直觀到具體、由簡單到復雜、層層遞進、逐步深入,學生很容易理解三種決策樹的區別與聯系,也能理解枝繁葉茂的決策樹為什么容易過擬合,決策樹葉子節點中樣本的共性和個性之間的關系等。學生不僅掌握了決策樹算法的基本原理,也夯實了數據挖掘和機器學習的理論基礎。在理解算法原理的基礎上,基于Weka等流行的數據挖掘平臺[10]導入貸款申請數據集,由于學生已經理解了相關算法,因此很容易理解Weka 中C4.5和CART 決策樹算法各個參數的含義,也清楚參數的設置對結果的影響,通過對挖掘結果的分析,學生已經熟悉了數據挖掘的基本流程。
在驗證性實驗的基礎上,下一步再進行綜合性實驗,該教學資源分別是UCI 中的乳腺腫瘤數據集和不同產地當歸的中紅外光譜數據集,學生可以直接從教師提供的教學平臺下載使用,其中,中紅外光譜數據需要進行數據清洗和數據預處理,學生使用CART 分類樹算法,建立相應的分類模型并對模型進行優化、解釋和評價。開放性實驗要求學生與中藥學專業的學生合作,完成紅外光譜的采集,理解光譜數據的含義,掌握光譜預處理方法,這些前期工作對于學生深入理解模型、解釋模型、優化模型都具有重要作用。總之,通過三個層次的實踐教學,學生對決策樹算法的理解會更加深入,對數據挖掘理論的掌握會更加堅實,加深了學生對醫藥領域數據挖掘問題的理解,提高了學生運用數據挖掘理論解決醫藥領域實際問題的能力。
實踐教學資源庫的構建和應用也要具有開放性。醫學數據挖掘課程的實踐教學資源庫要隨著數據挖掘技術的發展以及醫學信息工程專業人才培養方案的調整不斷進行更新和優化。例如,針對中醫方劑的數據挖掘,可以補充經典的中醫典籍和中醫醫案的數據庫,方便學生開展中醫方劑的潛語義分析和知識圖譜構建等方面的研究。
醫學數據挖掘課程實踐教學資源庫的構建對于優化教學資源、提高學生的實踐能力和創新能力具有重要作用,實踐教學資源庫的構建應該具有層次性和開放性的特點,要解決醫藥領域的實際問題,構建的中醫方劑數據庫、紅外光譜數據庫以及影像數據集體現了中醫藥特色。實踐教學資源庫的應用強調層次性,只有層層遞進,逐步深入,才能夯實學生的數據挖掘理論基礎,提高學生解決實際問題和開展交叉研究的能力。同時,實踐教學資源庫也要隨著數據挖掘技術的發展和醫藥領域的研究熱點不斷更新和優化,這樣才能滿足培養醫工結合的復合型應用型人才的需要。