鄒靜?楊劼
摘 要:課程評價方法的科學性、準確性和有效性一直是高校“思想道德修養與法律基礎”課程改革的重點內容之一。本文嘗試著將數據挖掘技術應用于“思想道德修養與法律基礎”課程評價之中,通過對相關數據的擇取、挖掘和分析,獲得科學而可量化的課程評價結果,進而指導教學改革。
關鍵詞:數據挖掘;關聯規則;課程評價
1 概述
“思想道德修養與法律基礎”課程是高校思想政治理論課的重要課程之一,其主旨在于幫助大學生提升思想道德素養與法律素養。思想道德與法律素養是人的基本素養,表現在人們協調、處理各種關系時的是非善惡判斷和行為選擇,決定著人們在日常生活中的行動目的和方向。“思想道德修養與法律基礎”課程融政治性、思想性、知識性及實踐性于一體,主要任務在于以馬列主義、毛澤東思想、中國特色社會主義理論體系為指導,針對大學生成長成才過程中所面對的思想道德和法律問題,通過人生價值觀、道德觀和法律觀的教育,使大學生成長為社會主義事業的合格建設者和可靠接班人。
因此,“思想道德修養與法律基礎”課程在當代大學生的課程體系當中占據相當重要的位置。
2 數據挖掘
2.1 數據挖掘概述
數據挖掘(Data Mining)技術是指挖掘巨大數據背后潛在知識,找尋關系數據庫里數據信息間隱藏的規則和聯系的過程。這門技術屬于跨學科技術,融合統計學、模式識別、數據庫、機器學習、可視化技術以及人工智能等于一體,能夠自動化地分析海量數據。隨著信息技術的快速發展,在海量的數據信息中,數據挖掘技術能夠預測數據未來的走向,給決策者提供有效的決策數據,從而做出有效決策,提高管理或行為控制效率。
2.2 數據挖掘的功能
描述和預測是數據挖掘的兩大基本功能。描述即分析現有數據,刻畫出數據的一般規律,進而發現數據之間的聯系;預測是指分析現有數據,從而預測數據未來走向和趨勢。
2.3 數據挖掘的特點
數據挖掘與傳統信息基礎相比,其特點在于:
(1)數據的海量性。數據挖掘的應用必須是在海量的數據基礎之上,需要從多個數據庫中抽取經過預處理后的有效數據。
(2)數據的離散性。數據挖據技術是針對離散型數據進行的分析和應用。因而,在進行數據預處理時,往往需要進行數據離散化處理才能供數據挖掘工具進行處理。
(3)技術的實用性。數據挖掘技術現已被廣泛應用于金融領域、醫學領域、農業領域、商業領域等諸多領域,其能夠在分類與預測中給予決策者有效的決策信息,從而做出科學決策。
(4)結果的動態性。數據是瞬息萬變的,隨著數據的不斷變化,數據挖掘結果也會發生相應改變,具有實時性、動態性的特征。
2.4 數據挖掘的常用技術
從創建至今,數據挖掘技術涉及各種學科領域。不同學科特點的挖掘技術存在著非常大的差異。因而,針對不同學科選取的技術也會有所區別。當前,數據挖掘的常用技術包括決策樹、關聯規則、人工神經網絡、模糊集和粗糙集等,他們的基本概念和優缺點各不相同。目前應用較為廣泛的幾種挖掘方法,它們的特點是:決策樹:易于構造,簡單清晰,但難以預測連續性數據;關聯規則:適應性強,結果清晰明了,但需要準確設置最小支持度和最小置信度;人工神經網絡:適應性、自學習和容錯性強,具有并行處理能力,但數據準備花費大,挖掘過程復雜難理解,且對設計者的要求高。可見,了解數據挖掘常用技術,掌握其不同優缺點,并依據不同的挖掘領域和挖掘任務,選取恰當的技術,對于挖掘結果的科學性至關重要。
2.5 關聯規則挖掘
關聯規則(Association Rule)是在數據挖掘的一個重要研究方向,用以描述事物間的相互聯系,是數據中一種簡單實用的規則。關聯規則的定義是:在給定一個事務數據庫的范圍內,基于支持度(Support)-置信度(Confidence)框架中,發現數據之間大量有趣的相互聯系,找出所有支持度和置信度均滿足用戶設定的最小支持度閾值和最小置信度閾值的關聯規則。
支持度的算術表達式為:Support(X?Y)=P(X∪Y),即該條規則在所有事務中所占的比例,是表示這條關聯規則的頻度。
置信度算術表達式為: Confidence(X?Y)=P(Y︱X),即在包含X的事務中,出現Y的概率,它是關聯規則準確度的衡量標準。
從上述關聯規則的定義發現,任意兩個事務之間都存在大量屬性值的不同的關聯規則。實際上,滿足一定出現幾率且具有實用性的關聯規則才有價值、有意義。劃定合理范圍、選取恰當的最小支持度和最小置信度,這取決于對數據挖掘目的的估計:如果取值過小,會發現大量的關聯規則,使有價值的關聯規則容易被埋沒,既浪費系統資源,又影響數據挖掘的執行效率;如果取值過大,則有可能錯失比較稀有的規則。而在實際中,往往就是這類稀有的規則能帶來利益,凸顯價值。
3 “思想道德修養與法律基礎”課程評價
3.1 數據挖掘對象及選擇
教學評價是課程教學過程中的重要環節,其在指導教師開展教學效果評估,促進教學效果提升起著相當重要的作用。科學、有效、全面的教學評價能夠幫助思想政治理論課教師準確把握教學進程,及時調整教學方法,有效改進教學模式。筆者所在的廣西衛生職業技術學院,一直在努力提高“思想道德修養與法律基礎”課程教育的質量,嘗試過許多評價課程質量的評價標準,但都不盡如人滿意。如:以調查問卷的形式向授課對象(學生)發放相關問卷,對回收問卷進行統計后得出學生對課程的滿意程度。但此種形式,容易造成的偏差是學生大多關注于教師個人的人格魅力、課堂的活躍程度、授課語言的幽默風趣程度等因素,而忽略了教師授課本身的理論素養;以單純的期末成績來評價,此種評價即唯分數論,本門課程是一門行為養成的課程,唯分數論有悖于思想政治教育教學目的中“知性合一”的教學目標;以綜合期末成績來評價,教學效果缺乏統一的量化標準,往往受到科學性、真實性等方面因素的質疑。
為了解決上述評價標準的弊端,筆者嘗試將數據挖掘技術中的預測功能應用于教學評價中,利用關聯規則挖掘模式,試圖從大量數據中挖掘一些隱含在數據之間,有價值的關聯規則,另一個角度科學地分析某課程的教學評價。本次數據挖掘對象選定為2009年至2014年,廣西衛生職業技術學院社管系(含原社科部),“思想道德修養與法律基礎”課程的所有數據。該數據包含所有學生個人信息,平時上課、學習、考試以及實踐信息,成績由平時成績、實踐成績和考試成績三部分組成,以及承擔該門課程任務的教師信息,將近2萬條各類原始數據。
3.2 數據挖掘過程
通過對數據挖掘對象的選擇,按照數據挖掘的要求,需要對原始數據進行數據準備方面的工作,包括數據選擇、數據清洗、數據離散化。
數據選擇過程,將原始數據中一些對挖掘結果的影響不大,不太需要的屬性剔除出去,比如學生的姓名、年齡等信息;數據清洗過程,是將選擇好的數據結果按照數據規范進行整理,主要完成明顯錯誤數據的舍棄、使用全局變量或平均值修補遺漏數據、“噪聲”數據平滑處理等工作;數據離散化過程,是將連續的數據轉化為離散的區間數據,例如將成績轉化為“優”、“良”、“中”、“差”四等。
經過上述數據準備階段的工作,可以將原始數據變為以下形式的待挖掘數據表:
表3.1 待挖掘數據表
年級 姓名 教師 平時成績 實踐成績 考試成績
2009 王X 1 A A A
2009 盧X 1 B B A
… … … … … …
2009 劉X 2 C A C
2009 趙X 2 B C B
… … … … … …
2010 張X 3 D C C
2010 秦X 3 A B C
… … … … … …
由于這次數據挖掘的目的在于對課程效果的客觀評價,為的是能更科學評價各位授課教師的教學效果,更好地推進教學質量的提高,因此,本次著眼的挖掘結果只是“優”和“差”兩個極端。根據關聯規則有關支持度和置信度的定義,只分析成績為A或者D的兩種可能,可以將表3.1的挖掘結果如下表3.2所示:
表3.2 挖掘結果表
教師1 教師2 教師3 教師4 …
平時
A 支持度 0.04 0.14 0.09 0.13 …
置信度 0.55 0.28 0.33 0.76 …
平時
D 支持度 0.23 0.15 0.07 0.02 …
置信度 0.33 0.39 0.72 0.35 …
實踐
A 支持度 0.19 0.13 0.01 0.05 …
置信度 0.44 0.72 0.10 0.52 …
實踐
D 支持度 0.02 0.06 0.13 0.07 …
置信度 0.26 0.34 0.53 0.86 …
考試
A 支持度 0.06 0.10 0.04 0.08 …
置信度 0.45 0.61 0.11 0.54 …
考試
D 支持度 0.16 0.03 0.05 0.11 …
置信度 0.30 0.47 0.30 0.61 …
支持度是關聯規則的頻度,表明出現的幾率。置信度是關聯規則的準確度。關聯規則挖掘結果也跟最小支持度和最小置信度的數值的選擇有著直接的關系。因此,需要慎重選擇。在實踐中,可以多次嘗試分別更改最小支持度和最小置信度的數值,找到較為合理的數值組合。經過多次調整,本次數據挖掘最為合理的數值組合,確定選取最小支持度為0.1,最小置信度為0.5。將最小支持度和最小置信度應用于數據挖掘結果表3.2,整理出最終的挖掘結果為:
教師4?平時A;授課教師2?實踐A;教師3?實踐D;教師2?考試A;教師4?考試D。
以上關聯規則分別解讀為:學生在教師4的課堂中,平時表現較好,獲得評分較高,排除教師人為打分因素,可認定該教師在日常授課的方法較好;教師2在引導學生完成實踐作業的方面做得較好;教師3則在引導學生完成實踐作業的方面需要改進和提高;教師2在課堂理論講授做得較好;教師4在課堂理論講授方面有待提高。
通過將幾年的數據整合起來,形成統一的源數據,可以最大程度降低學生自身的因素,如學習態度、學習方法、學習能力等,對挖掘結果的影響,更有效地將課程評價的決定因素鎖定在教師自身的因素上。因此,該挖掘結果對于教師自我反思、交流學習、比較改進自己的授課方式方法和教學效果,具有較科學的指導意義,也對“思想道德修養與法律基礎”這門課程整體教學質量提高具有明顯的推動作用。
4 結語
在當前重視數據收集和積累的信息時代,合理運用新技術,更充分有效利用數據,更好地借助信息化水平發展帶來的便利,使之為教學水平提高、進一步改善教學質量提供參考依據。實踐結果證明,數據挖掘技術為課程評價提供了一個全新的視角和評價方法。該方法較之傳統的評價方法,能減少明顯的不足和弊端,能減少其他因素對結果的干擾,發現隱含在數據之間更有價值的知識,更科學地利用、分析數據。
參考文獻
[1]Han Jiawei, Michelin Kamber.范明,孟小峰譯.數據挖掘概念核技術(原書第2版)[M].北京:機械工業出版社,2007.
[2]紀希禹.數據挖掘技術應用實例[M].北京:機械工業出版社,2009.
[3]陳申燕.多層關聯規則挖掘算法的研究及應用[J].計算機工程與設計,2010,31:885-888.
[4]夏李燦.基于關聯規則的移動資費與手機上網收益相關性數據研究[D].長沙:湖南大學,2010.
[5]http://datamininglab.com/
作者簡介
鄒靜(1981-),女,廣東南海,法學碩士研究生,中級,憲法、行政法、數據挖掘。
楊劼(1981-),男,湖南長沙,計算機科學碩士研究生,初級 數據庫應用、數據挖掘。