摘要:數據挖掘技術是從海量數據中得到有價值的信息,關聯規則挖掘是應用最廣泛的數據挖掘方法之一。本文介紹了在高校現代化的管理中,如何積累大量的數據和信息,以便應用數據挖掘技術得到相關管理決策的信息和參考。
關鍵詞:數據挖掘;關聯規則;教學質量評估
中圖分類號:G642文獻標識碼:A
文章編號:1672-5913(2007)16-0057-03
教育部、財政部下發的教高(2007)1號文件中指出:“建立高等學校教學基本狀態數據檢測體系,定期采集各類高等學校本科教學基本狀態信息和數據,統計和分析高等學校教學基本狀態和變化趨勢,逐步將教學質量和教學改革的數據向社會公布”[1]。由此看出,信息和數據在高校管理中的重要性。
隨著信息技術在高校管理中應用的普及,積累了大量的數據。通過數據挖掘技術對高校長期積累的海量數據進行分析和處理,得到高校管理決策的信息是高校現代化管理的迫切需求。
1教學質量評估
教學質量是高校生存與發展的基礎,也是高等教育國際化的必然要求。提高教學質量是促進高校改革與發展的關鍵,建立科學的高校教學質量評估系統是加強高等學校教學管理和提高教學質量的重要舉措。
高校教學質量評估體系是由一系列反映被評對象目標的、相互聯系的指標構成的有機整體。反映被評對象在實現教學目標的過程中各個方面的相互依存關系,是評估工作的出發點和依據,在教學質量評估活動中,根據評估對象的教學目的,按類別、逐層次地建立一系列評估指標,用以系統地、客觀地反映被評對象的全貌。
對于高校而言,建立科學的教學質量評估體系,是進行高校管理的一項有效機制,同時也是進行教學信息采集、處理和分析的主要平臺。科學的教學質量評估體系中反映出的問題將有助于教育管理者進行決策。
應用數據挖掘技術,從評估數據中找出大量真正有價值的信息,能夠更好地對高校的發展和未來趨勢做出定量的分析和預測,為高校的教育管理者提供更科學的決策基礎,從而有針對性地加強教學管理,有效地提高教學質量。
2基于關聯規則的數據挖掘分析方法
2.1關聯規則核心算法
(1) 它具有支持度S,即事務數據庫D中至少有S%的事務包含XEgrave;Y;
(2) 它具有置信度C,即在事務數據庫D所包含X的事務中,至少有C%的事務同時也包含Y。
關聯規則的挖掘就是在事務數據庫D中找出具有用戶給定的最小支持度Smin和最小置信度Cmin的關聯規則。
2.2 經典的關聯規則挖掘算法一一Apriori算法
Apriori算法是最著名、最有影響的單維、單層關聯規則挖掘算法,該算法是一種挖掘布爾關聯規則頻繁項集的經典算法[2]。它利用頻繁項集的先驗知識,使用一種逐層搜索的迭代方法來找出所有的頻繁項集。首先掃描事務數據庫D,統計庫中的事務數量和各個不同的項(1--項集)所出現的次數,進而根據最小支持度min-sup獲得所有的頻繁1--項集L1。然后用L1查找頻繁2--項集L2,如此下去,直到不能找到頻繁k--項集為止。該算法首次引入了修剪技術(Pruning)來減小候選集Ck的大小。所謂修剪技術就是利用“一個項集是頻繁項集當且僅當它的所有子集都是頻繁項集”性質,即如果一個候選k--項集的(k-1)--子集不屬于Lk-1,則該侯選項集可以被修剪掉。修剪技術的應用降低了計算所有的候選項集支持度的代價,顯著提高了生成所有頻繁項集的速度,從而提高了算法的性能[3]。
關聯規則挖掘是數據挖掘領域的一個重要方法,關聯規則在教育領域中的應用也逐漸被人們所重視。高校教學管理涉及高校的各種對象,產生了大量的數據,利用關聯規則,對這些數據的進行提取,可以評估教師的教學能力,教學活動的組織,促進教師改進教學策略,提高教學水平;同時也可以進一步得出隱藏在數據中的有用的信息,幫助教育管理者進行有效的決策,提高教學管理水平。
3數據挖掘在教學評估中的應用
3.1構建數據倉庫
數據挖掘是建立在數據倉庫基礎之上的。建立數據倉庫的目的是為了更好地支持決策分析。數據倉庫中的數據具有集成性,它是對原始的過分詳細的數據進行篩選、清理、概括和聚集等處理后的結果,它更適合決策系統的需求。數據倉庫的數據具有時變性,它可把業務系統中不斷變化的數據,經過數據清洗后追加到數據倉庫中去,數據清洗是重復數據的發現與刪除,由于數據來自不同的數據源,所以相同的數據經常會在數據倉庫中出現多個副本,由于各個數據源的數據質量有較大差別,為了提高數據倉庫中的數據的可靠性,需要將這些可能的重復數據找出來,并進行刪除[4]。
學校的教學管理信息有:專業、課程、教師、學生、學生成績、教師授課、教師的科研論文、學生評教等信息,針對這些信息構建學校的數據倉庫。
3.2建立挖掘數據模型
根據學校的教學管理,結合數據倉庫中的:教師授課、學生成績、評教等信息。如:學歷(學位)、職稱、年齡;授課名稱、課程類別、學生的平均成績、學生評教結果等數據信息。構建相應的挖掘數據模型,數據結構如表1:
3.3數據預處理
數據預處理是對數據源進行加工,檢查數據的完整性及數據的一致性,對其中的噪音數據進行平滑,對丟失的數據進行填補,消除“臟”數據,消除重復記錄等。使之符合數據挖掘的要求。它的主要工作有檢查拼寫錯誤,去掉重復的記錄,補上不完全的記錄,推導計算缺失數據,完成數據類型轉換。數據變換的主要目的是精減數據維數,即從初始特征中找出真正有用的特征以減少數據挖掘時要考慮的特征或變量個數。
對表1的源數據結構,將出生日期轉換年齡,按本科教學工作水平評估指標體系的要求,按表2的規則進行預處理,將年齡,學生平均成績、評教分數,分別變換成:年齡段、成績等級、評教等級。并對個別的數據(此類數據量小,不能反映學校的實際教學情況)進行剔除,如:職稱為“助教”和學歷為“其他”的相關記錄。
我校自2003年以來,有一萬余條相關的教學信息。為了研究探討的方便,僅選取我校2005--2005學年第二學期某教學單位63位教師的教學數據,經過預處理的數據如表3所示:
3.4數據挖掘結果與分析
根據表3提供的數據,設最小支持度為0. 2,最小置信度設為0.4,利用數據挖掘Apriori算法處理數據并得出關聯規則。
成績等級+評教等級,進行挖掘,挖掘結果如下:
結果表明:學生的考試成績等級與學生的評教等級存在著較高的關聯性,考試成績等級為良以上,評教等級大多為良以上,考試成績等級為及格,評教等級大多為差或及格,據此可以得出,學生的成績和學生對教師的評教結論成正比,表明學生對教師的評教結果是真實的,通過學生的成績,可以看出教師的教學質量。
學歷+評教等級,進行挖掘,挖掘結果如下:
結果表明:學歷與成績等級存在著較高的關聯性,學歷為碩士,其所教授的相應課程的成績等級為良好,說明碩士教師的教學質量較高,學歷為本科的教師,其所教授的相應課程的成績等級為中等,可以看出高校引進高質量人才充實教學的重要性。
年齡段+評教等級,進行挖掘,挖掘結果如下:
結果表明:中、老年教師,其所教授的相應課程,學生的評價較高,而年青教師,學生的評價大多為中,在一定程度上說明年齡越大,積累的教學經驗越豐富,授課的效果就越好,學校可以依據挖掘結果有針對性地制定青年教師培養機制,利用“傳、幫、帶”的方式,使年青教師在老教師的言傳身教的影響下,不斷積累教學經驗,提高教學質量。
4結束語
數據挖掘技術是計算機科學研究活躍的領域,高校作為科學技術的傳播地,利用數據挖掘技術對日常的教學活動中積累的大量數據進行挖掘,挖掘出具有管理和決策的信息,使學校的管理進一步走向規范化、科學化、現代化。
The Application of Data Mining in teaching evaluation in Qinghai university
YANG Chun-jian,SHI Rui-ming,ZHANG Hong
Qinghai University,Xining,Qinghai,,P.R.China,810016,e_mail:chunjiany@163.com
Abstract: The data mining technique gets a worthy information from vast amount of data, the connection rule excavation applies is one of the way which applied widely. In Long-term management of university, amount data and information are accumulated. Applying data mining technique get information and references of management decision which is the inevitable request of advancing management of university.
Keywords: Data Mining;Association rule;Teaching Quality Evaluation
參考文獻:
[1] 教育部. 關于實施高等學校本科教學質量與教學改革工程的意見[EB/OL]. 中國教育和科研計算機網,2007-01-22.
[2] Jiawei Han,Micheline Kamber著,范明,孟小峰譯. 數據挖掘概念與技術[M] .北京:機械工業出版社,2001:70-87.
[3] 毛國君,段立娟,王實. 數據挖掘原理與算法[M]. 北京:清華大學出版社,2004:66-68.
[4] 施伯樂,汪衛. 數據倉庫與數據挖掘研究進展[J]. 計算機應用與軟件,2003,(11):10-12.
“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文”