摘要:數據挖掘是致力于數據分析和理解、揭示數據內部潛在聯系的技術,關聯規則是數據挖掘中最活躍的研究方法之一。高校教學管理者從諸多方面對教師教學業績進行考核,該文針對某高校教師教學業績考核數據集,采用關聯規則中的Apriori算法,挖出數據集中某些數據項之間的關聯規則,通過對關聯規則的分析找出它們之間隱藏的信息,為高校教學管理者提供決策支持,同時指導教師的教學。
關鍵詞:數據挖掘;關聯規則;業績考核;決策支持
中圖分類號:TP274文獻標識碼: A文章編號:1009-3044(2008)35-2384-03
The Application Study of Data Mining in Teaching Achievement Evaluation
LUO Lan
(College of Information Engineering, Zhejiang Forestry University, Lin'an 311300,China)
Abstract: Data mining is devotes to the data analysis and the understanding, the revelation data interior latent relation technology, the Association rule is in the data mining one of most active research ways. The university teaching managers carry on the evaluation from many aspects to the teacher teaching achievement, based on some university teacher teaching achievement evaluation dataset, This article Uses the Apriori algorithm of the Association rule to dig out the Association rules in the dataset between certain data items, and discover hideaway information between them through to the rule analysis, which will Providedecision-supporting for the university teaching managers, simultaneously direct teacher's teaching.
Key words: data mining; association rules;achievement evaluation; decision-supporting
1 引言
近年來,以數據庫和信息技術的發展為技術保障,以網絡技術的迅速普及為發展通道,以計算機硬件、數據收集設備和存儲介質的大量供應為物質基礎,人們的數據收集能力得到了大幅的提高,社會各行業都存儲了大量的有關生產、管理和科研的各種信息,全球范圍內數據存儲量正急劇增加。然而與此形成鮮明對比的是,人們對大規模數據的理解能力并沒有得到有效的提高,僅僅依靠傳統的數據檢索和統計分析等方法已遠遠不能滿足需要,以致出現了“數據豐富,但信息貧乏(data rich but information poor) [1,2]”的局面。
為從海量的數據存儲中抽取模式、找出數據變化的規律和數據之間的相互關系,充分挖掘數據以指導決策和科學發現等各項工作,人們對數據分析并使之轉化為易于理解的知識的需求越來越迫切。數據挖掘和知識發現(DMKDD)技術迎合了人們的需求,為自動和智能地把海量的數據轉化為有用的信息知識提供了有力的手段,給數據和知識之間的鴻溝架設了方便之橋[3]。
數據挖掘技術是90年代興起的一項決策支持的新技術,通常將其視為數據庫中知識發現 KDD(Knowledge Discovery in Database)過程中最重要的一個步驟。目前數據挖掘技術及知識發現已成為計算機科學界的一大研究熱點。
關聯規則挖掘是數據挖掘中最活躍的研究方法之一,旨在尋找給定數據集中項之間的隱藏關系。最初是針對購物籃問題提出,目前被廣泛應用于商業、金融、教育、衛生等行業。
學校每年對老師的教學業績進行了很多方面的考核,積累了大量的數據,而目前對教學業績考核主要基于數值計算,把教學業績考核做一總結,將結果通報給老師,作為晉升職稱、評優等的依據,不曾做深層的思考,對其歷史積累的海量信息中隱含知識的利用無能為力。對教學業績考核進行分析是教學評估的重要手段,采用先進的數據挖掘技術對教學業績考核環節中產生的數據進行多層次、多角度的分析,利用分析結果輔助教學決策是保證教學質量、提高學生素質和教師綜合能力的必然要求。
2 關聯規則基本概念描述[4]
定義1設I={i1,i2…,im}是一個以m個不同項目為元素的集合,T是針對I的交易的集合,每一筆交易包含若干個屬于I的項目。關聯規則是形如X=>Y的蘊含式,其中X,Y#8834;I,且X∩Y=Oslash;,X稱作規則的前提或前項,Y稱作規則的結果或后項。
定義2關聯規則X=>Y的支持度是指事務集中包含X∪Y 的事務數與所有事務數之比。即為suppor(X=>Y)=‖{T:X∪Y#8838;T,T∈D}‖/‖D‖。
定義3關聯規則X=>Y的置信度或強度是指包含X∪Y的事務數與包含X的事務數之比。即為confidence(X=>Y)=‖{T:X∪Y #8838;T,T∈D}‖/‖{T:X∈T,T∈D}‖。
定義4關聯規則必須具備足夠大的支持度和可信度。對于給定的最小可信度minconf及最小支持度minsup,如果Conf(X=>Y)≥minconf,Supp(X=>Y)≥minsup,則稱X=>Y關聯規則成立。規則的前項及后項必須是頻繁的,是一個關聯規則成立的必要條件。
可信度是對關聯規則準確度的衡量,支持度是對關聯規則重要性的衡量。支持度說明了這條規則在所有事務中有多大的代表性,顯然支持度越大,關聯規則越重要。有些關聯規則可信度雖然很高,但支持度卻很低,說明該關聯規則實用的機會很小,因此也不重要。
3 關聯規則挖掘核心算法
1993年,R.Agrawal等人提出了著名的Apriori算法[5],該算法是最典型,最有影響力的挖掘布爾型關聯規則的算法,后來的許多算法都是基于該算法的思想。將關聯規則挖掘算法分為兩個子問題:
①找到所有支持度大于最小支持度的項目集即頻繁項集;
②使用從第一步得到的頻繁項集以及其置信度與最小置信度比較,產生關聯規則。
關于頻繁項集有如下的特性:一個項集是頻繁的當且僅當它的所有子集都是頻繁的。根據這個特性,算法使用了遞推的方法來生成所有的頻繁項集,具體描述如下:
1)L1=find_frequent_1_itemset(D);
2)for(k=2;Lk-1≠Φ;k++){
3)Ck=apriori_gen(Lk-1,min_sup);
4)for each t∈D{
5)Ct=subset(Ct,t);
6)for each c∈Ct c.Count++;
7)}
8)Lk={c∈Ck|c.Count>=min_sup}
9)Return L=∪Lk
函數即apriori_gen (Lk-1)的作用是利用Lk-1求Ck。其算法描述為:
Apriori_gen (Lk-1)
1)Ck=Oslash;;
2)for each itemset l1 ∈Lk-1
3)for each itemset l2 ∈Lk-1
4)if (l1[1] = l2 [1]) ∧(l1[2] = l2[2]) ∧□∧(l1[ k-2 ] = l2[ k-2])∧(l1 [k-1 ] < l2 [k-1 ]) then{c=l1[1] ,l1[2] ,□,l1 [k-1] , l2 [k-1] ;
5)Ck = Ck ∪c ;
6)for (c 的每個包含k - 1 個項目的子集s)
7)Ifs不屬于LK-1 then
8)Delete c;
9)}
10)Return (Ck);
4 關聯規則在教師業績考核中的應用
4.1 數據的選擇與處理
教師的工作量得分、授課質量評價得分都是通過一定的計算方法進行標準化處理得來的,非原始數據。在教學業績考核數據庫中,有很多數據項,從多個方面對教師進行考核,本文將其中工作量得分、授課質量和教學業績考核等級三項輸入數據庫,忽略其它數據項。隨機抽取本校教師教學業績考核記錄48條,把數據輸入數據庫,表1給出了部分教師教學業績信息視圖,其他的數據因篇幅有限不便顯示。
在表1中,挖掘某些具體項目之間的關系,由于取值的多樣性,通常很難同時滿足最小支持度和最小置信度,并且如關聯規則工作量(145)∪授課質量評價(138) =>教學業績等級(A)之類的表達式,顯然沒有很大意義。一般為了發展某區段與業績的關系,因此可將數量屬性的值劃分成若干區間(等級),按照區間劃分將一個數量屬性分解為若干個布爾屬性值。
參考學校對教學業績考核實施細則,將工作量分為A1[25,98],A2[99,130],A3[131,151]三個組,將授課質量評價分為B1[62,115],B2[116,140],B3[141,156]三個組,教學業績等級的字符屬性化為布爾類型,J1為C,J2為B,J3為A,轉換表1數據如表2所示。
4.2 挖掘關聯規則[6]
根據表2的數據,欲挖掘出教學業績與工作量、授課質量評價之間以及工作量與授課質量評價之間隱含的關系。如果規定minsup=12% 和 minconf=50%,根據前面提到的數據挖掘思想和算法,運用VB或VC++等編程工具,挖掘所需的關聯規則的主要思路如下:
1)頻繁1項集
遍歷處理后的樣本數據庫,得到每項中各元素的支持度,對于支持度不小于12%的元素構成頻繁1項目集L1={A(A1、A2、A3),B(B1、B2、B3),J(J1、J2、J3)},其中A指工作量、B指授課質量評價、J指教學業績考核。
2)頻繁2項集
由頻繁項目集L1產生的候選集C2,掃描數據庫D,對每個候選項求支持度,如表3、表4所示。
從表3和表4的候選項的支持度與最小支持度比較得到頻繁2項集及其對應的支持度,見表5。
3)產生關聯規則
由表5的頻繁2項目集計算其各置信度并與最小置信度相比較,產生所需要的關聯規則如表6所示。
4.3 規則分析
1)由規則A1=>J1知,工作量為A1[25,98]時,年終教學業績考核為C的可信度是70%、支持度為29%,說明有相當一部分老師的年度教學工作量很低,直接影響了教學業績的考核成績;同理規則B1=>J1授課質量評價為B1[62,115]的教師,有65%的教師年終教學業績考核是C級,且支持度是35%,結合規則A1=>J1和A1=>B1,再進一步到數據庫中通過查詢滿足這些條件的老師的信息可知,這些教師多是在讀碩士、在讀博士的青年教師,邊求學邊教學,兩邊兼顧型,導致了一心不能二用,無暇顧及教學。從決策支持的角度,建議這些教師所在學院的管理者,在教師資源不足的情況下,要適當限制教師同時繼續深造的人數;而且以后引進教師的時候,考慮多引進高學歷、高職稱的教師。
2)由規則A3=>B1知,教師的工作量為A3[131,151]時,授課質量評價為B1[62,115]的可能性55%。說明有一部分教師的教學任務相當繁重,沒有時間為授課精心準備,使授課質量評價低。從決策支持的角度看,如果這些教師所在的學院,師資力量充足的話,建議管理者對教師的教學工作量有所限制,如果是教師資源不足,那么建議管理者應該盡快引進教師,以便均衡教師的教學任務。
3)規則B2=>J3,授課質量評價為B2[116,140],年終教學業績考核為A級的可能性是57%,支持度是17%,查詢數據庫可知,滿足此規則的一些教師,授課質量雖不是最高,但其它方面均衡發展。所以,從教師的角度看,一個教師要想教學業績考核為A,成為一個優秀的教師,必須全面發展,不能只顧某一方面的提高,規則A3=>J2蘊涵的道理也是如此。這也說明了教學業績考核機制目前看來基本上是合理的、全面的、綜合的對教師進行考核。
5 結束語
數據挖掘技術的關聯規則方法應用廣泛,結合實際情況采用關聯挖掘算法,對數據進行預處理,計算關聯因素的支持度、可信度,從而挖掘出隱藏在其中的知識。該文僅就關聯規則在高校教師教學業績考核中的某些因素做了探討,如何確定更科學的考核機制,進一步挖掘其它因素之間的關系,研制開發一套科學的教師業績考核系統,是下一步努力的方向。
參考文獻:
[1] ShortlandR.Searfe R.Digging for Gold.IEE Review,1995,41(5): 213-21.
[2] [加]J.HanandM.Kamber.數據挖掘概念技術 (Data Mining Concepts and Techniques)[M].范明,孟小峰,等,譯.北京:機械工業出版社,2001:149-178.
[3] Srikant R,Agrawal R, Mining Generalized Association Rules.Proc.215'NT'1 Conf.Very Large Databases.1995: 407-419.
[4] 陳安,陳寧,周龍驤,等.數據挖掘技術及應用[M].北京:科學出版社,2006.
[5] Agrawal R,Srikant R, Fast Algorithms for Mining Association Rules, In Proceedings 20th Int.Conf.Very Large Databases (VLDB),1994:487-499.
[6] 林景亮.關聯規則挖掘算法及其應用研究[D].廈門:廈門大學,2007:11-13.