王愛俠
(金陵科技學院 軟件工程學院,江蘇 南京 211169)
粗集理論(Rough Set Theory,簡稱RST)是由波蘭華沙理工大學Z.Pawlak教授在1982年提出的一種處理模糊和不確定性知識的新型數學工具,是一個具體的數據挖掘技術,其作為人工智能和知識發現的一種實用技術,運用到生產和生活中的各個方面。粗集理論核心思想是在保持分類能力不變的前提下,通過知識約簡,導出問題的決策或分類規則[1,2]。而教學質量評估指標體系優化的基本思想[3]是在保證對被評估對象評價基本一致的情況下,選擇最少、最合理的評價指標,以便降低維數、減少冗余,使評估工作量和不確定性影響因素減少到最低程度,粗集理論中的屬性約簡方法能很好地解決這個問題。從高校教學管理系統數據庫中的原始數據出發,通過將數據庫中的連續屬性離散化,利用粗集理論屬性約簡進行教學評估關聯規則的挖掘。
基于粗集的知識理論不需要預先給定某些特征或屬性的數量,可從現有的數據出發給出知識的簡化和相對簡化,基于粗集理論的教學評估關聯規則挖掘,整個挖掘過程分為三步:數據預處理、屬性約簡、關聯規則挖掘。
1.數據預處理:通過對初始數據進行清洗,缺失值處理,轉換及數據選擇,獲取初始信息表,對初始表離散化轉換為粗糙集形式,明確條件屬性集和決策屬性。
2.屬性約簡:對條件屬性進行約簡,刪除多余屬性,用屬性約簡算法完成求核和約簡,生成約簡屬性集。
3.關聯規則挖掘:根據數據約簡結果,將粗集理論的屬性約簡應用到關聯規則挖掘中,對規則進行抽取和約簡;輸入加權支持度閾值和置信度閾值,進行規則的過濾,對規則進行相關性分析,減少偽規則。
基于粗集理論的教學評估關聯規則挖掘結構圖如圖1所示。

圖1 基于粗集理論的教學評估關聯規則挖掘結構圖
數據挖掘成功與否,數據準備至關重要,是實現數據挖掘應用的前提。數據準備內容:一是從多種數據源中綜合數據挖掘所需要的原始資料,保證數據的綜合性、易用性以及數據的質量和時效性;二是如何從現有數據中衍生出所需要的指標。以某校教學管理系統中獲取的課程信息、教師信息、教師評教信息、學生信息等為研究對象,根據數據挖掘的目的,篩選數據,在上述信息中選取適用的信息,建立數據源表,將數據源表中的源數據結構按一定的數據變換規則,將年齡、工作量、科研工作量、成績、評教分數分別變換成年齡段、工作量段、科研工作量段、成績等級、評教等級。
利用“等區間”離散化方法[4]對挖掘的數據進行離散化。將評價指標中的出生日期、性別、學歷、職稱、工作量、科研工作量、課程名稱、課程類別、學生入學成績、學生在校成績分別記作a、b、c、d、e、f、g、h、i、j,且出生日期即年齡,有青、中、中老、老四個階段,以符號1、2、3、4記,即a={青、中、中老、老}={1、2、3、4},同理性別b={男、女}={1、2},學歷c={博士、碩士、本科、其他}={1、2、3、4},職稱d={教授、副教授、講師、助教}={1、2、3、4},工作量e={未滿、滿、超}={1,2,3},科研工作量f={未完成、完成、超}={1,2,3},對課程名稱離散數學、匯編語言程序設計、算法與數據結構、微型機系統與接口等,分別以g1,g2,g3,g4,…,gn進行編碼,課程類別h={公共基礎課、專業基礎課、專業核心課、專業方向課}={1、2、3、4},學生入學成績i={優良、中、及、差}={1、2、3、4},學生在校成績j、j'={優良、中、及、差}={1、2、3、4},其中j、j'為前面所述所有課程g1,g2,g3,g4,…,gn的各科成績和平均成績,評價目標評教分數以k表示,且評教分數k={好、較好、一般、差}={1、2、3、4},建立評價決策表,共有85個樣本數據,其中評價目標為1、2、3、4的樣本數據分別是24、30、17、14。
將85個樣本數據存儲在SQL Server數據庫中,用VB語言編寫基于分辨矩陣和屬性重要性的屬性約簡算法程序,最終得出最優或次優約簡{a,c,d,e,j,j'},根據這6個指標重新建立決策表,如表1所示,求得評價目標“好”的下近似中有24個對象,上近似中有24個對象;“較好”的下近似中有28個對象,上近似中有32個對象;“一般”的下近似中有15個對象,上近似中有19個對象;“差”的下近似中有14個對象,上近似中有14個對象。具體結果見表2。整個決策表分類質量和分類精度分別為91.0%和95.3%,這表明其余4個指標從教學質量評估體系中去掉,對最終的評價結果影響不大。

表1 教學質量約簡后決策表

表2 教學質量約簡決策表的分析結果
表1是經過屬性約簡后得到的一個新表,但不能將表中每一記錄作為最終規則。
1.規則的抽取、約簡和過濾。利用規則抽取和約簡算法對表1中的每一規則進行屬性約簡,以刪去規則中的冗余屬性。但經過規則約簡后,產生的規則仍然較多,在此采用“加權支持度—置信度”的統計過濾框架對規則進行再度過濾。設給定加權支持度和信任度分別為5%和40%,指定屬性的權重集w={年齡,學歷,職稱,工作量,成績}={0.1,0.25,0.25,0.2,0.2},挖掘出24條規則,部分規則如表3教學評估關聯規則表。

表3 教學評估關聯規則表

(1)if corr<1,則前件和后件是負相關的;
(2)if corr>1,則前件和后件是正相關的;
(3)if corr=1,則前件和后件是獨立的。
對于負相關的規則,規則的前件與后件的出現概率是互逆的,此類規則不符合客觀邏輯,應該刪除;對于規則的前件和后件是獨立的情況,表明這樣的規則也是無趣的;而對于前件和后件是正相關的規則,是用戶要選擇的有趣的規則。通過對挖掘出的24條規則進行關聯度分析得出它們的相關性系數都大于1,所以都是真正有趣的關聯規則。
通過得到的關聯規則,可得到如下的分析結果及改進措施。
1.學生的考試成績等級與學生的評教等級存在著較高的關聯性,考試成績等級為優良以上,評教等級大多為較好以上,考試成績等級為及格,評教等級大多為差或一般,據此可得出,學生的成績與學生對教師的評教結論成正比,表明學生對教師的評教結果是真實的,通過學生的成績,可以看出教師的教學質量。
2.在實際教學中,教師可根據學生某門或某幾門課的成績預測該學生其他課程的成績,使教學工作有的放矢。如由學生《匯編語言程序設計》課程的成績可對學生進行適當的分類,作為微型機系統與接口的任課教師。已知學生甲的匯編語言程序設計成績優良,可預測學生甲的微型機系統與接口成績優良,在教學中可對學生甲提出更高要求;已知學生乙的匯編語言程序設計成績較差,可預測學生乙的微型機系統與接口成績較差,在教學中可給學生乙較多的幫助。這樣,對不同類的學生采取不同的培養方式有利于學生的成長。
3.中老、老年教師,其所教授的課程,學生的評價較高;而中、青年教師,學生的評價大多為一般,在一定程度上說明年齡越大,積累的教學經驗越豐富,授課的效果就越好,學??梢杂嗅槍π缘刂贫ㄖ小⑶嗄杲處熍囵B機制,利用“傳、幫、帶”的方式,使中、青年教師在中老、老年教師言傳身教的影響下,不斷積累教學經驗,提高教學質量。
4.學歷高的教師教學效果比較好,但由規則6加權支持度很低說明緊缺具有博士學位的教師,而由規則5加權支持度很高說明具有碩士學位的教師占很大比例。學校應采取措施,外引內培,提高具有博士學位的教師在整個教師體系中的比重。
5.職稱高的教師教學效果比較好,同樣由規則8、9加權支持度比較低說明緊缺具有教授、副教授職稱的教師,學校也應采取措施,外引內培,提高具有教授、副教授職稱的教師在整個教師體系中的比重。
6.年齡、學歷、職稱與教學效果的關聯性受學生成績、工作量的影響。學生成績對年齡、學歷、職稱與教學效果的關聯性的影響已在第1點中說明,通過學生的成績,可以看出教師的教學質量;由規則4、7、10可知,工作量太大會影響教學質量,所以應合理安排教師的課時量,使教師的教學工作量控制在合理的范圍內。
通過關聯規則挖掘找出影響教學質量的因素及教學過程中存在的問題,有的放矢以提高教學質量。金陵科技學院是一所新建應用型本科院校,目前緊缺具有博士學位、教授和副教授職稱的教師,所以學校應加大力度,外引內培,逐漸提高具有博士學位、教授和副教授職稱的教師在整個教師體系中的比重,以不斷提高教學質量。
[1]Pa wlak Z.Rough S et[J].International Joumal of Computer and Information Science,1982,11(5).
[2]史月美.基于粗集理論的關聯規則挖掘研究[D].太原:山西大學,2006.
[3]周慶敏,殷晨波.課堂教學質量評估指標體系整體優化方法[J].理工高教研究,2006,25(2).
[4]周艷聰.基于粗集理論的連續屬性離散化及規則提取技術研究[D].天津:河北工業大學,2004.