蓋秋艷,吳 倩,向 武,吳 錫
(成都信息工程學院,四川成都610225)
學生反饋獲得的課堂教學滿意度是衡量高等院校課堂教學質量的重要指標,較為常見的3種指標:教師表現、課程學習便利度和教學效果[1-5]。教師表現指教師營造積極、愉快的課堂氣氛的能力,以及是否能夠清楚地解釋講授的內容[6-7]。總體教學滿意度與獲取教師表現呈正相關。假設前提條件和教學資源是充足的[7],例如,課程結構的均衡性和長度方面[2],對于課程學習便利度而言,總體教學滿意度隨著學生對培訓內容的認可度的增加而上升[8]。最后,教學效果與總體教學滿意度呈正相關。教學效果與教學目的及教育方法相結合,如明確的教學目標,課前預習等方面對教學效果有重要的影響[9-10]。現有研究介紹了另外一些方法,例如對課程及參與者的特點研究[11-12];分析其他感知結構的作用[13],如易用性的學習概念,這一概念從文獻信息系統衍生而來,反映一個系統的接受度不僅取決于系統的效能及操作的條件,同時也依賴于對系統易用性的感知[14-15]。
學生反饋則是對課堂教學質量進行評價的重要手段,通常采用學生主觀問卷的形式進行數據收集,理想狀態下,這些統計數據能夠對建立改進教師教學的建設性機制有幫助。但是,現有常用學生主觀問卷僅作為課堂教學的輔助性指標,一般對此類數據只進行簡單的統計處理,并不提供問卷信息的深層次分析,特別是多個統計參數間的相關性基本被忽略。
基于以上論述,為使學生反饋的有效性達到最大化,采用數據挖掘技術對學生課堂教學滿意度的測量構建基于非線性決策樹的定量分析統計模型,并通過數據預處理、模型分析等方法在現有教學質量統計的基礎上,對線性和非線性決策樹模型進行分析,并使用Logit決策樹對成都信息工程學院開設的本科專業必修課程《數字圖像處理》的學生反饋問卷進行課堂滿意度分析。
實證數據的采集,包括數據清理,預處理和建模。
符號用于作為標記,一個標量x∈R表示正常的腳本,矢量x∈Rn用粗體。矩陣X∈RN×n是加粗的大寫符號。Xi(j)是X矩陣的一個表示jth實例的屬性值。N代表數據集中的數量屬性。c由y的值來決定,c是叉狀分枝的二分法計算。
數據來源于成都信息工程學院電子信息工程專業開設的本科專業必修課程《數字圖像處理》,收集時間跨度為連續3個學年,391名學生。學生反饋調查問卷表的設置根據對課堂教學質量的3種指標分為3大類別,分別是課程學習便利度、教師表現和教學效果如表1所示。

表1 學生反饋問卷調查表
為了建立實際的教育評價模型,首先需對數據進行預處理,包括數據清理和濾波器。
1.2.1 數據清理
目標分為4個級別(如對一門課的總體評價),1分最低,4分最高。一些技術無法處理缺失值(如邏輯回歸),在屬性連續的情況下,這些值將被屬性的中值取代。在類屬性的前提下,將使用眾數歸因。如果實效值超過10%,實效值關聯的實例將從數據集中刪除。目標屬性實效值也將被刪除。具有一定順序的類屬性使用thermometer編碼,否則使用虛擬編碼。
1.2.2 mRMR濾波器
在數據挖掘技術中,高維數據中的重復數據不容易被篩選[9,16-17]。在數據分析之前使用mRMR濾波技術。使用啟發式方法選擇最顯著的數據集。這種方法相對于不同的因子分析和主分量分析節省計算量,選出的數據不需要修正。
采用Peng的最小冗余和最大關聯濾波器[10]。濾波器建立在Shannon的信息理論基礎上,使用相互信息表達獨立的數據集屬性[18-19]。使Sm∈X包含m屬性,x(j),j=1,…,m。mRMR濾波器采用最大關聯及最小冗余的標準,子集S的關聯性被定義為:

S子集的冗余性定義為:

I(x(j);x(j′)表示在2個任意變量x(j)和x(j′)的相互信息,定義為:

mRMR濾波器最終將相關性和冗余性計算成一個公式:

使用濾波器技術,每次對10個最好的子集特征進行建模。
使用基于決策樹的方法進行數據分析,但是由于簡單的線性決策樹無法獲得準確結果,在此基礎上使用對數回歸(Logistic Regression)構筑非線性模型進行分析[20-21]。
決策樹分類器由于其靈活性、計算效率高以及便于理解得到廣泛應用,其典型包括分類和決策樹(Classification and Regression Tree,CART)和間接分類器1(Oblique Classifier 1,OC1),前者產生一元的樹結果,后者產生的樹則在每個分支考慮多種參數。
CART同時實現分類的回歸過程,在每個分支,樹的產生算法僅考慮單一參數,其分類準則一般使用Gini分散指數(Gini Diversity Index,GDI)[22]:

不同于一元樹,OC1試圖獲得式6的超平面,在允許合理靈活性的基礎上獲得更精確結果:

當輸出是普通參數時,一般使用普通回歸進行模型擬合,而對數回歸則將輸出限制在0~1,便于將輸出用于表示為類的概率,則累積對數回歸模型對類k使用式7描述其累積對數概率:

用于測量分級性能最直接的參數是正確分類的比 例 (Percentage of Correctly Classification,PCC)[23]。PCC實質是有混淆矩陣所有對角元素之和被實例總和相除。這種方法被廣泛應用到多元分類,在混淆矩陣中的每一個元素(k,r)代表屬于k類的實例,由r類實例標記。在這個運算中,每一個實例被分配到所有c關聯類中的最高隸屬值中。根據PCC,使用從信用評估領域中的notch差異圖表[18]。PCC對于等誤分類進行假設,得出了不同種類的等誤分類,通過觀察,這種假設并不是最適合的方法[24]。假設目標分類的值是按自然順序排列,區分屬于類別3中的類別1實例相比區分類別2中相同的實例會產生錯誤數據,因為類別2數據來源于實際數據和預測數據之間的1notch差異。因此notch差異圖表要比PCC提供更精準的數據信息,notch差異圖是信用評分相關的一種統計方法,如圖1所示。

圖1 notch差異圖
較之分類性能,不存在單一的算子對模型的可理解度進行量化分析[25]。理解度被認為在某種程度上是對分類模型理解的心理適應過程,具有一定的主觀性[26],這種心理適應的受模型的類別和大小影響。個人差異如經驗和教育程度對決策模型中可獲知的理解性有重要影響[27]。
研究中,對多種線性和非線性模型的可理解度進行分析,分析方法包括2個方面。首先是表征方法,基于符號的表征方法更便于視覺接受和理解[22,28],第二是模型復雜度,一般認為,越簡單的模型,越便于理解,但是對于分類器模型可理解度和模型復雜度的關系目前并未見相關資料,使用決策樹的葉節點數量表征模型復雜度,葉節點越多,其復雜度越高。
首先對CART、OC1和Logit 3種分類器的性能進行比較分析,分析數據集中數據顯著性在10%以內數據,對分析結果選擇其中效果較好的Logit分類器對成都信息工程學院本科專業必修課程《數字圖像處理》學生調查數據建模和分析。
如表2所示,3種分類器中,性能最好的為Logit分類器,其PCC最高,達到0.65,明顯高于另2種線性分類器,而CART和OC1 2種線性決策樹性能較差的原因,可能在于其無法充分獲取數據間的非線性相關性。對于其可理解性,Logit模型的葉節點數量相對不是最低,但是較之平均節點最少的OC1,OC1其節點數量方差達到3.43,說明該分類器并不穩定,基于綜合考慮選擇Logit決策樹進行全部數據的分析。

表2 分類器性能和可理解度比較
如圖2所示,Logit決策樹表示學生對于使用數據集的課堂教學的反饋度,由圖可知,學生最關注的是課程學習的便利程度,如果該指標較低,就算教師表現較好,仍然無法獲得較高的學生課堂滿意度,該結論可以用于解釋和指導雙語教學的效果,當在專業課程中,使用英語程度過高,學生難于學習和接受課堂內容時,即使學生對教師個人素質認可較高,仍會對課程存在不同程度的意見。其次,當課程學習便利程度較高時,教師表現較之其他參數具有更高的重要性,反之,當課程學習便利程度較低時,課堂教學的有效性則更重要。這樣的結論也與實際觀察相符合,由于雙語教學使用英文原版教材,學生受英語水平、專業能力等影響,對于原版教材具有較高排斥,在這種教學不便條件下,在課堂上,對教材的關鍵內容進行細致深入講解后,學生對課堂教學的認同度則相對較高,如果忽略教材的細致講解,將會造成學生因為教材不易理解,從而導致對教學質量產生負面評價。

圖2 Logit決策樹狀數據
使用Logit決策樹對《數字圖像處理》雙語課程近3年的學生課堂教學滿意度調查問卷進行數據挖掘和定量建模分析,經過數據預處理、模型評估,選擇非線性的Logit決策樹對學生3個類別、10個不同變量的反饋調查問卷進行分析,并構筑樹狀模型。結果表明,該模型符合對學生課堂滿意度的主觀解讀,可為課堂教學管理提供有效的定量分析工具。針對調查問卷獲得的抽象信息,使用決策樹的技術進行數據挖掘,對問卷信息進行定量準確分析。基于此思路,首先強調使用決策樹技術的有效性和可靠性,在此基礎上對于線性和非線性決策樹的優缺點進行比較和總結,其作用和優點主要有兩方面,第一,結果簡潔直觀,如圖2所示。不同情況的分析結果可由決策樹直接描述,避免了問卷多個內容反映一個信息,輸出信息量繁雜帶來的誤解;第二,結果定量可靠,推測結果由其不同概率的統計結論支持,避免不同條件下的主觀分析差異。
[1] J Chih,C Liu,H Lee.Relationship between trainee attitudes and dimensions of training satisfaction:an empirical study with training institute employees[J].International Journal of Management,2008,25(4):756-763.
[2] A Giangreco,A Carugati,A Sebastiano,et al.Trainees’reactions to training:shaping groups and courses for happier trainees in an italian context[J].The International Journal of Human Resources Management,2010,21(13):2468-2487.
[3] A Giangreco,A Sebastiano,R Peccei.Trainees’reactions to training:an analysis of the factors affecting overall satisfaction with training[J].The International Journal of Human Resources Management 2009,20(1):96-111.
[4] L Long,C Dubois,R Faley.Online training:the value of capturing trainee reactions[J].Journal of Workplace Learning 2008,20(1):21-37.
[5] L Sargent,B Allen,J Frahm,et al.Enhancing the experience of student teams in large classes[J].Journal of Management Education 2009,33(5):526-552.
[6] M Gatta,P Ross.Rethinking occupational integration[J].Sociological Forum,2005,20(3):369-402.
[7] G Rabey.Diagnose then ACT.Some thoughts on Training Today[J].Industrial and Commercial Training 2007,39(3):164-169.
[8] P Kidder,J Rouiller.Evaluating the success of a large-scale training effort[J].National Productivity Review,1997,16(2):79-89.
[9] T Menzies,J Greenwald,A Frank.Data mining static code attributes to learn defect predictors[J].IEEE Transactions on Software Engineering,2007,32(11)2-13.
[10] C Shannon,W Weaver.The Mathematical Theory of Communication[M].University of Illinois Press:Urbana,1949.
[11] C M Bishop.Neural Networks for Pattern Recognition[M].Oxford University Press:Oxford,1995.
[12] T Sitzmann,K Brown,W Casper K,et al.Zimmerman,A review and misanalysis of the nomological network of trainee reactions[J].Journal of Applied Psychology 2008,93:280-295.
[13] A Giangreco,F Goethals.Students’overall satisfaction with training in a business education institution going through international accreditation processes[D].Working paper,IESEG School of Management,2011.
[14] F Davis.Perceived usefulness,perceived ease of use,and user acceptance of information[J].MIS Quarterly 1989,13(3):319-339.
[15] V Venkatesh,M Morris,G Davis,et al.User acceptance of information technology:toward a unified view[J].MIS Quarterly,2003,27(3):425-478.
[16] K Dejaeger,W Verbeke,D Martens,et al.Data mining techniques for software effort estimation:a comparative study [J]. IEEE Transactions on Software Engineering [EB/OL].http://doi.ieeecomputersociety.org/10.1109/TSE.2011.55.
[17] W Verbeke,K Dejaeger,D.Martens,et al.New insights into churn prediction in the telecommunication sector:aprofit driven data mining approach[J].European Journal of Operational Research,2012,28(1):211-229.
[18] E Altman,H Rijken.How rating agencies achieve rating stability[J].Journal of Banking & Finance,2004,28(11):2679-2714.
[19] H Peng,F Long,C Ding.Feature selection based on mutual information:criteria of max-dependency,max-relevance,and min-redundancy[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2005,27(8):1226-1238.
[20] P Domingos.The role of Occam’s razor in knowledge discovery[J].Data Mining and Knowledge Discovery,1999,9(4):409-425.
[21] W Loh,Y Shih.Split selection methods for classification trees[J].Statistica Sinica7,1997:815-840.
[22] W Arthur Jr,W Bennet Jr,P A.Edens.et al.Effectiveness of training in organizations:a meta-analysis of design and evaluation features[J].Journal of Applied Psychology,2003,88(2):627-635.
[23] B Baesens,C Mues,D Martens,et al.50years of data mining and OR:upcoming trends and challenges[J].Journal of the Operational Research Society,2009,60:16-23.
[24] D Hand,R Till.A simple generalisation of the area under the ROC curve for multiple class classification problems[J].Machine Learning,2001,45:171-186.
[25] J Huysmans,K Dejaeger,C Mues,et al.An empirical evaluation of the comprehensibility of decision table,tree and rule based predictive systems[J].Decision Support Systems,2011,51(1):141-154.
[26] I Askira-Gelman.Knowledge discovery:comprehensibility of the results[C].in:Proceedings of the 31th Annual Hawaii International Conference on SystemSciences,USA,1998,5:245-256.
[27] I Benbasat,R N Taylor.Behavioral aspects of information processing for the design of management information systems[C].IEEE Transactions on Systems,Man,and Cybernetics,1982,12(4):439-450.
[28] R Velada,A Caetano.Training transfer:the mediating role of perception of learning[J].Journal of European Industrial Training,2007,31(4):283-296.