西安交通大學附屬中學 劉蘊軒
十年樹木,百年樹人。教育始終是全社會熱議的話題。學習成績是考核學習能力的重要指標,也是選拔人才的重要標準,倍受每一個家庭的關注。孩子們的學習能力深刻地影響家庭的未來,甚至國家的興衰發展。如何有效地提高成績成為經久不衰的議題。影響學習成績的因素有很多,其中與孩子的自身相關的因素有心理狀態、智能水平、學習方法、學習時間,學習習慣等。大多研究都是從主觀方面,或者從心理學角度切入,針對孩子的一些自身問題,告誡家長要正確引導,不要給孩子施加太大的壓力,要多陪伴和鼓勵孩子等等。然而,“心理戰術”仍然讓許多家長力不從心,效果也并不盡如人意。
大數據時代的到來,使得大數據分析技術在很多情況下都能得到一些問題所在。我們在Kaggle網站上得到了一組高中學生學習情況和原生家庭情況的數據記錄,這些數據是在針對中學生數學課程學習情況的調查中統計得到的。數據包括了家庭與學校的遠近、是否經常參加課外活動、監護人主要為父親還是母親、父母的受教育程度、父母的工作、父母的離異情況以及家庭的規模等。拋開與孩子自身相關的因素的探討,本文著重探究學習成績和家庭客觀因素的關系。這樣的客觀因素往往被人們忽視,它們究竟對孩子的學習成績有怎樣的影響?本文依據學生成績的相關數據來對各種因素進行剖析挖掘,立于數據,用事實說話,詳細地探究了影響孩子學習成績的家庭客觀因素。
本組數據是在kaggle網站獲得的關于中學學生數學和葡萄牙語課程調查數據。它包含了33個屬性,分別是:學生的學校、學生的性別、學生的年齡(15~22)、學生的家庭地址類型(農村、城市)、家庭大小、父母是否同居、父母的受教育程度、父母的工作、選擇這所學校的理由、學生的監護人、上學時長、每周學習時長、過去失敗次數、學校額外的教育支持、家庭教育支持、是否參加補習班、是否參加課外活動、是否上過幼兒園、是否想接受高等教育、是否在家上網、是否談戀愛、課余時間長短、是否和朋友出去玩,周末飲酒、健康狀況、缺課數以及本學期的三次考試成績(G1,G2,G3),總共為600多條記錄。
由于相關屬性過多,不便于直接繼續研究。筆者對各項屬性一一進行篩選,將希望進一步探究的屬性分為六大類,分類結果如表1所示。其中,這三組的屬性更加直觀地、定量地影響學習成績。本組數據的屬性非常多,導致直接構建決策樹,會使決策樹冗長且不易分析。減少決策樹輸入的屬性個數是降低決策樹長度的有效方法。為了合理減少輸入參數的數量,我們對時間規劃、其他教育支持、上進心這三類中的屬性進行了加權合并,每組合并為一個屬性。根據不同屬性對結果的影響程度不同,我們采用了加權合并的辦法。為了獲得不同因素之間影響程度的對比,我們計算屬性的“信息增益值”,作為屬性的權重。“信息增益值”Gain(SA, A)的計算公式如下:

其中,S表示整個樣本集合,SA表示在節點屬性A下的集合。Entropy(SA)表示屬性A在集合SA的熵值。變量NA表示屬性A上的樣本集合,使用NiA表示在屬性A的全部樣本中屬于類別Ci的樣本數量,使用NAm表示在屬性A選擇屬性m的樣本數量,用NiAm表示選擇屬性m的樣本中,屬于類別Ci的樣本數量。
以“時間規劃”這一類的屬性為例,我們使用這類屬性下的五個屬性,對于學習成績進行的影響進行決策樹建模,計算屬性的增益值作為它們相對地重要性。我們使用IBM SPSS構建C5.0決策樹,其中學習時間重要性達0.41,上學交通用時0.0109,自由時間長短0.1177,是否參加課外活動0.1402,是否常和朋友出去玩0.3213。因為權重過小,我們忽略“上學交通用時”,將另外三項屬性按重要性加權合并,得到FTA(自由時間規劃)。
使用相同的方法,我們將“其他教育支持”和“上進心”的各項屬性作為輸入建樹。其他教育支持的各項屬性權重如下:學校額外的教育支持1,是否參加補習班0.922,是否上過幼兒園0.884,以此加權相加,得到OES(其他教育支持)。上進心類種的各個屬性權重如下:選擇這所學校的理由0.0996,缺課數0.1509,是否想接受高等教育0.7495。其中,我們將“缺課數”權重變為負值,按重要性加權合并,得到UM(上進心)。

圖1 決策樹結果及屬性重要性

表1 與學習成績相關因素的分類
因為決策樹是分類算法,只能預測類別,不能預測數值。因此我們將學習成績從高到低,平均劃分為3類,即0-6分為第一類,7-13分為第二類,14-20分為第三類。基于IBM SPSS Modeler 14.0軟件的C5.0決策樹模型,對合并簡化后剩余18個可能的影響因素進行探索,在得到初步的決策樹結果后,我們還得到了各個屬性的重要性,作為以此衡量它們對于決策樹構建的貢獻大小。分析發現,對于客觀因素,性別、年齡本身對學習成績產生影響很小,作為輸入不但會造成決策樹冗長,還會影響其他因素的重要性分析,因此將這幾項屬性從輸入數據里刪除。此外,學校屬性的影響性非常小,也被刪除。我們用剩下的13個屬性在此進行決策樹構建,分析結果顯示,決策樹仍然非常的冗長,不能進行有效地分析。因此,我們重復上面的步驟,篩減去重要性較低的屬性,不斷調整輸入參數構造決策樹,直至篩選出到最重要的屬性,得到決策樹結果,如圖1所示。在此模型中,剩余5個輸入分別是:母親的受教育程度(Medu)、父親的受教育程度(Fedu)、母親的工作(Mjob)、每周學習時長(studytime)、上進心(UM),樹狀圖深度為8,交互驗證的平均值為54.2,誤差為2.0。變量重要性分布如圖1所示。
由以上模型分析可知,家庭環境、其他教育支持、生活習慣對學習成績的影響很小,父母對孩子的影響主要體現在父母的受教育程度和工作上,時間規劃上的影響主要體現在學習時間上。在所有因素中,父母對孩子的影響起到很重要的作用,母親起到更加重要的作用。孩子只要在學習上花費了時間,孩子在其他事情(比如:參加課外活動、上網、和朋友出去玩)上花費一定時間并不會很大程度上的影響學習。我們發現上進心強的孩子常常會獲得更好的成績,我們常關注的報補習班的數量和花費的時間并不會很大程度的影響學習。也就是說孩子上進心的強弱遠比報補習班參加課外學習重要。
因此,孩子的學習一方面取決于自己是否有足夠的上進心,另一方面也與父母提供的家庭教育密切相關。
本文基于強大的數據挖掘算法,對學習成績的各項可能的影響因素進行探索。受到數據集的內容不夠豐富完善,本人能力水平不足等限制,本文探究具有一些缺陷。
學習成績是全社會關注的熱點問題,小到是衡量每個學生的重要指標,大到是衡量一個地區教育質量的重要指標,科教興國,人才強國的戰略號角早已吹響,我們能否肩負起中華民族偉大復興的中國夢,或許就在于祖國的花朵是否足夠艷麗和芬芳。
在大數據剛剛興起的時代,我們可研究探索的主題太多太多,以數據挖掘的思路探究一些受眾多復雜因素干擾的問題,不失為一種方法,讓我們基于現實數據,探求相關,獲得更加客觀、實際、科學的結論。在本文的基礎上加以更豐富更海量的數據,加以更強大的算法模型,加以技藝更精湛的數據挖掘專家,必將獲得可以為決策者提供條件的科學的結論,必將為祖國科技繁榮作出微薄的貢獻。
[1]Freund,Yoav,and Llew Mason.”The alternating decision tree learning algorithm.”Inicml,vol.99,pp.124-133,1999.
[2]Mining,What Is Data.”Data Mining:Concepts and Techniques.”Morgan Kaufinann(2006).
[3]Fayyad,Usama,Gregory Piatetsky-Shapiro,and Padhraic Smyth.”From data mining to know ledge discovery in databases.”AI magazine 17,no.3(1996):37.