李果 張萌 康瑞



摘要:本文提出了一種基于logistic回歸的學生成績預測模型,目的在于預測學生的成績,尋找出影響學生成績的關鍵因素,從而幫助管理者更好地管理學生。作者首先對學生歷史數據中的特征進行了可視化分析,以了解數據的分布、相關性等信息;接著將數據集劃分為訓練集和測試集兩部分,以便建立和評估預測模型,并在此基礎上建立了一個logistic回歸模型來預測學生成績,同時對預測結果的準確率進行了評分;最后剔除了無關特征再次建模,對預測模型進行再次評估。結果表明,優化后的成績預測模型的預測準確率有所提升,能夠有效地預測學生成績。
關鍵詞:機器學習;logistic回歸分析;成績預測
中圖分類號:TP399? 文獻標識碼:A? 論文編號:1674-2117(2023)15-0077-04
引言
隨著互聯網技術的迅速發展,教育相關數據的收集變得更為方便快捷,對教育大數據的分析、挖掘和應用是教育發展的重要需求和必然趨勢。將信息技術應用到教育領域,也為教育教學帶來了質的提升。在傳統的教育教學過程中,教師通常僅通過學生的課堂表現、作業完成情況及質量、階段考試成績等預測學生未來參與考試的成績情況,缺少具體的數據及相關統計學理論做支撐,導致預測結果具有強烈的主觀性,加上學生考試成績形成的復雜性,使得預測結果和實際情況存在較大的偏差。因此,目前,大量基于機器學習的成績預測模型相繼出現,用以幫助教師實時掌握學生實際學習情況,科學有效地改善了教育效果。
筆者收集了480名學生的基本情況信息和課堂內外表現的量化數據,將數據進行可視化處理,對某些特征屬性進行了分析,推測其對學業成績存在的影響。接著,將該數據集劃分為訓練集和測試集,對訓練集中的樣本進行建模,以此得出最佳模型參數。隨后,在測試集上運用這些參數,以便評價模型的有效性。最后,剔除相關性不大的特征數據,重新建模預測。實驗結果表明,優化后的模型預測準確率提高。利用學習成績預測模型對學生的學業成績進行預測,能夠使教師及時了解學生的學習狀態與學習效果,并根據當前情況制訂針對性的教學方案,進行差異教學,滿足不同學生的個性化學習需求。
logistic回歸模型
線性回歸模型用于識別連續型因變量與一個或多個自變量之間的關系。當只有一個自變量和一個因變量時,稱為簡單線性回歸;而隨著自變量數目的增加,則被稱為多元線性回歸。對于每種線性回歸,都會力求繪制一條通過一組數據點的最佳擬合線,這通常使用最小二乘法來計算。與線性回歸類似,邏輯回歸也用于估計因變量與一個或多個自變量之間的關系,只是其作用是對分類變量與連續變量進行預測。分類變量可以為true或false、yes或no、1或0等。
logistic回歸分析的核心內容是研究二分類或多分類因變量和一組自變量之間的關系[1],確定自變量對因變量的影響程度,從而預測因變量取值的可能性。在一般線性回歸分析中,因變量y為數值型連續變量,若假定自變量個數為1,則其與自變量x之間的線性關系如下:
(1)
在邏輯回歸中,是用邏輯函數把線性回歸的結果(-∞,∞)映射到(0,1),其中線性回歸函數的數學表達式為:
(2)
其中,xi是自變量,y是因變量,y的值域為(-∞,∞),θ0是常數項,θi(i=1,2,…,n)是待求系數,不同的權重θi反映了自變量對因變量不同的貢獻程度。線性回歸若線性條件不符合,可以對y或者x進行轉換,以滿足線性回歸的要求。因此,統計研究者對待求解系統進行了轉換,稱之為logit轉換。logit函數的值域為(0,1),函數表達式為:
(3)
其中,z=θTx。通過上述變化,將g(z)的輸出表示為一個分類問題在給定x的條件下等于0或者1的概率。
實驗數據
1.數據來源
筆者使用阿里云天池公開的數據集:學生成績預測數據集。該數據集是一個多變量數據集,包含了480名學生的基本情況和課內外表現的量化數據。其中,每一個數據樣本都有17個特征屬性,前16個是自變量,如性別、國籍、出生地等,最后一個為因變量,為學生的學業成績。需要說明的是,學生最后的實際學業成績以等級方式展現,L代表分數區間在0~60,M代表分數區間在70~89,H代表分數區間在90~100。模型構建的最終目的是通過這些特征來預測學生的最終學業評測成績,預測成績也將以等級方式呈現,即L、M、H三者之一。該數據集480名學生的特征如下表所示。
2.數據預處理
缺失數據會影響分析的準確性和可靠性,可能會導致結果出現偏差。剔除缺失數據可以防止過擬合,過擬合會影響模型泛化能力,使得模型在訓練集上表現優異,但在測試集上表現較差,也有助于更快地訓練模型。筆者運用Idle Python軟件,輸入核心語句print(df.isnull().sum())并運行,查看480名學生信息是否存在缺失值,如有缺失,進行異常數據清除。運行結果顯示480條數據均無缺失值,表明均為有效數據。
大多數用于分類的機器學習算法都是圍繞每個類別的樣本數量均相等的假設來設計的,因此,倘若數據集分類不平衡,則模型會偏向于預測頻繁出現的類別,而忽略其他類別,從而導致構建的模型的預測結果不準確。例如,如果數據集中特定類別的樣本比其他類別的樣本多得多,那么模型可能會偏向于預測這個特定類別,從而導致準確率下降。因此,為了確保模型能夠準確地預測結果,數據集的分類必須較為平衡,這是數據集構建或采集時需要考慮的一個問題。數據集的可用性可以通過觀察數據集中類別的樣本數量是否相當來評估,輸入關鍵代碼可得到成績等級分布情況(如圖1)。
在480名樣本數據中,三個等級(L、M、H)的成績分布人數均在100人以上,其中分數區間在0~60分的學生人數較多,分數區間在70~89分的學生人數與分數區間在90~100分的學生人數相當,數據集的分類較為平衡,這是保證模型準確地預測結果的前提。
3.數據可視化
可視化的目的是探索數據規律,發現數據之間的關系,如特征與目標變量之間的相關性。筆者將該數據集的480名學生的部分特征(性別、班級、學期、孩子家庭教育負責人、家長對學校的滿意度、學生缺勤天數)按學生成績等級進行劃分,了解兩者之間的關系,如圖2所示。
子圖(a)顯示,男生中成績等級處于L的人數多于成績等級處于H的人數,男生低分人數多;女生中成績等級處于H的人數多于L等級的人數,女生低分人數少。無論是在中國還是國際上,均存在男性的學習成績明顯落后于女生的情況。[2]男生的注意力容易分散,經常會在學習的過程中分心,而女生比較容易集中注意力,能夠把精力放在學習上。此外,男生也更容易受到外界的干擾,如媒體、網絡等,容易分散學習精力,而女生往往更能夠集中注意力學習,故而低分少。
子圖(d)顯示,父親作為家庭教育負責人的學生成績等級為L的人數遠多于成績等級為H的人數,即處于低分的學生人數較多;而家庭教育負責人為母親的學生,L、M、H三等級人數呈階梯上升趨勢,處于高分等級的人數最多。這與父母在家庭教養活動中的不同作用及性別角色差異有很大聯系。精神分析理論認為,與父親相比,孩子更依戀母親。[3]母親往往比父親更能理解孩子的需要,更加靈活地支持他們的學習,從而使孩子更容易取得好成績。有研究顯示,在教養方式上,父親的情感表達以及耐心方面都弱于母親,但在創造力、勇氣等品質培養方面又普遍強于母親[4],母親往往更有耐心地輔導孩子。情感細膩的母親更關注孩子的身體健康與情緒體驗等。[5]由于母親更多地參與子女的日常生活,她們更了解孩子的行為,更容易發現孩子學習中的問題,從而及時采取措施幫助孩子改善成績。
而從子圖(e)和子圖(f)中也可以看出,“家長對學校的滿意度”及“學生缺勤天數”均與學生成績有關聯。一般來說,家長對學校的滿意度越高,學生的成績往往也越高。學校給予學生充分的關心和支持,提供良好的學習環境,學生學習的效果就會更好。同樣,家長也會感受到學校的關心,從而更加支持孩子的學習,這樣就能更有效地幫助孩子取得更高的成績。而學生缺勤天數對學生成績也有顯著的影響。缺勤天數多,學生便無法得到足夠的學習機會,不能充分參與課堂,導致無法全面掌握課程內容,降低學習效率,進而影響考試成績。
結果與分析
1.模型構建
本文實驗環境為Win10 64 bit操作系統,分析和建模的程序基于Python3.7。研究調用Python語言的scikit-learn項目完成,Logistic回歸在linear_model.Logistic Regression中實現。其中的關鍵環節是使用fit()方法訓練模型,最后利用訓練得到的模型對數據集進行預測,使用predict()輸出預測結果。模型訓練前需要拆分數據集,將該數據集劃分為兩部分,其中,80%的數據作為訓練集,剩下的20%作為測試集。關鍵代碼如圖3所示,運行結果如圖4所示,輸出測試集中前10名學生的預測成績,并為該預測模型打分。
由圖5可知,測試集中前10名學生的實際學業成績等級依次是M,M,M,L,M,H,H,M,M,L。模型最終預測的前10名學生的成績依次是H,M,M,L,H,H,H,H,M,L。除了第1、5、8名學生的預測學業成績與實際成績不符外,其他學生預測成績與實際成績均相同,且模型預測準確率評分約為0.740。
2.模型優化
由于在數據可視化部分已經可以發現無論在“A”“B”“C”哪個班,其成績分布都高度趨同,所以猜測“班級”特征與學業成績關系不大,因此嘗試剔除“班級”特征數據后再進行建模。核心代碼為X=df.drop([‘Class,SectionID],axis=1),運行結果如圖6所示,可以看到相比優化前的模型,預測準確率得到提升。在測試集前10名學生中,僅第1、8名學生的預測學業成績與實際成績不同,預測準確率評分上升至0.802。
結論
本研究對可能影響學生成績的多個因素進行了分析,并基于logistic回歸建立了學生未來學業成績預測模型。該模型能夠有效地捕捉學生特征屬性與學業成績之間的復雜關系,進而幫助教師及時調整教學方案,更有針對性地提高學生的學習效率,降低學習失敗率。
參考文獻:
[1]莊立純,張正軍,張乃今,等.基于非線性Logistic模型的改進UDEED算法[J].計算機工程,2019,45(07):208-211.
[2]李夢竹.初中生學習成績的影響因素及其性別效應[J].基礎教育,2018,15(01):99-108.
[3]McKinney,C.,& Renk,K.Differential parenting between mothers and fathers:implications for late adolescents[J].Journal of Family Issues,2008,29(06):806-827.
[4]Sofie K,Eva C.Parenting Styles:A Closer Look at a Well-Known Concept[J].Journal of Child and Family Studies,2019(28): 168-181.
[5]萬榮,李小龍,陳競蓉.父母教養方式對小學高年級學生學業拖延的影響:一個有調節的中介模型[J].陜西學前師范學院學報,2020,36(07):112-121.
作者簡介:李果,女,漢族,碩士研究生,研究方向為教育信息化;張萌,女,漢族,碩士研究生,研究方向為教育信息化;康瑞,女,漢族,碩士研究生,研究方向為教育信息化。