999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于雙路注意力機制的學生成績預測模型

2020-08-25 07:33:40李夢瑩王曉東阮書嵐
計算機研究與發展 2020年8期
關鍵詞:特征影響模型

李夢瑩 王曉東 阮書嵐 張 琨 劉 淇

1(河南師范大學計算機與信息工程學院 河南新鄉 453000)2(中國科學技術大學計算機科學與技術學院 合肥 230027)(lmengying@yeah.net)

教育數據挖掘旨在從海量的教育數據中發現隱藏在其中的內在聯系與規律,為學生學習、教師教學以及教育管理者的管理提供一些幫助[1].作為教育數據挖掘領域的一個重要研究分支,學生成績預測有助于教師對學生的學習過程進行及時有效的干預和指導,例如識別出有風險的學生,以便及時提供干預措施[2].此外,還可用于在線測評[3]、認知診斷[4]、學生畫像構建[5]和推薦系統[6],具有重要的研究意義與應用價值.

目前,對學生成績進行預測分析及其成績關鍵影響因素挖掘研究已引起國內外學者的關注.在學生成績預測方面,蔣卓軒等人[7]通過從MOOC學習者的諸多行為特征中選擇出若干典型學習行為特征,并利用所選擇的特征對學習者能否成功完成學習任務獲得通過證書進行預測,從中找出潛在的認真學習者.Pandey等人[8]在影響學生成績的18個屬性特征中通過計算各個屬性特征的信息增益率挑選出8個重要屬性,并利用所挑選的8個重要屬性構建決策樹對學生成績進行預測.在學生成績影響因素挖掘方面,Bhardwaj等人[9]通過對印度某大學300名學生成績進行研究發現,學生成績受家庭住址、家庭年收入、母親受教育情況、生活習慣及學生歷史成績等因素影響比較大.Thiele等人[10]提出學生的社會人口學特征(如種族、性別和經濟地位)和學業特征(如學校類型和在校表現)與他們的學業表現聯系緊密.

雖然以上工作已經取得了比較好的表現,但仍然存在2個方面問題:1)當前工作僅考慮已挑選的特征對學生成績的影響,而忽略了未挑選特征的影響.例如Pandey在構建決策樹對學生成績進行預測時僅選用信息增益率較高的8個特征,而忽略了剩余10個特征對學生成績的影響.2)當前工作假設關鍵因素對所有學生的影響程度是相同的,忽略了學生的個體差異.事實上不同因素對同一學生成績的影響程度是不同的,并且不同學生受同一因素的影響程度也是不同的.如何更全面準確地分析利用這些屬性特征對學生成績進行預測,同時挖掘出影響不同成績學生的關鍵因素,實現對學生的個性化分析與指導是目前學生成績預測研究所面臨的一項重大挑戰.

為了解決以上挑戰,文本提出了一種基于雙路注意力機制的學生成績預測方法(two-way attention, TWA).該方法通過雙路注意力機制為不同的屬性特征賦予不同的注意力權重,實現了學生屬性更全面準確的利用,進而保證了學生成績的準確預測.具體而言,首先,TWA模型通過兩次注意力計算分別得到各屬性特征在第1階段成績和第2階段成績上的注意力得分.然后,在此基礎上進行雙路特征融合并對期末成績進行預測.最后在2個公開數據集上進行大量實驗,實驗結果證明了本文所提出方法的有效性.

本文的主要貢獻有3個方面:

1) 通過對數據進行挖掘分析發現學生個體之間存在差異性,不同成績類別學生所受關鍵影響因素不同,并且學生期末成績與第1階段和第2階段歷史成績有很大關聯;

2) 提出的雙路注意力機制可以讓模型充分學習各屬性特征與成績間的關系信息,有效標識不同屬性特征對成績的重要程度,同時可以彌補普通注意力機制的不足,提升模型的預測能力;

3) 在2個公開數據集上驗證了模型的準確性和有效性,同時模型也具有良好的可解釋性.

1 相關工作

本節從學生成績預測分析、注意力機制研究2個方面介紹相關工作.

1.1 學生成績預測分析

學生成績與學生的表現以及所處的環境息息相關,利用教育數據挖掘技術在諸多潛在影響因素中挖掘出影響不同學生成績的關鍵因素,并對學生成績做出早期準確預測,對于實現學生的個性化指導以及提升教學成果具有重大意義.在過去的研究中,學生成績預測分析方法主要是基于統計和機器學習的傳統方法.Zhang等人[11]利用學生歷史成績和在校行為信息,運用樸素貝葉斯、決策樹、多層感知器和支持向量機等預測模型分別對學生成績進行預測,發現多層感知器模型的預測效果更好.Mueen等人[12]根據學生的歷史學習成績和論壇參與度,運用樸素貝葉斯、神經網絡和決策樹等數據挖掘技術來預測學生的學習成績,結果顯示樸素貝葉斯模型在此數據集上效果最好,預測準確度可達86%.Francis等人[13]將影響學生成績的特征因素劃分為人口統計特征、學術特征、行為特征以及額外特征4類,并提出一種將分類與聚類相結合的方法對成績進行預測,結果顯示綜合考慮學術特征、行為特征以及額外特征時得到的預測結果最好.謝娟英等人[14]通過對葡萄牙學生數據挖掘發現,學生的成績與學生所在學校、家庭住址、母親學歷、家庭有無網絡有極大相關性,與父親受教育程度、上學路上花費時間、想上大學、是否戀愛也具有一定的相關性.

以上研究在建模的過程中要么平等對待了所有因素對學生成績的影響程度,要么平等對待了不同成績層次的學生,并將所挖掘出的關鍵影響因素視為對所有學生的影響程度相同,忽略了學生的個體差異性,所構建的預測模型解釋性不強,且無法實現對學生的個性化分析與指導.

1.2 注意力機制

注意力機制最早應用于圖像處理領域[15],旨在使模型在訓練的過程中能夠高度關注指定的目標.注意力機制主要是模擬人的注意力[16],可以用人類生物系統來解釋[17].例如我們的視覺處理系統會根據我們的需求有選擇地聚焦于圖像中我們所感興趣的部分,而忽略其他不相關的信息,從而有助于我們感知到一些關鍵信息.深度學習中的注意力機制核心思想就是從眾多信息中選取對于當前任務目標更為關鍵的信息,根據其重要度不同對其賦予不同的權重.近年來,注意力機制在圖像處理[18]、自然語言處理[19]、語音識別[20]等領域廣泛應用.黃友文等人[21]提出了一種基于卷積注意力機制和長短期記憶網絡的圖像描述生成模型,解決了現有的基于卷積神經網絡和循環神經網絡搭建的圖像描述模型在提取圖像關鍵信息時精度不高而且訓練速度緩慢等問題.Cheng等人[22]將注意力機制應用到機器翻譯任務中,并提出了全局注意力和局部注意力2種機制,奠定了注意力機制在自然語言處理中的應用基礎.于重重等人[23]提出一種基于注意力機制的檢索式匹配問答方法,針對輸入的中文詞向量信息建立實體關注層模型并采用注意力機制算法,很好地解決了檢索式匹配問答模型對中文語料適應性弱和句子語義信息被忽略的問題.注意力機制在以上領域中的成功應用也為其在教育數據挖掘領域的研究提供了新的思路.

2 基于雙路注意力機制的成績預測模型

2.1 問題定義

給定一個學生特征集合M,M可由一系列的屬性特征attributes={x1,x2,…,xn}以及第1階段歷史成績G1及第2階段歷史成績G2表示,即M={attributes,G1,G2},其中n為屬性特征的數量.對于該學生,他的期末成績為yi,y={y1,y2,…,yc}為學生成績所劃分的類別集合.學生成績預測任務的目標就是根據給定的學生特征M,判定M的成績類別yi.

2.2 模型結構

本文旨在通過對教育數據的分析和挖掘,實現對學生期末成績的準確預測,并找出影響不同成績類別學生的關鍵因素,對學生進行個性化分析和指導.通過對數據進行統計分析,結果顯示學生前2個階段的歷史成績和期末成績的關聯性很大.結合學生屬性特征及兩階段歷史成績提出一種基于雙路注意力的成績預測模型(two-way attention, TWA),模型框架如圖1所示,TWA共包含3層:

1) 輸入編碼層.首先對各屬性值及歷史成績進行預處理,包括數值轉換、歸一化、分組等.在此基礎上,將離散的屬性值映射到高維的特征空間,生成各屬性的特征表示和歷史成績的特征表示.

2) 雙路注意力層.根據學生的各屬性特征和兩階段歷史成績特征,進行雙路注意力機制計算.分別得到各屬性基于第1階段成績的注意力得分β以及基于第2階段成績的注意力得分γ,利用兩路注意力得分進行屬性特征加權求和,得到能體現重要性程度的學生屬性特征f1與f2.

3) 標簽預測層.對學生屬性特征f1與f2進行特征融合,得到具有更豐富信息的最終特征f,從而進行更好的學生成績預測.

2.2.1 輸入編碼層(input embedding layer)

輸入編碼層主要是對各屬性值以及歷史成績進行預處理,并將其轉成向量表示.具體包括:

1) 數據預處理.為了便于模型的處理,根據屬性特征值的特點對數據進行預處理操作,包括對二元數據進行數字編碼轉換、數值歸一化、對成績進行分組等.年齡屬性和缺課次數相對于其他屬性取值比較大,為避免其對實驗結果的干擾,采用式(1)min-max歸一化方法將年齡和缺課次數標準化到[0,1].

其中,x*是年齡屬性或缺課次數標準化后的屬性取值,x為年齡屬性或缺課次數的原始取值,xmin為樣本數據的最小值,xmax為樣本數據的最大值.

g1=(g11,g12,…,g1k)T,

(3)

g2=(g21,g22,…,g2k)T.

(4)

2.2.2 雙路注意力層(two-way attention layer)

通過對各屬性特征和歷史成績進行編碼后,可以得到特征矩陣A和成績向量g1與g2.考慮到不同屬性特征對成績影響程度不同,因此所構建的學生成績預測模型需要學習不同屬性特征對于成績預測結果所起的關鍵性作用.同時,考慮到學生期末成績與前兩階段歷史成績有很強的關聯性,模型應能夠自動挖掘期末成績和歷史成績之間的內在聯系,從而進一步增強對學生期末成績預測的能力.因此,本文設計了雙路注意力機制,對學生期末成績的重要影響因素進行了建模.

雙路注意力層的目標是根據各屬性特征與前兩階段歷史成績間的關系信息,分別利用注意力機制為各屬性特征分配合適的注意力權重,從而解決了不同因素對學生成績的影響程度不同以及不同成績學生所受的關鍵影響因素也不同的問題.通過利用雙路注意力機制,可以實現更全面準確地利用這些屬性特征對學生成績進行預測.具體來說,本文采用多層感知器(multi-layer perceptron, MLP)操作來進行注意力權重計算,視特征矩陣A中的每一列向量Ai為對應位置屬性特征向量,即Ai=(a1i,a2i,…,aki)T,基于第1階段歷史成績向量g1,可以得到任意屬性特征Ai的注意力權重ui,具體計算過程為

ui=MLP([g1;Ai]),i=1,2,…,n.

(5)

同理,基于第2階段歷史成績向量g2,可以得到屬性特征向量Ai的對應注意力權重vi:

vi=MLP([g2;Ai]),i=1,2,…,n,

(6)

無特殊說明全文中[.;.]皆表示特征拼接操作.

用softmax函數對所得權重進行歸一化處理,分別得到各屬性特征在第1階段歷史成績上的注意力得分β=(β1,β2…,βn)以及第2階段歷史成績上的注意力得分γ=(γ1,γ2,…,γn),該過程可形式化表示為

(7)

(8)

其中,βi指第i個屬性特征在第1階段歷史成績上的注意力得分,γi指第i個屬性特征在第2階段歷史成績上的注意力得分.

將注意力得分向量β和γ分別與特征矩陣A中對應位置的屬性特征值進行加權求和,得到基于第1階段成績的學生屬性特征f1以及基于第2階段成績的學生屬性特征f2,具體計算過程為

(9)

(10)

2.2.3 標簽預測層(label prediction layer)

標簽預測層的主要任務是根據在雙路注意力層所得到的基于第1階段歷史成績的學生屬性特征f1以及基于第2階段歷史成績的學生屬性特征f2預測目標學生的成績類別.鑒于f1與f2的信息互補性,首先對兩者進行特征融合,以便更全面準確地利用這些屬性特征對學生成績進行預測.特別地,本文考慮了3種特征融合方式,分別是maxpooling,avgpooling和concatenation.

以maxpooling方式進行特征融合時,取相應位置最大值,該過程可以形式化表示為

f=max(f1i,f2i),i=1,2,…,k.

(11)

以avgpooling方式進行特征融合時,對各屬性特征對應位置的2個值求平均,該過程可以形式化表示為

以concatenation方式進行特征融合時,直接將學生屬性特征f1與f2進行拼接,該過程可以形式化表示為

f=[f1;f2].

(13)

式(11)~(13)中f1i指學生屬性特征f1中第i個元素,f2i指學生屬性特征f2中第i個元素,f為f1與f2進行特征融合后輸入分類層的最終特征.

隨后將融合后的特征f輸入MLP中得到分類結果.本文所使用的是一個3層全連接網絡,在2個隱含層中使用ReLU激活函數,輸出層使用softmax函數得到各成績類別的分類預測得分p.

p=MLP(f).

(14)

2.2.4 模型訓練

本文使用反向傳播算法來訓練網絡模型,用交叉熵作為分類損失,通過迭代求解損失值和隨機梯度下降來優化模型,使得損失函數的值收斂到最小.考慮到模型的復雜性,避免模型在訓練的過程中出現過擬合,本文引用了L2正則項對參數進行約束,故模型的最終損失函數為

3 實 驗

3.1 數據集

本文在student performance[24]中的葡萄牙語成績數據集(portuguese)以及數學成績數據集(math)中展開實驗.其中葡萄牙語成績數據集中的有效數據為649條,數學成績數據集中有效數據357條.2個數據集都包含有30個維度屬性特征信息,前兩階段歷史成績G1和G2以及期末成績G3,涉及13種二元數據,4種標稱數據以及16種數值數據.其中30維屬性特征信息以及前兩階段歷史成績作為輸入,期末成績類別為最終輸出目標,關于數據集描述如表1所示.(其中編號1~33分別指學校、性別、年齡、…、上課缺席次數、第1階段歷史成績、第2階段歷史成績和期末成績.)

Table 1 The Description of student performance Dataset表1 student performance數據集描述

針對上述各屬性特征包含信息的差異性,本文進一步對其進行類別劃分.如包含學生性別在內的學生基本信息、家庭主要監護人以及父母教育水平等家庭因素信息、學生的社交及消費情況、學生學習地址以及是否使用網絡在內的學習條件信息等,具體劃分結果如表2所示.

本文也探究了學生期末成績與歷史成績之間的關聯關系,結果如表3所示.通過對數據集進行數據統計分析,發現學生期末成績G3與前2個階段的歷史成績G1和G2具有很強的相關性.在葡萄牙語成績數據集(portuguese)中,學生期末成績與第1階段歷史成績保持一致的占67.35%,與第2階段歷史成績保持一致的占75.08%,與第1階段歷史成績和第2階段歷史成績至少有一個保持一致的占85.65%.由此可見,在葡萄牙語成績數據集中,學生期末成績與前2個階段的歷史成績具有很強的關聯性.對于數學成績數據集(math)也可以得到同樣的結論.

Table 2 Category of Each Attribute表2 各屬性特征分類

Table 3 Statistical Results on student performance Dataset表3 student performance數據集數據統計結果

本文所有實驗均按照8∶2比例劃分成訓練集和測試集,每次實驗用訓練集訓練模型并選擇最優參數,用測試集計算各項指標.

3.2 數據預處理

3.2.1 成績分組

在本文所選用的數據集中,G1,G2和G3分別表示第1階段歷史成績,第2階段歷史成績和期末成績,并且都是一種0~20的數值數據.由于本文中樣本數量的限制,通過對各個成績上的樣本數量進行統計分析發現,在某些成績上的樣本數量分布過少.通過觀察分析成績的數據分布并結合目前常用的成績等級劃分方法,將學生成績劃分為A,B,C,D這4個組別,用來區分不同的學生個體.其中,A組優秀:16~20分;B組良好:13~15分;C組中等:10~12分;D組不及格:<10分.分別對2個數據集中期末成績分布情況進行統計,統計結果如表4所示:

Table 4 The Statistical Results of Final Grade Distribution表4 期末成績分布統計結果

3.2.2 異常數據處理

通過對數據進行統計分析得知,2個數據集中的數據均沒有缺失值,但存在學生期末成績為0的情況.對此類數據進行進一步分析發現,當該生期末成績為0時,其缺席次數并不高而且前2個階段歷史成績也均處于正常水平,故將此種情況視為該生未參加期末考試,對其結果的預測也失去意義.因此,將期末成績為0的數據視為異常數據并對其進行刪除處理,保留剩余的634條葡萄牙語成績數據和357條數學成績數據,進行更進一步的數據挖掘分析.

3.2.3 評價指標

本文中除了預測準確率(Accuracy)外,還采用精確率(Precision)、召回率(Recall)和F1-Measure進行模型分類預測性能度量.Accuracy表示的是正確分類的樣本個數占整個樣本的比例,準確率越高表明預測越準確.Precision表示正確分類的正例個數占預測為正例總數的比例.Recall表示正確分類的正例個數占預測為正數的比例.F1-Measure是Precision和Recall的折中,F1-Measure值越高,分類效果越好[25].

其中,TP表示真實標簽為正例也被正確判定為正例;FP表示真實標簽為負例但是被錯誤地判定為正例;FN表示真實標簽為正例但未被正確地判定為正例;TN表示真實標簽為負例的未被判定為正例.

3.3 實驗參數設置

本文所提模型基于深度學習框架PyTorch展開實驗,優化器為隨機梯度下降SGD,其中batchsize=16,初始的學習率為0.01,模型迭代次數epoch=2 000,屬性類別數為30,初始化屬性特征維度為128維,即在式(2)中n=30,k=128.式(5)(6)中所用的是兩層全連接網絡,拼接特征進行256,32,1的特征維度變換.對于式(14)中的3層全連接網絡,當采用concatenation的方式進行特征融合時,特征進行256,128,64,4的特征維度變換,當采用maxpooling或者avgpooling時,進行128,128,64,4的特征維度變換,上述各全連接網絡隱含層之間采用的激活函數為ReLU.

3.4 實驗結果與分析

3.4.1 對比實驗

將本文所提出的基于雙路注意力機制的學生成績預測方法(TWA)同支持向量機[26](support vector machine, SVM)、邏輯回歸[27](logistic regression, LR)、高斯樸素貝葉斯[28](gaussion naive bayes,GaussionNB)、決策樹[29](decision tree, DT)等4種傳統的分類預測方法分別在student performance中的葡萄牙語成績以及數學成績這2個公開教育數據集中進行對比實驗,驗證本文提出方法的有效性.實驗結果如表5和表6所示.

Table 5 Performance on Portuguese表5 葡萄牙語數據集上的預測結果 %

Table 6 Performance on Math表6 數學數據集上的預測結果 %

從表5和表6的實驗結果可以看出,相比其他4種傳統的成績預測方法(GaussionNB,LR,SVM和DecisionTree),本文基于two-way attention的方法在2個公開教育數據集上均取得了最好的預測效果.在葡萄牙語成績數據集和數學成績數據集上的預測準確率可分別達到96.06%和95.77%,相比于最好的傳統方法Decision Tree分別提升了5.51%和2.81%.此外,在查準率(Precision)、查全率(Recall)以及F1-Measure這3個指標上也均有顯著性的提高.

對比實驗中的4種傳統機器學習方法預測準確率普遍不高,分析其原因可能為:傳統方法沒有針對特定的成績目標提取更多的特征信息,而是將各屬性特征直接作為分類特征輸入模型進行學習訓練,平等地對待了各屬性特征對期末成績的影響程度.而本文引入注意力機制,可以有區別性地對待各屬性特征的重要性.除此之外,與普通注意力機制不同的是,鑒于期末成績與前兩階段歷史成績的強關聯性,在模型中通過設計雙路注意力來挖掘出更多的隱藏信息并進行信息互補,有效彌補普通注意力機制的不足,從而大大提升了模型的預測能力,取得了較好的預測效果,實驗結果也證明了本文所提方法的有效性.

3.4.2 雙路注意力機制的消融研究

為了進一步驗證本文所提方法的有效性,在葡萄牙語成績數據集上進行了雙路注意力機制的消融研究,所有實驗均在融合方式為maxpooling下進行.實驗結果如表7所示,其中No_attention指的是模型完全不采用attention機制而平等對待所有屬性特征,即圖1中去掉Two-Way Attention Layer模塊,將Input Embedding Layer之后的屬性特征求平均,再與成績向量g1和g2求和,得到輸入分類預測層的特征f.G1_attention與G2_attention分別指的是單路attention的結果,即圖1中變為One-Way Attention而不考慮另一路的影響.可以得出:

1) 相較于G1_attention和G2_attention這樣的單路注意力機制以及TWA這樣的雙路注意力機制,No_attention的結果有了大幅度的下降,其中準確率相較TWA下降6.3%,這說明注意力機制能有效地學習不同屬性的相對重要性,相較于平等對待所有屬性特征的影響,能更好地提升模型的預測能力.

2) 通過比較G1_attention與G2_attention,可以發現后者預測能力更強,這說明近期的歷史成績與期末成績更相關,因此對期末成績預測更具備參考性,該現象也與表3所示的統計規律相一致.

3) 相較于單路注意力機制,本文所提的雙路注意力機制在各項評價指標上都有明顯的提升,就準確率而言,TWA相較G1_attention提升3.93%,相較G2_attention提升1.57%,這說明雙路具有一定的信息互補性,當進行雙路融合時,能進一步提升模型的預測性能.

Table 7 Ablation Study on Two-Way Attention Mechanism表7 雙路注意力機制的消融研究 %

3.4.3 雙路特征融合實驗

本文在葡萄牙語數據集上進行了模型變種實驗,比較不同特征融合方式(avgpooling,concatena-tion和maxpooling)對模型實驗結果的影響.實驗結果如表8所示:可以看出,按照maxpooling方式進行特征融合時的效果最好,預測準確率可達到96.06%.按照concatenation方式進行特征融合的效果次之,其預測準確率為95.28%,但較maxpooling融合方式下降了0.78%.按照avgpooling方式進行特征融合的預測準確率為93.70%,較maxpooling融合方式下降了2.36%.

Table 8 Results of Different Feature Fusion Ways on Portuguese表8 葡萄牙語中不同特征融合方式下的預測結果 %

由于特征融合方式的不同使得預測結果有些差異,分析其原因可能為:按照maxpooling方式進行特征融合時,各屬性特征中的更高注意力得分被保留,使得各屬性特征所表征的信息更加準確和全面,其預測效果最好.按照concatenation方式進行融合后的特征涵蓋了特征融合前的所有信息,其預測效果次之.而按照avgpooling方式進行特征融合時對各屬性特征所對應的注意力得分取平均,可能導致某些關鍵屬性特征的顯著影響力下降,使得該方式下的預測效果相對較差.此外,數據集的數據量也可能會對實驗結果造成一些影響.

3.5 可視化分析

為了挖掘出影響不同成績類別學生的具體因素,實現對學生的個性化指導,我們對不同成績類別中的各屬性特征進行了注意力結果可視化,更直觀地顯示出每個特征對成績預測結果的影響.通過對不同成績類別的學生進行分析來反映學生個體差異的情況.本文對學生葡萄牙語期末成績按照不同成績分組進行各屬性特征的注意力分布可視化分析.以avgpooling方式進行特征融合為例,可視化結果如圖2所示.其中橫坐標表示屬性特征編號且與表1數據集描述中的編號保持一致,縱坐標表示各屬性特征對應的注意力權重,圖中虛線表示注意力權重值為0.1.由于屬性特征的數量較多,根據各屬性特征的概率分布情況,本文將注意力權重大于0.1的屬性特征視為學生期末成績的關鍵影響因素.

分析圖2可知,對于期末成績類別為A的學生而言,屬性特征24(家庭關系)和8(父親受教育程度)是影響他們成績的關鍵因素,其中家庭關系的影響最為顯著,其所占比重已經超出50%,說明良好的家庭關系是取得優異成績的關鍵.其次,屬性特征26(和朋友外出次數)以及29(自身的健康狀況)也對該類別的學生成績有一定的影響.

Fig. 2 The attribute probability distribution on each grade group圖2 各成績分組上的屬性概率分布

對于期末成績類別為B的學生而言,其成績所受的影響因素種類比較多.其中,屬性特征14(一周內學習時長)以及19(是否參加課外活動)是影響他們成績的關鍵因素,說明學習時間的投入以及適當的課外活動對他們是很有必要的.此外,屬性特征7(母親受教育程度)、8(父親受教育程度)、11(選擇學校原因)、12(監護人)、13(上學路上花費時間)、16(學校對教育的額外支持)、18(是否補課)、24(家庭關系)、25(課余時間)、26(和朋友外出次數)、27(工作日是否飲酒)、28(周末是否飲酒)、29(自身健康狀況)等也對其成績有不同程度的影響.

對于期末成績類別為C的學生而言,屬性特征7(母親受教育程度)、10(父親工作)、25(課余時間長短)、以及29(自身健康狀況)是影響他們成績的關鍵因素.其次,屬性特征8(父親受教育程度)、9(母親工作)、11(選擇學校原因)、12(監護人)、13(上學路上花費時間)、14(一周內學習時長)、24(家庭關系)、26(和朋友外出次數)、27(工作日飲酒情況)、28(休息日飲酒情況)等對成績也有一定的影響.

對于期末成績類別為D的學生而言,屬性特征4(家庭住址)、9(母親工作)、10(父親工作)、11(選擇學校原因)、25(課余時間)以及29(自身的健康狀況)均為影響期末成績的關鍵因素,屬性特征7(母親受教育程度)也對其成績有些許影響.

通過對不同成績類別學生所受的影響因素進行挖掘后可知,在30種屬性特征中,有15種屬性特征對學生期末成績存在影響,其所屬類別如表9所示:

Table 9 Category of the Key Attributes表9 重要屬性特征分類

對表9中各屬性類別所包含的屬性特征數量進行統計分析可知,在15種關鍵影響因素中,家庭因素類別中占有6種,所占比重可達40%.學生表現類別占33.3%,學習條件類別占20%,基本信息類別占6.7%.由此可見,家庭因素信息以及學生表現是影響學生成績的重要因素,不容忽視.

為實現對學生的個性化分析與指導,本文對所挖掘出的對學生期末成績存在影響的15種屬性特征進行注意力得分可視化,可視化結果如圖3所示.圖3中橫坐標表示各屬性特征,縱坐標表示各屬性特征所對應的注意力權重.

Fig. 3 The influence of each attribute on different grades圖3 各屬性特征對不同成績的影響

通過對不同成績類別學生進行個性化分析,從中發現的主要現象和結論為:

1) 從圖3的結果可以觀察到,在家庭因素中,成績類別為A和B的學生受父親所受教育程度的影響比較大,而成績類別為C和D的學生受父母親工作影響比較大.我們推測出現這樣的結果是因為父親受教育程度不同,其教育理念有很大差異,對孩子學習有著直接的影響.父母作為孩子的第一任老師,由于工作原因對孩子陪伴及教育的缺失也會影響孩子成績.家庭關系對成績類別為A的學生影響尤其顯著,對成績類別為B,C,D的同學影響不明顯.可能是因為A類學生已經具有豐富的知識儲備和良好的學習習慣,家庭關系的好壞對其學習情緒和學習狀態有直接的影響,相對于其他因素而言,該因素更為重要.

2) 在學生自身表現方面,學生選擇學校的原因與學生成績關聯性比較大,成績越差,其所占比重越大,說明學習動機對學生成績有著直接影響.一周內學習時長對成績類別為B和C的學生影響比較大,而對成績類別為A和D的學生影響甚微,說明在學習上的時間投入是很有必要的.是否參加課外活動對成績為B的學生影響較大,而對其他學生影響不明顯.課后自由時間對成績類別為A的學生幾乎無影響,而對另外3種類別學生的影響程度呈現出上升趨勢.我們推測可能對于成績好的學生而言,課余時間對他們成績的提升并不是特別重要,相比較而言,其他的行為特征屬性可能更重要一點.

3) 就學習條件對不同成績的影響而言,家庭住址對成績類別為D的學生影響非常明顯,我們推斷出現這樣的結果是因為家庭經濟條件的影響.上學路上花費時間對成績類別為B的學生影響較大,而對其他成績類別的學生影響甚微.補課只對成績類別為B的學生有較為顯著的影響,這也說明補課并不是對所有學生都是必要的.

4) 此外,學生成績越差,自身健康狀況對其成績的影響程度越大.我們推斷出現這樣的結果可能是因為身體不舒服而導致參加考試時不能夠正常發揮.

4 總 結

學生成績預測是近年教育數據挖掘領域的一個研究熱點,也是進行學習分析的重要目標之一.本文針對目前相關研究中沒有考慮到不同因素對同一學生成績的影響程度不同,而且不同學生受同一因素的影響程度也不同等問題,提出了一種基于雙路注意力機制的學生成績預測模型.首先,該模型可以實現對離散屬性特征變量輸入的處理.其次,模型設計了雙路注意力機制有效地學習不同屬性特征的相對重要性并通過特征融合進行信息互補,使得模型預測能力更強.最后,在葡萄牙語成績和數學成績這2個公開教育數據集上的大量實驗結果表明,本文所提出的基于雙路注意力機制的學生成績預測模型均取得了最好的預測效果,充分證明了模型在學生成績預測問題上的有效性.

未來的研究工作中,可以對于不同特征之間的組合或者更高階的特征對成績預測結果的影響上進行更多地考慮和設計.

猜你喜歡
特征影響模型
一半模型
是什么影響了滑動摩擦力的大小
哪些顧慮影響擔當?
當代陜西(2021年2期)2021-03-29 07:41:24
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
擴鏈劑聯用對PETG擴鏈反應與流變性能的影響
中國塑料(2016年3期)2016-06-15 20:30:00
主站蜘蛛池模板: 九色在线视频导航91| 91蜜芽尤物福利在线观看| 欧美精品1区| 1769国产精品免费视频| 亚洲第七页| 国产美女无遮挡免费视频| 亚洲欧洲自拍拍偷午夜色| 久久精品中文无码资源站| 丰满人妻一区二区三区视频| 在线国产综合一区二区三区| 精品国产网| 中文字幕 91| 国产网友愉拍精品| 成人欧美日韩| 无码高潮喷水专区久久| 毛片在线看网站| 亚洲国产综合自在线另类| 色国产视频| 欧美成人免费一区在线播放| 日本人妻丰满熟妇区| 亚洲成A人V欧美综合| 中文字幕永久视频| 久久精品aⅴ无码中文字幕 | 亚洲三级影院| 亚洲欧洲日本在线| 国产无人区一区二区三区| 小蝌蚪亚洲精品国产| 中国特黄美女一级视频| 色香蕉网站| 人人爽人人爽人人片| 欧美一级大片在线观看| 国产精品久久精品| 日韩无码视频播放| 呦系列视频一区二区三区| 国产视频久久久久| 免费一级大毛片a一观看不卡| 亚洲一区网站| 精品一区二区三区视频免费观看| 亚洲国产高清精品线久久| 天天色天天操综合网| 婷婷色在线视频| 国产91精品久久| 天天综合亚洲| 视频二区亚洲精品| 色综合久久综合网| 四虎在线观看视频高清无码| 成人一区专区在线观看| 日本精品一在线观看视频| 美女无遮挡免费网站| 亚洲资源站av无码网址| 男女性色大片免费网站| 99激情网| 波多野结衣无码中文字幕在线观看一区二区| 麻豆国产精品视频| 少妇精品网站| 久久青草免费91线频观看不卡| 国产精品亚欧美一区二区| 日韩麻豆小视频| 久久婷婷综合色一区二区| 国产精品19p| 亚洲精品欧美重口| 久草视频精品| 国产拍在线| 日韩 欧美 小说 综合网 另类| 欧美日韩国产高清一区二区三区| 91国语视频| 亚洲an第二区国产精品| 久久国语对白| 2022国产无码在线| 国产尹人香蕉综合在线电影| 亚洲无码一区在线观看| 99久久精品免费看国产电影| 国产麻豆精品久久一二三| 重口调教一区二区视频| 欧美激情成人网| 欧美日本在线观看| 亚洲精品视频免费| 久久青草精品一区二区三区| 国产美女视频黄a视频全免费网站| 91免费国产在线观看尤物| 免费xxxxx在线观看网站| 六月婷婷激情综合|