許惠惠
(山西藥科職業學院器械工程系,太原 030031)
隨著信息技術和大數據時代的到來,數據驅動的決策在教育領域中受到極大的關注。學生學習畫像可以提供有關學生學習習慣、人際關系、家庭背景等方面的信息,有助于教育工作者深入了解學生的需求,從而提供更為個性化的教育方案[1-3]。本研究旨在探討多維數據在學生學習畫像中的應用,利用多種數據挖掘技術,綜合分析影響學生學習能力的因素,并嘗試通過學生的多種學習屬性構建學生的全方位學生學習畫像。
數據挖掘是一種從大規模、復雜的數據集中提取有用信息、知識和規律的過程。這種技術結合統計學、機器學習、人工智能等多種方法,對原始數據進行處理、歸納和挖掘,為決策者提供有價值的參考依據[4]。利用這種技術,教育工作者可以更精確地評估學生的學習需求,建立相應的學生畫像,從而為他們提供個性化的教育支持。
學生學習畫像的構建具有重要的實際意義,它可以幫助教師發現學生的潛在問題,及時調整教學策略,提高教學質量。同時,學生學習畫像還可以為學生提供有針對性的學習資源和建議,促進他們的自主學習[5]。然而,構建一個有效的學生學習畫像并非易事,需要考慮諸多因素,如個性特征、家庭背景、社會經歷等[6-7]。因此,本研究通過收集大量學生數據,分析這些因素與學生習慣的關系,為構建學生學習畫像提供參考。
本研究共收集了273 名學生的調查問卷數據,包括五個方面的屬性信息:人際關系、個性特征、家庭背景、社會經歷和健康狀況,以及五個維度的學習習慣主題問題。通過對這些數據的分析,我們將提取與學生學習習慣相關的背景特征,并嘗試利用數據挖掘方法探索學生各維度信息對學習習慣的影響,從而構建學生學習畫像。
本研究旨在基于多維特征提取構建學生學習畫像并預測學生學習習慣類型,最終構建不同類型的學習習慣類型學生畫像。在此部分中,將詳細闡述研究方法,包括數據收集、問題定義以及模型構建。
首先,為了獲取學生的多維背景信息數據,本研究設計了一份涉及學生五個背景領域的調查問卷,共計收集了273 名學生的相關信息。調查問卷包含人際關系、個性特征、家庭背景、社會經歷和健康狀況五個方面的屬性特征,這五個屬性特征與學習習慣和學生學習畫像之間的關系如圖1所示。

圖1 學生學習畫像屬性圖
其中每個屬性含有三個具體的衡量指標,見表1。我們選擇這五個屬性是因為它們通常被認為是影響學生學習習慣的重要因素。例如,學生的人際關系和社會經歷可能會影響他們的團隊合作能力和社會適應性;個性特征可能會影響他們的學習方式和動機;家庭背景可能會影響他們的學習環境和資源;而健康狀況則可能影響他們的學習效率和持久力。因此,這五個方面的信息為我們提供了學生學習畫像的全面視角。

表1 調查問卷樣例格式
同時為了對學生學習習慣做一個綜合全面的描述和評分,我們還設計了一份用于統計學生學習習慣的調查問卷,見表2,該調查問卷主要從五個方面對學生的學習習慣進行刻畫,以多個維度來評估學生的學習情況。

表2 學生學習習慣調查問卷
本研究中,我們將學生畫像中的學生學習習慣類型作為衡量學生學習畫像的一項主要指標,將上述統計中學生五個方面的背景信息(人際關系、個性特征、家庭背景、社會經歷和健康狀況)作為影響學生學習習慣的因素。將學習習慣類型預測作為一項分類任務,目的是確定學生的哪些因素指標對學生學習能力的影響較高。在實驗設計中,每個學生會有以上五維的表征向量,每個向量中包含三個衡量指標分數,標簽即為學生的學習習慣類型,學習習慣類型預測任務定義如下:
問題定義:給定學生S的五維表征向量,見公式(1):
其中:si表示五個主要因素的指標得分,xi代表每個因素下的具體指標,如人際關系中的朋友圈子數量、社交活動頻率和團隊合作能力評分等。
學生的學習習慣類型為y∈{1,2,3,4,5} ,分別對應{A,B,C,D,E}不同的學生學習類型,這五種類型由表2 中的學習習慣調查問卷得出,主題包括學習時間管理、學習方法、學習動機、學習環境、學習壓力和應對策略等。
學生的學習習慣類型預測任務可以被描述為學習一個映射函數:
其中:A是映射矩陣,y是學生的學習習慣類型。預測問題為一項分類任務,目標是預測特定學生畫像下的學習習慣類型。
本文目標是從各項背景指標中挖掘出與學生學習習慣具有較強關聯的指標,這些指標將作為后續針對學生課程設計和學習習慣加強的關鍵依據。
為了從多維數據中提取與學生學習習慣相關的特征,本研究采用了支持向量機(support vector machine,SVM)和K 近鄰(K-nearest neighbors,KNN)算法并行地提取處理調查問卷中的五個主要因素:人際關系、個性特征、家庭背景、社會經歷、健康狀況,將相關指標作為輸入,提取出與學生學習習慣類型高度相關的特征表征。
例如,對于人際關系因素,本方法將朋友圈子數量、社交活動頻率和團隊合作能力評分這三個屬性輸入到SVM 和KNN 模型中,生成特征表征。同樣的方法也被應用到其它四個因素的處理上。
這些特征表征被融合起來,作為學生的綜合特征表示,這個向量代表了學生在各因素上的表現和屬性的組合。隨后將其輸入到多層感知機(multilayer perceptron,MLP)模型中,MLP模型會根據這個綜合特征向量預測學生的學習習慣類型。
這一研究設計旨在通過SVM 和KNN 對各因素的詳細處理,以及MLP 對各因素關系的深度理解,實現對學生學習習慣的準確預測和理解。以期通過這種方法提供一個準確和有深度的理解學生學習習慣類型的方式。本研究的模型如圖2所示。

圖2 模型結構
1.3.1 基于支持向量機的特征提取
支持向量機(SVM)是一種監督學習方法,主要用于分類和回歸任務[8]。SVM 算法的基本思想是找到一個最優超平面,將不同類別的樣本盡可能地分開[9]。在本研究中,由于學生不同特征屬性之間關系很難直觀被發現,所以在我們的應用中,SVM 主要用于處理調查問卷中關于學生個性特征和家庭背景的問題,比如學習動機評分、時間管理能力評分、家庭經濟狀況、父母教育水平等,這些特征在高維空間中的分布可能會影響學生的學習習慣類型。我們使用SVM 對學生的原始數據進行特征豐富,進一步提升學生的特征維度,有益于后續模型從中學習到關于不同表征之間的關系。SVM 通過構建最大間隔超平面,提取出對預測任務具有較高貢獻的特征[10]。
SVM 模型的輸出特征向量是從特征提取后的數據中得出的,使用多項式核函數的計算如公式(3)所示:
其中:xi為訓練樣本的特征向量,yi為樣本的標簽,αi為對應樣本的拉格朗日乘子,b為偏置項,c和d是多項式核函數的參數,最終得到樣本同學的基于支持向量機的特征表征向量。
1.3.2 基于KNN的特征提取
K 近鄰(KNN)算法是一種基于實例的學習方法,同樣可用于分類和回歸任務[11]。KNN 算法的核心思想是根據一個樣本在特征空間中距離最近的K個鄰居的類別來確定該樣本的類別[12]。KNN 能夠處理調查問卷中關于學生人際關系的問題,比如朋友圈子數量、社交活動頻率等,還可以處理調查問卷中關于學生社會經歷的問題,比如志愿者活動次數、兼職經歷次數等。這些特征在局部空間的相似性可能會影響學生的學習習慣類型。KNN通過計算樣本間的距離并分析鄰近樣本的類別,找出具有較強預測能力的特征[13]。本研究中,我們使用歐幾里得距離度量方法,對應的計算如公式(4)所示:
其中:xi為學生i輸入的樣本特征,yi為學生i對應的習慣類型。
1.3.3 多層感知機
多層感知機(MLP)是一種前饋神經網絡,我們使用四層(輸入層、兩個隱藏層和輸出層)網絡的結構。MLP 可以用于解決復雜的非線性問題,并廣泛應用于分類和回歸任務[14-16]。在預測階段,我們將SVM 和KNN 提取的特征拼接,并輸入到MLP模型中。MLP通過激活函數、權重更新和反向傳播算法,在訓練過程中學習到最優的權重參數,從而實現對學生學習習慣類型的預測。
我們首先初始化參數,包括隱藏層和輸出層的權重和偏差,然后對于每個學生,將其輸入向量饋送到網絡中,計算輸出,隨后計算輸出和真實標簽之間的誤差,使用誤差來調整模型參數。其中每個隱藏層和輸出層,計算加權和激活函數如公式(5)所示:
其中:W為權重矩陣,B表示偏置,f是ReLU激活函數。
進而計算輸出層的誤差,使用交叉熵損失函數,如公式(6)所示:
其中:N是樣本數;y是真實標簽;y′i是預測值。
本研究通過對多維特征進行分析,構建了一個有效的學生學習習慣類型預測模型。該模型能夠較好地預測學生的學習習慣類型,并為教育工作者提供有益的信息,以便更好地理解學生的學習狀況和需求。
在實驗參數設置方面,我們為支持向量機(SVM)選擇了多項式核函數,參數C 設為1,參數γ設為0.1。對于K 近鄰(KNN)算法,我們設定鄰居數量(K)為5,并采用歐氏距離作為距離度量。對于多層感知機(MLP),我們將輸入層節點數設置為與拼接后的特征數量相等,隱藏層節點數為128,輸出層節點數與學習習慣類型類別數量相等。
本文使用Python 3.7.9作為主要的編程語言,并在Ubuntu 20.04 LTS 系統上運行實驗。使用的主要Python 庫包括NumPy 1.18.5、Pandas 1.0.5、Matplotlib 3.2.2、 scikit-learn 0.23.1 和PyTorch 1.13.0。實驗運行在一臺Intel(R)Core(TM)i7-9700K CPU的計算機上,配備了16 GB的內存和四塊NVIDIA GeForce RTX 2070顯卡。
為了評估提出的方法在預測學生學習習慣類型方面的性能,我們使用準確率、精確率、召回率和F1 分數等指標對分類結果進行評估,指標的數學描述如下。
準確度如公式(7)所示:
精確度如公式(8)所示:
召回率如公式(9)所示:
F1分數如公式(10)所示:
其中:TP表示真正例(true positive),TN表示真負例(true negative),FP表示假正例(false positive),FN表示假負例(false negative)。
根據本研究的實驗結果,我們得到了模型的準確率、精確率、召回率和F1 分數。此外,本文還引入了三種經典的對比方法,分別為決策樹(decision tree,DT)、隨機森林(random forest,RF)和邏輯回歸(logistic regression,LR)。表3是各模型的結果對比。

表3 模型結果對比/%
從表3 可以看出,本研究所提出的模型在準確率、精確率、召回率和F1 分數等指標上均優于其他三種對比方法。這說明我們的模型在預測學生學習畫像中的學習習慣類型方面具有較高的性能,表現出較好的穩定性和泛化能力。同時,這也證實了將SVM、KNN 和MLP 結合使用的方法在學生學習習慣預測任務上具有一定的優勢。
為了深入了解五個指標(人際關系、個性特征、家庭背景、社會經歷、健康狀況)對學生學習習慣的影響,我們對每個不同學習習慣進行了分析,其混淆矩陣如圖3 所示,可以發現本文模型對學習習慣最佳(標簽為1)的學生群體預測準確率最高,對學生學習習慣中等(標簽為2)的學生預測準確率最低。

圖3 結果混淆矩陣

圖4 時間管理型學生畫像

圖5 探索式學習型學生畫像

圖6 熱情驅動型學生畫像

圖7 環境適應型學生畫像

圖8 壓力應對型學生畫像
我們進一步對模型中的權重進行了分析。權重分析能夠幫助我們量化各個背景屬性對學生學習習慣的影響程度。通過對本研究中學習習慣和背景屬性的綜合分析,我們發現以下規律:
(1)個性特征:在五個指標中,個性特征對學生學習習慣的影響最大。這可能是因為學習動機、時間管理能力等因素直接影響學生的學習效率和學習習慣。具有較高學習動機和良好時間管理能力的學生在學習過程中更有目標性,從而形成更好的學習習慣。
(2)家庭背景:家庭背景在五個指標中對學生學習習慣的影響排在第二位。家庭經濟狀況、父母的教育水平,以及家庭對學習的支持程度等因素可能間接影響學生的學習資源、學習環境和心理壓力。在一個有利于學習的家庭環境中成長的學生往往能更好地專注于學業,從而形成較好的學習習慣。
除了研究學生的背景信息對學生學習習慣的影響外,我們進一步根據不同的學生學習主題進行了學生畫像的分類,以下是五種不同類型的學生畫像及其所對應的不同的學習習慣類型和特點。
(1)時間管理型學生畫像:這類學生的學習時間管理能力強,他們能有效地規劃和利用自己的時間,對于完成學習任務和準備考試有著出色的策略。他們通常對自己的時間表有嚴格的掌控,且往往在時間管理上展現出顯著的自律性。
(2)探索式學習型學生畫像:這類學生的學習方法傾向于探索和實驗,他們善于尋找和試驗新的學習方法,以提高學習效率和理解能力。他們樂于接受新的觀念和思維方式,以及積極探索未知的領域。
(3)熱情驅動型學生畫像:這類學生具有強烈的學習動機,他們對學習充滿熱情和興趣,能夠主動并積極地進行學習。他們對學習的熱情驅使他們在面對困難時堅持下去,激發他們不斷進步的動力。
(4)環境適應型學生畫像:這類學生對學習環境有較高的適應能力,無論是在安靜的圖書館還是在嘈雜的咖啡廳,他們都能保持良好的學習狀態。他們能夠利用各種環境資源,靈活調整自己的學習方式和習慣。
(5)壓力應對型學生畫像:這類學生對學習壓力有出色的應對策略,他們能有效地管理和減輕學習壓力,保持良好的學習心態。他們明白壓力是學習過程的一部分,并已學會如何將其轉化為推動自己前進的動力。
本研究致力于揭示學生的五個核心維度——人際關系、個性特征、家庭背景、社會經歷以及健康狀況對學生學習習慣的影響,并通過多維度特征分析來預測學生的學習習慣類型。實驗結果證明,本文模型在預測準確率、精確率、召回率以及F1 分數等關鍵指標上,相較于決策樹、隨機森林和邏輯回歸等常見方法,展現出更高的預測性能。此外,根據學生的學習習慣類型,我們成功繪制了五種不同的學生學習畫像:時間管理型、探索式學習型、熱情驅動型、環境適應型和壓力應對型。
未來的研究應重點關注如何更有效地利用這些畫像來實施個性化教育,特別是如何通過改變環境和教學方式來改善學生的學習習慣。此外,我們還需進一步探討不同學生畫像之間的動態變化,以及學生畫像與其學術成績的關聯。
總體而言,本研究不僅提供了一種有效的方法來預測學生學習習慣,還為理解和改善學生學習過程提供了有益的理論支撐,開啟了學生畫像研究的新篇章。然而,我們仍需要在更大規模和更多元化的樣本上進一步驗證和改進模型的有效性和穩定性,以便更深入地理解學生的學習習慣,并更好地指導教育實踐。