基于RapidMiner 決策樹的學生學習策略預測分析

2024-06-26 04:25:04孫振華

電腦知識與技術 2024年14期

孫振華

摘要：文章利用RapidMiner工具決策樹算法，對學生學習策略進行預測分析，并從中找到有價值的信息。通過對學習策略數據集的預處理、模型選擇和模型評估等步驟，獲得了一個準確率較高的決策樹模型。該模型對學生的學習策略進行了分類，并揭示了不同分類和成績之間存在的關聯。實驗結果表明，決策樹算法在學習策略預測方面具有較高的價值，并為教育工作者提供了指導學生學習策略的新方法。

關鍵詞：數據挖掘；RapidMiner；決策樹；學習策略

中圖分類號：TP311 文獻標識碼：A

文章編號：1009-3044（2024）14-0070-03 開放科學（資源服務）標識碼（OSID）：

0 引言

如何提高學生的學習成績是教師和家長普遍關心的問題。除了正確的學習方法、端正的學習態度、良好的學習習慣，學習策略也是影響其學習成績和學習效果的重要因素之一。以鎮江高職校信息工程系專業為例，學生的學習除課堂教學外，還包括課前預習、課后復習、網絡學習平臺中的微課、模擬仿真、在線自測等。然而，不同的學生學習策略不相同，取得的成績也不同。為了更好地進行研究，隨機選取信息系物聯網專業22級的30名學生，通過問卷調查收集學生一個月以來的學習策略數據，并進行研究前后兩次難度相當的綜合測試。根據學生兩次測試成績的變化來判斷學習策略是否有效果。利用RapidMiner 工具進行數據挖掘，對學習策略進行預測分析，探究不同學習策略對學習成績的影響。

1 數據分析及算法選擇

數據分析是數據挖掘中數據準備過程的重要一環，是數據預處理的前提[1]。學習策略數據通過前期的問卷星調研形成數據集，并導出為Excel表格。表格字段包括序號、姓名、性別、課前、課后復習等6項。另外，研究前的原始成績、對比成績也錄入表格中。在數據集中，序號、姓名、性別以及兩次測試的成績不屬于學習策略，而兩次成績前后的差異作為預測目標，判斷學生是否進步還是無進步。所以在后續的數據預處理階段，應將序號、姓名、性別字段去除，將兩次成績進行比對、生成一個新列存放“進步”或“無進步”。在算法選擇方面，由于數據集呈現離散化特征，可歸納為分類問題，選擇RapidMiner決策樹中的ID3 算法相對合適。ID3算法以信息增益為指標判別決策樹各層次節點上數據的特征屬性[2]。信息增益越高，意味著劃分后的子節點純度越高，對于分類的貢獻越大。因此，ID3算法須選擇信息增益最大的節點作為父節點[3]。ID3算法對于小型數據集的處理有著較高的計算效率，在小型數據集上運行速度較快。

2 RapidMiner 數據挖掘過程

2.1 數據預處理

數據預處理是數據挖掘中的重要步驟，主要包括數據清洗、數據集成、數據變換、和數據規約。數據清洗可以將數據集中的異常數據，如空值、重復值、缺失值等進行處理；數據集成可以將多個數據集整合成一個數據集；數據變換可以將數據進行離散化、標準化等轉換；數據規約可以對大數據集進行精簡，保證數據完整性的基礎上形成規模更小的新數據集。在學習策略數據集中，數據較為規范，只需對數據進行清洗、變換即可滿足算法要求。具體操作如下：1）導入數據。打開RapidMiner，新建一個空白流程（Process），點擊存儲區域（Repository）中的“Import Data”按鈕，選擇學習策略數據集導入存儲區。2）生成新屬性列。將數據集拖入到流程中，選擇算法區（Operators）中的生成屬性“Generate Attributes”算子，將數據集out端連接“Generate Attributes”算子的exa端。打開“GenerateAttributes”算子的編輯參數列表對話框，在生成的新列中輸入“結論”，函數表達式中輸入“if（[對比成績]>[原始成績]，"進步"，"無進步"）”。通過“Generate Attri?butes”算子生成的新屬性列，能將兩次成績對比并進行變換，生成“進步”和“無進步”兩類，實現成績數據的離散化。3）去除無用列。在算法區中拖入“SelectAttributes”算子到流程中，連接“Generate Attributes”和“Select Attributes”算子的exa 端。雙擊“Select Attri?butes”算子打開選擇屬性對話框，在左側屬性列表中選擇需要到的屬性至右側列表。算子的編輯，如圖1 所示。

2.2 模型建立

數據預處理完成之后，進入到建模階段。本實驗采用的ID3算法的決策樹模型，按照分類準則（如信息增益、基尼指數等）從數據集所有可選屬性列中選擇一個最佳的屬性，作為當前節點，將數據集分成多個子集，對于每個子集，重復上述步驟直至滿足終止條件。決策樹模型與一般統計方法中的分類模型的主要區別在于決策樹的分類是基于邏輯的分類，而一般統計方法的分類模型是基于非邏輯的分類[4]。在決策樹模型中通常存在兩類變量：一類是自變量（也稱特征或屬性），另一是因變量（也稱目標變量），通過自變量的分類來預測結果。在RapidMiner 算法區中的“Attri?butes”和“Trees”列表中，分別找到“set role”算子和“ID3”算子并拖入至流程中，連接“Select Attributes”算子和“set role”算子的exa 端、“set role”算子的exa端和“ID3”算子的tra 端，最后將“ID3”算子的mod 端連接res 輸出端。“set role”算子用來設置數據集中屬性的角色，在編輯參數列表中，將“ 在線自測”“學習時間”“微課學習”等屬性設置為自變量“regular”角色，將“結論”設置為因變量“label”角色，并建立流程，如圖2 所示。

2.3 模型分析及評估

模型建立完成后，點擊RapidMiner 工具欄中的“運行”按鈕，決策樹模型開始構建，并在“Re?sults”面板中輸出結果。在決策樹中，包含了各個節點以及判斷條件，如圖3所示。圖中每一個矩形方框表示一個節點，箭頭表示分支，葉子節點表示預測結果。可以看出，決策樹的根節點為“課前預習”，根據“已預習”和“未預習”進行分支，“模擬仿真”和“問題匯總”分別作為它的子節點，然后再根據條件進行分支直到葉子節點。從決策樹的根節點出發，沿著某個箭頭逐步走到葉子節點，即為該條分支的預測結果。例如，已進行“課前預習”已進行“模擬仿真”的學生容易進步；已進行“課前預習”未進行“模擬仿真”但“學習時間”大于2小時的學生容易進步。

模型評估就是評估算法模型對挖掘分析和預測結果的準確性影響，根據預測結果是否在置信區間、誤差是否可以接受，判定結果是否達到目的[5]。在本實驗中，由于學習策略數據集來自一個班30名學生的數據，數據規模較小、數據分布不均勻、容易產生過擬合的情況，因此采用交叉驗證的方式對模型進行評估，并連接Performance算子查看模型的性能指標，如準確率、精確率、召回率等。在RapidMiner算法區中的驗證（validation）列表下找到“Cross validation”算子并拖入流程中，“Cross validation”算子exa端連接預處理后的數據集，per端連接res輸出端。雙擊“Cross validation”算子進入子流程配置，在子流程的訓練集（Training）和測試集（Testing）中分別添加“ID3”“Apply Model”“Perfor?mance”算子并進行連接，如圖4所示。

其中，左側決策樹模型通過訓練樣本進行訓練，右側是對模型進行測試，并進行評估。在訓練過程中“Apply Model”算子將訓練好的模型應用到測試樣本中進行預測，并用“Performance”算子評估模型性能。為了更準確地評估模型，設置“Cross validation”的折數（number of folds）為10，即數據集分成10個部分，其中9個部分用于訓練模型，另一個部分用于測試模型，每次使用不同部分重復10次測試。點擊“運行”，評估結果如圖5所示。從圖中看到，對“進步”預測的準確率約為82.35%，對“無進步”預測的準確率為84.62%，平均準確率為83.33%。

3 預測結果對學習策略的指導

預測結果可以揭示哪些學習策略對成績的提升相關性較高、哪些策略對成績提升無幫助。基于這些結果，教師可以向學生推薦使用效果良好的學習策略，鼓勵學生積極進行課前復習、參與模擬仿真實驗、有意識地進行問題匯總、合理規劃學習時間等。通過定期分析預測結果，教師可以了解學生的學習情況是否符合預期，是否需要調整學習策略。要注意的是，預測結果只是一種參考，能幫助教師和學生更好地了解學習情況，但不能完全取代教師和學生的判斷和決策。在實際工作中，仍需要綜合考慮其他因素制定適合學生特點的學習策略。

4 結束語

在本次實驗中，采用了RapidMiner 決策樹模型對學生學習策略進行數據挖掘和建模預測分析，使用交叉驗證方法進行評估，得到了平均準確率約為83.33% 的預測結果。這表明決策樹模型在學生學習策略預測方面具有一定的可靠性和有效性。當然，預測結果只是學生學習策略制定的輔助工具，教師需要從多方面綜合考慮，制定最適合的學習策略，提升學生成績和學習效果。

參考文獻：

[1] 李冠利.基于RapidMiner數據挖掘技術的NCRE成績預測分析[J].南京廣播電視大學學報，2018（4）：80-82.

[2] 吳金桃，丁鑫龍.基于ID3決策樹算法高校經管類虛擬仿真實驗平臺[J].佳木斯大學學報（自然科學版），2023，41（6）：48-51.

[3] 陳韜宇，安海燕，陳杰.基于ID3算法對農民工城市融入影響因素分析[J].軟件工程，2023，26（10）：45-48.

[4] 馬月.數據挖掘技術在教育信息化中的應用研究[D].西安：西安郵電大學，2014：38.

[5] 劉文開，焦飛.基于RapidMiner的校園一卡通數據挖掘與預測[J].電腦知識與技術，2021，17（28）：34-36.

【通聯編輯：聞翔軍】