劉 純
(湖南安全技術職業學院,湖南 長沙 410151)
在線學習已經融入教育領域中[1]。學習者的在線行為數據(例如行為模式、偏好和學習難點),為教育研究和實踐提供了寶貴的數據資源。因此,基于大數據環境的在線學習行為分析模型研究成為教育領域的研究熱點,旨在挖掘這些數據中隱藏的知識,為學習者提供個性化的學習支持和優化的教學策略[2]。然而,在線學習行為分析模型的構建和研究面臨多重挑戰。首先,海量的在線學習行為數據必須進行采集和存儲,以保證數據的質量和完整性。其次,數據預處理和特征提取方法是構建準確模型的關鍵步驟,需要考慮數據的維度、特征選擇和處理方法等問題。此外,當選擇機器學習算法和技術時,需要考慮到在線學習行為數據通常具有非線性、高維度和動態變化的特點。因此,選擇適當的機器學習算法和技術是構建模型的關鍵。該研究在大數據環境下構建了一種高效穩定的在線學習行為分析模型,旨在提高教育領域中學習者的理解能力。
基于大數據環境的在線學習行為分析平臺,通過數據采集、預處理、特征提取、行為模型構建以及分析等步驟,實現對學習行為的深入理解和提供個性化學習支持,如圖1 所示。

圖1 在線學習行為分析平臺總框架設計
數據獲取模塊主要負責設計合適的數據采集機制,收集在線學習平臺上的用戶行為數據,包括點擊、瀏覽和提交作業等。特征工程模塊對采集的原始數據進行預處理,包括數據清洗、去除噪聲和處理缺失值等。采用合適的特征提取方法,從原始數據中提取與學習行為相關的特征,例如學習時長、頻率以及互動行為等。行為模型與分析模塊選擇合適的機器學習算法和數據挖掘方法,構建在線學習行為模型,可以采用監督學習、無監督學習或深度學習等方法[3]。模型評估與優化模塊負責評估學習行為模型的表現,并根據評估結果進行優化,例如調整模型參數、增加新特征和引入領域知識,以提升模型性能[4-5]。
數據獲取模塊是在線學習行為分析平臺的核心部分。數據采集過程如下:首先,確定要采集的學習行為數據類型,例如點擊、瀏覽以及提交作業等,其次,在在線學習平臺中嵌入數據采集器,其前端開發使用JavaScript,數據傳輸協議采用HTTP,為了優化數據傳輸,需要對數據進行壓縮、批量傳輸,從而實時或定期采集用戶的學習行為數據,并將這些數據傳輸到數據存儲系統進行處理和存儲,具體的數據存儲流程如圖2 所示。

圖2 數據存儲流程
對采集的原始數據進行清洗,主要是剔除無效或錯誤的數據,并進行必要的轉換和格式化。在數據存儲方面,選擇了結合MySQL 關系型數據庫與Hadoop 分布式存儲系統的方式,MySQL 數據庫管理系統主要用來進行數據的存儲、查詢和更新;Hadoop 分布式文件系統(HDFS)負責數據存儲和管理,筆者還在HDFS 中建立了列族數據庫表格,以支持大容量和高性能的數據訪問。根據數據量和查詢需求,筆者對數據進行了分區并建立了索引,以提高數據的查詢效率。建立數據備份和恢復機制,以保證數據的可靠性和可用性,采取多項措施保障學習行為數據的安全,保護用戶隱私。
數據預處理與特征提取模塊是在線學習行為分析平臺中的關鍵部分。平臺須對采集的原始數據進行清洗,剔除無效或錯誤的數據,例如處理缺失、異常和重復數據。如果學習行為數據來自不同的數據源,需要進行數據集成,將數據源合并為一個一致的數據集。對數據進行轉換,使其適應后續的特征提取和建模,例如數據標準化、離散化以及歸一化等,數據標準化B的計算如公式(1)所示。
式中:x為數據集中的各數據;mean為數據的均值;std為數據的標準差。
通過標準化,將數據轉化為均值為0,標準差為1 的分布。數據歸一化A的計算如公式(2)所示。
式中:min 和max 分別為最小值和最大值;通過歸一化,將數據映射到0~1。
根據研究目標和問題,從預處理后的數據中選擇最相關的特征。基于預處理后的數據,通過計算和組合現有特征構建新的特征,以捕捉更多的學習行為模式。
在提取特征的過程中,計算1 組數據的統計特征涉及多個指標,包括均值、標準差、最大值、最小值、中位數、偏度和峰度。均值是將所有數據相加后除以數據的總數;標準差是計算每個數據與均值之差的平方,然后對這些平方差的平均值進行開方;最大值和最小值是在數據集中找到最大的數據和最小的數據;中位數是將數據按升序或降序排列,然后找到中間位置的值(對于奇數個數據)或中間2 個位置的平均值(對于偶數個數據)。為了計算數據分布的不對稱性,即數據的偏斜方向和程度,需要計算偏度S,如公式(3)所示。
式中:N為數據的總數。峰度用來衡量數據分布的峰態K的計算如公式(4)所示。
通過計算這些統計特征,從數據中獲取關于中心趨勢、離散程度、分布形態和偏斜程度的信息,從而深入理解數據的特征和模式,這些特征對于學習行為分析和模型構建非常有價值。
行為模型構建與分析模塊利用構建的行為模型對學習行為數據進行分析,在基于大數據環境的在線學習行為分析模型中,使用支持向量機(SVM)構建行為模型。以下是具體流程:1)數據準備。準備一個大規模的帶有標簽的在線學習行為數據集,其中包括學習者的行為特征和相應的行為標簽。2)特征處理。采取上一步中對學習行為數據進行特征處理,包括數據清洗、特征提取和特征工程等步驟后的數據。3)數據劃分。用留出法將數據集劃分為訓練集和測試集,具體流程如圖3 所示。

圖3 留出法劃分數據集
如圖3 所示,首先,準備一個帶有標簽的數據集,包括輸入特征和相應的標簽。根據實際需求和數據集的規模,確定訓練集和測試集的劃分比例,劃分比例為70/30。其次,使用隨機的方式將數據集中的樣本劃分為訓練集和測試集;在劃分過程中,需要確保類別標簽的平衡,即每個類別在訓練集和測試集中的樣本數量相對均衡。最后,驗證訓練集和測試集的劃分結果,確保劃分后的數據集能夠代表整體數據集的特征和分布,使用訓練集進行模型的訓練和參數優化,使用測試集進行模型的評估和性能驗證,以驗證模型在未見過的數據上的泛化能力。
選擇非線性SVM 模型并使用高斯核函數(RBF)以引入非線性,目標函數K(xi,xj)的計算如公式(5)所示。
式中:||xi,xj||為輸入特征向量之間的歐氏距離;γ為高斯核函數的一個參數,控制數據在特征空間中的分布。決策函數計算如公式(6)所示。
式中:b為偏置項;xi為訓練樣本的輸入特征向量;yi為對應的標簽;alphai為支持向量的拉格朗日乘子。
通過計算輸入樣本與訓練樣本之間的距離,應用高斯核函數將樣本從原始特征空間映射到高維特征空間,進而引入非線性的能力。
使用訓練集對SVM 模型進行訓練,在訓練過程中,SVM通過最大化間隔來優化分類邊界,并同時考慮正則化約束。
在基于大數據環境的在線學習行為分析模型研究中,使用測試集評估訓練得到SVM模型的性能,并根據評估結果調整SVM 模型的超參數,保證性能良好。使用訓練好的SVM模型對新數據進行預測,并進行行為分析、個性化推薦或其他相關應用。根據評估結果,針對SVM 模型的超參數進行了調優,以提升模型性能。調整正則化參數C,C的值越大,對誤分類的懲罰就越重,可能導致模型過擬合;C的值越小,對誤分類的懲罰就越輕,可能導致模型欠擬合。對于高斯核函數(RBF)來說,調整gamma參數會影響決策邊界的靈活性。使用訓練好的SVM 模型對新的數據進行預測,即根據輸入特征預測學習者的行為標簽。基于這些預測結果,進一步進行行為分析、個性化推薦或其他相關應用,從而判斷學習者的學習偏好、推薦適合的學習資源或進行學習路徑規劃等。通過以上流程,評估和優化SVM 模型的性能,并將其應用于實際的行為分析和個性化推薦任務中,以提升在線學習環境的效果和用戶體驗。
該試驗的目標是測試基于大數據環境的在線學習行為分析模型平臺的穩定性和其他性能,平臺搭建在型號為XYZ-123 的服務器上,具備充足的計算資源和存儲容量。安裝了Linux 操作系統,并搭建了MySQL 數據庫系統。此外,還安裝了Python、Java 等必要的開發環境和Scikit-learn 相關庫。在數據集的準備階段,選擇了適當的在線學習行為數據集,其中包括學習者的行為記錄和相關特征。將這個數據集劃分為訓練集和測試集,為了保證平臺的性能得到全面評估,確定了以下評估指標:平臺穩定性指標(例如系統崩潰次數)、響應速度、處理能力和傳輸速率。
試驗在5 個不同的運行時間節點進行對比,記錄響應速度、處理能力和傳輸速率,見表1。

表1 平臺測試結果
在給定時間點A至時間點E的測試中,平臺的響應速度在50.21ms~55.61ms,響應時間維持在一個相對短的區間內,表明平臺響應速度較快。在時間點A至時間點E的測試中,平臺的處理能力在每秒950~1200 個請求數,說明其處理能力較強,能夠有效地處理大量的請求。平臺的傳輸速率在18.24Mbit/s~23.52Mbit/s,傳輸速率較高,說明平臺在數據傳輸方面性能良好。
基于大數據環境的在線學習行為分析模型研究旨在利用學習者行為數據,深入了解學習模式,實現個性化推薦以及優化教學策略。該文采用了支持向量機(SVM)算法和高斯核函數,構建了一個穩定且性能卓越的行為分析模型。試驗結果表明,該模型在響應速度、處理能力和傳輸速率等方面均表現出色。在未來的研究中,筆者將繼續改進模型的算法,進一步擴展數據集的規模和多樣性,并與其他領域的研究者進行合作,共同推動在線學習行為分析的發展。