吳宇航,陳鳳鳳,江 玲,萬 磊
(南昌大學 共青學院,江西 九江 332020)
混合教學是指將傳統課堂教學與在線教育相結合,形成一種新型的教學模式。混合教學充分利用了傳統課堂教學和在線教育各自的優勢,既保留了師生之間的面對面交流,又拓展了時間和空間上的靈活性;既增加了課程內容的豐富性和多樣性,又提高了學習效率和效果?;旌辖虒W已經成為當前國內外教育領域的熱點話題和發展趨勢。
混合教學產生了大量的多源、異構、復雜的數據,包括傳統課堂的監管輔助數據(如點名、作業、實驗、測試等)和在線教育平臺上的學習數據(如學習進度、時長、測試成績等)[1]。這些數據包含了豐富的信息,反映了學生的學習行為、能力、水平、興趣等方面的特征。如何有效地分析和利用這些數據,提取出有價值的知識,評估和改進教育質量,是當前混合教學面臨的重要問題。
為了解決這個問題,本文提出了一種基于核主成分分析(KPCA)的方法。核主成分分析是一種非線性降維技術,可以將高維非線性數據映射到低維線性空間,提取出數據的主要特征[2]。本文利用核主成分分析對混合教學數據進行特征提取和降維,然后采用支持向量機(Support Vector Machine,SVM)對數據進行分類和分級,從而實現對教育質量和學生級別的綜合評價。
主成分分析(Principal Component Analysis, PCA)是一種經典的線性降維技術,可以將高維數據投影到低維空間,保留數據的最大方差,去除數據的冗余信息。PCA的基本思想是找到一組正交基,使得原始數據在這組基上的投影具有最大的方差,并且投影之間互不相關。這組正交基就是原始數據協方差矩陣的特征向量,對應的特征值表示投影方差的大小。從這些特征值中選擇前k個最大的特征值,將對應的特征向量作為投影矩陣,就可以將原始數據從n維降到k維。
PCA是一種線性降維技術,它假設數據在低維空間中是線性可分的。然而,在實際應用中,許多數據具有非線性結構,例如流形結構、曲面結構等。這些數據在低維空間中是線性不可分的,因此直接使用PCA會導致信息丟失或失真。為了解決這個問題,核主成分分析(K PCA)被提出。核主成分分析是一種非線性降維技術,可以將高維非線性數據映射到低維線性空間,保留數據的非線性特征。
核主成分分析的基本思想是利用核函數(Kernel Function,KF)將原始數據從輸入空間映射到一個高維特征空間(Feature Space,FS),在這個空間中進行PCA[3]。核函數是一種隱式地定義高維映射的函數,可以直接計算出2個輸入向量在特征空間中的內積,而不需要顯式地知道映射函數。核函數必須滿足Mercer條件,即對任意給定的輸入向量集合,在核函數定義下形成的Gram矩陣必須是半正定的。常用的核函數有線性核、多項式核、高斯核、拉普拉斯核、Sigmoid核等。
假設原始數據集為X={x1,x2,…,xm},其中xi∈Rn,則核主成分分析的步驟如下。
(1)選擇一個合適的核函數K(x,y),并計算Gram矩陣G=[K(xi,xj)]m×m。
(3)求解中心化后的Gram矩陣的特征值問題,即Gcαi=λiαi,其中λi是特征值,αi是特征向量。由于Gram矩陣是半正定的,所以特征值都是非負的。將特征值從大到小排序,選擇前k個最大的特征值對應的特征向量作為投影矩陣,即α1,α2,…,αk。

根據上述原理,可以將核主成分分析的算法作如下描述。
輸入:原始數據集X={x1,x2,…,xm},核函數K(x,y),目標維數k。
輸出:降維后的數據集Y={y1,y2,…,ym}。
步驟:
(1)計算Gram矩陣G=[K(xi,xj)]m×m。
(3)求解中心化后的Gram矩陣的特征值問題,即Gcαi=λiαi。選擇前k個最大的特征值對應的特征向量作為投影矩陣,即α1,α2,…,αk。

(5)返回降維后的數據集Y={y1,y2,…,ym}。
本文針對混合教學數據的特征分析與分級問題,提出了一種基于核主成分分析的方法,包括以下幾個步驟。
混合教學數據包括傳統教學數據和在線教育數據2部分。傳統教學數據主要來源于課堂監管輔助系統(Classroom Management System,CMS),該系統可以記錄學生在課堂上的出勤、作業、實驗、測試等情況。在線教育數據主要來源于互聯網教育平臺(Internet Education Platform,IEP),該平臺可以記錄學生在網上的學習進度、時長、測試成績等情況。這2部分數據的格式和結構可能不一致,因此需要進行數據融合和標準化處理。
數據融合是指將不同來源的數據進行整合,形成一個統一的數據集。本文采用基于屬性的數據融合方法,即根據數據的屬性進行匹配和合并[4]。首先,對傳統教學數據和在線教育數據進行屬性分析,確定共有屬性和特有屬性。共有屬性是指2部分數據都具有的屬性,如學號、姓名、班級等;特有屬性是指只屬于一部分數據的屬性,如出勤率、作業完成率、學習時長等。其次,根據共有屬性將2部分數據進行對齊,即將相同學生的數據放在一起。最后,將2部分數據的特有屬性進行合并,形成一個完整的教育特征數據鏈。
數據標準化是指將不同范圍和單位的數據轉換為相同或相近的范圍和單位,以消除數據之間的量綱差異。本文采用最大最小歸一化方法,即將每個屬性的值映射到[0,1]區間,公式如下:
其中,x是原始值,是歸一化后的值,xmin和xmax是該屬性的最小值和最大值[5]。經過歸一化處理后,每個屬性的值都在[0,1]區間內,便于進行后續的計算和分析。
為了利用復雜網絡的研究方法和理論模型,本文將教育特征數據抽象為一個復雜網絡模型。復雜網絡是一種由大量節點和節點之間的連接構成的復雜系統,它可以描述各種復雜現象和規律。本文將每個學生作為一個節點,將學生之間的相似度作為連接的權重,構建一個加權無向網絡。
其中,xi和xj是2個學生的教育特征向量,σ是高斯核函數的參數,控制了相似度衰減的速度。高斯核函數可以有效地捕捉非線性特征之間的相似度,并且具有良好的數學性質。
根據上述方法,本文可以得到一個m×m的相似度矩陣S=[S(xi,xj)]m×m,其中m是學生的數量。相似度矩陣可以看作是一個加權無向網絡的鄰接矩陣,其中每個節點代表一個學生,每條邊的權重代表2個學生之間的相似度。
在教育特征數據網絡模型中,不同的節點可能具有不同的特征和影響力,對教育質量有不同的貢獻。為了找出這些重要的節點和特征,本文采用核主成分分析對網絡進行特征提取和降維。核主成分分析可以將高維非線性數據映射到低維線性空間,保留數據的主要特征。本文利用核主成分分析對相似度矩陣進行處理,得到每個節點在低維空間中的坐標,即群集特征向量。
在提取影響教育質量的群集特征后,本文建立了一個針對教育質量和學生級別進行綜合評價的評價模型。該模型基于層次分析法(Analytic Hierarchy Process,AHP)和綜合評價法(Comprehensive Evaluation Method,CEM),將教育質量評價分為3個層次:目標層、準則層和方案層[6]。目標層是評價的總目標,即教育質量;準則層是評價的指標,即群集特征;方案層是評價的對象,即學生。
該模型的具體步驟如下。

(2)計算評價值。根據權重矩陣和各個學生在原始數據中的屬性值,計算每個學生的教育質量評價值Ei,公式如下:
其中,xxj表示第i個學生在第j個特征上的屬性值。
(3)確定分級標準。根據評價值的分布情況,確定不同級別的學生的評價值區間,作為分級標準。本文采用5級分級法,即將評價值分為5個等級,分別對應優秀、良好、中等、及格和不及格。
(5)對學生進行分級。根據分級標準,將每個學生劃分到相應的級別,從而完成對學生的綜合評價和分級。
為了驗證本文提出的方法的有效性和優越性,使用了一個真實的混合教學數據集進行實驗。該數據集來源于某高校的一門“BIM結構建模軟件”課程,包括傳統教學數據和在線教育數據2部分。傳統教學數據包括39名學生在課堂上的出勤、作業、實驗、測試等情況;在線教育數據包括39名學生在互聯網教育平臺上的學習進度、時長、測試成績等情況。這些數據經過數據融合和標準化處理后,形成了一個完整的教育特征數據鏈。
本文使用相關語言編寫了核主成分分析和綜合評價模型的程序,并在上述數據集上進行了實驗。將高斯核函數的參數σ設為1,目標維數k設為2,如圖1所示。

圖1 核主成分分析后的教育特征數據網絡模型
從圖1可以看出,核主成分分析后的教育特征數據在低維空間中呈現出一定的聚類效果,即不同級別的學生在平面上有一定的區分度。同時,可以看出一些點比其他點更密,這些點表示其在低維空間中具有較大的方差,即其具有較強的群集特征。這些點對應于原始網絡中具有較高相似度和影響力的節點,即對教育質量有較大貢獻的學生。本文將這些點選取出來,并根據其在原始數據中的屬性值進行標注,得到重要的學習特征,如表1所示。

表1 教育特征數據鏈及群集特征
從表1可以看出,本文發現以下幾個重要的學習特征:
(1)出勤率。出勤率反映了學生對課堂的重視程度和參與度,是衡量學生學習態度和效果的重要指標。本文發現出勤率高的學生在低維空間中具有較大的方差,即其對教育質量有較大的影響。
(2)作業完成率。作業完成率反映了學生對課程內容的掌握程度和鞏固程度,是衡量學生學習能力和效果的重要指標。本文發現作業完成率高的學生在低維空間中具有較大的方差,即其對教育質量有較大的影響。
(3)學習進度。學習進度反映了學生在在線教育平臺上的學習活躍度和自主性,是衡量學生學習興趣和動力的重要指標。本文發現學習進度高的學生在低維空間中具有較大的方差,即其對教育質量有較大的影響。
(4)測試成績。測試成績反映了學生在課堂和網上的綜合表現和水平,是衡量學生學習效果和質量的重要指標。本文發現測試成績高的學生在低維空間中具有較大的方差,即其對教育質量有較大的影響。
本文根據權重矩陣和各個學生在原始數據中的屬性值,計算了每個學生的教育質量評價值,并根據分級標準,將每個學生劃分到相應的級別,從而完成了對學生的綜合評價和分級,如表2所示。

表2 學生的綜合評價和分級
從表2可以看出,本文的方法可以對學生的教育質量進行綜合評價和分級,從而為混合教學的個性化教育干預提供依據和參考。
本文基于核主成分分析的方法,設計特征抽取算法,處理混合教學數據,構建教育特征數據網絡模型,挖掘出影響教育質量不同程度上的群集特征?;旌辖虒W數據反映出學生的學習行為、能力、水平等方面的特征,上述實驗表明基于核主成分分析的方法能夠對混合教學數據進行分級,有效地提取出了重要的教育特征群集,通過建立教育質量和學生級別的綜合評價模型,實現學生分級,為提高教學質量提供了更好的個性化教育干預,對教育質量的評估和改進起到重要的參考作用。