褚正清
(安徽新華學院 通識教育部,合肥 230088)
充分利用數字化教學資源,提升授課過程中課程直觀性,具有開闊視野、增強學生思維能力的優勢。數字化數學教學資源指針對數學課程所制定的數字化資源,學生學習數學課程時需具有較高的學習興趣。數學課堂教學的生動性極為重要,對數學教學資源實施數字化處理,有助于提升數學教學質量。聚類算法是依據不同類別事物所存在的相似性實施分類的重要算法。聚類算法又稱為點群分析,依據待分類事物間所存在的特征精準分類事物,屬于多元統計的重要方法。事物間存在特征類別眾多,依據事物間所存在的特征,無須先驗知識即可獲取分類結果[1]。聚類方法目前已廣泛應用于社會學、教育學、心理學、經濟學等眾多領域中。
巴志超等人提出基于主題語義擴展的混合類型數字資源分類方法[2],通過可行性分析對數字圖書館資源進行特征提取,構建語義主題模型進行數字圖書館資源語義擴展,實現數字資源自動分類。李植等人提出一種適于Docker容器資源控制的分類預測方法,通過cgroups技術進行Docker容器資源服務質量分類,利用譜聚類算法進行容器資源使用次數預測,實現有效容器資源。以上兩種方法分別針對數字資源以及容器資源分類問題進行研究[2-3],并獲取較高的分類效果,但以上方法應用于數學教學資源中,分類效果較差。
為此,提出一種基于兩步聚類算法的數字化數學教學資源歸并分類方法。提取數字化數學教學資源特征,依據所提取特征利用兩步聚類算法對資源實施歸并分類。特征提取可將具有較高維度的數字化數學教學資源降低至較低維度中,依據固定變換規則,降低原始教學資源數據維數,為后續數字化數學教學資源的精準歸并分類提供數據技術。通過實驗驗證采用該方法對數字化教學資源實施歸并分類具有較高有效性,可應用于數字化教學資源歸并分類實際應用中。
數字化數學教學資源應用過程中,隨著教學課程課時增加,資源數據呈增量發展趨勢。提取數字化數學教學資源特征過程中,應同時考慮新增數據以及歷史數據,基于全局角度實現特征提取,避免忽略資源中所蘊含的隱藏信息。采用自適應滑動窗口互信息方法處理數字化數學教學資源的歷史數據以及增量數據,實現數字化數學教學資源特征提取。
用矩陣X1=[x1,x2,…,xm]表示原始窗口數據,矩陣X2=[xm+1,xm+2,…,xm+r]表示增量窗口數據;數字化數學教學資源中所包含全部數據用X=[X1,X2]表示;Z1與Z2分別表示數字化數學教學資源原始窗口數據以及新增窗口數據的互信息矩陣;Z表示全部數字化數學教學資源樣本的互信息矩陣。
依據互信息定義可得互信息矩陣表達式如下:
(1)
對角化處理利用單位陣表示Z1的特征分解公式如下:
(2)
利用G1所張成的空間接收Z2的投影,可得公式如下:
(3)
求公式(1)與公式(2)之和可得:
(4)

(5)
將公式(5)代入公式(4),獲取表達式如下:
(6)
通過以上過程即可獲取全部數字化數學教學資源特征分解結果。
通過公式(2)可知:
(7)
公式(7)中,Λ1∈Rm×k與B1∈Rn×k分別表示數量為前k個特征值所組成的矩陣以及原始數字化數學教學資源主成分決策矩陣。
通過以上過程獲取新增窗口數據互信息矩陣的特征值Λ2以及特征向量P2,且Λ2=[μ1,μ2,…,μn],P2=[β1,β2,…,βn]。
依據特征向量以及特征值獲取全部數字化數學教學資源樣本特征值公式如下:
(8)
公式(8)中,m表示歷史數字化數學教學資源樣本數據;r表示新增數字化數學教學資源樣本數據。
可得數字化數學教學資源特征向量公式如下:
P=G1βi.
(9)
利用所獲取的特征向量建立主成分決策矩陣,將數字化數學教學資源映射至所建立的主成分決策矩陣即可實現數據降維[4]。后續窗口重復迭代以上過程實現全部數字化數學教學資源樣本特征提取。
兩步聚類算法主要包括構建特征樹以及層次凝聚算法分組兩部分。
(1)構建特征樹。利用所提取的數字化數學教學資源樣本特征構建特征樹。依據所設定固定順序掃描數字化數學教學資源全部樣本數據特征,完成掃描后確定數據類別以及不同類別中心,將待分類數字化數學教學資源依據固定標準劃分至不同類別中,以上過程即建立特征樹的過程[5]。所構建特征樹利用葉節點根部存儲數字化數學教學資源觀測量,所包含變量信息均通過葉節點體現。將已存在節點以及后續觀測量利用相似性測度對比,比較結果為相似時,將相似觀測樣本加入現有節點中;比較結果為不相似時,在特征樹中建立新節點,直至全部數字化數學教學資源數據比較完成,實現特征樹構建。
(2)特征樹葉節點分組。選取層次凝聚算法分組所構建特征樹葉節點,算法運算過程通過歐式平方距離的平方根實現連續變量測度,歐式距離度量公式:
(10)
連續變量以及分類變量的處理利用似然對數距離實現,似然對數距離是基于距離所獲取的概率值。似然對數在不同類別合并為相同類別時有所降低,不同類別間距離有所變化。
連續變量以及分類變量在似然對數運算過程中需符合正態分布以及多項式分布[6],采用似然對數距離應用于數字化數學教學資源合并與分類時,設置不同變量均為獨立狀態。
定義類別j與類別s間距離d(j,s)表達式如下:
d(j,s)=xj+xS-x〈j,.s〉.
(11)
公式(11)中,〈j,s〉表示通過歸并處理所獲取的類別。
利用BIC判據以上過程的分類運算結果,初始估計所獲取分類數量。初始分類中最為相近的兩種類比間,存在最大增長距離的聚類數即最終聚類數量。
用R表示聚類數量,可得最終歸并分類計算公式如下:
(12)
(13)
以上公式中,HA與N分別表示歸并分類過程中連續變量總數量以及觀測量總數量,mj表示葉節點數量,LH與HB分別表示待分類數字化數學教學資源歸并分類第k個變量編號以及歸并分類過程中所采用全部分類變量總數量。
選取某高校數理學院數字化數學教學資源作為實驗對象,所采集數字化數學教學資源大小為5.98 GB,采用兩步聚類算法的數學教學資源歸并分類方法對所采集數字化數學教學資源實施歸并分類,驗證此方法歸并分類結果。
設置數字化教學數學資源作為測試變量,采用BIC結果確定最佳分類,BIC自動聚類結果如表1所示。

表1 自動聚類結果
通常情況下,通過聚類算法所獲取的BIC值越小,表示該聚類算法聚類性能越優,所生成聚類數據質量最高。通過表1可以看出,聚類數量提升時,所獲取BIC值有所降低,因此需衡量距離測量比以及BIC變化率決定最佳聚類數量。聚類測量比結果較高,且BIC變化率同樣較高時,該聚類方案為最佳。表1實驗結果可以看出,所獲取聚類類別為4類時,通過聚類所獲取聚類測量比最高,同時BIC變化率最高。因此將數字化數學教學資源分為4類。
選取文獻[5]方法以及文獻[6]方法作為對比方法,不同方法對數字化數學教學資源歸并分類結果如表2所示。

表2 不同方法歸并分類結果
由表2可以看出,采用三種方法均可實現數字化數學教學資源的有效分類。采用兩步聚類算法的數學教學資源歸并分類方法依據BIC變化率以及距離測量比結果,將數字化數學教學資源分為4類,各類分別占總數的30.6%、35.6%、15.2%以及18.6%。
統計不同窗口大小時,三種方法對數字化數學教學資源的歸并分類效率,對比結果如圖1所示。

圖1 窗口大小對歸并分類效率的影響
由圖1可以看出,不同方法歸并分類數字化數學教學資源的運行時間隨著窗口大小增加呈下降趨勢;窗口大小高于600時,不同方法歸并分類數字化數學教學資源運行時間有所提升。主要原因是運算窗口過小時,方法需從緩沖區域提取數據,占用過多時間;運行窗口大小過大時,提升了數字化數學教學資源特征分解時間。因此窗口區間處于300~600時,數字化數學教學資源歸并分類效率最佳。相比于另兩種方法,兩步聚類算法的數學教學資源歸并分類方法的歸并分類效率在不同窗口大小時均為最高,說明該方法歸并分類運算效率高于另兩種方法。
采用常應用于歸并分類中的評價指標查全度、準確度以及F1估計值評價不同方法歸并數字化數學教學資源分類準確率。歸并分類應用中,F1估計值高于90%時,表示該方法具有較高的歸并分類效率。統計采用兩步聚類算法的歸并分類數字化數學教學資源的歸并分類性能,統計結果如表3所示。

表3 歸并分類性能統計結果
表3實驗結果可以看出,采用兩步聚類算法的歸并分類數字化數學教學資源的準確度以及查全度均高于98%; F1估計值均高于93%。統計結果有效驗證此方法具有較高的歸并分類性能,具有較高準確率,應用性較高。
將兩步聚類算法應用于數字化數學教學資源歸并分類中,利用兩步聚類算法所具有的海量樣本聚類性能,提升數字化數學教學資源歸并分類有效性,具有優秀的運算連續變量以及離散變量能力,智能性高,具有分類嚴謹、操作簡便的優勢。①效率最高僅為250 ms。②準確率均值為98.78%,查全度均值為99.06%,F1估計均值為95.54%。
這說明所提出來的歸并分類有效性較高,處理海量數字化數學教學資源時,處理可靠性高,可在數字化數學教學資源歸并分類中發揮重要作用,取代以往人工歸并分類的低效率方法。