K—means算法在計算機基礎分層教學中的應用研究

2014-11-17 01:44:28劉明綱

新課程·中旬 2014年9期

摘要：探討了將K-means聚類算法應用于計算機基礎課程分層教學學生入學基礎測試成績分析的過程中。針對K-means算法的特點，對收集的學生成績參數進行設定，并做一定的規范處理，然后對數據進行預處理。最后，使用K-means算法，對學生計算機基礎入學測試成績進行層次劃分類別分析評價。

關鍵詞：K臨近算法；數據挖掘；分層教學；聚類

一、數據挖掘概述

數據挖掘，又稱為數據庫中知識發現（Knowledge Discovery from Database，簡稱KDD），它是一個從大量不完全、有噪聲的數據中抽取挖掘出未知的、潛在有價值的模式或規律等知識的復雜過程。

1.數據挖掘中的聚類算法

現在的聚類算法主要有：基于密度和層次方法、基于劃分和模型方法等。

（1）基于密度的方法（Density-Based Methods）

基于密度的方法的重要特點在于：它的聚類準則不是基于距離的，而是基于密度的。通過這種方法能避免基于距離的算法只能發現“類圓形”聚類的缺點，并發現非“類圓形”的聚類結果。它的基本設計思想是：如果區域中的點的密度大于某個域值，那么就把這個樣本加到與之相近的聚類中。其代表算法有OPTICS算法、DBSCAN算法、DENCLUE算法等。

（2）基于層次的方法（Hierarchical Methods）

這種方法就是把數據庫劃分成多個層次，直到滿足某種條件為止。輸出為層次化的分類樹。自底向上的方法稱為凝聚的方法，最初將每個數據對象作單獨的一個組，然后合并相近的對象或組，直到所有的組合并為一個層次，或滿足某個終止條件。自頂向下的方法又稱為分裂的方法，最開始將所有的對象歸到一個層次，然后進行迭代，通過迭代使一個類劃分成更小的類。直到最終每個對象在單獨的一個類中，或者達到一個終止條件。BIRCH算法、CURE算法、CHAMELEON算法等都屬于基于層次的算法。

（3）基于劃分的方法（Partitioning Methods）

劃分法，即給定一個有N個元組或者記錄的數據集，隨機構造K個分組，每一個分組就代表一個聚簇，K

對于給定的K，算法首先給出一個初始的分組方法，以后通過反復迭代的方法改變分組，使每一次改進之后的分組方案都較前一次好，而所謂好的標準就是：同一組中的記錄越近越好，而不同分組中的記錄越遠越好。使用這個基本思想的算法有：K均值算法、K中心點算法、CLARANS算法。

2.K臨近算法

K-means算法是一種最經典，也是使用最廣泛的聚類方法。K-means的基本思想是：對于一個聚類任務指明聚成幾個類，然后隨機選擇K個聚類簇中心點，迭代計算下面的過程直到所有簇中心收斂為止：

STEP 1：對于每個對象，計算其與每個簇中心的相似度，把其歸入與其最相似的那一個簇中。

STEP 2：更新簇中心，新的簇中心通過計算所有屬于該簇的對象的平均值得到。

二、聚類算法的實施

算法的實施步驟大體分為數據集成、數據清理、數據轉換、數據挖掘、知識獲取等過程。

1.成績數據的集成

數據集成的過程是對多個數據源進行科學的數據合并。本研究中我們對2013級學生計算機應用基礎入學測試成績數據，進行采集，數據來源于入學測試考試軟件隨機生成題庫對學生參與考試得出的詳細數據。

我們認為分層教學劃分層次的依據不能單單以入學測試的總成績為準，為了更加了解學生對各個需要掌握的基本知識所屬章節知識的掌握情況，考試的基礎數據還需要包含章節知識的得分率等數據內容。我們把主要數據放在學生成績分析基礎表里面。學生成績基礎表包含（學號、姓名、總成績、計算機基礎知識、計算機系統組成、字處理、演示文稿、電子表格、計算機網絡、計算機安全、文字錄入）等字段，別記錄了學生的總成績與各個章節內容的得分情況。

2.數據清理

數據清理主要是填補遺漏數據，在本研究中我們忽略學生姓名、考試時間等與數據分析無關的數據列成分。

3.數據的轉換過程

數據轉換的過程主要是為了對數據進行規范化的操作，對數據的格式進行統一規定，從而匹配數據挖掘算法。對學生成績進行聚類分析的時候，學生各個章節的成績和總成績的數據類型都統一成數值類型。

4.算法結果分析

通過K-means算法的分析，我們得到的聚類1中成績偏低的學生有25個，聚類2成績較好的學生有38個，由此作為分層教學的分班依據。通過具體章節得分率的聚類選擇，能更好得出學生掌握計算機基礎知識的準確數據，如果單單以學生考試的總成績來作為分層教學的依據，會造成分班的不合理。

本文探討了K-means聚類算法，將此算法應用于計算機基礎課程分層教學學生入學基礎測試成績分析中。首先在針對K-means算法的特點，對收集的學生成績參數進行設定做一定的規范處理，然后對數據進行了預處理，然后使用K-means算法，對學生計算機基礎入學測試成績進行層次劃分類別分析評價。針對不同類別的學生，實施分層教學，為實施好分層教學改革提供了數據和理論支持。

參考文獻：

鐘志賢，曹東云.基于信息技術的反思學習[J].遠程教育，2004（4）：7-10.

作者簡介：劉明綱，性別，男，1978年10月出生，碩士，就職學校：成都市成都工業學院網絡中心，研究方向：數據挖掘，數據庫技術。