摘要:基于聚類的考試分析可以將成績特征相同的考生聚集為一類,從而更加客觀和準確地揭示考生的知識和能力水平。將試卷中的各個試題分別視為一個特征項,利用傳遞閉包法進行模糊聚類分析。在取得聚類結果的基礎上,利用Excel對聚類特征項進行再分析,即可得到聚類依據并驗證聚類結果。仿真實驗表明,基于模糊聚類的考試分析結果明確、可信、有效,并可得到傳統的試卷分析難以發現的現象和規律,對于個性化教學和素質教育有很大指導意義,值得推廣應用。
關鍵詞:模糊聚類;傳遞閉包;特征分析;考試分析
中圖分類號:TP18文獻標識碼:A文章編號:1009-3044(2009)33-9579-02
Methed of Examination Analysis Based on Fuzzy Cluster
ZHANG Dong-sheng, JI Chao, ZHENG Wen-kui
(Computing Center of Henan University, Kaifeng 475004, China)
Abstract: Examination analysis based on cluster can cluster the testees with same feature of score to one class, and bring to light the level of knowledge and capability of testees more objectivity and more correctly. The way is to looked upon each examination question as a feature item, and make use of transitive closure for fuzzy clustering analysis. Based on the reselt of the clustering, use the Excel to analysis the clustering feature item farther, to get the reason of the clustering and to validate the reselt of clustering. The simulation show that reselt of examination analysis based on clustering is clear, believable and effective, and can get the hard-won phenomena and rule what by traditional examination analysis. It has important meaning for individuation teaching and education for all-around development, and it is extending and applying worthwhile.
Key words: fuzzy clustering; transitive closure; feature analysis; examination analysis
1 概述
基于聚類的考試分析可以從應試者的全部考試數據中,將各試題得分作為特征值,并依此將應試者劃分若干類簇,從而客觀、準確地揭示應試者知識點和能力點的掌握情況。相比傳統的對試卷所作的信度、效度、區分度等統計學數據的分析,聚類分析可以更深入更全面地表現考生的認知水平和能力水平。例如,一群考生的考試成績可能均為70分左右,但其對考試的知識點和能力點的掌握情況可能有很大不同,聚類分析可以找出這些差異,而傳統的成績統計分析卻難以做到。模糊聚類分析是眾多聚類算法中較為成熟和聚類效果較好的一種,包括傳遞閉包法、直接聚類法和C-劃分法等三種分析方法[1-2]。模糊聚類分析已成功應用于數據挖掘、模式識別及經濟、管理、生物醫學等許多領域。本文作者應用傳遞閉包法對某考試數據進行聚類分析,取得良好效果。第2節介紹考試數據,第3節介紹聚類算法,第4節介紹仿真實驗,第5節分析聚類結果。
2 數據材料
考試數據來自河南大學本科生的某次考試。試卷包括4個大題(仿真題號分別為A、B、C、D),每題25分。全體考生平均成績78分,符合正態分布。不失一般性,本文抽取得分為78±5分的考生20人的考試數據進行聚類分析。數據見表1。
3 模糊聚類算法
3.1 聚類對象定義
設論域U={x1,x2,…,xn}為被聚類的對象集,其中xi|i=1,2,…,n稱為一個樣本;每個樣本有m個特征指標,即: xi={xi1,xi2,…,xim}(i=1,2,…,n),全部原始數據構成數據矩陣X=(xij)n×m。根據本文表1中的數據,有n=20,m=4。
3.2 數據標準化
為使不同量綱的數據可以相比較,通常需要將原始數據xij壓縮至[0,1]區間,這一過程稱為數據標準化。通常可以通過2種變幻實現數據標準化[6],即平移·極差變幻(式1)和平移·標準差變幻(式2)。
(1)
(2)
其中: 。
3.3 模糊相似矩陣及其性質
分別計算樣本xi與xj的相似度值rij,組成模糊相似矩陣R=(rij)n×n。相似度rij的計算方法有歐氏距離法、數據積法、相關系數法、夾角余弦法、最大最小法等多種。不具一般性,本文的實驗數據更適合使用相關系數法,其計算方法為:
(3)
其中:。
如果模糊相似矩陣R的主對角線元素均為1,則稱其具有自反性;若主對角線對稱元素均相等,則稱其具有對稱性;若滿足R·R?哿R,則稱其具有傳遞性。三個性質同時具備的R稱為等價模糊矩陣。只有等價模糊矩陣才可用于模糊聚類。
3.4 傳遞閉包
容易理解,通過上述方法得到的模糊相似矩陣 具有自反性和對稱性,但多數情況(并不總是)不具有傳遞性;其傳遞性可通過傳遞閉包變幻實現。
多次進行矩陣R的自乘運算R·R,直到R2k=Rk為止,此時Ek稱為R的傳遞閉包t(R)·t(R)是模糊等價矩陣。文獻[7]給出了傳遞閉包的詳細證明,下面介紹傳遞閉包的計算方法:
對于模糊相似矩陣R=(rij)n×n,有R·R=R'=(r'ij) n×n,其中
(4)
式中∧表示并運算(取最小值),∨表示或運算(取最大值)。運算過程為:R矩陣的第i行n個元素與第j列n個元素對應兩兩取小值,然后再取其中的最大值。
3.5 截集取得聚類矩陣
取適當閾值λ(λ∈[0,1]),對模糊等價矩陣t(R)作截集處理,求出聚類矩陣R\"=(r\"ij) n×n,其中:
(5)
將r\"ij為1的相應樣本聚合為同一類,聚類完成。容易證明,λ值選取越大,聚合出的類別數越多,選取得越小,則聚合出的類別數越少。 但聚類結果并不矛盾:較粗類別是較細類別的上位類,利用λ取值不同,可獲得不同程度的聚類,形成多層次分類結構。特別當λ=0時聚類最粗,λ=1時聚類最細。
4 仿真實驗
仿真編程工具:Matlab7.0. 編程實現的主要步驟如下:
Step1. 使用平穩·標準差變幻公式(2)將表1中的原始數據標準化;
Step2. 使用公式(3)計算模糊相似矩陣R=(rij)20×20;
Step3. 使用公式(4)計算傳遞閉包,得到模糊等價矩陣R'=(r'ij) 20×20;
Step4. 使用公式(5)進行截集處理,取λ=0.85, 得到聚類矩陣R''=(r''ij) 20×20;
Step5. 根據R''得出聚類結果(圖1)。
5 結果與討論
根據上節步驟進行仿真實驗的聚類結果為:第Ⅰ類:{02,09,13,17},第Ⅱ類:{04,07,08,12,16, 19},第Ⅲ類:{05,06,14,18},第Ⅳ類:{03,15},第Ⅴ類:{11,20},第Ⅵ類:{01,10}。
為驗證聚類結果是否可信和有效,本文將表1中的原始數據導入Excel工作表,添加上述類別列,再分別按類別求各特征項均值,結果見表2。
容易發現,第Ⅰ類的聚類依據是A題得分較低;第Ⅱ類的聚類依據是B題得分較低;第Ⅲ類的聚類依據是C題得分較低;第Ⅳ類的聚類依據是D題得分較低;第Ⅴ類的聚類依據是D題得分較高;第Ⅵ類聚類依據是4個題得分比較均衡.。證明聚類是可信和有效的,聚類結果的意義是明確和有用的。
6 結束語
基于聚類的考試數據分析,其主要分析對象雖然也是試題分數,但聚類分析的意義明顯優于僅以成績值的比較和排序所進行的試卷分析。如果按傳統的成績值分析方法,本文所列舉的20位考生應屬于同一類,但聚類分析卻可以更加深刻和準確地找出這些學生知識點和能力點掌握的不同情況,并將其自動劃分為若干類。聚類結果可用來有的放矢地指導個性化教學和素質教育,因此,基于聚類的考試分析值得更加深入地研究探討和更加廣泛地應用于各級各類教學和評估測試活動。同時,該方法清晰、規范、穩定,容易編程實現,可嵌入已有的考試系統或教育、教學軟件中運行。
參考文獻:
[1] Carl G Looney. A Fuzzy Clustering and Fuzzy Merging Algorithm[D]. Computer Science Department/171, University of Nevada, Redo, NV89557,1999.
[2] Keller A. Fuzzy clustering with outliers[C]//Proceedings of the 19th International Conference of the North American Fuzzy Information Processing Society. Atlanta, USA: IEEE, 2000: 143-147.
[3] 皋軍,王士同.具有特征排序功能的魯棒性模糊聚類方法[J].自動化學報,2009,35(2):145-153.
[4] 馮梅.基于模糊聚類分析的教師課堂教學質量評價[J]. 數學的實踐與認識,2008,38(2):12-15.
[5] 楊淑瑩.模式識別與智能計算—Matlab技術實現[M].北京:電子工業出版社,2008:271-298.
[6] 梁何松,曹殿立.模糊數學及其應用[M].北京:科學出版社,2007:72-75.
[7] 胡寶清.模糊理論基礎[M].武漢:武漢大學出版社,2004:148-175.
[8] 孫宇峰.基于MATLAB的模糊聚類分析及應用[J].韶關學院學報,2006,27(9):1-4.
[9] 于錄.模糊聚類分析在商品銷售中的應用[J].哈爾濱商業大學學報,2005,21(4):534-538.