孫景峰,李秀麗,王彥波,歐陽曉松,時圣永,張欣榮,鄒璐璐
?
基于K-means聚類分析與偏相關分析的高考質量評價體系構建與實施
孫景峰1,李秀麗2,王彥波2,歐陽曉松2,時圣永2,張欣榮2,鄒璐璐2
(1. 齊齊哈爾市實驗中學,黑龍江 齊齊哈爾 161006;2. 齊齊哈爾市招生考試辦公室,黑龍江 齊齊哈爾 161006)
闡述了高考成績中多學科間K-means聚類分析和偏相關分析的高考成績分析方法,構建基于數據挖掘技術的高考質量評價體系分析方法,并利用齊齊哈爾市高考考生成績數據進行評價體系分析,為高考質量評價方法提供了一種新的嘗試.
K-means聚類分析;偏相關分析;高考質量評價體系
普通高等學校招生全國統一考試(以下簡稱“高考”)是為全國各類普通高等學校選拔優質生源的重要考試,也是評價本地普通高中教育教學水平與教學質量的重要內容之一[1].如何充分、科學、客觀地評價本地高中教育工作,全面、科學、公平地分析高考質量,是各級教育行政部門、高中學校最為關心的問題.高考成績不僅是考生錄取的重要依據,還是衡量一個地區或高中學校的教育教學水平的重要依據,所以高考成績歷來受到各級教育行政部門及高中學校的高度重視[2].因此,各地教育行政部門、招生考試部門、普通高中學校都會對本地高考成績情況進行統計分析.
由于高考成績的特殊性、保密性等性質決定,除招生考試部門以外,其他人員幾乎無法接觸到,所以在國內進行高考成績分析研究工作者較少.現階段,高考質量受到社會各界的普遍關注,促使各級教育行政部門和教育工作者必須利用先進的理論進行高考成績分析.在這樣的環境和背景下,利用數據挖掘技術進行高考成績質量分析符合社會的實際需要,也必將為高考成績的分析注入生機和活力[3].
高考成績分析主要進行2個方面的工作,一方面是進行常規的數據統計,另一方面是對高考成績數據進行深層次的數據相關性、數據內在聯系等方面的分析,而后者是高考成績分析的重點,也是難點[4].數據挖掘技術正是能夠進行數據相關性及數據間關聯分析.通過數據挖掘技術中的關聯分析[5]、聚類分析[6]等數據挖掘方法對高考成績進行分析,將有助于高考成績分析的深入研究,這些方法也是數據挖掘技術在高考成績分析中的主要研究內容.
本文提出了通過數據挖掘技術相關性分析中的偏相關分析、聚類分析中的K-means聚類分析,構建高考質量評價體系,并利用齊齊哈爾市2014年高考成績數據作為數據分析對象,實施實驗分析,得出分析結論.實驗數據分析過程中,采取對全市高考成績數據進行分析,通過學科間偏相關系數檢驗學科間的關聯程度,并以此為基礎利用聚類分析數據進行檢驗,評估學科成績是否符合預期效果.通過此方法,為各地、普通高中學校進行高考質量評價提供參考和借鑒.
K?means算法(也稱K均值算法)是一種基于劃分的聚類分析算法.K?mean聚類分析算法的基本思想是在聚類分析數據中按照相關選取準則選取個數據對象作為初始聚類中心,通過聚類目標函數度量準則對數據集進行處理,選取聚類中心最近數據合成一類,重新計算新類的聚類中心,反復迭代進行聚類處理,直至達到聚類收斂條件為止,完成數據集聚類,按照度量準則要求達到相似性較高的數據聚為一類.
在K?mean聚類分析過程中,通過設立的目標函數進行類與數據對象間的距離計算,在距離計算內容上選取標準偏移量為各數據個體的距離衡量.標準偏移量為目標對象與整體數據平均數之差除以整體數據標準差(Standard Deviation,縮寫SD).標準差表示組內個體間的離散程度,通過數據偏移量與標準差的比值計算,能夠反映出個體數據在整體數據中的狀況.標準差計算公式為

標準偏移量計算公式為

由此可以定義目標函數為

通過考生學科成績與該學科成績平均分偏離值除以標準差,借助標準差這一離散分布量,能夠衡量學生該學科成績的整體偏離程度,從而衡量出偏離值大的課程成績,表明這一聚類集存在偏科現象,為成績評估提供參考依據.標準偏移量有正負之分,正負代表評估數據與平均值之差的大小,正值代表大于平均值,負值代表小于平均值;標準偏移量的絕對值代表評估數據的偏離程度,數值越大,偏離程度越高.
相關性數據分析是數據挖掘技術中關聯性分析的一部分,是對統計學上2個及2個以上變量的相互關聯關系的分析和描述.2個變量參與的相關性分析為簡單相關分析,2個以上變量參與的相關性分析為多元相關分析.簡單相關分析多采用皮爾遜積差相關法(又稱“積差相關法”)計算兩變量的相關系數來表示兩變量的相關關系,其基本計算公式為

在多學科課程分析過程中,各學科間成績是相互影響的,僅僅對2個學科進行相關性分析,割裂了各個學科間的相關關系,無法真實反映學科間的相關性.對多學科間兩學科相關性表述,需借助偏相關分析法.偏相關分析是對具有多個變量相互影響下,考量2個變量剔除其它變量影響的相關關系.偏相關分析的量化結果也用偏相關系數來表示,偏相關系數可以利用簡單相關系數進行表示,簡單相關系數可以用式(4)計算而得.
偏相關計算公式的通式為

一階偏相關系數計算公式為

即消除第3變量影響,分析兩變量的相關關系.
二階偏相關系數計算公式為

即消除第3、第4變量影響,分析兩變量的相關關系.
對求得的相關系數,可以用顯著性檢驗方法進行顯著性檢驗.對相關系數顯著性檢驗方法多選取檢驗進行檢測.檢驗又稱方差齊性檢驗,主要通過對比2個變量數據的方差,以確定其吻合度是否有顯著性差異.當數據變量個數充分大時,統計量近似服從分布.
在高考考生成績中,黑龍江省現行高考科目實行“3+綜合”的設置,即理科為語文、理科數學、外語、理科綜合(包括物理、化學、生物)四大學科;文科為語文、文科數學、外語、文科綜合(包括地理、歷史、政治)四大學科.在考生成績數據相關性分析與聚類分析過程中,將文理科中的綜合學科分解成獨自的3個學科,即每名考生高考成績由6個學科構成.因此,可以將考生數據看做具有六維度的數據對象.

表1 黑龍江省高考各學科滿分分值
在進行標準偏移量聚類分析過程中,要分別計算6個學科成績的各自偏移量,將6科偏移量相加算出總偏移量.由于高考各學科成績滿分值(見表1)存在差異,所占總分比重的不同,在各個學科成績偏移量計算過程中,要對其偏移量值進行調整,即設置各個學科在總偏移量中所占比重(見表2).

表2 文理科權重值
在進行各學科間相關性分析過程中,為挖掘數據間的相關屬性,將對理科的總分、語文、數學、英語、理科綜合、物理、化學、生物兩兩學科簡單相關和一階偏相關的相關性進行計算,對文科的總分、語文、數學、英語、文科綜合、歷史、政治、地理兩兩學科簡單相關和一階偏相關的相關性進行計算.
通過標準偏移量K-means聚類分析算法,將具有學科成績屬性特征的考生聚集到各自的聚類項中,通過計算各個聚類項的平均分、標準差、最高分和最低分4個特征值,進行數據分析對比,驗證聚類結果.各學科間簡單相關性分析中的相關系數,能夠反映出2個學科間是否具有相關性及相關程度.偏相關分析能夠剔除其它學科因素影響,而真實的表達出2個學科間的相關關系.如果2個學科間的相關性較強,即2個學科間高度相關,通過標準偏移量K-means聚類分析所得2個學科也具有相同的特征屬性;如果2個學科間相關程度較低,即2個學科間不相關,那么這2個學科間標準偏移量K-means聚類分析特征屬性值不具有可比性,其值相互間不影響.
在基于標準偏移量K-means聚類分析與學科相關性分析過程中,對學科間具有相關性學科聚類分析結果進行對比分析,利用分析結果進行高考質量評價.在評價過程中,利用全市高考成績數據分析進行對比,得出評估結論,為高考質量評估提供一個新的途徑.
高考質量評價體系實驗數據分析中,選取齊齊哈爾市2014年普通高中理科14 489名考生、文科8 796名考生高考成績作為數據分析對象(為消除極值對實驗數據的影響,實驗數據已剔除總分小于180分及單科成績為0分的考生和非英語語種考生),對文理科分別進行相關性分析和標準偏移量K-means聚類分析,并得出數據分析結果.理科各學科間簡單相關系數見表3,文科各學科間簡單相關系數見表4.剔除其他學科影響而得理科一階偏相關系數和文科一階偏相關系數.
通過表3可以看出,理科中除語文、英語與總分相關系數高,與其他各學科相關系數值都很低,學科間相關關系不顯著;物理、化學、生物3科間相關系數值相對不高,這3個學科間簡單相關關系成顯著相關;其他學科間簡單相關系數值都很高,按照相關性顯著檢驗標準,這些學科間呈現極其顯著相關關系.
由表4可以看出,文科中除總分與各學科、文綜合與地理、歷史、政治學科相關系數高外,其他學科間相關系數都不高,即總分與各學科、文綜合與地理、歷史、政治學科呈極其顯著相關,其他各學科間呈顯著相關.

表3 理科各學科簡單相關系數

表4 文科各學科簡單相關系數
在學科間簡單相關系數基礎上,進行剔除第3科影響的一階偏相關系數計算,得出一階偏相關系數(見表5、表6).由表5可以看出,理科各學科間偏相關系數中,受數學學科影響程度較大,除綜合與物理、化學、生物外,剔除數學學科影響的兩學科間偏相關系數比簡單相關系數變化較大.例如:物理與化學學科間簡單相關系數為0.769 8,而剔除數學影響的偏相關系數為0.285 1;物理與生物學科間簡單相關系數為0.736 8,而剔除數學影響的偏相關系數為0.248 8.說明在物理和化學、物理和生物學科間受數學學科影響較大,這與數學學科基礎性性質相關聯.在總分和數學學科間,剔除第3科影響因素后,兩者之間偏相關系數仍然很顯著,如兩者簡單相關系數為0.884 3,剔除語文學科影響后,兩者偏相關系數為0.910 6.這說明總分與數學間關聯關系較為緊密,即如果數學學科成績高,總分相應成績也會較高;如果數學成績低,總分也會低.

表5 理科各學科一階偏相關系數
通過表6可以看出,文科各學科間,數學與總分的偏相關系數較高,兩學科間未受其他學科影響,兩學科間具有較強的關聯關系.地理、歷史、政治學科,在剔除語文學科影響后,偏相關系數都有所降低.例如:歷史和政治間的簡單相關系數為0.749 5,而剔除語文學科影響,其偏相關系數為0.461 7;地理和歷史學科間的簡單相關系數為0.717 6,而剔除語文學科影響,其偏相關系數為0.442 4.這說明在地理、歷史、政治學科中,受語文學科影響較大,這與語文學科的基礎屬性相關.

表6 文科各學科一階偏相關系數
按照標準偏移量K-means聚類分析算法,對實驗數據進行聚類分析,并將各個聚類項進行聚類項內平均分、標準差、最大值和最小值4個屬性值統計計算,理科4個屬性值見表7、表8.

表7 理科聚類項平均分與標準差統計
由表7可見,語文、數學、外語學科平均分中,除數學最大值聚類項數學成績高外,其他聚類項中數學成績都是最低的,與物理、化學、生物學科相比,數學成績也偏低;在各聚類項物理和化學平均分都較為接近,相對差別不大;標準差項除總分外,數學標準差較大,說明數學成績離散程度較大,數學差值變化較多,數學成績的變化必將影響到考生的成績變化.通過分析,也印證了在偏相關分析中的數學學科具有影響總分、物理、化學學科成績的結論.

表8 理科聚類項最大值與最小值統計
由表8可見,最大值項數學偏大,最小值項數學偏小;物理、化學與數學最大最小值變化具有一致性.
利用偏相關系數可以剔除其他學科因素影響,進而確定兩學科間的相關關系,并通過標準偏移量K-means聚類分析結果進行相關性驗證,找出學科間影響關系,實現了高考質量評價的目的.本文對全市整體數據進行評價分析,利用此方法對縣區、高中學校高考成績數據進行分析,并進行縣區、高中學校與全市間數據對比評估,將有助于提高縣區、高中學校的高考質量評價的效能.
[1] 汪朝杰.大學生在校成績與高考成績的統計分析研究[D].合肥:合肥工業大學,2012
[2] 曾水光.基于數據挖掘的河北省高考數據分析研究[D].石家莊:河北師范大學,2013
[3] 徐楊峰.數據挖掘在高考成績影響因素分析中的應用研究[D].蘇州:蘇州大學,2015
[4] 龐業偉.高考理科綜合成績相關性分析[J].廣西教育,2013(42):87-88
[5] 張峰,胡學鋼.基于關聯規則的高職學生成績分析應用研究[J].滁州學院學報,2011(2):103-106
[6] 華婷婷.K-means聚類算法研究[J].黃山學院學報,2013(5):17-19
[7] 孫菲,張健沛,董野,等.基于標準偏移量的K-means聚類分析算法研究[J].齊齊哈爾大學學報:自然科學版,2015(2):57-64
[8] 任福棟,張宏烈,孫景峰,等.簡單相關分析與偏相關分析在高考成績相關性分析中的對比研究[J].高師理科學刊,2014,34(2):24-27
Construction and implementation of college entrance examination quality evaluation system based on K-means cluster analysis and partial correlation analysis
SUN Jing-feng1,LI Xiu-li2,WANG Yan-bo2,OUYANG Xiao-song2,SHI Sheng-yong2,ZHANG Xin-rong2,ZOU Lu-lu2
(1. Qiqihar Experimental Middle School,Qiqihar 161006,China;2. Qiqihar Admission Office,Qiqihar 161006,China)
The college entrance examination scores of the college entrance examination scores among the disciplines partial correlation analysis,K-means clustering analysis of the analysis method, the construction of college entrance examination quality evaluation system of technical analysis method based on data mining,and the Qiqihar city college entrance examination scores and data evaluation system analysis.It aims that providing a new attempt for the college entrance examination quality evaluation method.
K-means cluster analysis;partial correlation analysis;quality evaluation system of college entrance examination
1007-9831(2016)09-0032-06
TP301.6
A
10.3969/j.issn.1007-9831.2016.09.010
2016-08-15
黑龍江省教育科學“十二五”規劃2013年度重點課題(JJB1213032)——基于數據挖掘技術的高考質量評價分析方法研究與應用
孫景峰(1966-),男,黑龍江齊齊哈爾人,副教授,博士,從事高中教學評價與高考成績分析研究.E-mail:sunjingfeng@163.com