劉大蓮,田英杰
(1.北京聯(lián)合大學(xué) 數(shù)理部,北京 100101;2.北京聯(lián)合大學(xué) 數(shù)理與交叉科學(xué)研究院,北京 100101;3.中國(guó)科學(xué)院虛擬經(jīng)濟(jì)與數(shù)據(jù)科學(xué)研究中心,北京 100190)
當(dāng)代社會(huì),隨著信息技術(shù)的突飛猛進(jìn),高等學(xué)校的教育教學(xué)改革的深入化也受到了深刻的影響。尤其處于大數(shù)據(jù)時(shí)代,數(shù)據(jù)挖掘的各種方法被應(yīng)用到教育行業(yè)[1-6],為尋找更好的教育教學(xué)方法提供了新思路。學(xué)生成績(jī)?cè)诟叩葘W(xué)校里不但是衡量學(xué)校人才培養(yǎng)水平的一個(gè)重要指標(biāo),同時(shí)也是教育大數(shù)據(jù)中的一個(gè)重要內(nèi)容。由于學(xué)生成績(jī)具有數(shù)據(jù)類(lèi)型相對(duì)統(tǒng)一,數(shù)據(jù)量較大,相對(duì)容易獲取等特點(diǎn),因此依據(jù)恰當(dāng)?shù)臄?shù)據(jù)挖掘技術(shù),對(duì)學(xué)生成績(jī)進(jìn)行不同角度的深入挖掘和分析,從而得到指導(dǎo)教學(xué)的新方法或新理論的研究成為高等學(xué)校教學(xué)改革的一個(gè)研究熱點(diǎn)。丁智斌等[7]利用決策樹(shù)中的ID3 算法對(duì)學(xué)生成績(jī)進(jìn)行分析,從而得出了影響學(xué)生成績(jī)的內(nèi)部原因及一些其他相關(guān)結(jié)論。喻鐵朔等[8]是基于支持向量機(jī)(support vector machine,SVM)等4 種數(shù)據(jù)挖掘的方法對(duì)學(xué)生成績(jī)進(jìn)行預(yù)測(cè),從不同角度對(duì)4 種模型進(jìn)行對(duì)比,得出不同模型適用于不同課程的結(jié)論,對(duì)高校學(xué)生課程成績(jī)預(yù)測(cè)。鐘文精等[9]基于k-means聚類(lèi)算法,對(duì)學(xué)生成績(jī)進(jìn)行聚類(lèi)分析,為進(jìn)行深入的教學(xué)改革和設(shè)計(jì)提供數(shù)據(jù)依據(jù)。本文依據(jù)可拓?cái)?shù)據(jù)挖掘中的幾種重要算法及皮爾遜相關(guān)系數(shù),對(duì)北京某高校經(jīng)管類(lèi)學(xué)生的數(shù)學(xué)課程相關(guān)成績(jī)進(jìn)行多角度深入分析,從而得到一些和教學(xué)相關(guān)的重要結(jié)論,為改進(jìn)教學(xué)方法,提高教學(xué)質(zhì)量給出合理化建議。
可拓學(xué)是由廣東工業(yè)大學(xué)蔡文研究員創(chuàng)立的一門(mén)原創(chuàng)學(xué)科。在眾多專(zhuān)家學(xué)者的不懈努力下,歷經(jīng)30 余年的潛心研究,建立了可拓論體系和可拓創(chuàng)新方法體系[10-18]。可拓?cái)?shù)據(jù)挖掘[19-20]是將可拓學(xué)的理論和方法與挖掘數(shù)據(jù)的方法技術(shù)相結(jié)合的一門(mén)新技術(shù),可拓支持向量機(jī)[21]就是其中一種經(jīng)典機(jī)器學(xué)習(xí)算法與可拓理論深入結(jié)合而產(chǎn)生的新算法。與標(biāo)準(zhǔn)的支持向量分類(lèi)機(jī)不同,可拓支持向量機(jī)是解決可拓分類(lèi)問(wèn)題的,其在進(jìn)行標(biāo)準(zhǔn)分類(lèi)問(wèn)題預(yù)測(cè)的同時(shí),更注重于找到那些通過(guò)變化分量(特征)的值而轉(zhuǎn)換類(lèi)別的樣本,這樣的樣本稱(chēng)為可拓樣本,而相應(yīng)的變量稱(chēng)為可拓變量。
算法可拓支持向量分類(lèi)機(jī)算法(ESVM)
1) 給定訓(xùn)練集:其 中xi∈Rn,yi∈Y={1,?1},i=1,2,···,lxkj。給定可拓樣本 的可拓變量 的可拓區(qū)間選擇合適的懲罰參數(shù)C>0;
2)構(gòu)造并求解最優(yōu)化問(wèn)題:

5) 對(duì)于輸入xk,首先用決策函數(shù)f(xk)得到其對(duì)應(yīng)的預(yù)測(cè)類(lèi)別yk,然后用其可拓變量對(duì)應(yīng)的可拓區(qū)間分別代替 [xk]j,這樣對(duì) |E|個(gè)可拓變量,就得到 2|E|個(gè) 不同的組合值。相應(yīng)的,基于xk得到了 2|E|個(gè)新的輸入,分別用決策函數(shù)來(lái)判斷,若有一個(gè)被判斷為 ?yk,則認(rèn)為該輸入是可變換的。
可拓k-means[22]基于可拓學(xué)中點(diǎn)x與區(qū)間X0=的距離定義,提出了一種選取k-means算法初始聚類(lèi)中心的新方法,算法描述如下:

3)遍歷排序好的可拓距,將其中首個(gè)大于樣本間可拓平均左側(cè)距的可拓距對(duì)應(yīng)中心點(diǎn)坐標(biāo)作為第一個(gè)初始聚類(lèi)中心;
4)計(jì)算排好序可拓距中下一個(gè)值對(duì)應(yīng)中心點(diǎn)坐標(biāo)并依次計(jì)算出其與已確定的初始聚類(lèi)中心的可拓距,將其與樣本平均可拓右測(cè)距進(jìn)行比較,若其均大于,則該中心點(diǎn)坐標(biāo)作為下一個(gè)初始聚類(lèi)中心;否則重新執(zhí)行步驟4;
5)如果遍歷一次后,初始聚類(lèi)中心未達(dá)到K,則按式(1)計(jì)算出縮小因子η,動(dòng)態(tài)縮小樣本平均可拓右側(cè)距,重新回到步驟3;

式中:k′為每次遍歷后所獲得的初始聚類(lèi)中心個(gè)數(shù);K為指定聚類(lèi)中心數(shù)
6)若聚類(lèi)中心數(shù)達(dá)到K時(shí),則完成初始聚類(lèi)中心的選取。
Pearson 相關(guān)系數(shù)[23]用于分析定量數(shù)據(jù),當(dāng)數(shù)據(jù)滿(mǎn)足正態(tài)分布時(shí)可用Pearson 相關(guān)系數(shù)查看變量間相關(guān)性。其公式為

式中:相關(guān)系數(shù)r的取值范圍為 ?1 ≤r≤1 。r>0為正相關(guān),r<0 為負(fù)相關(guān),0 <|r| <1表示相關(guān)程度。
收集了北京聯(lián)合大學(xué)2018—2019 學(xué)年包括旅游學(xué)院、管理學(xué)院和商務(wù)學(xué)院3 個(gè)學(xué)院共計(jì)929 名學(xué)生的數(shù)據(jù),包括經(jīng)管類(lèi)概率論與數(shù)理統(tǒng)計(jì)(I)課程的平時(shí)作業(yè)、期中和期末考試成績(jī)等。根據(jù)期末試卷的5 道客觀題(記為kg_1~kg_5)和10 道主觀題(記為zg_6~zg15)共15 道題目,總結(jié)出15 個(gè)主要的知識(shí)點(diǎn)。為便于分析,我們把每個(gè)學(xué)生的知識(shí)點(diǎn)掌握描述成一個(gè)15 維向量,向量的每個(gè)分量即為該生在某個(gè)知識(shí)點(diǎn)上的掌握程度。而知識(shí)點(diǎn)的掌握程度則根據(jù)學(xué)生的平時(shí)作業(yè)成績(jī)、期中和期末試卷上考核相應(yīng)知識(shí)點(diǎn)的得分,綜合計(jì)算得到。最后根據(jù)每個(gè)學(xué)生期末試卷的考試總成績(jī)的及格與否把學(xué)生分成正負(fù)兩類(lèi),及格為正類(lèi),不及格為負(fù)類(lèi)。這樣把所有學(xué)生組成一個(gè)大小為929 的兩類(lèi)分類(lèi)問(wèn)題的數(shù)據(jù)集1,記為S1。
收集了我北京聯(lián)合大學(xué)2018—2019 學(xué)年包括旅游學(xué)院、管理學(xué)院和商務(wù)學(xué)院3 個(gè)學(xué)院共計(jì)841 名學(xué)生的數(shù)據(jù),包括微積分(II)課程的平時(shí)作業(yè)、期中和期末考試成績(jī)等。根據(jù)期末試卷的6 道客觀題(記為kg_1~kg_6)和12 道主觀題(記為zg_7~zg_18)共18 道題目,總結(jié)出18 個(gè)主要的知識(shí)點(diǎn)。同上述S1數(shù)據(jù)處理類(lèi)似,我們把每個(gè)學(xué)生的知識(shí)點(diǎn)掌握描述成一個(gè)18 維向量,根據(jù)每個(gè)學(xué)生期末試卷的考試總成績(jī)的及格與否把學(xué)生分成正負(fù)兩類(lèi)。這樣把所有學(xué)生組成一個(gè)大小為841 的兩類(lèi)分類(lèi)問(wèn)題的數(shù)據(jù)集2,記為S2。
下面將基于S1和S2進(jìn)行學(xué)生成績(jī)特點(diǎn)的挖掘分析。
基于成績(jī)數(shù)據(jù)集1,探索哪些知識(shí)點(diǎn)是影響學(xué)生及格與否的主要因素,從而檢測(cè)試卷是否滿(mǎn)足出題意愿;進(jìn)一步,對(duì)每個(gè)學(xué)生,可以給出決定其及格與否的某個(gè)或某幾個(gè)具體題目,以便學(xué)生以后有所側(cè)重學(xué)習(xí)。
首先,對(duì)建立的訓(xùn)練集S1={(x1,y1),(x2,y2),···,(xl,yl)}∈(Rn×Y)l,其中xi∈R15,yi∈Y={1,?1},i=1,2,···,929,利用5-折交叉驗(yàn)證方法,選取最優(yōu)的參數(shù)C和徑向基核函數(shù)參數(shù),并用最優(yōu)參數(shù)對(duì)整個(gè)訓(xùn)練集進(jìn)行訓(xùn)練,得到最終的決策函數(shù)。利用此決策函數(shù)進(jìn)行規(guī)則抽取[24],可以得到基本的分類(lèi)規(guī)則,我們這里將分類(lèi)規(guī)則按照決策樹(shù)的形式表示如圖1 所示。

圖1 分類(lèi)規(guī)則圖Fig.1 Classification rule diagram
由圖1 可以看出,據(jù)此規(guī)則得到的節(jié)點(diǎn)數(shù)為13,葉子節(jié)點(diǎn)數(shù)為 7,樹(shù)的最大深度為 5,最基本的區(qū)分規(guī)則是選擇那些對(duì)學(xué)生是否及格判斷起主要作用的題型及題號(hào)。從樹(shù)中可以看出在眾多規(guī)則中zg_15,zg_14,zg_11,zg_6 都被作為分枝的因素。從根節(jié)點(diǎn)帶有特征取值范圍來(lái)看,根節(jié)點(diǎn)的兩個(gè)分支分別代表兩類(lèi)學(xué)生成績(jī)分布,一類(lèi)是zg_15 的得分大于5.5 分,另一類(lèi)是zg_15 得分小于5.5 分。
從根節(jié)點(diǎn)的左分支中關(guān)于zg_11 得分是否大于7.5 的分支對(duì)比觀察中可以發(fā)現(xiàn),即便學(xué)生對(duì)zg_11 得分小于8.5,學(xué)生的及格率依然很高,由此可見(jiàn),對(duì)該分支的進(jìn)一步挖掘,可以找出更加具備辨識(shí)度的特征以及取值范圍。
從根節(jié)點(diǎn)的右分支出發(fā),我們可以發(fā)現(xiàn),第個(gè)二分支節(jié)點(diǎn)判斷的特征為zg_14 的得分是否小于等于3.5。從選擇人數(shù)上看,zg_14 的得分大于3.5 的學(xué)生比相應(yīng)得分小于3.5 的人數(shù)高出468人,但是在zg_14 得分超過(guò)3.5 的同學(xué)不及格的概率更高。由此可見(jiàn),在眾多主觀題中,zg_15 對(duì)學(xué)生的成績(jī)及格影響更高,而zg_14 對(duì)是否成績(jī)及格的概率呈現(xiàn)出較低的相關(guān)性,所以導(dǎo)致在14 號(hào)主觀題得分高的同學(xué)在最后的及格率分析中影響度不高。
將上述分析進(jìn)一步總結(jié)到規(guī)則表1,從中可以看出,影響學(xué)生對(duì)概率統(tǒng)計(jì)及格率的主要因素有以下3 點(diǎn):

表1 S1 及格率規(guī)則Table 1 Pass rate rules of S1
1)第15 號(hào)主觀題:從5 條分支規(guī)則中可以發(fā)現(xiàn),將第15 號(hào)主觀題得分作為根節(jié)點(diǎn)分支范圍的合計(jì)人數(shù)最多,由此可以推斷第15 號(hào)主觀題是影響學(xué)生對(duì)于概率統(tǒng)計(jì)課程及格率的主要因素。
2)第14 號(hào)主觀題:在所有的規(guī)則中同樣也對(duì)第14 號(hào)主觀題的得分范圍進(jìn)行了劃分,基于前面的第15 題的分支背景,第14 號(hào)主觀題的取值范圍也有了相應(yīng)的調(diào)整。
3)第11 號(hào)主觀題:在規(guī)則表中,存在前饋規(guī)則一致的兩條規(guī)則。第11 號(hào)主觀題的得分是否超過(guò)7.5 分是區(qū)分他們的關(guān)鍵。
另外,從結(jié)果上看,對(duì)規(guī)則主要的考慮因素也集中在主觀題型中,而客觀題影響度較低。為了進(jìn)一步探究一張?jiān)嚲碇懈鱾€(gè)題型之間的重要性,我們對(duì)概率統(tǒng)計(jì)試卷上的題型進(jìn)行了影響度可視化操作,可視化結(jié)果如圖2 所示。

圖2 各題影響度可視化圖Fig.2 Impact of each question
主觀題第15 題zg_15 作為影響學(xué)生概率統(tǒng)計(jì)及格的重要因素,該現(xiàn)象在管理學(xué)院、旅游學(xué)院尤為明顯。主要原因在于zg_15 得分難度低,導(dǎo)致該題得高分的同學(xué)較多;對(duì)于其他的主觀題,例如zg_14 和zg_11 也有類(lèi)似的趨勢(shì)。而反觀客觀題的影響比例,可以看到影響力幾乎為0,原因在于客觀題題型分值較小,且相對(duì)得分容易獲得,所以導(dǎo)致客觀題所占的影響力整體較低。結(jié)合上述表1 的分析研究,絕大多數(shù)及格學(xué)生的提分關(guān)鍵在于第11、14 和15 號(hào)主觀題。
在上面已得到普遍規(guī)律的前提下,進(jìn)一步分析影響每個(gè)學(xué)生是否及格的關(guān)鍵知識(shí)點(diǎn):
因每個(gè)題目學(xué)生得分都有不同,所以每個(gè)題目對(duì)應(yīng)的變量都是可拓變量。首先定義所有題目j(j=1,2,···,15) 的可拓區(qū)間,即 [aj,bj]。這里將每個(gè)題目不得分和得最高分設(shè)為可拓區(qū)間上下界,即aj=0,bj為該題目的得分。針對(duì)每個(gè)學(xué)生xk的每個(gè)題目對(duì)應(yīng)的變量,用其可拓變量對(duì)應(yīng)的可拓區(qū)間分別代替 [xk]j和 [yk]j,這樣對(duì) |E|=15個(gè)可拓變量,就得到 215個(gè)不同的組合值。相應(yīng)的,基于xk,利用決策函數(shù)得到了 215新的輸入,分別用決策函數(shù)來(lái)判斷,若有一個(gè)被判斷為 ?yk,則認(rèn)為該輸入是可變換的。
以學(xué)生t1為例,我們得到kg_4,zg_13 是影響其及格與否的2 個(gè)關(guān)鍵題目,即如果學(xué)生t1在kg_4和zg_13 對(duì)應(yīng)的知識(shí)點(diǎn)掌握程度從最低變?yōu)樽罡叩那闆r下,其將由不及格而變成及格;而對(duì)于學(xué)生t2,同理可知學(xué)生對(duì)kg_2,zg_13,zg_15 對(duì)應(yīng)的知識(shí)點(diǎn)掌握程度是影響其及格與否的關(guān)鍵。
基于成績(jī)數(shù)據(jù)集S2,我們擬分析學(xué)生成績(jī)分布的整個(gè)規(guī)律.首先建立數(shù)據(jù)集S2={(x1,y1),(x2,y2),···,(xl,yl)},其 中xi∈R18,yi∈Y={1,?1},i=1,2,···,841。為了對(duì)數(shù)據(jù)有整體的了解和把握,以便于進(jìn)一步從不同角度進(jìn)行分析。首先,我們對(duì)數(shù)據(jù)利用t-SNE 方法進(jìn)行降維和可視化展示,圖3(a)是微積分(II)課程的全體成績(jī)分布圖。可以發(fā)現(xiàn),圖中的成績(jī)數(shù)據(jù)分布較為緊密,緊密的樣本分布為數(shù)據(jù)聚類(lèi)添加了難度。同時(shí),為了驗(yàn)證“同一學(xué)院的學(xué)生,該門(mén)課程的總體水平較為接近”這一設(shè)想,我們按照學(xué)院劃分,將管理學(xué)院、旅游學(xué)院和商務(wù)學(xué)院的學(xué)生成績(jī)作為不同類(lèi)別的數(shù)據(jù),利用t-SNE 方法進(jìn)行降維和可視化展示,如圖3(b) 所示。很明顯看出,結(jié)果和我們預(yù)期吻合。(可視化圖均為示意圖,坐標(biāo)無(wú)實(shí)際意義。)

圖3 整體數(shù)據(jù)可視化圖Fig.3 Visualization of the overall data
對(duì)于具有上述特征的數(shù)據(jù),采用上述1.2 節(jié)中所闡述的基于可拓距的k-means 聚類(lèi)算法,把k分別取為3、4、5,并利用t-SNE 方法進(jìn)行降維和可視化展示得到如下結(jié)果(如圖4),可以看出k=3 時(shí)效果比較好。

圖4 k-means 可視化圖Fig.4 Visualization of k-means
進(jìn)一步,我們對(duì)聚類(lèi)的3 類(lèi)進(jìn)行分析,對(duì)每一類(lèi)中所有點(diǎn)的每個(gè)分量求均值,探索每類(lèi)的特點(diǎn),得到表2。可以看出類(lèi)別2 與1,3 在各個(gè)題目對(duì)應(yīng)的知識(shí)點(diǎn)掌握程度都有明顯區(qū)別,也就是類(lèi)別2 的學(xué)生,幾乎對(duì)所有知識(shí)點(diǎn)掌握都較差,這些學(xué)生需要全面補(bǔ)習(xí);而類(lèi)別1 和3 之間只在某些知識(shí)點(diǎn)上取值差別稍大,比如zg_18。

表2 k=3 聚類(lèi)分析表Table 2 k=3 Cluster analysis table
基于數(shù)據(jù)集S1,利用Pearson 相關(guān)系數(shù)進(jìn)行相關(guān)性分析,結(jié)果如圖5 所示,其中顏色越深代表著相關(guān)性越大。可以發(fā)現(xiàn):正對(duì)角線(xiàn)代表著當(dāng)前特征與特征自身的相關(guān)性計(jì)算值,正對(duì)角線(xiàn)上的值均為1,顏色最深。其余部分代表著當(dāng)前特征與其他特征的相關(guān)性計(jì)算,顏色的深淺代表著相關(guān)性的強(qiáng)弱。具體而言:客觀題kg_1,kg_2,kg_3,kg_4,kg_5 之間相關(guān)性熱力圖顏色為淺綠色,說(shuō)明它們之間相關(guān)性較弱,但是總體保持著正相關(guān)的關(guān)系。據(jù)此可以推斷,客觀題一道題的得分情況對(duì)另外一題的得分情況影響較低,或者說(shuō)題目本身考查的知識(shí)點(diǎn)不相關(guān)。而主觀題之間的相關(guān)性則更加復(fù)雜。根據(jù)主觀題之間的相關(guān)性熱力圖分布,它們之間存在負(fù)相關(guān)和正相關(guān)兩種相關(guān)關(guān)系。相關(guān)性的數(shù)值越接近1 或-1,說(shuō)明兩組數(shù)據(jù)之間正向或反向線(xiàn)性關(guān)聯(lián)越強(qiáng)。例如,zg_6 與zg_7、zg_7 與zg_8,zg_8 與zg_9 之間的相關(guān)性熱力圖顏色為黃色,說(shuō)明它們之間的相關(guān)性為負(fù)相關(guān)。與之相反的情況為:zg_7 與zg_9、zg_11 與zg_12 之間的相關(guān)性熱力圖顏色為藍(lán)色,說(shuō)明具有很強(qiáng)的正相關(guān)性,兩個(gè)特征的相關(guān)密切程度比較高。此時(shí)就要引起注意,試卷中zg_7 與zg_9、zg_11 與zg_12 之間是否考察知識(shí)點(diǎn)重合,還是題目難易程度相近引起的高度相關(guān)。如果出現(xiàn)命題知識(shí)點(diǎn)重合,是否符合我們考核的目的,從而對(duì)考試后試卷命題合理性分析給出提示。

圖5 題目相關(guān)性熱力圖Fig.5 Correlation map
本文主要基于可拓?cái)?shù)據(jù)挖掘的幾種重要方法及皮爾遜相關(guān)系數(shù),對(duì)高校學(xué)生成績(jī)利用不同模型,從不同角度進(jìn)行分析,從而分析影響學(xué)生成績(jī)的主要題目,探索學(xué)生對(duì)知識(shí)點(diǎn)的掌握程度。進(jìn)一步,對(duì)每個(gè)學(xué)生,可以給出決定其及格與否的某個(gè)或某幾個(gè)具體知識(shí)點(diǎn),以便學(xué)生以后有所側(cè)重學(xué)習(xí)。試卷中各題目相關(guān)性強(qiáng)弱分析的結(jié)論,也對(duì)課程考核等方面給出合理化指導(dǎo)和建議。將不斷發(fā)展的、前沿的科學(xué)技術(shù)、科研方法應(yīng)用于不斷深化改革的教育教學(xué)中,同時(shí)也對(duì)長(zhǎng)期沉睡的龐大的學(xué)生成績(jī)數(shù)據(jù)加以充分利用,教學(xué)促進(jìn)科研,科研反哺教學(xué),起到了示范作用。采用的相關(guān)算法是我們精心選取的算法,針對(duì)相關(guān)成績(jī)數(shù)據(jù)分析有一定的優(yōu)勢(shì)。將來(lái)我們可以進(jìn)一步深入研究,探討如何將解決矛盾問(wèn)題的可拓學(xué)和機(jī)器學(xué)習(xí)的相關(guān)算法深度融合,起到如虎添翼的作用。深究如何進(jìn)一步將科研的方法應(yīng)用到教育大數(shù)據(jù)中,從而對(duì)推進(jìn)教學(xué)改革,進(jìn)一步提高高校教學(xué)質(zhì)量做出貢獻(xiàn)。同時(shí)也希望上述分析能起到拋磚引玉的作用。