基于SOM 的高職學(xué)生綜合素質(zhì)評(píng)價(jià)數(shù)據(jù)聚類研究

2022-03-12 13:30:32趙曦，李穎

中國(guó)管理信息化 2022年3期

趙曦，李穎

（廣東科學(xué)技術(shù)職業(yè)學(xué)院，廣東珠海 519090）

0 引言

高職院校學(xué)生綜合素質(zhì)培養(yǎng)對(duì)培養(yǎng)學(xué)生的創(chuàng)造性思維、社會(huì)實(shí)踐能力、健全人格等有重要作用，能促進(jìn)學(xué)生在知識(shí)結(jié)構(gòu)、能力結(jié)構(gòu)方面更加全面，培養(yǎng)學(xué)生的探索精神。對(duì)高校培養(yǎng)德才兼?zhèn)?、全面發(fā)展的中國(guó)特色社會(huì)主義合格的建設(shè)者和可靠的接班人具有重要意義。如何科學(xué)系統(tǒng)地評(píng)價(jià)大學(xué)生的綜合素質(zhì)，是現(xiàn)代大學(xué)教育的一個(gè)重要研究課題。目前國(guó)內(nèi)學(xué)制研究主要集中在高職院校學(xué)生綜合素質(zhì)評(píng)價(jià)體系的構(gòu)建原則、構(gòu)建策略、構(gòu)建理論等方面。

高職院校綜合素質(zhì)評(píng)價(jià)體系仍存在缺少實(shí)證研究、指標(biāo)僵化、數(shù)據(jù)處理手段單一等問題。其主要原因是大學(xué)生的綜合素質(zhì)評(píng)價(jià)過程較為復(fù)雜、評(píng)價(jià)維度過大、指標(biāo)難以均衡。因此，利用數(shù)據(jù)挖掘算法，從大量的樣本數(shù)據(jù)中找出隱藏的規(guī)律，對(duì)高職學(xué)生綜合素質(zhì)進(jìn)行科學(xué)、有效、系統(tǒng)的評(píng)價(jià)具有重要的意義。國(guó)內(nèi)學(xué)者和專家已經(jīng)利用數(shù)據(jù)挖掘技術(shù)對(duì)高職綜合素質(zhì)評(píng)價(jià)數(shù)據(jù)進(jìn)行研究，也取得了很多成果。一些學(xué)者結(jié)合學(xué)生的大數(shù)據(jù)，按照質(zhì)量評(píng)價(jià)體系對(duì)高職學(xué)生的綜合素質(zhì)評(píng)價(jià)進(jìn)行了研究，闡述了大數(shù)據(jù)在學(xué)生綜合素質(zhì)評(píng)價(jià)中的應(yīng)用價(jià)值和創(chuàng)新，構(gòu)建了優(yōu)化的評(píng)價(jià)模型。

應(yīng)用數(shù)據(jù)挖掘技術(shù)可以分析出數(shù)據(jù)中潛在有用的信息，一般可以分為描述性和預(yù)測(cè)性兩大類。描述性數(shù)據(jù)挖掘的目的是以簡(jiǎn)明、通用的方式提煉和總結(jié)大量復(fù)雜數(shù)據(jù)，以便快速掌握數(shù)據(jù)的主要特征和信息；預(yù)測(cè)性數(shù)據(jù)挖掘強(qiáng)調(diào)推理，基于已知信息推斷未知或基于過去推斷未來。描述性數(shù)據(jù)挖掘技術(shù)包括聚類、摘要、主題發(fā)現(xiàn)、關(guān)鍵字提取和描述性統(tǒng)計(jì)等。預(yù)測(cè)性數(shù)據(jù)挖掘技術(shù)包括分類技術(shù)、回歸技術(shù)和關(guān)聯(lián)分析技術(shù)等。數(shù)據(jù)挖掘算法主要包括神經(jīng)網(wǎng)絡(luò)、決策樹、遺傳算法、蟻群算法、粒子群算法、粗糙集、關(guān)聯(lián)規(guī)則等。

本文使用神經(jīng)網(wǎng)絡(luò)算法進(jìn)行描述類數(shù)據(jù)挖掘。

1 神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)通過類似人腦等生物神經(jīng)元的方式運(yùn)行，數(shù)據(jù)和信息被分布在神經(jīng)網(wǎng)絡(luò)的各個(gè)神經(jīng)元上，每個(gè)神經(jīng)元都有相應(yīng)的連接權(quán)值。由于人工神經(jīng)網(wǎng)絡(luò)不用先確定輸入層、輸出層之間的數(shù)學(xué)映射關(guān)系，僅通過多樣本的訓(xùn)練，即可在給定輸入值時(shí)得到最接近期望輸出值的結(jié)果，近幾年來，在模式識(shí)別、系統(tǒng)辨識(shí)、推薦系統(tǒng)、分類回歸、圖像與自然語(yǔ)言處理等應(yīng)用方面也獲得了極大發(fā)展。通過神經(jīng)網(wǎng)絡(luò)的處理，存儲(chǔ)數(shù)據(jù)和信息都是分布式的，每一個(gè)神經(jīng)元上都存有數(shù)據(jù)信息的一部分。所以，雖然根據(jù)某個(gè)單一權(quán)值并不能得到完整的存儲(chǔ)數(shù)據(jù)和信息，但是通過整個(gè)神經(jīng)網(wǎng)絡(luò)，可以通過多個(gè)神經(jīng)元節(jié)點(diǎn)相關(guān)聯(lián)的聯(lián)想記憶獲得存儲(chǔ)的完整信息。神經(jīng)網(wǎng)絡(luò)對(duì)缺損的不完全數(shù)據(jù)可以進(jìn)行很好的處理，并且容錯(cuò)性良好，同時(shí)還有自適應(yīng)能力強(qiáng)、適合并行計(jì)算的優(yōu)點(diǎn)。

神經(jīng)網(wǎng)絡(luò)可以用來分類和聚類，Werbos 提出通過反向傳播算法解決多層網(wǎng)絡(luò)權(quán)值學(xué)習(xí)的問題，可以把帶有標(biāo)簽的輸入向量按照所定義的合適方式進(jìn)行分類，屬于有監(jiān)督學(xué)習(xí)。而由Teuvo Kohonen 在1981年提出自組織神經(jīng)網(wǎng)絡(luò)（SOM，Self Organizing Feature Map）也是人工神經(jīng)網(wǎng)絡(luò)的一種，該算法是一種無監(jiān)督學(xué)習(xí)網(wǎng)絡(luò)，具有自組織映射功能，輸入層不需要標(biāo)簽信息。它把系統(tǒng)劃分為若干子系統(tǒng)，每一個(gè)子系統(tǒng)對(duì)外界輸入都有不同的響應(yīng)。Kohonen 認(rèn)為，當(dāng)一個(gè)神經(jīng)網(wǎng)絡(luò)接收外界輸入時(shí)，將會(huì)自動(dòng)地分為不同的對(duì)應(yīng)區(qū)域，每一個(gè)區(qū)域?qū)ν饨巛斎肽Ｊ蕉即嬖谥灰粯拥捻憫?yīng)特征。

2 SOM 算法

SOM 模型的基本思想是當(dāng)從外界接收復(fù)雜的輸入模式時(shí)，在輸出層中將形成不同的反應(yīng)區(qū)域和不同的響應(yīng)特征，所以不同位置的神經(jīng)元具有不同的功能劃分。因此，SOM 模型可以傳遞高維輸出數(shù)據(jù)映射到低維輸出空間，同時(shí)保留在高維空間的拓?fù)浣Y(jié)構(gòu)。

以輸出層為二維矩陣的網(wǎng)格為例，SOM 的輸出層由一系列組織在二維平面上的有序節(jié)點(diǎn)構(gòu)成，輸入節(jié)點(diǎn)與輸出節(jié)點(diǎn)通過權(quán)重向量連接。算法學(xué)習(xí)過程中，找到與輸入節(jié)點(diǎn)距離最短的輸出層單元節(jié)點(diǎn)作為獲勝單元，對(duì)其進(jìn)行更新。同時(shí)，將獲勝單元鄰近區(qū)域的節(jié)點(diǎn)權(quán)值更新，使輸出節(jié)點(diǎn)保持輸入向量的拓?fù)涮卣鳌８呔S空間中的相似輸入樣本經(jīng)過算法映射到輸出層中的相鄰神經(jīng)元。

SOM 算法（如圖1 所示）步驟如下：

圖1 SOM 算法框架示意圖

（1）初始化，用較小的隨機(jī)數(shù)設(shè)定輸出層各權(quán)值向量的初始值W。

（2）輸入樣本向量x＝（x，x，…，x）。

（3）計(jì)算歐氏距離，尋找獲勝神經(jīng)元，輸出神經(jīng)元相互競(jìng)爭(zhēng)激活的機(jī)會(huì)，每次只有一個(gè)被激活。被激活的神經(jīng)元就叫作獲勝神經(jīng)元。由于存在這種競(jìng)爭(zhēng)，神經(jīng)元被迫自我組織，形成自組織映射（SOM）。

歐氏距離計(jì)算公式如下：

其中w為輸出層第（i，j）個(gè)神經(jīng)元對(duì)應(yīng)的權(quán)值，這樣計(jì)算的歐氏距離取最小值，即可得出相似性最強(qiáng)的優(yōu)勝神經(jīng)元，記為j。

（4）通過鄰域半徑函數(shù)Uj（t）確定優(yōu)勝鄰域包含的節(jié)點(diǎn)，一般通過高斯函數(shù)或者其他函數(shù)來設(shè)置優(yōu)勝鄰域，來確定對(duì)其近鄰節(jié)點(diǎn)的影響強(qiáng)弱。

（5）更新優(yōu)勝鄰域節(jié)點(diǎn)的權(quán)值。

公式如下：

（6）從第2 步開始重復(fù)，直到滿足迭代次數(shù)，或者學(xué)習(xí)率降到給定值。

3 基于SOM 的高職綜合素質(zhì)評(píng)價(jià)數(shù)據(jù)聚類

學(xué)校和二級(jí)學(xué)院一般將綜合素質(zhì)評(píng)價(jià)作為標(biāo)準(zhǔn)來進(jìn)行評(píng)獎(jiǎng)評(píng)優(yōu)、就業(yè)推薦等，至于評(píng)價(jià)結(jié)果，通常的方法是根據(jù)加權(quán)分配后的計(jì)算結(jié)果進(jìn)行排名，或者使用“優(yōu)”“好”“合格”和“不合格”的等級(jí)作為定性結(jié)果。高職院校綜合素質(zhì)評(píng)價(jià)中最常見的方案是將評(píng)價(jià)指標(biāo)和結(jié)果視為簡(jiǎn)單的加權(quán)線性關(guān)系，例如，學(xué)年的綜合評(píng)價(jià)＝學(xué)業(yè)成績(jī)×60%＋綜合素質(zhì)成績(jī)×40%。至于綜合素質(zhì)成績(jī)，則通過把每個(gè)學(xué)生的綜合素質(zhì)評(píng)價(jià)得分按照一定的標(biāo)準(zhǔn)進(jìn)行分類，例如分類為思想政治實(shí)踐、職業(yè)技能與職業(yè)素養(yǎng)、審美與人文素養(yǎng)、公益與志愿服務(wù)、品格與身心健康、創(chuàng)新創(chuàng)業(yè)實(shí)戰(zhàn)、勞動(dòng)實(shí)踐等，然后主觀地確定每項(xiàng)分類的權(quán)重，計(jì)算每項(xiàng)分類的得分，最后對(duì)這些具體指標(biāo)得分進(jìn)行加權(quán)計(jì)算。

職業(yè)教育以提高學(xué)生技術(shù)技能水平以及就業(yè)和創(chuàng)業(yè)能力為核心要素和關(guān)鍵環(huán)節(jié)。基于上述線性關(guān)系簡(jiǎn)單加權(quán)算出學(xué)生綜合評(píng)價(jià)分?jǐn)?shù)，通過排名或者給出不同的等級(jí)進(jìn)行評(píng)價(jià)，難以達(dá)到職業(yè)教育的目的。事實(shí)上，綜合素質(zhì)的評(píng)價(jià)內(nèi)容和評(píng)價(jià)結(jié)果之間存在非常復(fù)雜的非線性關(guān)系。因此，可采用數(shù)據(jù)挖掘算法，在各種評(píng)價(jià)數(shù)據(jù)中尋找聯(lián)系，減弱排名對(duì)學(xué)生綜合素質(zhì)評(píng)價(jià)的影響，使學(xué)生綜合素質(zhì)評(píng)價(jià)更加科學(xué)有效，為評(píng)價(jià)者提供決策支持。本文提出用SOM 對(duì)綜合素質(zhì)的各項(xiàng)評(píng)價(jià)得分進(jìn)行聚類，為下一步分類和評(píng)價(jià)提供重要參考。試驗(yàn)步驟如下：

（1）取樣本個(gè)數(shù)為300，依據(jù)樣本個(gè)數(shù)，用試湊法測(cè)試，設(shè)置輸出層的最佳維度為10，然后進(jìn)行權(quán)值初始化，用（0，1）之間的隨機(jī)數(shù)設(shè)定輸出層權(quán)重。

本文設(shè)定了六個(gè)一級(jí)指標(biāo)，從綜合素質(zhì)評(píng)價(jià)系統(tǒng)中提取包括思想政治、身心健康、創(chuàng)新創(chuàng)業(yè)、技術(shù)技能、志愿服務(wù)、人文藝術(shù)六個(gè)維度，選300 個(gè)2018 級(jí)計(jì)算機(jī)工程技術(shù)學(xué)院學(xué)生數(shù)據(jù)作為樣本，如表1 所示。

表1 輸入數(shù)據(jù)樣本

（2）設(shè)定輸入向量。依據(jù)上文，輸入?yún)?shù)為array（［［1.，6.，8.，2.，7.，10.］，［1.，7.，3.，0.，2.，6.］，［4.，9.，4.，1.，2.5，4.］，...，［ 2.，5.，2.，0.，3.5.，3.］］）。

（3）初始學(xué)習(xí)率設(shè)置為0.5，設(shè)置優(yōu)勝領(lǐng)域的函數(shù)包括冒泡函數(shù)、高斯函數(shù)、墨西哥草帽函數(shù)等。

（4）以迭代次數(shù)作為算法結(jié)束條件。依據(jù)算法，輸出層為一個(gè)10*10 的二維的向量矩陣，其中每一個(gè)向量對(duì)應(yīng)一個(gè)權(quán)值，都和輸入層的維度相同，即六維。通過這個(gè)輸出層，可以得到每一個(gè)向量捕獲的樣本，再結(jié)合輸出層向量之間的距離，可以得到樣本的一個(gè)聚類。因此，算法完成后，得到最終的輸出矩陣保留了原來輸入層的拓?fù)浣Y(jié)構(gòu)。

最后通過輸出層的距離矩陣，用熱圖（heatmap）來展現(xiàn)數(shù)據(jù)的差異性，通過熱圖可視化，直觀了解數(shù)據(jù)的分布情況和差異情況。本文嘗試使用冒泡函數(shù)、高斯函數(shù)、墨西哥草帽函數(shù)（“bubble”，“gaussian”，“mexican＿h(yuǎn)at”）三種函數(shù)作為設(shè)置優(yōu)勝鄰域半徑函數(shù)，分別按照迭代次數(shù)50 次和200 次作為算法終止條件，得到聚類結(jié)果如圖2、圖3 所示，試驗(yàn)表明，通過墨西哥草帽函數(shù)迭代200 次具有相對(duì)較好的收斂性。

圖2 用“bubble”“gaussian”“mexican＿h(yuǎn)at”作為鄰域半徑函數(shù)進(jìn)行聚類（迭代50 次）

圖3 用“bubble”“gaussian”“mexican＿h(yuǎn)at”作為鄰域半徑函數(shù)進(jìn)行聚類（迭代200 次）

對(duì)于收斂性最好的聚類結(jié)果，通過統(tǒng)計(jì)輸出層每個(gè)神經(jīng)元被激活的次數(shù)，可以得到一個(gè)合理有效的分類，此結(jié)果為一個(gè)10*10 的二維矩陣：［［0.，0.，0.，0.，0.，0.，0.，0.，0.，0.］，...，［ 0.，0.，37.，26.，29.，0.，0.，0.，0.，0.］，［0.，1.，34.，28.，27.，0.，0.，0.，0.，0.］，［0.，0.，45.，56.，14.，0.，0.，0.，0.，0.］，...，［ 0.，0.，0.，0.，0.，0.，0.，0.，0.，0.］］。因此可以將數(shù)據(jù)分為9 類，在此基礎(chǔ)上再進(jìn)行進(jìn)一步的分析與比較，更加科學(xué)、客觀、合理地進(jìn)行高職院校學(xué)生的綜合素質(zhì)評(píng)價(jià)。

4 結(jié)論

SOM 是一種無監(jiān)督學(xué)習(xí)網(wǎng)絡(luò)，通過自組織映射，把系統(tǒng)劃分為若干子系統(tǒng)，每一個(gè)子系統(tǒng)對(duì)外界輸入有不同的響應(yīng)，SOM 算法將完全保留輸入層的拓?fù)浣Y(jié)構(gòu)。本文選取了六個(gè)維度的300 份高職院校學(xué)生綜合素質(zhì)各類評(píng)分?jǐn)?shù)據(jù)作為樣本，利用SOM 進(jìn)行聚類分析，通過試驗(yàn)，發(fā)現(xiàn)收斂性比較好的優(yōu)勝領(lǐng)域的函數(shù)設(shè)置，在此基礎(chǔ)上完成聚類，為進(jìn)一步研究科學(xué)、合理的評(píng)價(jià)和分類方式提供了依據(jù)。