趙 曦,李 穎
(廣東科學(xué)技術(shù)職業(yè)學(xué)院,廣東 珠海 519090)
高職院校學(xué)生綜合素質(zhì)培養(yǎng)對(duì)培養(yǎng)學(xué)生的創(chuàng)造性思維、社會(huì)實(shí)踐能力、健全人格等有重要作用,能促進(jìn)學(xué)生在知識(shí)結(jié)構(gòu)、能力結(jié)構(gòu)方面更加全面,培養(yǎng)學(xué)生的探索精神。對(duì)高校培養(yǎng)德才兼?zhèn)?、全面發(fā)展的中國(guó)特色社會(huì)主義合格的建設(shè)者和可靠的接班人具有重要意義。如何科學(xué)系統(tǒng)地評(píng)價(jià)大學(xué)生的綜合素質(zhì),是現(xiàn)代大學(xué)教育的一個(gè)重要研究課題。目前國(guó)內(nèi)學(xué)制研究主要集中在高職院校學(xué)生綜合素質(zhì)評(píng)價(jià)體系的構(gòu)建原則、構(gòu)建策略、構(gòu)建理論等方面。
高職院校綜合素質(zhì)評(píng)價(jià)體系仍存在缺少實(shí)證研究、指標(biāo)僵化、數(shù)據(jù)處理手段單一等問題。其主要原因是大學(xué)生的綜合素質(zhì)評(píng)價(jià)過程較為復(fù)雜、評(píng)價(jià)維度過大、指標(biāo)難以均衡。因此,利用數(shù)據(jù)挖掘算法,從大量的樣本數(shù)據(jù)中找出隱藏的規(guī)律,對(duì)高職學(xué)生綜合素質(zhì)進(jìn)行科學(xué)、有效、系統(tǒng)的評(píng)價(jià)具有重要的意義。國(guó)內(nèi)學(xué)者和專家已經(jīng)利用數(shù)據(jù)挖掘技術(shù)對(duì)高職綜合素質(zhì)評(píng)價(jià)數(shù)據(jù)進(jìn)行研究,也取得了很多成果。一些學(xué)者結(jié)合學(xué)生的大數(shù)據(jù),按照質(zhì)量評(píng)價(jià)體系對(duì)高職學(xué)生的綜合素質(zhì)評(píng)價(jià)進(jìn)行了研究,闡述了大數(shù)據(jù)在學(xué)生綜合素質(zhì)評(píng)價(jià)中的應(yīng)用價(jià)值和創(chuàng)新,構(gòu)建了優(yōu)化的評(píng)價(jià)模型。
應(yīng)用數(shù)據(jù)挖掘技術(shù)可以分析出數(shù)據(jù)中潛在有用的信息,一般可以分為描述性和預(yù)測(cè)性兩大類。描述性數(shù)據(jù)挖掘的目的是以簡(jiǎn)明、通用的方式提煉和總結(jié)大量復(fù)雜數(shù)據(jù),以便快速掌握數(shù)據(jù)的主要特征和信息;預(yù)測(cè)性數(shù)據(jù)挖掘強(qiáng)調(diào)推理,基于已知信息推斷未知或基于過去推斷未來。描述性數(shù)據(jù)挖掘技術(shù)包括聚類、摘要、主題發(fā)現(xiàn)、關(guān)鍵字提取和描述性統(tǒng)計(jì)等。預(yù)測(cè)性數(shù)據(jù)挖掘技術(shù)包括分類技術(shù)、回歸技術(shù)和關(guān)聯(lián)分析技術(shù)等。數(shù)據(jù)挖掘算法主要包括神經(jīng)網(wǎng)絡(luò)、決策樹、遺傳算法、蟻群算法、粒子群算法、粗糙集、關(guān)聯(lián)規(guī)則等。
本文使用神經(jīng)網(wǎng)絡(luò)算法進(jìn)行描述類數(shù)據(jù)挖掘。
神經(jīng)網(wǎng)絡(luò)通過類似人腦等生物神經(jīng)元的方式運(yùn)行,數(shù)據(jù)和信息被分布在神經(jīng)網(wǎng)絡(luò)的各個(gè)神經(jīng)元上,每個(gè)神經(jīng)元都有相應(yīng)的連接權(quán)值。由于人工神經(jīng)網(wǎng)絡(luò)不用先確定輸入層、輸出層之間的數(shù)學(xué)映射關(guān)系,僅通過多樣本的訓(xùn)練,即可在給定輸入值時(shí)得到最接近期望輸出值的結(jié)果,近幾年來,在模式識(shí)別、系統(tǒng)辨識(shí)、推薦系統(tǒng)、分類回歸、圖像與自然語(yǔ)言處理等應(yīng)用方面也獲得了極大發(fā)展。通過神經(jīng)網(wǎng)絡(luò)的處理,存儲(chǔ)數(shù)據(jù)和信息都是分布式的,每一個(gè)神經(jīng)元上都存有數(shù)據(jù)信息的一部分。所以,雖然根據(jù)某個(gè)單一權(quán)值并不能得到完整的存儲(chǔ)數(shù)據(jù)和信息,但是通過整個(gè)神經(jīng)網(wǎng)絡(luò),可以通過多個(gè)神經(jīng)元節(jié)點(diǎn)相關(guān)聯(lián)的聯(lián)想記憶獲得存儲(chǔ)的完整信息。神經(jīng)網(wǎng)絡(luò)對(duì)缺損的不完全數(shù)據(jù)可以進(jìn)行很好的處理,并且容錯(cuò)性良好,同時(shí)還有自適應(yīng)能力強(qiáng)、適合并行計(jì)算的優(yōu)點(diǎn)。
神經(jīng)網(wǎng)絡(luò)可以用來分類和聚類,Werbos 提出通過反向傳播算法解決多層網(wǎng)絡(luò)權(quán)值學(xué)習(xí)的問題,可以把帶有標(biāo)簽的輸入向量按照所定義的合適方式進(jìn)行分類,屬于有監(jiān)督學(xué)習(xí)。而由Teuvo Kohonen 在1981年提出自組織神經(jīng)網(wǎng)絡(luò)(SOM,Self Organizing Feature Map)也是人工神經(jīng)網(wǎng)絡(luò)的一種,該算法是一種無監(jiān)督學(xué)習(xí)網(wǎng)絡(luò),具有自組織映射功能,輸入層不需要標(biāo)簽信息。它把系統(tǒng)劃分為若干子系統(tǒng),每一個(gè)子系統(tǒng)對(duì)外界輸入都有不同的響應(yīng)。Kohonen 認(rèn)為,當(dāng)一個(gè)神經(jīng)網(wǎng)絡(luò)接收外界輸入時(shí),將會(huì)自動(dòng)地分為不同的對(duì)應(yīng)區(qū)域,每一個(gè)區(qū)域?qū)ν饨巛斎肽J蕉即嬖谥灰粯拥捻憫?yīng)特征。
SOM 模型的基本思想是當(dāng)從外界接收復(fù)雜的輸入模式時(shí),在輸出層中將形成不同的反應(yīng)區(qū)域和不同的響應(yīng)特征,所以不同位置的神經(jīng)元具有不同的功能劃分。因此,SOM 模型可以傳遞高維輸出數(shù)據(jù)映射到低維輸出空間,同時(shí)保留在高維空間的拓?fù)浣Y(jié)構(gòu)。
以輸出層為二維矩陣的網(wǎng)格為例,SOM 的輸出層由一系列組織在二維平面上的有序節(jié)點(diǎn)構(gòu)成,輸入節(jié)點(diǎn)與輸出節(jié)點(diǎn)通過權(quán)重向量連接。算法學(xué)習(xí)過程中,找到與輸入節(jié)點(diǎn)距離最短的輸出層單元節(jié)點(diǎn)作為獲勝單元,對(duì)其進(jìn)行更新。同時(shí),將獲勝單元鄰近區(qū)域的節(jié)點(diǎn)權(quán)值更新,使輸出節(jié)點(diǎn)保持輸入向量的拓?fù)涮卣鳌8呔S空間中的相似輸入樣本經(jīng)過算法映射到輸出層中的相鄰神經(jīng)元。
SOM 算法(如圖1 所示)步驟如下:

圖1 SOM 算法框架示意圖
(1)初始化,用較小的隨機(jī)數(shù)設(shè)定輸出層各權(quán)值向量的初始值W。
(2)輸入樣本向量x=(x,x,…,x)。
(3)計(jì)算歐氏距離,尋找獲勝神經(jīng)元,輸出神經(jīng)元相互競(jìng)爭(zhēng)激活的機(jī)會(huì),每次只有一個(gè)被激活。被激活的神經(jīng)元就叫作獲勝神經(jīng)元。由于存在這種競(jìng)爭(zhēng),神經(jīng)元被迫自我組織,形成自組織映射(SOM)。
歐氏距離計(jì)算公式如下:

其中w為輸出層第(i,j)個(gè)神經(jīng)元對(duì)應(yīng)的權(quán)值,這樣計(jì)算的歐氏距離取最小值,即可得出相似性最強(qiáng)的優(yōu)勝神經(jīng)元,記為j。
(4)通過鄰域半徑函數(shù)Uj(t)確定優(yōu)勝鄰域包含的節(jié)點(diǎn),一般通過高斯函數(shù)或者其他函數(shù)來設(shè)置優(yōu)勝鄰域,來確定對(duì)其近鄰節(jié)點(diǎn)的影響強(qiáng)弱。
(5)更新優(yōu)勝鄰域節(jié)點(diǎn)的權(quán)值。
公式如下:


(6)從第2 步開始重復(fù),直到滿足迭代次數(shù),或者學(xué)習(xí)率降到給定值。
學(xué)校和二級(jí)學(xué)院一般將綜合素質(zhì)評(píng)價(jià)作為標(biāo)準(zhǔn)來進(jìn)行評(píng)獎(jiǎng)評(píng)優(yōu)、就業(yè)推薦等,至于評(píng)價(jià)結(jié)果,通常的方法是根據(jù)加權(quán)分配后的計(jì)算結(jié)果進(jìn)行排名,或者使用“優(yōu)”“好”“合格”和“不合格”的等級(jí)作為定性結(jié)果。高職院校綜合素質(zhì)評(píng)價(jià)中最常見的方案是將評(píng)價(jià)指標(biāo)和結(jié)果視為簡(jiǎn)單的加權(quán)線性關(guān)系,例如,學(xué)年的綜合評(píng)價(jià)=學(xué)業(yè)成績(jī)×60%+綜合素質(zhì)成績(jī)×40%。至于綜合素質(zhì)成績(jī),則通過把每個(gè)學(xué)生的綜合素質(zhì)評(píng)價(jià)得分按照一定的標(biāo)準(zhǔn)進(jìn)行分類,例如分類為思想政治實(shí)踐、職業(yè)技能與職業(yè)素養(yǎng)、審美與人文素養(yǎng)、公益與志愿服務(wù)、品格與身心健康、創(chuàng)新創(chuàng)業(yè)實(shí)戰(zhàn)、勞動(dòng)實(shí)踐等,然后主觀地確定每項(xiàng)分類的權(quán)重,計(jì)算每項(xiàng)分類的得分,最后對(duì)這些具體指標(biāo)得分進(jìn)行加權(quán)計(jì)算。
職業(yè)教育以提高學(xué)生技術(shù)技能水平以及就業(yè)和創(chuàng)業(yè)能力為核心要素和關(guān)鍵環(huán)節(jié)。基于上述線性關(guān)系簡(jiǎn)單加權(quán)算出學(xué)生綜合評(píng)價(jià)分?jǐn)?shù),通過排名或者給出不同的等級(jí)進(jìn)行評(píng)價(jià),難以達(dá)到職業(yè)教育的目的。事實(shí)上,綜合素質(zhì)的評(píng)價(jià)內(nèi)容和評(píng)價(jià)結(jié)果之間存在非常復(fù)雜的非線性關(guān)系。因此,可采用數(shù)據(jù)挖掘算法,在各種評(píng)價(jià)數(shù)據(jù)中尋找聯(lián)系,減弱排名對(duì)學(xué)生綜合素質(zhì)評(píng)價(jià)的影響,使學(xué)生綜合素質(zhì)評(píng)價(jià)更加科學(xué)有效,為評(píng)價(jià)者提供決策支持。本文提出用SOM 對(duì)綜合素質(zhì)的各項(xiàng)評(píng)價(jià)得分進(jìn)行聚類,為下一步分類和評(píng)價(jià)提供重要參考。試驗(yàn)步驟如下:
(1)取樣本個(gè)數(shù)為300,依據(jù)樣本個(gè)數(shù),用試湊法測(cè)試,設(shè)置輸出層的最佳維度為10,然后進(jìn)行權(quán)值初始化,用(0,1)之間的隨機(jī)數(shù)設(shè)定輸出層權(quán)重。
本文設(shè)定了六個(gè)一級(jí)指標(biāo),從綜合素質(zhì)評(píng)價(jià)系統(tǒng)中提取包括思想政治、身心健康、創(chuàng)新創(chuàng)業(yè)、技術(shù)技能、志愿服務(wù)、人文藝術(shù)六個(gè)維度,選300 個(gè)2018 級(jí)計(jì)算機(jī)工程技術(shù)學(xué)院學(xué)生數(shù)據(jù)作為樣本,如表1 所示。

表1 輸入數(shù)據(jù)樣本
(2)設(shè)定輸入向量。依據(jù)上文,輸入?yún)?shù)為array([[1.,6.,8.,2.,7.,10.],[1.,7.,3.,0.,2.,6.],[4.,9.,4.,1.,2.5,4.],...,[ 2.,5.,2.,0.,3.5.,3.]])。
(3)初始學(xué)習(xí)率設(shè)置為0.5,設(shè)置優(yōu)勝領(lǐng)域的函數(shù)包括冒泡函數(shù)、高斯函數(shù)、墨西哥草帽函數(shù)等。
(4)以迭代次數(shù)作為算法結(jié)束條件。依據(jù)算法,輸出層為一個(gè)10*10 的二維的向量矩陣,其中每一個(gè)向量對(duì)應(yīng)一個(gè)權(quán)值,都和輸入層的維度相同,即六維。通過這個(gè)輸出層,可以得到每一個(gè)向量捕獲的樣本,再結(jié)合輸出層向量之間的距離,可以得到樣本的一個(gè)聚類。因此,算法完成后,得到最終的輸出矩陣保留了原來輸入層的拓?fù)浣Y(jié)構(gòu)。
最后通過輸出層的距離矩陣,用熱圖(heatmap)來展現(xiàn)數(shù)據(jù)的差異性,通過熱圖可視化,直觀了解數(shù)據(jù)的分布情況和差異情況。本文嘗試使用冒泡函數(shù)、高斯函數(shù)、墨西哥草帽函數(shù)(“bubble”,“gaussian”,“mexican_h(yuǎn)at”)三種函數(shù)作為設(shè)置優(yōu)勝鄰域半徑函數(shù),分別按照迭代次數(shù)50 次和200 次作為算法終止條件,得到聚類結(jié)果如圖2、圖3 所示,試驗(yàn)表明,通過墨西哥草帽函數(shù)迭代200 次具有相對(duì)較好的收斂性。

圖2 用“bubble”“gaussian”“mexican_h(yuǎn)at”作為鄰域半徑函數(shù)進(jìn)行聚類(迭代50 次)

圖3 用“bubble”“gaussian”“mexican_h(yuǎn)at”作為鄰域半徑函數(shù)進(jìn)行聚類(迭代200 次)
對(duì)于收斂性最好的聚類結(jié)果,通過統(tǒng)計(jì)輸出層每個(gè)神經(jīng)元被激活的次數(shù),可以得到一個(gè)合理有效的分類,此結(jié)果為一個(gè)10*10 的二維矩陣:[[0.,0.,0.,0.,0.,0.,0.,0.,0.,0.],...,[ 0.,0.,37.,26.,29.,0.,0.,0.,0.,0.],[0.,1.,34.,28.,27.,0.,0.,0.,0.,0.],[0.,0.,45.,56.,14.,0.,0.,0.,0.,0.],...,[ 0.,0.,0.,0.,0.,0.,0.,0.,0.,0.]]。因此可以將數(shù)據(jù)分為9 類,在此基礎(chǔ)上再進(jìn)行進(jìn)一步的分析與比較,更加科學(xué)、客觀、合理地進(jìn)行高職院校學(xué)生的綜合素質(zhì)評(píng)價(jià)。
SOM 是一種無監(jiān)督學(xué)習(xí)網(wǎng)絡(luò),通過自組織映射,把系統(tǒng)劃分為若干子系統(tǒng),每一個(gè)子系統(tǒng)對(duì)外界輸入有不同的響應(yīng),SOM 算法將完全保留輸入層的拓?fù)浣Y(jié)構(gòu)。本文選取了六個(gè)維度的300 份高職院校學(xué)生綜合素質(zhì)各類評(píng)分?jǐn)?shù)據(jù)作為樣本,利用SOM 進(jìn)行聚類分析,通過試驗(yàn),發(fā)現(xiàn)收斂性比較好的優(yōu)勝領(lǐng)域的函數(shù)設(shè)置,在此基礎(chǔ)上完成聚類,為進(jìn)一步研究科學(xué)、合理的評(píng)價(jià)和分類方式提供了依據(jù)。