999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

改進kmeans算法在學(xué)生消費畫像中的應(yīng)用

2021-10-28 05:09:02凌玉龍
計算機技術(shù)與發(fā)展 2021年10期
關(guān)鍵詞:學(xué)生

凌玉龍,張 曉,李 霞,張 勇

(1.西北工業(yè)大學(xué) 大數(shù)據(jù)存儲與管理工信部重點實驗室,陜西 西安 710129; 2.西北工業(yè)大學(xué) 學(xué)生資助服務(wù)中心,陜西 西安 710129)

0 引 言

學(xué)生群體肩負著祖國的未來,在社會中扮演著重要的角色,因此對學(xué)生的行為進行分析具有重大意義。數(shù)據(jù)挖掘作為一種從海量數(shù)據(jù)中獲取潛在知識的技術(shù),已經(jīng)在各個領(lǐng)域取得廣泛應(yīng)用。采用數(shù)據(jù)挖掘技術(shù)挖掘?qū)W生消費數(shù)據(jù)中潛在的知識可以充分發(fā)揮現(xiàn)有消費數(shù)據(jù)的作用,為學(xué)校管理人員的決策提供數(shù)據(jù)支持。

作為最經(jīng)典的數(shù)據(jù)挖掘算法之一,kmeans算法思想簡單,易于實現(xiàn),有著廣泛的應(yīng)用。隨著社會的發(fā)展,出現(xiàn)了一系列使用傳統(tǒng)kmeans算法難以解決的新問題和新場景,學(xué)術(shù)界針對傳統(tǒng)kmeans算法不斷進行改進以適應(yīng)這些場景。例如,謝修娟[1]為了從微博數(shù)據(jù)中發(fā)現(xiàn)熱點輿情,提出一種基于密度的初始聚類中心選擇算法,改進算法在微博數(shù)據(jù)集上擁有更高的準確性和穩(wěn)定性。馬漢達[2]針對傳統(tǒng)kmeans在Web日志挖掘中性能不高的缺點,提出了基于粒子群算法的改進kmeans算法,并在Hadoop上實現(xiàn)了并行化,實驗證明改進算法不僅提高了聚類準確率,而且提升了運行效率。Lutz[3]為了解決kmeans算法在GPU上效能較低的問題,針對kmeans算法每次迭代計算質(zhì)心的過程提出了一種新的算法來更新質(zhì)心,改進后的kmeans算法提高了20%的吞吐量。

如何利用校園消費數(shù)據(jù)分析學(xué)生群體行為,實現(xiàn)貧困生精確資助,提高學(xué)生學(xué)習(xí)生活質(zhì)量,保障學(xué)生安全,已經(jīng)成為高校急需解決的問題。隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,很多研究人員嘗試將數(shù)據(jù)挖掘技術(shù)與學(xué)生行為分析相結(jié)合[4-13],其中黃剛[14]和姜楠[15]的研究具有一定的代表性。這兩位學(xué)者在學(xué)生校園消費數(shù)據(jù)集上采用kmeans算法對學(xué)生進行聚類,分析學(xué)生的消費習(xí)慣和群體特征,并進行了畫像說明,為高校學(xué)生管理工作提供依據(jù)。但是他們的研究僅是將kmeans算法引入到學(xué)生行為分析領(lǐng)域,沒有考慮學(xué)生消費數(shù)據(jù)集本身的特點和kmeans算法隨機選擇初始聚類中心的缺點。

文中根據(jù)學(xué)生消費數(shù)據(jù)集的特點和kmeans算法隨機選擇初始聚類中心的不足,提出一種基于馬氏距離和密度的改進kmeans算法,并將其應(yīng)用于西安某高校的校園一卡通消費數(shù)據(jù)集上,對學(xué)生群體行為進行分析并構(gòu)建消費畫像,從大數(shù)據(jù)的角度探究了學(xué)生行為,同時推動了貧困生精準資助領(lǐng)域的發(fā)展。

1 理論介紹

本節(jié)分析了學(xué)生消費數(shù)據(jù)集的特點和kmeans算法選擇隨機初始聚類中心的不足,針對kmeans算法提出兩點改進以更好地適用于學(xué)生群體聚類場景。

1.1 歐氏距離和馬氏距離

經(jīng)典的kmeans算法采用歐氏距離計算樣本之間的距離,歐氏距離單純考慮數(shù)值上的距離,忽略了數(shù)據(jù)屬性之間的依賴性,將數(shù)據(jù)各個屬性之間的差別同等看待。但是大部分實際場景中的數(shù)據(jù)屬性之間并不是獨立的,各個屬性起到的作用也各不相同。

馬氏距離是歐氏距離的一種修正,其修正了歐氏距離中各個屬性尺度不一致且相關(guān)的問題。馬氏距離認為屬性之間是存在聯(lián)系的,所以在計算公式中引入了協(xié)方差。對于一個多變量向量x=(x1,x2,…,xp)T,設(shè)其均值為μ=(μ1,μ2,…,μp)T,協(xié)方差矩陣為Σ,則其馬氏距離定義為:

(1)

其中,T表示矩陣的轉(zhuǎn)置。如果數(shù)據(jù)之間獨立同分布,那么對應(yīng)的協(xié)方差矩陣就變成了單位陣,在這種情況下馬氏距離就變成了歐氏距離。

馬氏距離由于其設(shè)計思想會將某一微小變量的作用放大,這在某些應(yīng)用場景中可能會導(dǎo)致結(jié)果的過擬合。但是不同于其他應(yīng)用場景下的數(shù)據(jù),學(xué)生群體是一個具有高度相似性的群體,由于課業(yè)的安排和學(xué)校的規(guī)章制度,大部分學(xué)生的生活作息規(guī)律極其相似,學(xué)生的就餐時間、就餐地點、消費情況相對固定且有規(guī)律,不同學(xué)生的行為相差較小。由于學(xué)生消費數(shù)據(jù)的特點和馬氏距離的特點,該文認為采用馬氏距離代替歐氏距離的kmeans算法更適合對學(xué)生消費數(shù)據(jù)進行聚類分析。

1.2 初始聚類中心的選擇

kmeans算法是從樣本集合中隨機選擇k個樣本作為初始聚類中心,這種初始化聚類中心的思想沒有考慮到數(shù)據(jù)的分布情況和離群樣本點的影響,很可能會產(chǎn)生較差的聚類結(jié)果。雖然隨機選擇初始聚類中心的kmeans算法的聚類效果可能不好,但是無論初始聚類中心怎么選擇,經(jīng)過一系列迭代后得到的最終聚類中心的周邊的點都是高密度點,即這些聚類中心周邊的點都比較密集,不會存在離群樣本點。

文中選擇初始聚類中心的改進思想為:在高密度樣本集上應(yīng)用最小最大原則得到k個樣本作為初始聚類中心。具體步驟如下:

(1)運行一次kmeans算法,得到k個聚類中心;

(2)選擇與k個聚類中心距離最近的一定比例(記為percent)的樣本作為高密度樣本集;

(3)從高密度樣本集中隨機選擇一個樣本作為第一個初始聚類中心;

(4)從剩下的高密度樣本集中選擇距離已有的初始聚類中心最遠的樣本作為第2個初始聚類中心;

(5)重復(fù)執(zhí)行步驟(4)直到初始聚類中心中包含k個樣本。

上述步驟中percent的值過大會引入噪聲樣本點,過小又會使得高密度樣本集中樣本數(shù)據(jù)過少。經(jīng)過綜合考慮,文中設(shè)置percent為20%。這個參數(shù)并不是固定不變的,可以根據(jù)數(shù)據(jù)集的具體情況進行調(diào)整。

在高密度數(shù)據(jù)集上應(yīng)用最小最大原則得到的k個初始聚類中心,既考慮到了數(shù)據(jù)的分布情況,又可以避免離群樣本點的干擾。文中基于上述兩點改進思想實現(xiàn)了改進的kmeans算法(記做Improve-Kmeans算法),并將其應(yīng)用于學(xué)生消費數(shù)據(jù)集,以更好地描述學(xué)生群體的共性與特性。

2 實驗分析

2.1 實驗環(huán)境與數(shù)據(jù)

文中以西安某高校2019年03月—2019年06月的17、18級碩士研究生的一卡通消費數(shù)據(jù)作為樣本集,原始數(shù)據(jù)由學(xué)校信息中心提供,其格式如表1所示。

表1 一卡通消費數(shù)據(jù)集(部分)

原始的一卡通消費數(shù)據(jù)集中不僅包含所有學(xué)生的一卡通消費記錄,還包含部分教職工及學(xué)校管理人員的數(shù)據(jù),這些數(shù)據(jù)屬于噪聲數(shù)據(jù),分析這些噪聲數(shù)據(jù)會對挖掘結(jié)果產(chǎn)生一定程度的影響。因此,文中的首要工作就是從原始數(shù)據(jù)集中去除噪聲數(shù)據(jù)(在校學(xué)生之外的所有其他人的消費數(shù)據(jù))。

一卡通消費數(shù)據(jù)集中只記錄著每一次消費的記錄,對單一記錄進行分析無法得出有用的結(jié)論,只有根據(jù)具體需求構(gòu)建合適的特征后才能應(yīng)用于聚類算法中,使數(shù)據(jù)挖掘更有針對性,從而提高算法性能。

為了全面刻畫學(xué)生的特點,文中從多個角度分層提取了學(xué)生消費特征。表2展示了這些特征的基本信息。

表2 學(xué)生消費特征

2.2 實驗方法

為了確定Improve-Kmeans算法中k的取值,通過對處理后的學(xué)生消費數(shù)據(jù)集進行k=1到8的聚類實驗,得到k在不同取值下聚類結(jié)果的誤差平方和(sum of the squared errors,SSE),具體步驟如下:

(1)設(shè)k=1,運行Improve-Kmeans算法;

(2)記錄k=1下得到的各個聚類中心及樣本所屬的類別;

(3)按照公式(2)計算組內(nèi)方差SSE,并記錄;

(4)設(shè)k=2到8,重復(fù)執(zhí)行步驟(1)~步驟(3)。

(2)

式中,ci是聚類結(jié)果中的第i個類,p是ci中的樣本點,mi是ci的聚類中心(即ci中所有樣本的均值)。

實驗結(jié)果如圖1所示。

圖1 不同k值下聚類結(jié)果的SSE

從圖1中可以看到,隨著k值的增大,SSE逐漸減小,且在k=3時SSE的減小幅度開始減緩,這表明最佳聚類數(shù)為3。

為了減少實驗誤差,文中運行Improve-Kmeans算法16次,每次聚類得到的SSE和輪廓系數(shù)見表3。從表中可以看出,在第11次實驗時,SSE值最小且輪廓系數(shù)最大,因此文中選擇該次實驗結(jié)果得到的學(xué)生群體畫像進行分析。

表3 16次實驗的SSE和輪廓系數(shù)

文中設(shè)計了兩個實驗:

(1)使用Improve-Kmeans算法對學(xué)生刻畫群體消費畫像,并對畫像進行解釋分析,應(yīng)用畫像的結(jié)果為學(xué)校管理人員提供決策支持;

(2)將Improve-Kmeans算法得到的貧困生數(shù)據(jù)與學(xué)校線下認定的貧困生數(shù)據(jù)進行對比分析,以輔助高校精準資助活動。

2.3 學(xué)生群體消費畫像

文中從三個角度:(1)3個類的聚類中心點;(2)3類學(xué)生對應(yīng)的原始數(shù)據(jù)的平均值;(3)3類學(xué)生對應(yīng)的原始數(shù)據(jù)的分布情況,分析學(xué)生群體的消費特征。

表4列出了第I、II、III類學(xué)生群體的聚類中心點,圖2描述了3類學(xué)生群體對應(yīng)的原始數(shù)據(jù)的平均值,圖3描述了3類學(xué)生群體對應(yīng)的原始數(shù)據(jù)的分布情況。

表4 學(xué)生群體聚類中心

圖2 3類學(xué)生的原始消費數(shù)據(jù)的平均值

圖3 3類學(xué)生的原始消費數(shù)據(jù)的分布

從圖2中可以看出,對于第I類群體,其午餐平均消費、晚餐平均消費明顯比第III類群體低,同時比第II類群體高,說明其消費水平在三類群體中居中。其食堂消費天數(shù)接近第III類群體且明顯高于第II類群體,說明這類學(xué)生頻繁在食堂就餐。其午晚餐差額比例明顯低于第II類群體,說明這類學(xué)生的飲食比較規(guī)律。周內(nèi)在校天數(shù)和周末在校天數(shù)接近第III類群體且明顯高于第II類群體,說明這類學(xué)生經(jīng)常在校。早起次數(shù)比例接近第II類群體且明顯低于第II類群體,說明這類學(xué)生同樣很少早起,屬于懶癌患者。綜上分析,第I類學(xué)生符合大部分正常學(xué)生的消費情況。

對于第II類群體,其午餐平均消費、晚餐平均消費明顯比第I和III類群體高,說明其消費水平是三類群體中最高的。其食堂消費天數(shù)最低且明顯低于其他兩類群體,說明這類學(xué)生很少在食堂吃飯。其午晚餐差額比例最高且明顯高于其他兩類群體,說明這類學(xué)生經(jīng)常性的只吃單餐,飲食不規(guī)律,很可能是經(jīng)常點外賣。周內(nèi)在校天數(shù)和周末在校天數(shù)最低且明顯低于其他兩類學(xué)生,說明這類學(xué)生喜歡經(jīng)常離校。早起次數(shù)比例最低,且明顯低于第III類群體,說明這類學(xué)生很少早起。綜上分析,第II類學(xué)生符合小富群體的行為特點。

對于第III類群體,其午餐平均消費、晚餐平均消費最低且明顯比第I和II類群體低,說明其消費水平是三類群體中最低的。其食堂消費天數(shù)最高且明顯高于其他兩類群體,說明這類學(xué)生是最頻繁在食堂就餐的學(xué)生。其午晚餐差額比例接近第I類群體且明顯低于第II類群體,說明這類學(xué)生的飲食比較規(guī)律,午晚餐消費次數(shù)基本上相同。周內(nèi)在校天數(shù)和周末在校天數(shù)最高且明顯高于第II類群體,說明這類學(xué)生是最常在校的學(xué)生。早起次數(shù)比例最高且明顯高于其他兩類群體,說明這類學(xué)生擁有早起的好習(xí)慣。綜上分析,第III類學(xué)生符合貧困生群體的行為特點。

表4中的“所屬類包含的樣本數(shù)量”列的結(jié)果也能驗證學(xué)生群體分類結(jié)果。第III類貧困生群體共415人,占總?cè)藬?shù)的7.64%,符合該校研究生中的貧困生數(shù)量和比例,第I類普通學(xué)生群體共4 133人,占總?cè)藬?shù)的76.16%,基本上也符合現(xiàn)實情況。

圖3是3類學(xué)生群體在消費特征上對應(yīng)數(shù)據(jù)的箱型圖,橫坐標代表學(xué)生群體,縱坐標代表各類群體在各特征上原始數(shù)據(jù)的分布情況,文中以第III類群體為例分析此類群體的消費特點。從圖中可以看出第III類群體在特征:午餐消費金額、晚餐消費金額、食堂消費天數(shù)、午晚餐差額比例、周內(nèi)在校天數(shù)、周末在校天數(shù)上的四分位距明顯比第II類群體小,說明第III類群體在這些特征上數(shù)據(jù)的分布比較集中,波動范圍小,消費習(xí)慣比較規(guī)律。

在特征:午餐消費金額,晚餐消費金額,午晚餐差額比例上的最大值、最小值、中位數(shù)、上下限比第I和第II類群體小,說明這類群體的消費水平較低。在特征:食堂消費天數(shù),周內(nèi)在校天數(shù),周末在校天數(shù)的最大值、最小值、中位數(shù)、上下限明顯比第I和第II類群體大,說明這類群體是最經(jīng)常在校內(nèi)就餐、很少離校。在早起次數(shù)比例上的各特征明顯高于其他兩類群體,說明這些學(xué)生喜歡早起,有著良好的習(xí)慣。綜上,第III類群體可以認定是有著良好生活和消費習(xí)慣、基本上不離校且消費水平較低的貧困生。各個群體消費數(shù)據(jù)波動程度的分析結(jié)果和上面各個群體聚類中心的分析結(jié)果相同。

2.4 聚類標記的貧困生分析

為了驗證Improve-Kmeans算法標記貧困生的效果,文中獲取了學(xué)校線下認定的2017級和2018級的貧困生名單,共349人。聚類標記與線下認定的貧困生名單重合率為47%,分析原因可能有兩方面:(1)Improve-Kmeans算法還需要進一步完善以更好地適應(yīng)高校貧困生認定的應(yīng)用環(huán)境;(2)線下貧困認定名單具有很大的不確定性,老師、學(xué)生很多情況下是通過申請表、平時的認知(甚至并不認識)來進行貧困認定,可能存在誤判的情況。因此文中以午餐平均消費水平和食堂就餐天數(shù)兩個特征為例,研究兩種方法中不重合的學(xué)生的消費情況:分別統(tǒng)計僅在聚類標記名單中出現(xiàn)的貧困生和僅在線下認定名單中出現(xiàn)的貧困生的午餐平均消費水平和食堂就餐天數(shù),并繪制對應(yīng)的概率密度曲線,如圖4所示。

(a)午餐平均消費金額概率密度曲線 (b)食堂消費天數(shù)概率密度曲線圖4 消費水平的概率密度曲線

從圖4(a)中可以看出,聚類標記貧困生的密度曲線比線下認定貧困生的密度曲線更加集中,這意味著聚類標記的貧困生比學(xué)生認定的貧困生的午餐平均消費金額波動更小,更加穩(wěn)定。

從圖4(b)中可以看出,聚類標記貧困生的密度曲線所處的位置明顯比線下認定貧困生的密度曲線所處的位置整體偏右,這意味著聚類標記的貧困生更偏向于在食堂就餐。

從午餐平均消費和食堂消費天數(shù)兩個指標上可以看出,相比沒有加入數(shù)據(jù)挖掘算法的線下貧困認定而言,基于客觀消費數(shù)據(jù)聚類挖掘貧困生的方法更加適用。

聚類標記貧困生方法和線下認定貧困生方法的總結(jié)如下:

(1)聚類標記貧困生的目標是找出消費水平低的貧困生,不考慮任何人為因素,單純從客觀的學(xué)生消費數(shù)據(jù)出發(fā),挖掘各個群體的學(xué)生的消費水平,找出消費水平較低的貧困生。但是沒有考慮到學(xué)生家庭條件、健康情況、家庭人口情況和是否低保戶等信息;

(2)線下貧困生認定的目標是找出家庭經(jīng)濟情況困難的貧困生,以學(xué)生家庭收入情況、健康情況、家庭人口情況和是否低保戶等信息為標準,按照流程進行貧困生認定。但是沒有考慮學(xué)生的消費數(shù)據(jù),難以發(fā)現(xiàn)沒有申請貧困認定的隱藏貧困生和申請了貧困認定的偽貧困生。

具體的貧困生認定工作可以結(jié)合這兩種方式的優(yōu)點:對于聚類標記認定的貧困生(或只考慮客觀消費數(shù)據(jù)的挖掘算法挖掘出的貧困生)可以發(fā)放專項的貧困生助學(xué)基金;對于線下流程化認定的貧困生可以按照國家的要求發(fā)放貧困生補貼。

文中算法不僅可以用來輔助貧困生的認定,還為以后更深入地利用數(shù)據(jù)挖掘相關(guān)技術(shù)研究高校精準資助活動提供了支持,值得進一步研究。

3 結(jié)束語

為了全面了解學(xué)生的行為特點,文中從學(xué)生群體的角度出發(fā),利用學(xué)生校園消費數(shù)據(jù)研究不同學(xué)生群體行為特征的相似性與差異性。采用適合校園消費數(shù)據(jù)場景的Improve-Kmeans聚類算法對研究生的消費數(shù)據(jù)集進行聚類,分析不同學(xué)生群體的消費特征,進行畫像說明。同時對比分析了聚類得到的貧困生的消費數(shù)據(jù)和線下認定的貧困生的消費數(shù)據(jù),為貧困生認定工作提出了改進意見,為高校的精準資助工作提供數(shù)據(jù)支持,為學(xué)生的校園學(xué)習(xí)生活保駕護航。

猜你喜歡
學(xué)生
快把我哥帶走
親愛的學(xué)生們,你們并沒有被奪走什么
英語文摘(2020年9期)2020-11-26 08:10:12
如何喚醒學(xué)生自信心
甘肅教育(2020年6期)2020-09-11 07:45:16
怎樣培養(yǎng)學(xué)生的自信
甘肅教育(2020年22期)2020-04-13 08:10:54
如何加強學(xué)生的養(yǎng)成教育
甘肅教育(2020年20期)2020-04-13 08:04:42
“學(xué)生提案”
《李學(xué)生》定檔8月28日
電影(2018年9期)2018-11-14 06:57:21
趕不走的學(xué)生
學(xué)生寫話
學(xué)生寫的話
主站蜘蛛池模板: 亚洲黄色成人| 国产香蕉在线视频| 色AV色 综合网站| 亚洲首页在线观看| 四虎成人在线视频| 亚洲一区免费看| 色综合综合网| 亚洲中文字幕在线一区播放| 伊人狠狠丁香婷婷综合色 | 一区二区三区国产精品视频| 国产成人精品亚洲77美色| 91精品视频网站| 国产毛片基地| 在线免费不卡视频| 日本欧美一二三区色视频| 成人午夜网址| 婷婷亚洲视频| 欧美日韩免费| 久一在线视频| 亚洲性色永久网址| 成人精品区| 国产精品一区二区无码免费看片| 国产精品无码AⅤ在线观看播放| 2021精品国产自在现线看| 萌白酱国产一区二区| 国产成人高清精品免费5388| 免费jjzz在在线播放国产| 国产网站黄| jizz在线观看| 九九热免费在线视频| 欧美va亚洲va香蕉在线| AV色爱天堂网| 日韩专区欧美| 亚洲区视频在线观看| 伊人久热这里只有精品视频99| 婷婷六月在线| 国产幂在线无码精品| 国产欧美又粗又猛又爽老| 国产精品综合色区在线观看| 国产一区二区福利| 国产永久无码观看在线| 无码中文字幕加勒比高清| 国产成人AV综合久久| 99资源在线| 国产精品私拍在线爆乳| 亚洲va在线观看| 污网站在线观看视频| 综合亚洲网| 欧美日韩一区二区三区四区在线观看| 在线无码九区| 国产91熟女高潮一区二区| 园内精品自拍视频在线播放| 手机在线看片不卡中文字幕| 美女被操91视频| 精品国产免费第一区二区三区日韩 | 国产成人精品一区二区三区| 国产簧片免费在线播放| 国产美女一级毛片| 午夜欧美理论2019理论| 国产熟女一级毛片| 国产成人在线无码免费视频| 国产欧美精品专区一区二区| 91精品国产91欠久久久久| 国产在线自在拍91精品黑人| 无码乱人伦一区二区亚洲一| 亚洲精品成人片在线观看| 亚洲欧洲日产无码AV| 在线a网站| 亚洲成网777777国产精品| 幺女国产一级毛片| 国产美女91呻吟求| 国产成人一区| 国产91精品最新在线播放| 不卡午夜视频| 国产免费a级片| 亚洲乱码精品久久久久..| 国产一区成人| 国产成人凹凸视频在线| 多人乱p欧美在线观看| 成人精品免费视频| 91欧美在线| 欧美日韩精品综合在线一区|