999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

RFM及K-Means模型下的貧困生評定建模方法

2021-09-19 10:07:44肖永欽
武夷學院學報 2021年6期
關鍵詞:分析模型學生

肖永欽

(福建師范大學 網絡與數據中心,福建 福州 350117)

近年來,國家高度重視貧困生資助問題,并做出決不讓一個學生因家庭經濟困難而失學的偉大承諾[1]。相信在國家的大力扶持下,學生因貧困而退學的情況將徹底成為歷史。同時,另一個問題也浮出水面—如何科學且合適的將這些資金準確的分發給各位貧困生?目前貧困生的界定[2]主要是通過民政局證明、學生老師推薦、平時觀察等方式,主觀性因素大,不精準且不利于維護學生們的自尊心[3]。而高校信息化的快速發展,積累了學生的大量過程數據,還有相當一部分的實時數據,為解決貧困生的問題提供了可能。通過大數據[4]分析挖掘的手段,可以實現貧困生的識別更加精準、貧困級別智能評定、學生在校消費水平和生活困難指數,客觀呈現公正全面、洞悉真實貧困狀況,找出真正的貧困學生,使得貧困關懷、國家獎學金、助學獎學金等頒發更加公平、客觀[5]。同時可以幫助他們減輕他們在接受補助時的心里壓力,維護他們的自尊心,做到合理的分配[6]。

謝桂陽等[7]介紹提出的FM(factorization machines)模型,通過業務系統原始數據收集、有效數據抽取、數據探索與預處理、建模和應用、結果與反饋五個步驟科學建立了可反饋的模型,可實現實時更新,能夠更加準確的鎖定貧困生范圍,科學調用歷史數據,全面分析所有學生,在大數據的整體分析下大大增加了預選貧困生的貧困真實性,為評出貧困團體提供重要參考數據。然而該模型需要依賴學校有貧困生標準樣本的數據,再利用FM模型進行訓練,進而模型預測。但目前大部分學校是沒有貧困生標準樣本的數據。提出基于RFM和K-Means模型建立的方法來分析校園貧困生,可以擺脫這種困境,輔助老師進行貧困生識別。

1 基本原理和方法

1.1 RFM模型

RFM模型[8-9]是衡量客戶價值和客戶創利能力的重要工具和手段,該模型通過一個客戶的近期購買行為、購買的總體頻率以及消費總額3項指標來描述該客戶的價值狀況。

R(recency):最近一次消費間隔。R值越大,表示用戶最近一次消費的時間距離現在越久。R指標反應了用戶對品牌的熟悉度和回購頻率。

F(frequency):消費頻率。用戶在規定時段內的消費次數。F值越大,表示客戶在最近一段時間交易次數越多。F指標反應了用戶對品牌的忠誠度及購買習慣是否養成。

M(monetary):消費金額。用戶在一段時間內的消費金額。M值越大,表示客戶消費能力越大。M指標反應了用戶價值和產品認可度。

圖1 RFM模型示意圖Fig.1 RFM model diagram

在該模型下,如果分析學校貧困生,實際上是需要識別出里面價值最低的用戶,同時需要進行一些調整。

(1)在模型中,消費金額表示在一段時間內,客戶消費金額的總和。因學生有的可能在外面進行勤工儉學不在學校就餐,最近消費時間間隔以及消費頻率與貧困生的識別關聯性不強。

(2)傳統模型分析是利用屬性分箱方法進行分析,但是此方法細分的客戶群太多,需要一一識別客戶特征和行為。我們采用月平均消費總額(M)和平均每餐就餐金額(A)兩個指標進行分析。

1.2 分析目標

(1)借助學生一卡通消費數據,提取月度消費總額和月度每餐平均消費額,對學生進行分類;

(2)采用聚類的方法對學生進行類別劃分;

(3)對不同的學生類別進行特征分析,比較不同類學生的貧困程度;

(4)對不同貧困類別的學生提供個性化的服務,制定相應的扶貧策略。

1.3 數據源分析

原始數據中存在有的學生沒有在學校就餐的情況,這有可能是學生在外就餐、通過網絡平臺叫外賣、在外勤工儉學、家住附近等原因造成的;對于當月就餐次數未達到60%的,從當月的數據分析窗口中剔除。

1.4 數據預處理

(1)數據清洗

從業務以及建模的相關需要方面考慮,篩選出需要的數據。

丟棄當月就餐次數未達到70%的數據。

計算月度消費總額和月度每餐平均消費金額。

(2)屬性規約

原始數據中屬性太多,根據MA模型,選擇與其相關的屬性,刪除不相干、弱相關或冗余的屬性。

(3)數據變換

進行屬性構造和數據標準化工作。

屬性構造:因原始數據中并沒有直接給出M、A這2個指標,需要構造這2個指標:

a)M:月度平均消費總額=消費總金額/跨越的月數量。

b)A:每餐平均消費金額=消費總金額/就餐的次數。

數據標準化:在建模過程中,數據標準化狹義上指把數據歸一化到0到1之間,歸一化的方法有0均值標準化、min-max標準化等。廣義上指把數據變換到一個較小的范圍內,數據變換的方法也有很多,如取平方根,除以固定值等。因為M指標和A指標的取值范圍差異較大,對于后續建模會有影響,為了消除數量級數據帶來的影響,需要對數據進行標準化處理。通過實驗對比,本模型中選用0均值標準化算法:

x=(x-μ)/σ

式中μ為所有樣本數據的均值,σ為所有樣本數據的標準差。

1.5 構建模型

(1)學生K-Means聚類[10-12]分析

K-means算法是一種用于機器學習的迭代求解算法,算法實現步驟如下:

第一步,為了達到聚類分簇的目的,k個聚類是由n個數據對象劃分而成,通過使每個聚類中的數據與該聚類中心距離的平方和最小。

第二步,首先選擇初始聚類中心,接著計算各樣本數據到每個聚類中心的距離,同時根據距離大小重新分配所屬的簇。

第三步,為了更新聚類中心,通過式(1)計算新簇的樣本均值。

第四步,如果迭代次數達到設定的閾值或者準則函數式(2)收斂,則說明K-means聚類完成。

第五步,經過以上步驟后,在這一類別中樣本對象之間相似性最高,不同類別的樣本對象差異最明顯,否則不斷重復上述過程,直至滿足條件而結束。

將學生聚成4類:學生群1、學生群2、學生群3、學生群4(可以結合業務的理解與分析來確定客戶的類別數量[3]),其中ZM表示月度平均消費總額,ZA為每餐平均消費金額(見表1)。

表1 K-Means聚類分析Tab.1 K-Means cluster analysis

(2)貧困生認定分析

對聚類結果進行特征分析。學生群體1的M、A屬性都較高,即月平均消費總額和每餐平均消費金額都是較高的,說明這部分學生家庭較富裕。

學生群體2的M屬性高,A屬性低,即月平均消費金額較高但每餐平均金額較低,說明這部分學生經常來食堂吃飯,但每次吃飯花費的金額較小,因此這部分學生有較大可能是貧困生。

群體3的學生M屬性低、A屬性高,即月平均消費金額少但每餐平均金額高的這部分學生,可能是當地“土著”,可能大多數時候在家就餐,偶爾在學校就餐,吃的比較好。

學生群體4在M、A屬性最小,即月平均消費總額和每餐平均消費金額都是較低的,這部分中,有一部分學生有可能是勤工儉學的學生,因為學校食堂有包飯,所以月平均消費總額和每餐平均消費金額都比較低;而另一部分則可能是不經常在食堂吃飯,比如經常叫外賣或者在校外吃飯的學生。

(3)編程實現

抽取清洗數據:讀入數據,采用K-MEANS算法對數據進行聚類,得到聚類標號和聚類中心點。根據聚類標號統計計算得到每個類別的學生數,同時可以根據聚類中心點向量畫出學生聚類中心向量圖。

(4)模型機器學習和模型驗證

對學生數據清洗后打亂,抽取其中90%的數據進行機器學習,剩下的10%的數據進行模型驗證和模型參數調整模型優化。

數據來源于福建省某高校,2015級學生數據進行機器學習,2016級學生數據進行模型驗證,具體數據如下:

a)用于訓練的是2015級學生,總人數為7190人,有1795人被評為經濟困難學生。

b)用于預測的是2016級學生,總人數為7324人,有1876人被評為經濟困難學生。

c)預測經濟困難學生1876人,實際有890人與學校提供的經濟困難學生一致,還有986人不在學校的名單中,但查看實際三餐消費等數據,基本上都還是較貧困的。從另一方面看,即預測不是貧困生的有7324-1876=5448人,其中有980人與學校的不是貧困生的名單不重合(見圖3)。

圖3 預測與實際情況對比圖Figure 3 Comparison of forecast and actual situation

d)預測異常經濟困難學生1876人,其中有193人實際被評為預測經濟困難學生,查看這些學生的消費數據,發現要么就餐率很低,要么三餐消費很高,消費數據較異常。

由于實際上學校也不確認哪些是真正的貧困生,故以上數據的實際準確率無法得出具體數據。只能在假設學校的貧困生名單是正確的情況下進行大致評估。

采用經濟困難學生的正確率(Accuracy)來評價機器學習模型的效果,正確率的表達式為

其中,TP表示預測為貧困生且確實為貧困生的數量,上表中的結果為TP=890;TN表示預測為非貧困生且確實為非貧困生的數量,上表中TN=5448-980=4468,分母表示全體學生的數量,即7324人。因此正確率為(890+4468)/7324=73.16%。

2 模型分析

在科學的分析出疑似貧困學生后,一定的主觀判斷也是不可缺失的,這樣可以有利于綜合學生平時的表現,能更加科學合理的分配助學金。

2.1 目前疑似貧困人群呈現邏輯與方式

權限管理方案[13]分為3個級別:校級領導;院級領導、部門領導;輔導員。

其中校級領導可以查看全部模塊的內容,院級領導和部門領導只能查看自己學院和各部門的情況,輔導員只能看到自己班級學生詳細列表。

貧困人群主要是通過點擊下轉的方式逐漸呈現以下幾個表:

(1)疑似貧困人群散點圖,從每月平均消費和每餐平均消費兩個維度來呈現。(全校角度)

(2)貸款占比:0~4999,5000~9999,10000以上三個檔位貸款占比情況。(全校角度)

(3)各個學院貸款占比扇形圖。(全校角度)

(4)各個學院具體貸款學生詳細列表。(學院角度和輔導員角度)

2.2 各權限初定修改方案

所有的表都是一起呈現出來不隱藏。隱藏的功能由權限管理方案來定,如果登錄進大數據應用系統的是校級領導則不隱藏,如果是學院領導則隱藏全校情況。具體設計方法如圖4。

圖4 權限設計示意圖Fig.4 Schematic diagram of permission design

如果按照圖3中邏輯來呈現的話,就能比較好的契合權限管理方案的設置邏輯,并且也可以比較完整的呈現全校各學院和各個學院不同專業的總體與詳細情況。

3 總結

采用RFM模型對高校貧困生評定相關源數據(如一卡通消費記錄等)進行分析處理,提取數據特征,并用利用K-Means聚類分析算法對處理后的特征進行聚類分析,從而得到高校學生的分類類別。通過對每一類的學生群體進行分析,獲得貧困學生的學生群體分布范圍,有效地解決了當前貧困生評定中不夠客觀的問題,從而實現補助的精準發放。對不同層級的管理者對貧困生管理的可視化內容進行了權限方案的設計,不僅有效地提高了管理者的貧困生評定效率,同時還提高了助學金發放的準確性。

猜你喜歡
分析模型學生
一半模型
隱蔽失效適航要求符合性驗證分析
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
趕不走的學生
學生寫話
電力系統及其自動化發展趨勢分析
3D打印中的模型分割與打包
學生寫的話
主站蜘蛛池模板: 福利姬国产精品一区在线| 在线免费观看AV| 五月综合色婷婷| 国产欧美专区在线观看| 久久综合丝袜日本网| 久久亚洲AⅤ无码精品午夜麻豆| 国产综合网站| 中文字幕无码中文字幕有码在线| 992Tv视频国产精品| 91国内视频在线观看| 超清无码熟妇人妻AV在线绿巨人| 在线观看免费AV网| 国产99视频免费精品是看6| 久久特级毛片| a亚洲视频| 在线视频精品一区| 久久久精品无码一区二区三区| 在线播放精品一区二区啪视频| 日韩福利视频导航| 成人在线欧美| 欧美激情综合一区二区| 一本色道久久88亚洲综合| 国产丝袜啪啪| 国产在线视频导航| 蜜臀av性久久久久蜜臀aⅴ麻豆| 亚洲国产精品VA在线看黑人| 在线中文字幕日韩| 一级毛片免费播放视频| 在线综合亚洲欧美网站| 亚洲第一成网站| 日韩精品亚洲精品第一页| 2021亚洲精品不卡a| 久久这里只有精品66| 日韩国产无码一区| 97国产精品视频自在拍| 网友自拍视频精品区| 美女毛片在线| 欧美激情福利| 欧美日韩精品一区二区在线线| 色综合天天综合中文网| 国产精品成人AⅤ在线一二三四| 国产日韩丝袜一二三区| 国产精品福利导航| AV不卡无码免费一区二区三区| 亚洲妓女综合网995久久| 精品福利视频导航| 国产在线麻豆波多野结衣| 国产精品一区二区不卡的视频 | 无码在线激情片| 波多野衣结在线精品二区| 97超级碰碰碰碰精品| 99999久久久久久亚洲| 性网站在线观看| 日韩黄色在线| 欧美一区二区人人喊爽| 亚洲国产91人成在线| 国产高清免费午夜在线视频| 日本精品中文字幕在线不卡| 九一九色国产| 国产精品成人一区二区| 国产极品美女在线播放| 中文字幕在线视频免费| 久久网综合| 国产主播福利在线观看| 免费无码网站| 欧美国产综合视频| 亚洲国产亚洲综合在线尤物| 日本一本在线视频| 亚洲αv毛片| 国产精品美女自慰喷水| 欧美中文字幕第一页线路一| 国产美女一级毛片| 国产99欧美精品久久精品久久| 毛片网站在线看| 国产91特黄特色A级毛片| 欧美成人亚洲综合精品欧美激情| 国产成人啪视频一区二区三区 | 国产免费观看av大片的网站| 免费大黄网站在线观看| 国产日韩欧美黄色片免费观看| 四虎综合网| 任我操在线视频|