999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數據驅動下高校學生社會適應力研究

2020-07-27 16:25:36耿嶠峙徐菲淦亞婷安心然張湑行
現代信息科技 2020年6期
關鍵詞:灰色關聯分析

耿嶠峙 徐菲 淦亞婷 安心然 張湑行

摘要:文章以天津商業大學理學院數學系學生為研究對象,提出了一種主要依據學生社交網絡平臺數據的社會適應力預測模型:基于因子分析一灰色關聯法的隨機森林模型,分類準確率達到78.43%。結果顯示學生的學習行為以及線上發布與評論行為具有較強的類型識別度,為高校開展就業創業教育工作、實現高等教育“依數治理”提供參考依據。

關鍵詞:高校學生;社會適應力;因子分析;灰色關聯分析;隨機森林

中圖分類號:TP183;G449.5? ? 文獻標識碼:A? ? 文章編號:2096-4706(2020)06-0021-04

0? 引? 言

20世紀80年代到20世紀末,數據挖掘技術開始應用到教育領域[1],起初運用的研究方法比較簡單,研究成果較少。而本世紀初至今,隨著互聯網技術的發展,教育研究技術得到了進一步發展,采用的數據挖掘技術也變得更豐富。

如今大學生畢業率逐年上漲,根據人力資源和社會保障部數據,2019年我國高校畢業生總數為843萬,相較于上一年增長23萬。因此對于學生來說,建立清晰的自我認知,逐步提高社會適應力以面對日益嚴峻的就業形勢也就尤為重要;對于高校來說,如何獲取并合理評估學生的多方面信息,并據此對學生進入社會進行干預引導,仍需要探索有效路徑。

1? 相關研究綜述

社會適應力是根據生活或職業角色變化而助推個體發展的能力,是個體交互的結果[2]。本文是指高校學生從學校進入社會所需要具備的融入社會的能力。

在相關研究上,崔秋月[3]從體育運動入手,通過文獻資料法、訪談法、問卷調查法研究高校學生社會適應力,得出學生參與體育項目有利于提升學生的社會適應力,且在各類運動中,集體性運動效果更好。胡志偉[4]通過文獻研究法、辯證分析法、問卷調查法、個案分析法研究高校學生網絡人際關系來探究高校學生的社會適應力,得出好的網絡人際關系有利于提升學生的社會適應力。

綜上所述,以往對學生社會適應力的研究大多從心理學、經濟學、教育學等角度出發,在方法上常使用問卷調查法、文獻研究法,較少關注學生的客觀行為數據,尤其是在互聯網平臺留下的信息。因此,本文立足于學生的社交網絡平臺數據,運用機器學習算法對學生個性化的社會適應特征進行預判。研究結果對高校學生畢業后職業發展以及高校制定培養方案具有重要意義。

2? 數據來源及預處理

本文以本校2017級數學系學生為研究對象,在征得學生本人的同意下利用Python爬蟲技術獲取102名學生的社交網絡平臺(騰訊QQ)記錄;同時,在學生教務管理平臺以及發放的問卷中獲取學生的成績數據、行為數據等;以教育部編制的《中國大學生適應量表》[5]的部分題項為基礎,對學生的社會適應力進行測量并打分。

對采集的數據進行初步處理,首先刪除重復值和異常值,其次運用平均值法填補缺失數據,各部分字段以學號作為主鍵連接,進一步提取學生屬性以及篩選有效變量。

3? 研究過程

建立基于因子分析-灰色關聯法的隨機森林分類器:首先運用因子分析對經過預處理的數據進行屬性提取,然后在各屬性內運用灰色關聯分析篩選有效變量以降低維度,最后建立隨機森林模型并對其預測性能進行評價。

3.1? 學生屬性提取

為去除原始變量存在的復雜內部關系,首先進行因子分析,提取出幾個公共因子用于后續的模型建立。其中KMO值大于0.5,且Bartlett檢驗顯著,保留特征值大于1的公因子,如表1所示。

根據因子旋轉后的成分矩陣,提取出6個屬性,對其分別命名為:線上發布屬性、線上評論屬性、學習行為屬性、消費屬性、校內表現屬性、線下社交屬性,之后我們將在這6個屬性下對高校學生社會適應力進行研究。

3.2? 有效變量篩選

對提取的6個屬性中的19個指標,進一步作降維處理。鑒于學生的行為數據與社會適應力并非簡單的線性相關關系,故采用灰色關聯分析法。我們通過計算社會適應序列和行為特征序列之間的關聯系數和關聯度,實現對有效變量的篩選。同時為保證后續模型中對學生刻畫的完整性和多樣性,我們只在相同屬性中排序比較關聯度,具體如下:

(1)參考序列:社會適應力得分{x01,x02,…,x0n}

比較序列:各屬性的指標 (k=1,2,…,6)

(2)對于非時間序列數據的處理,區間值化:

(3)計算關聯系數:

(4)計算關聯度:

經查閱文獻,灰度關聯分析的ρ值為分辨系數,一般取值為0.5,因此本文ρ取值為0.5,計算得出各指標與社會適應力的關聯度并進行排序,結果如表2~表4所示。

分別選取6個屬性中排序在前兩位的變量,并且依據屬性內關聯度的接近程度進行適當的添加、去除,最終有10個變量作為輸入變量進入后續模型,分別為:評論回復比例、不同設備數、圖片數、總說說數、表情數、課堂專心時長、每周自習時長、每月餐飲消費、第二學年加權成績、每周兼職時長。

3.3? 隨機森林模型建立

3.3.1? 模型建立

本研究選用隨機森林(Random Forest)算法構建學生社會適應力分類模型,這是一種基于決策樹的集成學習分類算法。算法流程如下:

Step1.對訓練集采用自助法抽取n個訓練樣本子集,建立ntree=n棵決策樹。

Step2.在訓練一棵決策樹的過程中,考慮一個分裂節點,隨機在全部m個變量中選擇mtry=m個變量作為候選分裂變量。

Step3.對生成的n棵決策樹分類結果進行投票,輸出最終預測類別。

讀取全體數據集,首先以社會適應力得分(score)的下側0.4分位數為界,構建二分類變量,如式(1),對學生的社會適應力類型進行標記。然后按照1:1進行隨機抽樣,劃分訓練集與測試集,抽取的兩樣本中分別有37.25%、43.14%被標記為1,代表社會適應力相對較弱的學生群體。

其中q0.4為score的下側0.4分位數。

根據篩選后的10個有效變量,用R軟件對訓練集D建立隨機森林模型。該模型需要調整兩個參數:決策樹個數(ntree)、分裂點選擇變量個數[6](mtry)。采用網格搜索選取最優參數為:ntree=10 000,mtry=6。

3.3.2? 模型評價與檢驗

(1)查全率、查準率與F1指標。運用上述模型對測試集中51名學生的社會適應力類型進行識別,得到混淆矩陣如表5所示。

表5? 測試集混淆矩陣

模型的整體正確率為78.43%,進一步由式(2)~式(4)計算得到其他準確性度量指標,查全率、查準率與F1值分別為:77.27%,73.91%,75.56%。

(2)ROC曲線與PR曲線。考慮到模型在兩類學生預測準確率上的差異性,以及我們更關注對正例(即社會適應力較弱)學生的識別能力,故引入ROC曲線與PR曲線對模型性能進行可視化的綜合評價,如圖1所示。

ROC曲線靠近圖形的左上角區域,同時曲線下方面積即AUC指標值為0.855 799,接近完美分類器的理想值1;PR曲線在平衡點時模型的查全率與查準率相等,且位于0.7上方,可認為模型能夠在誤報率處于低水平時盡可能多的將正例識別出來。綜上,模型在測試集中表現的性能良好。

(3)十折交叉驗證。本文采用十折交叉驗證對模型進行檢驗,該方法在訓練時用到了大部分的原始數據:將全部學生數據平均劃分為10折,在前9折擬合模型,用第10折測試,重復此步驟10次并求得平均正確率為76.67%,表明模型在未知數據中具有一定的泛化能力。

3.4? 模型結果

進一步分析變量對學生社會適應力的影響程度,以影響最大的變量為基準計算各變量相對重要性如圖2所示。由圖可得到位于前五的變量,其中,每周自習時長和第二學年加權成績隸屬于學習行為屬性和校內表現屬性,處于第一梯隊,是關鍵分類因素;其次,總說說數與圖片數、評論回復比例隸屬于線上發布屬性與評論屬性,作為補充因素。可以推斷,不同社會適應水平的學生群體,可能在社交平臺中表現出不同的行為特點。

4? 結? 論

社交網絡平臺中記錄了豐富的學生數據,這些數據建立在學生本人與平臺以及他人的交互過程之上,區別于傳統的數據風格。本文運用爬蟲技術采集這類數據,并結合其他行為數據,嘗試挖掘其中潛藏的規律,將其作為預測變量放入模型。研究結果顯示學生的學習行為、校內表現屬性以及線上發布、評論屬性具有較強的類型識別度,表明這類行為特征與學生的社會適應力存在一定程度的關聯性。

根據本文的研究思路,我們可以將學生的評價結論反饋至學生與高校雙方,進一步應用到高校就業創業教育決策中,促進個性化、信息化的教學發展,完善教育體系。并且,在今后的研究中,可以考慮獲得更多源的學生數據,如家庭背景數據、圖書館借閱數據、微博點贊數據等;或者對比選擇不同的機器學習算法,優化模型性能。

參考文獻:

[1] 周慶,牟超,楊丹.教育數據挖掘研究進展綜述 [J].軟件學報,2015,26(11):3026-3042.

[2] 孫麗璐,曾飛揚,汪韶源.大學生社會適應力模型研究——以“95后”大學生為例 [J].四川理工學院學報(社會科學版),2016,31(1):20-29.

[3] 崔秋月.體育運動對大學生社會適應能力影響的研究 [D].蘇州:蘇州大學,2013.

[4] 胡志偉.大學生網絡人際關系對其社會適應力影響研究 [D].哈爾濱:哈爾濱理工大學,2017.

[5] 教育部《大學生心理健康測評系統》課題組,方曉義,沃建中,等.《中國大學生適應量表》的編制 [J].心理與行為研究,2005(2):95-101.

[6] 方匡南,吳見彬,朱建平,等.隨機森林方法研究綜述 [J].統計與信息論壇,2011,26(3):32-38.

作者簡介:耿嶠峙(1983-),男,漢族,河南新鄉人,講師,博士研究生,研究方向:大數據分析,教育大數據;徐菲(1998-),女,漢族,山西大同人,本科在讀,研究方向:應用統計;淦亞婷(1997-),女,漢族,江西九江人,本科在讀,研究方向:統計學;安心然(1998-),女,漢族,河南焦作人,本科在讀,研究方向:數學與應用數學;張湑行(1999-),男,漢族,河南鄭州人,本科在讀,研究方向:信息與計算科學。

猜你喜歡
灰色關聯分析
內蒙古產業結構與經濟增長的動態關系研究
運動員組織承諾水平的評價與提升策略
新疆向西開放度與經濟增長灰色關聯分析
基于灰色關聯分析的制造企業跨國并購財務決策
秸稈資源化對吉林省經濟結構的影響研究
中國能源消費與經濟增長關系研究
時代金融(2016年30期)2016-12-05 19:01:53
基于灰色關聯分析的京津冀區域物流一體化協同發展
探究區域碳績效評價體系
中國市場(2016年30期)2016-07-18 05:05:12
海南省第三產業及其子行業對經濟增長的作用分析
中國市場(2016年20期)2016-06-12 04:45:59
甘肅省農產品物流與其影響因素關系的實證研究
商(2016年13期)2016-05-20 10:22:02
主站蜘蛛池模板: 国产手机在线ΑⅤ片无码观看| 欧美亚洲第一页| 国产剧情无码视频在线观看| 国产精品永久免费嫩草研究院| 91在线日韩在线播放| 亚洲第一区欧美国产综合| 国产亚洲成AⅤ人片在线观看| 成人免费一区二区三区| 国产一区二区丝袜高跟鞋| 欧美一级在线看| 国产在线精品人成导航| 亚洲品质国产精品无码| 国产精品永久不卡免费视频| 亚洲午夜福利精品无码不卡| 波多野结衣在线se| 久久国产亚洲偷自| 国产swag在线观看| 毛片免费在线| 中文字幕久久精品波多野结| 国产精品永久在线| 国产永久免费视频m3u8| 国产精品女主播| 婷婷亚洲最大| 亚洲欧美激情小说另类| 亚洲乱码在线播放| 91视频国产高清| 成人小视频网| 免费无码在线观看| 国产天天色| 无码丝袜人妻| 97视频在线精品国自产拍| 欧美日在线观看| 欧美高清国产| 亚洲精品大秀视频| 国产91精品调教在线播放| 午夜啪啪福利| 国产男女XX00免费观看| 老熟妇喷水一区二区三区| 午夜综合网| 亚洲国产日韩视频观看| yjizz国产在线视频网| 国产成年女人特黄特色毛片免| 青青青伊人色综合久久| 欧美成人精品一区二区| 亚洲日韩精品伊甸| 99视频在线看| 欧美激情一区二区三区成人| 国产欧美日韩91| 又爽又大又黄a级毛片在线视频| 日韩一区二区在线电影| a毛片基地免费大全| 国产精品视频系列专区| 国产在线观看精品| 国产亚洲欧美在线专区| 99re免费视频| 日本午夜精品一本在线观看| 国产无码高清视频不卡| 亚洲精品无码成人片在线观看| 中字无码av在线电影| 欧美国产综合视频| 久久午夜夜伦鲁鲁片不卡| 中文字幕无码制服中字| 国产第二十一页| 欧美精品v| 成人综合久久综合| 尤物成AV人片在线观看| 性视频一区| 亚洲精品大秀视频| 国产日韩欧美在线视频免费观看| 视频二区国产精品职场同事| 91美女视频在线观看| 成人日韩欧美| 国产91高跟丝袜| 国产中文一区二区苍井空| 久久96热在精品国产高清| 亚洲一区二区三区中文字幕5566| 久草视频中文| 亚洲人成在线免费观看| 婷婷色狠狠干| 久久精品人妻中文系列| 欧美国产日韩另类| 2020国产精品视频|