999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

校園大數(shù)據(jù)文獻綜述

2018-02-05 08:54:59吳勝男
上海管理科學 2018年1期
關鍵詞:校園分析模型

吳勝男

(上海外國語大學 國際工商管理學院,上海 200083)

1 高校大數(shù)據(jù)分析的主要類型

高校與商業(yè)界和公共管理界具有天然的不同。商業(yè)界的構(gòu)成主要為各類企業(yè)及從業(yè)人員,企業(yè)以長期利潤為其終極目標。又由于在經(jīng)營活動中產(chǎn)生的海量數(shù)據(jù)的潛在收益迫使業(yè)界無法忽視對潛在信息的挖掘,因此企業(yè)中的大數(shù)據(jù)分析嘗試也建立在有助于企業(yè)的長存和利潤的獲取的基礎之上,共同的目標有助于獲得相關業(yè)務部門的高度配合,而務實的目的(經(jīng)濟回報)往往催生出實用性較高的成果。豐厚的研發(fā)資金和自身業(yè)務積累的大量數(shù)據(jù)又使得成果的轉(zhuǎn)化成為可能,從而形成一種良好的生態(tài)循環(huán)。而公共管理部門的特征在于以政府為核心,集合各個社會部門的力量,運用政治經(jīng)濟及文化的一系列手段,提升政府的績效和公共服務品質(zhì)。其以政府為中心的特征決定著不必過于在乎前期龐大的開發(fā)費用,加上在社會公共服務和管理業(yè)務中,由于涉及方面的廣闊和服務人數(shù)的巨大,必然產(chǎn)生大量種類各異的數(shù)據(jù),為大數(shù)據(jù)分析的發(fā)展提供了良好的機遇。而高校一端聯(lián)系著社會,一端聯(lián)系著公共服務。作為社會公共服務機構(gòu)的重要一環(huán),高校人口中學生和教職工占據(jù)絕大多數(shù),因此它的核心在于培育更加優(yōu)秀的學生,為教職工團隊在科研和個人發(fā)展方面提供支持和良好的管理,而不是經(jīng)濟利潤的最大化,對于新技術的轉(zhuǎn)化和花費比較大的科研項目,都需要政府或者企業(yè)的資助。從高校的業(yè)務來看,由于業(yè)務種類和涉及的結(jié)構(gòu)都相對簡單,產(chǎn)生的數(shù)據(jù)不可避免地體量更輕、結(jié)構(gòu)更加單一,因此從前期投入來源和數(shù)據(jù)的結(jié)構(gòu)來看,都不具有明顯優(yōu)勢。而在高校的大數(shù)據(jù)分析嘗試中,信息部門通常獨擔重任,雖然在高校信息化的過程中發(fā)揮著日益重要的作用,信息部門在日常管理和運作中并不占據(jù)核心地位,因此在數(shù)據(jù)完整性和數(shù)據(jù)治理上比商業(yè)界和公共管理界略遜一籌,難度更高。

高校的服務性質(zhì)決定著其進行大數(shù)據(jù)分析的目的和側(cè)重點也不一樣,更強調(diào)是否能為學生和教職工更好地服務,人文關懷性和科研性更重,不過于強調(diào)經(jīng)濟效益。因此,目前高校的大數(shù)據(jù)分析嘗試中,大多與學生的經(jīng)濟狀況和行為模式挖掘有關,一則由于數(shù)據(jù)來源相對容易,二則由于與高校嘗試大數(shù)據(jù)分析的初衷最為相符。而由于學生和教職工的活動范圍主要集中在校內(nèi),校園一卡通的使用率很高,其中既包含消費行為所產(chǎn)生的經(jīng)濟數(shù)據(jù),又包含日常活動,如圖書館打卡、借閱等產(chǎn)生的應用數(shù)據(jù),且數(shù)據(jù)格式整齊、質(zhì)量較高,為高校大數(shù)據(jù)分析提供了良好的數(shù)據(jù)基礎,成為一種常用的數(shù)據(jù)來源。

從主題的角度分類,目前基于高校一卡通數(shù)據(jù)的大數(shù)據(jù)分析主要在以下三個方面:

對學生經(jīng)濟狀況的挖掘。主要目的在于通過學生的一卡通消費數(shù)據(jù)以及學生的行為數(shù)據(jù)推測學生的經(jīng)濟情況和在校學習狀況,找出符合特定經(jīng)濟標準的學生。一般應用于高校貧困生的認定額資助工作以及獎學金的評定。它的出現(xiàn)是為了避免在此類評定中評定人主觀因素對于資助精確度與效果的影響,以及避免評定過程中的違規(guī)操作。

對學生學業(yè)狀況的挖掘。主要目的在于通過學生以往的行為數(shù)據(jù)和學業(yè)成果相關數(shù)據(jù),如績點、科研成就、就業(yè)情況等,挖掘出二者的相關關系,從而預測其他學生的學業(yè)成就情況,并且對于有學業(yè)風險的學生進行干預。這有利于發(fā)現(xiàn)在教育中應該重點關注的學生中潛在的科研人才、市場精英以及需要幫助的學生,提高高校的教學質(zhì)量。

對后勤服務及管理狀況的挖掘。這一類的研究應用通常與“智慧校園”主題相關,也與“物聯(lián)網(wǎng)”概念相似。此類研究通常關注高校后勤服務產(chǎn)生的數(shù)據(jù),如寢室門禁數(shù)據(jù)、食堂就餐人數(shù)和開水消耗數(shù)量等,找出這些數(shù)據(jù)的規(guī)律,可提高后勤服務質(zhì)量,減少浪費縮減成本。

2 數(shù)據(jù)來源

按照主題相關性和典型性,本文共選取26篇文獻進行分析和梳理,其中期刊文章18篇,碩士畢業(yè)論文4篇,會議論文集收錄的文章4篇。由于本文主要梳理大數(shù)據(jù)分析在中國高校的應用,因此基本不涉及國外的研究,文章來源為中文論文最權(quán)威的來源——中國知網(wǎng),檢索方法為按照三類主題在中國知網(wǎng)上分別進行高級模式下的跨庫檢索,跨庫選擇為期刊、國內(nèi)會議、國際會議、碩士論文、博士論文和報紙。

按照三類主題,本應當為每一類主題應用不同的關鍵詞進行檢索,然而實際操作后發(fā)現(xiàn)即使主題相同,不同的學者在措辭及題目選取上會有一定范圍的差異,比如用大數(shù)據(jù)方法發(fā)現(xiàn)貧困生的研究可以叫做“學生經(jīng)濟狀況挖掘”也可以叫做“貧困生發(fā)現(xiàn)”,因此為每一類研究各指定一組關鍵詞進行檢索非常容易發(fā)生漏誤的狀況,因此本文在檢索中采用先使用“一卡通”和“數(shù)據(jù)挖掘”為關鍵詞,檢索出絕大部分符合要求的文獻,再根據(jù)三類主題的特點,以“數(shù)據(jù)挖掘”“成績預測”為關鍵字進行檢索,在檢索出的文獻中選取和高校相關并且基于一卡通數(shù)據(jù)的文章,補充出遺漏的第二類主題相關文章。同理,以“智慧校園”為關鍵字進行檢索補充出遺漏的第三類主題相關文章。

以“一卡通”“數(shù)據(jù)挖掘”為關鍵字進行檢索,共有文獻29篇,時間跨度為11年。按照時間進行排列,2016—2014年每年各5篇,2013—2011年每年各1篇,2010—2008年每年各3篇,2007年成果為1篇,2003年1篇,學科主要集中在計算機軟件和計算機應用、高等教育、互聯(lián)網(wǎng)技術和無線電電子學。研究層次主要集中在自科下的工程技術。其中SCI,CSSCI,EI來源期刊文章數(shù)量為1,按照主題的相關性,共選取21篇進行分析。

以“數(shù)據(jù)挖掘”“成績預測”為關鍵字進行檢索,共有文獻44篇,時間跨度為13年,大多和高校領域的研究不相關。其中,SCI,CSSCI,EI來源期刊文章數(shù)量為4,與高校領域的研究均不相關。按照主題相關性和典型性,共選取3篇作為補充。

以“高校”“智慧校園”為關鍵字進行檢索,共有文獻466篇,時間跨度為6年。其中,SCI,CSSCI,EI來源期刊文章數(shù)量為29,按照主題相關性和典型性,共選取2篇作為補充。

本文所選取26篇文章的時間跨度和涉及領域如圖1、2所示。

圖1 按照時間對文獻進行分類

圖2 按照領域?qū)ξ墨I進行分類

由于在檢索時使用了先查找出所有符合“一卡通”“數(shù)據(jù)挖掘”關鍵字的文章,再檢索遺漏補充的策略,跨庫選擇也較為全面,并且在第一次檢索出的文章中除掉了幾篇和高校應用場景無關的文章后全部選中進行分析,因此這26篇文章可以客觀反映出這一領域的大數(shù)據(jù)應用的發(fā)展狀況。從統(tǒng)計圖可知,文獻數(shù)量具有明顯的隨著時間而增長的趨勢,呈現(xiàn)出蓬勃發(fā)展之態(tài)。從來源上分析,碩士論文占有一定比例,證明越來越多的年輕研究人員開始對這一領域感興趣,顯示了一定的發(fā)展?jié)摿Α_@些研究主要屬于傳統(tǒng)的計算機技術及應用領域,學科交叉領域的成果較少,學科之間的滲透不夠深入,還有巨大的研究空間和研究價值。在期刊來源的文章中,SCI,CSSCI,EI來源期刊文章所占比例極低,此領域的研究還不夠成熟,仍然處于起步階段。

3 研究現(xiàn)狀

大數(shù)據(jù)分析成為一個研究熱點以后,許多研究者也將目光投向了校園平臺數(shù)據(jù)的大數(shù)據(jù)分析。校園平臺數(shù)據(jù)可分為師生日常活動產(chǎn)生的數(shù)據(jù)和教務數(shù)據(jù)兩類,而前者載體多為一卡通,因此逐漸形成了以一卡通數(shù)據(jù)和教務數(shù)據(jù)為主、后勤數(shù)據(jù)為輔、著重研究學生經(jīng)濟狀況和學業(yè)狀況的特點。以下,將按照前文所分的三個類別分別進行梳理。

在對學生經(jīng)濟狀況的挖掘中,因為消費金額是消費能力的直接體現(xiàn),所以大多從學生的一卡通消費金額入手。而一卡通所記錄的消費數(shù)據(jù)并不是學生全部的消費數(shù)據(jù),更多的消費發(fā)生在校外,因此在此類分析中,為了提高準確率,往往還要加上對學生行為的分析。

徐劍[1]對學生的消費水平進行了聚類,旨在探尋學生的消費模式與成績之間的相關關系,為學校有關部門的科學決策提供一定的依據(jù)。他重點研究了關聯(lián)規(guī)則挖掘算法,并將經(jīng)典算法發(fā)展為基于布爾稀疏矩陣的算法,提高了效率。首先,使用K-MEANS算法,將每人每月的食堂消費額分成高、中、低三檔(聚類時,每一檔的初始值為最高消費、平均消費和最低消費)。再將每個月吃早餐的次數(shù)按照十五次為界,劃分為生活規(guī)律和不生活規(guī)律兩類。最后,把學生成績按照不及格、及格、中等、良好、優(yōu)秀分成五檔,并且將學生的這三個指標轉(zhuǎn)成高維矩陣,運行Apriori算法,尋找其中的相關關系。其先聚類、后進行相關分析的處理思路及模型對之后的研究產(chǎn)生了較為深遠的影響,后人在其基礎上改進,產(chǎn)生了新的模型。

同年,陳建兵[2]也對貧困生的消費狀況進行了挖掘,主要研究算法,與徐劍直接尋找相關關系不同,研究從貧困生和非貧困生的消費狀況差異的角度進行。在對數(shù)據(jù)進行了簡單的規(guī)約之后,使用Apriori算法和FP-Growth算法進行相關分析,用SQL語句統(tǒng)計了每個學生每頓飯的平均價格和平均次數(shù),然后把學校貧困生的數(shù)據(jù)也做相同處理,兩個結(jié)果對比,找出偏離點。

張佳[3]主要研究了鑒別貧困生和對熱水需求量最大的時間段,以及分析了學校內(nèi)商鋪的營業(yè)狀況。他借鑒了徐劍對于消費金額進行聚類的思想,具體操作中使用不同的算法。在貧困生分析中,使用Microsoft ID3智能決策樹算法,將學生的消費額分為高、中、低三個檔次,并且使用相同的算法,將學生在食堂的消費次數(shù)分為高、中、低三個檔次,再在消費額處于低檔的同學中除去消費次數(shù)也處于低檔的同學,剩下的自動設立為貧困生備選名單。該模型對徐劍的模型進一步發(fā)展,考慮了消費的頻次和穩(wěn)定性,本質(zhì)上是計算平均消費金額。而在熱水消費分析和商戶的營業(yè)狀況中,使用Excel對消費數(shù)據(jù)進行加總和統(tǒng)計,得出消費熱水多的時段和商戶的營業(yè)狀況。該文章雖使用了經(jīng)典的數(shù)據(jù)挖掘算法,但由于模型的限制,主要實現(xiàn)的功能仍然集中在傳統(tǒng)數(shù)據(jù)分析領域。

張林紅、劉紅梅[4]在徐劍的基礎上,改善了原文章的模型,用早餐時間、早餐次數(shù)、早餐時間標準差三個維度共同度量生活習慣的規(guī)律與否,提高了在相關分析中的準確性和模型的實用性。

費小丹、董新科、張暉[5]沿用了張佳統(tǒng)計消費頻率的思想并且進一步驗證和發(fā)展了張佳的模型。因為校內(nèi)消費的價格相比校外更低,作者首先提出了貧困生在校內(nèi)的消費頻率更高的假設。作者將所有學生的數(shù)據(jù)按照消費總金額、總次數(shù)、每次平均金額、日均總金額進行聚類,發(fā)現(xiàn)貧困程度和消費次數(shù)成正比,和消費總金額、日均消費總金額、每次平均金額成反比。因此,提出了貧困指數(shù)的公式,幫助貧困生的認定工作。作者的核心思維是均次消費金額的比較,有一定的參考價值,然而模型假設和簡單的平均消費統(tǒng)計基本相同。

董新科、張暉[6]研究的重點在于挖掘算法的比較。該研究比較和分析了幾種聚類算法在一卡通數(shù)據(jù)分析中的作用,主要目的在于得出最適合挖掘該類數(shù)據(jù)的算法。測試任務為對每個學生的消費記錄按照消費總額、消費次數(shù)、人均消費金額、次均消費金額進行聚類,評價標準為簡單易用性和有效性。最后測試結(jié)果為K-MEANS最適合對校園卡數(shù)據(jù)進行聚類,為其后的校園數(shù)據(jù)挖掘采用合適的方法提供了一定指導和依據(jù)。

薛黎明、欒維新、李志淮、樊鐵成[7]分別從時間、地點、消費金額等幾個維度對校園卡的消費數(shù)據(jù)進行了分析,旨在挖掘出學生消費的高峰時間、地點和消費層次。研究中大量應用聚類算法,不存在具體的模型,是以聚類算法代替單純統(tǒng)計,將經(jīng)典數(shù)據(jù)挖掘算法引入傳統(tǒng)數(shù)據(jù)分析的一次嘗試。按照時間、對消費記錄進行等距離離散化,統(tǒng)計出了幾個消費時間峰值。再加入學生性別一項進行交叉分析,分析性別對消費的影響。按照消費地點對消費記錄進行統(tǒng)計,可得每個消費地點的記錄總數(shù),分析出每個地點受歡迎的程度。加入學生類別一項進行交叉分析,可得每類學生對每個消費地點的偏好程度。按照消費金額對消費記錄進行分析,首先用等距離散化和kohonen神經(jīng)網(wǎng)絡聚類,然后使用決策樹算法進行分析,得出每個類別的消費者所屬的消費金額層次,是使用神經(jīng)網(wǎng)絡進行校園數(shù)據(jù)分析的一次探索性實踐。

姜楠、許維勝[8]基本沿用了徐劍的思路,但從提高聚類準確度的角度改善了其模型。主要用迭代、選取方差之和最小的一組的方式尋找K-MEANS最佳聚類中心值,優(yōu)化了聚類的結(jié)果。然后,按照食堂平均消費金額、超市消費金額、用卡次數(shù)和常去地點對學生的消費模式進行聚類。并用同樣的方法對學生以獎學金為代表的學習成績模式進行聚類,對以圖書館借書次數(shù)為代表的學習習慣模式進行聚類。最后,采用基于稀疏矩陣的Apriori算法進行相關分析,探討其中的相關關系,有利于從學生的生活習慣中探究影響學業(yè)成就的因素。

樊搏、姜玉國[9]繼承徐劍對消費金額聚類的思路,運用K-MEANS算法以及支持向量機的算法,將學生的食堂消費金額分為五個檔:貧困、較差、中等、較好、優(yōu)越,自動區(qū)分出貧困生。該模型優(yōu)勢在于兩種算法可互相檢驗分類結(jié)果,但文章主要使用食堂消費數(shù)據(jù),可以納入更多的學生消費數(shù)據(jù),進一步提升模型準確度。

樊搏、呂艷芝[10]在前人主要依據(jù)消費金額的模型基礎上,從心理學入手,將圈存數(shù)量和早餐次數(shù)納入貧困生挖掘模型。該研究介紹了目前高校信息化建設和貧困生認定工作的現(xiàn)狀,并且在該作者《基于數(shù)據(jù)挖掘的貧困生認定輔助系統(tǒng)設計》一文的基礎上得到了進一步的發(fā)展。該文章把僅從食堂消費平均金額的額度判斷標準發(fā)展為消費狀況、早餐狀況和圈存狀況的多方面的模型。作者認為,貧困生的食堂平均消費更低,并且大多更加勤勉,因此,早餐時間更早也更加規(guī)律(就餐時間穩(wěn)定),并且由于心理的不安全感,圈存時一般小額多次。因此這幾個方面可以輔助學校進行貧困生的識別工作,幫助校方進行科學決策。

Chu Gu等[11]極大地發(fā)展了現(xiàn)有的學生經(jīng)濟狀況挖掘模型,打破了過于依賴食堂消費金額的現(xiàn)狀,利用高校一卡通數(shù)據(jù)和校園平臺上的其他數(shù)據(jù)建立起了綜合的模型,對貧困生進行自動的識別。模型的搭建主要圍繞一卡通數(shù)據(jù)、校園網(wǎng)絡的使用情況和學生在校園內(nèi)的軌跡畫像三個方面進行。模型的建立上,在一卡通數(shù)據(jù)方面主要考察消費額度變化、消費行為的規(guī)律性和消費的沉默期;在校園網(wǎng)絡的使用方面,主要考察上網(wǎng)時長與費用、上網(wǎng)周期與站點記錄、上網(wǎng)流量序列;校園內(nèi)軌跡畫像方面,主要針對學生的行為模式挖掘和時空感知屬性。本文的基本假設在于行為模式相似的學生往往具有相似的經(jīng)濟條件,因此獲得相似的獎學金額度。文章創(chuàng)立dis-HARD學習算法,計算學生特征與獎學金的相關性(路徑越短則特征越相合,相關性越高)并對比了其他數(shù)據(jù)挖掘算法(SVM, MKL, multi-label LSI,TODMIS),證明了HARD學習算法的優(yōu)越性,該算法在電子科技大學已經(jīng)有了成功的應用。

高校作為服務于全社會的教育部門,十分重視學生的學業(yè)發(fā)展狀況,學業(yè)發(fā)展狀況最為直觀的指標是學生的課程成績。在對學生學業(yè)狀況的挖掘中,主要集中在對于學生成績的預測,其中途徑之一是用以往的成績預測未來的成績情況或排名情況,途徑之二是用學生的日常學習及生活相關數(shù)據(jù)預測其成績情況或排名情況,二者聯(lián)合使用的情況也存在。由于學生的成績是具有趨勢性的,以往排名靠前的學生極有可能此次也排名靠前,因此第一種途徑過于顯然,第二種途徑就成為了研究的熱點。從所使用的模型來看,與學生經(jīng)濟狀況的挖掘呈現(xiàn)出的明顯脈絡和繼承發(fā)展關系不同,模型和方法多樣化、關注點和切入角度各不相同是其特點。

武彤、王秀坤[12]旨在預測單門課程學生的通過狀況,并發(fā)現(xiàn)影響學生通過單門考試的因素有哪些.應用C4.5決策樹算法,通過學生性別、對基礎知識的掌握程度和上機時間來預測學生考試的通過率。共抓取了五百組學生數(shù)據(jù),其中三分之二作為訓練集,三分之一作為檢驗集。最后結(jié)果顯示,預測的準確率高達87.5%。該研究是采用自動化的方法對學生成績進行預測的一次嘗試,為以后的研究提供了一定程度的參考。

羅永國[13]使用改進的遺傳算法與BP神經(jīng)網(wǎng)絡,從學生到課率、歷年排名狀況、平時作業(yè)成績、小測驗成績幾個方面來構(gòu)建模型,預測學生最近一學期的期末排名,并和其最近一學期的期末排名對比。共抽取了5000名學生的數(shù)據(jù),其中4500組用作訓練集,500組作為測試集。預測的效果十分優(yōu)秀,誤差不超過5%。這是從學生學習狀態(tài)來對學業(yè)成就進行預測的實踐之一,為之后的研究提供了參考。

劉志嫵[14]應用C4.5決策樹算法,用學生所有科目的成績數(shù)據(jù)構(gòu)建決策樹,找出其中的關鍵節(jié)點,以此來探究學生各科成績之間相互依賴、相互影響的狀況。從思維上來說,以決策樹為工具對學生的學習狀況做出預測,將決策樹應用到傳統(tǒng)的相關關系分析里,有利于對其后的研究在方法上的創(chuàng)新提供參考。

黃建明[15]與劉志嫵[14]的思路相通,切入角度較為相似,但把同期的數(shù)據(jù)擴展為不同時期的數(shù)據(jù),因此得以研究先導對后續(xù)的影響。選取了五屆學生七門主要課程的成績,離散化后,通過貝葉斯網(wǎng)絡構(gòu)建出貝葉斯圖,通過節(jié)點之間的鏈接來顯示相關關系的有無,通過權(quán)值來顯示概率和強弱,從而挖掘出七門課程中先導課程對后續(xù)課程的影響及程度,也能在已知一部分成績的情況下預測其他科目的成績,是對貝葉斯網(wǎng)絡應用于學業(yè)表現(xiàn)上的一次應用。但它關注的重點在于課程之間的互相影響,而不是預測學生全面的學業(yè)表現(xiàn)。

呂紅胤、連德富、聶敏、夏虎、周濤[16]利用校園平臺上的一卡通數(shù)據(jù)對高校學生的學業(yè)成就進行預測。模型的設計較為合理,圍繞努力程度和學生生活的規(guī)律性進行,參考了徐劍對于生活規(guī)律性的度量,并從就餐的規(guī)律性擴展到了全面的生活的規(guī)律性。具體而言,努力程度由自習次數(shù)和上課次數(shù)反映,生活規(guī)律性由出入宿舍的規(guī)律性、就餐的規(guī)律性、洗澡洗衣服的規(guī)律性、購物的規(guī)律性反映。研究證明努力程度和學生的成績呈正相關,并且一個學生的成績往往與其朋友的學習成績相關。本文采集學生六個學期內(nèi)的上述數(shù)據(jù),前五個學期的數(shù)據(jù)作為訓練集,提取關聯(lián)規(guī)則,第六學期的成績作為預測內(nèi)容,研究證明該模型的預測效率達百分之九十以上。該研究成為了該團隊其后推出的一系列校園大數(shù)據(jù)分析的先導。文中表示,為了保護學生的隱私,所以把成績換成排名,并進行歸一化。歸一化只是為了取消各個學院之間評分標準和課程的差異造成的成績差異,沒有這一步就無法進行客觀的比較。成績和排名的轉(zhuǎn)換脫敏效果十分有限。大數(shù)據(jù)背景下,數(shù)據(jù)的脫敏一直都是一個問題,因為數(shù)據(jù)量的龐大,互相對照會使得脫敏失效。

謝星宇和張穎璐[17]從自動分類的角度切入,將涉及心理學、教育學和管理學的成績預測問題轉(zhuǎn)化為純粹的算法問題。將學生前兩個學期的成績數(shù)據(jù)、一卡通數(shù)據(jù)以及圖書館借閱數(shù)據(jù)作為訓練集,挖掘出其中的相關關系。此研究的主要貢獻在于改進了TrAdaboost算法,并用改進后的TrAdaboost算法對學生第三學期的成績作出預測。

蔡興雨等[18]利用問卷的方法收集數(shù)據(jù),然后利用粗糙集理論的屬性約減算法和屬性提取算法挖掘出影響高校學生成績的關鍵因素以及這些因素和學生成績之間的依賴關系,有利于改善教師的教學方法及學生的學習方法,提高學生成績。數(shù)據(jù)約減后,一共保留了十四個項目。提取其中的有效規(guī)則后發(fā)現(xiàn),學生的成績與主觀的學習態(tài)度以及客觀的家庭環(huán)境都有關系。意外發(fā)現(xiàn)女性學生的成績普遍高于男性學生,同時還發(fā)現(xiàn)母親的職業(yè)比父親的職業(yè)對于孩子成績的影響更大。該研究的獨特之處在于并不預先設立一個預測模型,而是圍繞數(shù)據(jù),進行開放式的探究活動使得研究不局限于初始的假設,可以挖掘出讓人意想不到的結(jié)論,比如本研究的意外發(fā)現(xiàn)。

李彤彤等[19]認為學習干預對于學生的發(fā)展十分重要,然而學界對于此的關注并不太多。作者圍繞干預引擎,從學習者狀態(tài)識別、干預策略匹配計算、干預策略實施、干預效果分析四個方面搭建了自己的學習干預模型。學習者的狀態(tài)識別主要包括學習風格、學習進度、學習互動水平與學業(yè)成就四個方面。數(shù)據(jù)來源分為量表采集和線上教育平臺數(shù)據(jù)。主要的分析方法為聚類,首先建立干預庫,然后根據(jù)學生狀況的不同,經(jīng)過計算給予干預庫中最優(yōu)的方法,干預效果由系統(tǒng)和教育者共同追蹤。這是校園平臺大數(shù)據(jù)在學習干預中的一次重要嘗試,可以納入具體的實踐方法,使文章具有更多的實踐意義。

高校在承擔教學任務以外,大量的后勤工作也不容小視,后勤服務效率與質(zhì)量的提高可以極大地提高高校的整體服務質(zhì)量。近年來,通過數(shù)據(jù)分析和數(shù)據(jù)挖掘的方法對高校后勤及各項事務進行分析,以期對其進行流程的改造及重組的研究興起。這類分析的主題集中在學校的設施服務情況和后勤服務,如食堂和澡堂等。由于此類研究常和實際的需求及實踐活動(建設統(tǒng)一化的平臺,改善經(jīng)營績效)聯(lián)系在一起,實用性高于科研性,因此挖掘的深度并沒有特別深入,在數(shù)據(jù)分析的方法上主要使用統(tǒng)計方法,但是應用大數(shù)據(jù)的分析方法也已經(jīng)成為了新的趨勢。

張兵兵等[20]采用了sql server 中自帶的數(shù)據(jù)挖掘算法,主要采用了Microsoft決策樹算法和Microsoft關聯(lián)規(guī)則算法,分析了學生的哪些特征和丟卡次數(shù)密切相關,最后得出結(jié)論學院是最強的因素。研究生院和國際教育學院的學生最愛丟卡。從得出的結(jié)論中分析其原因,有可能模型的設計中未能直接定義到影響丟卡次數(shù)的主要因素,而學院又和這個因素有強烈的相關關系(比如同一個學院的學生表現(xiàn)出相似的行為模式,而這個行為模式和丟卡與否相關)。

許華虎等通過決策樹算法分析一卡通中記載的學生體育鍛煉數(shù)據(jù),為學生的體育鍛煉情況做出分級。作者從常規(guī)的分類方法中受到啟發(fā),選取學生的活動強度、性別、年齡、體質(zhì)因素,應用ID3算法生成決策樹,以此對學生的體育鍛煉情況做出分級評價。這是使用大數(shù)據(jù)分析方法進行校園事務分析的一項有意義的嘗試,盡管思路與常規(guī)的分類比較相似,但在使用的方法上有一定程度的創(chuàng)新。

許彩娥等旨在建立一個以校園一卡通為介質(zhì)的校園綜合門禁管理平臺,切入的角度為數(shù)據(jù)治理,為其后的數(shù)據(jù)集中分析打下了基礎。針對目前高校門禁系統(tǒng)存在的介質(zhì)不統(tǒng)一,流水數(shù)據(jù)分散,認證數(shù)據(jù)重復存放的問題,設計出了一套以校園卡為唯一介質(zhì),流水數(shù)據(jù)集中存放、統(tǒng)一管理、刷卡即回傳數(shù)據(jù)的綜合門禁管理平臺,克服了目前存在的問題,對門禁數(shù)據(jù)的統(tǒng)一管理、提升校園后勤服務質(zhì)量和后期對于門禁數(shù)據(jù)的分析具有重要意義。

石飛飛設計并且實現(xiàn)了一個智慧校園挖掘平臺,嘗試了三類數(shù)據(jù)挖掘和分析:對后勤服務的挖掘、對于學生的挖掘以及對于教務信息的挖掘。對后勤服務的挖掘中,主要使用了直方圖和散點圖,并未涉及經(jīng)典的數(shù)據(jù)挖掘算法。在對學生信息的挖掘中,主要使用C4.5算法,將學生按照消費金額和消費次數(shù)聚類。然后,利用Apriori算法分析學生的在網(wǎng)時長、消費水平、圖書館借閱、出勤信息、門禁情況和成績是否有相關關系。在對教務信息的挖掘中,使用K-MEANS算法對各類數(shù)據(jù)進行聚類。該研究是一次比較綜合的校園平臺數(shù)據(jù)挖掘?qū)嵺`,方法上大數(shù)據(jù)分析方法和傳統(tǒng)的統(tǒng)計方法兼具。在對學生信息的挖掘中,模型綜合性較強,具有一定的參考價值。

陳鋒通過一卡通記載的學生就餐記錄統(tǒng)計出了學生集中就餐的峰值時間段以及峰值就餐人數(shù),為食堂提供了安全及營業(yè)時間方面的建議。同時,作者還按照正常行課時間與節(jié)假日時間,分別統(tǒng)計了學生的消費金額、用餐時間和刷卡消費次數(shù),根據(jù)學生在不同時間的消費行為模式,為校內(nèi)商戶提供經(jīng)營的建議。在數(shù)據(jù)分析方法上主要為簡單的統(tǒng)計分析,屬于傳統(tǒng)數(shù)據(jù)分析領域。

馬秀麟、衷克定、劉立超用量化的手段判斷學生的評教數(shù)據(jù)是否具有有效性。首先,使用克朗巴哈阿爾法系數(shù)法,判斷學生的評教數(shù)據(jù)是否具有內(nèi)部一致性(是否具有信度),然后使用學生每年的評教數(shù)據(jù)與督教的評教數(shù)據(jù)進行相關性分析,看是否具有一致性,從而證明學生的評教數(shù)據(jù)是否具有有效性。最后,對于那些評教分數(shù)比較低的老師,用相關性分析來分析到底哪一方面對于評教得分最有影響,從而對教師的教學工作提出建議。本研究是分析評教結(jié)果的主要相關因素,用量化的方法代替了人為的主觀評估,結(jié)果更加客觀。

金培莉、王曉震通過實例探尋了校園卡數(shù)據(jù)對于學校決策支持幫助的可能。作者應用了食堂就餐數(shù)據(jù)分析、教師就餐補貼分析、熱水洗浴分析三個實例。就方法而言,屬于簡單的數(shù)據(jù)加總和平均數(shù)分類,處于傳統(tǒng)的統(tǒng)計分析領域。

在后勤及其他事務的數(shù)據(jù)挖掘與分析中,從數(shù)據(jù)的分析方法來看,大數(shù)據(jù)的分析方法已經(jīng)成為主流,特別是分類方法。K-means和C4.5已經(jīng)成為最常用的方法,但仍有一部分研究使用平均數(shù)等簡單的統(tǒng)計方法。大數(shù)據(jù)方法并不天然比統(tǒng)計方法更加高級,它們有各自不同的應用場景,然而在上述文章中,使用統(tǒng)計分析方法的研究很大一部分并沒有充分發(fā)掘出數(shù)據(jù)的潛在價值,而是簡單的數(shù)據(jù)加總和分類,而使用大數(shù)據(jù)分析方法的研究中也存在著模型效果不佳等問題。從目前的狀況看來,這類研究并不成熟,還有進一步研究的必要和空間。

4 文獻評述

通過對以上三類主題的文章進行分析和梳理可以發(fā)現(xiàn),學者們應用大數(shù)據(jù)的分析方法對于校園平臺上的數(shù)據(jù)進行分析嘗試,并且隨著時間的推移,模型呈現(xiàn)出越來越成熟、方法也越來越智能化的趨勢,為校園事務的決策提供了支持,也為后續(xù)的分析嘗試提供了重要的參考和寶貴的經(jīng)驗。然而,由于領域的不成熟和客觀條件的限制,仍然能發(fā)現(xiàn)以下三個問題:

分析的數(shù)據(jù)種類和來源過于單一。以上大部分分析的模型都嚴重依賴學生的一卡通消費數(shù)據(jù),在對學生的學習行為進行分析時,又嚴重依賴圖書館的自習和借閱數(shù)據(jù)。總體而言,數(shù)據(jù)種類較少、來源單一。大數(shù)據(jù)分析的魅力之一在于利用多元異構(gòu)化的數(shù)據(jù)建立全面的模型,從行為入手,達到準確的分析和預測效果。數(shù)據(jù)來源的單一性直接導致對被分析對象的行為掌握不全面,因此影響分析和預測的準確度。目前,對于一卡通消費數(shù)據(jù)和圖書館自習及借閱數(shù)據(jù)的依賴有其客觀原因:進行大數(shù)據(jù)分析的基礎是數(shù)據(jù)的可得性。由于一卡通涉及消費、賬戶安全問題,通常受到校方的高度重視,要求進行統(tǒng)一的信息化管理,而圖書館借閱每日龐大的流水數(shù)據(jù)量也促使校方對于該業(yè)務迅速進行電子化和信息化,一卡通消費數(shù)據(jù)與圖書館借閱數(shù)據(jù)通常是校園數(shù)據(jù)中數(shù)據(jù)治理程度最好、質(zhì)量最高、取得最為容易的,因此最便于進行數(shù)據(jù)分析的研究。而其他方面的數(shù)據(jù),若要取得并進行研究,還依賴于整個校園事務進行信息化和信息治理的程度,而這個程度通常低于前兩項數(shù)據(jù)的程度,給研究造成一定不便。因此在設計模型時,會傾向于對于其他質(zhì)量不高的數(shù)據(jù)進行避免,因此形成了這樣的依賴現(xiàn)狀。而在前面章節(jié)的梳理中,也可以發(fā)現(xiàn),對于學生經(jīng)濟狀況的挖掘、貧困生的發(fā)現(xiàn)的研究數(shù)量比其他兩類稍多,其中的原因之一也在于數(shù)據(jù)的來源。一卡通消費數(shù)據(jù)可以作為可以獲得的、反映學生經(jīng)濟變量的重要指標。隨著數(shù)據(jù)治理的開展,這樣的情況會有所改善。

模型單薄。從以上章節(jié)的分析梳理中可以發(fā)現(xiàn),對于學生經(jīng)濟狀況的挖掘,無論采用什么方法進行,核心思想基本在于統(tǒng)計學生食堂就餐次數(shù)和總消費,如關于貧困生發(fā)現(xiàn)的研究,即篩選出消費總金額低而消費次數(shù)高的學生。這樣的模型本質(zhì)在于篩選出平均單次消費金額低的學生,符合貧困生的消費模式。然而,符合這一模型的,除了貧困生以外,還有在校外就餐,僅在學校購買一些小點心的學生,甚至還有一些處在節(jié)食減肥階段的學生。后兩類學生的行為并不是經(jīng)濟狀況導致的,對模型的準確率造成很大的影響。僅從消費數(shù)據(jù)上考慮的單薄模型并不利于識別的準確率,綜合學生的行為模式一起分析,建立更加全面的模型會有更好的效果。在對學生學業(yè)狀況的挖掘和其他校園事務的挖掘中,建立的模型和對結(jié)果的分析通常只局限在自己研究的小問題內(nèi),學科之間的交叉不夠深入,也限制了模型的準確度和對研究結(jié)果的進一步解讀。早在1984年,Astin就在院系影響力理論的基礎上提出了經(jīng)典的IEO模型。他認為,學生的學業(yè)成就受投入和院系環(huán)境的雙重影響。其中,成就部分不單指學生的學習成績,個性及價值觀也包含在內(nèi)。而學生的投入包含學生入學前的經(jīng)歷、家庭背景等。院系環(huán)境還包括院系氛圍和文化、教學設施及風格等等。而Astin后來的一系列文章又深化了該理論,使其成為教育學領域的基礎。把學業(yè)成就簡單等同于成績必然對分析結(jié)果的準確性和實際應用產(chǎn)生影響。

方法和模型之間不匹配。從目前研究所使用的分析方法來看,大數(shù)據(jù)的分析方法逐漸成為主流趨勢,最常使用的為聚類和相關分析,傳統(tǒng)的統(tǒng)計分析方法正逐漸被大數(shù)據(jù)分析方法取代。然而從目前的文獻看來,大數(shù)據(jù)的分析方法并沒有發(fā)揮出其優(yōu)勢,只是作為傳統(tǒng)統(tǒng)計方法的替代,如在學生經(jīng)濟狀況挖掘中普遍存在的用聚類方法統(tǒng)計平均消費的做法,而如果應用統(tǒng)計方法按照平均數(shù)過濾,效果相當而成本遠遠更小。傳統(tǒng)的統(tǒng)計分析和現(xiàn)在的大數(shù)據(jù)分析方法并沒有優(yōu)劣之分,只有各自更加適應的應用場景,沒有必要在不適合的地方,特別是傳統(tǒng)統(tǒng)計方法已經(jīng)有成熟和便利的處理方式的場景下盲目使用大數(shù)據(jù)分析方法。大數(shù)據(jù)的分析方法對于研究特殊性,而不是共性有著非常獨到的優(yōu)勢,而目前這種趨勢在一定程度上浪費了數(shù)據(jù)中信息的豐富性。

根據(jù)以上三個問題,可以針對性地進行改進。首先,對校園平臺數(shù)據(jù)進行數(shù)據(jù)治理。從以上分析可知,數(shù)據(jù)來源和數(shù)據(jù)質(zhì)量對研究的可行性和質(zhì)量有著重要的影響。良好的數(shù)據(jù)治理程度、豐富的數(shù)據(jù)來源和數(shù)據(jù)的可得性、便利的數(shù)據(jù)提取接口是進行數(shù)據(jù)分析的基礎。進行數(shù)據(jù)治理后,除已經(jīng)大量使用的一卡通消費數(shù)據(jù)和圖書館借閱數(shù)據(jù)以外,其他學生的行為數(shù)據(jù)也能夠進行分析,有利于模型的綜合化,改進對現(xiàn)有數(shù)據(jù)的過度依賴,提高研究質(zhì)量。許彩娥團隊的數(shù)據(jù)治理嘗試就是一個示例。

而針對模型單薄的問題,可以考慮引入行為模式分析,建立更加綜合性的分析模型,分析模型的搭建不應該被研究主題的領域完全限制。大數(shù)據(jù)的魅力在于從雜亂中尋找相關關系,而這種相關關系在很多時候都是出乎意料的,一個經(jīng)濟問題的表現(xiàn)也是方方面面的,而不局限于經(jīng)濟領域。因此,在搭建模型的時候要全面考慮,從行為模式入手,綜合分析。并且,各學科的合作會使得模型的搭建更加合理。

針對方法和模型不適配的問題,統(tǒng)計分析方法在提取共性方面已經(jīng)十分成熟,在前期數(shù)據(jù)的清洗和特征的合并方面具有十分重要的作用,可以為后期的大數(shù)據(jù)分析打下良好的基礎。二者可以考慮聯(lián)合使用,它們并不是互相排斥的,不需要為了追求高技術含量而在統(tǒng)計方法可以處理的場景使用大數(shù)據(jù)分析方法。通常,分析效果不佳都與常見問題的解決有著重要的關聯(lián),因此要注意細節(jié),而不是只要使用了最新的方法就能達到最好的效果。

針對目前的研究現(xiàn)狀和存在的問題,在接下來的研究中,可以考慮這樣的研究思路:在數(shù)據(jù)的清洗和特征合并等前期工作中使用傳統(tǒng)的統(tǒng)計方法,提高效率。在模型的構(gòu)建中引入行為模式的分析,可借鑒商業(yè)上已經(jīng)應用成熟的用戶畫像系統(tǒng),從行為模式入手,建立更加綜合的模型。最后,在分析結(jié)果的解讀中,可聯(lián)系其心理學的依據(jù),進行更加全面和更有深度的解釋,使得研究具有更加明確的現(xiàn)實意義。

[ 1 ] 徐劍. 基于一卡通數(shù)據(jù)的消費行為與成績的關聯(lián)性研究分析[D].南昌:南昌大學,2010.

[ 2 ] 陳建兵. 利用校園一卡通數(shù)據(jù)優(yōu)化高校貧困生認定系統(tǒng)[D].成都:電子科技大學,2012.

[ 3 ] 張佳. 數(shù)據(jù)挖掘技術在校園一卡通系統(tǒng)中的應用研究[D].蘇州:蘇州大學,2013.

[ 4 ] 張林紅,劉紅梅. 基于一卡通數(shù)據(jù)分析的學生早餐習慣與成績關聯(lián)規(guī)則挖掘[J]. 阜陽師范學院學報(自然科學版),2014(4):92-95+105.

[ 5 ] 費小丹,董新科,張暉. 基于校園一卡通消費數(shù)據(jù)的高校貧困生分析[J]. 電腦知識與技術,2014(20):4934-4936.

[ 6 ] 董新科,張暉. 基于校園一卡通消費數(shù)據(jù)的幾種聚類算法的分析比較[J]. 計算機系統(tǒng)應用,2014(1):158-161+183.

[ 7 ] 薛黎明,欒維新,李志淮,等. 數(shù)據(jù)挖掘在校園一卡通消費數(shù)據(jù)分析中的應用[A]. 中國高等教育學會教育信息化分會.中國高等教育學會教育信息化分會第十二次學術年會論文集[C].中國高等教育學會教育信息化分會,2014:8.

[ 8 ] 姜楠,許維勝. 基于校園一卡通數(shù)據(jù)的學生消費及學習行為分析[J]. 微型電腦應用,2015(2):35-38.

[ 9 ] 樊搏,姜玉國. 基于數(shù)據(jù)挖掘的貧困生認定輔助系統(tǒng)設計[J]. 軟件導刊,2015(12):134-135.

[10] 樊搏,呂艷芝. 基于一卡通數(shù)據(jù)中心的貧困生輔助認定分析[J]. 科教文匯(上旬刊),2015(11):122-123.

[11] GUAN C, LU X J, LI X L, et al. Discovery of college students in financial hardship. 16th IEEE International Conference on Data Mining (ICDM 2016)

[12] 武彤,王秀坤. 決策樹算法在學生成績預測分析中的應用[J]. 微計算機信息,2010(3):209-211.

[13] 羅永國. 基于改進的遺傳算法的學生成績預測模型[J]. 科技通報,2012(10):223-225.

[14] 劉志嫵. 基于決策樹算法的學生成績的預測分析[J]. 計算機應用與軟件,2012(11):312-314+330.

[15] 黃建明. 貝葉斯網(wǎng)絡在學生成績預測中的應用[J]. 計算機科學,2012(S3):280-282.

[16] 呂紅胤,連德富,聶敏,等. 大數(shù)據(jù)引領教育未來:從成績預測談起[J]. 大數(shù)據(jù),2015(4):118-121.

[17] 謝星宇,張穎璐. 基于改進的TrAdaboost算法的學生成績排名預測[J]. 計算機與現(xiàn)代化,2016(2):122-126.

[18] 蔡興雨,徐怡,程智煒. 基于粗糙集理論的影響高校學生成績因素研究[J]. 計算機技術與發(fā)展,2016(11):1-5.

[19] 李彤彤,黃洛穎,鄒蕊,等. 基于教育大數(shù)據(jù)的學習干預模型構(gòu)建[J]. 中國電化教育,2016(6):16-20.

[20] 張兵兵,王建,張建威,等. 數(shù)據(jù)挖掘在校園一卡通系統(tǒng)中的應用初探[J]. 數(shù)理醫(yī)藥學雜志,2009(5):572-575.

猜你喜歡
校園分析模型
一半模型
隱蔽失效適航要求符合性驗證分析
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
校園的早晨
琴童(2017年3期)2017-04-05 14:49:04
春滿校園
電力系統(tǒng)及其自動化發(fā)展趨勢分析
3D打印中的模型分割與打包
開心校園
主站蜘蛛池模板: 精品免费在线视频| 亚卅精品无码久久毛片乌克兰| 久久久久久久蜜桃| 久青草网站| 亚洲精品国产首次亮相| 好久久免费视频高清| 制服丝袜亚洲| 欧美全免费aaaaaa特黄在线| 日本高清视频在线www色| 亚洲色中色| 日韩精品免费一线在线观看| 又爽又大又黄a级毛片在线视频| 亚洲天堂自拍| 女人18毛片水真多国产| 国产v欧美v日韩v综合精品| 9cao视频精品| 国产精品护士| 亚洲美女一区二区三区| 日日拍夜夜嗷嗷叫国产| 免费又黄又爽又猛大片午夜| 香蕉eeww99国产在线观看| 久久久久国产精品熟女影院| 99久久精品免费看国产电影| 免费在线a视频| 久久久久国产精品免费免费不卡| 永久在线精品免费视频观看| 毛片免费在线视频| 午夜性爽视频男人的天堂| 色吊丝av中文字幕| AV熟女乱| 制服丝袜 91视频| 日本成人在线不卡视频| 欧美日韩成人| 99资源在线| 国产男女免费视频| 精品视频福利| 91视频精品| 伊人久久大香线蕉aⅴ色| 永久免费av网站可以直接看的| 伊人91在线| 国产精品不卡片视频免费观看| 国产欧美在线观看精品一区污| 午夜国产理论| 午夜高清国产拍精品| 欧洲熟妇精品视频| 欧美中文字幕在线视频 | 亚洲三级电影在线播放| 国产特级毛片aaaaaa| 国产成人高精品免费视频| a在线亚洲男人的天堂试看| 国产亚洲精久久久久久久91| 中国一级毛片免费观看| 成人福利在线视频| 国产综合精品一区二区| 国产精品免费福利久久播放 | 亚洲成人福利网站| 日韩人妻无码制服丝袜视频| 亚洲无码精彩视频在线观看| 亚洲第一天堂无码专区| 免费啪啪网址| 午夜小视频在线| 国产又爽又黄无遮挡免费观看| 久热re国产手机在线观看| 全午夜免费一级毛片| 欧美国产视频| 国产综合亚洲欧洲区精品无码| 亚洲成网777777国产精品| www亚洲精品| 亚洲女同一区二区| 亚洲 日韩 激情 无码 中出| 久久香蕉国产线| 成人另类稀缺在线观看| 亚洲第一在线播放| 亚洲综合在线最大成人| 成人精品视频一区二区在线| 久久久亚洲色| 国产美女叼嘿视频免费看| 麻豆精选在线| 久热精品免费| 国产精品手机视频| 黄色污网站在线观看| 色亚洲成人|