雷萌,李菀茹,張強,亓曉雯



摘要:為了挖掘高校校園卡系統中數據的有效價值,本文以中國礦業大學信電2015屆大學生為研究對象,采用皮爾遜相關分析法和灰色關聯分析法分析了其校園卡消費信息與學習成績的相關性,并建立了基于多元線性回歸分析法和雙對數回歸分析法的擬合模型,可根據學生的消費情況估測其學習狀態,為高校學生工作管理部門實時掌握學生的學習動態提供了新途徑。
關鍵詞:數據挖掘;校園卡消費;學習成績;相關分析法;回歸分析法
中圖分類號:G647 文獻標志碼:A 文章編號:1674-9324(2017)45-0045-03
隨著計算機網絡技術與數據庫技術的不斷發展,人們已步入一個信息爆炸的大數據時代,“大數據”的概念受到越來越多的關注。數據挖掘技術應運而生,并在商業、教育、科研等領域得到了廣泛應用。大數據具有規模大、生成速度快、潛在價值高的特點,數據挖掘即利用數據分析的方法,從海量數據中提取有效信息,為用戶決策提供輔助參考,從而實現大數據價值的過程[1]。近年來,高校數字信息化程度逐步提高,將數據挖掘技術應用于高校校園卡消費系統中,提取學生刷卡記錄并結合學生的消費行為、學習成績、身心狀況等其他信息進行分析,能充分發揮現有數據的作用為決策服務[2],有效地推動高校學生管理、教學改革、后勤服務的發展。
本研究通過相關分析法分析了中國礦業大學信電2015屆學生在校四年間的校園卡消費信息與學習成績的相關性,并利用回歸分析法建立了二者的回歸模型,為高校學生管理部門通過學生的消費情況估測學生的學習狀態提供了新途徑。
一、研究對象
本研究以中國礦業大學信電學院2015屆大學生為研究對象,采用ACCESS、EXCEL、SPSS等軟件對其大學四年的一百多萬條消費記錄進行了初步的統計、篩選與分析,結果如表1、表2所示。
由表1可知,有效樣本為401個,其中男生占比很高,達到90.3%。消費情況中,男生的月平均消費金額比女生高9.9%,且消費次數比女生高6.5%,可見男生的校園平均消費水平高于女生。
由表2可知,研究對象在大一、大二、大三的年度消費額、消費次數較高,而在大四較低;研究對象在大一學年的年度加權平均分較高,而在大三較低。
二、研究方法
(一)相關分析法
相關關系是指在某種意義下不同變量間所存在的聯系與規律,其目的在于探尋數據集里所隱藏的相關關系網[3]。相關系數是一種對變量線性相關關系的強度及方向的測量,r為樣本相關系數,x為解釋變量,y為響應變量,數據用有序數對(x,y)表示,則計算r的公式為:
r=■(1)
本研究主要利用了皮爾遜相關系數指標,計算了消費額、消費次數與加權平均分的相關系數。為了提高結論的可靠度,輔以灰色關聯分析法。灰色關聯分析的基本思想是根據序列曲線幾何形狀的相似或相異程度來衡量其關聯是否緊密,曲線越接近即發展趨勢越接近,則相應序列之間的關聯度越大,反之越小[4]。
(二)回歸分析法
回歸分析法是在大量數據的基礎上,根據實際要求,考察某個或幾個變量與其余變量的相互依賴關系[5],配合直線或者曲線可以確定相應的數學表達式。通過對消費金額、消費次數、加權平均分這幾個量建立回歸模型,進行擬合度檢驗,得出結論。
1.多元線性回歸模型。多元線性回歸分析的基本思想是在確定自變量、因變量及二者間的關系后,通過設定自變量參數的回歸方程來預測因變量[6]。二元線性回歸方程式為:
■=a+b1*x1+b2*x2(2)
■為因變量估計值,a、b1、b2為三個待定參數。
通過判定系數和估計標準誤差這兩個變量可以判斷模型的擬合優度,判定系數r2的公式如下:
r2=■=■(3)
估計標準誤差的公式為:
Syx1x2=■
(4)
2.雙對數回歸模型。
假設有如下函數:
Y■=A*X■■(5)
考慮到該模型不適于采用普通最小二乘法進行估計,故對其作如下變化:
lnY■=lnA+B■*lnX■(6)
繼而,如果令B1=lnA,則有:
lnY■=B■+B■*lnX■+u■(7)
以上模型稱為雙對數模型,其中u■為估計誤差。如果將lnY■和lnX■都看作單獨的變量,可將雙對數模型變為變量線性模型。
三、結果與討論
(一)相關系數法
1.皮爾遜相關分析。相關系數是定量描述變量之間相關關系密切程度的重要統計指標,皮爾遜積距相關系數在樣本滿足二元高斯分布時是最佳選擇[7]。本研究采用皮爾遜相關系數法得到消費額、消費次數與加權平均分之間的相關分析結果,如表3所示。
表3表明,消費額、消費次數與加權平均分的簡單相關系數分別為:-0.457、-0.361,即消費額、消費次數與加權平均分之間存在負向的相關關系。相關系數的高低排序為:消費額>消費次數。
2.灰色關聯分析。利用SPSS軟件對各個指標進行灰色關聯分析,得到消費額、消費次數與加權平均分的灰色關聯度分別為:-0.737、-0.785,即消費額、消費次數與加權平均分之間存在負向的相關關系。灰色關聯度的高低排序為:消費次數>消費額。
(二)回歸分析法
1.線性回歸分析。
模型1:被解釋變量為:加權平均分(s),解釋變量為:消費額(m)、消費次數(f)。
模型1的方程:
s=-0.299*m-0.553*f
利用SPSS進行模型的擬合優度檢驗,結果顯示,模型1的復相關系數R=0.409,通常認為,R>0.4則說明線性回歸關系較密切,F檢驗的顯著性Sig.值(0.000)<0.05,表明模型1的方程具有一定的可行性。但模型1的調整R方較小,表明該模型的擬合效果較差。
由上述方程可知,消費額、消費次數對加權平均分均具有負向的影響作用,各自的影響系數分別為:-0.299、-0.553,即研究對象在上課期間的消費額越高、消費次數越多,其四年的加權平均分將越低。
2.雙對數回歸分析。
模型2:被解釋變量為:加權平均分(s),解釋變量為:消費額(m)、消費次數(f)。
模型2的方程:
由模型2的方程知,消費額、消費次數對加權平均分均具有負向的影響作用,各自的影響系數分別為:-0.124、-0.207,結論同模型1。
利用SPSS進行模型的擬合優度檢驗,結果顯示,模型2的調整R方的值為:0.593,調整R方較大,表明該模型的擬合效果較好。擬合優度檢驗中Durbin-Watson值為1.797,由于Durbin-Watson檢驗的判別區域是以坐標點2對稱的[8],檢驗值接近于標準數值2,表明模型2的殘差序列存在自相關性的可能性非常低。
由表4知,模型2方程的顯著性F檢驗觀測值為294.662,顯著性對應的概率值Sig.(0.000)<0.05。這表明在0.05的顯著性水平下,顯著性檢驗結果的所有系數不全為零,即解釋變量對響應變量的聯合線性影響是顯著的。
由表5可知,各自變量的VIF值均小于最大容忍數值10,因此模型2的方程是可行的。從影響系數顯著性檢驗結果來看,消費額、消費次數對加權平均分的影響系數顯著性檢驗的Sig.值均小于0.05,表明其具有顯著性。
通過回歸分析驗證可得,學生的消費額、消費次數與成績具有一定的負相關性。此結論可用于大學生管理,通過分析學生在某段時間的校園卡消費記錄,預測其學習狀態,從而對學習狀態不佳的學生進行及時地引導。
四、結論
本研究順應大數據時代的潮流,運用數據挖掘技術對中國礦業大學信電學院2015屆畢業生大學四年的校園卡消費數據進行了分析。從不同的大學生群體來看,不同性別、不同學年的大學生校園卡消費金額和消費次數存在差異,反映了大學生不同的消費需求與消費心理。從大學生整體情況來看,通過相關分析法發現大學生的學習成績與校園消費額呈一定的負相關關系,利用回歸分析法建立二者的多元線性回歸模型和雙對數模型,則可根據模型由學生消費情況估測其學習狀態。當然,隨著高校的發展,校園卡消費系統的數據越來越多,海量的數據中蘊含的信息遠不止這些,結合大學生心理健康和高校規劃建設仍有很大的研究前景。本研究對學生消費記錄與學習成績的分析旨在向讀者說明,數據挖掘在校園卡系統中的基本應用方法,為高校的學生管理、后勤保障和校園建設提供參考。
參考文獻:
[1]張引,陳敏,廖小飛.大數據應用的現狀與展望[J].計算機研究與發展,2013,(S2):216-217.
[2]姜楠,許維勝.基于校園一卡通數據的學生消費及學習行為分析[J].微型電腦應用,2015,31(2):35-36.
[3]李國杰,程學旗.大數據研究:未來科技及經濟社會發展的重大戰略領域——大數據的研究現狀與科學思考[J].中國科學院院刊,2012,27(6):647-657.
[4]孔令號,焦彥軍,戴志輝.基于灰色關聯度的站域保護原理[J].電網技術,2014,38(8):2274-2275.
[5]韓寶燕.回歸分析模型及聚類分析法[J].科技視界,2014,(07):11-12.
[6]王春輝,周生路,吳紹華,吳瀅瀅.基于多元線性回歸模型和灰色關聯分析的江蘇省糧食產量預測[J].南京師大學報(自然科學版),2014,(4):106.
[7]徐維超.相關系數研究綜述[J].廣東工業大學學報,2012,29(3):12-13.
[8]劉明王,永瑜.Durbin-Watson自相關檢驗應用問題探討[J].數量經濟技術經濟研究,2014,(06):153-160.