甘偉
(四川大學計算機學院,成都 610065)
校園一卡通的系統是數字化校園建設中必不可少的組成部分和基礎工程[1]。隨著計算機應用技術和數據庫安全技術的發展,校園一卡通在各大、中、小學中都有廣泛的應用。其中,大學生的校園一卡通的系統最為成熟,業務覆蓋范圍最廣,所涉及的業務包括就餐、消費、門禁、交通、打印等,且呈現逐年增長的趨勢。一個大學在校人數一般為幾千甚至幾萬人,每天產生大量的一卡通數據[2]。而在這些龐大的數據記錄中就隱含著在校大學生的消費水平、行為規律等[3]。校園一卡通所記錄的數據被越來越多的人關注,其重要的原因就是這些數據可以在一定程度上反映在校大學生的一些情況。因此,有很多研究人員對學生的消費記錄做出分析,用來分析學生的消費水平、為學校后勤部門提供決策依據。
但是目前對一卡通數據的研究大部分都是通過一些統計的方法研究一卡通的某些類型的數據,極少有研究人員結合可視化技術[4]交互手段對一卡通所記錄的信息進行全面分析或展示的。本文中采用了可視化技術對一卡通數據進行全面展示,以圖表的形式直觀地幫助用戶理解數據、發現數據中隱藏的規律[5],幫助用戶分析學生行為。
本文對數據的展示與分析主要利用了三個視圖。整個界面如圖1所示,主要分為用螺旋視圖[6]表示的學生行為視圖,用圓圈表示的學生信息視圖和用堆疊條形圖表示的學生消費視圖。

圖1 總視圖
學生行為視圖展示的是學生在什么時間、什么地點發生了某些特定的行為,這些行為主要包括在食堂就餐、到超市購物、圖書館購物、教室消費、寢室消費、打印、乘車等。圖2(a)為螺旋視圖在“周模式”時的展示情況,用來顯示每個學期學生的一卡通數據記錄,每一圈表示的是一周的一卡通數據記錄,通過用戶交互可以選擇感興趣的記錄類型或模式。圖2(b)為“天模式”下的展示情況,用來顯示某連續9天的一卡通數據記錄,每一圈表示的是一天的一卡通數據記錄,和在“周模式”下有同樣的交互。兩種模式的不同之處在于“天模式”可以對所要展示的時期通過滑動條來選擇,每次展示的只是某個學期的部分數據,而且在數據映射上用圈的大小代表消費金額的多少。

圖2 不同模式下的學生行為
如圖3(a)所示,展示的是用堆疊條形圖表示的學生消費視圖,用來展示每個學期的消費總金額以及各類消費金額(顏色與螺旋視圖的映射方案一致)。可以看到每個學期的消費以食堂消費為主,其次是超市。二三學期的學費總金額和各項消費金額變化不大,都和第一學期的消費有較大的差異。圖3(b)是用一個圓圈來展示一個學生信息,用來展示學生及成績相關信息,顏色不做任何映射。每個圓圈的大小表示該學生跟上學期相比成績變化的大小。當鼠標懸浮在某個圓圈上時,所有圓圈的顏色會發生變化,紅色的表示學生上學期排名上升,藍色表示該學生上學期排名下降。

圖3 不同模式下的學生行為
本文先以可視化的方式來展示一卡通數據,通過交互操作發現學生去圖書館的次數、有無早起吃早飯的習慣、進圖書館的次數以及借書的數量對學生成績有較大的影響。因此,本文選取了以上的幾個特征來對學生的相對排名做出預測。
在第一次實驗中,利用第一學期的相對排名和第二學期該學生去圖書館的次數、吃早飯的次數(十點之前有食堂刷卡記錄視為早飯記錄)、借書的數量這些變量為特征訓練出一組參數。在利用這組參數和第二學期的排名、第三學期的同樣的特征預測第三學期的相對排名時,發現效果并不是很好。分析其原因,在利用可視化試圖分析學生行為時,是依據學生兩個學期行為的變化來預測學生成績的升降的。每個學生的學習行為本身就具有很大的差異性,所以根據學生單個學期的表現就判斷該學生成績的變化是沒有意義的,而依據學生在學習行為上的變化(在本文中主要是指和上學期相比產生的差異)來判斷學生成績的變化才是有意義的。根據以上分析,又重新選擇了特征,重新選擇的特征為上學期的相對排名、和上學期相比進圖書館增加的次數、吃早飯增加的次數、借書增加的數量(表 1)。

表1 特征表
線性回歸是運用統計學的方法,來分析自變量和因變量之間的依賴關系,并依據這種關系進行建模的回歸分析。這種模型是目前應用的非常廣泛的預測模型。在線性回歸模型中,自變量和因變量是一種線性關系。依據人們的經驗,上學期的成績、本學期的行為表現和本學期的學習成績之間是一種線性關系。例如,去圖書館的次數少了,可能成績就有所下降,去圖書館的次數變得越少,成績可能就退步得越多。本文選取了四個特征及存在四個自變量,來預測學生相對排名。因為,存在兩個以上的自變量,所以使用的回歸模型叫多元線性回歸模型。
將提取的特征導入到IBM SPSS Statistics 20中,選擇線性回歸模型,選取因變量與相應的自變量,得出了如表2的結果:

表2 線性回歸參數表a
a.因變量:rank2
在非標準化系數下,就計算得到了需要的一組參數。即表明了預測模型對應的公式為:

從這組系數可以看出,上學期的成績排名(rank1)對這個學期(rank2)的影響最大,這個也符合人類的經驗。而進圖書館的次數、借閱書籍的次數與吃早餐的次數這些對成績提高有幫助的因素都會導致相對排名的減小,即相對排名變小。標準化系數可以用來反映變量間相對重要性,但是不能反映在真實情況下對結果的具體影響,因此只是用來分析變量的重要性。
t值是t檢驗的結果,它的絕對值越大表明了該變量對結果的影響越顯著。例如,在上圖中可以看出上一學期的成績對應的t值最大是33.297,那么該變量對結果的影響是最顯著的。sig也是用來反映變量對結果影響的顯著程度的,但是它的數值的含義是假設某個變量對結果是沒有影響的概率。因此,sig的越小表示該變量對結果的影響越大。我們默認當sig小于0.05時,它對結果的影響是顯著的,從上圖中我們可以看出只有早餐的次數是遠大于0.05的,其他變量對結果的影響都是比較大的。因此,可以認為得到公式是有效的。
用以上工作所得到的預測公式對數據中第三學期的學生相對排名做出預測。預測出來的結果如表3所示:
可以看到預測的結果不是整數,且范圍不在1~538之間,即這些數字只是反映學生相對排名的一些指標,并不能代表學生的相對排名。所以,又依據這個數據從低到高對學生進行排列,則排列之后的順序就代表了學生的名次,名次從1依次增大到538,這樣就得到了最后的結果。
在預測出學生的相對排名之后,要對預測結果進行評定。在本文中是通過衡量預測排名和實際排名的Spearman相關性,結果為[0,1]之間的數據,數值越大表示相關性越大,即排名預測的越準確。假如有n個學生的排名,學生i的實際排名為ri而該學生的預測排名為 pi,那么Spearman的計算方式如下:

利用這個評價指標對處理后的排名預測進行評價,算出結果為0.901。這表明本文中提取的特征和找到的線性回歸模型對學生排名預測是有很好效果的,實際排名和預測排名差別不是很大。
本文針對學生的一卡通數據,對學生的行為進行分析。利用可視化圖形與交互技術發現影響成績排名的可能因素。再使用SPSS軟件,利用多元線性回歸模型,結合可視化交互提取的影響成績變化的變量,對學生成績進行預測。實驗結果表明,可視化交互提取出的特征對成績排名的預測有很重要的作用。

表3 初步預測結果
參考文獻:
[1]張治斌,王艷萍.數據挖掘技術在數字化校園中的應用[J].現代計算機,2006(12):93-95.
[2]陳建兵.利用校園一卡通數據優化高校貧困生認定系統[D].電子科技大學,2012.
[3]李珊娜.基于校園一卡通平臺的數據挖掘應用研究[J].鐵路計算機應用,2010,19(6):55-58.
[4]陳為,張嵩,魯愛東.數據可視化的基本原理與方法[M].科學出版社,2013.
[5]Chen M,Jaenicke H.An Information-Theoretic Framework for Visualization[J].IEEE Transactions on Visualization&Computer Graphics,2010,16(6):1206.
[6]Weber M,Alexa M,Müller W.Visualizing Time-Series on Spirals.[C]Information Visualization,2001.INFOVIS 2001.IEEE Symposium on.IEEE,2001:7-13.