吳恩英
(重慶師范大學計算機與信息科學學院,重慶 401331)
支持向量機算法在學生評價中的應用
吳恩英
(重慶師范大學計算機與信息科學學院,重慶 401331)
支持向量機分類通常的做法是在樣本集中選取一部分數據作為訓練樣本建立分類模型,另一部分用作測試集,測驗模型的準確率。但當訓練樣本規模相對較大時,如何選取包含信息量多的樣本作訓練樣本是本文研究的重點,結合實際數據特點,提出基于聚類策略的訓練樣本選取方法,并且在訓練時間以及預測精度上收到了理想的結果,這對日后學校的學生評價工作具有非常實用的價值。
學生評價;支持向量機算法;聚類策略
高校的學生評價不僅僅是評定學生,另外還具有引導和有助于學生的發展。在今天素質教育的倡導下,學生的發展應當是全面綜合的發展,包括專業知識與技能、道德修養、身體素質等各方面在內的發展。傳統的學生評價模式泰勒模式[1]以及CIPP模式[2]不是存在評價目標單一的缺陷就是過于注重結果評價,這樣的評價模式皆不能適應現在的素質教育要求。因此特別需要一種更加恰當的評價方法對上述學生評價中存在的問題加以解決。
本文針對學生樣本數據的特點,利用支持向量機分類算法對其進行分類研究。支持向量機(Support Vector Machine),簡稱SVM[3],是建立在統計學習理論的結構風險最小化原理上的一種分類技術,對于解決小樣本、非線性、高維數問題,比其他分類算法具有更好的泛化性。它避免了神經網絡中的局部最優解的問題,并有效地克服了“維數災難”和“過學習”等傳統困難[4]。
支持向量機的最初應用是線性可分的二分類問題,最優分類面也是由此而來的。基本思想如圖1所示,其中,H是分類線,實心方塊和實心圓分別代表樣本的正負兩類,H1和H2分別是過各類樣本中離分類線最近且平行于H的分類間隔。支持向量機要求,H能將訓練樣本完全分開,并且保證分類間隔最大。
在實際應用中遇到的很多情況都是多分類問題,比如本文中根據學生信息對學生進行的分類。構造多分類的方法目前主要有“一對多”SVM分類、“一對一”SVM分類、“有向無環圖”[5]SVM分類等。
利用山東省某高校計算機學院學生專業課信息,包括學生的基本信息,學生的行為特征(包括出勤率,學習態度,作業提交情況,素質得分)和學生成績(筆試成績,上機成績)。取200個同學的信息作為訓練集樣本,那么對每一個同學來說,其數據規模是16維,如果所有樣本維數都參與計算,其數據規模高達3200個多,而這僅僅是對于同一所學校某年級來說,如果對一個地區高校學生進行分析呢,計算量更是相當之大。利用自組織特征映射網絡聚類方法對200個學生樣本進行聚類。
首先,根據同一個班中的學生基本情況大體都是類似的,我們暫且忽略掉,只考慮學生的行為特征和學生的成績,根據學生行為特征將該樣本集聚為3類(90<優<100,70<良<90,60<中<70),據學生成績將學生聚為4類(90<優<100分,80<良<90,60<中<70,0<差 <60),那么這200個樣本就被聚為3×4=12類。聚類結果如表1所示:

類別號備注類別號樣本數備注類別號備注樣本數樣本數00 35類別1 1022類別3 20 0其他01 19類別2 11 51類別4 21 12其他02 10其他12 29類別5 22 13其他03 0其他13 5其他23 4類別6
表1 聚類結果
表中的兩位數字中,首位代表學生行為特征,次位代表學生成績。比如類別號00,代表學生行為得分是優,成績得分也是優。通過表1可以看出各子類聚集的樣本數差別比較大,具體說明如下:
(1)樣本數為0或者很少。如03類型,出現的概率為0,說明學生行為特征得分在90分以上而學生成績不及格的同學不存在;
(2)樣本數多。如11類型出現的概率大,說明學生行為特征得分在80分以上90分以下的同學,其學習成績也不會太低。
樣本數多的子類客觀上反映了學生的行為特征和學生成績有一定的聯系,應作為典型的子類模式。而又考慮到訓練樣本集的等級全面性,因此我們將類別號23也作為一個子類模式,由此從12類聚類結果中篩選出6個子類模式如表1所示(類別1到類別6)。
為分析上述6個子類模式之間的顯著性差異,利用160個學生樣本(6個子模式涉及的樣本數)使用SPSS軟件進行方差檢驗,表2為方差檢驗結果(α取默認值0.05)。

子類123456F30.1224.3518.4520.7118.1418.19
表2 子類間的檢驗結果
檢驗結果表明6個子類模式間具有顯著性差異。這說明具有200個數據的樣本用7維特征描述之后,子類間的差異被顯著性的體現出來,每個子類都具有鑒別度,進一步驗證了前面聚類策略及聚類結果的合理性。
以下給出了采用不同算法得到的預測分類準確率和訓練時間比較結果:

實驗類別K-means SVM本文算法預測準確率83%85% 88%訓練時間(單位:s)0.12700 0.12500 0.11100
表3 三種分類算法預測準確率比較
實驗結果顯示,利用聚類之后的訓練樣本建訓練模型,對未知樣本訓練精度有所提高,并且訓練時間也相對提高,這說明本文提出的方法是可行的。
在當今素質教育體制下要求學生德智體全面發展,對學生的評價如果單純考慮考試成績,那就是片面的,并不能真正起到幫助學生的目的。因此要想使學生的能力得到有效的提高,教師除了要教好書本知識之外,更不能忽視對學生心理活動的指導,只有這樣才能達到雙贏的效果。而對于學生數據比較多的情況,如果所有的數據都一一分析勢必會費時費力,效率也不高。本文提出的這種基于聚類策略的支持向量機分類方法,不僅能對學生評價做到合理的分類,更能簡化數據樣本,提高效率提高分類預測率,對日后學校的教學工作將會起到很大的幫助作用。
[1]李倩.美國大學教師教學評價研究—以MIT為例[J].大連理工大學,2008:3-5.
[2]肖遠軍.CIPP教育評價模式探析[J].教育科學,2003,03:42-45.
[3]中譯本,李國正等譯.《支持向量機導論》[M].北京電子工業出版社,2003:1-139.
[4]鄧乃揚,田英杰.數據挖掘中的新方法-支持向量機[M].北京:科學出版社,2004.
[5]Platt J.C.,Cristianini N.,and Shawe-Taylor J.,”Large margin DAGs for multiclass classification,”in Advance in Neurua Information Processing Systems.Cambridge,MA:MIT Press,2000,vol.12,PP.547-553.
G647
:A
:1671-864X(2015)10-0088-02