王靜
【摘 要】引入GA優化算法對SVM模型的參數進行優化,把優化后的算法應用于高職學生綜合素質評價,構建一個學生綜合素質的評價模型。實驗表明,優化后的SVM模型泛化能力更好、預測的準確率更高,能有效地對學生的綜合素質進行評價。
【關鍵詞】GA算法 SVM模型 綜合素質評價
【中圖分類號】 G 【文獻標識碼】A
【文章編號】0450-9889(2014)03C-0055-03
學生的綜合素質是一個學校辦學水平的反映,如何對高職學生的綜合素質進行科學、合理地評價成為各個高職院校改革研究的重點。對學生綜合素質的評價屬于非線性的數學問題。支持向量機( Support Vector Machine,簡稱SVM) 是一種新型的機器學習方法,具有良好泛化能力,在處理非線性問題時更容易逼近問題的解決。但SVM模型的分類性能受其參數的影響,這些參數的確定帶有很大的隨機性。為了解決這個問題,引入具有智能全局搜索能力的遺傳算法 (Genetic Algorithm,簡稱GA)對SVM模型的參數進行優化,構造一個基于GA算法優化的SVM模型(簡稱GA-SVM模型)。實踐表明,在學生綜合素質評價中GA-SVM模型具有更好的非線性逼近能力,具有一定的應用前景。
一、GA優化的SVM評價模型
(一) SVM模型的基本原理。SVM模型是一種新型的機器學習方法,它源于統計學和結構最小化原則。它的基本思想是在有限的樣本中,對問題的復雜性和算法繼續學習能力進行折中,使模型獲得更好的泛化能力。如圖1所示。圖1中的實心點和空心點分別代表兩類不同的樣本,H1和H2是兩根平行于分類線的直線,H1和H2之間的距離稱為分類間隔(Margin)。
圖1 支持向量機原理示意圖
設樣本集(xi,yi)線性可分,其中i=1,2,L,n。n為樣本數量,輸入向量x∈Rd,類別標號y∈[1,-1]。在d維空間中,線性判別函數的基本形式為g(x)=wgx+b。設分類面方程為,其中w是一個向量,該向量垂直于超平面,b稱為超平面偏置。我們把能將兩類樣本準確區分,并且使得這兩類樣本之間的分類間隔最大的那個面稱為最優分類面。求解最優分類面,實際上就是找到w和b的最優值,也就是在條件,i=1,....,n下,求解函數的最小化,即
(1)
在所有的樣本里,如果該樣本滿足,且與分離線(平面)的垂直距離最小,則稱之為支持向量。以上的討論都是假設所有的樣本是線性可分的情況下給出的。然而,在現實的應用中,很多數據都是非線性的。為了解決非線性問題,通過對公式(1)引入常數因子C和松弛因子,把每一個樣本點通過函數轉換到高維特征空間再對它們進行線性回歸。則轉換公式可以表示為:
其中,i=1,....,n
對公式(2)引入拉格朗日函數,把問題轉化為對偶問題。在給定的約束條件和(i=1,....,n)下,對求解,即
(3)
其中為拉格朗日乘子。對公式(3)求解,結果為:
(4)
運用公式(4)即可求出樣本x的類別。
本文采用徑向基函數作為SVM模型的核函數:
(5)
從公式(2)和公式(5)可以看出,SVM模型的整體性能很大程度上由常數因子C和徑向基函數的參數來決定。因此,為了能更好地選擇這兩個參數,我們引入具有全局搜索能力的GA算法對這兩個參數進行優化,使得SVM模型具有更好的泛化能力和逼近精度。
(二)基于GA優化的SVM評價模型。GA算法是一種模擬生物進化過程的優化算法,在該算法中,問題的解空間用一種給定的編碼來表示,求解問題的目標作為算法的適應度函數。GA算法在初始狀態會隨機產生一個編碼群體,在這個群體之上通過選擇算子、交叉算子以及變異算子完成整個算法的運算機制。經過算法的迭代,群體內的個體不斷接近問題的最優解。
本文采用實數對GA算法進行編碼,利用GA算法對SVM模型的常數因子C和徑向基函數的參數進行優化的基本步驟如下:
Step1:問題的初始化。隨機生成初始種群N,種群中染色體的編碼由C和組成,算法的最大迭代數為,迭代變量k=0。
Step2:進行選擇操作。群體內的每個染色體能否被選擇參與下一輪的進化由選擇算子決定:
(6)
其中,是染色體的適應度函數,本文采用MAPE的倒數作為適應度函數,×100%,為實值, 為預測值。
Step3:進行交叉操作。隨機生成一個數rc=random[0,1],若rc Step4:進行變異操作。變異操作的算法為: 。其中,V和V'分別是父染色體和子染色體,N(0,1)是高斯變量且均值為0、方差=0;Pm是變異概率;是染色體V的適應度函數。 Step5:當時,算法結束,輸出最優的C和;否則,k=k+1,跳轉到Step2。 (三)基于SVM的多分類器。從SVM模型的基本理論來看,它本身就是一個二分器,僅能解決兩種不同類別的分類問題。然而,現實中需要解決的往往都是多分類的問題。有學者對基本的SVM模型進行了推廣,使它能解決多種分類的問題。實現SVM模型多種分類的基本思路是:構造多個SVM的子分類器,每個子分類器都由兩種不同類別的樣本構成,樣本的選擇是隨機的。對于一個有m個樣本的集合,則可構造m(m-1)/2個子分類器。設有A和B兩類樣本組成的訓練集,A集合的類別標記為正,反之B集合的類別標記為負。以此思想構造的SVM多分類器需要解決的優化問題是 公式(7)需要滿足的條件為:
當獲得子分類器后,就可以使用子分類器對樣本數據進行測試。在測試的過程中,分別對m(m-1)/2個子分類器進行測試,并統計各個樣本類別的分數,測試數據的類別即為測試過程中得分最高者所對應的類別。
二、高職學生綜合素質評價體系構建
影響高職學生綜合素質的因素很多,各因素之間的關系相互聯系又互有影響,因此整個評價過程是一項復雜的系統工程。為建立規范、合理、科學的評價指標體系,必須堅持評價的多維化、評價主體的多元化、評價方法的多樣性以及評價功能的多元化原則。當前,各高職院校對學生綜合素質的評價也進行了多方面的探索,取得了很多經驗。通過廣泛查閱資料,在借鑒姚宏、葉寧《高職院校學生綜合素質評價指標體系研究》一文的基礎上,本文采用的學生綜合素質評價體系如表1所示。
通過表1可以看到,影響學生綜合素質的指標很多。在以往的評測中,大多采用發放調查問卷的形式收集相關數據,最后由輔導員對每個學生的信息進行統計,這種方法所得數據可用性差,在這里我們對所有的指標采取量化的方式進行數據的收集。首先對所有一級指標用A、B、C、D和E進行區分,每個二級指標都有相應的編號,實際使用的時候是一級指標的字母加上對應二級指標的編號。如:A1、A2等。每個二級指標的分值都是滿分10分,每個一級指標都占總分值的20%,由此可知每一名學生的評價分值可以用如下公式來進行計算:綜合素質評價總分=A×20%+B×20%+C×20%+D×20%+E×20%。每一項一級指標的分值都由它對應的二級指標來確定,比如C指標對應有6項二級指標,則C=(C1+C2+C3+C4+C5+C6)×100/60。評價的最終結果用Y來表示,總共分為優秀、良好以及差三個等級,為了便于SVM模型處理,這三個等級的分值分別是1、0和-1。參見表2。
三、具體應用
(一)數據采集。考慮到每個人主觀性會造成在打分時存在不同程度的個人傾向,為了保證評價結果的科學性和權威性,采用教師和學生相結合,多人打分取平均值。具體做法是,按照表1的指標設計調查表,對柳州職業技術學院財經系2011級財會專業1班共43人進行評價測試。組織該班級的任課教師共5人對全班43名同學進行打分,學生則分為4組,每組11人,其中一組10人,每組同學互相打分。最終形成的數據如表3所示。
為了消除數據間的差異,使SVM模型具有更快的處理速度和處理精度,對采集到的所有樣本進行歸一化處理,歸一化處理公式為:
(8)
(二)評價模型的具體應用。本實驗在P4 2.8GCPU、2G內存的硬件條件下,在WinXp系統中采用matlab7進行編程實現。取前35筆數據作為訓練樣本,后8筆數據作為測試樣本。實驗中用到的部分參數為:種群規模N=200,交叉率Pc=0.75,變異率Pm=0.05 。通過對SVM參數的優化處理,最終建立SVM的綜合素質評價模型。同時為了驗證經過GA優化的SVM模型和未優化的SVM模型性能上的差別,后8筆測試數據分別采用GA-SVM模型和SVM模型進行測試,結果如表4、表5所示。
從表4、表5中可以看出,SVM模型和GA-SVM模型預測誤差都控制在2%以內,說明它們在進行非線性數據預測中,預測精度很高。通過表4和表5的比較不難看出,通過GA優化后的SVM模型比未優化的SVM模型具有更好的泛化能力和預測精度。這是因為GA-SVM模型在GA算法的優化下,拓展了解的空間,在GA算法強大的全局搜索能力下得到了更優化的參數C和 ,從而獲得更好的學習精度,提高了未知樣本的預測率。
綜上所述,學生綜合素質是反映學校辦學質量的一項重要指標,同時也是企業用人的一項重要指標。因而,對學生綜合素質評價一直是當前高職院校改革和探索的問題。本文利用GA算法對SVM模型的參數進行了優化,并成功地應用于學生綜合素質的評價。實驗結果表明,優化后的SVM模型泛化能力更好、預測的準確率更高,具有一定的應用前景。
【參考文獻】
[1]劉偉,孫林.基于支持向量機的課堂教學質量評價[J].合肥工業大學學報(自然科學版),2010(7)
[2]周燕軍.基于遺傳算法的學生綜合素質評價[J].長江大學學報(自然科學版),2008(4)
[3]李波.支持向量機在高校教學質量評價中的應用研究[J].計算機仿真,2011(10)
[4]陳良堤,徐高歡.基于多分類SVM的教學質量評價模型研究[J].黑龍江教育,2007( 11)
[5]姚宏,葉寧.高職院校學生綜合素質評價指標體系研究[J]. 四川教育學院學報,2011(12)
[6]朱海林,宋承祥,劉弘,等.基于支持向量機的教學質量評價研究[J].山東師范大學學報(自然科學版),2008(4)
【基金項目】廣西教育科學“十二五”規劃課題 (2011C0187)
【作者簡介】王 靜(1980- ),女,江蘇南京人,柳州職業技術學院財經與物流系講師,研究方向:思政教育、職業技術教育。
(責編 盧 雯)
當獲得子分類器后,就可以使用子分類器對樣本數據進行測試。在測試的過程中,分別對m(m-1)/2個子分類器進行測試,并統計各個樣本類別的分數,測試數據的類別即為測試過程中得分最高者所對應的類別。
二、高職學生綜合素質評價體系構建
影響高職學生綜合素質的因素很多,各因素之間的關系相互聯系又互有影響,因此整個評價過程是一項復雜的系統工程。為建立規范、合理、科學的評價指標體系,必須堅持評價的多維化、評價主體的多元化、評價方法的多樣性以及評價功能的多元化原則。當前,各高職院校對學生綜合素質的評價也進行了多方面的探索,取得了很多經驗。通過廣泛查閱資料,在借鑒姚宏、葉寧《高職院校學生綜合素質評價指標體系研究》一文的基礎上,本文采用的學生綜合素質評價體系如表1所示。
通過表1可以看到,影響學生綜合素質的指標很多。在以往的評測中,大多采用發放調查問卷的形式收集相關數據,最后由輔導員對每個學生的信息進行統計,這種方法所得數據可用性差,在這里我們對所有的指標采取量化的方式進行數據的收集。首先對所有一級指標用A、B、C、D和E進行區分,每個二級指標都有相應的編號,實際使用的時候是一級指標的字母加上對應二級指標的編號。如:A1、A2等。每個二級指標的分值都是滿分10分,每個一級指標都占總分值的20%,由此可知每一名學生的評價分值可以用如下公式來進行計算:綜合素質評價總分=A×20%+B×20%+C×20%+D×20%+E×20%。每一項一級指標的分值都由它對應的二級指標來確定,比如C指標對應有6項二級指標,則C=(C1+C2+C3+C4+C5+C6)×100/60。評價的最終結果用Y來表示,總共分為優秀、良好以及差三個等級,為了便于SVM模型處理,這三個等級的分值分別是1、0和-1。參見表2。
三、具體應用
(一)數據采集。考慮到每個人主觀性會造成在打分時存在不同程度的個人傾向,為了保證評價結果的科學性和權威性,采用教師和學生相結合,多人打分取平均值。具體做法是,按照表1的指標設計調查表,對柳州職業技術學院財經系2011級財會專業1班共43人進行評價測試。組織該班級的任課教師共5人對全班43名同學進行打分,學生則分為4組,每組11人,其中一組10人,每組同學互相打分。最終形成的數據如表3所示。
為了消除數據間的差異,使SVM模型具有更快的處理速度和處理精度,對采集到的所有樣本進行歸一化處理,歸一化處理公式為:
(8)
(二)評價模型的具體應用。本實驗在P4 2.8GCPU、2G內存的硬件條件下,在WinXp系統中采用matlab7進行編程實現。取前35筆數據作為訓練樣本,后8筆數據作為測試樣本。實驗中用到的部分參數為:種群規模N=200,交叉率Pc=0.75,變異率Pm=0.05 。通過對SVM參數的優化處理,最終建立SVM的綜合素質評價模型。同時為了驗證經過GA優化的SVM模型和未優化的SVM模型性能上的差別,后8筆測試數據分別采用GA-SVM模型和SVM模型進行測試,結果如表4、表5所示。
從表4、表5中可以看出,SVM模型和GA-SVM模型預測誤差都控制在2%以內,說明它們在進行非線性數據預測中,預測精度很高。通過表4和表5的比較不難看出,通過GA優化后的SVM模型比未優化的SVM模型具有更好的泛化能力和預測精度。這是因為GA-SVM模型在GA算法的優化下,拓展了解的空間,在GA算法強大的全局搜索能力下得到了更優化的參數C和 ,從而獲得更好的學習精度,提高了未知樣本的預測率。
綜上所述,學生綜合素質是反映學校辦學質量的一項重要指標,同時也是企業用人的一項重要指標。因而,對學生綜合素質評價一直是當前高職院校改革和探索的問題。本文利用GA算法對SVM模型的參數進行了優化,并成功地應用于學生綜合素質的評價。實驗結果表明,優化后的SVM模型泛化能力更好、預測的準確率更高,具有一定的應用前景。
【參考文獻】
[1]劉偉,孫林.基于支持向量機的課堂教學質量評價[J].合肥工業大學學報(自然科學版),2010(7)
[2]周燕軍.基于遺傳算法的學生綜合素質評價[J].長江大學學報(自然科學版),2008(4)
[3]李波.支持向量機在高校教學質量評價中的應用研究[J].計算機仿真,2011(10)
[4]陳良堤,徐高歡.基于多分類SVM的教學質量評價模型研究[J].黑龍江教育,2007( 11)
[5]姚宏,葉寧.高職院校學生綜合素質評價指標體系研究[J]. 四川教育學院學報,2011(12)
[6]朱海林,宋承祥,劉弘,等.基于支持向量機的教學質量評價研究[J].山東師范大學學報(自然科學版),2008(4)
【基金項目】廣西教育科學“十二五”規劃課題 (2011C0187)
【作者簡介】王 靜(1980- ),女,江蘇南京人,柳州職業技術學院財經與物流系講師,研究方向:思政教育、職業技術教育。
(責編 盧 雯)
當獲得子分類器后,就可以使用子分類器對樣本數據進行測試。在測試的過程中,分別對m(m-1)/2個子分類器進行測試,并統計各個樣本類別的分數,測試數據的類別即為測試過程中得分最高者所對應的類別。
二、高職學生綜合素質評價體系構建
影響高職學生綜合素質的因素很多,各因素之間的關系相互聯系又互有影響,因此整個評價過程是一項復雜的系統工程。為建立規范、合理、科學的評價指標體系,必須堅持評價的多維化、評價主體的多元化、評價方法的多樣性以及評價功能的多元化原則。當前,各高職院校對學生綜合素質的評價也進行了多方面的探索,取得了很多經驗。通過廣泛查閱資料,在借鑒姚宏、葉寧《高職院校學生綜合素質評價指標體系研究》一文的基礎上,本文采用的學生綜合素質評價體系如表1所示。
通過表1可以看到,影響學生綜合素質的指標很多。在以往的評測中,大多采用發放調查問卷的形式收集相關數據,最后由輔導員對每個學生的信息進行統計,這種方法所得數據可用性差,在這里我們對所有的指標采取量化的方式進行數據的收集。首先對所有一級指標用A、B、C、D和E進行區分,每個二級指標都有相應的編號,實際使用的時候是一級指標的字母加上對應二級指標的編號。如:A1、A2等。每個二級指標的分值都是滿分10分,每個一級指標都占總分值的20%,由此可知每一名學生的評價分值可以用如下公式來進行計算:綜合素質評價總分=A×20%+B×20%+C×20%+D×20%+E×20%。每一項一級指標的分值都由它對應的二級指標來確定,比如C指標對應有6項二級指標,則C=(C1+C2+C3+C4+C5+C6)×100/60。評價的最終結果用Y來表示,總共分為優秀、良好以及差三個等級,為了便于SVM模型處理,這三個等級的分值分別是1、0和-1。參見表2。
三、具體應用
(一)數據采集。考慮到每個人主觀性會造成在打分時存在不同程度的個人傾向,為了保證評價結果的科學性和權威性,采用教師和學生相結合,多人打分取平均值。具體做法是,按照表1的指標設計調查表,對柳州職業技術學院財經系2011級財會專業1班共43人進行評價測試。組織該班級的任課教師共5人對全班43名同學進行打分,學生則分為4組,每組11人,其中一組10人,每組同學互相打分。最終形成的數據如表3所示。
為了消除數據間的差異,使SVM模型具有更快的處理速度和處理精度,對采集到的所有樣本進行歸一化處理,歸一化處理公式為:
(8)
(二)評價模型的具體應用。本實驗在P4 2.8GCPU、2G內存的硬件條件下,在WinXp系統中采用matlab7進行編程實現。取前35筆數據作為訓練樣本,后8筆數據作為測試樣本。實驗中用到的部分參數為:種群規模N=200,交叉率Pc=0.75,變異率Pm=0.05 。通過對SVM參數的優化處理,最終建立SVM的綜合素質評價模型。同時為了驗證經過GA優化的SVM模型和未優化的SVM模型性能上的差別,后8筆測試數據分別采用GA-SVM模型和SVM模型進行測試,結果如表4、表5所示。
從表4、表5中可以看出,SVM模型和GA-SVM模型預測誤差都控制在2%以內,說明它們在進行非線性數據預測中,預測精度很高。通過表4和表5的比較不難看出,通過GA優化后的SVM模型比未優化的SVM模型具有更好的泛化能力和預測精度。這是因為GA-SVM模型在GA算法的優化下,拓展了解的空間,在GA算法強大的全局搜索能力下得到了更優化的參數C和 ,從而獲得更好的學習精度,提高了未知樣本的預測率。
綜上所述,學生綜合素質是反映學校辦學質量的一項重要指標,同時也是企業用人的一項重要指標。因而,對學生綜合素質評價一直是當前高職院校改革和探索的問題。本文利用GA算法對SVM模型的參數進行了優化,并成功地應用于學生綜合素質的評價。實驗結果表明,優化后的SVM模型泛化能力更好、預測的準確率更高,具有一定的應用前景。
【參考文獻】
[1]劉偉,孫林.基于支持向量機的課堂教學質量評價[J].合肥工業大學學報(自然科學版),2010(7)
[2]周燕軍.基于遺傳算法的學生綜合素質評價[J].長江大學學報(自然科學版),2008(4)
[3]李波.支持向量機在高校教學質量評價中的應用研究[J].計算機仿真,2011(10)
[4]陳良堤,徐高歡.基于多分類SVM的教學質量評價模型研究[J].黑龍江教育,2007( 11)
[5]姚宏,葉寧.高職院校學生綜合素質評價指標體系研究[J]. 四川教育學院學報,2011(12)
[6]朱海林,宋承祥,劉弘,等.基于支持向量機的教學質量評價研究[J].山東師范大學學報(自然科學版),2008(4)
【基金項目】廣西教育科學“十二五”規劃課題 (2011C0187)
【作者簡介】王 靜(1980- ),女,江蘇南京人,柳州職業技術學院財經與物流系講師,研究方向:思政教育、職業技術教育。
(責編 盧 雯)