摘 要 本文使用數據挖掘方法,基于學生的體質健康數據預測其在各個體育選項上可能獲得的成績,以吸引學生積極參與到體育選項推薦當中來。成績預測的基礎是體質健康數據與選項成績的挖掘模型,其建立步驟包括分割數據集、建立細分模型和挖掘預測模型。實驗研究表明,成績預測的結果符合傳統經驗對于體質健康狀況與體育選項匹配度的判斷。
關鍵詞 體育選項推薦 數據挖掘 成績預測 細分模型
中圖分類號:TP311.13 文獻標識碼:A
Sports Options Recommended Based on Data Mining Results-oriented
YU Lan
(Institute of Physical Education, Jiangxi University of Finance and Economics, Nanchang, Jiangxi 330013)
Abstract This article uses data mining method, based on the student's physical health data to predict the possible options available on the achievements in various sports to attract students to actively participate in sports options to recommend them. Score prediction is based on data mining models and options physical health scores, which creates a data set comprising the steps of segmentation, segmentation models and mining establish predictive models. Experimental studies have shown that the results predicted results consistent with the traditional experience of the physical health and physical options match judgment.
Key words sports options recommended; data mining; predicting performance; segmentation model
以成績為導向推薦體育選項的基本思路是:根據往屆學生的體質健康數據和體育選項課成績,建立體質健康數據與選項課成績的關系模型;然后預測待選課學生選擇特定選項后可能獲得的成績,由學生按照自己的意愿做出選擇。
追求高分的選課訴求在學生當中普遍存在,成績導向的選項推薦能使這種訴求得到滿足,從而激發學生參與選課指導的熱情。提供這種推薦模式,表面看是迎合學生追求高分的心態,實則是為了引起學生的關注。
實際上,如果學生具有某個選項所需的良好身體素質,那么他就比較容易取得好成績;相反,基礎較差的學生選項成績一般也比較低。所以,預測成績低的選項往往是符合學生體質發展需求的選項。在選課期間應通過各種方式宣傳促進身體素質發展的選課導向,引導學生按照反向思維選擇適合自己的體育選項。
1 選項推薦的實施過程
基于成績導向的選項推薦運用數據挖掘方法,其實施分三個階段。下面假定有m個運動項目可供選擇。
首先,按選項和性別將學生的體質健康數據劃分為m€ 個數據集。每個數據集對應特定選項、特定性別學生的體質健康數據。其次,對于每個數據集,針對《國家學生體質健康標準》①(以下簡稱《標準》)測試指標和選項成績進行相關分析,找出與選項成績密切相關的一項或多項測試指標。接著,以相關系數高的測試指標為依據,使用聚類算法將數據集劃分為若干個子集合,即數據集的細分模型。然后,在每個子集合中導入學生的選項成績,挖掘體質健康數據與選項成績之間的關系,生成個性化選項推薦知識庫。一個數據集對應的知識庫由多個預測模型構成,每個預測模型對應一個子集合,蘊含的知識就是該子集合中體質健康數據與選項成績之間的關系。最后,基于每一位選課學生的體質健康數據,逐個選項地匹配該學生所對應的數據子集;然后依據相應的預測模型預測他可能得到的成績,按成績由高到低的順序向學生推薦。
1.1 建立細分模型
1.1.1 建立細分模型的原因
選擇同一選項的學生個體之間,體質健康狀況和選項成績的差異都很大。如果為每個數據集建立單一的預測模型,會大大降低成績預測的準確率。這一結論在前期實驗中得到了充分的論證。②
1.1.2 測試指標與選項成績的相關性
建立細分模型的實質是將數據集分類。理想的分類依據應縮小學生個體之間的差異,即學生可能獲得的選項成績上的差異。但是,我們不能根據選項成績去分割數據集,這是因為它只能充當數據挖掘算法的預測項,而不是輸入項。
體質健康狀況是學生獲得選項成績的基礎,我們可以使用一項或多項體質健康測試成績作為分類依據,前提是這些測試指標與選項成績是密切相關的。通過分析體質健康測試指標(除身高體重指數)和選項成績之間的相關性,能夠找出符合條件(相關系數大于閾值)的測試指標。以這些指標替代選項成績充當數據集的分類依據,就能減少子集合內部元素之間的差異。
1.1.3 建立細分模型的方法
在數據挖掘的常用方法中,分類③和聚類④都可以實現將特定選項、特定性別的體質健康數據劃分為多個子集合的目的。建立細分模型是要最小化相同子集合內部元素之間的差異,同時最大化不同子集合元素之間的差異。由此可見,聚類方法天然符合這一目標。
相關分析可能得到兩種結果:一是與選項成績密切相關的測試指標只有一項;二是有多項。這兩種情況下都可以使用聚類算法,以密切相關的測試指標為輸入項、以選項成績為預測項將數據集劃分為若干個子集合。對于子集合的數目,應控制在3~6個之間,4~5個為宜。
1.2 挖掘預測模型
接下來是最重要的階段——挖掘預測模型,即生成知識庫。每個子集合對應一個預測模型。在執行這項工作時,有以下問題需要解決:
(1)選擇哪些測試指標作為預測模型的輸入。不能僅選擇與選項成績相關系數高的指標,因為其他指標對選項成績也會產生一定影響。如果挖掘預測模型時仍然將它們排除在外,會影響輸入信息的全面性,從而降低預測的準確率。后面的實驗結果也驗證了這一點。
(2)使用測試指標的測試成績還是其相應的分數。大多數情況下分數與成績成正比例關系。《標準》在60分以上的分檔雖然比較細,但依然存在不同成績得分相同的情況。因此,使用測試成績作為輸入數據更能反映學生體質健康狀況的差異。
(3)使用哪種數據挖掘算法。首先,分類比聚類更為符合挖掘預測模型的要求,而其他諸如回歸、時間序列分析等方法則完全不符合要求。其次,使用分類中的哪種算法取決于數據集的特點,不同數據集可能有各自適合的分類算法,具體可以通過實驗驗證。
2 實驗分析
實驗選取足球和瑜伽兩個比較典型的項目,待預測對象為137名男生和90名女生。男生臺階試驗、立定跳遠和坐位體前屈獲得優秀、良好、及格和不及格的人數分別為16、47、48、26;4、20、80、33;21、49、54、13人。女生三個項目取得不同成績等級的人數分別為1、3、72、14;5、19、59、7;27、36、19、8。
根據傳統經驗,耐力和力量素質較好的學生比較容易在足球項目上獲得高分,而柔韌素質較好的學生則更容易在瑜伽項目上獲得好評。本節實驗的主要目的就是建立足球和瑜伽項目的成績預測模型,并為實驗對象預測兩個項目的成績,以驗證這一結論的正確性。
2.1 預測模型分析
隨機抽取C大學足球項目126名男生和77名女生、瑜伽項目66名男生和138名女生的歷史數據(含大一下學期測得的《標準》數據和大二上學期的體育選項成績),用以建立兩個項目的成績預測模型。
經過相關分析發現,與足球成績相關系數較高的測試指標是臺階試驗和立定跳遠;與瑜伽成績相關系數較高的測試指標則是坐位體前屈。在建立細分模型時,4個數據集(足球-男、足球-女、瑜伽-男、瑜伽-女)被分別劃分為4、4、4和5個子集合。
在此基礎上,為足球-男、足球-女、瑜伽-男、瑜伽-女的每一個子集合建立了成績預測模型。在驗證模型的準確性時,仍然使用這些學生的體質健康數據。4個數據集預測錯誤的人數分別只有1、2、3和3人,準確率達到99.2%、97.4%、95.5%和97.8%。
2.2 預測結果討論
將137名男生和90名女生的體質健康數據分別導入相應的成績預測模型,為每名學生預測足球和瑜伽兩個項目的成績,結果如表1所示。對比他們的體質測試成績可以看出,成績預測的結果與學生的體質健康水平基本一致。
表1 成績預測的人數分布
從項目之間的比較來看,瑜伽項目的預測成績明顯高于足球項目,因為學生的柔韌素質明顯好于耐力和力量素質。從男女之間的對比來看,女生的足球成績好于男生;雖然男生的柔韌素質普遍比女生差,但他們的瑜伽成績并不輸于女生。究其原因,可能是因為足球和瑜伽兩個項目的性別傾向較為明顯,所以教師會照顧弱勢的性別群體,給他們較高的分數。
下面以選擇足球的男生為例,分析成績預測結果與體質健康水平的關系。
(1)臺階試驗測試成績不及格和及格者共74位,表1中預測成績在75分以下者有84人;兩者間存在一定差距,主要是因為足球成績還受立定跳遠成績的影響(該指標不及格和及格者總計113人)。(2)臺階試驗測試成績良好者47人,與成績預測70~89分者人數(47人)恰好一致;但與立定跳遠成績良好者(20人)存在一定差距,主要是因為立定跳遠及格者中有許多人的成績接近良好,只是按評分標準被劃分到及格范圍。(3)臺階測試成績優秀者16人、立定跳遠成績優秀者4人,綜合來看多于成績預測90分以上者的人數(6人),這可能與教師對優秀者評分較嚴格有關。
一般認為,足球項目的成績主要受耐力素質(臺階試驗)影響,同時也與力量素質(立定跳遠)有一定關系。表1的預測結果與該結論基本一致,這說明成績預測的思路和方法是正確的。
3 結論
本文提出了基于學生的體質健康數據預測其體育選項成績的方法,并通過實驗研究驗證了該方法的準確性。
基金資助:江西省社會科學“十一五”規劃項目(10JY 64);江西省教育科學“十一五”規劃項目(09YB282);江西省教育廳科技計劃項目(GJJ11091)
注釋
① 《國家學生體質健康標準解讀》編委會.國家學生體質健康標準解讀[M].北京:人民教育出版社,2007.
② Lan Yu. Statistical Analysis and Data Mining Combined Yoga Grade Prediction. 2012 2nd International Conference on Economic, Education and Management, pp. 657-660, June 2012.
③ 朱明.數據挖掘(第2版)[M].中國科學技術大學出版社,2008.
④ 呂曉玲,謝邦昌.數據挖掘方法與應用[M].中國人民大學出版社,2009.