999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

樸素貝葉斯分類算法在大學生體質分析中的應用

2018-02-03 00:45:06杜云梅劉東
體育學刊 2018年1期
關鍵詞:分類學生

杜云梅 劉東

摘 要:基于大數據對大學生體質進行分類預測,有助于大學體育治理體系的建設,樸素貝葉斯模型是一種操作簡單且性能較好的機器學習分類算法。基于樸素貝葉斯分類算法,采用廣州商學院2014、2015年學生體測數據及其評分結果作為源數據,構建大學生體質分類器。應用此分類器可對大學生的體質狀況實現一定概率意義上正確的判斷,從而可以對體質存在隱患概率比較大的學生給出主動性預警,以便大學體育對學生進行群體性的體質判斷、進行個性化的有效干預,從而促進學生健康發展,提高大學生整體體質水平。分類器模型用Python編碼實現,最后用與訓練數據不重疊的歷史體質數據檢測分類器的準確率,結果顯示,基于樸素貝葉斯算法的體質分類器達到了78%的正確率。

關 鍵 詞:學校體育;大學生體質分析;運動干預;樸素貝葉斯分類算法;大數據

中圖分類號:G80-05 文獻標志碼:A 文章編號:1006-7116(2018)01-0117-05

Abstract: Based on big data, the authors carried out classification and prediction on university student fitness, which is conducive to university sports governance system construction; the Na?ve Bayes model is a machine learning classification algorithm that is simple to operate and provided with good performance. Based on Naive Bayes classification algorithm, and using the physical test data of classes 2014 and 2015 students of Guangzhou Business College and their score results as source data, the authors established a university student fitness classifier. By applying such a classifier, researchers can, in a certain sense of probability, correctly determine newly or previously enrolled university students fitness condition, thus give a proactive early warning to those students whose fitness has a relatively high probability of hidden troubles, so that university physical education can carry out group fitness determination and individualized effective intervention on the students, thus promoting student healthy development and improving university students overall fitness level. The classifier mode was realized by using Python coding, in the end, the classifiers accuracy rate was verified by using historical fitness data that did not overlap with training data, and the result showed that the fitness classifier based on na?ve Bayes algorithm reached a correct rate of 78%.

Key words: school physical education;university student fitness analysis;sports intervention;Naive Bayes classifier algorithm;big data

2007年中共中央國務院《關于加強青少年體育增強青少年體質的意見》[1]印發實施,2012年教育部等出臺《關于教育部加強學校體育工作的若干意見》[2],2014年重新修訂了《國家學生體質健康標準》[3],2016年《“健康中國2030”規劃綱要》更將青少年體質問題上升到國家戰略層面[4]。各級政府、各類學校和社會各界凝共識、聚合力、謀發展,協同加強學校體育治理體系建設。

但根據1985年開始的每5年一次的學生體質調研數據,大學生體質健康下滑趨勢依然未得到遏制,甚至在很多指標上不如中學生[5-7]。各大學有必要結合新技術新理論推進體育教學改革,加強體育干預體系建設。

最近10年來,數據積累的急劇增加和針對數據的全鏈條技術整體成熟,催生了大數據以及接踵而來的人工智能的熱潮。利用體質數據監測與人工智能分析技術,對疾病預防和健康趨勢分析都具有積極的意義。國家也將健康醫療大數據應用發展納入了國家大數據戰略布局[8-9]。

本研究正是嘗試應用大數據與人工智能技術,對體質監測數據進行建模與分析。基于樸素貝葉斯分類算法,構建大學生體質分類器,應用此分類器可對大學生的體質狀況實現一定概率意義上正確的判斷,從而對體質存在隱患概率比較大的學生給出主動性預警,以便大學體育對學生進行群體性的體質判斷,為促進大學生體質健康發展提供數據與決策支撐。endprint

1 樸素貝葉斯分類器

大學生的體質屬于什么類別,其實就是一個分類問題,從數學角度來說,分類問題可做如下定義:已知集合:C={y1,y2,…,yn}和I={x1,x2,…,xm,…},確定映射規則y=f(x),使得任意xi∈I有且僅有一個yj∈C使得yj= f(xi)成立。樸素貝葉斯(Naive Bayes)是一種基于貝葉斯定理與特征條件獨立假設的機器學習分類算法。它的思想基礎是對于給出的待分類項,求解在此項出現的條件下各個類別出現的概率,哪個最大,就認為此待分類項屬于哪個類別。

樸素貝葉斯模型是流行的十大挖掘算法之一,之所以備受人們關注,是因為它操作簡單且性能較好,由于計算的高效性和高精度,樸素貝葉斯分類模型在文本分類領域得到了廣泛的應用[10-13]。

P(A|B)表示事件B已經發生的前提下事件A發生的概率,叫做事件B發生下事件A的條件概率。其基本求解公式為:P(A|B)= 。現實中經常遇到這種情況:P(A|B)可以很容易直接得出,而P(B|A)則很難直接得出,但我們更關心P(B|A),貝葉斯定理便是基于條件概率,通過P(A|B)來求P(B|A)。貝葉斯定理即:P(B|A)= ,其中,分母P(A),可以根據全概率公式分解為:P(A)= 。

給定訓練數據集(X,Y),其中每個樣本X都包括n維特征,即X=(x1,x2,x3,…,xn),類標記集合含有k種類別,即Y=(y1,y2,…,yk)。如果現在來了一個新樣本x,要判斷它的類別,從概率的角度來看,這個問題就是給定x,它屬于哪個類別的概率最大。那么問題就轉化為求解P(y1|x),P(y2|x),…,P(yk|x)中最大的那個,即求后驗概率最大的輸出:argmaxykP(yk|x)。根據貝葉斯定理P(yk|x)= ,根據全概率公式,可以進一步地分解上式中的分母:

可以看出,樸素貝葉斯分類器的分類原理是通過某對象的先驗概率,利用貝葉斯公式計算出其后驗概率,即該對象屬于某一類的概率,選擇具有最大后驗概率的類作為該對象所屬的類。根據上述分析,構造樸素貝葉斯分類器主要可以分為4個步驟:

1)確定特征屬性與類別集合:設X(x1,x2,……,xm)為一個待分類處理項,而每個xi為X的一個特征屬性向量。類別集合Y=(y1,y2,……,yn),每個yk為一個分類項,該集合是預先已得到的。

2)獲取訓練集:收集并準備訓練數據,對連續型變量要進行離散化或分布處理。另外,樸素貝葉斯是有監督的機器學習算法,需要有屬性標記。

3)分類模型訓練:輸入特征屬性和訓練樣本,計算P(yk),P(xi|yk),即計算每個類別在訓練樣本中的出現頻率及每個特征屬性劃分對每個類別的條件概率估計,生成分類器。

4)驗證與應用:使用分類器對待分類項進行分類,對于待分類項X,如果存在P(yk|X)=max(P(yk)∏P(xi|yk),則X∈yk。

算法的核心部分就是訓練集的準備和模型的學習訓練過程,訓練之后所形成的分類器可直接應用。

2 體質分類器的構造

參照上述的構造步驟,針對大學生體質問題,應用樸素貝葉斯算法構造體質分類器的具體過程如下:

2.1 屬性定義

參照國家學生體質健康標準,設定了12項體質特征:性別、年齡、年級、籍貫、身高、體質量、身體質量指數(BMI)、肺活量、速度素質、爆發力素質、柔韌性素質、耐力素質、力量素質。

設定分類集合為:優秀、良好、及格、不及格。

2.2 數據預處理

以廣州商學院2014年和2015年學生的真實體測數據作為源數據。

首先,按照《國家學生體質健康標準(2014年修訂)》中的評分標準,編寫計算機程序算出每個學生的單項評分、學年總分并評定等級,去除有缺失值的數據條目,最后得到21 664條有效記錄,形成有體質分類結果的完整數據集。廣州商學院學生的體質分布如圖1所示,其中不及格占10.97%,及格占78.36%,良好占10.50%,優秀的只有0.2%左右,學生體質狀態不容樂觀,雖然絕大部分學生的體質處于及格線上,但達到優秀等級的非常少。

接著,為后面分類器運算的方便,進一步將體質特征中性別的“男/女”分別轉換為數值1/2,將體質指數的“優秀/良好/及格/不及格”分別轉換為數值1/2/3/4,將身高、體質量兩個數據項換算合并為BMI一個數據項。

除了年齡、年級和籍貫屬性是離散型數據不需進一步處理,其他屬性都是連續型變量,需要進行離散化處理,本研究采用的辦法是參考國家體質評分標準,劃分特征的取值區間,在分類器的訓練過程中,計算的是區間概率。

另外,采用了Laplace平滑處理來解決零概率問題。在計算實例的概率時,如果某個量在觀察樣本庫(訓練集)中沒有出現過,會導致整個實例的概率結果是0,在體質分類的問題中,當一個特征取值區間沒有在訓練樣本中出現,該取值區間的概率就為0,使用連乘計算體質概率時也為0,這是不合理的,不能因為一個事件沒有觀察到就武斷地認為該事件的概率是0。在計算實例的概率時用加1的方法估計沒有出現過的現象的概率。

2.3 訓練集

在Python中編碼實現2.2節所述的數據預處理,得到的數據集存儲為csv文件,第一行為索引行,包括12個體質特征和體質等級,后面每一行是每個同學的體質特征和等級取值,值之間以逗號分隔。該文件就是接下來分類器訓練的數據輸入,為保證模型檢驗的客觀性,本研究采用切片法,將其中的80%作為訓練數據,另外的20%留作檢驗數據。

2.4 分類器訓練

在特征選取和訓練數據基礎上,可以構造多種不同目的的分類器。這里有代表性地列舉了兩個分類器。第1個分類器是樸素貝葉斯算法的正向應用,即已知部分屬性來預測體質分類。為了演示貝葉斯的工作過程,這個分類器只選取了4個特征以方便演示樸素貝葉斯的分類原理。第2個分類器反過來把體質分類結果作為一個特征項,來預測屬性的取值區間。endprint

1)分類器1。

特征:性別,身高,體質量,肺活量。其中,性別(x1)有兩個取值(男,女);年級(x2)有兩個取值(大一大二,大三大四);用身高、體質量換算成BMI(x3),分成4個取值區間(≤17.1,17.2~23.9,24.0~27.9,≥28.0);肺活量(x4),按以下值(3 400,3 350,3 300,3 150,3 000,2 900,2 800,2 700,2 600,2 500,2 400,

2 300,2 200,2 100,2 000,1 960,1 920,1 880,

1 840,1 800)分成20個取值區間。

分類:體質級別(優秀y1,良好y2,及格y3,不及格y4)。

待分類項:例如身高160 cm、體質量48 kg、肺活量2 400 mL的大一女生,體質最可能是什么級別?這個問題即是給定條件X=(女,1,18.75,2 400),條件概率P(y1|X)P(y2|X)P(y3|X)P(y4|X)中最大的那個,就是分類器預測那個類別。根據特征條件獨立的假設,P(y1|X)=P(y1|x1,x2,x3,x4)=P(y1)P(x1|y1)P(x2|y1)P(x3|y1)

P(x4|y1)/P(x1,x2,x3,x4)。這些都可以通過訓練集中數據計算出來。

2)分類器2。

特征:性別,年級,身高,體質量,肺活量,速度,爆發力,體質等級。

分類:耐力級別。

待分類項:如一個身高160 cm、體質量48 kg、肺活量2 700 mL,50 m跑成績10.2 s的大一女生想要得到優秀體質級別,800 m跑要達到什么水平?

分類器的原理不再贅述,都能在Python中編碼實現,用到Pandas、Sklearn和Numpy等外部庫,采用GaussianNB實現模型。

2.5 分類器檢驗

將2.2節中得到的數據集用切片法切出數據總量的另外20%作為檢驗數據,采用了Precision、Recall、Fb-score和Accuracy四個評價指標,其中Precision(精度)是精確性的度量,表示被分為正例的示例中實際為正例的比例;Recall(召回率)是覆蓋面的度量,度量有多個正例被分為正例,Fb-score是準確率和召回率的調和平均:Fb=[(1+b2)×P×R]/(b2×P+R)。Accuracy(正確率)表示被分為正例的條目數與檢驗數據條目數的比例。檢測結果表1所示。從檢驗結果可以看出,分類器的綜合正確率達到77.98%。

2.6 體質分類器在體育教學實踐中的應用

用訓練數據訓練得到的分類器可以直接使用,輸入學生的幾項體質特征值,就可以得到相應的分類結果,可以作為對學生體質狀況的預測。

分類器1:

給定條件X=(女,1,160,45,2 400)

給出的結果是y3即身高160 cm、體質量45 kg、肺活量2 400 mL的大一女生,歷史數據顯示如果不加干預的話,其體質檢測結果最可能是“不及格”。

可以將全部學生的體質進行分類預測,按照分類結果將學生分成不同的組別,對于體質檢測結果較大可能為“不及格”的那部分同學,可以制定特別的干預計劃,加強體質鍛煉。

分類器2:

給定條件:X=(女,1,160,48,2 700,10.2)

結果為[103],即160 cm、體質量48 kg、肺活量2 700 mL、50 m跑成績10.2 s的大一女生800 m要跑到3 min 3 s以內,才最有可能得到“優秀”體質等級。如果現在的800 m跑不能達到這個成績,為達到“優秀”體質等級,就要加強耐力訓練。

隨著學生各項測試數據的積累,在此分類器的輔助下,可以以目標為導向,即要讓學生的體質分類結果達到“優秀”,應該讓學生加強哪方面能力的鍛煉;進一步,可以按學生有待加強的能力進行分組,對不同組制定不同的鍛煉計劃與干預措施。

3 展望

本研究用樸素貝葉斯算法,構建了大學生體質分類器,應用該分類器可以對每個在校學生的體質狀態進行預測,為個性化的運動指導與干預提供依據;也可以對學生群體進行客觀的體質分析,發現不同群體的體質短板。檢驗結果顯示,本分類器能達到78%的綜合正確率,具有一定的可信度。

本研究采用了廣州商學院2年的學生數據做試驗,當加入越來越多的訓練數據時,模型會變得越來越準確。而全國的學生體測數據都是依照《國家學生體質健康標準》,所以數據項與數據結構基本一致,從而可以很容易的將其他省市高校學生體測數據納入到本分類模型的訓練集中。當有了更多高校數據時,還可以按省市、按南北方等不同地域對學生體質狀況進行橫向的對比分析等。

另外,在此體質分類模型給出的預測與判斷基礎上,學校體育部門可以有針對性地對學生進行個性化的體育鍛煉指導與干預,跟進采集下一年的體測數據,就可以對學生體質進行時間縱向上的體質變化分析、運動干預的有效性分析等。

因為整個數據預處理與分類器訓練過程都用Python編碼,所以擴展數據后的訓練集準備與模型更新可由程序自動完成。而且在樸素貝葉斯分類下可以構造出更多結構相似、目的不同的分類器,以滿足學校體育對學生體質的促進和監督的需求。

參考文獻:

[1] 中共中央,國務院. 關于加強青少年體育增強青少年體質的意見[EB/OL]. [2017-07-02]. www.gov.cn/jrzg/

2007-05/24/content_625090.htm.

[2] 教育部,發展改革委,財政部,等. 關于進一步加強學校體育工作的若干意見[EB/OL]. [2017-07-02]. www.gov.cn/zwgk/2012-10/29/content_2252887.htm.endprint

[3] 教育部關于印發《國家學生體質健康標準(2014年修訂)》的通知[EB/OL]. [2017-07-02]. http://www.moe.edu.cn/

s78/A17/twys_left/moe_938/moe_792/s3273/201407/t20140708_171692.html.

[4] 中共中央,國務院. “健康中國2030”規劃綱要[EB/OL]. [2017-07-02]. http://news.xinhuanet.com/ health/

2016-10/25/c_1119786029.htm.

[5] 國家體育總局,教育部,科技部,等. 2014年國民體質監測公報[EB/OL]. (2015-11-25) [2017-0702]. http://www.sport.gov.cn/n16/n1077/n1227/7328132.html.

[6] 國家體育總局,教育部,科技部,等. 2010年國民體質監測公報[EB/OL]. (2011-09-02) [2017-07-02]. http://www.sport.gov.cn/n16/n1077/n297454/2052709.html.

[7] 教育部發布30年來我國學生體質與健康“大數據”[EB/OL]. [2017-07-02]. http://www.jyb.cn/china/gnxw/

201407/t20140729_592098.html.

[8] 國務院印發關于促進大數據發展行動綱要[EB/OL].

[2017-07-02]. http://business.sohu.com/20150906/n42046

3676.shtml.

[9] 國務院辦公廳關于促進和規范健康醫療大數據應用發展的指導意見[EB/OL]. [2017-07-02]. http://www.gov.

cn/zhengce/content/2016-06/24/content_5085091.htm.

[10] 楊雷,曹翠玲,孫建國,等. 改進的樸素貝葉斯算法在垃圾郵件過濾中的研究[J]. 通信學報,2017,38(4):140-148.

[11] 劉秋陽,林澤鋒,欒青青. 基于樸素貝葉斯算法的垃圾短信智能識別系統[J]. 電腦知識與技術:學術交流,2016,12(12):190-192.

[12] 賈志鵬. 基于樸素貝葉斯分類器的校園信息智能推薦算法[J]. 軟件工程,2016,19(12):30-32.

[13] 謝小軍,陳光喜. 基于多屬性聯合的樸素貝葉斯分類算法[J]. 計算機技術與發展,2016,26(12):77-81.endprint

猜你喜歡
分類學生
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
快把我哥帶走
分類討論求坐標
《李學生》定檔8月28日
電影(2018年9期)2018-11-14 06:57:21
趕不走的學生
數據分析中的分類討論
教你一招:數的分類
學生寫話
學生寫的話
主站蜘蛛池模板: 一区二区无码在线视频| 国内精品久久久久久久久久影视 | 99在线视频免费| 在线欧美一区| 在线视频亚洲欧美| 亚洲欧洲日本在线| 国产精品永久免费嫩草研究院| 91午夜福利在线观看| 国产浮力第一页永久地址 | 无码中文AⅤ在线观看| 欧美乱妇高清无乱码免费| 99视频在线观看免费| 亚洲国产欧美国产综合久久| 国产欧美视频在线观看| 国产一级毛片网站| 国产丝袜无码精品| 国产精品视频观看裸模| 久久免费精品琪琪| 成人一区在线| 欧美人人干| 国产精品美女自慰喷水| 1024你懂的国产精品| 97国产精品视频自在拍| 一级毛片免费的| 亚洲精品视频免费观看| 91网站国产| 国产第八页| 九九热精品在线视频| 国产视频一区二区在线观看 | 美女免费精品高清毛片在线视| 国产95在线 | 亚洲三级成人| 丝袜高跟美脚国产1区| 重口调教一区二区视频| 啦啦啦网站在线观看a毛片| 2020国产精品视频| 无码不卡的中文字幕视频| 久久精品亚洲专区| 亚洲视频a| 永久免费av网站可以直接看的| 在线无码av一区二区三区| 国产在线精彩视频论坛| 亚洲一区二区视频在线观看| 欧美成人国产| 狠狠色香婷婷久久亚洲精品| 午夜毛片免费观看视频 | 亚洲中文字幕在线精品一区| 色精品视频| 中文字幕在线免费看| 久久国产精品娇妻素人| 亚洲精品不卡午夜精品| 色婷婷狠狠干| 特黄日韩免费一区二区三区| 精品国产免费人成在线观看| 无码视频国产精品一区二区| 九九热这里只有国产精品| 欧美三级不卡在线观看视频| 一本一本大道香蕉久在线播放| 黄色国产在线| 欧美日韩中文国产va另类| 欧美自慰一级看片免费| 熟妇人妻无乱码中文字幕真矢织江| 免费在线成人网| 久久性视频| 国内精品久久久久久久久久影视 | 久久香蕉欧美精品| 九九精品在线观看| 欧美一区二区啪啪| 久久女人网| 国产91高跟丝袜| 超碰aⅴ人人做人人爽欧美| 91精品免费高清在线| 午夜丁香婷婷| 老熟妇喷水一区二区三区| 4虎影视国产在线观看精品| 91尤物国产尤物福利在线| 亚洲综合色婷婷中文字幕| 一级毛片在线播放免费观看| 亚洲h视频在线| 亚洲欧洲日韩久久狠狠爱| 精品自窥自偷在线看| 青青草国产精品久久久久|