武警工程大學 高見文 葛衛麗
武警杭州士官學校 郭 程
基于K-means算法的人員體能考核標準研究
武警工程大學 高見文 葛衛麗
武警杭州士官學校 郭 程
在人員體能分類訓練和考核中,根據傳統的四級制分類方法對考核人員進行分類,但傳統方法往往存在標準固化、缺乏定量考察、人員分類不具體等問題,進而導致訓練人員訓練積極性不高,出現“及格萬歲,多一秒浪費”的消極訓練傾向。針對這一問題,本文提出將K-means算法應用于人員體能考核標準的制中,運用K-means算法對人員體能考核成績進行分析和處理,根據人員總體考核成績制定分類標準。
K-means算法;體能考核標準
隨著信息技術和網絡技術的飛速發展,現實生活和網絡世界中產生越來越多的數據,如何在這些海量數據中挖掘出對人們有用的信息,是一個急需解決的問題。因此數據挖掘技術應運而生,數據挖掘顧名思義就是在給定的數據集中挖掘出有用信息的過程,而聚類分析是最為常用的數據挖據方法之一[1]?!拔镆灶惥邸毙蜗蟮恼f明了聚類的含義,聚類分析就是將相似的失事物聚集起來,使其相似度最大;不相似的事物區分開來,使其之間的不同盡可能的大[2]。聚類是一種無監督的學習過程,是在沒有先驗知識的前提下將未標注的數據集劃分為多個相似子類。聚類分析能夠對數據進行有效分析和管理,是數據處理中的一個重要研究方向。
聚類分析作為一種有效的數據處理方法,具有不依靠先驗知識和有效處理多個變量決定的分類等優點,成為當前數據挖掘領域具有代表性的分析和挖掘方法并得到廣泛關注[3]。隨著信息檢索技術不斷發展,聚類被廣泛應用于文檔自動摘要、信息檢索等領域,而K-means算法是各種聚類算法中最為常用的一種聚類算法。
K-means是將未標注的數據集劃分為k個簇,使得簇內數據點具有較高相似度,簇間數據具有較高非相似度的一種聚類算法[4]。每個簇表示一個聚類,相似度即為簇中全體數據點的平均值。
相似度的計算采用歐氏距離或曼哈頓距離,通常使用誤差平方和(SSM)作為收斂評價標準,SSM定義如下:

式中,dist表示元素與聚類中心的距離,Ci表示第i個簇,x為屬于簇i中元素的集合,ci表示第i個簇的中心。
具體算法流程如下:(1)隨機選擇數據集中k個元素作為初始簇的中心;(2)根據簇中元素的均值,將每個元素歸于最近的簇中心,形成k個簇;(3)重新計算每個簇中元素的均值;(4)重復(2)(3)步,直到簇的中心不再變化為止。
傳統的人員考核標準采用四級制分類,即優秀、良好、及格、不及格,在不同成績范圍內的人員,被分配到不同的類別中,進而獲得相應的成績。
四級制分類方法雖然簡單易操作,但是其缺點也是非常明顯的[5]。四級制分類方法正是因為其操作和處理簡單,使得考核成績中蘊含的大量有用信息無法得到利用,信息增益過低。此外,由于考核標準制定過于寬泛,使得在同一層次類別中的人員,在實際考核成績中往往也存在著巨大的差異,例如在5000米考核中22′01″的人員與22′59″的人員是被劃入同意類別中的,但二者之間的差距足足有1分鐘之多,顯然,這是不合理的。再者,由于缺乏定量分析,四級制分類法不利于后續的人員分類訓練,在考核劃分時“一刀切”和“大鍋飯”進一步導致在下一步的訓練中也出現“一刀切”和“大鍋飯”的問題,非常不利于提高人員訓練成績。
選取100名受訓人員體能考核成績,如表1。為了與四級制分類法相對應將K-means算法的k值設為4,每一個數據點分別有5000米跑、單杠、100米跑和50米折返跑成績組成,所以每個參與聚類的數據點是一個4維數據。

表1 受訓人員考核成績
經過K-means算法聚類后,受訓人員被分為4個類,每一個的結果如下表:

表2 聚類結果
為了更清晰的體現于傳統四級制分類法的對比,以5000米為例,兩種方法分類結果如下:

表3 對比結果
從表3中可以看出利用K-means算法來進行人員體能考核標準的制定和分類,比四級制分類具有更小的SSE,分類效果更好,更能貼近受訓者的實際情況。
針對傳統人員體能考核標準和分類存在的不足,本文利用K-means算法,通過對參訓人員考核成績的分析,根據考核成績所體現出的受訓人員訓練實際水平,對受訓人員進行分類,從實驗結果來看,K-means算法的分類效果更佳,更能反映受訓人員的真實訓練水平,更加靈活的對人員進行分類,并制定相應的訓練計劃。
[1]Sean O,Robin A,Ted D,等.Mahout實戰[M].王斌,韓冀中,萬吉,譯.北京:人民郵電出版社,2015.
[2]Liu Bing.Web數據挖掘(第2版)[M].俞勇,薛貴榮,韓定,譯.北京:清華大學出版社,2015.
[3]Aliguliyev RM.Clustering of document collection-A weighting approach [J].Expert Systems with Applications,2009,36(4):7904-7916.
[4]謝娟英,高紅超.基于統計相關性與K-means的區分基因子集選擇算法[J].軟件學報,2014,25(9):2050-2075.
高見文(1991—),山東臨沂人,碩士研究生,現就讀于武警工程大學。