謝向陽
(廣州體育職業技術學院體育運動系 廣東廣州 510650)
隨著信息技術的迅速發展以及數據庫管理系統的廣泛應用,人們積累的數據越來越多。激增的數據背后隱藏著許多重要的信息,人們希望能夠對其進行更高層次的分析,以便更好地利用這些數據。因此可以用數據庫管理系統來存儲數據,用機器學習和統計學的方法來分析數據,挖掘大量數據背后的知識,它們的結合促成了數據挖掘的產生。數據挖掘是通過高度自動化地分析原始數據,作出歸納性的推理,從中挖掘出潛在的規律和知識,來幫助決策人員作出正確的決策;隨著數據挖掘技術的發展,具有良好的準確性、時間復雜度以及空間復雜度的數據挖掘算法被提出,使得數據挖掘技術在很多領域中的能夠得到廣泛應用,數據挖掘技術越來越成為社會的研究和應用熱點。
但是,數據挖掘技術在體育領域中的應用極少,國內外處于起步階段,例如在NBA球隊利用IBM公司開發的數據挖掘應用軟件Advanced Scout系統找出球員的強弱點,優化球隊的戰術組合,來幫助教練制定相應的訓練計劃和布陣。隨著我國體育事業的信息化,在國民體質健康、競技體育、體育產業以及體育教育等方面積累了大量數據。如何充分利用這些數據,并從中發掘出有用的,卻常被人們所忽視的重要信息,已經成為體育科研人員的一項重要任務。

表1 不同球員出場對贏得比賽的影響顯著性
數據挖掘的基本理論包括數據挖掘的概念、分類、方法和挖掘流程。
1.1.1 數據挖掘概念
數據挖掘在國內外都得到了廣泛的應用,目前我國專家普遍比較認同的定義是“數據挖掘是從大量、隨機、模糊、片段的數據中,提取隱含、潛在未知而又有用的信息或知識的過程,數據挖掘通常與數據分析、數據融合、決策知識和知識發現等技術結合應用?!?/p>
1.1.2 數據挖掘分類
數據挖掘技術涉及多個學科,分類方法也多種多樣。綜合國內外的研究成果,數據挖掘的分類方法主要有以下幾個維度。
1.1.2.1 根據挖掘對象分類
數據挖掘技術根據挖掘對象可以分為文本數據庫、關系數據庫、面向對象數據庫、空間數據庫、多媒體數據庫和環球網等。
1.1.2.2 根據挖掘方法分類
根據數據挖掘的不同方法可以分類為機械學習、統計、數據庫和神經網絡等。
1.1.2.3 根據挖掘目標分類
根據數據挖掘的目標可以將數據挖掘分類為預測模型、數據總結、關聯規則發現、聚類、序列模式或依賴關系發現,發展趨勢發現等。
1.1.3 數據挖掘方法
目前國內外常用的數據挖掘方法有遺傳算法、決策樹、聚類分析、關聯規則、粗糙集、模糊集、灰色系統和影響因素分析等。
1.1.4 數據挖掘流程
常用的數據流程包括以下七個步驟。
(1)清理數據:清理與挖掘主題明顯無關的數據。
(2)集成數據:將多元數據組合,形成數據倉庫。
(3)選擇數據:從數據倉庫中提取和選擇與任務相關的數據。
(4)轉換數據:將數據轉換為容易進行數據挖掘的數據格式。
(5)挖掘數據:利用數據方法挖掘數據規律或知識。
(6)評估模式:根據一定評估標準從挖掘結果中篩選出有意義的模式知識。
(7)表示知識:利用可視化和知識表達技術,向用戶展現所挖掘的相關知識。
近年來,隨著我國國民生活物質文化水平的逐漸提高,社會公眾對個人體質的監測和測試數據、社會各類體育競技比賽數據逐漸增多,常年積累的社會公眾體質數據和社會體育賽事競技數據越來越多,如何發揮這海量體育領域數據的作用,為提高我國國民身體素質和體育運動訓練效率,對海量體育數據進行分析并發現其影響因素和各因素間的相互關系成為體育教學工作者和研究者的重要課題。
體育數據分析是指利用信息技術手段,從逐漸積累的海量數據中尋找各種因素間的相互關系,發現它們之間的變化規律,進而對數據深入分析導致健康狀況較低的可能的疾病原因,從而可以更好地為人們自我保健和健身等各方面提供有力的指導的技術。
數據挖掘技術在體育賽事分析中的典型應用是NBA廣大球隊使用的IBM公司開發的Advanced Scout和美國職業棒球聯盟中各球隊廣泛使用的Inside-Edge、歐洲足球職業聯賽中廣泛使用的PASW數據分析工具。本研究以足球、籃球和田徑為例來闡述數據挖掘在體育賽事分析中的應用。
2.1.1 足球
數據挖掘技術在足球中的應用典型是意大利AC米蘭隊,作為歐洲一流球隊,意大利AC米蘭隊成立了專門的米蘭實驗室,通過分析不同渠道的生理和心理數據識別與球員受傷的風險因素,防止球員受傷,2006年意大利國家隊的大部分成員都在米蘭實驗接受過順利,并成功幫助意大利國家隊贏得了世界杯的冠軍。本研究以PASW的回歸模型為例來分析某支球隊各球員的出場情況及對比賽結果的影響,得出不同球員對贏得比賽的影響顯著性(如表1)。
從表1中的數據分析可以看出,van persie和Gallas的出場效率最高,因此球隊可以作為核心使用,而Arshavin和Diaby的出場效率最低,球隊可作為替補使用。
2.1.2 籃球
數據分析在NBA聯盟的運用最多的是Advance Scout工具,如在2010年的魔術與熱火的某場比賽中,主教練通過運用Advanced Scout系統分析魔術對先發陣容中的Hardaway和Shaw同時在場時,球隊每48min的得分為-17分,而Hardaway和替補Armstrong同時在場時魔術隊的得分為+14分,魔術隊決定讓Armstrong進入先發陣容,最后順利地贏得了比賽。
2.1.3 田徑
數據挖掘在田徑運動中的成功運用案例是美國運動員的威爾金斯獲取蒙特利爾奧運會冠軍的事跡。美國體育科學家埃里爾利用數據挖掘工具在分析威爾金斯的投擲技術及投擲動作后,糾正了威爾金斯投擲拖成中沒有利用制動腿部力量的缺陷,幫助威爾金斯改進投擲技術,一下就將成績提高了3m多,幫助威爾金斯奪取了蒙特利爾奧運會冠軍并創造了新的世界紀錄。
數據挖掘技術在體育教學領域中有非常廣泛的應用,如在教學管理、教學評價、課程設置、教學方法、教材選擇等方面等可以廣泛的應用,如利用數據挖掘中的管理規則可根據不同學生的性別、年齡、身體機能等數據建立測試成績預測模型,尋找潛在知識以改進教學方法,提高體育教學和訓練效果。如本研究選用2002~2007年《中國體育事業統計年鑒》中的相關數據進行建模研究,以“獲世界冠軍個數”為研究對象,將“優秀運動隊經費”、“體育基本建設支出”、“國家級在隊優秀運動隊員”、“教練員總人數”和“等級裁判員”作為相關因素,建立數據挖掘關聯模型,得出人力投入是優異成績產出的基礎,人力的投入對提高成績而言起著的決定性的作用;而經費投入則是優異成績產出的關鍵因素。因此,在兩大類指標中與人力投入相關的指標相對于與經費投入相關的指標更為重要。
數據挖掘的興起,為體育統計學與體育信息技術的結合帶來良好的契機,數據挖掘技術將成為繼數學、計算機科學之后,又一推動體育統計學發展的強大工具。本文在闡述數據挖掘概念、數據挖掘分類及挖掘基本流程的基礎上,研究了體育數據分析的作用及基本理論,重點就數據挖掘在國內外體育賽事分析和體育教學改進中的應用進行了研究,對我國體育學科研究者和數據挖掘研究者具有一定的指導意義和參考價值。
[1] 楊翠明,劉喜蘋,熊高峰,等.一種基于數據庫分解的關聯規則挖掘新算法[J].湖南師范大學自然科學學報,2007(2):135-138.
[2] 趙唱玉.基于Web和數據挖掘的智能教學系統模型的研究與設計[D].湖南師范大學,2007.