劉迅雷 葛金琰
(西安交通大學體育中心 陜西 西安 710049)
大型體育場館高額的建設成本及運行成本,對國家和地方財政造成巨大壓力,加之大多數大型體育場館管理體制落后,運行機制滯后,更加加劇了場館經營困難的局面。同時,大型體育場館面向社會運營管理問題也是擺在各級政府面前的難題,由于我國大型體育場館特殊的社會屬性和運營中存在的諸多問題,對大型體育場館運營管理的研究一直是學者們研究的重點。大型體育場館的運營客流量大,涉及的服務管理面廣,同時管理者的主觀判斷又非常依賴管理者的經驗和能力水平,面對每天產生的巨量管理數據,管理者很難做出有效的分析與整理,這在很大程度上影響了管理的經營預測與決策,這也是單純人為管理的局限性;不同于簡單的統計、計算、抽樣等數據分析方法,數據挖掘采用機器學習或者深度學習的方法幫助計算機學習蘊含在海量數據間的深層次知識(比如屬性之間的規律性,或者某些屬性的特征表征方式)。簡單來說,數據分析是把數據變成信息的工具,而數據挖掘是把信息變成認知的工具,可以將數據分析得出的信息轉化為有效的預測和決策。因此,本文希望通過數據挖掘的方法,充分利用起體育場館中獲得的海量數據,將其轉換成我們之前沒有發現的規律或者信息,輔助大型體育場館的管理與發展。
數據挖掘,就是從海量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道、但又是潛在有用的信息和知識的過程。數據采集/獲取和存儲得到的海量數據通過數據挖掘的方式轉換成有用的信息和知識,并進行廣泛的使用,涵蓋了商務管理、生產控制、市場分析、科學探索等多個領域。人們事先不知道、但又是潛在有用的信息和知識,這句話比較抽象。啤酒尿布的數據挖掘中應用最早且最經典的例子:沃爾瑪公司發現了一個非常有趣的現象,就是把尿布和啤酒這兩種毫不相關的商品擺在一起,能夠大幅度增加兩者的銷量。原因在于:美國的婦女通常在家照顧孩子,所以常常會囑咐丈夫在下班后為孩子買尿布,而丈夫在買尿布的同時又會順手購買自己愛喝的啤酒。沃爾瑪公司正是從數據積累中挖掘出這種隱含的關聯性,因此將兩種商品并置,從而大大提高了關聯銷量,這就是數據挖掘的功勞。
(1)定義問題。在開始知識發現之前最先的也是最重要的就是定義業務需求。必須要對目標有一個清晰明確的定義,即決定到底想干什么。比如,要發現體育場館客流量的變化規律;發現顧客的滿意度和體育場館的哪些方面有關;
(2)數據清洗。數據的采集/獲取和存儲獲得的數據還無法達到分析的階段。因為其中包含了許多錯誤以及噪聲數據,如,體育場館中由于某一天沒有營業,或者前臺工作人員的疏忽,對當天的盈利或者客流量的數據記錄出現錯誤等情況,必須通過數據清洗濾掉無用數據,保證數據分析的準確性;
(3)建立模型。根據數據類型、分析方法以及問題定義的不同,選擇不同的模型對數據進行分析,不同的模型對不同場景的適用性是不同的。選擇最符合問題的模型,是這一步的關鍵;
(4)評價模型。模型建立好之后,必須評價得到的結果、解釋模型的價值。由于我們采集的數據不能代表所有情況,希望模型可以應用于真實場景下,需要先在小范圍內應用,取得測試數據,覺得滿意之后再向大范圍推廣;
(5)實施。模型建立并經驗證之后,可以有兩種主要的使用方法。第一種是提供給分析人員做參考;另一種是把此模型應用到真實場景中。
數據采集,又稱數據獲取,是利用一種裝置,從系統外部采集數據并輸入到系統內部的一個接口。而隨著科技的發展,數據采集的技術呈現多樣化的發展趨勢,在大型體育場館的管理中表現為,如,通過攝像頭采集的視頻數據(出入口以及場館內等)、工作人員操作電腦采集的每天售票量(客流量)的數據、客人意見簿采集到的評價文本數據等等。
數據存儲,是數據以某種格式記錄在計算機內部或外部存儲介質上。隨著硬件技術以及云技術的發展,海量數據的存儲變得簡單,不僅包括了傳統的硬件存儲方式(NAS、NDS等),還涵蓋了云存儲這種網上在線存儲方式。這兩類技術的發展,加之數據生成與傳播的便捷性,致使體育場館的數據爆炸性增長,為數據挖掘提供了數據基礎以及發展前提。
(1)分類:將數據庫中的數據項映射到某個給定的類別。判斷體育場館今天的客流量是多—中等—少三種情況中的哪一類;
(2)回歸:發現某兩個要素間的關聯關系,用函數的形式表達出來。如,判斷體育場館的顧客滿意度和體育場館大小、服務態度、設備種類、環境衛生幾個要素間的關系,用函數滿意度=f(場館大小、服務態度、設備種類、衛生環境)表示;
(3)聚類:與分類問題類似,把一組數據按照相似性和差異性分為幾個類別,其目的是使得屬于同一類別的數據間的相似性盡可能大,不同類別中的數據間的相似性盡可能小。
(1)空閑場館檢測。
應用場館:籃球、羽毛球、乒乓球場館等分場地的場館。
應用背景:籃球場館除了場地預約情況外,進入場館的人可以自由選擇在哪一片場地運動,有的喜歡單獨在一片空場地,有的喜歡和其他人一起運動。因此,實時監控籃球場內各個場館的活動密集度(活動人數)以及空閑場地數目非常重要。
應用意義:幫助管理者了解場館內各個場地的密集度,調整管理策略,控制客流量;也幫助運動者在進入場館后了解空閑場地的情況,提高場地的利用效率。
應用技術:計算機視覺領域——是指用攝影機和電腦代替人眼對目標進行識別、跟蹤和測量等機器視覺,并進一步做圖形處理,使電腦處理成為更適合人眼觀察或傳送給儀器檢測的圖像。在體育場館中,攝像頭收集的視頻數據為CV的研究提供了視頻數據的支持,通過CV技術發現圖像或者視頻中的規律,在發現自動發現違規行為、危險發現、客流量統計、密集度預測的方面有重要作用。
功能:實時顯示如場地密集程度及場地的空閑程度,便于管理者適時調配,提高場地的利用效率。
(2)客人意見智能反饋。
應用場館:所有提供意見簿或者客人意見反饋的場館。
應用背景:現在許多場館會提供客人意見反饋的功能,顧客可以通過網絡或者記事本的形式表達自己對該場館的建議,這些建議對場館的建設和后續管理方面有著重要作用。
應用意義:幫助場館了解顧客的建議和反饋,致力于為顧客提供更好的場館服務。
應用技術:自然語言處理——用計算機來處理、理解以及運用人類語言的過程。體育場館中關于語言數據的收集并不常見,如,顧客的意見和留言,但是這些語言數據是反映顧客滿意度以及建議的重要表現形式。合理分析語言數據,發現顧客滿意度的內在規律性,對體育場館提高管理質量、吸引客流量等方面有重要意義。
(1)應用場館:所有參與運營的體育場館;
(2)應用背景:體育場館收集的數據很大一部分帶有時序性,如每天的客流量,每天的盈利,每天的管理費用等等。發現蘊含與時序數據中的規律性;
(3)應用意義:通過對時序數據的研究,找出體育場館隨時序性變化而產生的規律,合理安排用工,提高管理效率;
(4)應用技術:時序數據分析——時間序列是指按時間順序排列的一組數據,是一類重要的復雜數據對象。體育場館收集的數據很大一部分帶有時序性,如,每天的客流量,每天的盈利,每天的管理費用等等。發現蘊含與時序數據中的規律性,如客流量的時序變化,周一可能比較少,周末可能比較多;
(5)功能:借助對體育場館中的時序數據的收集與分析,對體育場館的未來運營風險及時發現并提出警報,有利與提前制定預案。
當前隨著存儲設備的性能提升、云時代的到來,大數據也吸引了越來越多的關注,大數據的分析也呈現火熱的發展趨勢,如支持向量機(SVM)、決策樹等。而如今,基于深度學習的方法成為大數據分析的主流方法,如卷積神經網絡(CNN)、長短期記憶網絡(LSTM)。其中長短期記憶網絡主要解決具有顯著時間序列特征的數據,在預測、分類任務上取得了很好的成果。本文的主要任務是通過對數據挖掘技術的定義方法及分類提出了體育場館管理的數據解決方案,并就計算機視覺、自然語言處理、時序數據研究的應用進行了相關的分析與闡述,但這只是大數據背景下技術運用的很小一部分,未來隨著數字技術的發展與進步,必將有更加強大的數字處理工具應用于大型體育場館的管理當中,提高管理效率,降低管理成本,更好的服務于大眾健康事業。