楊子力
(重慶市第八中學校,重慶,400030)
當今,人們生活水平的不斷提高,追求身體健康成為所有人的時尚,人們體育鍛煉的意識不斷增強,體育運動日漸成為人們日常生活方式的一個重要內容,越來越多的體育項目被人們所熟知和熱愛。隨著人們對體育項目興趣的增強、了解的深入,不少人會成為某一球隊的狂熱粉絲,因此他們會想了解更多自己喜歡球隊的賽事新聞、賽事預告或場外花絮。眾多的體育資訊App為粉絲們提供了很多便利,既能為他們推送各種新聞與賽事提醒,又能售賣各支球隊的周邊商品。
雖然這些APP能收集大量的體育新聞和體育賽事,能夠較好地整合信息,但是卻仍存在一定的弊端。(1)這些APP上新聞的推送針對性不夠強。例如,M用戶是一個NBA金州勇士隊的球迷,他為了了解勇士隊的勁敵休斯頓火箭隊,觀看了一場火箭隊的比賽,而就是因為在線上觀看了火箭隊的一場比賽,該APP從此以后就開始無休止地推送有關火箭隊的所有消息,而該用戶想看到關于勇士隊的信息早已被這些“垃圾信息”所掩蓋;(2)這些APP上對粉絲劃分不準確。比如,N用戶只是一個普通的籃球粉,該用戶廣泛觀看了各支球隊熱門球隊的籃球比賽,而系統根據僅有的觀看記錄就推薦該用戶加入NBA金州勇士隊的球迷聊天群。
隨著大數據時代的到來,大量信息可以被采集處理,這為全面準確地篩選并分類球迷提供了新的途徑。基于以上信息,本文將設計一款針對某一球隊,對其球迷進行準確分類后精準推送消息的體育賽事資訊推薦系統。該系統基于改進的RFM模型和K-Means算法共同作用,能夠對已有數據進行深度挖掘,準確分析用戶行為,進而可以客觀、有效地反映各個用戶的狀況,消除現行的App對球迷劃分不具體、推送消息不精準的問題;同時,還能讓更多球迷更全面地了解自己喜歡的球隊,更為精確地推薦用戶加入相應的球迷粉絲群或者粉絲后援團。
RFM模型是由美國著名的數據庫營銷研究所Arthur Hughes提出的,已經被實踐所檢驗的,對企業客戶價值衡量有較好效果的客戶數據三要素。一般的RFM模型,R指Recency,最近一次消費至現在的時間間隔、F指Frequency,消費頻率、M指Monetary,消費總金額,三項指標來描述該客戶的價值狀況。
本文所改進的RFM模型中,R指最近一次觀看某一球隊比賽到現在的時間,該時間間隔越短,R值越小。根據相關研究者的研究發現,該值越小的用戶越有可能在最近一段時間內觀看該隊新的賽事視頻;F指觀看該球隊比賽的總時長,某用戶的F越大說明觀看時間越長,進而可以得出用戶對該球隊的關注程度和對該球隊的喜愛程度均高。M指該球隊的周邊商品購買情況,M = w1*N + w2*T,N代表該被統計用戶購買周邊商品所花費的總金額,T代表該被統計用戶購買周邊商品的數量。為了消除經濟因素對本系統結果的影響,本文將M定義為:M =0.4N+0.6T。若某被統計用戶M值越大,則該用戶對該球隊的投入越多。
聚類,是指按照對象的某些屬性,以某種相似度的測量方法,把相似的事物聚為一簇,其結果是獲得的簇中,不同簇的對象之間相似度小,同一簇中的對象相似度大。K-Means算法也被稱為K-均值,是當前最廣泛運用于基礎劃分的聚類算法。K-Means算法以輸入的分類個數k為參數,把n個目標對象劃分為k個簇,簇內具有較高的相似度。K-Means算法的基本思想為:算法首先隨機的選取k個對象,并把這k個對象初始化為k個簇的平均值或中心,算法計算并根據其他每個對象到這k個簇中心的距離,將它賦給最近的簇,重新計算每個簇的平均值,重復進行,直到每個對象都被一一劃分。
本文將以NBA休斯頓火箭隊的球迷為范例,通過改進的RFM模型和K-Means聚類算法,對采集到的用戶的數據進行科學、嚴謹地挖掘,并分析出這些用戶的行為特征,由此對這些用戶進行精確劃分,并針對劃分結果進行消息的精準推送。
收集十名用戶近半年關于休斯頓火箭隊的體育賽事觀看記錄和關于球隊的周邊商品消費記錄。詳細包括最近一次觀看至現在的時間,半年內的總觀看時長,購買球隊周邊產品所花費的金額和件數。
由于每名粉絲所擁有的的三個屬性數據有不同的單位且數據極差較大。因此,在數據預處理階段需要對數據進行歸一化處理,以平衡每個屬性對最終結果的影響,歸一化處理后的數如表1所示。

表1 歸一化后用戶數據
通過歸一化處理后,全部數據都呈現在坐標軸0-1的區間內,統一化后的數據作為K-Means算法的數據輸入。首先。對K-Means聚類算法中的K值進行選取:分別取K=3,4,5,對K的不同取值進行重復計算,嘗試3次之后,得出K值輸入3時,簇間距最大,簇內距最小。然后,依據將K值輸入為3時得出的三組簇,分出3種不同的粉絲的分類,并在坐標軸上劃分出三個簇。

圖1 聚類結果圖
通過計算可以得到表一中用戶A、B、C、D為“狂熱粉絲”,用戶F、G為“資深粉絲”,用戶E、H、J、I為“普通粉絲”。“狂熱粉絲”分類中的用戶對休斯頓火箭隊的喜愛程度最大,因此這其中的球迷會經常在APP上購買有關休斯頓火箭隊的周邊商品,并經常關注休斯頓火箭隊賽場內外的消息;“資深粉絲”分類中的用戶對休斯頓火箭隊的喜愛程度一般,在APP上購買有關休斯頓火箭隊的周邊商品的次數不多,也只關注休斯頓火箭隊出戰的重點比賽和關于休斯頓火箭隊賽場內外的熱門消息;“普通粉絲”分類中的用戶對休斯頓火箭隊的喜愛程度最弱,這些用戶幾乎不在APP上購買有關休斯頓火箭隊的周邊商品,并且只關注休斯頓火箭隊的重點比賽和關于休斯頓火箭隊賽場內的熱門消息。
通過對各個用戶的行為特征的分析然后精準分類后,該系統可以針對不同簇中的粉絲進行不同程度的新聞及賽事推薦,例如給“狂熱粉絲”分類中的各個用戶推送大量關于休斯頓火箭隊的賽事新聞及精彩賽事直播;對于“資深粉絲”分類中的各個用戶來說,系統會向該分類中的用戶推送關于休斯頓火箭隊的熱點新聞、休斯頓火箭隊的一些熱門比賽以及少量關于休斯頓火箭隊的場外花絮;而對于那些在“普通粉絲”分類中的用戶來說,系統只會向該分類中的用戶推送關于休斯頓火箭隊的熱點新聞、休斯頓火箭隊的一些熱門比賽。因此通過這個推薦系統的APP可以將各種消息優化推薦并節省用戶對自己想知道的消息的查詢時間。
本文通過系統對用戶最近一次觀看該隊比賽至現在的時間間隔、觀看賽事總時長、購買周邊產品的次數和消費總金額的分析,建立了RFM模型。借助K-Means聚類算法,將用戶精準分為三類,不僅可以為該系統精準劃分粉絲,同時還提供了一種新聞的推薦方式。為用戶節省了翻閱大量“垃圾信息”后才能看到自己心儀消息的時間,增強了系統與用戶的交互。
此系統除了可以應用在體育消息選擇推送上面還可以將其運用于其他領域。例如:(1)明星為了回饋粉絲的支持,可以根據本系統,對目標粉絲的數據進行采集后,將目標粉絲進行分類,并根據算法結果,選擇出可以受到回饋的熱情粉絲;(2)若餐廳想知道菜品的銷售情況,并了解大眾反應,就可以通過該系統,統計每個菜品的點餐率、顧客的好評率,再通過本系統的算法,推算出每個菜品的受歡迎程度,以此來實現菜品的推廣與食物的節約。
另外,從目前的發展來看,數據挖掘技術未來發展市場十分廣闊,隨著App的不斷完善,從海量的數據中,獲取有價值的信息和知識,分析并研究用戶喜好和消費行為特征,并推出適合用戶需求的個性化、定制化資訊,以贏得市場地位也是傳媒企業未來快速發展的關鍵,同時還可以對用戶進行分層、分類管理,發現潛在用戶。