方鴻然 美國俄亥俄州立大學
Kaggle是由創始人兼首席執行官Anthony Goldbloom2010年在墨爾本創立的機器學習競賽平臺,后被谷歌公司收購。Kaggle推出線上數據挖掘及機器學習競賽平臺,該競賽平臺向全球開放后成為當前規模最大的數據科學家社區。Kaggle自推出以來迄今為止共舉辦了超過三百場全球數據競賽,臉書、騰訊、微軟、沃爾瑪等全球知名企業都在Kaggle平臺上發起過數據競賽,在賽事過程中全球各地參賽者為這些知名企業提出的數據問題提供了多維度的數據分析方案,順利推動了企業問題的解決。
隨著人工智能技術的進一步推廣,基于算法的數據挖掘技術不斷推向社會發展的各個領域,大量的企業在商業運營管理面臨的一系列問題,通過在Kaggle上發起競賽,這些問題有望在算法和數據挖掘的技術加持下找尋到解決方案,Kaggle在多個領域的商業運營管理將會發揮其應用優勢。
Kaggle在商業流通和零售領域的應用主要通過對消費數據的挖掘,分析商品之間的潛在聯系。顧客在選購商品時,經常會同時選購若干商品,這些商品之間存在一定關聯。分析顧客可能還會購買的商品。根據已經選購商品的情況,預測顧客還可能選購的商品。因此可以通過數據挖掘實現銷售預測、庫存預測、庫存預測、挖掘潛在客戶、挖掘價值產品、輔助零售價格形成等。
Kaggle在金融領域的應用主要體現在風險控制,風險控制是金融領域的核心。在金融機構中目前利用數據分析應用于金融風險控制技術發展較為成熟。例如在銀行個人信貸領域,信用卡的審批額度可以通過客戶個人職業信息數據、流水數據等來進行確定。近年來隨著互聯網金融的興起,以螞蟻金服為代表的互聯網金融企業在信貸過程中進一步的運用了數據挖掘手段,通過挖掘用戶基礎信息數據、行為數據、消費數據以及諸多在APP使用過程中形成的非結構化數據,以此形成用戶畫像并實現千人千面的消費額度信貸標準。
在金融投資領域,Kaggle數據競賽對量化投資模型和投資策略的形成具有重要意義。通過結合各領域大量的數據挖掘、篩選、分析,能夠形成一套相對固定了交易程序,代替投資者過于主觀的判斷,量化策略能夠平衡客觀數據與主觀判斷之間過大的鴻溝,進而避免投資者做出追漲殺跌等情緒化投資行為。
當前廣告行業領域亦進入深度變革時期,在智能設備終端日益普及的背景下,廣告投放市場的邏輯越來越依靠技術和數據做支撐。對于任何一個產品或服務,從廣告的前期策劃、發布渠道、客戶定位到后期的定向投放及助推轉化,數據推動技術變化的態勢非常明顯。在此過程中,Kaggle數據競賽的引入能夠幫助諸多廣告企業解決投放選擇、虛假廣告檢測、點擊率預測、展示效果預測等信息難題。
隨著移動互聯網和手機支付的普及,相當數量的消費者在移動設備上積累了大量消費數據,當前移動支付的客戶中蘊含著高潛力旅游消費人群。根據安卓生態研究調查顯示在智能手機使用群體中,有八成消費者在旅游時應用旅游APP預定行程,旅游的攻略、住宿、交通、飲食等重要環節可以通過APP實現全覆蓋。這一過程中形成的海量數據,為旅游領域的數據挖掘提供了良好契機,通過數據挖掘技術,可以幫助旅游行業上下游商業實現游客量的預測、酒店預訂量預測、景點預測等,并可以根據游客的消費偏好實現旅游景點的精準推薦,實現個性化旅游。
在5G通信技術、人工智能、云計算、大數據等新ICT技術的集合賦能下,傳統的汽車正在轉型成為一種新的移動智能終端。自動駕駛是汽車新四化(智能化、網聯化、電動化、共享化)的核心,集中運用了計算機、人工智能、融合傳感、通信、云計算、高精地圖、自動控制等多學科綜合技術,其中數據的深度學習的挖掘能力尤為關鍵。
不同于傳統駕駛,自動駕駛汽車系統需要實時更新數據形成深度學習,在計算機感知系統的支持下,通過圖像數據的采集識別不同的道路場景、交通標示、建筑場景和自然場景,基于數據的采集進行fine tuning訓練,以提高感知算法的準確率和置信度。在這一過程中,如果充分的挖掘和分析數據信息將成為開發者的挑戰。首先,需要處理的數據量極為龐大。每臺無人駕駛汽車會產生80萬張/天的圖片待標注,因此,快速的獲取數據和高效的處理數據是工程師首要考慮的問題。其次,從訓練和仿真來看,單車預計需累積里程100+億公里,將耗費大量的人力、算力、時間,如何加快訓練效率,輸出更多的場景,更高的準確率。最后,仿真是確保自動駕駛持續提升安全性的關鍵,如何支持更豐富的場景快速的完成仿真測試并持續優化算法也成為關鍵問題。上述問題通過Kaggle競賽,在算法和數據挖掘的技術加持下找尋到多維度的解決方案。
本文通過對Kaggle開放數據競賽簡要闡述,探討了Kaggle開放數據競賽在流通零售、金融證券、商業廣告、旅游管理、自動駕駛等領域中的應用,可以發數據挖掘的應用已經深入到現代社會的各個方面,領域應用潛力極為巨大,將會對未來全球商業的經營變革產生重要影響。