《IT時代周刊》特約撰稿人/陳昌業(發自北京)
責編:張里 E-mail:zhangli@ittime.com.cn 美編:圓圓 校對:媚子
截至10月16日,《黃金時代》的累計票房為4698萬(已上映16天),如此成績對于片方、媒體和公眾而言都是出乎意料,畢竟滿滿的7天國慶黃金檔是一個日產斗金的高產值檔期。無論是湯唯還是馮紹峰都已是炙手可熱的有極高票房號召力的大明星,此役失利,堪稱冷門。
但最令人啞然的恐怕還是影片上映前百度為其背書的票房預測,當時很多媒體還認為百度的預測太過保守。在百度百發的新聞發布會上,當宣布預測票房為2.0-2.3億后,全場只有安靜,畢竟這個為期七天的黃金檔期對于擁有湯唯和馮紹峰的電影而言,只預計這個數字略顯保守了,但如此謹慎的預測,在今天看來竟顯得過于“樂觀”。
其實,百度很早就開始研究并在內部預測票房了,在今年7月18日愛奇藝影業宣布成立的新聞發布會上,愛奇藝首席內容官馬東就透露,目前在愛奇藝內部,基于百度大數據的票房預測已經能夠做到80%以上的準確率,未來將會在適當的時候對外發布票房預測。顯然,針對《黃金時代》的百度百發(娛樂眾籌產品)發布就成為了百度發布票房預測的適當時候,但只可惜出師未捷。
為什么中國最有能力做大數據預測的百度,竟會“意外”地馬失前蹄?
不到5000萬的票房收入,讓投資方百度百發早期通過大數據技術對《黃金時代》國慶期間的票房預測完全失真。
愛夢娛樂大數據創始人雷鳴和凡影調研客戶總監王舒都認為,在國內做電影票房預測存在一個根本性的“疏漏”,就是中國電影市場的歷史數據沉淀嚴重不足。
我國有詳細、清楚和準確的票房記錄是從2012年開始。當年2月,全國電影票務綜合信息系統(簡稱新平臺)上線。該平臺共規劃了信息速遞、行業管理、影院管理、影片管理、票房數據接收、放映數據接收、監控管理、專資收繳管理、專資使用管理、查詢統計、分析預測、GIS綜合展示、安全認證、系統管理、SSL應用共15個模塊,77項功能。從技術上實現了能夠準確統計全國的票房、場次、排片等影院端生成的數據。
在此之前,除了年底由國家電影專資辦統計出具的權威票房數據外,其他每周、每月票房的數據多是由專業人士根據抽樣的統計進行估算。
雷鳴介紹,愛夢娛樂大數據為了彌補公開的票房數據資料不足,自己做了大量的“臟活、累活”,對2010年以來的國產電影單片的投資額、票房、演員陣容等進行了盡可能的資料搜集和統計,并進行了標簽化的整理,從而形成自己的具備一定沉淀量的結構化數據。
王舒還特別提到,從2012年有詳盡票房統計以來的數據并不足夠有參考價值以作為票房預測的基礎,因為中國電影產業自2012年以來連續地進入了一段爆發式增長期,從百億迅速跨越到200億元,甚至今年有望沖擊300億元。
“穩定性是做趨勢性預測的基礎。”王舒認為,“高速增長是具破壞性的,如果根據這樣的數據進行預測,則必須作出實時的調整才能相對準確。”就王舒看來,只有等到中國電影的票房產值進入到一個穩定的平臺期,電影的消費習慣趨于穩定,才可能作出基于統計分析“準確”的趨勢性預測。
據百度大數據部產品規劃負責人祖崢介紹,百度票房預測基于百度每日60億次的搜索查詢數據、1億規模的微博數據以及10年電影行業數據,通過百度大數據引擎將數據進行整合、建模和清洗,輸出針對特定電影的搜索指數、社交指數、演員指數、導演指數等,最終可以導出電影總票房預測和7日票房預測等數據。
雷鳴認為,百度的搜索排名以及搜索結果導出的各類指數都會有大量來自于片方及其宣傳公司,即非自然形成的人為推高——這在電影行業的宣傳里司空見慣,當然也是百度的競價排名等與搜索結果有關的收費服務所提供的“宣傳空間”。
如果是這些 “結果”,本身由此就會存在大量的誤導,這在雷鳴的描述里被稱作統計上的“噪音”,亦被稱作“臟數據”。雷鳴認為,不排除《黃金時代》存在這些“噪音”,而百度方面很有可能因為沒有能夠剝離這些“臟數據”,從而“被自己欺騙了”。
關于百度預測模型,媒體公開的資料顯示,“這一產品結合百度搜索數據、新浪微博數據,以及中國電影過去幾年的歷史票房數據,可以從演員熱度、導演熱度、電影關注度、上映時間等多個維度對一部電影進行票房預估。”
凡影調研客戶總監凌毅認為,僅從披露的信息看,模型內包含的數據維度并不足夠多,“或許該模型還處在初級階段。”凌毅提到了從媒體公布的資料看,特別是忽略了檔期內其他競爭影片這一重要的參考維度。而據其分析,該片之所以會票房失利,與影片對國慶檔期的錯判,特別是該檔期內觀眾的消費心理錯判有很大的關系。凌毅介紹,樂視影業內部對于電影項目的數據決策模型中,基于同檔期競爭影片的數據分析是十分重要的數據維度。
搜狗方面亦對此頗為認同,“影響票房的未知因素多:導演、演員、劇本、宣傳、首映時間、影片檔期、同期競爭的影片、CPI、經濟周期、天氣情況、影院的排片率、上座率、票價、是否3D等。此外,《黃金時代》與多部電影同步上映,互相影響。而很多數據都是基于單部電影,對多部電影相互影響的作用并不好分析預判。百度票房預測的數據來源和覆蓋人群還是非常廣的,只是如上所述,預測過程中充滿了不確定性,特別是一些不可預期的變量會對預測結果產生比較大的影響,這點在部分電影中表現會比較明顯,也是不可避免的。”
在王舒看來,變量遺漏和樣本偏差是做統計性趨勢分析的最大敵人。前者即是凌毅提到的問題,維度的不夠豐富,不僅可能是因為疏漏而導致沒有納入到統計口徑內,還可能是因為互聯網內的數據目前仍然存在“門戶”壁壘——無法打通一些關鍵的大數據,譬如說微博數據與微信數據打通,百度的搜索引擎內沉淀的數據與騰訊在QQ、微信上沉淀的用戶數據打通,淘寶、京東、貓眼等電商或O2O平臺內的數據之間打通,這些具有強關聯性的數據目前還難以實現分享,而這些數據不能打通,則任何一方對于“人”的消費行為描述、消費心理觀察都必然會有相當程度的偏頗,變量遺漏也就在所難免了。
樣本偏差指的是,“在沒有嚴格遵循隨機的原則時,所覆蓋的樣本越大反而會導致誤差越大。”另外,由于搜索只是一種表示興趣的行為,如果僅以一小部分人的興趣來推測全體的購票決策,準確度有限是難免的。
“大數據不實用。”王舒認為,“做這種預測,對于電影票房并沒有直接的幫助。這是一個無法證偽,也無法證實的預測。”映前的票房預測如果高了,片方也不會就不作為,干等勝利成果,那么預測后所進行的努力就成了對于票房最終結果的助力,從而也就無法證實彼時的預測與此時的成績之間是否可以稱作是準確。反之亦然,預測低了,片方當然會盡最大努力調整營銷策略,那無論最終準確與否都無法判斷彼時預測的結果究竟對與否。因此,除了為影片增加噱頭外,票房預測可以說沒有價值。
凌毅指出,樂視影業內部的數據及策略中心,會在電影的投資階段,便參與到對項目的市場評估,幫助影片在制作上做調整。而在電影進入到發行階段之后,更會基于對本體、檔期、競品等的數據分析,來制定相應的市場策略,包括通過對實施效果的實時監測,來修正和調整營銷策略。凌毅強調,數據分析更像是一個工具,它能修正經驗及主觀意識的偏見,幫助片方在營銷上少做錯誤的決策,但絕不是包治百病的萬靈丹。
“目前,電影領域談大數據,還為時過早。”凌毅認為,電影行業仍然還是傳統產業,從制造到消費都是線下完成,即便現在有電商介入購票環節,但是絕大部分的線下行為都無法數據化導入到線上,從而形成具有因果關聯性的大數據沉淀。“包括在樂視影業內部,目前數據對我們最具意義的部分,其實在于它是一套培養良好思維習慣的工具,大數據的前景在將來。”
王舒與凌毅觀點相似,他認為大數據盡管不同于過去強調因果關系的統計分析,但強調關聯性的大數據并非無需因果,仍然需要有因果關系的數據導入。否則,全世界發生的事情都只要用“蝴蝶效應”來解釋就足矣。
僅就電影行業的大數據而言,一方面需要較長時間的歷史沉淀數據——王舒認為是十年后;另一方面需要有大量的第三方公司參與到行業中來,幫助打通各個陣營、領域、行業中“孤立”的數據,關聯才是大數據中“大”的真正價值。因此,沉淀票房的歷史數據以及與電影行業有關的其他數據才是當務之急,經年累月后,這些大數據能夠產生巨大的分析價值,不止于票房預測。