彭琪凱 楊志浩 郭丹(通訊作者)
(通化師范學院計算機學院,吉林 通化 134000)
隨著移動互聯網和物聯網的飛速發展,當今各行各業所需要和處理巨量的信息化數據逐年遞增,如何在海量數據提取有效的且有價值的信息,大數據挖掘和分析技術成為相關行業的重中之重。作為國民經濟發展支柱之一的文化影視產業備受各大廣電網絡、投資人關注。票房和收視率作為影視行業的主要評測標準,制片人、廣告代理機構投資及收益的主要參考依據,無形中體現了有效數據分析的價值。總的來說,大數據的終極目標并不僅僅是改變競爭環境,而是徹底扭轉整個競爭環境,帶來新機遇,企業行業要應勢而變。只有認識到這一點,使用合適的數據分析工具、智慧地使用和管理數據,才能在長期競爭中成為終極贏家。
對于“大數據”(Big data)研究機構Gartner 給出了這樣的定義。“大數據”是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力來適應海量、高增長率和多樣化的信息資產。麥肯錫全球研究所給出的定義是:一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件工具能力范圍的數據集合,具有海量的數據規模、快速的數據流轉、多樣的數據類型和價值密度低四大特征。
大數據技術的戰略意義不在于掌握龐大的數據信息,而在于對這些含有意義的數據進行專業化處理。換而言之,如果把大數據比作一種產業,那么這種產業實現盈利的關鍵,在于提高對數據的“加工能力”,通過“加工”實現數據的“增值”。
從技術上看,大數據與云計算的關系就像一枚硬幣的正反面一樣密不可分。大數據必然無法用單臺的計算機進行處理,必須采用分布式架構。它的特色在于對海量數據進行分布式數據挖掘。但它必須依托云計算的分布式處理、分布式數據庫和云存儲、虛擬化技術。
隨著云時代的來臨,大數據也吸引了越來越多的關注。分析師團隊認為,大數據通常用來形容一個公司創造的大量非結構化數據和半結構化數據,這些數據在下載到關系型數據庫用于分析時會花費過多時間和金錢。大數據分析常和云計算聯系到一起,因為實時的大型數據集分析需要像MapReduce 一樣的框架來向數十、數百或甚至數千的電腦分配工作。
隨著大數據的技術日益普及,大數據的意義也呈現出多樣化的趨勢,一般很難給出一個準確的定義。因此這三個字不能準確描述大數據。大數據不一定意味著海量數據,而是說數據鏈間具有明顯的特征。目前大數據的 4V 定義被廣泛認同。也就是說,大數據的特征是以V 開頭的四個字母來描述的。
Veracity 數據真實性:數據的質量;Volume 數據容量:數據的大小決定所考慮的數據的價值和潛在的信息;Variety 數據種類:數據類型的多樣性;Velocity傳輸速度:獲得數據的速度。除此之外,大數據還具有可變性(Variability),它會妨礙處理和有效地管理數據的過程;復雜性(Complexity),即數據量巨大,來源多渠道;以及價值性(value),即合理運用大數據,以低成本創造高價值。
通過分析影視大數據特征,票房和收視率受到影響的因素非常多[3]。近幾年新興媒體漸漸的突破了“傳統媒體”的限制,讓影院和電視臺必須開始考慮互聯網元素對票房和收視率帶來的影響,例如微博等平臺上演員的粉絲數以及搜索量等,微博上被討論的次數、該影片的關注程度、搜索引擎的搜索次數、各大視頻網站上的點擊量等,對比于傳統行業以及影視預測來說,建立在互聯網基礎上的影視數據挖掘有著下面幾點特征:
1.數據類別多、量大:由于日常生活中人們離不開互聯網的幫助,每天都會出現海量的交互信息,用戶在網絡中各類操作都會被當做網絡日志進行記錄。眾多的字段、數據和信息,使得分析前對于分析字段的挑選和篩查工作顯得非常重要。
2.影視數據挖掘時效性短:隨著用戶行為變化以及網絡環境的改變加速,使得數據挖掘算法及模型的改進周期在持續縮小,以往的“用戶流失預測模型”是以年為時間尺度完成更新,現在互聯網下的這些模型則只需三個月就需要進行改進和優化。
3.技術更新快:和傳統產業比較,網絡當中的新技術、新模式發展更快、更短、更具顛覆性。這就要求數據分析和挖掘的應用更加多元化。從最初分析挖掘,再到以微博應用為典型的分析需求,直至如今更加熱門的移動數據分析和運用,可以說如今網絡數據分析應用已經獲得了極大的發展。
以2019 年春節檔關注的電影《瘋狂外星人》《流浪地球》《飛馳人生》《新喜劇之王》四部為例,通過 Python 從各大網站如m1095、票房網、豆瓣網等獲取電影票房、質量、導演、演員屬性等數據,如表1。
關于這幾部電影的票房,我們團隊在電影上映一周前就做了出了預測,如圖2:
截止到2019 年2 月12 日早上9 點,我們再來看一下首周票房對比結果,如圖3:
除了《流浪地球》這匹黑馬殺出重圍之外,其他電影的預測結果與實際結果幾乎完全吻合。那么,我們是如何用數據挖掘預測電影票房的呢?即先根據歷史票房變化預測出春節檔總票房,然后根據各導演、演員制作的歷史電影質量、票房情況、SEO 情況等預測出各電影票房占比,之后綜合預測出各電影的實際票房。
如何使用歷史數據來預測電影質量?對于電影來講不變的就是那些導演與演員,導演的水平與演員的水平基本決定電影質量從而影響電影票房。為了客觀衡量導演、演員水平,根據歷史電影評分、導演信息、演員信息、票房信息、電影類型信息、評價信息等特征進行組合最終共有74 個特征,再結合歷史票房數據等通過加權算法分析得到四部電影的票房占比情況,處理后的數據如圖4。
電影票房還與SEO等相關,我們找尋了百度指數、微信指數、淘票票指數等數據,如圖5:
從歷史數據發現這些指數與電影票房呈正相關關系,也就是指數越高票房越高,加入這些指數后,使用算法重新進行預測得到我們最后的票房預測結果。
大數據技術的飛速發展和應用在各種領域都得到了關注和共識,收集海量的數據、提取有效的信息、運用精準的分析算法、采用合理的處理工具,都會使各行各業的經濟效率、社會疚得到大幅度的提升。