999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大數據技術的電影票房預測分析

2020-02-02 11:50:18彭琪凱楊志浩郭丹通訊作者
魅力中國 2020年46期
關鍵詞:數據挖掘分析信息

彭琪凱 楊志浩 郭丹(通訊作者)

(通化師范學院計算機學院,吉林 通化 134000)

隨著移動互聯網和物聯網的飛速發展,當今各行各業所需要和處理巨量的信息化數據逐年遞增,如何在海量數據提取有效的且有價值的信息,大數據挖掘和分析技術成為相關行業的重中之重。作為國民經濟發展支柱之一的文化影視產業備受各大廣電網絡、投資人關注。票房和收視率作為影視行業的主要評測標準,制片人、廣告代理機構投資及收益的主要參考依據,無形中體現了有效數據分析的價值。總的來說,大數據的終極目標并不僅僅是改變競爭環境,而是徹底扭轉整個競爭環境,帶來新機遇,企業行業要應勢而變。只有認識到這一點,使用合適的數據分析工具、智慧地使用和管理數據,才能在長期競爭中成為終極贏家。

一、大數據的含義和特征

(一)大數據的含義

對于“大數據”(Big data)研究機構Gartner 給出了這樣的定義。“大數據”是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力來適應海量、高增長率和多樣化的信息資產。麥肯錫全球研究所給出的定義是:一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件工具能力范圍的數據集合,具有海量的數據規模、快速的數據流轉、多樣的數據類型和價值密度低四大特征。

大數據技術的戰略意義不在于掌握龐大的數據信息,而在于對這些含有意義的數據進行專業化處理。換而言之,如果把大數據比作一種產業,那么這種產業實現盈利的關鍵,在于提高對數據的“加工能力”,通過“加工”實現數據的“增值”。

從技術上看,大數據與云計算的關系就像一枚硬幣的正反面一樣密不可分。大數據必然無法用單臺的計算機進行處理,必須采用分布式架構。它的特色在于對海量數據進行分布式數據挖掘。但它必須依托云計算的分布式處理、分布式數據庫和云存儲、虛擬化技術。

隨著云時代的來臨,大數據也吸引了越來越多的關注。分析師團隊認為,大數據通常用來形容一個公司創造的大量非結構化數據和半結構化數據,這些數據在下載到關系型數據庫用于分析時會花費過多時間和金錢。大數據分析常和云計算聯系到一起,因為實時的大型數據集分析需要像MapReduce 一樣的框架來向數十、數百或甚至數千的電腦分配工作。

(二)大數據的特征

隨著大數據的技術日益普及,大數據的意義也呈現出多樣化的趨勢,一般很難給出一個準確的定義。因此這三個字不能準確描述大數據。大數據不一定意味著海量數據,而是說數據鏈間具有明顯的特征。目前大數據的 4V 定義被廣泛認同。也就是說,大數據的特征是以V 開頭的四個字母來描述的。

Veracity 數據真實性:數據的質量;Volume 數據容量:數據的大小決定所考慮的數據的價值和潛在的信息;Variety 數據種類:數據類型的多樣性;Velocity傳輸速度:獲得數據的速度。除此之外,大數據還具有可變性(Variability),它會妨礙處理和有效地管理數據的過程;復雜性(Complexity),即數據量巨大,來源多渠道;以及價值性(value),即合理運用大數據,以低成本創造高價值。

(三)影視大數據的特征

通過分析影視大數據特征,票房和收視率受到影響的因素非常多[3]。近幾年新興媒體漸漸的突破了“傳統媒體”的限制,讓影院和電視臺必須開始考慮互聯網元素對票房和收視率帶來的影響,例如微博等平臺上演員的粉絲數以及搜索量等,微博上被討論的次數、該影片的關注程度、搜索引擎的搜索次數、各大視頻網站上的點擊量等,對比于傳統行業以及影視預測來說,建立在互聯網基礎上的影視數據挖掘有著下面幾點特征:

1.數據類別多、量大:由于日常生活中人們離不開互聯網的幫助,每天都會出現海量的交互信息,用戶在網絡中各類操作都會被當做網絡日志進行記錄。眾多的字段、數據和信息,使得分析前對于分析字段的挑選和篩查工作顯得非常重要。

2.影視數據挖掘時效性短:隨著用戶行為變化以及網絡環境的改變加速,使得數據挖掘算法及模型的改進周期在持續縮小,以往的“用戶流失預測模型”是以年為時間尺度完成更新,現在互聯網下的這些模型則只需三個月就需要進行改進和優化。

3.技術更新快:和傳統產業比較,網絡當中的新技術、新模式發展更快、更短、更具顛覆性。這就要求數據分析和挖掘的應用更加多元化。從最初分析挖掘,再到以微博應用為典型的分析需求,直至如今更加熱門的移動數據分析和運用,可以說如今網絡數據分析應用已經獲得了極大的發展。

二、獲取電影票房的數據

以2019 年春節檔關注的電影《瘋狂外星人》《流浪地球》《飛馳人生》《新喜劇之王》四部為例,通過 Python 從各大網站如m1095、票房網、豆瓣網等獲取電影票房、質量、導演、演員屬性等數據,如表1。

三、對比預測與實際數據

關于這幾部電影的票房,我們團隊在電影上映一周前就做了出了預測,如圖2:

截止到2019 年2 月12 日早上9 點,我們再來看一下首周票房對比結果,如圖3:

除了《流浪地球》這匹黑馬殺出重圍之外,其他電影的預測結果與實際結果幾乎完全吻合。那么,我們是如何用數據挖掘預測電影票房的呢?即先根據歷史票房變化預測出春節檔總票房,然后根據各導演、演員制作的歷史電影質量、票房情況、SEO 情況等預測出各電影票房占比,之后綜合預測出各電影的實際票房。

四、用算法工具進行預測及處理

如何使用歷史數據來預測電影質量?對于電影來講不變的就是那些導演與演員,導演的水平與演員的水平基本決定電影質量從而影響電影票房。為了客觀衡量導演、演員水平,根據歷史電影評分、導演信息、演員信息、票房信息、電影類型信息、評價信息等特征進行組合最終共有74 個特征,再結合歷史票房數據等通過加權算法分析得到四部電影的票房占比情況,處理后的數據如圖4。

五、結合SEO、市場響應等優化票房占比

電影票房還與SEO等相關,我們找尋了百度指數、微信指數、淘票票指數等數據,如圖5:

從歷史數據發現這些指數與電影票房呈正相關關系,也就是指數越高票房越高,加入這些指數后,使用算法重新進行預測得到我們最后的票房預測結果。

大數據技術的飛速發展和應用在各種領域都得到了關注和共識,收集海量的數據、提取有效的信息、運用精準的分析算法、采用合理的處理工具,都會使各行各業的經濟效率、社會疚得到大幅度的提升。

猜你喜歡
數據挖掘分析信息
探討人工智能與數據挖掘發展趨勢
隱蔽失效適航要求符合性驗證分析
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
電力系統及其自動化發展趨勢分析
一種基于Hadoop的大數據挖掘云服務及應用
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
基于GPGPU的離散數據挖掘研究
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 久久久久久国产精品mv| 青青操国产视频| 亚洲视频在线网| 国产日本欧美在线观看| 国产91av在线| 亚洲无码视频一区二区三区| 在线欧美国产| 亚洲国产91人成在线| 亚洲欧美另类日本| 丰满少妇αⅴ无码区| 亚洲男人天堂久久| 偷拍久久网| 午夜不卡视频| 久久狠狠色噜噜狠狠狠狠97视色 | 成人午夜免费观看| 成年看免费观看视频拍拍| 色妞永久免费视频| A级全黄试看30分钟小视频| 精品久久久久无码| 午夜福利网址| 亚洲av无码牛牛影视在线二区| 人妻丰满熟妇av五码区| 噜噜噜久久| 亚洲综合激情另类专区| 国产91特黄特色A级毛片| 91麻豆精品视频| 少妇精品久久久一区二区三区| 丰满人妻久久中文字幕| 国产精品一区二区不卡的视频| 亚洲最大福利网站| 久久综合结合久久狠狠狠97色| 在线99视频| 日本爱爱精品一区二区| 国产黄网永久免费| 国产99视频精品免费视频7 | 欧美日韩亚洲国产| 色网站在线免费观看| 亚洲色图在线观看| 99久久国产自偷自偷免费一区| 97久久人人超碰国产精品| av在线5g无码天天| 99re免费视频| 亚洲中文字幕国产av| 亚洲va视频| 国内精品一区二区在线观看| 伊人激情综合网| 国产成人一区二区| 91青青视频| 99热这里只有免费国产精品| 视频一区视频二区日韩专区| 日韩国产综合精选| 久久无码av三级| 国产成人在线无码免费视频| 免费啪啪网址| 天天综合色网| 国产一级妓女av网站| 黄色福利在线| 91精品免费久久久| 福利姬国产精品一区在线| 亚洲熟女中文字幕男人总站| 亚洲欧美日韩另类在线一| 国产一区二区福利| 国产人碰人摸人爱免费视频| 无码久看视频| 久久综合丝袜日本网| 中文字幕亚洲乱码熟女1区2区| 日韩毛片在线播放| 国产精品30p| 国产1区2区在线观看| 日韩欧美国产区| 91小视频在线| 99国产精品一区二区| 人妻无码中文字幕第一区| 自拍偷拍欧美| 污污网站在线观看| 亚洲天堂成人| 国产福利免费观看| 日韩黄色在线| 亚洲高清中文字幕在线看不卡| 亚洲国产精品一区二区高清无码久久| 成年女人18毛片毛片免费| 亚洲丝袜中文字幕|