999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于線性回歸算法的電影票房預(yù)測研究

2019-03-14 12:42:40羅干蔣煜楷陳文婷吳鎮(zhèn)州施運梅宋瑩
電腦知識與技術(shù) 2019年1期
關(guān)鍵詞:評價

羅干 蔣煜楷 陳文婷 吳鎮(zhèn)州 施運梅 宋瑩

摘要:該次研究利用從豆瓣電影和貓眼電影所爬取的電影基本信息數(shù)據(jù)和票房數(shù)據(jù)作為數(shù)據(jù)集。在進行線性回歸訓(xùn)練之前,先將電影基本信息中的非數(shù)值型數(shù)據(jù)轉(zhuǎn)化為數(shù)值型數(shù)據(jù),然后利用Spark的機器學(xué)習(xí)庫構(gòu)建了票房預(yù)測模型。經(jīng)過實驗分析得出,所構(gòu)建的預(yù)測模型在電影票房的預(yù)測上有較高的準確率,可為電影票房分析提供有效的參考信息。

關(guān)鍵詞:線性回歸模型;電影票房預(yù)測;評價;Spark

中圖分類號:TP312? ? ? 文獻標識碼:A? ? ? 文章編號:1009-3044(2019)01-0202-02

1 背景

隨著我國經(jīng)濟的發(fā)展,人民生活水平不斷提高,文化消費有了爆發(fā)式的增長,中國的電影市場得以繁榮發(fā)展[1]。電影票房的預(yù)測也變得越來越有意義,在2013年的時候Google就發(fā)布了一篇名為《Quantifying,movie magic with Google Search》[2]的論文,里面提出了線性回歸的電影票房預(yù)測模型。之后也有很多相關(guān)的研究,也取得了一系列的成果,且大多數(shù)研究的票房預(yù)測模型都沒有對外公開信息。此外所采用的數(shù)據(jù)沒有一個后續(xù)的更新,不能順應(yīng)電影發(fā)展腳步[3]。中國電影市場現(xiàn)在還有很多“現(xiàn)象級”[4]的電影,電影票房確實有很多不確定性。

該文將從豆瓣電影和貓眼電影上爬取的2011-2017年的院線電影信息,針對國內(nèi)電影市場的特點,利用Spark的機器學(xué)習(xí)庫(MLlib)的線性回歸算法進行電影最終票房的預(yù)測。

2 相關(guān)技術(shù)介紹

該節(jié)將對電影票房預(yù)測中使用的主要技術(shù)進行簡單介紹。

2.1 Spark計算引擎

Spark是在Hadoop MapReduce的基礎(chǔ)上提出的新一代大數(shù)據(jù)分析框架,擁有Hadoop MapReduce所具備的全部優(yōu)點,并且Spark是將計算結(jié)果直接存儲在內(nèi)存中,運算效率更高[5],讓它非常適合機器學(xué)習(xí)與數(shù)據(jù)挖掘等需要迭代的算法。

Spark主要有三個特點:1)高級API剝離了對集群本身的關(guān)注,讓開發(fā)者可以專注于計算本身。 2)Spark支持交互式計算和復(fù)雜算法。3)Spark是通用引擎,可用它來完成SQL查詢、文本處理、機器學(xué)習(xí)等各種各樣的運算。

2.2 機器學(xué)習(xí)庫MLlib

MLlib(Machine Learnig Lib)是構(gòu)建在 Spark 之上,一個專門用于大量數(shù)據(jù)處理的通用快速的引擎,是一個可以進行擴展的機器學(xué)習(xí)庫,其目標是使實際的機器學(xué)習(xí)變得可擴展和容易。

MLlib 主要包含三個部分:1)底層基礎(chǔ):包括了Spark的運行庫、矩陣庫和向量庫;2)算法庫:包含廣義線性模型、推薦系統(tǒng)、聚類、決策樹和評估的算法;3)實用程序:包括了測試數(shù)據(jù)的生成、外部數(shù)據(jù)的讀入等功能[6]。

2.3 多元線性回歸模型

線性回歸是利用數(shù)理統(tǒng)計中回歸分析,來確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計分析方法,運用十分廣泛。

2.3.1 模型描述

多元線性回歸模型一般用公式(1)表示:

其中:Y為因變量;β1,β2,…,βn為回歸系數(shù);X1, X2,…,Xn為自變量;ε為隨機擾動項;n 為變量個數(shù)。

Y是受n個自變量影響,每個自變量的影響程度由回歸系數(shù)β決定,同時Y也受常量隨機擾動項的影響。

2.3.2 評價方法

線性回歸常用的檢驗方法有均方根誤差(RMSE, Root Mean Squared Error),擬合評價參數(shù)R?,回歸方程顯著性檢驗F檢驗[7]。

RMSE的計算方法如公式(2),該參數(shù)能很好地反映真實值與預(yù)測值之間的偏離程度。

其中,x為自變量,y表示因變量,n為自變量個數(shù)。

RMSE的取值范圍在[0,∞],值越小則預(yù)測效果越好。

擬合是指回歸直線對觀測值的擬合程度,擬合評價參數(shù) R?的取值范圍為[0,1],取值越接近1,說明回歸直線對觀測值的擬合程度越好;反之,R?的值越小,說明回歸直線對觀測值的擬合程度越差。

3 基于多元線性回歸的票房預(yù)測

該文從貓眼電影和豆瓣電影兩個網(wǎng)站上一共抓取了1642部電影的相關(guān)數(shù)據(jù),包括:電影票房、影片類型、導(dǎo)演、演員、上映日期、上映年份和電影評分。

在所采集的電影數(shù)據(jù)中,包括數(shù)值型和非數(shù)值型兩大類數(shù)據(jù)。其中影片類型、導(dǎo)演、演員和上映日期均為非數(shù)值型數(shù)據(jù);電影票房、電影評分、上映年份為數(shù)值型數(shù)據(jù)。由于非數(shù)值型數(shù)據(jù)無法用于線性回歸算法,所以需要對非數(shù)值型數(shù)據(jù)進行轉(zhuǎn)化。

3.1 非數(shù)值型數(shù)據(jù)的轉(zhuǎn)換

其公式(5)中TWi表示類型i的票房影響力,n代表該電影所屬的類型有n種。

其余非數(shù)值型數(shù)據(jù)可以由此類推,得到數(shù)值化后的結(jié)果。

3.2 應(yīng)用線性回歸算法進行票房預(yù)測

經(jīng)過初步預(yù)測,該文將電影票房定義為因變量Y。篩選以下變量為自變量:電影評分定義為X1,導(dǎo)演影響力為X2,主演影響力為X3,電影類型影響力為X4,上映日期影響力定義為X5,上映年份為X6。可以得到該多元線性回歸的模型為:

Spark中的ML庫提供了對各種機器學(xué)習(xí)算法的支持,spark.ml.regression.LinearRegression包支持的是線性回歸算法。進過多次實驗的比對,對算法中的各參數(shù)的設(shè)置如下:

最大迭代次數(shù) MaxIter = 50

正則化參數(shù) Regparam = 0.3

混合參數(shù) ElasticNetParam = 0.8

最后得到多元線性回歸預(yù)測模型中的回歸系數(shù)取值如表1:

4 預(yù)測結(jié)果驗證

該文采用了兩種方式對預(yù)測效果進行了驗證:一種是計算擬合評價參數(shù)R2,另一種是將預(yù)測結(jié)果與實際的票房進行比對。

通過計算,得到擬合評價參數(shù)R2的結(jié)果為0.843,說明預(yù)測效果良好。

另外,該文選取了25部2011-2017年的電影作為測試集,將測試數(shù)據(jù)導(dǎo)入預(yù)測模型中得到預(yù)測票房值,再與真實的票房進行對比,比對結(jié)果如圖3所示。

圖3中,當電影票房位于1億到5億之間時預(yù)測效果最佳。因為此區(qū)間的電影數(shù)據(jù)比較豐富,預(yù)測票房有著較小的誤差。而當電影真實票房很高的時候,訓(xùn)練數(shù)據(jù)不夠豐富,預(yù)測票房的誤差就不太穩(wěn)定。

總體來看,由線性回歸算法構(gòu)建的預(yù)測模型已經(jīng)能夠提供很多具有參考性的信息。

5 結(jié)束語

該文從豆瓣電影和貓眼電影上爬取的電影信息,將非數(shù)值型數(shù)據(jù)轉(zhuǎn)化為數(shù)值型數(shù)據(jù)之后,利用Spark的機器學(xué)習(xí)庫進行多元線性回歸算法訓(xùn)練,構(gòu)建出了電影票房的預(yù)測模型。從評價結(jié)果看,構(gòu)建好的預(yù)測模型有著比較好的預(yù)測結(jié)果。

但是該預(yù)測模型還存在著有待改進的地方,比如說該文采用的非數(shù)值型數(shù)據(jù)轉(zhuǎn)化為數(shù)值型數(shù)據(jù)的方法,轉(zhuǎn)化后的導(dǎo)演、演員的影響力數(shù)值差異變得很大,會削弱其他變量對票房的影響。此外,目前所爬取的數(shù)據(jù)還不夠豐富、數(shù)據(jù)更新不夠及時,這些影響了模型的準確性。

有文獻[8]提到多元線性回歸預(yù)測模型的優(yōu)勢在于能清楚地解釋影響因素對票房的影響程度,但在預(yù)測精度上不如神經(jīng)網(wǎng)絡(luò)。

在下一步的工作中,將著手解決目前存在的問題,并嘗試采用神經(jīng)網(wǎng)絡(luò)的方法構(gòu)建模型,與現(xiàn)有的模型進行比對,進一步提高預(yù)測的準確度。

參考文獻:

[1] 李龍生, 李曉怡. 由近期國產(chǎn)電影的高票房現(xiàn)象淺析中國電影產(chǎn)業(yè)的發(fā)展[J]. 藝術(shù)與設(shè)計: 理論, 2018, 2(9): 119-121.

[2] Reggie Panaligan, Andrea Chen. Quantifying Movie Magic with Google Search[EB/OL]. http://www.webmasterworld.com/google_adwords/4581847.htm.

[3] 何曉雪, 畢圓夢, 姜繩. 基于網(wǎng)絡(luò)數(shù)據(jù)預(yù)測電影票房的多元線性回歸方程構(gòu)建[J]. 新媒體研究, 2018, 4(5): 41-48.

[4] 刁文鑫. 當代中國“現(xiàn)象電影”的傳播特征及影響研究[D]. 合肥: 安徽大學(xué), 2018.

[5] 馬天男, 牛東曉, 黃雅莉, 等. 基于Spark平臺和多變量L_2-Boosting回歸模型的分布式能源系統(tǒng)短期負荷預(yù)測[J]. 電網(wǎng)技術(shù), 2016, 40(6): 1642-1649.

[6] 殷樂, 姚遠, 劉辰. 基于Spark的用戶行為分析系統(tǒng)框架研究[J]. 網(wǎng)絡(luò)安全技術(shù)與應(yīng)用, 2018(2): 56-57.

[7] 彭輝, 趙亞軍, 胡章浩. 應(yīng)用多元線性回歸模型的鐵路客運量預(yù)測[J]. 重慶理工大學(xué)學(xué)報: 自然科學(xué), 2018, 32(9): 190-193.

[8] 張雪. 基于深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)的電影票房預(yù)測[D]. 北京: 首都經(jīng)濟貿(mào)易大學(xué), 2017.

猜你喜歡
評價
SBR改性瀝青的穩(wěn)定性評價
石油瀝青(2021年4期)2021-10-14 08:50:44
中藥治療室性早搏系統(tǒng)評價再評價
自制C肽質(zhì)控品及其性能評價
寫作交流與評價:詞的欣賞
基于Moodle的學(xué)習(xí)評價
關(guān)于項目后評價中“專項”后評價的探討
HBV-DNA提取液I的配制和應(yīng)用評價
有效評價讓每朵花兒都綻放
模糊數(shù)學(xué)評價法在水質(zhì)評價中的應(yīng)用
治淮(2013年1期)2013-03-11 20:05:18
保加利亞轉(zhuǎn)軌20年評價
主站蜘蛛池模板: 国产一区二区影院| 精品自窥自偷在线看| 香蕉99国内自产自拍视频| 538国产视频| 日韩视频精品在线| 国产精品极品美女自在线| 99视频精品全国免费品| 亚洲经典在线中文字幕| 91久久国产热精品免费| 国产精品免费福利久久播放 | 色综合中文| 99re视频在线| 国产精品流白浆在线观看| 日本草草视频在线观看| 日韩黄色大片免费看| 91麻豆精品国产91久久久久| 色综合五月| 久草视频中文| 亚洲第一区在线| 国产乱子伦无码精品小说| 国产成人精品日本亚洲| 激情国产精品一区| 免费又爽又刺激高潮网址| 国产日韩久久久久无码精品| 国产午夜精品鲁丝片| a级毛片免费看| 日韩国产亚洲一区二区在线观看| 久久77777| 69av免费视频| 国产福利拍拍拍| 亚洲无码高清一区二区| 久久夜夜视频| a亚洲天堂| 狠狠做深爱婷婷久久一区| 日本精品影院| 久久精品亚洲热综合一区二区| 手机永久AV在线播放| 久久综合九九亚洲一区| 日韩精品毛片人妻AV不卡| 青青青草国产| 97影院午夜在线观看视频| 自拍偷拍一区| 中国国产A一级毛片| 欧美三級片黃色三級片黃色1| 久久天天躁狠狠躁夜夜躁| 色亚洲成人| 大香网伊人久久综合网2020| 69免费在线视频| 日本人妻丰满熟妇区| 色视频国产| 在线日韩一区二区| 青青草原国产免费av观看| 九九线精品视频在线观看| swag国产精品| 真人高潮娇喘嗯啊在线观看| 久久人人妻人人爽人人卡片av| 在线看片中文字幕| 欧美伦理一区| 99久久免费精品特色大片| 亚洲第一天堂无码专区| 国产欧美日韩在线在线不卡视频| 日本免费福利视频| 国产原创演绎剧情有字幕的| 人妻无码一区二区视频| 日韩人妻少妇一区二区| 99久久精品视香蕉蕉| 国产成熟女人性满足视频| 欧美不卡视频一区发布| 亚洲黄色网站视频| 不卡无码h在线观看| 国产一区在线观看无码| 久久青草视频| 强乱中文字幕在线播放不卡| 91丝袜美腿高跟国产极品老师| 亚洲综合天堂网| 免费在线播放毛片| 成年A级毛片| 亚洲伦理一区二区| 欧美午夜一区| 亚洲床戏一区| 亚洲日韩国产精品综合在线观看| 114级毛片免费观看|