999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于隨機(jī)森林回歸模型的國產(chǎn)電影票房預(yù)測(cè)

2020-04-02 02:48:34李旺澤
關(guān)鍵詞:因素影響模型

李旺澤,鄭 列

(湖北工業(yè)大學(xué)理學(xué)院,湖北 武漢 430068)

電影是文化產(chǎn)業(yè)當(dāng)中最具產(chǎn)值的消費(fèi)藝術(shù)之一。在中國,電影票房從2010年的101.72億元猛增至2017年的559.11億元,2018年11月25日,當(dāng)年國產(chǎn)電影總票房達(dá)到了559.12億元,已超過前一年全年票房。伴隨政府相關(guān)扶持政策不斷出臺(tái),騰訊、阿里在內(nèi)的眾多互聯(lián)網(wǎng)巨頭投資電影產(chǎn)業(yè)。但中國電影市場(chǎng)的實(shí)際情況卻是,國產(chǎn)電影從2017年開始80%都處于虧損狀態(tài),因此有必要建立一個(gè)合理的模型來研究影響中國票房收入的因素,在電影發(fā)行前預(yù)測(cè)該電影的票房收入。

1 國內(nèi)外研究現(xiàn)狀

20世紀(jì)80年代,國內(nèi)外的學(xué)者開始了對(duì)電影票房預(yù)測(cè)模型的研究。Barry Litman(1983)[1]作為電影票房預(yù)測(cè)的鼻祖,認(rèn)為電影票房受發(fā)行、創(chuàng)意及營銷三角度的影響,故選取了導(dǎo)演、出品地、類型、檔期、提名等10個(gè)因素,對(duì)700多部電影運(yùn)用多元線性回歸的方法進(jìn)行電影票房預(yù)測(cè)研究。Scott Sochay(1994)[2]改進(jìn)了 Barry Litman 提出的模型,增加了放映周數(shù)的預(yù)測(cè),并且將變量進(jìn)一步細(xì)分,從原本的 14 個(gè)影響因子增加到 22 個(gè)。可惜的是以上兩種預(yù)測(cè)方法的準(zhǔn)確率分別為 25%和 38%。Ramesh Sharda 和 Dursun Delen(2007)[3]首次提出用BP神經(jīng)網(wǎng)絡(luò)模型來預(yù)測(cè)電影票房,且預(yù)測(cè)準(zhǔn)確率達(dá)到了65%。Google(2013)[4]開發(fā)了其自有的票房預(yù)測(cè)系統(tǒng),選取電影上映前一周的搜索量和廣告點(diǎn)擊量等為影響因素建立了線性回歸模型,認(rèn)為這些影響因素與電影票房之間的關(guān)系是簡(jiǎn)單的線性關(guān)系,其得到的預(yù)測(cè)準(zhǔn)確率高達(dá)94%,但是其模型與數(shù)據(jù)沒有對(duì)外公開。

我國對(duì)電影票房預(yù)測(cè)的研究在2012年開始。鄭堅(jiān)(2012)[5]等人利用反饋神經(jīng)網(wǎng)絡(luò)技術(shù)開創(chuàng)了中國國內(nèi)電影票房量化研究的先河,將國內(nèi)電影票房預(yù)測(cè)帶上了理論和方法技術(shù)的新層次,其模型的預(yù)測(cè)準(zhǔn)確率為80%。楊威(2014)[6]從搜集到的微博數(shù)據(jù)數(shù)量特征、情感特征和宣傳特征三個(gè)角度,建立了多元線性回歸、SVM和BP 神經(jīng)網(wǎng)絡(luò)模型。史偉(2015)[7]以網(wǎng)絡(luò)評(píng)價(jià)為視角,用微博中的情感信息來預(yù)測(cè)電影票房收入。羅捷(2015)[8]添加了外國影片對(duì)票房有所影響這個(gè)指標(biāo),利用回歸模型建立票房預(yù)測(cè)模型。聶鴻迪(2015)[9]選取了22個(gè)變量,建立了多元回歸模型解釋了各個(gè)影響因素對(duì)電影票房的影響,然后通過建立BP 神經(jīng)網(wǎng)絡(luò)模型來預(yù)測(cè)票房。王偉(2015)[10]對(duì)神經(jīng)網(wǎng)絡(luò)模型進(jìn)行了改進(jìn),加入了記憶層增加對(duì)異常值進(jìn)行處理。王躍華(2016)[11]從制片、宣傳和發(fā)行的角度出發(fā),建立了由質(zhì)量、宣傳、檔期、排片等因素組成的票房影響因素鉆石模型。2017 年滑瑤等[12]著重研究了電影票房的季節(jié)性影響因素,建立Holt-Winter 無季節(jié)指數(shù)平滑模型,對(duì)國內(nèi)電影票房進(jìn)行預(yù)測(cè);2017 年張雪[13]采用了深度學(xué)習(xí)方法卷積神經(jīng)網(wǎng)絡(luò)來預(yù)測(cè)電影票房。上述國內(nèi)學(xué)者電影票房預(yù)測(cè)模型精度基本都在80%左右。

2 數(shù)據(jù)來源及說明

筆者從貓眼網(wǎng)、藝恩網(wǎng)、時(shí)光網(wǎng)、微博以及電影票房網(wǎng)選取了電影的6個(gè)類型、年份、首日票房、觀眾評(píng)分人數(shù)、觀眾想看人數(shù)等22個(gè)相關(guān)因素為自變量。選擇了2011年到2018年11月票房過億的292部電影為研究對(duì)象,選擇其中的262部電影為訓(xùn)練集,30部電影為測(cè)試集。

爬取的部分原始數(shù)據(jù)見圖1。因?yàn)樵紨?shù)據(jù)中有很多定性變量,故將對(duì)其進(jìn)行一定的啞變量處理,具體說明見表1。

圖1 原始數(shù)據(jù)

3 模型的構(gòu)建

隨機(jī)森林由許多決策樹組成,其中每棵樹的值取決于隨機(jī)向量的獨(dú)立采樣。當(dāng)新樣本輸入到隨機(jī)森林模型中時(shí),每個(gè)決策樹模型都對(duì)這個(gè)樣本進(jìn)行分類,哪一類選擇得多,就預(yù)測(cè)該樣本為哪一類。隨機(jī)森林最后模型的輸出結(jié)果由森林中的每一顆決策樹共同決定,當(dāng)分類樹變成回歸樹時(shí),隨機(jī)森林就可以進(jìn)行回歸預(yù)測(cè)分析,分類最終結(jié)果是每顆決策樹的均值。具體構(gòu)建過程如圖2所示。

通過R軟件的randomForest包來構(gòu)建隨機(jī)森林,分枝變量選擇數(shù)mtry和樹分類器個(gè)數(shù)ntree的取值將直接影響最后的預(yù)測(cè)結(jié)果和精度。圖3和圖4是這2個(gè)參數(shù)不同取值的誤差。

圖3 分枝變量選擇數(shù)的確定

圖4 樹分類器個(gè)數(shù)的確定

最終得到了隨機(jī)森林回歸模型見表2。

表2 隨機(jī)森林回歸模型

建立樹分類器ntree個(gè)數(shù)為55,分枝變量選擇數(shù)mtry為11的回歸類型隨機(jī)森林,平均殘差平方為7.909841,其方差解釋能力為80.81%。說明模型擬合較好。

4 結(jié)果與分析

精度平均減少值和節(jié)點(diǎn)不純度的平均減少值是度量變量重要性的指標(biāo),其值越高表示該變量對(duì)結(jié)果越重要,影響越大。由圖5知,觀眾評(píng)分人數(shù)、首日票房、首周票房、觀眾想看人數(shù)、明星影響力、導(dǎo)演影響力、編劇影響力、制式、電影評(píng)分等因素相對(duì)電影類型和出品公司和發(fā)行公司等因素更為重要。

圖5 指標(biāo)重要度

采用 Mean Absolute Percentage Error(MAPE)對(duì)建立的隨機(jī)森林電影票房預(yù)測(cè)模型進(jìn)行評(píng)估:

其中n是樣本量,通過建立的隨機(jī)森林模型訓(xùn)練得到的結(jié)果值為Xi,實(shí)際的電影票房為Yi。MAPE值越大,說明建立的隨機(jī)森林電影預(yù)測(cè)模型得到的值與實(shí)際電影票房差距越大,即說明模型的預(yù)測(cè)效果越差。本文建立的隨機(jī)森林回歸電影票房預(yù)測(cè)模型的MAPE值為0.1525845,即平均預(yù)測(cè)精度達(dá)到了85%左右。

表3 模型預(yù)測(cè)結(jié)果

圖6 電影票房預(yù)測(cè)結(jié)果

5 結(jié)論

本文從國產(chǎn)電影票房市場(chǎng)出發(fā),把電影實(shí)際票房作為被解釋變量,觀眾評(píng)分人數(shù)、首日票房、首周票房、觀眾想看人數(shù)、明星影響力、導(dǎo)演影響力、編劇影響力、制式、電影評(píng)分等22個(gè)因子作為解釋變量,基于隨機(jī)森林回歸模型的方法建立了國產(chǎn)電影票房模型,在預(yù)測(cè)精度上有一定改善。本文研究結(jié)果表明,前期影片的宣傳力度和頻率,主創(chuàng)演員、導(dǎo)演和編輯的知名度,電影本身的ip效應(yīng)和影片類型的商業(yè)價(jià)值,以及合理的特效技術(shù)和檔期安排等都是影響電影取得高票房必不可少的因素。

猜你喜歡
因素影響模型
一半模型
腹部脹氣的飲食因素
中老年保健(2022年5期)2022-08-24 02:36:04
是什么影響了滑動(dòng)摩擦力的大小
群眾路線是百年大黨成功之內(nèi)核性制度因素的外在表達(dá)
哪些顧慮影響擔(dān)當(dāng)?
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
3D打印中的模型分割與打包
擴(kuò)鏈劑聯(lián)用對(duì)PETG擴(kuò)鏈反應(yīng)與流變性能的影響
中國塑料(2016年3期)2016-06-15 20:30:00
短道速滑運(yùn)動(dòng)員非智力因素的培養(yǎng)
主站蜘蛛池模板: 国产高清在线观看| 毛片在线区| 免费国产小视频在线观看| 日韩欧美高清视频| 免费va国产在线观看| 国内精品久久九九国产精品| 亚洲人成网址| www.亚洲一区| 性激烈欧美三级在线播放| 99久久国产综合精品女同| 国产一二三区视频| 亚洲成a人片7777| 偷拍久久网| 丝袜亚洲综合| 午夜视频日本| 伊人成人在线视频| 区国产精品搜索视频| 人妻精品全国免费视频| 久久国产亚洲欧美日韩精品| 国产在线观看第二页| 日本尹人综合香蕉在线观看 | 精品人妻无码中字系列| 色婷婷在线影院| 免费人成视频在线观看网站| 午夜无码一区二区三区| 亚洲美女AV免费一区| 在线免费观看AV| 秋霞国产在线| 日本成人福利视频| 国产在线观看人成激情视频| 久久久久国色AV免费观看性色| 成人在线观看不卡| 亚洲水蜜桃久久综合网站| 日韩精品免费在线视频| 欧美专区日韩专区| 激情爆乳一区二区| 久久99国产综合精品1| 97色伦色在线综合视频| 四虎精品国产AV二区| 亚洲精品中文字幕午夜| 青青青伊人色综合久久| 91人妻日韩人妻无码专区精品| 视频一本大道香蕉久在线播放| 日本人妻一区二区三区不卡影院 | 青青热久免费精品视频6| 国产在线啪| 67194在线午夜亚洲| 国产97区一区二区三区无码| 国产成人喷潮在线观看| 国产成人a在线观看视频| 亚洲精品无码日韩国产不卡| av在线手机播放| 视频二区亚洲精品| 99精品视频九九精品| 欧美a√在线| 亚洲人成色在线观看| 无码高清专区| 91啪在线| 日韩欧美国产精品| 免费人成在线观看成人片| 日日拍夜夜操| 精品夜恋影院亚洲欧洲| 国产婬乱a一级毛片多女| 日本一区中文字幕最新在线| 亚洲视频免费播放| 亚洲欧美成aⅴ人在线观看| 漂亮人妻被中出中文字幕久久| 国产免费a级片| 亚洲男人的天堂网| 91在线日韩在线播放| 国产女人综合久久精品视| 无码专区在线观看| 极品国产一区二区三区| 国产99视频精品免费视频7 | 第一区免费在线观看| 亚洲美女一级毛片| 亚洲人成网站在线观看播放不卡| 91精品啪在线观看国产91九色| 免费Aⅴ片在线观看蜜芽Tⅴ | 欧美一级黄片一区2区| 久久香蕉国产线看观看式| 69国产精品视频免费|