999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習的電影票房預測系統設計與實現

2018-08-19 09:26:48吳晶晶
科學與財富 2018年23期

吳晶晶

摘要:早在1989年Barry Litman建立了第一個電影預測模型,隨著電影市場和互聯網的迅速發展,運用大數據理念,電影票房預測系統應運而生。它是考察影響電影票房的諸多因素基礎上,采用回歸統計分析方法研發出的預測系統。電影定檔后正式海報會在線上/線下宣傳,觀眾會通過海報圖像上提供的信息來決定是否買票觀看電影。預測系統收集最近10年的電影數據,根據提交海報生成的特征,并分類到相似海報的已上映影片,根據相似海報的電影票房數據進行多元回歸分析來預測該電影的票房收入。

關鍵詞:回歸統計分析;票房預測;多元回歸;電影預測模型

1概述

本課題研究內容主要基于機器學習技術設計并實現電影票房預測系統。主要貢獻包括三部分:1,基于機器學習的電影票房預測系統的體系結構和實現;2,基于深度學習的電影特征抽取方法;3,基于回歸分析的電影票房預測方法,預測未上映的電影中國票房收入。

2電影票房預測系統結構

電影票房預測系統如圖1所示,該系統分為三個模塊:1,電影海報與票房數據處理模塊。2,基于深度學習的海報圖像特征抽取模塊。3,基于線性回歸的電影票房預測模塊。

2.1電影海報與票房數據處理

數據源來自CBO中國票房網、時光網、imdb等電影相關的在線服務網站。用Python語言設計并實現一個數據收集與處理程序,該程序從互聯網電影信息網站爬取電影信息(電影名稱、海報圖像、上映時間、總票房、評分),并保存到關系型數據庫(MySQL5.7)中。

2.2基于深度學習的海報圖像特征抽取方法

用VGG16來訓練神經網絡,選擇某一層次作為特征向量,即可描述數據集中的電影概貌。在系統設計中,選擇使用基于Keras的深度學習框架提升訓練神經網絡的效率。利用訓練結果得到的特征向量計算余弦相似性,得到相似海報,最后找到同類電影。

2.3基于線性回歸的電影票房預測方法

深度神經網絡自動提取的電影海報特征不一定是人類可直觀理解的特征。根據海報提取的特征,對此分類。

回歸分析是機器學習一種預測性的建模技術,它研究的是因變量(目標)和自變量(預測器)之間的關系。這種技術通常用于發現兩個或多個變量之間的因果關系:1,表明自變量(年份/評分等)和因變量(票房收入)之間的顯著關系;2,表明多個自變量對一個因變量的影響強度。

1,根據電影A的海報提取的電影特征進行聚類,計算同類電影的票房均值。 ,其中,A是電影A的票房均值,p是第k部電影與電影a的相似度,v是第k部電影的票房)。

2,獲取到該類電影票房均值(Y),年份(X)的樣本數據。

3,利用回歸分析找到一條擬合線,從而預測下一年的電影票房均指作為此電影的票房預測。

線性回歸是機器學習最重要的算法之一,通過擬合最佳直線來建立自變量和因變量的關系。回歸線用Y=m*X+b來表示,這條直線能以最小的誤差(Loss)來擬合數據。

找最佳擬合直線時,如果因變量y與自變量x的關系為非線性的,但是又找不到適當的函數曲線來擬合,則可以采用一元多項式回歸。

二元則采用梯度下降法求解方程組。在多維特征中,要保證特征具有相近的尺度,這將幫助梯度下降算法更快地收斂。解決的方法是嘗試將所有特征的尺度都盡量縮放到-1到1之間,最簡單的方法就是(X-mu) /sigma,其中mu是平均值,sigma是標準差。損失函數和單變量一樣,依然計算損失平方和均值。和單變量線性回歸問題中一樣,是要找出使得代價函數最小的一系列參數。

3實驗

類1海報電影票房預測:

1,把年月份換算成小數表示Y=year+mouth/13如2017年4月用數字2017.31表示。載入matplotlib庫后,用pandas讀取數據存儲的.csv,寫一個函數把數據轉換為X值(年月份)、Y值(票房總收入/萬元)。

2,線性回歸分析,其中predict_year為要預測的年份,函數返回對應的票房收入。構造回歸圖像,獲取預測值,構造返回字典:定義截距值、回歸系數、預測值。

3,構造回歸對象,繪出已知數據散點圖和預測直線,獲取預測值2018,輸出結果為112052.45751675萬元。

預測類1海報的電影2018年上映票房收入為12052.5萬元。實際電影復仇者聯盟3:無限戰爭2018年累計票房為236490.5萬元。從直線上看該類電影票房呈逐年上升趨勢。

4,多項式線性回歸是是一種特殊的線性回歸,直觀地解釋是根據樣本點去擬合一條多項式曲線。

degree是多項式中自變量x的階數。雖然其圖形經過了大部分的點,但會存在擬合過度(over-fitting)的情況,并沒有從輸入和輸出中推導出一般的規律,而是記憶訓練集的結果,并沒有實際的參考價值。

5,定義年月份為x1、評分為x2,向量x=(x1,x2),y為票房收入,進行二元回歸分析。例如:x=[2017.54,7.2],y=[567886.1]。

6,對數據特征的尺度都盡量縮放到-1和1之間,輸出x,均值,標準差:

計算損失平方和均值,轉化為向量化計算

對theta求導,套入迭代公式,并存儲歷史誤差

預處理設置迭代次數和學習率

7,預測年份為2018,分數為8.1,x=[2018,8.1],使用模型預測結果,計算y。輸出結果為13067.68萬元。從預測結果上看二元回歸分析比一元線性回歸更接近實際票房數值。

4總結與展望

電影票房預測系統在實際中具有實際意義,它能分析預測不同種類電影的票房價值,成為電影產業投融資重要參考工具,對電影產品定價及衍生產品開發都具有較強的指導作用。在實驗中遇到許多問題,如:時光網電影海報有多張:預告海報、角色海報、國外海報等,每類海報差異巨大,會影響下一步的海報特征抽取,本課題以網站標簽為中國正式海報為準進行抓取。VGG16抽取特征后可能會出現聚類不明顯的情況,還需對數據進行降噪、過濾處理,增加神經網絡訓練次數。電影市場潛力巨大,隨著模型的不斷完善,也會應用到其他領域。

參考文獻:

[1]袁璐,沈浩.基于深度學習的電影海報推薦系統[J].現代電影技術,No.05/2018

[2]鄭堅,周尚波.基于神經網絡的電影票房預測建模[J].計算機應用,2014,34(3):742-748.

[3]胡曉紅、王紅.基于多元線性回歸的電影票房預測研究[J].信息技術與信息化,1672-9528.2018.h2.048

主站蜘蛛池模板: 丁香五月激情图片| 国产视频入口| 欧美成人在线免费| 国产区在线观看视频| 亚洲人成网线在线播放va| 精品国产一区二区三区在线观看| 久久一本日韩精品中文字幕屁孩| 国产一级小视频| 国产v精品成人免费视频71pao | 色吊丝av中文字幕| 国模私拍一区二区| www成人国产在线观看网站| 在线免费观看AV| 91精品国产情侣高潮露脸| 国产农村1级毛片| 亚洲美女一区| 欧美精品二区| 激情成人综合网| 色偷偷男人的天堂亚洲av| 亚洲黄网视频| 欧美翘臀一区二区三区| 女人18毛片水真多国产| 久久人人97超碰人人澡爱香蕉| 精品99在线观看| 九色综合伊人久久富二代| 日韩AV无码免费一二三区| 99久久精品久久久久久婷婷| 国产毛片久久国产| 特级做a爰片毛片免费69| 亚洲一级毛片在线播放| 欧美啪啪视频免码| 成人综合在线观看| 乱人伦视频中文字幕在线| 成人亚洲天堂| 91免费国产高清观看| 国产精品真实对白精彩久久| 国产精品亚洲天堂| 熟妇丰满人妻| 久久成人免费| 激情网址在线观看| 亚洲伦理一区二区| 亚洲一区二区三区麻豆| 中国精品久久| 国产丝袜第一页| 国产视频自拍一区| 精品久久久久久中文字幕女| 色网站在线免费观看| 呦女精品网站| 无码日韩人妻精品久久蜜桃| 国产18在线| 美女潮喷出白浆在线观看视频| 午夜日b视频| 国产乱人伦AV在线A| 97狠狠操| 一级毛片免费播放视频| 亚洲欧美日韩精品专区| 网友自拍视频精品区| 久久黄色一级视频| av在线手机播放| 亚洲三级成人| 在线观看精品国产入口| 国产激爽大片高清在线观看| 99久久性生片| 国产激爽大片高清在线观看| 国产成人无码播放| 亚洲成网777777国产精品| 韩日无码在线不卡| 国产麻豆永久视频| 欧美精品啪啪| h视频在线播放| 丰满人妻久久中文字幕| 国产一级在线观看www色| 久久精品亚洲热综合一区二区| 成人在线亚洲| 日本高清视频在线www色| 伊人精品视频免费在线| 欧美午夜一区| 国产成人亚洲综合A∨在线播放| 亚洲欧洲一区二区三区| 国产精品视屏| 日本一区二区不卡视频| 中文字幕亚洲精品2页|