999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

用隨機森林回歸算法預測電影評分

2021-11-24 05:08:43王紫薇
科學與生活 2021年18期
關鍵詞:機器學習數據挖掘

摘要:本文從中國電影市場實際出發,選擇導演、題材、主演、編劇、區域為影片評分的影響特征,對其做特征工程處理,提出了基于隨機森林算法的電影評分預測模型。

關鍵詞:隨機森林;電影評分;數據挖掘;機器學習

隨著數據挖掘技術的成熟,目前可以運用數據挖掘技術從大量的數據中挖掘到事物間的聯系并預測其發展方向。電影評分預測模型可以在電影上映前預測其評分,觀眾就可以根據預測評分有選擇地觀影,電影院也可以選擇性制定排片計劃,電影周邊產業也有了參考。

一、隨機森林算法

隨機森林回歸模型就是綜合幾個創建好的決策樹模型,其預測結果由所有決策樹模型的預測結果平均得到。算法基本步驟如下:

(一)抽樣:在訓練數據集S中進行有放回抽樣,得到K組數據集,每組數據集分為兩種,抽中和未抽中的,每組數據集通過訓練生成決策樹。

(二)生長:利用訓練數據訓練每棵決策樹。

(三)利用未被抽中的數據檢驗模型準確度。

(四)用最終模型預測新數據集,全部決策樹的預測結果取平均值就是最終預測結果。

二、基于隨機森林算法的電影評分預測模型

根據中國大陸電影市場現實情況,實驗選導演、編劇、主演、類型、國家地區作為特征。

(一)導演水平特征

把影片評分和評價人數當作一個特征組合來表示導演水平特征,如公式(2-1)所示:

Director= ,n=min(5,n) ? ? ? ? ? ? ? ? ? ? ? (2-1)

n表示導演執導該部電影之前最近執導的n部電影,n≦5;Rk表示導演拍攝的第k部電影的評分;Pk表示評分人數。

(二)編劇水平特征

本實驗取編劇所創作的距離這部電影最近的n部電影,n≦5,如公式(2-2)所示:

Writer= ,n=min(5,n) ? ? ? ? ? ? ? ? ? ? ? ? (2-2)

Rk表示編劇創作的第k部電影的評分;Pk表示編劇創作的第k部電影的評分人數。

(三)演員水平特征:

本實驗選演員主演的距離該電影上映時間最近的n部同種題材電影,n≦5,主演水平特征如公式(2-3)所示:

Actor= ?,n=min(5,n),m=主要參演人員 ? ?(2-3)

Rik表示第i位主演拍攝第k部電影的評分;Pik表示評分人數;Wi表示主演在該電影所占權重。主演為2人時,權重為:0.6,0.4;主演為3人時,權重為:0.5,0.3,0.2;主演為4人及以上時,權重為0.4,0.3,0.2,0.1。

(四)題材類型

本實驗選取上一年該類型的所有電影,計算其平均得分作為此題材電影的綜合評分,見公式(2-4)與(2-5):

Type= Ri*Wi,n=min(5,n) ? ? ? ? ? ? ? ? ? ? ? ? ? ?(2-4)

Ri= ,n=選取范圍內類型為i的電影數量 ? ? ? ?(2-5)

Rik表示第k部i類型電影評分;Pik表示評分人數;Ri表示綜合評分;Wi表示權重。

(五)區域特征

本實驗參考上一年此區域電影平均得分,計算得到此電影的參考評分,見公式(2-6):

Country= ,n=選取范圍內同國家地區的電影數量 ?(2-6)

Rk表示第k部電影的評分;Pk表示第k部電影的評分人數。

三、實驗和結果分析

(一)實驗過程

隨機森林算法回歸建模:

本實驗采用spark mllib中的random forest包來實現隨機森林算法。我們把處理好的特征和影片評分轉換成Labeledpoint,Labeledpoint表示帶標簽的數據點,構造的Labeledpoint如公式(3-1)

(Rate,{Director,Wrter,Cast,Type,Country}) ? ? ? ? ? ?(3-1)

利用mllibtree.RandomForest的trainRegressor()方法構建隨機森林回歸模型。該方法返回一個weightedEnsembleModel對象,本實驗使用它的predict()方法預測測試集。然后,把測試數據輸入到建立好的隨機森林模型中進行預測。

(二)實驗結果

基于隨機森林回歸模型使用數據集中5部電影,本實驗分別對這些電影的評分進行預測。將這5部電影的相關數據輸入模型,計算所有的電影得分。結果如表1。

從表2可以發現,基于隨機森林算法的電影預測模型的預測結果和電影的真實評分總體上區別不大。

四、總結和展望

本文從中國電影市場實際出發,選擇導演、題材、主演、編劇、區域為影片評分的影響特征,對其做特征工程處理,提出了基于隨機森林算法的電影評分預測模型。該模型能夠為大眾推薦電影提供有價值的參考,具有實際的意義。

參考文獻

[1]耿娟,郭明欣.豆瓣Top250電影數據挖掘及評分預測[J].河北企業, 2021(02):11-13.

[2]陸君之.基于隨機森林回歸算法的電影評分預測模型[J].江蘇通信, 2018,34(01):75-78.

[3]劉明昌.豆瓣網站電影在線評分的混合預測模型研究[D].河北大學, 2017.

[4]呂紅燕,馮倩.隨機森林算法研究綜述[J].河北省科學院學報,2019,36 (03):37-41.

作者簡介

王紫薇(1997—),女,漢族,遼寧沈陽人,學生,碩士,天津工業大學經濟與管理學院,研究方向:數據挖掘與建模。

猜你喜歡
機器學習數據挖掘
探討人工智能與數據挖掘發展趨勢
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
基于詞典與機器學習的中文微博情感分析
數據挖掘技術在中醫診療數據分析中的應用
基于網絡搜索數據的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
基于支持向量機的金融數據分析研究
機器學習理論在高中自主學習中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
主站蜘蛛池模板: 人妻丰满熟妇av五码区| 重口调教一区二区视频| 中文精品久久久久国产网址| 四虎在线观看视频高清无码 | 青青草原国产av福利网站| 免费国产小视频在线观看| 一级爱做片免费观看久久| 国产交换配偶在线视频| 一区二区理伦视频| 国产一级毛片yw| 亚洲精品动漫| 久久无码免费束人妻| 九九久久99精品| 偷拍久久网| 国产精品毛片在线直播完整版| 人妻一本久道久久综合久久鬼色| 国产人在线成免费视频| 一级福利视频| 人妻精品全国免费视频| 2021亚洲精品不卡a| 色视频国产| 久视频免费精品6| 亚洲色图欧美视频| 久久久久亚洲AV成人网站软件| 伊人久久大香线蕉综合影视| 热热久久狠狠偷偷色男同| 欧美综合区自拍亚洲综合天堂| 免费国产好深啊好涨好硬视频| 亚洲最大福利视频网| 国产高清自拍视频| 免费xxxxx在线观看网站| 国产麻豆aⅴ精品无码| 青青操国产视频| 精品视频福利| 欧美日韩一区二区三区四区在线观看| 激情爆乳一区二区| 中文成人无码国产亚洲| 亚洲男人的天堂久久香蕉| 波多野结衣中文字幕久久| аv天堂最新中文在线| 伊在人亚洲香蕉精品播放| 免费 国产 无码久久久| 男女男精品视频| 青青极品在线| 91久久国产热精品免费| 亚洲男女天堂| 欧美日韩国产精品va| 91无码视频在线观看| 国产精品吹潮在线观看中文| 成人国产一区二区三区| 熟妇人妻无乱码中文字幕真矢织江| 国产精品无码影视久久久久久久| 免费亚洲成人| 久久国产乱子伦视频无卡顿| 91成人在线免费视频| 国产色伊人| 91精品视频网站| 亚洲国产天堂久久综合| 国产亚洲精品精品精品| 国产网站免费看| 久久精品女人天堂aaa| 午夜精品久久久久久久2023| 狠狠ⅴ日韩v欧美v天堂| 亚洲日韩精品伊甸| 亚洲成年人片| 国产内射一区亚洲| 久久综合亚洲鲁鲁九月天 | 免费av一区二区三区在线| 欧美午夜小视频| 国产一区免费在线观看| 国产在线观看91精品| 激情五月婷婷综合网| 久久无码av三级| 69精品在线观看| 一级黄色网站在线免费看| 亚洲福利视频一区二区| 国产熟女一级毛片| 久久semm亚洲国产| 99久久免费精品特色大片| 日本亚洲欧美在线| 波多野吉衣一区二区三区av| 亚洲欧美另类久久久精品播放的|