999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于隨機森林理論的電影評分預測

2021-02-28 07:30:09劉林慧王慧
現代信息科技 2021年16期

劉林慧 王慧

摘? 要:電影評分是電影質量的一個直觀反映,對未上映的電影評分進行預測是非常重要的。文章在電影本身屬性的基礎上,定義所有特征量化方式,同時利用電影相似度新增相似電影評分屬性,結果表明,加入該因子之后,模型的均方誤差降低了35.3%。在此基礎上,使用選擇性隨機森林優化算法對電影評分進行預測,模型的均方誤差為0.102 5,預測較準確。

關鍵詞:相似電影評分;特征量化;隨機森林;電影評分預測

中圖分類號:TP391.4? ? ? ? ? ? ? ? ? ? 文獻標識碼:A文章編號:2096-4706(2021)16-0083-04

Prediction of Film Score Based on Random Forest Theory

LIU Linhui, WANG Hui

(College of Modern Manufacturing Engineering, Heilongjiang University of Technology, Jixi? 158100, China)

Abstract: Film score is an intuitive reflection of film quality. It is very important to predict the score of unreleased films. Based on the attributes of the film itself, this paper defines all feature quantization methods, at the same time, the film similarity is used to add the scoring attribute of similar films. The results show that after adding this factor, the mean square error of the model is reduced by 35.3%. On this basis, the selective random forest optimization algorithm is used to predict the film score, the mean square error of the model is 0.102 5, which is more accurate.

Keywords: similar film score; feature quantification; random forest; prediction of film score

0? 引? 言

隨著信息時代的大踏步發展,人們生活方式的大幅度變革,電影成了人們休閑娛樂的重要方式之一。在電影領域,不管是哪種片型,都包含著一個國家、一個民族、一個社會的交往方式,反映了一個特定時期的人文精神。越來越多的人會在休閑之余選擇去觀看電影,渴望通過電影獲取這個時代的重要信息,渴望通過電影釋放自己的精神壓力。電影是拍給觀眾看的,沒有觀眾的電影是不存在的,因此電影要適應觀眾的需要。

近年來,越來越多的電影在大眾視野中出現,但是電影的質量卻是參差不齊。電影評分是電影質量最直觀的反映,它成為觀眾選擇電影消費的一個重要依據。預測電影評分問題[1,2]對于電影領域未來的發展和地區經濟發展非常重要,因此對即將上映的電影評分進行預測是非常有必要的。

1? 數據處理

本文所使用的實驗數據來自豆瓣網站[3],詳見https://movie.douban.com/。共包含8個屬性,15 000條電影數據。電影本身屬性包括:電影名稱、類型、時長、劇情簡介、導演、編劇、主演、評分,數據形式如表1所示。

1.1? 相似電影評分屬性

本部分新增相似電影評分屬性,根據電影本身特征,導演、編劇、主演、劇情簡介、類型,設置權重,計算電影之間相似度,每部電影尋找與它相似度最高的10部相似電影,取10部電影評分的平均值作為新增屬性值。

1.1.1? 特征到向量的轉化

1.1.1.1? 導演、編劇、演員、類型

從表1可知導演、編劇、演員和類型都是字符型數據,處理方式相同。將每部電影的導演、編劇、演員、類型、劇情簡介轉化為0,1向量,實現字符型數據到向量轉化的算法如算法1所示:

文本特征到向量的轉化

輸入:電影文本特征

輸出:每個電影文本特征對應的二進制向量

過程:

1.將所有電影的文本信息存入新列表中

2.遍歷新列表

3. 遍歷每個電影文本信息

4.? ?如果該電影信息在列表中出現,列表對應位置賦值為1,其他位置賦值為0

1.1.1.2? 劇情簡介

劇情是對電影的簡單描述,觀眾可以通過劇情簡介了解電影的大概內容。尋找相似電影時,劇情屬性是非常重要的。判斷兩個電影是否相似,可以通過電影劇情中的關鍵字來判斷。

電影劇情中的關鍵詞通過關鍵詞提取得到,所謂關鍵詞提取,就是從一段給定的文本中自動抽取出能夠反映文本信息的特征詞。本文使用TextRank關鍵詞提取方法,TextRank算法是可以脫離語料庫的背景,僅對單篇文檔進行分析就可以提取出該文檔的關鍵詞的一種提取方法[4]。

以電影《銀河補習班》為例。使用TextRank算法提取到的關鍵詞如表2所示。

提取關鍵詞之后,將關鍵詞轉化為二進制向量,同樣應用算法1實現。

1.1.2? 電影相似度計算

1.1.2.1? 余弦相似度

余弦相似度是一種相似度的度量標準,用向量之間的夾角來計算相似度。

已知兩個向量α,β,兩向量之間的夾角用θ表示。余弦相似度公式為:

(1)

以類型為例,利用上述公式計算兩電影的類型相似度。假設電影1的類型向量為α,電影2的類型向量為β。

α=(1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0)? ?(2)

β=(1,0,0,1,0,0,0,0,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0)? ?(3)

則兩部電影類型的相似度為:

(4)

1.1.2.2? 特征權重相似度

定義:在余弦相似度的基礎上,乘上相應的特征的權重,得到特征權重相似度。

本論文為屬性設定權重值如表3所示。

(5)

1.1.3? 相似電影評分屬性值計算

得到的基于電影信息的相似電影評分屬性值計算方法如算法2所示:

def binary(attribute_list,newList):# 將所有文本特征轉化為二進制向量

binaryList = []

for attribute in newList:

if attribute in attribute _list:

binaryList.append(1)

else:

binaryList.append(0)

return binaryList

def Similarity(movie_name):#求兩個電影之間的特征權重相似度

A_Similarity List = []

for index, movie in f.iterrows():? ?#f文件為包含二進制向量的數據

a = f.iloc[movie_name]

b = f.iloc[movie[‘name’]

attribute_Distance = similar(a[‘attribute_vec’], b[attribute_vec’])

A_Similarity=0.5*director_Distance+0.5*scriptwriter_Distance+0.5*actor_Distance+ type_Distance+1.5*words_Distance? ?#特征權重相似度公式

A_Similarity List.append(A_Similarity)

returnA_SimilarityList

def Subject(movie_name):

#取特征權重相似度最大的前10位電影,輸出電影的相似電影評分屬性值

A_SimilarityList=Similarity(movie_name)

A_Similarity_ten=A_SimilarityList[0:10]

subject=sum(A_Similarity_ten)/len(A_Similarity_ten)

return subject

1.2? 電影屬性處理

本部分給出第一導演、第一編劇、第一、二主演、時長、類型等屬性的定義量化特征的方式:

(1)第一導演:

(6)

其中Ri表示該部電影的第一導演導過的第i部電影的評分,n表示該導演導過的全部電影的數目。

(2)第一編劇:

(7)

其中Rj表示該部電影的第一編劇編寫過的第j部電影的評分,n表示該編劇參與過的全部電影的數目。

(3)第一、二主演:

,α=0.6,β=0.4? ? ? ? ? ? ?(8)

其中第一主演與第二主演的計算方式相同。Bi表示主演作為第一主演出演的第i部電影的評分,Cj表示主演不作為第一主演出演的第j部電影的評分,n為主演參演過的全部電影數。α和β為權重。如果一位主演只作為第一主演,或者從未作為第一主演,則取他作為第一主演所演過的電影的平均分或者作為其他主演所演過的電影的平均分。

(4)時長。對于時長這一屬性,在數據預處理過程中保留原數值,不對其進行處理。

(5)類型:

(9)

其中Wi、Wj、Wk分別代表各個類型全部電影的平均分。

2? 新加入特征的有效性檢驗

將數據集進行拆分,75%作為訓練集數據,25%作為測試集數據。

分別計算100棵樹、300棵樹、500棵樹以及1 000棵樹在兩種情況下的得到的隨機森林的均方誤差。兩種情況分別是原始六個因子和加入相似電影評分因子。圖1是兩種情況下隨機森林均方誤差值的對比圖,橫坐標表示森林的規模,縱坐標表示均方誤差。圖2是在使用隨機森林預測過程中得到的變量重要性情況,用條形圖進行展示。縱坐標表示各屬性所占的權重,橫坐標表示各屬性名稱。

圖1表明,一方面,加入相似電影評分因子能減小模型的均方誤差。圖2可以看出,對電影評分影響最大的特征是相似電影評分因子,雖然其他因子對評分的影響沒有相似電影評分因子影響大,但是依然對預測結果做出貢獻。因此從實驗結果可以得出結論,新加入的因子有效。

3? 基于選擇性隨機森林的電影評分預測

3.1? 算法理論基礎

3.1.1? 隨機森林

隨機森林[5-7]是一種集成學習算法,隨機森林的基學習器是決策樹,每棵決策樹沒有關聯。隨機森林相對于決策樹來說,模型有更低的泛化誤差。在回歸問題中,所有決策樹輸出結果的平均值就是隨機森林最終的輸出值。

3.1.2? 選擇性隨機森林優化算法

選擇性集成[8]是指從所有現有的基學習器中,剔除對結果作用不大或者對結果起反作用的基學習器,然后基于某種準則選擇出一部分性能好的學習器作為一個新的集成,通常,使用新的集成模型能夠使分類或者回歸的結果更準確。

隨機森林的泛化誤差與決策樹的平均泛化誤差和決策樹之間的平均相關性有關[5]。對隨機森林子集進行優化,就是在保證森林規模的前提下,考慮單棵樹的平均泛化誤差、樹與樹之間的相關關系和集成的規模三者關系,讓隨機森林的泛化誤差更加接近極限值[9]。

3.2? 基于選擇性隨機森林的電影評分預測

在本部分中使用選擇性隨機森林優化算法對電影評分進行預測。將隨機森林的規模設為1 000,迭代次數為設為100,種群個數設為50,最終得到的實驗結果如表4所示。

優化后森林的規模從原來1 000棵樹壓縮到了498棵樹,壓縮率達到了50.2%,且有更低的均方誤差為0.102 5。由于實驗所用的數據集較大,無法完全展示。因此本文采用隨機抽樣的方式,在樣本中抽取5部電影,并把5部電影的預測結果進行輸出,電影評分的真實值和預測值如表5所示。

4? 結? 論

本文選擇編劇、演員、導演、類型、劇情簡介、時長等六個屬性進行電影評分預測。并根據其中的編劇、演員、導演、類型、劇情簡介五個特征新建“相似電影評分”屬性,使用隨機森林算法優化算法進行預測,模型的均方誤差達到0.102 5,預測較準確。

本文考慮的影響未上映電影評分的因素有限,在后續的工作中會結合本次試驗的屬性重要性程度再考慮加入更多的因素,給出更精準的預測。

參考文獻:

[1] 劉明昌.豆瓣網站電影在線評分的混合預測模型研究 [D].保定:河北大學,2017.

[2] 張紅麗,劉濟郢,楊斯楠,等.基于網絡用戶評論的評分預測模型研究 [J].數據分析與知識發現,2017,1(8):48-58.

[3] 豆瓣.豆瓣電影 [EB/OL].[2021-05-04].https://movie.douban.com/.

[4] 涂銘,劉祥,劉樹春.Python自然語言處理實戰:核心技術與算法 [M].北京:機械工業出版社,2018:88-91.

[5] BREIMAN. Random Forests [J].Machine Learning,2001,45(1):5-32.

[6] 周志華.機器學習 [M].北京:清華大學出版社,2016:171-181.

[7] 李航.統計學習方法 [M].北京:清華大學出版社,2012:67-72.

[8] ZHOU Z H,WU J X,TANG W. Ensembling neural networks:Many could be better than all [J].Artificial Intelligence,2002,137 (1):239-263.

[9] 姚明煌. 隨機森林及其在遙感圖像分類中的應用 [D]. 廈門:華僑大學,2014.

作者簡介:劉林慧(1996.02—),女,漢族,黑龍江雞東人,助教,碩士研究生,主要研究方向:數據分析;王慧(1985.10—),女,漢族,黑龍江雞西人,講師,碩士研究生,主要研究方向:數學機械化。

主站蜘蛛池模板: 国产地址二永久伊甸园| 久久久久亚洲AV成人网站软件| 午夜精品久久久久久久99热下载| 日本不卡视频在线| 日韩二区三区无| 国产激情影院| 亚洲精品国偷自产在线91正片| 亚洲无码高清一区二区| 青青国产视频| 欧美精品亚洲日韩a| 亚洲床戏一区| 九色在线观看视频| 婷婷色中文网| 成人在线亚洲| 三级欧美在线| 久久9966精品国产免费| 欧美日韩专区| 亚洲精品无码在线播放网站| 久久99精品久久久大学生| 国产亚洲一区二区三区在线| 国产欧美视频在线| 国产精品毛片在线直播完整版| 亚洲欧洲一区二区三区| 亚洲天堂免费在线视频| 国产一级毛片网站| 亚洲综合久久成人AV| 四虎AV麻豆| 1769国产精品视频免费观看| 亚洲成A人V欧美综合| 色国产视频| 久久黄色免费电影| 日韩a级毛片| 99re在线免费视频| 日本精品αv中文字幕| 亚洲无码高清免费视频亚洲| 无码高清专区| 亚洲综合精品第一页| 国产精品亚洲片在线va| 久久这里只有精品免费| 久久99精品久久久久纯品| 国产综合日韩另类一区二区| 男女性午夜福利网站| 三区在线视频| 国产农村妇女精品一二区| 欧美啪啪一区| 亚洲欧美日韩久久精品| 国产91精品调教在线播放| www.91在线播放| 欧美一区二区自偷自拍视频| 国产哺乳奶水91在线播放| 亚洲人成影院午夜网站| 国产视频你懂得| 99re66精品视频在线观看| 亚洲综合色婷婷中文字幕| 精品自窥自偷在线看| 色综合热无码热国产| 波多野结衣在线se| 日韩在线永久免费播放| 97在线免费| 久久99精品久久久大学生| 久久中文字幕2021精品| 国产色网站| 国产欧美日韩资源在线观看| 人妻中文字幕无码久久一区| 激情综合激情| 伊人久久福利中文字幕| 久久五月视频| 波多野结衣国产精品| 亚洲激情99| 22sihu国产精品视频影视资讯| 四虎成人精品| 国产精品永久久久久| 中文天堂在线视频| 欧美在线视频a| 精品视频一区在线观看| 欧美自慰一级看片免费| 国产日本欧美亚洲精品视| 国产精品观看视频免费完整版| 欧美日韩精品一区二区在线线| 亚洲国产系列| 亚洲高清免费在线观看| 日韩欧美网址|